行业背景
国家网信办部署开展的2022年“清朗”系列专项行动,聚焦影响面广、危害性大的问题开展整治,具体有10个方面重点任务,其中包括“清朗·2022年暑期未成年人网络环境整治”专项行动,着力为未成年人营造健康安全干净的网络环境,重点清理影响青少年身心健康、妨碍青少年上网学习的不良信息,重点整治涉未成年人网络乱象;督促网站平台进一步完善和推广青少年模式。
国家与社会的现实需求,促使半岛.综合体育入口在内容安全的监测和分析上,寻求更强有力的技术手段。
应用价值
深度学习是业界在内容识别技术中使用的最强大武器之一,在搜索技术,数据挖掘,机器学习,机器翻译,自然语言处理,多媒体学习,语音,推荐和个性化技术等领域都取得过很多成果。
深度学习使机器模仿视听和思考等人类的活动,解决了很多复杂的模式识别难题。通过学习样本数据的内在规律和表示层次,获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的终极目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。
通过深度学习技术,不仅能够极大地扩展内容识别宽度,更能提升内容识别的速度,降低人工参与度,使得智能化的内容审核成为可能。
技术原理
本文主要从三个应用方向介绍深度学习技术的基本原理:智能图像识别、目标检测、自然语言处理。
01 智能图像识别技术
深度学习的优势是用非监督式或半监督式的特征学习和分层特征提取高效算法来替代手工获取特征。其中,卷积神经网络对于大型图像处理有出色表现。
卷积神经网络由一个或多个卷积层和顶端的全连通层(对应经典的神经网络)组成,同时也包括关联权重和池化层。这一结构使得卷积神经网络能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网络在图像和语音识别方面能够给出更优的结果。
图1 卷积神经网络结构模型
通过构建多层的卷积神经网络架构,采用ReLU激活函数,形成上百万个权值以及几十亿个连接,最终实现图像的智能精准识别。
深度学习的另一个优势在于可以利用海量训练数据,在学习的过程中不断提高识别精度,智能图像识别技术核心在学习的过程中不断提高识别精度,可以更精准的判定图片类型,同时可以基于特征主动发现暴恐、色情等图片。
02 目标检测技术
网络图片内的敏感目标物体(旗帜、Logo)的尺寸变化范围很大,摆放物体的角度,姿态不定,而且可以出现在图片的任何地方,采用图片整体检测的方式容易误报。采用目标检测技术对图片中出现的暴恐信息进行精准识别。目标检测技术可在给定的图片中精准找到物体所在位置,并标注出物体的类别。
图2 目标检测流程示意
03 自然语言处理技术
基于深度学习的自然语言处理技术,能有效识别关键字策略之外的色情、暴恐、广告、辱骂等文本垃圾。深度学习用于文本识别的优点在于可以使用非监督数据训练字词向量,提升泛化能力,克服传统文本识别必须预先设置策略的缺点。
结合实时社会新闻、舆情等信息,再利用深度学习算法自动获取特征表达能力,去掉繁杂的人工特征工程,端到端地解决问题,快速更新算法特征库,可及时响应各类事件的审计要求。
图3 自然语言处理模型
半岛.综合体育入口方案
利用基于深度学习的智能图像识别、目标检测、自然语言处理等技术,半岛.综合体育入口内容安全解决方案可实现对网站,app,公众号,小程序等各类媒介的内容安全识别和分析,全面覆盖文字、图片、音频和视频内容,提供数据采集,内容分析,人工服务,闭环处置的全流程服务,核心优势包括:
策略完善
积累了14年内容策略知识库,与多个监管线条同步更新策略规则,现运行策略40余类,合计17万条。
识别精准
具有业界顶尖的内容识别技术;采用基于深度神经网络学习算法的图片识别算法,结合内置样例图片库,实现色情、暴恐等信息的智能识别,识别准确率>99.5%,可减少90%人工审计工作量。
覆盖全面
全面覆盖国内30余万个备案网站,80余万个一级域名,每天处理网页访问日志量达10TB,每天覆盖的网络带宽超过1TB,网页13亿。累计发现违规网站域名共计8万个,违规URL链接9300万条。
部委支撑
● 协助部分省份网信办完成专项支撑工作。
● 作为CNCERT网络安全应急服务支撑单位,保障了14个省分中心的日常应急支撑工作。
● 成功协助公安追查特定事件29起,配合运营商提供专项支撑209次。
● 完成重大时期保障(两会、全国代表大会、峰会、高峰论坛等)60余次。
— 往期回顾 —