基于人工智能的鉴黄系统开发

2019-11-19 06:24高昌盛台州科技职业学院
数码世界 2019年11期
关键词:色情人工卷积

高昌盛 台州科技职业学院

1 引言

随着互联网的飞速发展和信息量的猛增,大量的色情、暴力、政治敏感、违法等不良信息充斥其中,严重影响着互联网的健康发展。目前随着互联网市场上交友软件以及直播视频软件的流行,中国有着各类在线直播数百家,以文字、图像、声音为传播的开放平台数量更是与日俱增,涵盖了财经、体育、游戏等各个领域,这其中既有腾讯、YY、小米等大平台,也有各类垂直直播平台。2015 年华创证券的研究报告显示,直播行业的市场规模已然达到120 亿,而艾媒咨询的报告则认为直播行业的市场规模达到90 亿。近些年UGC 模式大行其道,众多上网人员网络法律法规意识淡薄,将恶俗、色情、反动等不法视频、图片资源上传至网络,内容审查成了互联网公司最基本的需求。“鉴黄”势在必行,市场需求激增。

传统的“鉴黄”审核方式是人工审核,相关互联网企业都有专门的“鉴黄”从业人员来做内容审核,但目前的人工“鉴黄”师队伍无法跟上网络内容发展的速度,并且人工审核存在天然缺陷,包括:人力成本高、审核不及时、主观判断影响结果、人性道德等问题;加上“鉴黄”从业人员的缺乏,高强度的“三班倒”工作下,人工操作常见的审核效率低、误判漏判准确率低等问题最为常见。实际上,当直播高峰期成千上万的主播在线,可以说人工“鉴黄”师队伍真是寡不敌众。

随着计算机视觉、改进的训练数据和深度学习算法的发展,计算机现在能够以更高的精度自动分类色情图像内容。

2 神经网络结构与权衡

近 年 来, 卷 积 神 经 网 络(Convolutional Neural Network,CNN)在图像分类问题上已经非常成功。自2012 年以来,新的CNN 架构不断提高标准ImageNet 分类挑战的准确性。一些重大突破包括AlexNet(2012),GoogLeNet,VGG(2013)和Residual Networks(2015)。

CNN 是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现,它包括卷积层(alternating convolutional layer)和池层(pooling layer)。在常见构筑中,卷积层和池化层为卷积神经网络特有。卷积层中的卷积核包含权重系数,而池化层不包含权重系数,因此在文献中,池化层可能不被认为是独立的层。卷积层的功能是对输入数据进行特征提取,其内部包含多个卷积核。在卷积层进行特征提取后,输出的特征图会被传递至池化层进行特征选择和信息过滤。

这些网络在运行时,内存要求和准确性方面有不同的权衡。运行时和内存要求的主要指标是:

触发器或连接-神经网络中的连接数决定了正向传递期间的计算操作数,这与图像分类时网络的运行时间成正比。

参数-神经网络中的参数数量决定了加载网络所需的内存量。

理想情况下,我们需要一个具有最小触发器和最小参数的网络,这将实现最大精度。

3 系统实现

3.1 系统建模

我们使用一个简单的卷积网络模型,以正图像(色情图片)和负图像(正常的图片)做为数据训练模型。使用Caffe 深度学习库与CaffeOnSpark 进行训练。后者是一个强大的分布式学习开源框架,它将Caffe 深入学习Hadoop 和Spark 集群用于训练模型。

在训练时我们将图像调整为256*256 的正方形图片,并进行水平翻转以进行数据增强,随后将图片进行随机裁剪后进入神经网络。

这个AI 鉴黄方案叫NSFW JS,它在GitHub上进行了开源,可以点此进入它的GitHub 主页。开发者可以插入它的相关代码,将其运用到相应的产品当中。NSFW JS 网页版使用起来还是比较简单的,等待代码加载完成后,将图片拖动到网页中的识别框就可以了。NSFW JS 会智能识别图片,并能在下方给出图片涉及怎样的内容的概率。

3.2 视频鉴定

视频的鉴定在NSFW 项目的基础上面改进了封装,用来检测视频是否是色情视频。首先,这个项目是基于Caffe 的,使用的网络结构是ResNet 网络。使用FFMPEG 完成对视频的检测,从视频中提取帧数,每N 秒提取一次图像,为了检测更加精确,可以修改N 的间隔时间。

检测分为三个等级,score<0.2 的表示很安全,socre>0.8 的表示有很大的可能性是色情的,最后进行程序输出。

输出页面的内容包括:总共提取检测视频中的图像帧数;很安全safe 的数量,占的比重(socre<0.2);medimum 介于危险和安全之间的数量、比重(score>=0.2&&score<=0.8);dangerous,有很大可能性是色情占的比重(score>0.8)。

最后我们可以根据dangerous 占的比重可以确定视频是否是色情视频,再交由人工审核确认,可以有效降低鉴黄师的工作量。

4 实验测试

最后运行命令:

Python launch_video_detact.py --comtent 2017.mp4 --step 30

设置隔30 秒提取的帧数,检测的影片是《看不见的客人》,实验结果如下:

92.453 %概率显示确定《看不见的客人》非常安全,可以不用交于人工审核。

再对NPDI 测试集里的一段视频进行检测,dangerous 所占比重超过80%,需要交由人工审核。

结语

利用python 和卷积神经网络技术,通过学习足够数量的样本,从数据中自己构建模型,开发基于人工智能的鉴黄系统,同步客户审核标准。先对图片和视频进行机器审核,智能评定安全等级;再将疑似色情低俗内容视频、图片交付人工审核确认,能有效改变传统方式下“鉴黄”师人工通过肉眼鉴别色情图片和视频效率低下、误判率高等问题,达到高效准确的目的。

猜你喜欢
色情人工卷积
人工3D脊髓能帮助瘫痪者重新行走?
基于3D-Winograd的快速卷积算法设计及FPGA实现
一种并行不对称空洞卷积模块①
人工“美颜”
西班牙担忧色情视频毁了青少年
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法
日本“色情报复”增多
人工制冷
警察培训“色情侦探犬”搜寻色情信息存储设备