基于人工智能的鉴黄系统开发

2019-11-19 06:24高昌盛台州科技职业学院

数码世界 2019年11期

高昌盛台州科技职业学院

1 引言

随着互联网的飞速发展和信息量的猛增，大量的色情、暴力、政治敏感、违法等不良信息充斥其中，严重影响着互联网的健康发展。目前随着互联网市场上交友软件以及直播视频软件的流行，中国有着各类在线直播数百家，以文字、图像、声音为传播的开放平台数量更是与日俱增，涵盖了财经、体育、游戏等各个领域，这其中既有腾讯、YY、小米等大平台，也有各类垂直直播平台。2015 年华创证券的研究报告显示，直播行业的市场规模已然达到120 亿，而艾媒咨询的报告则认为直播行业的市场规模达到90 亿。近些年UGC 模式大行其道，众多上网人员网络法律法规意识淡薄，将恶俗、色情、反动等不法视频、图片资源上传至网络，内容审查成了互联网公司最基本的需求。“鉴黄”势在必行，市场需求激增。

传统的“鉴黄”审核方式是人工审核，相关互联网企业都有专门的“鉴黄”从业人员来做内容审核，但目前的人工“鉴黄”师队伍无法跟上网络内容发展的速度，并且人工审核存在天然缺陷，包括：人力成本高、审核不及时、主观判断影响结果、人性道德等问题；加上“鉴黄”从业人员的缺乏，高强度的“三班倒”工作下，人工操作常见的审核效率低、误判漏判准确率低等问题最为常见。实际上，当直播高峰期成千上万的主播在线，可以说人工“鉴黄”师队伍真是寡不敌众。

随着计算机视觉、改进的训练数据和深度学习算法的发展，计算机现在能够以更高的精度自动分类色情图像内容。

2 神经网络结构与权衡

近年来，卷积神经网络（Convolutional Neural Network,CNN）在图像分类问题上已经非常成功。自2012 年以来，新的CNN 架构不断提高标准ImageNet 分类挑战的准确性。一些重大突破包括AlexNet（2012），GoogLeNet，VGG（2013）和Residual Networks（2015）。

CNN 是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现，它包括卷积层(alternating convolutional layer)和池层(pooling layer)。在常见构筑中，卷积层和池化层为卷积神经网络特有。卷积层中的卷积核包含权重系数，而池化层不包含权重系数，因此在文献中，池化层可能不被认为是独立的层。卷积层的功能是对输入数据进行特征提取，其内部包含多个卷积核。在卷积层进行特征提取后，输出的特征图会被传递至池化层进行特征选择和信息过滤。

这些网络在运行时，内存要求和准确性方面有不同的权衡。运行时和内存要求的主要指标是：

触发器或连接-神经网络中的连接数决定了正向传递期间的计算操作数，这与图像分类时网络的运行时间成正比。

参数-神经网络中的参数数量决定了加载网络所需的内存量。

理想情况下，我们需要一个具有最小触发器和最小参数的网络，这将实现最大精度。

3 系统实现

3.1 系统建模

我们使用一个简单的卷积网络模型，以正图像（色情图片）和负图像（正常的图片）做为数据训练模型。使用Caffe 深度学习库与CaffeOnSpark 进行训练。后者是一个强大的分布式学习开源框架，它将Caffe 深入学习Hadoop 和Spark 集群用于训练模型。

在训练时我们将图像调整为256*256 的正方形图片，并进行水平翻转以进行数据增强，随后将图片进行随机裁剪后进入神经网络。

这个AI 鉴黄方案叫NSFW JS，它在GitHub上进行了开源，可以点此进入它的GitHub 主页。开发者可以插入它的相关代码，将其运用到相应的产品当中。NSFW JS 网页版使用起来还是比较简单的，等待代码加载完成后，将图片拖动到网页中的识别框就可以了。NSFW JS 会智能识别图片，并能在下方给出图片涉及怎样的内容的概率。

3.2 视频鉴定

视频的鉴定在NSFW 项目的基础上面改进了封装，用来检测视频是否是色情视频。首先，这个项目是基于Caffe 的，使用的网络结构是ResNet 网络。使用FFMPEG 完成对视频的检测，从视频中提取帧数，每N 秒提取一次图像，为了检测更加精确，可以修改N 的间隔时间。

检测分为三个等级，score＜0.2 的表示很安全，socre>0.8 的表示有很大的可能性是色情的，最后进行程序输出。

输出页面的内容包括：总共提取检测视频中的图像帧数；很安全safe 的数量，占的比重（socre＜0.2）；medimum 介于危险和安全之间的数量、比重（score>=0.2&&score＜=0.8）；dangerous，有很大可能性是色情占的比重（score>0.8）。

最后我们可以根据dangerous 占的比重可以确定视频是否是色情视频，再交由人工审核确认，可以有效降低鉴黄师的工作量。

4 实验测试

最后运行命令：

Python launch_video_detact.py --comtent 2017.mp4 --step 30

设置隔30 秒提取的帧数，检测的影片是《看不见的客人》，实验结果如下：

92.453 %概率显示确定《看不见的客人》非常安全，可以不用交于人工审核。

再对NPDI 测试集里的一段视频进行检测，dangerous 所占比重超过80%，需要交由人工审核。

结语

利用python 和卷积神经网络技术，通过学习足够数量的样本，从数据中自己构建模型，开发基于人工智能的鉴黄系统，同步客户审核标准。先对图片和视频进行机器审核，智能评定安全等级；再将疑似色情低俗内容视频、图片交付人工审核确认，能有效改变传统方式下“鉴黄”师人工通过肉眼鉴别色情图片和视频效率低下、误判率高等问题，达到高效准确的目的。