利用智能审核平台对数字内容作品把控的探讨

2018-03-28 11:46姜波

传媒论坛 2018年5期

姜波

(中文在线数字出版集团股份有限公司，北京 100006)

近年来，数字化迅速发展的同时，面临日益复杂的内、外部环境。网络上的数字内容良莠不齐；邪教组织利用网络文学、图片、视频、音频等传播手段，散布歪理邪说，宣扬迷信、色情、暴力、凶杀；分裂主义分子利用互联网及移动互联网媒介，煽动民族分裂、危害国家统一；部分网站传播大量庸俗、媚俗甚至格调低下的内容而牟取利益。特别是在自媒体时代的网络环境下，内容的体量呈爆发式增长，内容类型日益多样，内容生产、传播方式发生巨大改变，传统的内容审核、监管方式耗费的资源在大幅增长，但效率和效力却难以提高。

目前各大网站的内容审核，往往采用人工审核的形式，审核人员对内容信息逐条进行分析判断，不管是效率还是准确性都难以得到保证。在技术不断成熟的今天，自然语言处理、图像识别、声纹识别等人工智能技术已在一些领域得到了运用。人工智能技术的引入，可以彻底改变传统的内容审核形式，实现对互联网内容信息的实时审核。无论是审核效率还是审核精度，都将得到极大提升。运用大数据分析、人工智能技术对数字内容审核、过滤方式进行革新，将高科技与传统编审机制进行融合，将人力密集、脑力密集向创新密集、技术密集转型升级，是解决数字出版行业内容过滤困境的有效途径和必然发展趋势。

本文主要介绍对图文音视等不同内容的审核过滤，基于大数据分析的内容过滤平台的流程和关键技术，应用于电子书、网络文学、有声读物、影视、短视频、直播平台等数字出版产品的内容审核环节，成为人工审核的替代工具和重要辅助手段。

一、各种过滤系统的特点

(一)文本过滤系统

基于海量文本特征库沉淀，搭配上百种文本识别策略模型，结合语义分析技术，通过智能算法和实时更新的样本库，可对文本内容进行识别以及色情程度量化，建立一个可自学习的系统。用户使用系统进行文本识别，系统就可以收集数据并不断自我学习，而且用户使用得越多，系统就会越强大。理论上，经过数据的积累以及长时间的模型训练，识别成功率可以接近100%。

智能文本过滤系统会在审核服务结束后输出负面指数，负面指数越高，负面程度越大。

(1)关键词库建立与比对。关键词过滤，也称关键字过滤，指网络应用中，对传输信息进行预先的程序过滤、嗅探指定的关键字词，并进行智能识别，检查网络中是否有违反指定策略的行为。

基于智能识别和关键词库,实时检测过滤垃圾信息。建立敏感内容数据库系统，建立初期，由人工对敏感数据内容库(图书、音频、视频等)进行整理分类，形成初步敏感内容数据库，主要包括敏感图片、敏感音视频、敏感图书、敏感词等，数据库支持数据的导入导出，支持人工编辑(增、删、改、查)，词库的建设与热点抓取和舆情预警等分析功能相结合，敏感内容库可直接对待审核内容进行匹配，同时审核过程中发现的新内容可以加入到敏感内容库。

(2)内容语义分析。运用自然语言处理(NLP)、数据挖掘等技术，根据文本内容的语境等要素分析和理解文本内容的含义，并根据设定的过滤标准，对内容进行合规性判断，从而完成对内容的审核过滤。在相同过滤标准的情境下，智能文本审核系统与人工审核结果高度一致，但在数据处理量少远高于人工，且具备自动学习、稳定输出等特性。

(二)音频过滤系统

音频过滤系统运用语音转写技术，将音频内容转换成文字信息，利用文本过滤系统进行审核过滤。

主要应用场景是针对语音为主的节目，比如网络音视频资源审核、网络直播、谈话聊天、脱口秀、在线广播等。

音频过滤的关键技术是以下几种:①语音识别:准确识别音频的内容、事实并将其转化为文字。②语音预处理技术:包括音频编解码、噪声消除(软件处理，硬件解决方案)、语音信号增强。③语义识别:对语音识别后的文本结果进行分析，结合上下文，来判断真实意图。④语种识别、男女声识别:识别方言、外语语种、发音人性别识别。⑤流媒体技术:在实时音频数据处理中，需要用到数据切分、数据缓存。⑥云平台技术:云服务架构设计、服务模块化整合、负载均衡等。⑦大数据技术:海量数据存储、训练样本自动提取、模型训练等。

(三)图片过滤系统

图片过滤系统是基于深度学习算法的智能审核方案，图像识别引擎根据图像的颜色、纹理等特征来对敏感图像进行过滤，这一过程会检测肢体轮廓等关键特征信息，然后对检测图像特征与特征库模型里面的特征相似度进行匹配，给予待测图像不同维度的权重值，以权重值最高的作为判定结果输出。准确识别图片和视频中的涉黄、涉暴、涉恐、政治敏感、微商广告以及令人恶心等内容，也能从美观和清晰等维度对图像进行筛选，帮助规避审查风险的同时极大降低人工成本。并且，通过大数据持续训练、频繁迭代，不断构建具有高层次表现力的模型，从而对高复杂度数据形成良好解读。

主要用于:①色情识别。依托全网海量优质数据和深度神经网络技术，智能鉴别色情图片内容，为内容产品保驾护航，远离违规风险。②暴恐识别。识别暴力、血腥场景及恐怖组织头目、旗帜等涉嫌违禁的图片和视频内容，降低应用涉暴、涉恐风险。③政治敏感识别。识别政治人物与敏感政治事件场景、旗帜标志等，帮助UGC、IM、BBS类产品在敏感时期规避相关风险。④广告检测。智能检测图像中的文字、水印、二维码、条形码，检测各种微商广告，净化应用。⑤恶心图像识别。准确识别恶心、令人不适类的图像，包含解剖、昆虫类、生理病变、会引起密集恐惧症等的图像。⑥用户头像审核。对用户头像进行合规判断，含人脸检测，涉黄、涉敏检测，广告检测等。现已支持自定义设置审核规则。⑦图像质量检测。图像美观度与清晰度识别，检测图像色彩、构图及是否存在模糊、失焦、噪点、锯齿、马赛克等情况。

(四)视频过滤系统

视频过滤系统为音频过滤与图片过滤系统两者的结合，一方面利用自动截屏技术，抓取视频关键帧，通过图片过滤系统实现信息过滤。一方面结合音频，综合分析判断。

在直播的时候，每个直播间会间隔一秒或几秒采集一个关键帧，关键帧会发送到图像识别引擎，引擎根据图像的颜色、纹理等特征来对敏感图像进行过滤。基于图像识别的视频涉黄检测准确率可以达到99%以上，可以为视频直播平台节省70%以上的工作量。

二、相关的关键技术

(一)自然语言处理

该技术所涵盖的研究内容非常广泛，从研究成果的表现形式来说，可以分为三个层面:基础技术层、应用技术层和产品服务层。本项目主要运用基础技术层的技术，运用人工智能芯片、机器学习算法技术，使机器对文字中的负面信息的识别率达到99%以上，在实际应用中，可取代90%的人力。

(二)语音转写

基于深度全序列卷积神经网络，将长段音频数据转换成文本数据，并运用自然语言处理技术，将音频的审核文字化，审核效率提高90%以上。

(三)图像识别

依托海量图片样本进行深度识别训练，基于深度学习技术，可以高效准确地鉴别色情图片、性感图片、涉政图片、恐暴图片等，算法识别准确率达到99.9%以上，远超人工识别水平，实际工作中可以取代90%人力，而且针对图片自动识别领域最难的擦边球界定问题，引擎采用了分离图谱技术，精准识别。

三、总结

本文主要介绍了在网站、广告、新闻、电商、直播、社交、游戏、视频、微博、微信等领域和传播渠道，针对图文音视多种类型的内容应用技术手段进行智能审核内容把控的安全机制，为人工审读提供帮助和辅助工作，极大减少了人工的工作，提高了工作效率。