图普科技：从“智能鉴黄”认识“图像识别”技术

2016-03-15 07:17:25简成英徐淑琴

广东科技 2016年15期

文/简成英　徐淑琴

图普科技：
从“智能鉴黄”认识“图像识别”技术

文/简成英徐淑琴

“黑科技”之“人工智能”

2016年是网络直播商业化应用起步之年。欧莱雅在美拍上通过巩俐等明星直播戛纳电影节，小米通过直播发布小米无人机，观看总人数累计达到1092万……据艾媒咨询统计，在中国有近200家在线直播平台，包括YY、腾讯、乐视、小米等大玩家，在游戏、财经、体育等细分领域，也涌现一批垂直直播平台，以游戏为主的有斗鱼、虎牙、熊猫TV、龙珠直播等平台。图像、文字、语音这类开放平台的数量正在不断增长。

华创证券的研究报告认为2015年直播行业具有120亿的市场规模，艾媒咨询的报告认为该市场规模约为90亿。随着近几年互联网市场上交友软件以及直播视频软件的流行，UGC模式大行其道，各类不法分子将违法视频、图片资源上传至网络，内容安全成了互联网公司最基本的需求。5月份，映客、花椒、在直播、陌陌等平台的40名主播因涉黄被永久封禁，“鉴黄”势在必行，市场需求激增。

人工智能“鉴黄”一度被认为是黑科技，广州图普科技正是这一技术和服务的提供者之一。据了解，图普科技早在2012年开始就着手研究“深度学习”技术，并与国内某知名实验室展开合作，将“深度学习”人工智能技术应用在图像识别上，率先推出基于图像识别技术的第三方内容审核服务，可识别色情、暴恐、小广告等违规图片和视频。图普科技利用“深度学习”技术实现了互联网图像过滤的整体解决方案，对外称识别准确率高达99.5%。

但图普科技CEO李明强认为，“鉴黄”技术或者图像识别并不是真正意义上的“黑科技”，他所理解的“黑科技”应该是没有被预料而出现的，黑科技大多数不是立即可以应用到人们身边的。一般而言，科技需要被应用，需要与一定的上下游产业相结合，所以当很多“黑科技”最早出现的时候，一开始只能说是在技术上有了一定的突破，但是在实际应用时还是需要有成熟的上下游产业相配应。

“智能鉴黄”为何一度成为黑科技？

随着互联网的发展，内容安全成为互联网不得不面临的严峻挑战。早在2013年有报道称，全世界每天会上传超过5亿张图片、20万小时长的视频到互联网。单是人们每天在Instagram分享近6000万张照片，在Facebook分享近3亿张——当然，还没算上Snapchat、Google 、 Twitter等大量产图的应用。在三年后的今天，这个数值必然远超乎我们的想象。

相比过去，互联网的数据每年都在爆炸式增长。IBM相关研究称，整个人类文明所获得的全部数据中，有 90%是过去两年内产生的，等到了 2020 年，全世界所产生的数据规模将达到今天的 44倍。截止2015年底，人们在互联网上上传的照片已经超过9000亿张，一天上传到网上的照片数量就已经超过了18亿。

在互联网高速发展的情况下，从文字到语音，从语音到影像，需要监控的网站成千上万，需要侦查的文字和图像内容随着技术的发展越来越隐晦和“内涵”。在互联网1.0时代，抵制与防止“淫秽物品”的“鉴黄”工作并不显性，同样也不会应用在商业领域，追溯“鉴黄”这个职业，大概是出现在警察侦查和打击“制作、复制、贩卖、传播淫秽物品”的场景中。尤其是互联网2.0的到来，互动社区的崛起，网友的素质参差不齐，因“涉黄”被勒令关闭的网站多如牛毛。前有百度、陌陌等因为色情问题而被处罚，后有优衣库事件、快播、斗鱼直播、360云盘、115网盘、乐视网盘等事件，给互联网公司造成了不小的麻烦。

“鉴黄”一般有两种方法——人工“鉴黄”和技术“鉴黄”，水平较高的则是双管齐下。技术“鉴黄”实际上是应用了图像识别功能，将不符合规定的内容进行识别然后删除，广州图普科技就是专门利用这项技术给企业提供智能识别、鉴别服务。作为技术“鉴黄”服务的提供者之一，广州图普科技采取的方式是对问题进行分割，分为确定的和不确定的两部分，确定的部分交给机器，不确定的部分交给人工。

智能“鉴黄”为什么会被外界一度认为是黑科技？

首先，强大的数据库存入与提取是人脑不能实现的。某互联网企业某职员曾表示，“如果要说‘鉴黄’那些事，我可以讲三天三夜”。关于涉黄的规范文件，那是千百部“片子”才能解释的。尤其是情景复杂多变、内涵不一的各种暗示内容，有着千万种不同的搭配，判断涉黄与否绝非易事。“没有大面积裸露是不是就不是黄图？也未必，如果好好的一对丝袜偏要撕出好多破洞，那就算性暗示。”映客某“鉴黄师”表示，这个场景换成文字或影像理解，人脑未必能够深刻记住或者及时判断，但如果换成算法来判断，那就是“秒判”。

其次，这项技术号称要顶替“鉴黄师”。外界认为这是一项“足够犀利”的新技术，未来有望释放“鉴黄师”的巨大压力。虽然各个互联网企业都有专门的人员来做内容审核，但是无法跟上内容发展的速度，人工审核容易出现审核不及时、高成本、主观判断影响结果、人性道德等问题，并且高强度的“三班倒”工作下人工操作更容易导致审核效率低、误判漏判多等问题。

智能“鉴黄”的强大技术可解决不少麻烦。映客相关负责人曾表示，“为了对主播监管，我们成立了800人的审核队伍。”专门养800人去做审核的事情，似乎是令人难以想象的企业行为。实际上，当直播高峰期成千上万的主播在线，可以说“鉴黄”队伍真是寡不敌众。人工智能“鉴黄”的强大之处还体现在应对突发状况的能力。人工智能“鉴黄”技术应用在直播上，可以监测每时每刻的直播内容。

“鉴黄黑科技”的背后，是一项图像识别技术的应用，这项技术依靠深度学习的人工智能实现。最新的图像识别机器审核是依赖于人工智能领域最新的算法——深度学习算法，通过模拟人脑神经网络，构建具有高层次表现力的模型，能够对高复杂度数据形成良好的解读。

在图普科技CEO李明强看来，他并不觉得图像识别是个“黑科技”，反而觉得这项“黑科技”已经被广泛使用，“图像识别技术会被称为‘黑科技’的一个原因可能是普通人对科技不是特别了解，事实上图像识别在研究上已经有一定的突破，所以他们看到实际应用（“鉴黄”）的时候才会比较惊奇。”每一项技术，都有从“黑科技”角色退下来的时候，真正实现它的实际应用。

图像识别开启人类“第三只眼”

正如李明强所说，如今的机器学习、人工智能很多已经不再是我们所理解的神秘“黑科技”。

与图普科技依靠深度学习的人工智能图像识别技术提供智能“鉴黄”服务类似，更多知名互联网公司也利用图像识别等人工智能服务开启人类“第三只眼”。

微软亚太研发集团中国创新工程院资深项目经理李京梅曾表示，微软希望把智能服务带入到应用里，让想法变为现实，将语言理解变为智能服务，对应搜索引擎后面的功能，包括普通网页的搜索以及一些垂直方面比如新闻、视频的搜索，其中包括提取图像基本特征、识别名人、识别图片里的文字、智能缩略、人脸识别、情绪识别等。

微软推出人工智能服务，阿里、腾讯、百度不甘示弱，相继推出各种人工智能服务。李彦宏在2016百度联盟峰会上谈及人工智能最新进展，“深度学习在语音上的应用已经非常精准，现在的百度语音识别准确率也已经达到了97%，每天语音识别请求的PV超过1亿；此外，今天的百度图像识别与过去一年也大不一样。”

无论是微软还是百度或是图普科技，通过其拥有庞大的数据库深度学习让图像识别更加精准。“深度学习算法设计的智能程序能通过快速迭代拥有强大的学习能力，并与视频直播、社交网络、云计算等领域企业合作，积累大量图片和视频数据，克服智能程序设计中的大数据壁垒，得到高精度的智能识别结果。”李明强表示，图像识别不仅可以用来过滤违规内容，图像搜索也是一种图像识别的应用，在线下领域，比如说机器人、智能家居、智能工业制造等各个领域，都会需要图像识别和理解，它们就像机器人的眼睛一样收集外界的信息。

据介绍，计算机视觉的起源其实蛮好玩。它是源于1966年，明斯基（人工智能之父）给一个本科一年级学生布置的一个暑期项目——将电脑和相机连接起来，然后让机器描述它通过相机看到什么。计算机视觉，就是让计算机能理解它所处理的图像内容。之后计算机视觉逐渐受到重视——20世纪70年代，在解读事先选定的图片上取得一定进展；20世纪80年代，人工神经网络的研究起起伏伏，转向几何和增加数学上的严密性；20世纪90年代，人脸识别、统计分析成为研究热点；进入21世纪，计算机视觉有了更广泛的识别、大量可用的注释数据集，并开始处理视频等。

图普科技深度学习怎么卡位？

数据、计算能力和算法三个方面达到一定的积累和叠加后，导致图像识别需求与供应爆发，其中数据方面是得益于近十多年来互联网的发展，积累了海量的数据。“算法上的突破，标志性的事件是2012年的ImageNet大赛，这次大赛使得深度学习算法取得了业内的空前关注。”业内专家表示。

目前机器学习的核心技术是深度学习。李明强认为，“可以把深度学习理解为一个空白的人脑，这些大量的数据就是灌输进来的经验。深度学习是属于机器学习的一个范畴，是最新的机器学习技术，最主要体现在‘深度’这两个字。”

深度学习可以理解为“深度机器学习”，相比普通或者传统的机器学习，深度学习在神经网络的复杂度和层数都加深了，因此才会叫做“深度学习”。

图普科技早在几年前就开始着手深度学习方面的研究。“当我们把大量的色情、性感以及正常样本的属性告诉深度学习的引擎，然后让引擎不断学习，对他们正确的行为进行奖励，错误的行为进行惩罚，当然这些奖励和惩罚都是数学上的，最后空白的脑袋就会学成了一种连接的模型，这种模型就是为了鉴别色情与非色情而生的。”李明强介绍道。所以只要对机器“误判、漏判”的内容进行惩罚，然后不断重复的训练，机器就会慢慢改正，不再出现同样的“误判、漏判”，模型就是这样被不断地迭代优化。

作为第三方技术服务机构的图普科技，在商业模式和盈利模式上都较为清晰，不同于腾讯优图、阿里绿网等为自己平台的客户提供审核服务的局限性，图普科技更重视增强服务方面的优势，服务细致程度和准确度在业内评价均较高。资料显示，图普科技国内最早利用人工智能算法（深度学习等）做审核服务，也是在工程经验、服务专业度方面具有先发优势的第三方，“我们会根据不同的客户、不同的细分领域，做单独的模型调整以及算法细节的优化，专人服务对专门的客户做专业的运营。图普科技也是国内利用人工智能做智能审核的首倡者，很多定价的方法、归类的方法、接口返回的定义都为后来的同行做出了一定标准和规范。”李明强一再强调，互联网时代服务和产品是最重要的。

其次，图普科技识别接口全面，除了提供审核之外，还有包括人脸、场景、物体、车、表情、人的年龄以及服装风格等几十种识别接口，客户一次接入后，可以自行增减各种服务接口，只要一次接入，就可以满足各种需求。而使用便捷，才是真正的用户体验。“客户无需为了使用图片识别服务而绑定任何云计算平台，可以通过图普入驻的七牛、UCloud、AWS、融云等知名平台直接调用。”李明强介绍道。

阿里绿网、腾讯优图的优势则体现在技术、品牌和业务的成熟上，企业知名度更高，在新产品的推广、普及上更容易被接受，腾讯和阿里都有自己的业务线，在成熟产品销售时，可以将新产品附加给客户使用。据李明强介绍，市场上不乏一些图像识别技术领域的同行，如依图、图森、旷视科技、格灵深瞳、商汤科技等，大多数都同为创业企业，但是产品线有所差异，主要是面向安防监控、金融、广告等领域。

图普科技利用先发优势，先从“鉴黄”切入人工智能商业化应用，随着互联网内容的发展以及市场的需求，又顺势展开在暴恐识别、图片增值、图像搜索等方面的应用，可以说在发展上成功地卡位了深度学习技术，当需求爆发它就快速卡位。

在互联网信息爆炸的当下，图像识别功能已经快速应用于各大网站及APP移动手机终端。图普科技于2014年8月获北极光Pre-A轮融资数百万美元，产品在2015年4月上线后，仅1年已经和包括国家旅游局、今日头条、58同城、迅雷、酷狗、秒拍、小咖秀、唱吧、花椒直播、Bilibili、繁星网、秀色娱乐、CAMERA360、17APP、21CN、风云直播、战旗TV、糗事百科、花瓣网、微拍、妈妈网等数百家互联网企业和政企机构合作。此外，通过入驻七牛云、融云、UCloud、又拍云、AWS等云平台，间接服务了上万家客户，业务规模在快速发展中。