文/简成英 徐淑琴
图普科技:
从“智能鉴黄”认识“图像识别”技术
文/简成英徐淑琴
“黑科技”之“人工智能”
2016年是网络直播商业化应用起步之年。欧莱雅在美拍上通过巩俐等明星直播戛纳电影节,小米通过直播发布小米无人机,观看总人数累计达到1092万……据艾媒咨询统计,在中国有近200家在线直播平台,包括YY、腾讯、乐视、小米等大玩家,在游戏、财经、体育等细分领域,也涌现一批垂直直播平台,以游戏为主的有斗鱼、虎牙、熊猫TV、龙珠直播等平台。图像、文字、语音这类开放平台的数量正在不断增长。
华创证券的研究报告认为2015年直播行业具有120亿的市场规模,艾媒咨询的报告认为该市场规模约为90亿。随着近几年互联网市场上交友软件以及直播视频软件的流行,UGC模式大行其道,各类不法分子将违法视频、图片资源上传至网络,内容安全成了互联网公司最基本的需求。5月份,映客、花椒、在直播、陌陌等平台的40名主播因涉黄被永久封禁,“鉴黄”势在必行,市场需求激增。
人工智能“鉴黄”一度被认为是黑科技,广州图普科技正是这一技术和服务的提供者之一。据了解,图普科技早在2012年开始就着手研究“深度学习”技术,并与国内某知名实验室展开合作,将“深度学习”人工智能技术应用在图像识别上,率先推出基于图像识别技术的第三方内容审核服务,可识别色情、暴恐、小广告等违规图片和视频。图普科技利用“深度学习”技术实现了互联网图像过滤的整体解决方案,对外称识别准确率高达99.5%。
但图普科技CEO李明强认为,“鉴黄”技术或者图像识别并不是真正意义上的“黑科技”,他所理解的“黑科技”应该是没有被预料而出现的,黑科技大多数不是立即可以应用到人们身边的。一般而言,科技需要被应用,需要与一定的上下游产业相结合,所以当很多“黑科技”最早出现的时候,一开始只能说是在技术上有了一定的突破,但是在实际应用时还是需要有成熟的上下游产业相配应。
随着互联网的发展,内容安全成为互联网不得不面临的严峻挑战。早在2013年有报道称,全世界每天会上传超过5亿张图片、20万小时长的视频到互联网。单是人们每天在Instagram分享近6000万张照片,在Facebook分享近3亿张——当然,还没算上Snapchat、Google 、 Twitter等大量产图的应用。在三年后的今天,这个数值必然远超乎我们的想象。
相比过去,互联网的数据每年都在爆炸式增长。IBM相关研究称,整个人类文明所获得的全部数据中,有 90%是过去两年内产生的,等到了 2020 年,全世界所产生的数据规模将达到今天的 44倍。截止2015年底,人们在互联网上上传的照片已经超过9000亿张,一天上传到网上的照片数量就已经超过了18亿。
在互联网高速发展的情况下,从文字到语音,从语音到影像,需要监控的网站成千上万,需要侦查的文字和图像内容随着技术的发展越来越隐晦和“内涵”。在互联网1.0时代,抵制与防止“淫秽物品”的“鉴黄”工作并不显性,同样也不会应用在商业领域,追溯“鉴黄”这个职业,大概是出现在警察侦查和打击“制作、复制、贩卖、传播淫秽物品”的场景中。尤其是互联网2.0的到来,互动社区的崛起,网友的素质参差不齐,因“涉黄”被勒令关闭的网站多如牛毛。前有百度、陌陌等因为色情问题而被处罚,后有优衣库事件、快播、斗鱼直播、360云盘、115网盘、乐视网盘等事件,给互联网公司造成了不小的麻烦。
“鉴黄”一般有两种方法——人工“鉴黄”和技术“鉴黄”,水平较高的则是双管齐下。技术“鉴黄”实际上是应用了图像识别功能,将不符合规定的内容进行识别然后删除,广州图普科技就是专门利用这项技术给企业提供智能识别、鉴别服务。作为技术“鉴黄”服务的提供者之一,广州图普科技采取的方式是对问题进行分割,分为确定的和不确定的两部分,确定的部分交给机器,不确定的部分交给人工。
智能“鉴黄”为什么会被外界一度认为是黑科技?
首先,强大的数据库存入与提取是人脑不能实现的。某互联网企业某职员曾表示,“如果要说‘鉴黄’那些事,我可以讲三天三夜”。关于涉黄的规范文件,那是千百部“片子”才能解释的。尤其是情景复杂多变、内涵不一的各种暗示内容,有着千万种不同的搭配,判断涉黄与否绝非易事。“没有大面积裸露是不是就不是黄图?也未必,如果好好的一对丝袜偏要撕出好多破洞,那就算性暗示。”映客某“鉴黄师”表示,这个场景换成文字或影像理解,人脑未必能够深刻记住或者及时判断,但如果换成算法来判断,那就是“秒判”。
其次,这项技术号称要顶替“鉴黄师”。外界认为这是一项“足够犀利”的新技术,未来有望释放“鉴黄师”的巨大压力。虽然各个互联网企业都有专门的人员来做内容审核,但是无法跟上内容发展的速度,人工审核容易出现审核不及时、高成本、主观判断影响结果、人性道德等问题,并且高强度的“三班倒”工作下人工操作更容易导致审核效率低、误判漏判多等问题。
智能“鉴黄”的强大技术可解决不少麻烦。映客相关负责人曾表示,“为了对主播监管,我们成立了800人的审核队伍。”专门养800人去做审核的事情,似乎是令人难以想象的企业行为。实际上,当直播高峰期成千上万的主播在线,可以说“鉴黄”队伍真是寡不敌众。人工智能“鉴黄”的强大之处还体现在应对突发状况的能力。人工智能“鉴黄”技术应用在直播上,可以监测每时每刻的直播内容。
“鉴黄黑科技”的背后,是一项图像识别技术的应用,这项技术依靠深度学习的人工智能实现。最新的图像识别机器审核是依赖于人工智能领域最新的算法——深度学习算法,通过模拟人脑神经网络,构建具有高层次表现力的模型,能够对高复杂度数据形成良好的解读。
在图普科技CEO李明强看来,他并不觉得图像识别是个“黑科技”,反而觉得这项“黑科技”已经被广泛使用,“图像识别技术会被称为‘黑科技’的一个原因可能是普通人对科技不是特别了解,事实上图像识别在研究上已经有一定的突破,所以他们看到实际应用(“鉴黄”)的时候才会比较惊奇。”每一项技术,都有从“黑科技”角色退下来的时候,真正实现它的实际应用。
正如李明强所说,如今的机器学习、人工智能很多已经不再是我们所理解的神秘“黑科技”。
与图普科技依靠深度学习的人工智能图像识别技术提供智能“鉴黄”服务类似,更多知名互联网公司也利用图像识别等人工智能服务开启人类“第三只眼”。
微软亚太研发集团中国创新工程院资深项目经理李京梅曾表示,微软希望把智能服务带入到应用里,让想法变为现实,将语言理解变为智能服务,对应搜索引擎后面的功能,包括普通网页的搜索以及一些垂直方面比如新闻、视频的搜索,其中包括提取图像基本特征、识别名人、识别图片里的文字、智能缩略、人脸识别、情绪识别等。
微软推出人工智能服务,阿里、腾讯、百度不甘示弱,相继推出各种人工智能服务。李彦宏在2016百度联盟峰会上谈及人工智能最新进展,“深度学习在语音上的应用已经非常精准,现在的百度语音识别准确率也已经达到了97%,每天语音识别请求的PV超过1亿;此外,今天的百度图像识别与过去一年也大不一样。”
无论是微软还是百度或是图普科技,通过其拥有庞大的数据库深度学习让图像识别更加精准。“深度学习算法设计的智能程序能通过快速迭代拥有强大的学习能力,并与视频直播、社交网络、云计算等领域企业合作,积累大量图片和视频数据,克服智能程序设计中的大数据壁垒,得到高精度的智能识别结果。”李明强表示,图像识别不仅可以用来过滤违规内容,图像搜索也是一种图像识别的应用,在线下领域,比如说机器人、智能家居、智能工业制造等各个领域,都会需要图像识别和理解,它们就像机器人的眼睛一样收集外界的信息。
据介绍,计算机视觉的起源其实蛮好玩。它是源于1966年,明斯基(人工智能之父)给一个本科一年级学生布置的一个暑期项目——将电脑和相机连接起来,然后让机器描述它通过相机看到什么。计算机视觉,就是让计算机能理解它所处理的图像内容。之后计算机视觉逐渐受到重视——20世纪70年代,在解读事先选定的图片上取得一定进展;20世纪80年代,人工神经网络的研究起起伏伏,转向几何和增加数学上的严密性;20世纪90年代,人脸识别、统计分析成为研究热点;进入21世纪,计算机视觉有了更广泛的识别、大量可用的注释数据集,并开始处理视频等。
数据、计算能力和算法三个方面达到一定的积累和叠加后,导致图像识别需求与供应爆发,其中数据方面是得益于近十多年来互联网的发展,积累了海量的数据。“算法上的突破,标志性的事件是2012年的ImageNet大赛,这次大赛使得深度学习算法取得了业内的空前关注。”业内专家表示。
目前机器学习的核心技术是深度学习。李明强认为,“可以把深度学习理解为一个空白的人脑,这些大量的数据就是灌输进来的经验。深度学习是属于机器学习的一个范畴,是最新的机器学习技术,最主要体现在‘深度’这两个字。”
深度学习可以理解为“深度机器学习”,相比普通或者传统的机器学习,深度学习在神经网络的复杂度和层数都加深了,因此才会叫做“深度学习”。
图普科技早在几年前就开始着手深度学习方面的研究。“当我们把大量的色情、性感以及正常样本的属性告诉深度学习的引擎,然后让引擎不断学习,对他们正确的行为进行奖励,错误的行为进行惩罚,当然这些奖励和惩罚都是数学上的,最后空白的脑袋就会学成了一种连接的模型,这种模型就是为了鉴别色情与非色情而生的。”李明强介绍道。所以只要对机器“误判、漏判”的内容进行惩罚,然后不断重复的训练,机器就会慢慢改正,不再出现同样的“误判、漏判”,模型就是这样被不断地迭代优化。
作为第三方技术服务机构的图普科技,在商业模式和盈利模式上都较为清晰,不同于腾讯优图、阿里绿网等为自己平台的客户提供审核服务的局限性,图普科技更重视增强服务方面的优势,服务细致程度和准确度在业内评价均较高。资料显示,图普科技国内最早利用人工智能算法(深度学习等)做审核服务,也是在工程经验、服务专业度方面具有先发优势的第三方,“我们会根据不同的客户、不同的细分领域,做单独的模型调整以及算法细节的优化,专人服务对专门的客户做专业的运营。图普科技也是国内利用人工智能做智能审核的首倡者,很多定价的方法、归类的方法、接口返回的定义都为后来的同行做出了一定标准和规范。”李明强一再强调,互联网时代服务和产品是最重要的。
其次,图普科技识别接口全面,除了提供审核之外,还有包括人脸、场景、物体、车、表情、人的年龄以及服装风格等几十种识别接口,客户一次接入后,可以自行增减各种服务接口,只要一次接入,就可以满足各种需求。而使用便捷,才是真正的用户体验。“客户无需为了使用图片识别服务而绑定任何云计算平台,可以通过图普入驻的七牛、UCloud、AWS、融云等知名平台直接调用。”李明强介绍道。
阿里绿网、腾讯优图的优势则体现在技术、品牌和业务的成熟上,企业知名度更高,在新产品的推广、普及上更容易被接受,腾讯和阿里都有自己的业务线,在成熟产品销售时,可以将新产品附加给客户使用。据李明强介绍,市场上不乏一些图像识别技术领域的同行,如依图、图森、旷视科技、格灵深瞳、商汤科技等,大多数都同为创业企业,但是产品线有所差异,主要是面向安防监控、金融、广告等领域。
图普科技利用先发优势,先从“鉴黄”切入人工智能商业化应用,随着互联网内容的发展以及市场的需求,又顺势展开在暴恐识别、图片增值、图像搜索等方面的应用,可以说在发展上成功地卡位了深度学习技术,当需求爆发它就快速卡位。
在互联网信息爆炸的当下,图像识别功能已经快速应用于各大网站及APP移动手机终端。图普科技于2014年8月获北极光Pre-A轮融资数百万美元,产品在2015年4月上线后,仅1年已经和包括国家旅游局、今日头条、58同城、迅雷、酷狗、秒拍、小咖秀、唱吧、花椒直播、Bilibili、繁星网、秀色娱乐、CAMERA360、17APP、21CN、风云直播、战旗TV、糗事百科、花瓣网、微拍、妈妈网等数百家互联网企业和政企机构合作。此外,通过入驻七牛云、融云、UCloud、又拍云、AWS等云平台,间接服务了上万家客户,业务规模在快速发展中。