袁斯来
杭州万象城,中午时分,肯德基KPro餐厅人来人往。和一般的肯德基连锁店有所不同,在支付宝上开通“刷脸支付”功能后,用户点餐完毕,站在摄像头前刷一下脸,几秒钟就能完成支付。
在中国农业銀行37个支行的超级柜台,前往办理业务的储户脱了帽子扫一下脸,输入自己的身份证号和取款密码后,交易便自动启动。
这些像极了科幻电影的场景正逐步出现在我们的现实生活中。可以预见的是,在未来,你甚至不带手机也能完成支付—你的脸即是密码。随着现代技术的进步,准确来说,伴随着摄像头、传感器和移动网络的普及,技术公司正在向人们展示,人脸不只可以表达喜怒哀乐的情绪,它们代表着独一无二的生物识别—“脸纹”。
“你进来之后我知道你是哪个会员,你去交款的时候我就知道你买了什么样的东西。”旷视科技市场总经理谢忆楠描述到。该公司为蚂蚁金服提供Smile to Pay扫脸技术,2015年3月德国汉诺威消费电子、信息及通信博览会现场,马云靠“刷脸”在阿里巴巴官网购买了一枚1948年的汉诺威纪念邮票。
技术正在迅速赶上人类研读脸部的能力,“找人”和“认人”是人脸识别目前应用的主要场景。通过传感器实现三维图像,以结构光的方式获取空间中物体的深度信息。基于此,计算机就可以识别和分析图像中人的行为。
一定程度上这代表了阿里巴巴的态度。“那个时候刷脸支付还是大家没见过的,但马云演示后,大家突然觉得靠谱了,都认为人脸识别可能是未来的一个新方向。”谢忆楠回忆道。
刷脸支付只是“人脸识别”技术应用场景之一,它代替了密码,同时让支付变得更有趣味。在未来零售新形式中,人脸识别可能是后台最基础的功能—顾客的行走路线,每样产品拿起的比率,这些消费行为都会通过AI视觉技术转换为数据,进入后台。
和其他生物特征数据有所不同的是,人脸识别可以远距离起作用,人们只要用手机拍张照片,就可以启用面部识别程序。比如银行在线办理远程业务时,人脸识别取代传统的人工服务验证人和证件是否统一,辨别电脑前的是照片还是真人。
事实上,更广泛的应用领域还包括安防和政府事务。2016年1月,深圳市公安局龙岗分局上线了108个带人脸识别功能摄像头的“深目”系统,利用人脸识别逮捕了连续盗窃惯犯。在春运期间,北京、上海、广州、深圳等多个城市的火车站开通了自助“刷脸检票”通道。人脸识别还进入了教育系统,在今年的全国硕士研究生统一招生考试中,深圳考点的考生在线就能刷脸确认报 考。
某种程度上,更多可规模化的商业场景,让人脸识别市场在2016年出现了井喷式爆发。前瞻产业研究院《2017年至2022年中国人脸识别行业市场前瞻与投资战略规划分析报告》显示,中国人脸识别的市场规模在2016年达到了17.25亿元,每年的复合增长率都为27%,其中金融、安防和考勤门禁三大领域的规模占到了 92%。
在依图科技创始人朱珑看来,人脸识别是最快呈现出巨大商业价值的人工智能领域之一。“很多人谈起人工智能时,会大谈特谈,但实际行动却跟不上,火热的是人工智能的概念而已,”朱珑在公开场合谈道,“如今(AI视觉)的火热是因为商业价值,这跟过去10年、30年的所有(人工智能)热门不一样,看看Facebook、Google等公司的巨额投资,这不光是在概念、实验数据上,还是在工业级的实验数据上的价 值。”
围绕人脸识别展开的商业竞争在过去一年日益激烈。2017年7月,商汤科技宣布完成4.1亿美元B轮融资,这笔融资也创下全球人工智能领域单轮融资最高纪录,但仅过了3个月,纪录就被旷视科技Face++打破,后者获得了蚂蚁金服、中俄投资基金以及韩国鲜京集团4.6亿美元的融资。
有意思的是,从冷门的实验室概念到资本聚焦的热门产业,人脸识别的崛起不过短短5年。
从公司成立的时间上看,旷视科技称得上是第一批“早起的鸟儿”。2011年8月,当时还是清华大学学生的印奇、唐文斌和杨沐为iPhone 4开发了一款体感游戏《Crow Coming》,这款游戏需要开发人脸识别技术—用户得摇晃头部控制游戏中的稻草人,赶走偷食的乌鸦。谁也没有想到,这款试验性质的产品很快积累了40万名用户,甚至一度冲到中国区App Store的前5名。
两个月之后,3人拿到了联想之星的天使投资,成立了旷视科技。“我投的时候,他们还没毕业。”联想集团副总裁、联想创投合伙人宋春雨告诉《第一财经周刊》。联想当时还要帮他们设计公司运作流程,做专利的评估和分析,梳理技术研发的战略和业务方向等等。
但在宋春雨看来,3名保送清华大学的学霸发展思路清晰。成立初期,3人便定下了旷视的三步战略—搭建Face++人脸识别云服务平台,识别人脸;然后由人脸扩展到其他类目,平台为Image++;最后,则是做出机器之眼,在智慧的城市中广泛使用。
旷视科技研究院研发副总裁曹志敏还记得2012年刚加入旷视科技的情景,普通人很少会跟他谈到人脸识别这回事。原因很简单,人脸识别的精度还远远没有达到产业可以接受的程度。
通常来讲,人脸识别的精度提升大都是先找到算法,再做自适应的用户场景,最后通过大量数据完成训练。对于创业公司而言,要保证人脸识别算法在单一应用场景中效果足够好,大量的用户场景数据必不可少,同时真实用户的数据也是它们最为缺乏的资源。
为了获得更多用户资源,旷视科技向开发者和企业用户免费开放了Face++平台。谢忆楠还记得当时美图秀秀就采用了Face++的人脸分析技术,在应用中叠加美颜和美妆效果。“早期我们只提供技术服务,整个业务量并不是特别大,而且是免费的。”谢忆楠说。
这一时期,云从科技创始人周曦还在中科院重庆研究部工作,日常会接一些区域性的安防项目,不过也都只是小范围使用。他尚未想到创业,一个重要的判断因素仍然是人脸识别的精度太低。在他看来,在理想化的实验室环境中,做出来的识别率都达不到商用要求,更别说真正实际场景的使用。
2012年,国内的创业公司都在用很原始的办法做人脸识别。曹志敏回想起当时的实验场景,他们提取人脸上的关键点,矫正之后分成小区域,再挨个提取特征计算向量。提取眼角、眉毛这些关键点还用的是“模板匹配技術”,对应着人脸模型,再一点点调整自己的算法。
这些办法最大的问题就是不可靠,简单来说,一旦光照稍微改变或者用户侧一下脸,就无法识别出来 了。
“受控下的人脸识别基本上只能做简单的1:1验证,而且规模有限。在光照、角度都满足的情况下,能做几百人的人脸验证。”曹志敏说。为了屏蔽光照影响,他们在做人脸识别时采用了红外摄像头,这样才能在白天黑夜都使 用。
但这一时期,还在美国麻省理工学院实验室担任博士后研究员的朱珑却选择了回国创办依图科技。他当时有一股强烈的感觉,“计算机视觉离产业化非常近了”。让他坚信产业化将会加速的事件正是因为深度学习的出 现。
在2012年,“神经网络之父”Geoffrey Hinton教授的两个研究生Alex Krizhevsky和Ilya Sutskever利用卷积神经网络和深度学习模型,在当年的图像识别竞赛ImageNet LSVRC上拿下了冠军,其识别的错误率降低至15.3%,几乎是第二名的2倍。
这一突破着实影响了所有创业公司的想法。“大家突然相信深度学习这么有用,很快都开始使用了。”旷视科技市场总经理谢忆楠回忆道,“(人脸识别)准确率几个月的发展速度超越了过去几年的速度。”
深度学习的出现,重塑了这个行业的算法模型,甚至谈得上颠覆一切。和从前只有两三层的计算模型不同,深度学习中间有重复和简单的计算操作,不断重复,一层层堆积,甚至构成有成百上千层的模型,每一层都不断深 化。
最重要的是,深度学习让端对端的解决方案成为了可能。在此之前,优化的指标都是由人拆分成组件,人依赖的是自己的经验,自然不够准确。但在深度学习后,只需要直接设定指标,数据就能自己填充。
“就像是两个老师教学生,一个会说清楚怎么教,另外一个是你送过来就别管了,最后反正给你出师。深度学习就是后者。”曹志敏说。
但国内的温度还在酝酿。深度学习出现之后的3年,国内的创业公司都在招兵买马,摸索自己的商业方向。集体冷静,还在于人脸识别尚未出现成熟的规模化商业应用案例。
“那会儿还没有人脸识别这个行业,”商汤科技联合创始人兼副总裁杨帆对《第一财经周刊》说,“也没有什么成型的产品或者市场,大家更多是为这样一种技术的变革感到比较激动,觉得它有很大的前景或者空间。”目前估值近20亿美元的商汤科技在2012年还是一家小创业公司。加入商汤科技前,杨帆在微软工作了8年。商汤科技另一位联合创始人兼CEO徐立当时的重点放在招募技术PHD人才上。
旷视科技创始人印奇也没有下定决心切入商用领域。事实上,直到2013年,旷视科技的业务还是运用Face++平台,收集数据训练模型。整整一年的时间,他们从网上下载了几十万张名人的图片,每个人的图片都接近千张。
“创业公司有数据的瓶颈,回头来看,四五年前数据是约束我们的,”依图科技创始人朱珑说,“但还要看公司具体进入哪一个市场,越是垂直分散的领域—比如ATM刷脸取款的场景,BAT也没有ATM机数据,也得从最简单的开始做起—大公司优势越不明显,这对创业公司是很大的机会。”
某种程度上,BAT的资源输送依旧影响了这些创业公司在后期的发展。
旷视科技的转折便是因为支付宝的项目。2014年之前,曹志敏还记得他们手里只剩下创新工场给的一笔几百万美元A轮融资,甚至没办法添置足够的服务器。在一次展会上,阿里巴巴的人员向他们询问能否用生物识别的方式解决账户的安全问题,这一需求实际上是马云在阿里巴巴内部亲自提出。那时候旷视科技已经有了一个基础模型,很快便和支付宝对接上。
在此之前,业内还没有刷脸支付产品的先例。为了拿下支付宝的项目,旷视科技只能把其他项目全部停掉,资源都集中到支付宝项目上,整整大半年时间都在打磨产品。“当时都只是觉得应该能做出来,但之前没有人做过,也没有确定的把握。”曹志敏 说。
刚开始,人脸识别的准确度一直没有很大提升,最大问题出在图片数量的不对等。在输入同样的参数后,模型的重心自然放在数量更多的人脸上。另一方面,服务器短缺也是个问题,如果模型复杂度不够,没法保证准确度。加班加点调试几个月后,团队终于做出了一个服务器既能承受、准确度也还不错的模型。
深谋远虑的不止是阿里巴巴,巨头们没有忽视人工智能在未来所带来的冲击力。腾讯很快便在社交网络事业群成立了优图团队,这支技术团队为QQ、QQ空间、QQ音乐、财付通、微众银行等业务提供图像和模式识别技术支 持。
但在业内人士看来,2015年之前的人脸识别技术依旧无法做到大规模应用。“我们在衡量视觉识别技术能否拿到工业界使用的标准是,机器的算法能否超过人的准确率。一旦超越那条红线,就能带来很大的产业价值,迅速使用。”商汤科技的创始人兼CEO徐立在接受网易科技采访时说。
事实上,在成立商汤科技不久之后,徐立预判的临界点很快便出现。2015年,ImageNet ILSVRC大赛团队识别分类的准确率达到了96.5%,这一数据已经高于人眼94.9%的识别准确率。Google的DeepMind团队在《自然》杂志上发布了关于深度神经网络和强化学习的论文,指出计算机已经能在各种任务中和人类旗鼓相当。
计算机视觉行业一触即发。
云从科技IT总监温浩感受到的最大变化来自客户。一年之前,他还需要跟很多客户解释什么是人脸识别,但大部分人还是向他反映“感觉离很远”。但到了2015年,很多客户就找上门来了,比如银行—央视3·15晚会曝光了三大银行的网点对客户身份审核不严,用買来的身份证在也能开卡的事,这使得传统银行开始注意起了国内人脸识别项目。
技术突破加上商业应用的明朗化,从2015年年中开始,资本大量涌入。从清科旗下私募通发布的《2017中国人工智能行业投融资发展研究报告》可以看出,中国人工智能领域投资总额从2014年的54.87亿元暴增到了2015年的159.5亿元,案例数从281件增加了近2倍,达到719件。
在投资人看来,投资额剧增还是在于AI视觉呈现了足够广阔的商业应用。“人脸识别处于科学命题的时候,往往还是小众。到了这两年,我们看到很多人工智能技术可以应用到大众生活中,那么它产生出来的投资机会自然也会更多。”启明创投的创始主管合伙人邝子平告诉《第一财经周刊》,该机构也是旷视科技的B轮投资方。
在众多产业化场景的考量中,除了金融,安防成为创业公司扎堆争夺的项目—这一领域有大量的视频、图像比对需求,是图像识别,特别是人脸识别技术的天然土壤。
云天励飞成立之初,陈宁便把产品方向定在安防市场。在他看来,当时遍布城乡的天眼只是把监控覆盖到了而已,没有任何的智能分析,最多是识别车牌。而对视频资源实时分析处理能力的需求,已经远远超出人类的能力,人工智能才是方向。
“安防市场有需求也有购买力。”朱珑回忆道,“大部分创业公司那时候有技术、没客户。”
即便如此,创业公司的进入并不顺利。旷视科技从2015年就组建了安防团队,据CTO唐文斌回忆,由于不熟悉行业,第一年几乎没什么进展,虽然从传统安防企业挖了不少人,但彼此很难交流。
和多家有安防需求的客户沟通之后,云从科技总裁助理张立也意识到,交付后的服务和响应才是区分各家公司的关键。为了得到安防领域的企业订单,云从科技调整了组织架构,在研发部门之外,增加了负责销售和服务的部门。
云天励飞的起步也困难重重。陈宁说服了深圳公安局龙岗分局,开始合作第一期试点项目。整个2015年,陈宁和另一名联合创始人扛着摄像机在深圳大街小巷跑,有时候也和民警一起到现场,确定点位是否满足技术条件,是否属于犯罪率高的区域。为了了解光照的变化,在一个地方经常一待就是几个小时。
在此之前,他们用静态的图片去训练模型,但效果一直不太理想,直到采集了这些动态视频流,动态的安防视频识别的准确度才提升上去。“视频监控的人流量很大,有各种光线、遮挡物干扰。静态图片没有这些问题。但深度学习依赖于数据,数据什么样,模型就是什么样。”陈宁说。2016年,云天励飞只有深圳市政府一个客户,就是这笔收入让这家小型创业公司维持了正常运营。
对于创业公司来说,先让自己活下来,是明智之举。这些成功的落地项目,也让投资机构看到了人工智能投资的支点—人工智能的前期研究投入是巨大的,如果不能尽快找到合适的商业化应用,初创公司很容易青黄不接,熬不下去。“看了那么多案例后,在机器学习研究人工智能中,我们觉得最早最成熟的两个应用,一个是语音,一个就是人脸。”邝子平说。
2015年,几家人脸识别的头部公司中,只有旷视科技拿到了一笔2200万美元的融资,但到了2016年,商汤科技、旷视科技都拿到了几千万美元的融资,云从科技也找到了投资人。2017年,融资规模又上了一个级别,不到一年时间,3家公司都拿到了数以亿计的融资,10月31日,旷视科技宣布完成C轮4.6亿美元融资,超过7月获得4.1亿美元融资的商汤科技。
机构看好的项目几乎要“抢”才能拿到门票。风和投资管理公司创始合伙人吴炯在上海交通大学“金融聚交”论坛上演讲时曾经说起,他见到阿里巴巴投资后的旷视科技创始人时,上一轮估值已达4亿美元,“我只能说我们相见恨晚。”
得到资本和巨头加持的头部公司们估值极速攀升,商汤科技和旷视科技的估值分别达到30亿和20亿美元。根据一份做过AI领域调研的投资机构内部资料显示,商汤科技2016年的收入约为2亿至3亿元人民币。
“旷视和商汤代表第一阵营,领先优势应该是非常明显了。它们两家应该占了90%以上的to C的应用。互联网金融板块80%以上都是旷视的,安防领域基本上也是前三家占据,很难有新的创业公司再杀出来。”联想创投合伙人宋春雨说。现在,在人脸识别领域,他已经不会再投资单纯只做算法的公司,而是把目光投向了更垂直细化的公司,比如做步态识别的银河水滴科技。
不止是资本加速,在依图科技创始人朱珑看来,行业洗牌也在加速。“2017年比2016年快太多,2016年比2015年快太多。我们的产品部署到医院只用了半年时间,之前在公安系统做同样的事情用了两年半时间,商业跟技术结合的过程是在加速的。”
对于简单做人脸识别的初创公司来说,现在入局已经不再是好时候。不过,邝子平认为在垂直行业领域,初创公司还是有自己的机会。“现在虽然竞争激烈,但落地的场景越来越成熟了,实实在在的商机也是越来越多的,在各个领域里面如果已经耕耘了一段时间,或者的确有一些过人之处,还是有机会。”
商汤科技的联合创始人兼CEO徐立也表达了同样的意思。他们提出了“1+1+X”的行业发展思路,其中“1”分别是“基础研究”和“产品及解决方案”,“X”是“行业”,即各个行业的发展合作伙伴,形成生态和联盟。
人脸识别领域在短短5年时间诞生了商汤科技、旷视科技、云从科技和依图科技4家“独角兽”公司。热潮之后,这些公司的估值变现,还需要市场和时间的考验。尤其要在最广阔的消费端市场盈利,仍然还有很长的路要 走。
但从时间的纵轴线来看,人脸识别技术带来的社会影响将会更深远。人工智能技术赋能的传感器、计算机视觉感知逐步穿透实体世界。《经济学人》在封面专题《Nowhere to Hide》中提出质疑:当人脸可以呈现出很多机器可以识别的信息,这当然有好处,但硬币的另一面是,技术也会侵犯个人隐私,加剧偏见和不公 平。
设想一下,你参观完汽车展厅后,在回家的途中收到精准的某品牌汽车广告,很显然通过现场照片,广告公司已经用面部识别技术找到了参观者,并推送出信息。即使私人公司无法连接图像和身份,但国家通常可以实现这一点。
欧洲的监管机构已在即将出台的《数据保护法》中嵌入一套原则—使用脸纹在内的生物信息需要征得用户本人同意,使用这种技术的公司也应该承担相应的责任。
“技术都有两面性,一定会出现有利和不利的地方,互联网并不会因为黑客而停止发展,人工智能可能超越人的智能边界。”朱珑说。人脸识别带来了便利也引发担忧,如果人脸识别技术不受限制,我们是否应该欢迎 它?