董可馨
从冷兵器时代到工业时代,人类花了六千年。但从工业时代到信息时代普及,仅仅短短250年,科技引领着人类社会突飞猛进。当下,为时间车轮赋予更大加速度的人工智能,已成为任何人都无法回避的议题。
当某种未来虽然面貌仍不清晰,但已确定是不可避免,留给我们的只有一条路:认识,迎接,并保持警惕。
为此,11月12日,《南风窗》记者在北京中科院自动化所与雷震展开对话。雷震是中国科学院自动化研究所副研究员,从事人脸识别技术研究十几载,他参与研发的人脸识别系统,已成功应用于多个行业领域,包括2008年北京奥运会/残奥会实名制门票验证系统。
南风窗:电影《碟中谍》中有一个场景,你在一席演讲时也提到过,特工在人来人往的火车站,通过眼镜上的设备,迅速锁定他要寻找的目标。电影《复仇者联盟》也有类似的,神盾局为了找到洛基,开动高性能的电脑,通过遍布全球的摄像头,在茫茫人海中定位到他。这些是电影里关于人脸识别的片段。对很多人工智能项目,有一种说法是:“外行一般觉得很科幻,内行觉得很绝望,业界领袖各种打鸡血。”在你看来,人脸识别现在发展到了什么程度?
雷震:外行人看起来,人脸识别或许比较神,像电影里那样炫酷。其实从我们技术领域来说,还是挺复杂的,涉及光线、遮挡、姿态,种种因素都会对识别造成很大的挑战。
比如有时太阳光正好照着,有时分辨率很低。现在人脸识别在一定的可控环境下,比如1:1的场景里比较成熟了,但是监控流动的人群准确率还不够,会有误报。
南风窗:我看到央视有一档节目叫《机智过人》,有一期介绍“神眼小V”,它是在天门山景区里面,当时人流量大概在2万,碰巧还下着雨,有一个记者伪装起来,刻意躲避摄像头,但最后还是在11分钟之内被找到了。
雷震:这个是在限定的场景里。你也不能说它作假,我只能说,真实的系统性能肯定没有节目里表现出来的那么好。摄像机架设的高度、角度和地理位置等对系统性能都会有较大的影响。实际上,如果大范围的、随意地去架设的话,准确率可能就没那么高了。不过火车站进站实名制验票应用中,要通过身份证和人脸的比对,然后实名通关,那个应用现在是比较成熟了。
南风窗:进站刷脸对我有一个问题,我拍身份证照片的时候,还比较胖,后来瘦了,很多次进火车站,刷脸都很难通过。
雷震:人脸识别会受到很多因素的影响。正好前段时间我还看到一个挺有意思的研究结果,在人脸识别这一块,一般来说男性的识别率比女性要高。因为女性可能有刘海,发型的变化,还会化妆,这样跟身份证相比可能差别大一点。不过也有前提, 它是发生在白种人和黄种人里。对于黑人朋友来说结果就不是这样了,反而是女性的识别率高,这可能和成像有关系,但现在还不能彻底弄清原因。
话说回来,现在很多情况是只报喜不报忧。只报正确识别出来的,各种误报大家看不到,所以公众会觉得这东西很先进。但实际上,因为监控主要是给公安用来抓嫌疑人员的,它可以允许你不报,但不能有过多的误报,因为每报一次就要出警。这就像“狼来了”,错误多了他会觉得这东西不靠谱,就不用了。所以首先一定要控制住误报率在一定范围内。
南风窗:它的技术过程是怎么样的?
雷震:人脸识别一般是这样,前端有摄像头,可能画面中有几十张人脸,摄像头上会有一个算法,把人脸一一找出来。然后把截出的人脸区域往后台传,后台会对发回的图像,提取各种特征,转换成计算机能认得的一串码,然后去跟库里的二代身份证比,算一个相似度。相似度高的,就认为他是我们要找的人。
算法的核心,在于我怎么从图像转换成一串二进制的码。同一个人的图像提取出来的二进制码要相似,不同人的二进制码要尽可能不同,这样提出来的码才能有比较好的识别能力。
南风窗:从图像转换成二进制码的机制是什么?
雷震:通过模型,从图像到一串二进制代码,模型就在这中间。以前是根据经验来的,但毕竟人的设计能力有限,尤其是当有上百万,乃至上千万人时,总有不少相似的。
南风窗:比如双胞胎。
雷震: 对,还不用到双胞胎这个级别。更早以前,人脸识别是靠看五官。比如看两个眼睛之间的距离,鼻子到嘴巴的距离,嘴巴多宽,眉毛多长。但你很快就发现当人数多了,信息相同的人实在太多了,这些信息完全不够,起不到判别的作用。
由人去设计太需要经验,也太费精力,而且没有标准,都是靠个人的独门绝活,如果一个人的运气比较好,或者他的知识面比较广,可能正好设计出来一种特征比较有效。
它不能独立出来,否则就是一堆技术。而要和其他行业结合,还要看数据量,并不是每个行业都有很多数据,有的行业数据就很少。
深度学习就避免了人来设计,可以做到自动学。模型里面有一堆参数,输入一张图像,输出的就是一串二进制码的特征。输出特征要求有一个优化的目标,达到目标就是这组特征。比如同一个人的,就是要这张相似度比别人高,有了这个目标,就让模型自己去学,各个参数应该是什么值,能够使得一张图像进来之后,我得到的特征达到效果。這就是深度学习的作用。
南风窗:它的学习速度会比人快多少?
雷震:机器学习和人还不一样。人在认识物体的时候,有联想和推理能力。比如你跟小孩说这是一辆车,他哪怕没见过别的车,自己也会联想,下次看到另一辆车,他就知道这是车。机器学习的方法不同。你给它一两个样本是不够的,得有成千上万个才行。它的学习是暴力的,说得难听点就是,当它把全世界的车都见过一遍之后,才可能准确率非常高。机器是靠大量喂数据强行去优化模型。这是机器跟人最大的不同。
就拿人脸识别来说,你从几万个人里找出五个人,眼都看花了。但机器靠运算,反正存储和计算是它的强项,所以要它大海捞针,准确率肯定远高于人。但人有机器不具备的能力,比如我们去认一个人,尤其是熟人的时候,可能都还没看清他长什么样,就大概知道他是谁了。机器就不行,不能模糊,必须得走近了,拍清晰了,它的识别率才可能非常高。
人和机器还有一个不同,人更主动。認双胞胎的时候,人会看哪里是不是有颗痣,两个耳朵的形状可能不太一样。机器现在就没有,它就一套算法,不会去比。你也可以认为机器还是比较傻,现在有些也在夸大机器的性能。不过确实人工智能的发展很快,以前是各方面都比不上人,现在好歹在某些方面已经超过人了,确实进步很大。
南风窗:现在做人脸识别的公司多吗?
雷震:现在非常多了。很多公司都会标榜自己做人脸识别,好多人会拿数据集训,做一个demo,然后就去融资了,所以会突然爆出来上百家,但真做得好的还是不多。因为要做得好,各个场景的数据都要有,刚才说的那几个难点也都要克服,这很费时间的。
南风窗:所以它现在基本上也很难产业化。
雷震:人工智能很难的,因为它不是一个行业,它得跟其他传统行业结合起来才行,所谓AI+。它不能独立出来,否则就是一堆技术。而要和其他行业结合,还要看数据量,并不是每个行业都有很多数据,有的行业数据就很少。比如工业视觉里面,检测易拉罐有没有缺陷,或者印刷的图案上有没有划痕,就要先给它一堆有问题的,让它去学,但是数据量不大,不可能自己拿一堆易拉罐去划。所以目前也力图在小数据上提升深度学习能力。
研发这一块前期投入会比较大,人力成本也高。这也是为什么很多人工智能都是在亏损,落地很难。人脸识别的落地应该是相对最深的,也是最容易的。国家在推广,“雪亮工程”在进行,本身这块需求很大,所以人脸识别领域现在成了红海。
南风窗:它也因此变成了时代的大生意。
南风窗:我们刚才说到模型,你说过,深度学习多层次的神经网络在20世纪六七十年代就已经提出来,但是当时有人想干干不了,是因为那个时候除了计算速度慢,数据也太少了,没有办法优化出模型,但是到大数据时代,获取图像信息非常容易,我们普通人都在为此做贡献,比如QQ、微博里的图片,或者支付宝的头像。这些是可以随意去从网上把它抓取出来的?
雷震:“ 爬虫”能爬下来,QQ空间里有的人未设密码,相当于那个空间本来就是可以公开访问的,那爬下来应该没有问题,而且纯做研究的话,肯定不会扩散。但是如果在后面去干一些坏事肯定也是不行的。
南风窗:已经有人提出“以后可能是刷脸的时代”,刷脸会取代密码输入吗?
雷震:这块现在还是比较谨慎。
南风窗:今年10月29日,市场监管总局发了一个关于智能门锁质量安全消费的警示,建议关闭智能门锁人脸识别这些功能。
雷震:对。这里面涉及两个技术,一个是人脸识别,另一个是活体检测。在刷脸支付、门锁这些地方会用到活体检测。这项技术是判断摄像机前的你,是个真人,还是举着照片,或是三维模型。在监控里一般不需要活体检测,你走在路上带一个面具,太容易看出来了。
在国外,人脸识别的发展受到一定限制,因为国外对隐私看得很重。
但是门锁、支付就不一样,我们做过一个实验,只把人脸区截下来,让人去判断,看到的是真人,还是一张假的图像,但基本上我们研究人员也是随机猜的。因为人看图像,必须要配合着周围的环境来判断。算法就更没有人那么智能,因为它本身是靠人训练起来的,如果训练数据里不包含有些材料的话,可能就识别不对。这里面很复杂,因为攻击的手段实在太多了,常用的可能就是举张照片,再厉害一点,拿个面具。现在防伪里面做得最好的还是苹果公司,据说它被成功攻击的最少。现在百分百的还做不到,肯定还有被攻破的。尤其是人皮面具,那基本上都防不住。
我看到有攻击电磁感应锁成功的例子。电磁感应锁是原理是这样,它有两个模块,一个是身份认证模块,一个是开锁的模块,这两块之间是通过某个信号连接的。网上流传一个视频,锁那一端,因为电磁感应做得不够,拿一个特斯拉线圈弄弄,就绕过了身份认证,直接给开锁端一个信号,锁就自动开了。这就相当于身份认证的模块失效了。市场监管总局的警告有可能指的是这个。
刷脸支付,其实它在使用场景上是有选择的,一般是小额支付,比如KFC引进刷脸支付,一单也没多少钱。而且,蚂蚁金服不单单是靠人脸识别,它后面还有风控技术,不是给每个人都开通刷脸支付功能。很多时候它要和密码组合使用,是给信用高的人多一重保障。总的来说,刷脸的风险当然还是有,所以现在暂时只能小范围的在某些局部的场景应用,大规模推广还不会。
南风窗:人脸识别技术,国际上的应用情况是怎么样的?
雷震:在国外,人脸识别的发展受到一定限制,因为国外对隐私看得很重。比如脸书(Facebook)、亚马逊,做一些人脸识别很容易被人告,或引起民众抗议。之前还报道过一个亚马逊的新闻,它根据历史存在的数据,用机器学习方法开发了一个自动筛简历的系统。结果被人发现,女性被筛掉的比例比较高,因而只能暂停。Facebook上也有过类似的事情,比如给你的合影里面贴标签,标出来你的好友是谁,这种东西很危险。
监控这一块国外就更谨慎了,它不会时时刻刻去监控一些民众的行为。
南风窗:那么,中国的情况呢?
雷震:中国的数据量比较大,数据来源比较多,算法出来的性能就会好。但人脸数据到处泛滥了,确实会有问题。公安部也很重视,以后肯定是会越来越正规,越来越收紧。因为大家都意识到数据安全的重要性。
还有一点是,现有的模型基本上是基于中国人的人脸训练的,所以对中国人的识别度就比较高,对外国人会有所下降。
南风窗:其实它还涉及一个很大的话题,关于自由。
雷震:是,但我们也没有办法。