人脸识别技术与我们的未来

2018-11-23 01:47董可馨

南风窗 2018年24期

董可馨

从冷兵器时代到工业时代，人类花了六千年。但从工业时代到信息时代普及，仅仅短短250年，科技引领着人类社会突飞猛进。当下，为时间车轮赋予更大加速度的人工智能，已成为任何人都无法回避的议题。

当某种未来虽然面貌仍不清晰，但已确定是不可避免，留给我们的只有一条路：认识，迎接，并保持警惕。

为此，11月12日，《南风窗》记者在北京中科院自动化所与雷震展开对话。雷震是中国科学院自动化研究所副研究员，从事人脸识别技术研究十几载，他参与研发的人脸识别系统，已成功应用于多个行业领域，包括2008年北京奥运会/残奥会实名制门票验证系统。

影视情节走入现实

南风窗：电影《碟中谍》中有一个场景，你在一席演讲时也提到过，特工在人来人往的火车站，通过眼镜上的设备，迅速锁定他要寻找的目标。电影《复仇者联盟》也有类似的，神盾局为了找到洛基，开动高性能的电脑，通过遍布全球的摄像头，在茫茫人海中定位到他。这些是电影里关于人脸识别的片段。对很多人工智能项目，有一种说法是：“外行一般觉得很科幻，内行觉得很绝望，业界领袖各种打鸡血。”在你看来，人脸识别现在发展到了什么程度？

雷震：外行人看起来，人脸识别或许比较神，像电影里那样炫酷。其实从我们技术领域来说，还是挺复杂的，涉及光线、遮挡、姿态，种种因素都会对识别造成很大的挑战。

比如有时太阳光正好照着，有时分辨率很低。现在人脸识别在一定的可控环境下，比如1：1的场景里比较成熟了，但是监控流动的人群准确率还不够，会有误报。

南风窗：我看到央视有一档节目叫《机智过人》，有一期介绍“神眼小V”，它是在天门山景区里面，当时人流量大概在2万，碰巧还下着雨，有一个记者伪装起来，刻意躲避摄像头，但最后还是在11分钟之内被找到了。

雷震：这个是在限定的场景里。你也不能说它作假，我只能说，真实的系统性能肯定没有节目里表现出来的那么好。摄像机架设的高度、角度和地理位置等对系统性能都会有较大的影响。实际上，如果大范围的、随意地去架设的话，准确率可能就没那么高了。不过火车站进站实名制验票应用中，要通过身份证和人脸的比对，然后实名通关，那个应用现在是比较成熟了。

南风窗：进站刷脸对我有一个问题，我拍身份证照片的时候，还比较胖，后来瘦了，很多次进火车站，刷脸都很难通过。

雷震：人脸识别会受到很多因素的影响。正好前段时间我还看到一个挺有意思的研究结果，在人脸识别这一块，一般来说男性的识别率比女性要高。因为女性可能有刘海，发型的变化，还会化妆，这样跟身份证相比可能差别大一点。不过也有前提，它是发生在白种人和黄种人里。对于黑人朋友来说结果就不是这样了，反而是女性的识别率高，这可能和成像有关系，但现在还不能彻底弄清原因。

话说回来，现在很多情况是只报喜不报忧。只报正确识别出来的，各种误报大家看不到，所以公众会觉得这东西很先进。但实际上，因为监控主要是给公安用来抓嫌疑人员的，它可以允许你不报，但不能有过多的误报，因为每报一次就要出警。这就像“狼来了”，错误多了他会觉得这东西不靠谱，就不用了。所以首先一定要控制住误报率在一定范围内。

从经验设计到深度学习

南风窗：它的技术过程是怎么样的？

雷震：人脸识别一般是这样，前端有摄像头，可能画面中有几十张人脸，摄像头上会有一个算法，把人脸一一找出来。然后把截出的人脸区域往后台传，后台会对发回的图像，提取各种特征，转换成计算机能认得的一串码，然后去跟库里的二代身份证比，算一个相似度。相似度高的，就认为他是我们要找的人。

算法的核心，在于我怎么从图像转换成一串二进制的码。同一个人的图像提取出来的二进制码要相似，不同人的二进制码要尽可能不同，这样提出来的码才能有比较好的识别能力。

南风窗：从图像转换成二进制码的机制是什么？

雷震：通过模型，从图像到一串二进制代码，模型就在这中间。以前是根据经验来的，但毕竟人的设计能力有限，尤其是当有上百万，乃至上千万人时，总有不少相似的。

南风窗：比如双胞胎。

雷震：对，还不用到双胞胎这个级别。更早以前，人脸识别是靠看五官。比如看两个眼睛之间的距离，鼻子到嘴巴的距离，嘴巴多宽，眉毛多长。但你很快就发现当人数多了，信息相同的人实在太多了，这些信息完全不够，起不到判别的作用。

由人去设计太需要经验，也太费精力，而且没有标准，都是靠个人的独门绝活，如果一个人的运气比较好，或者他的知识面比较广，可能正好设计出来一种特征比较有效。

它不能独立出来，否则就是一堆技术。而要和其他行业结合，还要看数据量，并不是每个行业都有很多数据，有的行业数据就很少。

深度学习就避免了人来设计，可以做到自动学。模型里面有一堆参数，输入一张图像，输出的就是一串二进制码的特征。输出特征要求有一个优化的目标，达到目标就是这组特征。比如同一个人的，就是要这张相似度比别人高，有了这个目标，就让模型自己去学，各个参数应该是什么值，能够使得一张图像进来之后，我得到的特征达到效果。這就是深度学习的作用。

南风窗：它的学习速度会比人快多少？

雷震：机器学习和人还不一样。人在认识物体的时候，有联想和推理能力。比如你跟小孩说这是一辆车，他哪怕没见过别的车，自己也会联想，下次看到另一辆车，他就知道这是车。机器学习的方法不同。你给它一两个样本是不够的，得有成千上万个才行。它的学习是暴力的，说得难听点就是，当它把全世界的车都见过一遍之后，才可能准确率非常高。机器是靠大量喂数据强行去优化模型。这是机器跟人最大的不同。

就拿人脸识别来说，你从几万个人里找出五个人，眼都看花了。但机器靠运算，反正存储和计算是它的强项，所以要它大海捞针，准确率肯定远高于人。但人有机器不具备的能力，比如我们去认一个人，尤其是熟人的时候，可能都还没看清他长什么样，就大概知道他是谁了。机器就不行，不能模糊，必须得走近了，拍清晰了，它的识别率才可能非常高。

人和机器还有一个不同，人更主动。認双胞胎的时候，人会看哪里是不是有颗痣，两个耳朵的形状可能不太一样。机器现在就没有，它就一套算法，不会去比。你也可以认为机器还是比较傻，现在有些也在夸大机器的性能。不过确实人工智能的发展很快，以前是各方面都比不上人，现在好歹在某些方面已经超过人了，确实进步很大。

时代的大生意

南风窗：现在做人脸识别的公司多吗？

雷震：现在非常多了。很多公司都会标榜自己做人脸识别，好多人会拿数据集训，做一个demo，然后就去融资了，所以会突然爆出来上百家，但真做得好的还是不多。因为要做得好，各个场景的数据都要有，刚才说的那几个难点也都要克服，这很费时间的。

南风窗：所以它现在基本上也很难产业化。

雷震：人工智能很难的，因为它不是一个行业，它得跟其他传统行业结合起来才行，所谓AI+。它不能独立出来，否则就是一堆技术。而要和其他行业结合，还要看数据量，并不是每个行业都有很多数据，有的行业数据就很少。比如工业视觉里面，检测易拉罐有没有缺陷，或者印刷的图案上有没有划痕，就要先给它一堆有问题的，让它去学，但是数据量不大，不可能自己拿一堆易拉罐去划。所以目前也力图在小数据上提升深度学习能力。

研发这一块前期投入会比较大，人力成本也高。这也是为什么很多人工智能都是在亏损，落地很难。人脸识别的落地应该是相对最深的，也是最容易的。国家在推广，“雪亮工程”在进行，本身这块需求很大，所以人脸识别领域现在成了红海。

南风窗：它也因此变成了时代的大生意。

安全与隐私

南风窗：我们刚才说到模型，你说过，深度学习多层次的神经网络在20世纪六七十年代就已经提出来，但是当时有人想干干不了，是因为那个时候除了计算速度慢，数据也太少了，没有办法优化出模型，但是到大数据时代，获取图像信息非常容易，我们普通人都在为此做贡献，比如QQ、微博里的图片，或者支付宝的头像。这些是可以随意去从网上把它抓取出来的？

雷震：“ 爬虫”能爬下来，QQ空间里有的人未设密码，相当于那个空间本来就是可以公开访问的，那爬下来应该没有问题，而且纯做研究的话，肯定不会扩散。但是如果在后面去干一些坏事肯定也是不行的。

南风窗：已经有人提出“以后可能是刷脸的时代”，刷脸会取代密码输入吗？

雷震：这块现在还是比较谨慎。

南风窗：今年10月29日，市场监管总局发了一个关于智能门锁质量安全消费的警示，建议关闭智能门锁人脸识别这些功能。

雷震：对。这里面涉及两个技术，一个是人脸识别，另一个是活体检测。在刷脸支付、门锁这些地方会用到活体检测。这项技术是判断摄像机前的你，是个真人，还是举着照片，或是三维模型。在监控里一般不需要活体检测，你走在路上带一个面具，太容易看出来了。

在国外，人脸识别的发展受到一定限制，因为国外对隐私看得很重。

但是门锁、支付就不一样，我们做过一个实验，只把人脸区截下来，让人去判断，看到的是真人，还是一张假的图像，但基本上我们研究人员也是随机猜的。因为人看图像，必须要配合着周围的环境来判断。算法就更没有人那么智能，因为它本身是靠人训练起来的，如果训练数据里不包含有些材料的话，可能就识别不对。这里面很复杂，因为攻击的手段实在太多了，常用的可能就是举张照片，再厉害一点，拿个面具。现在防伪里面做得最好的还是苹果公司，据说它被成功攻击的最少。现在百分百的还做不到，肯定还有被攻破的。尤其是人皮面具，那基本上都防不住。

我看到有攻击电磁感应锁成功的例子。电磁感应锁是原理是这样，它有两个模块，一个是身份认证模块，一个是开锁的模块，这两块之间是通过某个信号连接的。网上流传一个视频，锁那一端，因为电磁感应做得不够，拿一个特斯拉线圈弄弄，就绕过了身份认证，直接给开锁端一个信号，锁就自动开了。这就相当于身份认证的模块失效了。市场监管总局的警告有可能指的是这个。

刷脸支付，其实它在使用场景上是有选择的，一般是小额支付，比如KFC引进刷脸支付，一单也没多少钱。而且，蚂蚁金服不单单是靠人脸识别，它后面还有风控技术，不是给每个人都开通刷脸支付功能。很多时候它要和密码组合使用，是给信用高的人多一重保障。总的来说，刷脸的风险当然还是有，所以现在暂时只能小范围的在某些局部的场景应用，大规模推广还不会。

南风窗：人脸识别技术，国际上的应用情况是怎么样的？

雷震：在国外，人脸识别的发展受到一定限制，因为国外对隐私看得很重。比如脸书（Facebook）、亚马逊，做一些人脸识别很容易被人告，或引起民众抗议。之前还报道过一个亚马逊的新闻，它根据历史存在的数据，用机器学习方法开发了一个自动筛简历的系统。结果被人发现，女性被筛掉的比例比较高，因而只能暂停。Facebook上也有过类似的事情，比如给你的合影里面贴标签，标出来你的好友是谁，这种东西很危险。

监控这一块国外就更谨慎了，它不会时时刻刻去监控一些民众的行为。

南风窗：那么，中国的情况呢？

雷震：中国的数据量比较大，数据来源比较多，算法出来的性能就会好。但人脸数据到处泛滥了，确实会有问题。公安部也很重视，以后肯定是会越来越正规，越来越收紧。因为大家都意识到数据安全的重要性。

还有一点是，现有的模型基本上是基于中国人的人脸训练的，所以对中国人的识别度就比较高，对外国人会有所下降。

南风窗：其实它还涉及一个很大的话题，关于自由。

雷震：是，但我们也没有办法。