肖文杰
以Deep Fake为主的开源算法,让“换脸”变得普及。
“眼见为实”这句话流传到今天,已经没法算作真理了。从最初的“PS美颜”“PS美景”开始,针对视觉的“造假”技术不断精进。2017年,一位开发者把一款名为DeepFake的AI换脸算法开源,自此互联网界掀起了一股换脸创作热潮。许多视频博主将电影中的演员换脸,为自己的账号吸引流量,甚至有很多开发者制作了一键换脸App,供用户下载使用。
然而这股技术狂欢很快走向“失控”。有人将色情电影中的人脸换成女明星,对明星的声誉造成了困扰;在美国,网上还出现多位总统换脸演讲的恶搞新闻视频,使得政治舆论一度受到干扰。如果你认为这些“翻车”离自己很远,还有一种更为直观的可怕场景—假设你得罪了一名骇客,他把你的脸替换到一段犯罪视频中,随后,这段视频被当作司法证据。
“有研究发现,大概30%的用户观看时鉴别不出图像的真假,于是我们提出做换脸鉴别算法的研究。”微软亚洲研究院高级研究员陈栋告诉《第一财经》杂志。2019年11月,陈栋所在的研究组提出换脸鉴别算法“Face X-Ray”,今年2月,关于这项算法技术的论文被2020年IEEE国际计算机视觉与模式识别会议(CVPR2020)收录。
在学术界,有关换脸鉴别的算法研发其实一直十分活跃,大多数采用的是训练AI分类器—搜集大量的真实人脸素材,以及这些人脸被某种算法换脸的素材,用自监督学习的方法训练AI鉴别什么样的脸是被替换过的。这种方法的局限性在于,训练出的AI只能基于特定的换脸算法做鉴定,只有当换脸图像采用的是已知换脸算法,鉴别精确度才有可能达到99%;如果拿一张AI没有学习过的换脸算法图片去鉴别,其精度就会骤降到70%以下。大多数换脸图片仅凭肉眼很难判断其背后的算法,因此用“分类法”鉴定假脸并不具备通用性。
而Face X-Ray可以在不知道照片真假,以及换脸图像采用了哪种换脸算法的背景下完成鉴定。其训练方法是,研究员将一些真实的人脸图像手工合成为假的人脸图像,将真假脸的融合边界变为已知,然后利用深度学习技术让AI学习如何找出这个边界。最终的结果是,当AI发现一张陌生图片中的脸为假脸时,会对假脸边界发出“响应”,即在一个黑色图像中将换脸的边界点亮,如果是一张真实的人脸图片,机器则不会输出响应,显示为一张纯黑的图像,这样的响应过程很像给图片照了一张“X光”。
“我们想要解决的问题是鉴别出所有换脸的图像,包括将来会出现、现在还不存在的算法。”微软亚洲研究院常务副院长郭百宁告诉《第一财经》杂志。
不同图片“噪声”不同,可能是“Face X-Ray”的算法解释之一。
在过去很长一段时间里,微软亚洲研究院计算机视觉组的研究员同样用“分类法”做研究,还曾经把一种基于“分类法”的算法鉴别精度从98%提高到99.6%。后来随着换脸技术越来越复杂多样,研究员们便萌生了研发“通用鉴别”的想法,但一直没有找到合适的算法路径。直到2019年9月,研究员偶然发现Face X-Ray这种识别边界的思路,可以将未知换脸算法图片的识别精度从70%一下子提高到95%以上。
“很多时候做研究就像踢球射门,有可能你踢很多次都不进,但你必须不断尝试射门,才能创造进球的可能。”郭百宁说。
除了通用性,Face X-Ray的另一个突破是让AI鉴别换脸具备可解释性—用“分类法”鉴别一张人脸图片,机器只能给出一张图片是否被换脸的结论,并不能指出哪里被替换了,而FaceX-Ray可以将边界标注出来。
近半年来,Face X-Ray项目组成员的主要工作是提高视频换脸鉴别的精度,具体操作方法是将视频做逐帧的换脸鉴别,以此判断某一片段素材的人脸真假。从造假技术上来看,视频换脸比图片换脸的难度高,因为造假者很难保证造假图像的连续性—有可能前几帧是一个人,后几帧又变了一个人。另一个陈栋正在研究的突破点是,当视频被换脸时,图像的光照会出现抖动,研究员们也许可以通过检测这种抖动来提高鉴别算法的精度。“我们希望能在今年把这个技术研究出来。”陈栋说。
即便实现了多项突破,也并不意味着FaceX-Ray就是万能的。
Face X-Ray只能标注出换脸的边界在哪,并不能说出更深层次的判断缘由。“比如真脸和假脸由于来自不同的图像,这导致两块图片会有不同的‘噪声,因此被机器识别出来鉴定为假,噪声的不同只是这个算法的解释之一,可能也有其他的东西不同,这是神经网络自己发掘出来的。”陈栋说。此外,图片的分辨率以及视频的压缩比也会影响AI的鉴别。如果人脸在图片中仅占十幾个像素,或者视频的压缩比很高,Face X-Ray的鉴别精度就会下降。再比如,如果造假者用电脑直接“无中生有”一个假脸,鉴别的精度也会降低。
Face X-Ray发现一张陌生图片中的脸为假脸时,会在一个黑色图像中将换脸的边界点亮。
由于新的换脸技术持续涌现,微软亚洲研究院的科学家需要不断用新出现的换脸算法图片来训练Face X-Ray,以保证这项鉴别技术紧跟“造假潮流”。如今有很多存有真假人脸视频的数据库帮助研究人员做试验,比如FaceForensics++ 数据集,其中有1000段真实视频和4000段被证实造假的视频,多为新闻相关的素材。
但即便能够鉴别出图片被换过脸,科学家也很难单纯根据Face X-Ray的鉴别结果反推换脸技术。比如很多换脸算法并不能将真假人脸上的光线统一,但有一种名为“alpha blending”的技术,可以把替换过的人脸部分的光线改成和原图整体一样,方法是利用波声方程找到唯一的解。据陈栋介绍,目前主流的换脸算法有三类,最简单的是将一张真实图片的人脸贴到另一张真实图片中;第二类是基于3D人脸技术,把一个三维人脸数据贴到另一张图片中,再根据后者图片原人物的姿势、光照渲染,使之浑然一体,这一类算法目前是造假的主流;第三类是基于深层对照网络技术,用深度学习的网络生成人脸,如此一来假脸的丰富度会更高。
“当然,也可能有人会针对Face X-Ray的检测算法,给换脸图片加入一些特定的对抗措施,避免被我们检测出来。我们不能杜绝造假,只能把造假的难度提高。”陈栋说。鉴别假脸其实就像电子邮箱识别垃圾邮件,或者用于证明你是真人而非机器的“验证码”技术,“造假”和“反造假”是一场逐渐升级的猫鼠游戏,没有完美的造假技术,也没有完美的鉴别造假技术,况且扮演防御角色的“反造假”,在大多数情况下是被动 的。
目前Face X-Ray的检测精度平均达到95%以上,仍处于研发状态,,还缺乏一定的“实战”经验。郭百宁的设想是,未来换脸鉴别技术可以像杀毒软件一样供人们自由下载,用以过滤掉搜索引擎上虚假的人脸图片或视频。“不过,技术是永远在升级进步的,它不能完全解决一个社会问题,因此想要打击换脸造假,仅仅精进技术是不够的,需要相关法律的健全,以及全社会的参与。”他说。