文|马 迪
如何去伪存真,真的是每个时代每个社会都需要思考的终极问题。
都说“耳听为虚,眼见为实”,但如果你在国外视频网站上搜索一下“deepfake”这个词,一定会怀疑自己的眼睛。这种正在迅速风行全球的技术让人意识到,除了诈骗电话、PS图片,现在连视频都会“骗人”了,而且几乎天衣无缝。
在AI领域中,有一项非常热门的分支,叫做机器学习—用程序模拟人类学习的过程,可以自我更新、自我进化、累积经验,最终形成自己的某种套路。而在机器学习中,又有一种非常热门的方式—生成对抗网络(Generative Adversarial Network,简称GAN)。
2014年,Ian Goodfellow提出了GAN模型,即设计两个独立的机器学习网络,分别为生成器和判别器。以模拟一张图片为例,生成器不断训练,目的是“模仿”出以假乱真的图;而判别器则不断检测,判断出此图是真是假。在对抗过程中,两者都会不断优化,提高自己的生成能力和判别能力。这样“左右互搏”的结果就是,生成器一定能输出无限接近于原图的“赝品”。
2016年,基于GAN的实时视频仿真软件Face2Face诞生,可以把一个人的脸部动作,无声无息地转移到另一个人的脸上。这项技术的开发者Justus Thies在当时已经意识到了潜在的危险,他在一次接受采访的时候表示:“如果这类视频软件得到广泛应用的话,将会对社会造成剧烈的影响—这也是为什么我们不把软件代码开源的原因之一。”
但遗憾的是,这个潘多拉魔盒已经被打开了。超低门槛的工具让这项技术走向大众,一大批用户加入到这种视频的制作和分享中,甚至有专门的软件教人“一键换脸”,比如Fakeapp,两个月就被下载了12万次。
在2017年11月前,deepfake每月搜索次数只有100次左右。到了2018年7月,每月搜索次数已经上升到100万次-1000万次。随着类似于fakeapp这样工具开始普及,有人开始尝试通过虚假视频来造谣、制造恐慌甚至牟利,比如制造假新闻甚至制作用来威胁勒索的假视频。
另一方面,deepfake视频的检测是个难题。很业余的“换脸”肉眼可辨—通俗一点讲,你会发现诸如五官的线条、动态的表情有种僵硬的不协调感,仿佛人脸上带了一个面具。更细节一点,还有连接处、阴影位置、服装饰品不对称之类的证据。但随着人工智能技术的发展,这项技术必将日趋完善,甚至到达人工智能也无法区分真假的程度。如果我们检测虚假视频,很快我们就会被迫怀疑一切所见所闻。
值得庆幸的是,科学界正在应对这个问题。由纽约奥尔巴尼大学的Siwei Lyu领导的一个团队发现了这些伪造视频的漏洞。Lyu和他的团队特别关注一点:眨眼。健康的成年人每两到十秒钟眨眼一次,而一次眨眼的时间是十分之一到十分之四秒。由于人像照片通常不会闭眼,所以假视频中的人物眨眼的频率要比真人少得多。因此,辨别真假视频的原理就是使用机器学习来检查视频中睁眼和闭眼,计算眨眼的总频率并将其与自然范围进行比较,可以排除高达95%的假视频。
全凭眨眼判断视频真伪显然是不够的—在伪造视频的后期处理中,手动添加眨眼并不是多大的挑战,Lyu也很清楚这一点:“我们正在形成第一道防线,从长远来看,这实际上是制作假视频和检测假视频之间的持续战斗。”
另一个可行的方式是推广视频签名,即所有的视频都要留下原始hash来证实真实性,也许以后,没有留下hash值的人物视频都会被视为虚假,就如同和任何发来要求借钱的短信同样的待遇。到时候,一定会出现辅助校验的平台和工具,帮助人们分辨。
对中国来说,现在处于一个很特殊的时期—大多数民众完全不熟悉这种技术,而在技术圈已经可以很低成本地制造这种视频。像抖音、快手这种自媒体视频平台,简直就是天然适合虚假视频大规模传播的土壤。虽然deepfake视频还没在中国的网络上大规模出现,但提高警惕总是没错的:知道视频可以伪造,以后第一反应就应该是去探究其来源,如果没有可靠的官方来源,就应该提高警惕,切勿轻易相信和传播。
如何去伪存真,真的是每个时代每个社会都需要思考的终极问题。