沈臻懿
“有图有真相”,可谓长期以来人类社会中的一条不变真理。人们在记录已经发生的事实时,已习惯通过影像资料来予以固定和反映。然而,在AI视频换脸术、人像照变动态表情包技术等黑科技的新浪潮下,有图有真相,被彻底颠覆……
漫漫历史长河中,人们用来记录和保存事件的方式一直都在发生着变化。从最初的口耳相传、文字记录、绘画形式,到之后的照片、录音、录像等,现代人早已习惯了用影像资料来记录生活、回溯事实。如果人们平时遇到疑惑之事,譬如,发现自己停在停车场内的爱车不知被谁剐蹭了,往往第一反应就是调取车库监控录像,以确定这一事件真相。可以说,图片、视频记录的内容,已成为当前保存事实真相的重要手段。
然而,随着一种名为“AI视频换脸术”的黑科技问世,“有图有真相”的论断已经彻底沦为过去。未来,当我们再看到一段人物影像视频后,我们可能要多问自己几遍,这个视频是真的吗?
想必不少资深影迷对于尼古拉斯·凯奇曾主演的好莱坞大片《变脸》仍有印象。在这部影片中,有一场反映高科技整容换脸手术的桥段。在各类手术器械的精密操控下,主人公的脸被换到了另一个人脸上。现实生活中,对于真人换脸,需要有高超整容技术的介入,并且难免出现瑕疵。但对于视频人物的换脸,目前的技术已经几乎可以乱真。
带有人物影像的视频,可以看成是一段连续的图片。如果我们将每一帧图片中的脸一一替换,就能得到一段变脸后的新视频。AI视频换脸术在其中的应用,就是基于人工智能的人体图像合成技术来生成一张“假脸”。这一解释虽然较为简单,但该技术涵盖了人脸定位、面部捕捉、深度学习、基本算法、人脸转换等诸多操作难点。
由于AI视频换脸术的目的就是将原始人脸转换为目标人脸,因此首先需要做的就是数据准备,也就是收集原始人脸的图像和目标人脸的图像。为了达到“以假乱真”的效果,不仅需要捕捉不同的脸姿态、角度、表情以及光照的脸部图像;还需要进行专门的数据处理。计算机系统需要对人脸表情变化的关键点进行面部捕捉,有了这些面部的“关节”点后,就可以借助深度学习技术来识别人的表情。无论是眼睛、鼻子、嘴巴的相对位置,还是脸颊、下颌与颧骨的形状,都需要通过算法来识别人脸面部的特定结构,进而依照这些特征点来进行脸部的替换,也就是将原始人脸替换成目标人脸。
基于AI视频换脸术篡改的视频,具有极强的欺骗性。这也意味着我们绝大多数人的眼睛,将会被AI视频换脸术所蒙蔽。对此,有媒体也表示,“这一技术再次对我们发出了警示。在当前的数字时代,对于任何事情都不能仅凭表面观察,或许那张脸可能就在欺骗你。”同时,也有人担忧,AI视频换脸术的问世,是否会就此开启“潘多拉的魔盒”!
在美国总统特朗普宣布中止全球气候变化协议后,比利时某政党便利用AI视频换脸术,对相关视频进行了篡改,并发布了一段名为“特朗普宣告比利时政府也应当退出”的虚假视频,引发了比利时民众的愤怒。不难想象,AI视频换脸术被用在此类“以假乱真”的假视频之上,其后果可能极为严重!
与此同时,AI视频换脸术还存在着严重的道德、伦理隐忧。目前,已有诸多公众人物就此躺枪。比如,某些受害者的头像被换到了某些成人视频的主人公脸上,并被人上传至成人视频网站,引发了诸多社会道德的争议。主演过电影《神奇女侠》的女星盖尔·加朵(Cal Gadot)就曾遭遇过“换脸色情视频”的困扰。有一名技术男将盖尔·加朵的脸,嫁接替换到了一部成人视频中的女主角身上,令盖尔·加朵无辜“躺枪”!
面对这一出神入化的技术,我们是否有方法对其予以鉴别,并避免可能存在的风险呢?所幸当前有人已经关注到了这一问题,并已着手开展了“反AI换脸术”的探索。
在某些制作尚欠精良的换脸视频中,我们如果仔细观察,就可能會发现若干破绽。图像中被换脸人物的脸部边缘处肤色会发生某些突变,轮廓线条也不甚光滑,就如同戴上了一层薄薄的假脸面具。当然,如果是制作更为精良的换脸视频,这一方法可能就不再适用。
还有研究团队发现,这些通过AI视频换脸术制作的篡改视频,几乎都存在一个共同的漏洞,那就是被合成替换上去的假脸,很少或者甚至不会眨眼睛。我们根据常识都知道,诸如眼球运动、脉搏、呼吸等,都是人类自发且无意识的生理性活动。据统计,正常人每分钟眨眼十余次,平均每2~6秒就会眨眼一次,每次眨眼所用时间在0.2秒至0.4秒之间。篡改视频中这种缺少眨眼的反常现象,无疑是甄别视频真假的重要铁证。究其原因而言,造假者往往是使用原始人脸和目标人脸的睁眼照片进行深度学习和模拟的。
所谓“道高一尺、魔高一丈”,AI视频换脸术的问世,同样催生着“反AI换脸”技术的崛起。有研究团队表示,基于有效预测眼睛眨眼状态的“反AI换脸”技术,其准确率、可靠性高达99%。目前,这一技术也已成为甄别虚假媒体新闻、推动媒体取证的有机组成部分。不过,从技术层面来说,在篡改的换脸视频中人工添加处理眨眼活动,也并非不可能实现。某些造假者也已注意到了这一问题,并开始将眨眼等人体无意识生理活动添加至篡改视频之中。因此,在可以预期的未来一段时间内,AI视频换脸术与反AI换脸术之间的较量与博弈将持续深入。不过,人脸眨眼甄别也并非反AI换脸技术的唯一“终极武器”,研究人员通过强制记录图片和视频的拍摄时间、拍摄地点,即在区块链上记录下无法篡改的时空戳,同样可以对图片与视频中的人脸是否被替换进行甄别。
俗话说“眼见为实,耳听为虚”。但眼下,这一谚语已然随着AI视频换脸术的横空出世而需要重新解释了。耳听为虚,眼见也为虚。除了AI视频换脸术之外,“以假可乱真”的黑科技还在不断继续……
如果说AI视频换脸术的核心是将一段影像视频中原始人脸的图像和目标人脸的图像进行替换,那么基于AI系统的人像照变动态表情包,则同样借助于类似的原理,将一张静态的肖像照或者画像,合成为动态影像,并可配以相应的语音。在经过大量人物图像与动态视频的深度学习与训练后,AI系统能够探寻到与系统学习的脸部相对应的结构部分,并针对静态人物肖像照中的眼睛、鼻子、嘴巴等关键器官部位进行调试,从而令静态图像“动起来”!不过,这一阶段也仅仅只是完成了该黑科技的一半功效,其还可以根据操作者所提供的语音,配合其语气语调,对人物的面部表情进行调整,从而令合成的视频影像更为逼真,也更具有欺骗性。
研究人员在探究人像照变动态表情包技术时,将一张爱因斯坦的静态照片与一段不属于他自己的演讲音频合成,形成了一段全新的爱因斯坦演讲视频。在该合成视频中,爱因斯坦不仅有着动态表情,其口型也会随着演讲音频的内容而发生相应变化……
编辑:黄灵 yeshzhwu@foxmail.com