李伟
通过简单的App操作,视频中的一个人物就能轻易地被替换成另一个人物,表情、动作、姿态几乎能够完全同步。这类基于AI的人体图像合成技术被统称为“深度伪造”,意指通过AI深度学习的方式,将现有的图像和视频组合并叠加成新的图像和视频,达到以假乱真的效果。它最初有另外一个名称——“深度合成”。2015年到2016年,美国的程序员圈子开始流行制作搞笑的“换头”视频。在此基础上,AI深度学习的算法不断叠加,形成了一个技术体系,被称为“深度合成”。典型的“深度合成”技术体系主要包括人脸替换、人脸再现、人脸合成以及语音合成等4种形式。
人脸替换是指将某人(源人物)的脸部图像“缝合”到另一个人(目标人物)的脸上,从而覆盖目标人物的面部;人脸再现利用AI技术改变人的面部特征,包括目标对象的口鼻、眉毛、眼睛,从而操控目标对象的脸部表情。人脸再现不同于人脸替换,前者侧重于改变某人的面部表情,从而让其“看起来正在说他从未说过的话”;人脸合成可以创建全新的人脸图像,随机生成的人脸图像,可以媲美真实的人脸图像,甚至能够代替一些真实人物的肖像,用于广告宣传、用户头像等;语音合成涉及创建特定的声音模型,不仅可以将文字转化成声音,而且可以将其转化为接近真人语调和语音节奏的声音。例如,风靡加拿大的语音合成系统软件RealTalk,与以往基于语音输入生成人声的系统不同,它可以仅基于文本输入就生成接近真人语音的声音。
2017年,“深度合成”技术因为一个无良网民的操作而变了味。在美国新闻网站Reddit的论坛上,一个名为“深度伪造”的用户上传了经过AI技术篡改的色情视频,这些视频中的成人演员的脸竟然被替换成了当红明星的脸!为了吸引流量,追求商业利益,Reddit网站非但没有对这种操作进行封杀,反而将论坛直接更名为“深度伪造”,摇身一变成为分享虚假色情视频的线上窝点。
尽管“深度伪造”论坛因充斥大量合成的色情视频而被美国政府勒令关闭,但这种技术开源的算法和工具性的应用不断涌现,比如Faceswap、FakeApp、face2face等。从那时起,美欧的新闻媒体开始使用“深度伪造”一词来指代这种基于AI的技术。
“深度伪造”技术在中国的流行始于2019年初。彼时,这种技术被称为“AI换脸”。有影视剧爱好者将1994年版《射雕英雄传》的一个片段在网络上传播开来。剧中人物黄蓉的扮演者朱茵的面孔,被换成了一位当红的内地女明星。虽然人物的五官能够看出不同,但换脸后的人物表情、动作自然、流畅。“让某明星瞬间拥有实力派演员的演技”,这种操作风靡一时,影视剧爱好者争相制作并传播经典影视剧的“换脸”视频。
互联网时代,没有永远的旁观者,人人都可以成为参与者。既然可以给明星换脸,那么自己为什么不尝试一下呢?2019年八九月份,一种新奇的App刷屏微信朋友圈。在手机上安装这类App,就可以在视频模板中给自己“一键换脸”,把自己植入某经典影视剧的片段中。用户体验后的感受是:视频中自己的脸介于某明星和自己的相貌之间,相似度超过80%。
从此,“深度伪造”技术在我国的社交平台上流行起来。在一些互联网平台上搜索“换脸术”,能找到相当数量的视频。有的是由软件直接生成的,有的是由专门做“换脸视频“的发烧友上传的。
1997年,著名导演吴宇森曾执导过一部获得第70届奥斯卡金像奖的动作影片——《变脸》,讲述恐怖分子和探员之间通过整形手术换脸后互换身份角色的故事。吴宇森或许没有想到,20多年后,不需要实施整形手术就可实现的“AI换脸”风靡全球。
在国内,“深度伪造”技术已经在影视剧制作领域得到应用。或许有观众在电视剧中看到过这样的角色:他看起来有点像演员A,但仔细看看,发现是演员B。其实这个角色最开始是由演员A饰演的,但他因个人的不当言论或行为而被封杀,导致该剧不能播出。制作方只得请来演员B救场。剧集当然不可能重新拍摄,这时候就轮到“深度伪造”技术大显身手了。经过“AI换脸”,剧中演员A的形象全部换成了演员B。
目前“深度伪造”技术被应用于影视、娱乐和社交等诸多领域,或是被用于升级传统的音视频处理技术,带来更好的影音体验,或是被用于进一步打破语言障碍,优化社交体验。从中长期来看,“深度伪造”技术既可以基于其深度仿真的特征,超越时空限制,丰富人们在虚拟世界的交互体验,也可以基于其合成性,创造一些超越真实世界的“素材”。
然而,与在影视剧制作等领域的应用相比,“深度伪造”技术催生的“灰色产业”令人担忧。在线上购物平台搜索“AI换脸”,能找到大量音视频。有商家提供这种定制服务,报价仅几十元。有的商家提供PS“换头换脸”服务,可以为用户的照片更换背景,制作与明星的“合影”,或者将用户的“头”完美地“嫁接”到明星的身上,不仅能实现正脸替换,还能将侧脸换成正脸。也有商家表示,可以定制“AI换脸”视频,制作“穿越大片”、實施形象包装。制作这类视频的收费标准一般为每分钟60元左右。
AI的快速发展,使得“深度伪造”技术不断迭代,尤其是“生成对抗网络”(GAN)技术的出现,使得“深度伪造”技术不仅所需的数据量下降,而且产品质量也比前几代版本大幅提高。“深度伪造”作为一种技术工具,能让“伪造物”具有高度的真实性。这种技术优势意味着,它可以在很多领域发挥作用。
2017年以来,有关“深度伪造”技术的开源软件在全球各国涌现。其开发成本大幅降低,并且能够被不具备专业知识的普通人轻易地使用。制作这类视频不需要高超的技巧,AI算法与面部映射软件结合,在伪造的内容中嵌入一个人的声音、面孔和体态等身份信息,“一键”便可制作想要的视频。
上传自己的“脸”,就能把诸多明星的表演换成自己的“表演”——这类技术带来有趣体验的同时,也引发人们对隐私、版权、安全等方面的担忧。
“深度伪造”技术泛滥带来的一个严重后果,就是使信息的真实性面临严峻挑战。自从摄影技术、视频、射线扫描技术出现后,视觉文本的客观性就在法律、新闻以及其他社会领域被慢慢建立起来,成为真相的代表,或者说,它们是反映真相的最有力的证据。“眼见为实”成为这一认知权威的通俗表达。在这个意义上,视觉客观性源自特定的专业权威体制。
然而,“深度伪造”的技术优势和“游猎”特征,使得这一专业权威体制遭遇前所未有的挑战。借助这种技术制作出的视觉文本,有了与事实不同乃至完全相反的内容和涵义,造成了视觉文本的自我颠覆,也就从根本上颠覆了客观性或者真相的生产体制。
PS技术出现并被广泛应用后,“有图”不再“有真相”。“深度伪造”技术的出现,则让原本代表着真相的视频变成了镜花水月。这对于本来就“假消息满天飞”的互联网来说,无疑进一步造成“信任崩坏”。
迄今为止,可以说立法是滞后于“深度伪造”技术发展的,催生了一定的“灰色地带”。“深度伪造”技术生成的图像和视频,基本上都是由AI从零开始创建的,而且可以不受限制地用于任何目的,不必担心版权、传播权、侵权赔偿和版税等问题。因此,这也带来了“深度伪造”图像及视频的版权归属问题。
“深度伪造”行为一旦被利益相关者发现,谁有权删除数据?违法者或侵权者制作的信息,是否具备权利属性?当社交平台发现疑似“深度伪造”视频时,是否可以简单地通过删除来规避责任?这种行为是否会阻碍信息传播自由?
在注意力经济兴起的社会背景下,与“深度伪造”的博弈是一场“有关真实的游戏”。在以AI为技术基础的“后真相时代”,“深度伪造”进一步用超越人类识别能力的技术,模糊了真与假的界限,并将真相开放为“可加工的内容”,供所有参与者使用。“深度伪造”开启的是普通人参与视觉表达的新阶段。然而,这种表达方式也给整个社会带来了更大的挑战。察觉风险,审慎回应,应该是我们做出努力的第一步。