张 璐,季昊龙,江 宁,张国杰
(山东警察学院 侦查系 刑事科学技术系,山东 济南 250200)
近些年,人工智能技术发展迅速,深度伪造技术便是其中重要的研究成果之一。深度伪造技术包括人脸合成、视频伪造、音频模拟、文本仿造等多模态的欺骗技术,生成并不存在的或者张冠李戴的音视频合成品。深度伪造技术在各行各业应用广泛。一方面可以为工作提供技术支持,例如在影视娱乐领域,可以通过视频与音频伪造,实现比替身演员更加真实的效果。在服务业,可以借由人脸生成技术增强人机交互感受,以提高服务质量。此外在艺术、医疗、教育、社交等领域也有应用。另一方面,深度伪造技术的不恰当使用同样会带来风险,损害个人和企业权益、威胁国家安全和公共安全。
深度伪造技术种类繁多,视频伪造是深度伪造技术最为主要的代表,包括直接换脸、表情操纵、动作迁移等多种类型。深度伪造的核心原理是利用深度学习训练神经网络,将目标对象的面部“嫁接”到被模仿对象上。视频是由连续的帧组成,把每一帧中的人脸对象进行替换便能得到换脸后变脸的新视频。因此,在伪造的步骤上,大致可以分为三个流程,一是将原始视频逐帧转化成大量图片,并使用人脸识别技术识别、对齐视频图像中的人脸;二是利用生成的伪造人脸直接完成对原始对象面部的替换;三是将替换完成的图片重新合成、压缩、还原为视频。从伪造人脸的生成技术上来看,可大致分为两类:自动编码器(Auto Encoders,AE)与生成对抗网络(Generative Adversarial Net,GAN)。
自动编码器是由编码器与解码器组成的一对网络结构。其中,编码器用于从训练数据中学习提取出样本特征,解码器则是从提取出的样本特征中学习,恢复重建至原始数据的参数映射。在实际训练过程中,通过训练两组“编码器—解码器”实现两个身份的互换,即用编码器 A 实现对A 的特征提取,然后用解码器B 对其进行解码重建。
生成对抗网络[1],源于博弈论“零和博弈”思想,通过生成模型G 和判别模型D 互相博弈的方法来学习数据分布。生成模型可按照伪造目标的数据分布样式随机采样生成数据样本,判别模型 D 则要判断其数据真伪。在对抗博弈下,两者通过对抗式训练提升其能力,生成模型学习如何生成与原始分布无法区分的样本,而判别模型却对其真伪性难以判别。至此,将判别模型丢弃,使用生成模型便可生成各类伪造内容。
近些年,深度伪造技术快速发展,在各个领域被广泛应用。各国对此类人工智能生成技术发布了相关研究报告与政策要求,以规范生成技术合理、合法、合规地应用。美国作为人工智能大国,在深度伪造的研究与治理方面研究较为深入。2018 年美国国会提出的《深度伪造责任法案》要求任何创建深度伪造视频媒体文件的人,必须使用“不可删除的数字水印以及文本描述”说明该媒体文件是篡改还是生成的,否则便属于犯罪行为。2019 年,美国发布的研究报告《2019年全球威胁评估》中明确提到了深度伪造技术已经对国家安全造成威胁并呼吁各国政府应当对其在技术与制度上进行有效管控。2023 年以来,全球范围内虚假信息泛滥现象更加严重[2]。在内容监管方面,美国政府对滥用深度伪造技术的担忧也体现在其最新的《网络安全战略》和《国家安全战略》报告中,其中列举了伪造信息对网络安全和国家安全的威胁。
我国深度伪造及各类生成式技术的政策性规范出台起步较晚,但是发展迅速。2022 年11月国家互联网信息办公室、公安部等部门审议通过的《互联网信息服务深度合成管理规定》[3]对利用深度学习生成的各类型数据提出了要求,尤其对语音生成、人脸生成、人脸替换、人脸操控、姿态操控等显著改变个人身份特征的编辑服务应当明确进行标识注明。2023 年4 月,国家互联网信息办公室出台《生成式人工智能服务管理办法(征求意见稿)》[4],对包括深度伪造技术在内的所有生成式人工智能服务从数据采集、数据保存、模型训练、算法设计、监督管理等多方面进行了明确规范。
深度伪造技术作为一项新兴的技术类别,被犯罪分子应用于犯罪案件中的案例相对较少,但已出现增加的趋势。因为深度伪造技术的高仿真与难辨别等特性,加之犯罪分子利用被害人“耳听为虚、眼见为实”的思维习惯,使得被害人难以在第一时间有效甄别其真伪,造成各类损失。结合目前已出现的各类案件,总结深度伪造技术在案件中的滥用场景如下。
这是深度伪造技术在具体案件中应用并且造成较大经济损失的一类应用场景。诈骗分子首先利用社会工程学手段或者网络黑客技术向被害人的手机中植入木马,通过分析手机中的通话录音与个人相册等文件获取被害人的声纹及面部图像特征,用于后续的音频、图像及视频伪造生成。2020 年以前,此类犯罪多集中于音频伪造。据中华人民共和国公安部网络安全保卫局公布的案例,2020 年12 月,某公司财务小王接到领导电话,要求立刻给供应商转款2 万元。由于老板的口音十分逼真,小王信以为真,在1 小时内转款完成,然后发现被骗[5]。随着人们对于此类技术的了解程度与防范心理的加深,利用深度伪造进行诈骗的手段也由音频诈骗转向图像及视频诈骗。2021 年10 月,安徽发生非法利用深度伪造技术生成人脸动态视频以破解身份核验,为黑灰产业提供注册虚拟手机卡支撑的案件[6]。2023 年5 月发生在包头的一起电信网络诈骗案件中,诈骗分子利用被害人好友的伪造视频,通过微信视频的形式让被害人放下警惕,损失达几百万元[7]。
当前深度伪造技术在视频伪造领域发展迅速,出现了各种“一键式”“傻瓜式”生成工具,犯罪成本大大降低。人们普遍信奉“眼见为实”的理念,犯罪分子利用这一点,通过开视频、面对面的方式,并借由网络信号差等原因解释伪造视频的模糊性与不真实性,让被害人放松警惕,遭受诈骗。
深度伪造对象的现实存在性可分为两类:一是生成现实生活中不存在的人像、视频与音频等,二是生成实际存在的人像、视频与音频等。相较于第一类伪造对象,第二类则存在对于公民的侵权问题,因为在大多数情况下,伪造方不会通过合法正规的途径获取被伪造方的音频、照片与视频资料。
第二类伪造对象中,使用深度伪造视频技术进行淫秽色情视频牟利犯罪被广泛关注。利用深度伪造技术将被伪造方的人脸图像迁移至其他客体上,对被伪造方个人的肖像权和名誉权造成严重侵犯。同时,若伪造者以营利为目的,将其故意进行散播,则将进一步触犯刑法,升级为刑事案件。
深度伪造所生成的伪造品,对公众个人带来肖像权与名誉权的侵犯,其伪造品对原始客体的侵权也将表现在其他方面。例如前段时间大火的某知名歌手的AI(Artificial Intelligence)形象,网友通过对该歌手声纹特征的提取分析,伪造出音色几乎完美复制的伪造音频。此举虽然能够满足网友及粉丝对“歌手”尝试多种曲风的愿望,但在实际的应用过程中,由于该AI 形象的主体对象,即真实的歌手本人并没有对其进行授权,加之伪造者们通过上传此类伪造音频从而带动网络流量,进而获取经济利益的行为,因此该深度伪造的AI 翻唱版本涉嫌侵犯了歌手的声音权利,呈现这样的作品还需要歌、词、曲的配合,这种情况将涉嫌对词曲者版权权利的侵犯[8]。
深度伪造技术的非法使用将对社会稳定与国家安全造成危害。[9]社会上别有用心之人与各类非法组织也借助深度伪造技术生成与现实相违背的文本、图片、视频等数据,制造热点话题,从而煽动民众的情绪,进而引发更大规模的群体性事件。因此,这些伪造品的出现,不仅会对重要人物的个人形象进行了严重地抹黑与造谣,同时也将对各国国内与国际社会的稳定及国家安全带来巨大影响[10]。
深度伪造技术还将进一步增加公民与公民之间、国家与国家之间的不确定与不信任。不良个人或组织将借由该技术生成虚假信息,进一步使用人工智能技术生成若干虚假账号并大肆传播伪造信息,散布放大社会矛盾,从而挑拨群体对立、民众对立,增加公民之间的不信任甚至隔阂。在国际上,恐怖组织将恶意伪造的信息展现为某一国家对另一国家的煽动性言论及视频,挑拨两国关系,对各国构建和谐国际关系带来巨大挑战。
伴随着深度学习与人工智能技术的发展,深度伪造技术的进步迅速,技术迭代周期极短。当前学术界对其研究使用的数据集均有较明显的伪像,但在实际互联网上流传的各类高质量伪造品几乎无法靠人力简单辨别。因此,若犯罪嫌疑人将深度伪造技术应用于刑事犯罪过程中,被害人单凭人眼、人耳已无法有效辨别真伪,个人权益受到侵害的概率极大,给公安机关办理该类案件带来极大的困难。从技术发展与制度建设两方面入手,随时关注该技术领域内的最新发展,及时更新各类案件中深度伪造技术滥用的打击与治理手段。
深度伪造技术的传播与恶意使用所带来的严重后果进一步促使了近年来对于深度伪造检测算法的研究热潮。相较于文本与音频伪造,在学术界与工业界,图像与视频伪造技术依然是研究主流。同时,在各类案件中被滥用的深度伪造技术也以利用人脸图像及视频的伪造品进行欺诈的案例居多。因此,对于图像与视频的伪造检测技术相较于音频与文本更加成熟。
图像与视频的深度伪造检测,应当重点聚焦于挖掘真伪样本的区别。对于图像伪造检测,结合当前绝大多数主流的伪造品只会替换图像中的关键性区域(如图像中的人脸区域)而非整个图像的全盘伪造的特点,可重点检测真伪区域的分界线以判别图像真假。对于视频深度伪造检测,则可从视频的各帧间连贯性与一致性方面入手[11],因为视频伪造是对图像进行独立的逐帧伪造而实现的,其必定丧失了真实视频中各帧间的一致性。
开展深度伪造检测技术的研究是有效打击与遏制其在各类案件中被滥用的前提与基础。但在实际案件中,该技术的准确率能否达到实际应用的标准、检测结果能否被检察院与法院所认可与采纳,目前仍是未知。
除了案件发生之后对涉案音视频真伪检测等事后工作之外,更应大力推动和发展数字水印技术,通过区块链等技术,在音视频的最初生成阶段打入“标记”,能够有效追踪音视频等数据的每一次修改、备份与扩散,并且每一次数据伪造也将有迹可循,真正实现从源头打击和杜绝深度伪造技术的非法使用。
深度伪造技术发展迭代迅速,由于对抗与检测技术的滞后性很难从根源上遏制其被非法应用,应从制度与治理手段的层面加大对于此类现象与问题的预防与打击。
一是落实法律法规、健全技术标准体系。当前我国针对深度伪造技术及生成式人工智能的滥用已出台了《互联网信息服务深度合成管理规定》与《生成式人工智能服务管理暂行办法》等相关制度法规,对数据生成与伪造的全流程进行规范。当前应进一步完善法律法规建设,结合具体技术细化深度伪造技术的各种类别与全流程的标准体系建设,进一步明确各类数据与模型的使用场景、条件与模型检测方法,加大数字水印技术的推广实施力度。
二是加强信息保护、杜绝模型的非法数据来源。数据是模型的底层动力,深度伪造模型的数据来源均为潜在受害目标的个人音频、图像、视频等数字资料,并且数据的获取涉及黑灰产业,其中具有较为完善的利益链条。因此,应当加强个人信息的保护力度,完善等保机制,提高各类模型获取数据的门槛,杜绝深度伪造模型的非法数据来源。
三是更新侦破思路、完善宣传打击手段。向公众普及深度伪造技术及相关案例信息,提高人民群众的反诈防骗意识,倡导民众不要轻易相信“眼见为实”,通过询问个人信息的方式鉴定对方是否为不法分子,并做好录屏录音等证据保存。对于涉及深度伪造技术的刑事案件,在打击到窝点之后,快速了解分析其伪造模型与原理,掌握嫌疑人获取被害人相关图像、视频、音频等信息途径。
深度伪造技术是当前人工智能技术快速发展的重要成果之一,已在电影制作、广告拍摄等多个领域发挥了重要作用。与此同时,不法分子也已将深度伪造技术滥用于各类案件中,对于个人与社会均造成一定的影响。因此应当重点研究深度伪造检测方法,并进一步完善制度建设,实现与加强源头保护,这必将能够有效遏制深度伪造技术的滥用,保障人工智能等新兴技术促进人类社会的新发展。