曾锦华,邱秀莲,卞新伟,施少培
(1.司法鉴定科学研究院 上海市司法鉴定专业技术服务平台 司法部司法鉴定重点实验室,上海200063;2.华东政法大学,上海200042)
关键字:人脸合成;深度伪造;深度学习;生成式对抗网络;实例研究
2017年12 月,Reddit网站出现一个名为“Deep-Fakes”的账号,其上展示了将名人的人脸替换到色情视频演员身上的一种机器学习算法。除了伪造色情作品外,该账号还展示了伪造假新闻等破坏性更强的合成内容应用场景。至此,传统的针对多媒体真实性取证研究的领域重新焕发生机,更多的研究工作开始关注于合成人像取证技术研究。
当前,人像合成技术更多关注于人体头部图像区域的合成,当然,部分研究工作亦关注于整个人体图像的合成。本文重点阐述针对人体头部(人脸)图像的合成技术。现有的人脸合成技术大体可以分为四类,即人脸生成技术、换脸技术、人脸属性操纵技术以及人脸表情操纵技术。其中,人脸生成指的是生成完全不存在的人脸图像,通过生成式对抗网络(Generative Adversarial Networks,GANs)技术可以合成真实感极高的高清人脸图像。该技术为后续的基于神经网络训练的深度学习方法提供了大规模的合成人脸图像数据库。换脸技术指的是不同人之间针对人体脸部区域进行替换的方法,其中主流技术包括依据经典的计算机图形学方法(如FaceSwap),以及近年来基于深度学习技术的DeepFake方法。人脸属性操纵技术指的是修改某一人脸的面部属性信息,实现面部动作和属性的控制,这里面部属性包括性别、年龄、发色、肤色、佩饰(比如眼镜)等内容。人脸表情操纵技术则是将一个人的面部动作行为迁移到目标人脸图像上,典型的技术包括Face2Face。此外,Deep Video Portraits技术可以将头部位置、头部旋转、面部表情以及眼部动作从一人迁移到目标人体头部图像上。主流的用于研究和测试人脸换脸技术以及相关取证技术的公共数据库包括FaceForensics++、DeeperForensics等。
主流的人像合成技术大体基于知名的深度学习技术GANs,该方法由Ian Goodfellow于2014年提出。GANs主要由两部分组成,一个是生成器神经网络,另一个是鉴别器神经网络。生成器神经网络负责生成目标对象,而鉴别器神经网络则将前者生成的对象和原始数据库中大量的真实样本对象进行比较,鉴别前者生成对象的真假程度。通过不断的神经网络参数迭代调整,直至鉴别器神经网络无法区分样本对象和生成器神经网络生成的对象,最终使得生成器神经网络在没有大量先验知识以及先验分布的前提下,仍然可以很好地学习逼近真实目标数据,并最终使神经网络生成的目标对象达到以假乱真的程度。
随着ZAO和FaceApp等人像合成开源移动应用程序的发布,以及部分开源程序的公布,使得人像合成视频创造变得愈发容易。同时,互联网上开始涌现大量的合成视频指导教程,这都使已有的人脸识别等身份验证系统面临重大挑战,更严重的是随之出现的诈骗等活动,以及假新闻发布等,极大危害普通大众信息获取安全,甚至可能危害国家安全。本文在此通过人像合成视频鉴定实例研究出发,研究人像合成技术以及相应的鉴定实践技术,并对人像合成鉴定关键技术进行探讨,为人像合成视频司法鉴定提供可行的鉴定方法和技术途径。
在一起视频真实性鉴定案件中,委托方送检一份信件和一张SD存储卡,信件内容大体是敲诈勒索索要钱财,SD卡中包含一段文件名为“网上曝光.mp4”的视频文件,文件大小为12 018 106字节,时长为12 s,帧率为30帧·s,画面大小为720像素×480像素,编码方式为MPEG-4。视频画面内容为宾馆房间场景,画面中一男子头倚着枕头靠在床头,上半身肩膀赤裸,下半身盖着被子,脸部侧向一女子,而该女子裹着浴巾坐在该男子床边,并背对着镜头。视频中显示该男子正与该女子交谈,画面中该男子头部、眼睛和嘴唇均有动作。视频画面中标识有“非正常拍摄”字样,画面分辨率较低,画面总体亮度较暗,无录音并带有噪声,但画面中仍能分辨出视频中男子面貌,检材录像截图如图1所示,其中红色区域经过模糊处理以保护隐私。委托方要求对检材录像中红框标示的人脸是否合成形成进行鉴定,其中红框标示的人脸在此称之为需检人脸,其所对应的人像称之为需检人像。
图1 检材录像截图
1.2.1 属性检验
使用winhex软件对检材录像文件的电子数据进行检验,在检材录像的文件末尾发现“Adobe After Effects CS6(Windows)”和“Adobe XMP Core”等信息,显示检材录像经Adobe After Effects CS6软件剪辑生成,部分信息如图2所示。
图2 检材录像电子数据检验信息
1.2.2 图像处理
使用人脸检测系统对需检人脸进行检测,结果显示无法对检材录像中的需检人像人脸进行自动化检测和提取,足以反映检材录像中需检人脸图像的图像质量较差。通过图像处理系统截取检材录像中需检人脸图像计算需检人脸图像大小大致为40像素×50像素。由于检材录像中需检人脸图像质量较差,对其图像处理提高特征可辨识性显得尤为重要。鉴定人首先对检材录像进行逐帧截取,并针对检材录像中的需检人像上半身区域图像进行裁剪,然后使用图像降噪技术对裁剪后的目标视频图像序列进行降噪处理,并进行旋转、插值放大,以及亮度和对比度调整等图像处理,需检人像视觉效果得到一定改善,为后续人像合成特征提取和检验奠定基础。
1.2.3 检验要点
考虑到检材录像中需检人像图像质量较低,鉴定人的检验要点如下:
(1)成像条件中的光照特征。检材录像画面为黑白图像,从录像画面中的场景布局可见,需检人像左右两侧的床头灯并未开启,房间中光源照射方向呈现自上而下方向,可能为顶灯照射。对需检人像头部区域图像检验发现,在部分视频图像中,其左侧额头位置可见相对明亮条状区域,说明需检人像成像的光照条件应为从左上侧方向照射的光源,其光照特征与检材录像中的背景光照特征不符。
(2)需检人像面部动作特征。检材录像中需检人像腿部不时有动作,其头部、嘴部在检材录像12 s时长中一直保持类似说话状态下的动作。以某一关键画面为基点,对检材录像中的需检人像头部和嘴部动作进行检验。检验发现,检材录像中需检人像的头部和嘴部动作存在同步周期重复性运动特征。
1.2.4 分析说明
检验发现,检材录像电子数据中包含“Adobe After Effects CS6(Windows)”信息,检材录像中需检人像的头部图像光照特征与场景背景光照特征不符,需检人像的头部区域图像动作特征存在同步周期重复特征。经综合评断,鉴定人最终给出了“检材录像中需检人像的头部图像为合成形成”的鉴定意见。
(1)合成和剪辑的关系。由本鉴定实例中对检材录像的属性检验可知,其是经过Adobe After Effects软件生成,可以初步推断出检材录像为剪辑形成,但这些并不能回答委托方的委托事项,即检材录像中的需检人脸图像是否系合成形成。剪辑的概念包含合成,但剪辑不等于合成,合成可以认为是剪辑技术中技术含量较高的实施手段和方法。
(2)图像处理的重要性。本案件中,检材录像画面进行了去色、加噪等反取证技术处理,通过降低图像质量等方法对合成痕迹进行掩饰,因此,鉴定过程中需要对检材录像画面进行图像降噪和放大增强的图像处理,以突出视频画面中的细微图像特征,并用于后续的合成特征检验。图像处理可以认为是声像资料鉴定的基本技术,但同时也是最关键的核心技术。
(3)光照特征一致性。光照条件是视频成像的重要组成部分,自然拍摄的视频画面中的物体,其光照特征与背景图像具有较好的一致性和协调性,合成视频中的目标合成图像由于异源成像条件,致使合成物体图像和背景图像的光照特征不一致,因此,可以通过检验图像中的目标物体的光照特征与背景光照特征的一致性实现合成物体图像鉴定。
(4)动作特征异常。合成视频中必须增加目标物体的动态特征来增强视频画面的真实感,针对人脸头部合成或人脸合成,通常伴随着人物的动作行为,具体包括头部运动、眼睛运动和嘴部动作等。现有的人脸合成技术大体通过逐帧图像生成方式,并未考虑视频中帧与帧之间的动作关联性和自然程度。现有的研究方法有通过人体微动作行为的协调性异常(比如眼球运动),以实现合成视频鉴定。本案中,需检人像的头部和嘴部动作特征存在周期重复异常,视频中目标人物的身份信息合成应是通过异源头部视频序列图像替换方式实现。可能受限于合适的异源头部视频图像长度限制或减少合成工作量角度出发,而采用周期重复替换方式实现。但对人物微动作行为的检验需要较好的图像质量保障,因此图像处理就更显其重要性。
人像合成鉴定关键技术检验内容主要包含人脸和人体区域,涉及人体/面部组件和属性、运动情况、微动作行为、人体动作与声音的关联性和一致性等。由于检验内容的广泛性,其涉及的声像资料司法鉴定项目亦比较繁多,包括图像真实性鉴定、录音真实性鉴定、人像鉴定、语音同一性鉴定,以及其他人工智能、模式识别等方法。人像合成鉴定相关的专家检验技术可参考相关行业技术标准和技术规范,本文仅对人像合成鉴定中通过人工智能和模式识别技术的检验关键技术进行简要探讨。
目前,主流的人像合成视频技术包括FaceSwap、DeepFake、Face2Face方法等,这些方法生成的合成对象图像序列通常会伴随目标对象图像特征的紊乱和不协调,比如光照不一致、图像抖动、对象细微动作不自然等。例如,现有的DeepFakes检测技术所利用的特征包括时/空域、空域特征、外围成像环境特征以及人体生物信号等。人像合成技术流程大体划分为人脸检测、人脸生成、图像融合。针对各个合成实施阶段中可能引入的特征不一致痕迹,通过基于特征一致性的人像合成视频鉴定技术是一个重要途径。该方法主要利用视频图像中目标物体表面光照、阴影、视频图像中人物表情、姿态,以及图像内容纹理、运动物体运动轨迹等特征分析出发,判断检材视频对象是否包含人像合成痕迹。
先对待检测区域通过提取关键特征并建立特征描述来进行图像区域模型构建。其中,可行的特征提取方法包括Scale-Invariant Feature Transform(SIFT)、Speeded Up Robust Features(SURF)、Local Intensity Order Pattern(LIOP)等。生成模型描述后,需要对局部区域之间的模型描述进行差异比较,一般模型以矩阵形式表示,可以使用特征值、矩阵范数等参数对不同矩阵进行差异衡量。模型差异比较后,需要对差异分值进行进一步建模分析。考虑到自然视频图像本身存在一定程度的背景图像与目标图像相对稳定的模型描述差异变化,而合成对象与背景环境差异相对较大,通过对局部区域模型之间差异分值建模评估,可以实现对原始视频图像差异分值分布和对应合成人像视频图像的有效区分。基于特征一致性的人像合成视频鉴定技术具体实施框架如图3所示。
图3 基于特征一致性的人像合成视频鉴定技术实施框架
现有主流的人像合成方法大体是基于卷积神经网络技术,比如DeepFake以及其他各种基于GANs的合成技术。通过充分利用深度学习方法优势,利用深度学习方法对抗人像合成技术成为该领域的研究方法和思路。深度神经网络可以提取人脸图像的细微特征,放大合成图像中不自然的细节特征信息,实现合成视频图像中局部合成人像的识别和鉴定。
基于深度学习的人像合成视频鉴定技术基本流程包括图像预处理、特征提取和合成区域定位。在图像预处理中,先对检材视频进行分帧处理,并使用基于运动特征或基于聚类的关键帧检测方法进行视频关键帧提取。为了突出合成图像的细微特征差异,需要对视频图像进行图像预处理。视频中的合成人像与自然人像在视觉上可能较难分辨,但其在高纬度特征空间中可能存在明显差异,这也是深度卷积神经网络技术的优势所在。经过预处理后的图像可以在后续的卷积神经网络中进行有效的特征提取,比如利用ResNeXt网络。提取的合成人像特征经过区域定位模型进行最终的合成区域识别,可行的物体定位网络模型包括SPPNet等。基于深度学习的人像合成视频鉴定技术具体技术框架如图4所示。
图4 基于深度学习的人像合成视频鉴定技术框架
随着自动化人像合成检测技术的愈发成熟,检测技术准确性得到了极大的提高。但其亦受到不断更新的合成技术的挑战。完善的人像合成视频鉴定技术必然是专家检验技术和人工智能自动化检测技术相辅相成的综合取证,特别是在反取证技术手段结合下的人像合成视频鉴定。比如,本文研究的人像合成视频鉴定案例中,为了掩盖人像合成痕迹,伪造者对合成视频进行了去色、加噪等降低图像质量的反取证图像处理,检材录像中的合成人脸图像质量较差,在人脸检测算法中甚至无法对人脸图像进行有效检测和定位,也就无法进行自动化检测算法中的后续特征提取和特征分类操作。然而,专家检验技术有其独到的优势,形成了丰富的专家经验知识以及特征价值评估方法。专家检验技术和人工智能自动化检测方法在人像合成视频鉴定中,所利用的合成特征本质上具有相似性,均是对人像合成中可能遗留的光照、运动、图像纹理等方面存在的异常特征进行有效提取和比较检验,双方技术各有其优缺点。为了应对日益复杂的人像合成技术挑战,结合人像合成痕迹的专家检验和人工智能自动化检测的鉴定方法将成为未来司法鉴定的必然趋势和可行途径。
现有的基于计算机图形学方法以及卷积神经网络技术的人像合成视频技术对多媒体证据有效性以及假新闻等甚至危及国家安全方面所形成的潜在影响,本文从人像合成视频司法鉴定实例研究出发,提出人像合成视频鉴定专家检验关键技术和实施方法。同时,针对人像合成视频鉴定的基于人工智能的自动化取证技术进行探讨,提出基于特征一致性的人像合成视频鉴定技术,以及基于深度学习的人像合成视频鉴定技术方案。人像合成技术以及相应的取证鉴定技术必然将处于长期的攻防状态中,通过专家检验技术和基于人工智能的自动化检测方法的有效结合将成为必然趋势,两者相辅相成,可以构建相对完善的综合鉴定取证方案。