孙泽宇 袁得嵛 王志宣 孙炜晨
1. 中国人民公安大学 2. 安全防范与风险评估公安部重点实验室 3. 公安部第一研究所 4. 多维身份识别与可信认证技术国家工程研究中心
深度伪造技术是使用深度神经网络合成视频、图像、声音等媒体信息的技术。随着对抗生成网络(GAN)的出现,研究人员在其基础上不断改进,深度伪造技术不断发展,与此同时深度伪造检测技术也随之发展。深度伪造检测技术同样使用深度神经网络,二者相互博弈,互相促进发展。本文所述的文检综合领域,包括文件检验、指纹识别、虹膜识别三方面,主要讨论当前文件、指纹、虹膜的深度伪造技术以及相应的检测防御手段。鉴于目前的深度伪造技术的主流是人像视频图像合成,其它内容合成的研究相对较少,因而本文选取了较大的范围进行讨论。尽管相关研究较少,但也已经出现了多个将深度伪造技术结合到文件、指纹、虹膜等文检综合领域的研究和应用。
在文件伪造方面,英国伦敦大学的研究者提出了一种算法“My Text in Your Handwriting”[1],该算法以字形为中心,通过学习间距、线条粗细和压力参数,产生伪造的笔迹图像。该算法需要带有标签注释的原笔迹样本来生成新的笔迹图。生成的图像即使是打印在纸上,看起来也与手写十分相似。
在虹膜伪造方面,李典[2]通过渐进式增长生成对抗网络(ProGAN)、深度卷积生成对抗网络(DCGAN)两种不同的对抗生成网络来生成虹膜对抗样本,两个对抗生成网络所选择的训练数据集为Iris Liveness Detection Competition2017提供的LivDet-Iris-2017-Clarkson虹膜数据集中的真实虹膜样本集,并对数据进行了预处理,结果显示生成的对抗样本使得现有的多种虹膜识别算法准确率下降到50%左右,使得算法基本丧失检测能力。因此现如今的虹膜识别技术很难应对深度伪造虹膜样本的攻击。
在指纹伪造方面,Hakil Kim[3]等人设计了一种算法通过主细节集生成和指纹印模生成两个步骤生成深度伪造指纹。主细节集利用两阶段生成对抗网络(GAN),由标准正态分布采样的随机噪声产生;指纹印模同样通过一个GAN网络生成。这些生成指纹的特征在统计学上与真实数据集上的指纹相比十分相似。
可以看出,深度伪造技术在文检综合领域的应用已经出现,且目前缺乏对深度伪造技术的防御措施,给文检综合领域提出了新的挑战。本文将对深度伪造技术以及防御措施进行详细介绍。
1. 文件检验技术
文件检验主要是指利用技术手段,检验和鉴定各种文件、合同、传真扫描件、手写文书的真伪性,并在民事、刑事案件的审讯和审判等处应用。传统的文件检验技术主要是形态学检验,技术方法相对单一,需要大量的文件样本进行取样判断的同时,还需要技术人员丰富的经验累积[4]。随着科学技术的不断进步,伪造文件更加真实的同时,数字化图像材料也变得十分常见,使得专业技术人员更难鉴定。尤其是目前深度学习的蓬勃发展,各种数字化的文检材料更容易伪造,对文件检验技术提出了更高的要求。单单用传统的文件检验方法已经无法满足当今信息时代的数字化检验要求。
笔迹检验又称笔迹鉴定,是文件检验的重要组成部分[5]。传统的笔迹检验技术主要是线下对文件笔迹使用刑侦方法分析,判断笔迹是否为他人仿写。但是在线笔迹图像存在较难检验的问题,即同一人的两个在线笔迹信息,也会因为前后时间、环境等因素不同而产生差异,这对在线笔迹鉴别精度的进一步提高是巨大的障碍[6]。
2. 文件的深度伪造技术
文件的深度伪造主要是由深度伪造算法生成笔迹图像或操作手写机器模仿手写字迹,因此本文重点关注笔迹伪造。初期的笔迹深度伪造技术使用长短期记忆网络LSTM。作为循环神经网络RNN的改进,LSTM单元相比RNN的单元能维持细胞状态并具有较大的存储空间[7]。笔迹图像存在明显的先后序列关系,前后内容都会影响当前字符的书写,而LSTM能够长时间地保存信息,这使得它们能够很好地进行时间序列数据的处理、预测和分类,因而较适合笔迹伪造场景。
后来随着对抗生成网络GAN的出现,大多数研究转向使用和改进GAN进行生成深伪笔迹。GAN模型同时拥有书写数据的“生成算法”和“判别算法”,当输入一个人的真实书写数据后,生成算法负责仿造假数据,判别算法负责鉴别真数据,如此相互博弈,在训练过程中生成器和判别器都会不断进化,最终生成器胜出,产生出能够以假乱真的伪造图像。
Ji Gan等人[8]提出了手写仿写对抗生成网络HiGAN+模型,该模型主要有五个特殊设计的模块,分别是全局判别器、补丁判别器、风格编码器、书写者识别器、文本识别器。全局判别器进行二分类,以确定输入图像是来自训练数据的真实图像还是由生成器生成的假图像。补丁鉴别器可以判断一个给定的小区块是由真实图像还是假图像裁剪而成的。这种方法通过计算小区块的真实度来细化合成图像的局部纹理细节。风格编码器能从任意的手写图像中分离出书写者的书写风格,将任意长度的手写图像映射成固定大小的书写风格特征向量,该向量用于手写模仿。书写者识别器可以区分输入的笔迹图像属于哪个书写者,它的目的是指导生成器合成特定书写风格的笔迹图像。文本识别器在真实且有标签的手写图像上进行训练,用于检测手写图像的文本内容,指导生成器产生任意文本内容为可读的手写图像。这五个模块相互配合,使得该模型能够生成非常逼真的手写伪造图像。算法作者上传了包含模型生成伪造图像的笔迹图像,面向网络的参与者发起了判断是否为伪造图像的投票,总体准确率为50%,这表明未经专业训练的人完全无法分辨伪造手写图像与真实图像。
Facebook AI推出了笔迹生成AI TextStyleBrush[9]。该算法只需要一张包含一个单词的笔迹图片,就能较为完美地还原书写者的字迹。而输入一段文本内容,加上被模仿者的笔迹,就可以生成伪造的字迹图像;同时,该算法是基于自监督方法训练的模型,可以对相同文本内容的文字进行风格转换;此外,它拥有文字识别与图像分割的方法,能直接对任意场景下图片中的文字进行替换。TextStyleBrush基于能生成逼真伪造图像的StyleGAN2模型。但是StyleGAN2无法控制具体每个字符的特征,无法实现生成指定文本的图像;其次,StyleGAN2无法实现对书写者风格的模仿。而TextStyleBrush能够生成包含输入图像文字的颜色、间隔、尺寸和风格等信息的伪造图像。为实现这些功能,TextStyleBrush将文本内容与书写风格作为两个可控变量操作模型的输出,文本内容作为变量解决了模型无法准确生成文字内容的问题,而书写风格的变量则是应用神经网络从手写数据中提取诸如颜色、间隔、尺寸、风格等特征,并把这些特征应用到输入文本生成器中,从不同的特征层面控制输出的图像。并且该模型还考虑到了不同图片分辨率不同的问题,生成器需要生成并替换原有文字,因此模型加入了能够控制分辨率的结构,使得生成的文字图像与输入图像分辨率相同,替换前后图像质量不会有显著差异,将任意场景下的文字替换成为可能。
对于汉字笔迹的深度伪造也已有学者进行研究。Jie Chang等人[10]在GAN网络的基础上提出了分层对抗生成网络HGAN(Hierarchical GAN)模型。该模型由两个子网络组成,首先是一个变换网络,它可以在保留原图像字符相应结构信息的情况下对字体进行变换;另一个是分层对抗辨别器,用于将变换网络生成的图像与真实图像区分开。这两个子网络都是全连接的卷积神经网络,所谓“分层”是指通过神经网络的多层特征来合成同时包含全局特征和局部特征的字体图像。由于汉字拥有较复杂的各种结构,分层次的设计能使模型提高合成质量。实验表明与单纯使用GAN相比,HGAN合成汉字的均方根误差RMSE更低,合成效果更好。
除了数字笔迹图像的伪造,亦有纸质笔迹深度伪造。在2017年度GeekPwn国际极客挑战赛中,中国金融认证中心(CFCA)的李闯等人开发的DeepWritting模型操作一台由廉价3D打印机改造的机械臂用笔在纸上书写。该模型并未披露具体细节,但是使用了GAN网络,仅需20小时的训练,就使得专业鉴定师的误判率达到50%。该成果说明,深度笔迹伪造已经使单纯的人工笔迹鉴定不再可靠。
1. 虹膜识别技术的基本原理
虹膜图像的识别主要分为以下三步[11]:第一步是虹膜图像的获取,需要用近红外光补充来采集虹膜照片;第二步是虹膜图像的处理,主要是定位、裁剪和归一化处理;第三步是虹膜图像特征的提取和特征匹配,从虹膜特征库匹配得到结果即识别结束。
2. 虹膜的伪造技术
随着虹膜识别研究的不断发展,针对虹膜识别系统的伪造虹膜攻击手段也随之增多,给虹膜识别系统的安全性带来了巨大的挑战,在从采集虹膜数据到确认识别结果的每个环节上,都存在攻击生物特征识别系统的手段。典型的手段包括使用伪造的生物特征识别、重放录像攻击等,这些攻击手段能够攻破大量识别系统。与人脸识别相比,虹膜识别虽然具有更高的辨识区分性,但由于相比人脸采集难度更大,应用场景相对更少,对虹膜的对抗样本研究起步比较晚。目前虹膜识别领域针对对抗样本(尤其是由对抗生成网络生成的虹膜对抗样本)的研究还很少。
1. 指纹技术的基本原理
现有指纹采集和识别技术主要通过光感、电容和电磁波等方式来获取手指纹理,对其进行图形化处理之后得到特征,再将特征进行比对,最终实现识别。指纹的图形化处理,主要包括提取其三级特征[12]:指纹的纹型,指纹的细节点,指纹纹线上的汗孔、纹线形态、早生纹线、疤痕等。通过机器学习或者深度学习的方法训练指纹对比模型,进行特征提取以及特征对比,最终实现指纹识别。
2. 指纹的深度伪造技术
现在已有使用神经网络训练模型,创建出以假乱真的伪造指纹,其图像质量与原始指纹数据相当。常用的伪造方式是使用生成对抗网络(GAN)伪造指纹。GAN网络可以通过对抗式训练,制造带有数据噪音的深度伪造的图片,可用于数据增强,也可用于攻破特定的识别系统。Philip Bontrager[13]等人提出了DeepMasterPrints方法。该方法利用对抗生成网络生成指纹图像。具体来说,是先生成海量假指纹,利用进化优化算法搜索神经网络的潜在变量空间,采用协方差矩阵自适应进化策略(CMA-ES)搜索训练后的神经网络的输入空间,最终得到匹配指纹数最多的假指纹,被称为MasterPrints。在指纹识别系统不超过0.1%的错误匹配率下,该指纹可以冒充23%的数据集样本攻破电容式指纹识别设备,而若降到1%的错误匹配率,则可冒充77%的数据集样本。
显然,深度伪造给文检综合领域带来了严峻的挑战。一是在文件检验方面,已有多种笔迹伪造生成技术,其中有些技术不仅能骗过普通人,甚至能骗过专业的笔迹鉴定师,这说明传统的文件检验方法可能不再完全可靠;二是在虹膜、指纹识别方面,研究者提出的伪造算法生成的对抗样本,能够攻破各类识别设备使之失效,说明这些设备存在较严重的安全隐患;三是目前文检综合领域的深度伪造检测防御技术十分不成熟,鲜有研究,并且研究均基于其自身提出的伪造算法生成伪造样本的基础上进行检测,泛化性能无法得到验证,在实际应用场景下的实用价值还有待确认。
1. 文件伪造的检测与防御
目前文件伪造技术的检测主要针对笔迹的仿写进行检测,截至目前还几乎没有已发表的针对笔迹的深度伪造检测方法。而当前针对仿写笔迹图像进行检测的算法在面对深度伪造笔迹图像时,极有可能无法准确检测出笔迹的真伪。
鉴于目前缺少针对深伪笔迹的检测方法,笔者根据通用的深伪内容检测技术进行思路的扩展。由于许多伪造笔迹都由对抗生成网络GAN生成,而GAN网络生成的图像往往存在一些肉眼可见或不可见的伪造痕迹,这些伪造痕迹被称为GAN模型的指纹。使用逻辑回归、SVM等机器学习算法或神经网络设计二分类器,可以将问题转化为分辨笔迹是否为深度伪造的二分类任务。可以将图像的RGB通道输入卷积神经网络(CNN)提取图像的特征并进行分类,这其中可以引入注意力机制使检测模型专注于图像的伪造区域从而提升检测效果;也可以从伪造图像的频域特征考虑,通过离散傅里叶变换提取图像的频域信息,对图像的高频特征进行处理,再送入分类器进行分类,最终得到笔迹是否为伪造。此外,还存在笔迹伪造检测模型训练缺少数据集的问题。不过通过现有多种字迹深度伪造算法,研究者可以生成训练所需要的数据集。
现在也有许多研究针对GAN生成模型的一般性伪造痕迹进行检测,这些检测方法可以为深伪笔迹检测提供参考。Dong等人[14]根据现有模型跨数据集泛化能力较差的问题,提出了伪影检测模块,可以自动实现伪影区域的定位,更准确地识别伪造图像。 McCloskey 等人[15]研究发现伪造图片与真实图片的色彩与饱和度存在偏差,并以此为特征进行检测;Liu 等人[16]提出了空间相位浅层学习方法,验证了伪造图像和真实图像在频域中存在差异,最后通过浅层神经网络进行区分;Guarnera等人[17]使用期望最大化算法提取出伪造过程中生成模型的局部特征,用于训练支持向量机SVM等分类器进行二分类。
2. 虹膜伪造的检测与防御
现在虽然己有一些针对虹膜伪造样本的检测算法研究,但这些算法都是针对某一类特定伪造样本来进行防伪检测,即需知道攻击系统的伪造虹膜种类这一先验知识,这与现实场景下伪造攻击种类不可知的情况相悖。由于虹膜信息安全研究对于信息安全以及个人信息安全都有着重要意义,虹膜信息安全的防伪算法普适性、算法健壮性研究对于推动虹膜识别的广泛应用有着重要的意义与作用,具有较大发展前景。
有学者提出了对抗样本检测网络模型ACDNet[2],由于伪造虹膜样本的攻击性来自于纹理特征与真实虹膜高度相似,然而基于对抗生成网路的局限性,伪造样本的深层特征与真实虹膜仍有较大差异。这种差异很难使用频谱分析方法或纹理特征方法提取,但ACDNet判别网络结构中设计了多次卷积池化,可以提取到这些特征。实验表明,使用ACDNet识别对抗样本的准确率可以提升至90%以上。
3. 指纹伪造的检测与防御
应对深度伪造指纹重要的一环是活体检测,可以通过深度神经网络实现指纹的活体检测。Hakil Ki[3]等人根据自己算法生成的深度伪造指纹提出了一种深度卷积神经网络,用于检验指纹图像活性的呈现攻击检测。实验证明,该检测网络可以在LivDet2011、LivDet2013、LivDet2015 数据集上实现1.57%的错误识别率。此外,还可以通过加入红外模块、血流心率感应模块来进行检测,这些生物信号是判断指纹是否为活体的有力依据,能达到防御深伪指纹攻击的目的。
为了防止深度伪造被滥用,亟需制定相应法律规范。 2022年11月3日,国家互联网信息办公室会议审议通过了《互联网信息服务深度合成管理规定》,规定了深度伪造内容的服务提供者和使用者不得制作、传播危害社会和个人利益的内容,不得使用深度伪造内容制造虚假新闻。同时要求深度伪造服务提供者应当提供显著标识功能,任何组织和个人不得删除、修改这些深度合成标识。文件、指纹、虹膜的伪造与人脸等伪造不同,人脸的伪造可能用于艺术创作、电影制作等领域中,但是文件、指纹、虹膜等的伪造很难有积极用途,若将其用于攻击他人设备、伪造相关电子文书证据,则可能构成犯罪。该规定填补了我国在深度伪造领域法律法规的空白。
本文对文件、笔迹、指纹、虹膜的检验等文检综合技术的基本原理进行总结,并给出了几种对现有检测技术进行深度伪造攻击的手段。深度伪造的文件、笔迹、指纹、虹膜等文检综合材料对现有的检测方法均有较强的欺骗能力,而现有针对深度伪造内容的检测技术研究较少,且大多数都是对自己通过神经网络生成的深度伪造数据集进行检测,因而其模型的泛化能力未得到验证。现有的技术已经证明,深度伪造文检材料完全有能力骗过人工文检专家,因此文检综合领域的深度伪造检测还需要进一步研究。下一步应当结合最新的深度伪造检测技术,考虑伪造网络模型生成图像的特征,识别出图像的深度伪造痕迹,提升检测模型的准确率和泛化能力。