封 筠 史屹琛 高宇豪 贺晶晶 余梓彤
1 (石家庄铁道大学信息科学与技术学院 石家庄 050043)
2 (大湾区大学 广东东莞 523000)(fengjun@stdu.edu.cn)
近年来,人脸识别系统被广泛应用于门禁、安防及支付等需要身份验证的场合,其高效、易用的特点备受赞誉.然而,人脸数据可通过社交媒体、视频网站等途径轻松获取,非法用户常使用恶意的伪造人脸对识别系统进行欺骗攻击.基于活体检测的人脸反欺诈(face anti-spoofing,FAS)技术作为前置保护措施,可确保人脸识别系统的安全性和可靠性,近年来吸引了国内外研究者的广泛关注.
随着深度学习技术在计算机视觉领域的快速发展,深度神经网络模型被广泛应用于人脸反欺诈任务,其训练需要大量数据,当测试数据与训练数据不服从同一分布时,模型的性能会大幅度下降.受限于数据采集的高额成本,收集各领域数据并完成标签并不现实.因此,需要在数据受限的情况下提升模型的泛化能力,即提高在跨域场景下的性能.为了解决该问题,无监督领域自适应技术被应用于人脸反欺诈任务,使用有标签的源域数据与无标签的目标域数据共同训练得到一个在目标域上性能良好的模型.其主要思想是将源域数据与目标域数据的分布进行对齐,使源域的标签知识可以被引入无监督的目标域中.研究者从不同的层面采用相应的对齐策略进行域自适应人脸反欺诈方法研究,目前主流的对齐策略受生成对抗网络启发,使用领域对抗训练的方式对齐源域和目标域特征.
领域对抗神经网络训练(domain-adversarial training of neural networks,DANN)[1]方法在对齐源域和目标域特征时,将其作为一个整体进行对齐,如图1(a)所示.然而,源域提取的特征中有大量与活体检测任务无关的信息,如人脸的轮廓、五官信息等.由于特征对齐与下游的分类任务并行、独立,所以将目标域的特征与这些无关信息对齐,不仅无法直接服务于活体检测任务,还可能使模型训练向次优方向推进.本文提出一种基于二次解耦与活体特征课程学习渐进式对抗对齐的域自适应人脸反欺诈(domain adaptation for face anti-spoofing based on dual disentanglement and liveness feature curriculum learning progressive adversarial alignment,DDCL)方法,如图1(b)所示.在训练时加强源域和目标域信息的交互,使得对齐任务直接服务于分类任务.通过领域对抗训练,渐进式地将目标域特征向源域的活体相关特征对齐,在减轻优化难度的同时保证目标域提取到与活体任务更为相关的分类特征.
本文的主要贡献包括4个方面:
1)提出一种基于启发式建模与分类器梯度的二次解耦方式,首先将源域特征解耦为域相关特征和域无关特征,之后将域无关特征解耦为活体相关特征和活体无关特征,用于后续领域特征对齐;
2)提出一种基于课程学习的领域对抗渐进式特征对齐训练策略,对源域解耦出的活体相关、无关特征进行线性加权组合,将目标域特征与其对齐,即在模型初始训练阶段将目标域特征与源域的活体无关特征进行对齐,之后逐步提高活体相关特征所占比重,最终将目标域与源域活体相关特征进行对齐;
3)从因果推断的角度出发,将本文所提DDCL方法与主流的对抗对齐域自适应方法进行比较,不同于之前方法的源域和目标域的对齐和分类彼此独立,DDCL方法训练时源域和目标域信息交互更为密切,特征对齐可直接服务于活体检测任务;
4)在4个公开数据集上的大量实验结果表明本文所提方法的优越性,可以显著提高无监督域自适应人脸反欺诈性能,与当前先进结果相比具有较强竞争力.
人脸反欺诈任务的目标是判断当前待检测人脸是来自于真实人脸还是各种材质的假体攻击.早期研究者根据专家的先验知识,设计了一系列的手工特征,如纹理特征[2-4]、图像质量[5-6]、生理信号[7-8]、脸部运动[9-11]等.纹理特征分析方法被广泛应用于人脸反欺诈技术,如LBP[2,12],SIFT[13],SURF[14],HOG[15]等.虽然手工特征方法对于真假人脸的判别非常重要,但是因其受限于研究者掌握的先验知识,同时需要高分辨率图像数据,导致手工特征尽管在训练数据集上表现很好,但由于图像采集条件和攻击媒介的多样性,使得手工提取特征的方法难以具有高的鲁棒性.
在计算机视觉领域,数据驱动的深度学习方法表现大幅度优于手工提取特征方法,将深度神经网络,如CNN,Transformer等引入人脸反欺诈任务,识别性能通常会有较大提升,是当前研究的重点.Yang等人[16]使用CNN作为特征提取器,分类真实人脸和欺诈样本.研究发现,纯神经网络往往难以满足判别要求,此后出现一系列辅助信息如深度图[17-19]、反射图[15]、光流信号[20-22]等与深度学习方法相结合,模型设计和优化侧重各有不同.Yu等人[23]巧妙地将手工LBP特征与CNN结合,较普通CNN而言能捕获到更多连续的伪造线索,如晶格伪影;还使用神经架构搜索(neural architecture search, NAS)技术自动探索网络架构最优参数,提高判别效率和精度,相比于现有方法其准确率高,但跨库测试错误率较高,模型泛化能力欠佳.
为提升活体检测模型的泛化能力,充分利用全部数据,减小源域和目标域数据因光照、环境等因素产生的领域分布差异,研究者将域自适应技术引入人脸反欺诈.现有的无监督域自适应人脸反欺诈方法,主要包括数据分布对齐和领域对抗对齐2类方法.
在数据分布对齐方法中,Li 等人[24]通过最小化源域和目标域特征空间之间的最大均值差异(maximum mean discrepancy,MMD)[25],学习到一个泛化性更强的分类器.Tu 等人[26]通过减小源域和目标域之间基于核方法的 MMD 距离来提高模型的泛化性.然而仅仅通过减小领域之间的MMD 距离可能无法充分探索源域之间的有用信息,因此目前使用对抗迁移学习的方式成为研究热点[27].
在领域对抗对齐方法中,Kim 等人[28]提出一种风格指导的领域自适应框架,通过风格选择归一化构造推理自适应模型,实现利用特定领域的风格信息指导,自动将模型适配到目标数据.Hamblin等人[29]提出一种新的领域自适应框架,利用多模态数据改善基于可见光的呈现攻击检测(presentation attack detection,PAD)任务.Wang 等人[30]采用对抗训练方式由特征提取器获得源域和目标域的共同特征,同时使用三元组损失在特征空间上尽可能分散真实人脸和假体攻击,最后使用K近邻分类.El-Din 等人[31]认为只使用对抗训练方式进行领域自适应,会在目标域与源域攻击方式和设备类型不同的情况下无法得到好的结果,所以为保存一些目标域特有的属性,采用深度聚类生成伪标签进行辅助训练.
由易到难的学习策略在人类教育中很常见,研究者将其引入深度学习领域.课程学习作为一种模仿人类学习方式的深度学习训练范式,其主要思想是模型先从简单数据开始学习,然后逐步增加学习数据的难度,直至学习整个数据集.Yang等人[32]利用课程学习将目标域样本与动态选择的源域样本对齐,以利用源域样本的不同的可迁移性.Shu等人[33]提出从较多的域内数据(类似于目标域)训练到较少的域内数据,指导模型在充分利用源域数据的同时适应目标域.Gong等人[34]将每种特征与教师联系,设计一种多模态课程学习策略以整合来自不同特征模态的信息.Wang等人[35]提出一个统一的动态课程学习框架,自适应地调整每个批次的抽样策略和权重,以提高泛化和辨别能力.
鉴于当前基于对抗训练的域自适应人脸反欺诈方法,通常无法保证对齐任务直接服务于活体分类任务,模型往往会向着次优的方向训练,本文首先通过双解耦获得域无关活体相关特征,即将由启发式解耦所得到的域无关特征,进一步解耦为活体相关特征和活体无关特征.由于活体无关特征对齐简单,但对真假人脸分类任务而言,其作用弱于活体相关特征,在充分解耦的理想情况下,活体无关特征对分类任务没有帮助,所以接着采用基于课程学习的渐进式特征对齐域对抗训练策略,即在训练前期将目标域与源域活体无关部分进行对齐,随着训练的迭代,逐步将目标域特征与源域的活体相关特征对齐,从而提升模型在目标域上的泛化能力,本文所提DDCL方法的整体流程如图2所示.
Fig.2 Pipeline of DDCL method proposed in this paper图2 本文DDCL方法整体流程
输入模型的数据{xi}Ni=1(xi∈[0,255]3×H×W)包含多个领域的真实人脸和假体攻击,其中N是训练集大小,H×W是图像尺寸.整体模型主要由域无关特征提取器(domain invariant feature extractor,DIFE)、域判别器(discriminator)和分类器(classifier)3部分构成.DIFE通过启发式建模提取源域和目标域共有的域无关特征,域判别器用于判断输入的特征来自源域还是目标域,分类器根据提取好的特征进行真实人脸和假体攻击的分类.利用源域数据训练分类器之后,计算标签y对于源域特征的梯度gcls,使用梯度对源域特征进行解耦得到活体无关特征fneg和 活体相关特征fpos.随着训练轮次的迭代,调整fneg和fpos的加权参数组合为fali,通过对抗训练将目标域特征ft与fali对齐.
现有在源域上训练的人脸反欺诈模型通常不能很好地推广到目标域数据.为了解决该问题,本文的研究重点是如何提升人脸活体在跨域场景下的泛化能力,首先对无监督域自适应人脸反欺诈任务进行形式化定义:
进一步,γ可以被分解为特征提取器ω和分类器ϕ两部分,即γ=ϕ◦ω,其中ω负责提取目标域和源域共有且与任务相关的特征ω:X→Z,ϕ对提取到的特征进行分类ϕ:Z→Y.因此式(1)可改写为
同时引入域判别器D:Z→{0,1},用于减小领域之间的分布差异.
为达到域无关活体特征充分解耦目的,本文提出一种基于启发式建模与分类梯度的二次解耦方法.首先利用启发式建模将源域特征解耦为域相关和域无关部分,之后通过分类器梯度,将域无关特征解耦为活体相关部分和活体无关部分.
1)基于启发式建模的域无关特征解耦
在域自适应中,由于源域和目标域数据之间存在领域差异,直接得到域无关特征用于下游任务并不现实,为了减轻源域和目标域特征的对齐难度,通过启发式建模解耦特征.
假设1:假设特征fori由域相关特征fspc和域无关特征finv组 成,且对于fspc建模的难度要小于对finv特征建模.
该假设被认为是领域自适应的先验假设[36],fspc的建模难度介于finv和fori之间.为了减轻finv的建模难度,借鉴启发式搜索的思想,对fspc建模以逼近理想的finv,本文构建多重子网络提取特征,如图2左下所示.具体来说,使用一个基础神经网络F(x)提取全局特征,多重子网络H(x)提取对应的域相关特征fspc,对域无关特征finv进 行辅助表示,理想的域无关特征finv可以表示为
在域自适应中,若finv训练到理想的收敛状态,H(x)提取到的特征fspc应逐步收敛到接近于0,以使得finv可 以有效代表域无关特征.将fspc的L1范数作为正则项,以逐渐减少finv中 的域相关部分,其损失为
其中,M为域相关特征数量.
2)基于分类器梯度的活体特征解耦
若仅将特征解耦为域相关和域无关并不是最优的,这是由于真实人脸和假体人脸的数据都包含完整、清晰的人脸结构部分,如人脸的五官、轮廓及肤色等,故而域无关的特征中包含大量与活体任务不相关的特征.将源域和目标域的活体无关特征进行对齐尽管简单,但无法保证模型向最优方向进行优化.本文提出基于分类器梯度的第2次解耦方式,将源域的域无关特征解耦为活体相关与活体无关2部分,训练的理想状态是将目标域特征与源域的活体相关特征对齐.
假设2:假设特征finv由 活体相关特征fpos和活体无关特征fneg组 成,fpos较fneg难 对齐.
Grad-CAM[38-39]通过图像分类层的最后一层输出权重衡量上一层生成的每个通道的重要性,再对各通道的所有像素点的值加权,得到对于分类结果最重要的像素点.通过该方式可以识别出对于当前分类任务来说,图像的哪些部分是与任务最相关的.使用特征提取器ω得到源域特征fs, 分类器ϕ对其进行分类,可以得到对应类别的预测结果y对于fs的梯度gcls:
将gcls和fs做hadamard积,得到活体相关的特征信息fpos:
其中,s为一个非负的自适应缩放系数,目的是保证fpos与fs两 者能量大小保持一致,确保fpos在 对齐时占据主导地位.其计算方式为
同时根据假设2得到活体无关特征fneg:
之后将目标域特征渐进式地与活体相关特征fpos和活体无关特征fneg的加权组合进行对齐.
受人类认知原理的启发,Bengio等人[40]提出了课程学习的概念,即模仿人类课程中有意义的学习顺序,在模型训练时由容易到复杂、逐步进阶地学习样本和知识.课程学习的核心在于利用人类专家的先验知识设计一个排序函数,据此对每个数据任务给出其学习的优先度.
在领域特征对齐时,利用梯度计算将源域的域无关特征解耦为活体相关fpos和活体无关fneg.其中活体无关部分在源域和目标域中广泛存在,故对齐容易,但活体相关部分对齐则困难很多.受课程学习的启发,本文提出一种渐进式特征对齐训练策略,在训练的不同阶段分别对齐活体无关部分和活体相关部分,以使得模型顺利优化,如图3所示.具体来说,通过将目标域特征ft与源域fpos和fneg的 线性组合fali进行对齐实现的,随着训练迭代次数的递进,逐步增加fpos的 权重,fali计算为
Fig.3 Progressive feature alignment diagram图3 渐进式特征对齐示意图
其中,权重α随着训练的迭代单调递增.为了避免复杂的超参数选择,本文给出一种简单的计算方式,即α=t/T,t和T分别是当前训练的轮次以及总共的训练轮次.
在训练开始时α= 0,此时ft只与fneg对齐,对齐难度低但对齐的特征并不具备理想的真人、假体鉴别能力;逐步增加fpos在fali所占比重即加大α,提升ft与活体任务的相关性;在训练的最终阶段α= 1,ft将只与fpos进行对齐,这时所提取到的特征泛化性强且与活体检测相关,利于后续目标域分类.
借鉴DANN[1]方法,假定领域按数据集划分,即来自同一数据集的数据属于相同领域,不同数据集为不同领域,领域包含的类别为真实人脸和假体攻击.训练阶段的目标是:
1)训练特征提取器和分类器,实现源域数据的准确分类;
2)通过对抗方式训练特征提取器,欺骗域判别器,以学习领域不变的特征表示.
具体来说,首先通过最小化分类损失和特征提取器的损失,优化特征提取器参数θω和分类器参数θϕ:
这里,ℓy为交叉熵损失,如式(13)所示.
其中,p为真实概率分布,q为预测的概率分布.之后将特征提取器参数θω和分类器参数θϕ固定,最大化域判别器d的损失,优化参数θd:
损失函数ℓd为
交替执行式(12)和式(14)相应步骤,直到网络收敛,在特征提取器和域判别器之间引入梯度反转层(gradient reversal layer,GRL)以方便训练.前向传播时,GRL是一个恒等映射;反向传播时,通过乘以负的系数将梯度进行反转.
使用特征提取器提取源域人脸特征fs, 将其解耦为fpos和fneg,并进行线性加权组合得到源域待对齐特征fali,之后通过领域对抗训练的方式将待对齐fali特征与目标域特征ft对齐.即将式(15)简化为
由式(5)(13)(16)得到总体损失为
因果图是一个有向无环图G=〈N,L〉,能够用于表示结构因果模型.其中,每个变量在节点集N中均有一个对应的节点,因果链接L可描述这些变量如何相互作用.图1(a)可视为通常采用的领域对抗训练方法的因果图,源域和目标域数据作为因,训练所得模型作为果,模型参数由源域和目标域数据共同训练得到.边S→M和T→M分别表示源域数据和目标域数据对于最终模型参数的影响,可以理解为源域的分类任务与目标域的对齐任务对于模型的作用.但在这种训练范式下,形状为对撞结构的因果图在节点M不固定时,源域数据S和目标域数据T没有建立联系.由于源域和目标域提取的特征中有着大量与活体检测任务无关的信息,领域对抗对齐任务无法直接服务于分类任务,故其对于模型参数的优化为次优方向.
干预是因果推断中的一项技术,通过直接操作变量来分析因果关系.本文通过将活体信息从源域特征中解耦,并使目标域特征向其对齐,可视为在源域和目标域之间施加干预操作,对应的因果图如图1(b)所示.通过干预手段,在节点S和节点T之间建立联系,将目标域与源域中活体相关部分进行对齐,使得对齐任务直接服务于活体检测分类任务.图3详细展示了基于课程学习渐进式对齐的干预过程,在模型训练的不同阶段施加不同的干预措施.具体来说,目标域特征从最初仅与源域活体无关特征对齐,逐步过渡为与源域活体无关和相关特征组合对齐,最终渐变为仅与源域活体相关特征对齐.通过干预的手段,将先验知识人为地引入到模型的训练过程,使得模型的因果图不再是对撞结构,从而避免源域和目标域的训练和对齐任务相互独立,使得模型的优化更为高效.
本文对人脸反欺诈技术中广泛使用的4个公开数据集进行测评: CASIA-MFSD(C),Idiap Replay-Attack(I),MSU-MFSD(M),OULU-NPU(O).
1)CASIA-MFSD[41].由50个志愿者参与录制,共计600个视频.该数据集收集的活体和假体的人脸信息较为丰富,其中每个志愿者录制了3个活体人脸视频和9个假体人脸视频,共计12个视频.假体攻击包括完整的平展、弯曲彩色照片假体攻击、挖去眼睛的假体攻击以及视频重放假体攻击.
2)Idiap Replay-Attack[42].由50个志愿者参与录制,共计1 300个视频.这些视频是由320×240分辨率的MacBook上的网络摄像头在2种情况下拍摄,即背景单一和光照均匀的固定条件,以及背景颜色丰富和自然光照不利的复杂条件.使用佳能PowerShot型摄像头拍摄高分辨率的人脸视频,然后使用iPad 1(1 024×768)和iPhone 3GS(480×320)进行回放,并打印在纸上.
3)MSU-MFSD[43].由35个志愿者参与录制,共计280个视频.这些视频分别由分辨率为640×480和720× 480的笔记本电脑摄像头和智能手机摄像头拍摄.主要有打印照片攻击和视频重放攻击2种不同的假体攻击.
4)OULU-NPU[44].由55个志愿者参与录制,共计4 950个视频.这些视频使用6款移动设备的前置摄像头,在3种不同光照条件和背景场景中拍摄.假体攻击类型包括打印照片攻击和视频重放攻击,使用2台不同的打印机和2台不同的显示设备进行攻击.
主干网络采用ResNet50,分类器为单层全连接层,输入输出维度均为(1 024,2),判别器使用3层全连接层,输入输出维度分别为(2,1 024),(1 024,1 024)和(1 024,2).启发式子网络采用单层全连接层,尺寸为(2,1 024).Batchsize大小为36,采用随机梯度下降算法优化模型,初始学习率为1e - 3,衰减系数设置为5e - 4.使用MTCNN人脸检测模型对原始视频数据集进行人脸区域的检测和裁剪,人脸图片的大小为256×256×3.在PyTorch深度学习框架上进行实验,主要硬件配置为Intel Core i7-7800X CPU 和NVIDIA Tesla A100.
使用半错误率HTER作为评价指标,其计算公式为
其中,FAR是错误接受率,表示将假体攻击判断成活体人脸的比率;FRR是错误拒绝率,表示将活体人脸判断成假体攻击的比率.显然,HTER越小,则模型性能越好.
为了验证所提方法的有效性和先进性,在C,I,M,O 4个数据集上随机选择2个数据集分别作为源域与目标域,进行域自适应实验,如C-I测评协议表示C为源域且I为目标域.由表1可见,与现有10种方法相比,本文所提DDCL方法在4个测评协议上均达到了当前先进水平,获得最佳HTER结果,尤其是在I-M,M-O,O-M这3个测评协议上的HTER值分别为12.4%,23.0%和12.8%,性能分别超出10种对比方法中的最佳方法DR-UDA 16.6个百分点,7.2个百分点与14.6个百分点.同时可以看到,在M-I测评协议上的HTER值高于DR-UDA方法17.0个百分点,仍有较大的提升空间.总体来说,本文所提DDCL方法在12个测评协议上获得了22.5%的最佳平均HTER值,性能略超出DR-UDA方法0.6个百分点,取得了与当前先进结果相比更强的竞争力,能显著降低模型在目标域上的错误率,具有更好的跨域泛化能力.
Table 1 HTER Comparison of Different Methods表1 不同方法的HTER对比%
本节通过4方面消融实验以考察所提方法中各个策略的有效性,包括启发式解耦、渐进式特征对齐方式、对齐特征加权组合方式以及权重参数计算方法.
3.5.1 启发式解耦的影响
为了验证启发式解耦对实验结果的影响,通过多重子网络将源域特征解耦成域相关和域无关2种特征,以观察是否有助于模型训练.表2给出是否使用启发式解耦方式的实验结果,启发式解耦的平均HTER值较无启发式解耦降低3.0个百分点,可见使用启发式解耦能显著提高模型性能,在I-M,I-O,M-C,M-I,M-O,O-I,O-C,O-M等8个测评协议上的结果都优于不使用启发式解耦的结果,尤其是在I-M与OC测评协议上的提升效果最为明显,HTER值分别降低11.8个百分点与13.5个百分点.但在C-I,C-M,CO和I-C这4个测评协议上,启发式解耦的结果并不如无启发式解耦,不过两者HTER差值最高为5.1个百分点.分析其原因,可能是C数据集的图像风格特征与其他数据集相比并不突出,致使域无关解耦的效果并不是特别明显.因此,启发式解耦尤其适用于源域与目标域的图像风格差异明显(即不同域之间存在具有明显差异的域相关特征)的域自适应人脸反欺诈任务.
Table 2 Influence of Heuristic Disentanglement on HTER表2 启发式解耦对HTER的影响%
为了进一步说明多重子网络有助于启发式解耦,在O-I,O-C与O-M测评协议上实验了不同个数的子网络对结果的提升,将子网络数量分别设置为2,3,4.由表3可知,除O-C测评协议中使用4个子网络相较于不使用启发式解耦(表3中子网络数量为0)测试的HTER值有所增加外,其他多重子网络解耦实验结果都优于无启发式解耦,尤其是当子网络数量为3时,这3个测评协议的HTER值均为最佳,表明合适数量的多重子网络对于域相关、域无关解耦有显著作用.
Table 3 Influence of Multiple Sub-networks on HTER表3 多重子网络对HTER的影响%
此外,为了进一步验证多重子网络能够有效解耦域相关特征和域无关特征,分别计算这2种特征在源域和目标域之间的最大均值差异,MMD是一个衡量不同分布之间差异的度量方式,MMD值越小则分布之间的差异越小.图4为按源域对12个测评协议进行分组,对于每个测评协议分别展示训练时源域和目标域间的域相关特征的MMD变化曲线,以及两者域无关特征的MMD变化曲线,图4中域相关特征标记为spc且以虚线表示,域无关特征标记为inv且以实线表示.其中,8个测评协议上域相关特征的MMD值约在2~5之间,而12个测评协议上针对域无关特征的MMD值均在0~1.5之间,可知在同一测评协议上域相关特征与域无关特征的MMD值差异较显著,同时发现对于同一源域的域无关特征,MMD值相近,表明多重子网络可以有效地解耦出源域和目标域共有的域无关特征.
Fig.4 MMD variation curves between source domain and target domain during training图4 训练时源域和目标域间的MMD变化曲线
3.5.2 课程学习渐进式对齐的影响
表4展示了不同对齐方式的影响,其中DANN为不进行活体特征解耦,其将源域和目标域特征直接通过对抗训练的方式进行对齐;活体相关对齐为在对抗训练全程目标域特征仅与源域的活体相关特征对齐;活体无关对齐则为在对抗训练全程目标域特征仅与源域的活体无关特征进行对齐.
Table 4 Influence of Feature Alignment Patterns on HTER表4 特征对齐方式对HTER的影响 %
由表4可知,本文所提DDCL方法与其他3种不采用课程学习的对齐方式相比,在C-M,I-M,I-C,MC,M-I与O-C这6个测评协议上达到最佳结果,尤其是C-M,I-M与M-C结果较活体相关对齐方式有大幅度改善,性能提升均超过10.0个百分点.从平均HTER值来看,DDCL对齐方式取得最佳结果,分别较DANN、活体相关对齐、活体无关对齐这3种不采用课程学习的对齐方式性能提升6.0个百分点,6.2个百分点与4.5个百分点.尽管活体相关对齐在C-I,C-O与MO的结果要优于其他方式,但优势并不十分明显,较DDCL性能提升均低于4.0个百分点;同时活体相关对齐的C-M,I-C,I-O,M-C与O-M性能下降严重,尤其是I-C,M-C与O-M结果较DDCL性能下降均超过16.0个百分点.同时发现,活体无关对齐方式这种理想情况下无用的对齐方式,虽然在I-O和O-M上取得了最佳结果,但与DDCL的性能差异不显著.活体无关对齐方式的HTER随训练轮次变化曲线如图5所示,可见活体无关对齐大部分在训练的最初阶段取得较好结果,但随着训练的迭代,HTER波动较大,存在逐步上升的趋势,表明活体无关特征与分类任务相关性不强.此外,由图6的热力图可以看出,渐进式对齐所关注的人脸区域更多,且不局限于五官等活体无关部分.因此总体来说,与其他3种不采用课程学习的对齐方式相比,引入课程学习进行渐进式特征对齐的有效性较为显著.
Fig.5 HTER variation curves of different training epochs in live-unrelated feature alignment图5 活体无关特征对齐不同训练轮次的HTER变化曲线
Fig.6 Heat maps comparison of different feature alignment patterns图6 不同特征对齐方式的热力图对比
3.5.3 对齐特征加权组合方式的影响
这里验证不同加权组合方式对最终结果的影响,主要目的是探索对齐过程前中后期的活体相关、无关的特征比重对最终模型泛化能力的影响.表5对比了线性加权、二次加权和正弦加权这3种加权方式在6个测评协议上的HTER值,其中线性加权计算如式(11)所示,二次加权与正弦加权分别如式(19)与式(20)所示.
由表5可知,3种加权方式均取得良好结果,其中线性加权在I-O,M-I,M-O与O-M这4个测评协议上均取得最佳结果,综合效果最优.受限于不同数据集具有不同的活体无关和活体相关特征分布比例,线性加权是一种较为均衡的加权方式,在6个测评协议上的结果都较为准确,故本文选用线性加权.
3.5.4 权重参数计算方式的影响
表6给出特征加权组合式中权重参数α的不同计算方式对结果的影响,分别使用t/T(当前迭代次数/总迭代次数)和n/N(当前使用的样本量/训练样本总量)这2种计算方式进行对比,前者的结果在I-M,IO,M-O与O-M这4个测评协议上都优于后者,综合效果最优.
Table 6 Influence of Weight Parameter Calculation Methods on HTER表6 权重参数计算方式对HTER的影响%
本文提出一种基于课程学习活体特征渐进式对齐的无监督域自适应人脸反欺诈方法,通过启发式与分类器梯度的二次解耦特征,提取活体相关与无关信息,使用渐进式域对抗训练策略,将目标域特征向源域对齐,可提升无标签目标域特征与人脸反欺诈任务的相关性,同时减轻模型优化难度.在4个公开基准数据集上的跨域实验结果表明,本文所提DDCL方法可以有效提升人脸反欺诈模型在跨域场景下的泛化能力,取得与当前先进结果相比更强的竞争力,尤其适用于源域与目标域的图像风格差异明显的域自适应人脸反欺诈任务.
与现有文献的10种方法实验对比可知,DDCL方法尽管获得了最佳平均HTER值,但未在所有的跨数据集相关实验中取得最佳结果,在一些测评协议上的HTER指标仍有较大的改善空间,后续工作将考虑提升方法的跨模型架构泛化能力,使得目前需要手工设置的一些超参数可以通过网络训练得到,如将解耦与模拟退火等方法相结合,寻找最优的解耦参数,以适应于使用更加先进的网络模型提取特征,进一步提高DDCL方法在所有测评协议上的跨域泛化性能.未来工作也可将课程学习活体特征渐进式对齐的思路引入域泛化人脸反欺诈模型中,通过对齐多个域之间的活体相关信息,获得更加通用的活体检测特征空间,加强对于未知领域的真实人脸和假体攻击有效区分的能力,进一步提升模型的泛化性与鲁棒性.
作者贡献声明:封筠提供了关键的意见和建议,指导实验并修改和审定论文;史屹琛提出了论文的研究思路和方法,完成了实验设计、数据采集和分析,并撰写了部分论文内容;高宇豪和贺晶晶参与了对论文的修改和完善;余梓彤提供了关键的意见和建议、完善实验方案.