孔超
(贵州师范大学,贵阳550000)
随着网络的不断发展,获取人脸图像的难度大大降低,因此人脸识别系统容易受到各种演示攻击[1],例如照片、视频回放或3D 面具。准确判别捕获的人脸是真实人脸还是虚假人脸是人脸识别系统广泛应用的重要前提。而人脸反欺骗可应用于演示攻击以检测捕获的人脸的真实性是人脸识别系统的重要安全保障。
以往的人脸反欺骗方法,大多选择使用人工设计的特征,如LBP[1]、HoG、SIFT、SURF 和DoG 来刻画真实人脸和欺骗人脸的不同特征分布,然后使用分类器(如SVM)来区分真实人脸和虚假人脸。Chingovska 等人从人脸图像的灰度图中提取局部二值模式(LBP)特征来捕获真实人脸和虚假人脸之间细微的差别,并通过支持向量机(SVM)来区分真实和虚假人脸。传统的人脸反欺骗方法可以在受限环境(如特定光线、静态条件等)中取得很好的效果,但在无约束条件下性能会大幅度下降。
最近,基于卷积神经网络CNN 的方法开始应用在人脸呈现攻击检测(PAD)领域中。把人脸攻击检测当作一个分类问题,将CNN 用作特征提取器,提取鉴别性特征来区分真实和虚假人脸。Liu 等人设计了一种新颖的网络结构,以利用深度图和rPPG 信号作为监督,目的是提高模型的泛化能力。Feng 等人提出使用多个线索作为CNN 的输入进行真实/虚假人脸分类。所有这些方法都证明了通过自动提取训练数据中的有用特征,神经网络可以非常有效地用于人脸反欺骗。然而,对于不同模态数据的融合,现有的处理方法主要是多模态特征简单的拼接,没有充分利用不同模态间互补信息。
图1 提出的多模态人脸反欺骗方法的网络结构。将RGB、深度、红外人脸图像块同时送入网络,并利用自注意力模块在多模态特征中选择对人脸反欺骗具有更多贡献的公共空间区域,最后利用卷积神经网络融合三种模态的特征进行分类。
针对上述问题,本文提出了一种基于自注意力网络的多模态特征融合模型。如图1 所示,首先将从不同模态的图像块中提取的特征通过通道注意力网络选择有效通道特征后进行拼接,并利用自注意力网络在拼接后的多模态特征中选择对人脸反欺骗具有更多贡献的公共空间区域,最后用卷积神经网络融合三种模态的特征进行分类。
图1
如图1 所示,对于输入数据,从不同模态的完整图像中随机选取图像块。对于特征提取,我们采用ResNet-18 分类网络,其中包括五个卷积层和残差层组成的块(即res1、res2、res3、res4、res5),一个最大池化层和一个完全连接层。
这三种模态的数据针对不同类型攻击是相辅相成的:RGB 数据有丰富的外观细节,深度数据对图像平面和相应面部之间的距离很敏感,红外数据能测量从面部辐射的热量。根据通道注意力网络,我们提出多模态特征提取网络来提取多模态的特征。如图2 所示,首先计算每个模态特征中不同通道的权重,然后对输入特征重新加权,最后将这些重新加权的特征拼接在一起。与直接拼接来自不同模态的特征相比,通道注意力网络对各个模态的特征重新加权以选择信息量更大的通道特征,同时抑制来自各个模态的无用特征。
特定于虚假人脸的区别信息存在于整个面部区域。然而,全脸图像的不同部分所包含的特定于虚假人脸的区别信息对于区分真实人脸和虚假人脸具有不同的重要性,并且从一些局部图像中提取的特征更具区别性。Brendel 等人从输入的完整图像中提取图像块特征用于训练,并生成高分辨率和非常精确的热图,这种方法在数据集上取得了显著的改进,通过生成的热图,可以看出图像的不同部分对特定决策的贡献不同。
图2 通道注意力网络的体系结构
图3 自注意力网络的体系结构
由于卷积神经网络中所有卷积核的大小非常有限,每个卷积运算只能在像素周围很小的邻域上执行,通过较远的像素捕获特征变得异常困难,但自注意力网络可以直接计算图像中任意两个像素之间的关系,获得图像的全局几何特征,然后对特征图中需要关注的空间区域进行加权,使得卷积神经网络可以学习到特征图中需要关注的空间区域。
自注意力网络的结构如图2 所示,自注意力网络中的注意力图I 定义为:
FT表示特征图像F 进行转置。FTG表示计算全局上下文任意两个元素的依赖关系,从而得到注意力图。
将得到的注意力图进行归一化,最后得到的特征图L 表示为:
IT表示注意力图I 进行转置。P 表示输入的原始特征图,α为经过学习得到的参数,初始值为0,随着学习的深入,在原始特征图上增加了加权的注意力,可以得到特征图中任意两个位置的全局依赖关系,进而可以增加有效空间区域的权重。
自注意力网络可以直接计算多模态拼接特征图像中任意两个像素之间的关系,得到特征图像的全局几何特征,并增加特征图像中对区分真实人脸和虚假人脸贡献较大的空间区域的权重,使卷积神经网络提取的多模态融合特征中包含更多虚假人脸特有的区别信息,提高模型的分类效果。
CASIA-SURF 数据集[11]是目前最大的人脸反欺骗数据集。数据集由三种不同的模态的数据组成:RGB、深度和红外图像。数据集包含1000 个中国人录制的21000 个视频,每个样本包括1 个实时视频片段和6 个不同攻击方式的假视频片段。在数据集中,将志愿者面部的彩色图像打印在A4 纸上,并通过去除眼睛、鼻子和嘴来组合成6 种不同的攻击方式。此外,在收集工作期间,仅保留了面部区域,而删除了复杂的背景区域。数据集分为训练集、验证集和测试集。训练、验证和测试集分别有300、100 和600 个主题。数据集是在不同的室内背景下使用Intel RealSense SR300 相机采集的,其中RGB 图片分辨率1280×720,深度图和红外图像的分辨率为640×480。它拥有面部反欺骗领域最大的数据量,最多的攻击手段,是最具挑战性的数据集。
为了评估,我们使用了人脸反欺骗领域中一些最常用的指标:攻击呈现分类错误率(APCER)、真实呈现分类错误率(BPCER)、平均分类错误率(ACER)、假正率(FPR)和真正率(TPR)。
为了评价我们的多模态融合网络的性能,我们将其与其他一些人脸反欺骗策略进行了比较:单尺度融合(NHF)[12]、基于SEF 模块的单尺度融合(Single-scale fusion)[12]、基于ResNet-18 的多尺度融合(Multi-scale fusion)[11]、基 于ResNet-34 的多尺度融合(Stronger backbone)[11]、多模态人脸反欺骗的局部特征模型(Face⁃BagNet)。
采用32×32 的图像块进行实验,通过随机梯度下降算法(SGD)和0.1 的初始学习率,对所有模型进行了25 轮的训练。
不同方法的比较结果如表1 所示。可以看出我们方法的性能优于其他人脸反欺骗方法,相对于同样采用ResNet-18 的多尺度融合方法我们方法在平均分类错误率(ACER)上提升了0.5%的性能,在假正率(FPR)为10-4的情况下真正率(TPR)提升了3.2%。即使相对于采用更复杂的ResNet-34 网络的多尺度融合方法我们方法在平均分类错误率(ACER)上仍然提升了0.3%的性能,在假正率(FPR)为10-4的情况下真正率(TPR)也提升了0.4%。实验结果充分证明了我们方法的优越性。
表1 该方法与其他策略的比较,最好结果加粗
我们研究了通道注意力模块和自注意力模块如何影响人脸反欺骗的模型的性能,我们采用32×32 大小的图像块进行了一系列消融实验,其中“w.o SEN&SAN”表示有应用通道注意力模块和自注意力模块。“w.o SEN”表示没有应用通道注意力模块只应用了自注意力模块。“w.o SAN”表示没有应用自注意力模块只应用了通道注意力模块。如表2 所示,自注意力模块和通道注意力模块任何一个的缺失都会导致模型分类性能的下降。实验结果充分证明了通道注意力模块和自注意力模块对于获得高性能都是至关重要的。
表2 不同训练策略的比较,最好结果加粗
本文提出了一种基于自注意力网络的多模态特征融合模型,并将其应用于人脸反欺骗领域。我们将从不同模态的图像块中提取的特征通过通道注意力网络选择有效通道特征后进行拼接,并利用自注意力网络在拼接后的多模态特征中选择对人脸反欺骗具有更多贡献的公共空间区域,最后用卷积神经网络融合三种模态的特征进行分类。实验结果表明,与现有方法相比,该方法取得了更好的性能和更高的泛化能力,尤其是平均分类错误率(ACER)指标达到了0.5%,证明了该方法的优越性。并且我们的多模态融合模块网络结构简单,可以添加到其他神经网络结构中提取多模态融合特征,实用性强,适用性广。未来,我们将讨论更有效的多模态人脸反欺骗方法。