基于掩膜的人脸压缩重建对抗攻击增强方法

2023-08-15 02:02林庚右周星宇潘志松

计算机技术与发展 2023年8期

林庚右,周星宇,潘志松

(1.陆军工程大学指挥控制工程学院,江苏南京 210007;2.陆军工程大学通信工程学院,江苏南京 210007)

0 引言

随着算力的提升及深度学习的崛起,人工智能迎来了新一轮的热潮。深度学习从实验室走向现实世界,应用程序的安全性备受关注,在诸多挑战中,最特别的是对抗样本的发现[1-3],这是通过在图像上添加对抗噪声产生的,它使得DNN(深度神经网络,Deep Neural Network)分类器以高置信度发生误判。对抗扰动同样对最先进的FR(人脸识别,Face Recognition)系统有效,因此,人脸伪装生成越来越受到关注,如文献[4,5-7]。

近年来,人们提出了很多基于FR模型的对抗样本生成方法,如文献[8-10]等,但多数攻击方法是需要访问模型内部的基于梯度的攻击,较少有研究探寻传统图像方法对对抗样本攻击效果的影响。笔者在实验中发现,对抗样本在由ndarray格式压缩为PNG格式,再还原成ndarray格式时对抗性会得到增强。同时如图1所示,经过压缩重建(后文均表示为C&R)的对抗图像与普通的对抗图像在热力图上的差异非常明显。随后分别通过单模型攻击和集成模型攻击实验,比对按照传统方式生成的对抗样本和加入C&R生成的对抗样本的攻击性能差异,进一步验证了观点的正确性。

图1 经过SCRFD裁剪后的人脸热力图

同时,如图2所示,C&R不会对非掩膜区域干净的人脸图片产生影响,但是对于掩膜区域的对抗图片,C&R会改变掩膜部分的像素值。据此,提出基于掩膜的人脸识别压缩重建对抗攻击增强方法,经过实验表明,C&R可以与传统迭代攻击方法相组合,形成更加强大的攻击,从而在产生极小时间损耗的同时达到更高的攻击成功率。

图2 图片在添加C&R前后图片像素的差异

总体而言,主要贡献如下:

(1)首次发现对抗样本在由ndarray格式压缩为PNG格式,再还原成ndarray格式时对抗性会得到增强。

(2)提出基于掩膜的人脸识别压缩重建对抗攻击增强方法,并通过实验证明生成的对抗样本拥有更高的白盒攻击成功率。

(3)在黑盒场景下进行测试,证明了引入C&R生成的对抗样本具有更好的迁移性。

1 相关工作

对于初始图像x,其真实标签为ytrue,经过预训练的模型分类器为f(·),则初始图像应当被正确分类,即f(x)=ytrue。当攻击者向初始图像添加噪声δ则产生新的图像,即xadv=x+δ,使得模型分类器对xadv产生新的分类结果,此时f(xadv)=yadv,其中yadv是xadv在模型分类器f(·)的输出分类,若yadv≠ytrue,则称xadv为对抗样本。

基于梯度的对抗样本生成方法是一类常用的白盒攻击方法,主要思路为利用模型损失函数对输入图像求梯度,以得到对抗扰动,通过反向传播对图像进行更新,从而生成对抗样本。本节将着重介绍几个基于梯度的攻击方法:

迭代快速梯度符号法(Iterative Fast Gradient Sign Method,I-FGSM)。Kurakin等人[3]将FGSM[1]扩展为迭代版本的I-FGSM,以较小的步长进行迭代攻击。在白盒攻击场景下,I-FGSM的性能优于FGSM,但它的迁移攻击成功率较低。

动量迭代快速梯度符号法(Momentum Iterative Fast Gradient Sign Method,MI-FGSM)。MI[11]将动量项与I-FGSM相结合,稳定了更新方向,克服了陷入局部极大值的缺点,缓解了过拟合问题,显著提升了对抗样本的白盒与黑盒攻击成功率。

基于Nesterov算法的迭代快速梯度符号法(Nesterov Iterative Fast Gradient Sign Method,NI-FGSM)。NI-FGSM[12]是在MI-FGSM的基础上,将Nesterov优化算法融入对抗样本生成的过程中, NI-FGSM还可以与DI和TI等方法相组合,以生成更具迁移性的对抗样本。

对抗贴片[13](Adv-Patch)首次由Brown等于2017年提出,不同于之前的对抗样本将对抗扰动限制在一定范围内使其不易被察觉,对抗贴片完全替换图像的一部分,为局部可视对抗噪声。这是一种背景无关的、鲁棒的且有目标的对抗贴片攻击法。这些对抗贴片打印后可在现实世界具有对抗性。贴片基于EOT方法[14-15]。对抗贴片实现了对抗样本由数字域到物理域的场景变换。表1中对上述对抗攻击算法进行了分类。

表1 主流对抗攻击算法

2 基于掩膜的人脸识别压缩重建对抗攻击增强方法

基于对抗样本在由ndarray格式压缩为PNG格式,再还原成ndarray格式时对抗性会得到增强这一发现,提出基于掩膜的人脸识别压缩重建对抗攻击增强方法,算法的流程如下:由SCRFD[16]算法定位并生成攻击者图片的掩膜,与被攻击者图片对应部分相组合并施加随机高斯噪声生成初始对抗图片,将初始对抗图片与被攻击者图片一同送入人脸特征提取网络计算余弦相似度损失,更新掩膜部分的对抗图片,在迭代攻击过程中通过判断是否到达预设断点,进而对对抗图片进行反复的压缩重建。

算法整体流程如图3所示。

图3 算法流程

2.1 初始对抗图片生成

SCRFD人脸检测模型[16]:SCRFD人脸检测模型于2021年提出,其可以以较少的计算量获得极好的效果。首先,算法使用SCRFD人脸检测模型确定人脸框并提取人脸5个基本点(眼睛、鼻子、嘴角):

其中,x为攻击者图片,生成的5个点分别对应双眼、鼻子、两侧嘴角。为限制贴片大小,以5个点为中心点,选择10×10的方形作为掩膜mask并为其施加随机高斯噪声,与被攻击者图片对应的5个掩膜部位相组合,得到初始对抗贴片:

patch=mask·Gaussian noise·xtarget

用初始对抗贴片与攻击者图片相组合,得到初始对抗样本:

2.2 余弦相似度损失

通过计算两个向量间夹角的余弦值从而获得两个向量的余弦相似度,该值当前已被大多数商业人脸检测模型作为评判两张人脸图片是否为同一个人的评判指标。当两个向量夹角趋于0时,余弦值接近1,表明两个向量相似度高;相反,则表明两个向量相似度低。余弦相似度的表示如下:

其中,Ai、Bi表示攻击者、被攻击者图片在同一点像素下维度i的分量。

通过以基于SCRFD生成的5个基本点为中心,设置5个对抗贴片,使得施加对抗贴片的攻击者图像能够在目标模型上以较高的相似度将其误识别为被攻击者。实验通过余弦相似度损失对施加对抗贴片的攻击者图像与被攻击者图像进行衡量,构造出余弦相似度损失,如下所示:

Lcos(xadv,xtar)=-cos(exadv,extar)

其中,cos()为余弦距离函数,exadv和extar分别为对抗攻击图片和被攻击者图片的特征向量。

2.3 提取特征,反传梯度

使用高精度人脸特征提取网络提取特征,计算余弦相似度损失并反传梯度,实验分别用到I-FGSM、MI-FGSM和NI-FGSM,下面分别给出3种攻击方法的公式:

(1)I-FGSM。

其中,t为第t次迭代步,α为步长。

(2)MI-FGSM。

其中,gt为以动量因子μ累加损失的迭代梯度矢量。

(3)NI-FGSM。

2.4 将C&R引入迭代攻击

在算法迭代过程中,迭代次数每达到固定值(经过实验证明,预设为10次)设置一个断点,在断点处对对抗图像进行一次C&R(压缩比设置为3)。重复迭代和C&R至迭代终止,生成对抗样本。

其中,C(·)为DEFLATE[17]压缩算法,对于相邻像素差异小、甚至重复的序列会用一个短的编码来代替。压缩程序扫描这样的重复,同时生成编码来代替重复序列。直至完成完整图像的压缩,此时ndarray格式的对抗图片被转换成PNG格式并保存。

其中,R(·)为重建算法,将压缩成PNG格式的对抗样本,重建成ndarray格式并开始进行下一次迭代,直至算法终结生成最终的对抗样本。

2.5 算法描述

引入C&R的迭代对抗攻击算法:

输入:攻击者图像x,被攻击者图像xtarget,迭代总次数T,单次C&R操作前断点包含迭代次数t,步长α。

输出:对抗图片xadv。

初始化参数:stage=1。

(a)初始对抗图片生成。

(b)开始进行迭代攻击。

while iter

L(xadv,target)=Lcosine(xadv,target)//目标损失并对对抗样本进行更新。

(c)判断算法是否到达断点并执行C&R。

stage=stage+1

if stage %t==0 then

end if

end while

3 实验

3.1 实验设置

数据集组成:实验采用的数据集为LFW(Labeled Faces in the Wild)人脸数据集,LFW人脸数据集是目前人脸识别的常用测试集,其中包含了13 233张人脸图像,每张图像均给出对应的人名,共5 749人。该文从中分别随机选择200人,其中100人作为攻击者,另外100人作为被攻击者,攻击者每人选取一张照片,被攻击者拥有该数据集下本人的全部照片,并将所有图片调整为250×250×3,经验证,这些图片均能被模型正确识别。

源模型与目标模型选择:为证明所提方法的普遍有效性,源模型与目标模型均选择经过预训练、识别准确的iResNet-50[18]、iResNet-100、FaceNet[19]及MobileFaceNets[20],当源模型与目标模型相同时为白盒攻击,否则为黑盒攻击。

对比方法:在传统迭代攻击I-FGSM、MI-FGSM、NI-FGSM中加入C&R,分别与对应的基线方法进行比较。

评价指标:现有人脸识别系统通常将识别相似度作为判断是否为同一人的指标,为保证合理性,采用余弦相似度作为评价指标,即当攻击者与被攻击者人脸的特征余弦相似度越大,攻击效果越好。

参数设置:对于MI-FGSM、NI-FGSM,将衰减系数置为1/30,对于I-FGSM、MI-FGSM、NI-FGSM,由于限制扰动面积较小,在实验中将步长均置为30,迭代总次数设为300,不设置最大扰动,仅在生成对抗样本时进行像素域[0,255]上的裁剪。

3.2 单模型攻击

本节使用I-FGSM、MI-FGSM、NI-FGSM方法分别在添加与不添加C&R的情况下,在源模型iResNet50等4个模型上生成对抗样本,使用生成的对抗样本分别对这4种模型进行攻击,以对抗样本与被攻击图片在目标模型的余弦相似度作为评价标准。

为确保实验的真实有效性,所有的“*”攻击均仅对原基线方法添加C&R,其余设置与基线方法相同,结果如表2及图4,其中图4纵轴余弦相似度以百分数为指标。观察表2及图4中的实验结果可以发现,使用C&R与迭代攻击相组合能够提升对抗样本的攻击性,该结果在以FaceNet和MobileFaceNets为目标模型下表现尤为明显。同时发现,C&R与迭代攻击相结合,能够提升对抗样本的可迁移性,进而增加黑盒攻击的成功率。在以FaceNet和MobileFaceNets为源模型的攻击中,添加C&R最高使攻击模型的余弦相似度提高近1%。在白盒攻击下,最高可使对抗样本与被攻击者的余弦相似度提高2.17%。图5展示了白盒模型下原始图片与生成的对抗样本,各列分别为攻击者图片、被攻击者图片及包含C&R方法下I-FGSM、MI-FGSM、NI-FGSM生成的对抗图片,可以看出扰动集中在通过SCRFD算法确立的掩膜区域,三种攻击方法下生成的对抗图片均能够使iResNet50等4个模型发生误识别。

表2 以iResNet-50等4个模型作为目标模型进行攻击的成功率对比 %(标“*”为攻击方法包含C&R)

图4 以iResNet50作为目标模型进行攻击的成功率对比

图5 不同攻击方式下生成的对抗图片(标“*”的攻击方法包含C&R)

3.3 集成模型攻击

通过表2与图4的实验结果可明显看出,相较于传统迭代攻击方法,C&R能够有效提升所生成的对抗样本的黑盒攻击成功率。在本节中,通过集成模型训练对抗样本来进一步增加黑盒攻击成功率,使用iResNet-50等四个模型通过I-FGSM、MI-FGSM、NI-FGSM方法分别在三个网络上进行集成训练并攻击余下的保留网络,参数设置上,迭代次数设置为500,网络集成权重各为1/3,实验结果如表3所示。通过表3的实验结果可知,相较于单模型攻击,集成模型攻击的成功率对应于每种网络均有一定的提升,相较于传统迭代攻击方法,引入C&R后,以iResNet-50为目标网络的对抗样本攻击成功率(余弦相似度)最高提升到18.32%,相较于对应的基线方法NI-FGSM提高了2.19%。该实验结果证明在迭代攻击中引入C&R同样适用于集成模型攻击,在集成模型下生成的对抗样本黑盒攻击成功率提高明显,实用性也更强。

表3 集成模型攻击成功率对比 %

3.4 超参数研究

本节通过实验对影响C&R攻击成功率的两个参数:压缩比β、单次断点前迭代次数t进行讨论。使用基于iResNet-50的白盒模型对I-FGSM添加C&R并采用不同压缩比生成的对抗图像进行讨论,迭代总次数T=300,不同压缩比下对抗样本攻击成功率的对比如表4。通过不同压缩比下对抗样本攻击成功率的实验结果可以发现,压缩比β=3时,对抗样本攻击成功率达到峰值16.61%,在β=3两侧攻击成功率均有不同程度衰减,压缩比β=9时攻击成功率最低为15.36%。因此,在本实验中,压缩比β均设置为3。

表4 不同压缩比下对抗样本攻击成功率对比 %

另外发现,单次C&R前断点所包含的迭代次数不同,也会对对抗样本的攻击成功率产生影响,仍采用iResNet-50下的白盒模型,参数设置不变,仅对每次断点前的迭代次数进行测试,实验结果如图6,其中纵轴攻击成功率(余弦相似度)以百分数为指标。

通过单次断点前迭代次数的比较可以发现,单次迭代次数t=9和t=10时,生成的对抗样本攻击能力最强,在两侧表现为下降,推测是因为对抗信息过拟合或欠拟合状态下进行压缩重建,略微降低了对抗样本的攻击强度。在本实验中,为便于计算,C&R单次断点前迭代次数t设置为10。

4 结束语

首次提出对抗样本在由ndarray格式压缩为PNG格式,再还原成ndarray格式时对抗性会得到增强,并依据此提出了基于掩膜的人脸识别压缩重建对抗攻击增强方法,实验证明,在对抗样本生成过程中加入压缩重建变换,通过在预定迭代次数下设置断点,反复进行压缩重建能够有效提升对抗样本的攻击成功率。相较于基线方法,该方法在白盒模型场景下的攻击成功率最高可提升2.3%。同时,在黑盒场景下进行测试,结果证明在对抗样本的生成中引入本方法可有效提高对抗样本的可迁移性。未来将探索压缩重建对施加不可视全图扰动对抗图片的影响,并将在字节层面对压缩重建变换对于对抗样本的影响进行探索和研究,寻找使对抗样本对抗性发生变化的真正原因。