刘昊 张泽辉 夏晓帆 高铁杠
(南开大学软件学院 天津 300350)
深度学习在生活中的应用愈发广泛,在图像分类[1-5]、语音识别[6]、推荐系统[7]、行为建模[8]等领域均取得了优异的工作成绩.图像分类作为一项较为基础的研究工作,有大量的工程问题可以归类于图像分类与识别问题,如车牌识别[9]、路牌识别[10]、人脸识别[11]等.目前这些工作基本上都应用了一部分基于深度学习的图像分类技术.研究表明,计算机领域的技术存在着不同程度的安全风险[12-14],基于深度学习的技术亦存在安全风险.若这些应用底层的图像分类模型遭受到攻击,那么上层应用也将受到相当大的影响,给商业公司带来巨大的风险.而好的攻击算法的提出,可以给这些已经商业部署的深度学习模型进行风险评估,令其可以提前防范被攻击的风险.针对商业应用系统的安全性问题,当前已有工作[15-16]对此展开深入研究.Szegedy 等人[17]于2013 年发现深度神经网络存在安全性漏洞,通过在图像上添加微小的扰动噪声,就可以让神经网络模型分类错误,自此,关于对抗攻击和对抗防御的研究拉开序幕.
目前关于对抗攻击的形式可以分为白盒攻击[18-21]与黑盒攻击[22-25].白盒攻击可以获取到模型内部的相关信息,如梯度信息、模型结构等;黑盒攻击则被限制无法获取这些信息,仅能够获取到模型的输出结果,而输出结果可分为Score-based 和Hard-label 这2 种.Score-based 是指攻击者可以获取到模型输出的完整数据标签以及标签对应的概率;Hard-label 是指攻击者只能获得模型输出的top-1 标签,攻击者无法依赖任何丰富的信息来对样本的生成进行有效的指向性操作,给攻击增加了相当的难度.基于Hard-label的黑盒攻击工作是相当具有挑战性的.
2017 年,Brendel 等人[22]提出的边界攻击算法是一种基于决策边界的对抗攻击算法,并且可以应对Hard-label 问题,该算法从具有较大扰动的对抗性样本点开始,在保证样本对抗性的同时减小扰动以降低图像失真.边界攻击需要使用已经具备对抗性的样本作为初始样本,并从某种分布中采样,如高斯分布,该算法通常需要数十万次查询才能够将图像扰动降低到一个令人满意的程度.虽然边界攻击算法的查询量是一个巨大的量,但其给解决Hard-label 问题指出了一个新的研究方向.2018 年,Cheng 等人[26]提出了opt 攻击算法,该算法在边界攻击的基础之上将问题转化为了一个优化问题,即在图像距离较远时采用二分逼近来大幅度降低图像距离,在决策边界附近使用梯度估计策略,极大地降低了边界攻击所需要的查询次数,但也依旧需要数万次查询.2019 年,Cheng 等人[27]在opt 攻击算法的基础之上提出了signopt 攻击算法,这也是一种基于梯度估计的算法,通过在当前对抗点附近不断地进行查询,最终估计出一个合适的方向,再向着这个方向前进一小步,这一算法同样大大降低了边界攻击所需要的查询次数,然而查询次数依旧在数万级别.2020 年,Chen 等人[24]在边界攻击的基础之上提出了HSJA(hop skip jump attack)攻击算法,这是一种基于无偏梯度估计的攻击算法,它提出了一种控制偏离边界误差的方法.HSJA攻击算法成功地将模型查询次数控制在了万次以内,然而相对实际场景而言,近万次的查询依旧难以接受.2021 年,Maho 等人[25]提出了SurFree 攻击算法,这是一种基于几何性质的攻击算法,其最大的特点是没有使用任何梯度估计去判断前进的方向,该算法不仅将查询次数限制在了2 000 次以内,而且成功地超越了众多基于梯度估计的边界攻击算法,达到当前最优.但通过实验发现,将实验次数控制在千次以内时,SurFree 攻击算法的成功率出现明显下降;而将攻击次数控制在千次以内,才更加贴近于解决Hardlabel 问题的实际场景.
本文提出了FastGBA(fast geometric boundary attack)攻击算法:一种新的黑盒攻击算法,是一种在样本空间内针对决策边界的几何攻击算法.FastGBA 算法相比于SurFree 攻击算法,在相同的查询次数限制下,可以产生L2距离更小的对抗样本.在查询次数限制在千次以内时,其成功率较SurFree 攻击算法也有着大幅度的提升.
本文的主要贡献有4 个方面:
1)提出了FastGBA 攻击算法.这是一种在样本空间内针对决策边界的几何探测的攻击算法,它能够很好地解决Hard-label 问题.
2)引入了基于自注意力机制的注意力图生成方案,利用注意力图作为掩模,探究了掩模的处理方式与算法效率的关系,为后续掩模的使用提供了新的使用思路与方案.
3)在4 个不同的深度学习模型上进行了攻击实验,实验结果表明,FastGBA 攻击算法具有很强的泛化性和稳定性,更加适用于模型的风险评估工作.
4)与近期表现最优的2 种攻击算法(HSJA,SurFree)进行了比较,在低查询量(查询次数不大于500 次);中低扰动(L2距离不大于10)的条件下,在4个模型上的攻击成功率相较于SurFree 攻击算法提升了14.5%~ 24.4%,相较于HSJA 攻击算法提升了28.9%~36.8%.
给定一个预训练模型,记其函数形式为:
对于一个给定的样本x0,输入模型可得到top-1分类结果,即k=F(x0),k∈{1,2,…,C}.
对于攻击者而言,需要找到对抗样本xadv,令xadv足够接近x0,但二者却可令分类器产生截然不同的分类结果,数学描述为:
由于F(x)只给出top-1 分类结果,因此该问题为Hard-label 问题,即每次添加完扰动后,只能通过查询模型来获取结果扰动结果,需要在查询次数尽可能低的情况下,找到一个较为接近x0的对抗样本xadv.
在本节中,首先对所提出算法的总体架构进行介绍,其次对所提算法中各个主要部分进行说明.
算法首先通过计算获取到掩模,以掩模和原始样本作为问题的输入,而后通过2 个阶段来求解该问题.算法主要流程如下.
1)先将原始图像输入到基于自注意力机制实现的网络模型中,再通过基于深度泰勒分解的方法来获取到原始图像的注意力图,并以注意力图作为掩模,进入第1 阶段.
2)第1 阶段为线性方向的二分逼近,其过程为:在以原始样本点为中心的超球面O1上进行随机采样,采样分布为一个低频分布,采样所得到的噪声为低频噪声.将采样得到的噪声与掩模进行Hadamard运算,再对噪声进行线性方向上的二分逼近,找到离样本点相对较近的一个对抗点.该过程反复进行多次,取最终L2距离最小的对抗样本点作为第2 阶段的输入.
3)第2 阶段为基于几何探测的边界逼近,其过程为:在以原始样本点和对抗点连线的中点为中心的超球面O2上取点,取点位置在对抗点的邻域附近,取得的点为待检测样本点.若探测的点为对抗样本点,则以探测到的对抗样本点为新的对抗点;若探测的点不为对抗样本点,则对抗样本点位置不变.该过程也执行多次,直至查询次数耗尽,最终获得的对抗样本点即为该问题的解.FastGBA 算法的架构流程如图1所示.
Brunner 等人[28]的工作证明了柏林噪声[29]在对抗攻击中的作用,陈伟等人[30]的工作证明了Simplex噪声[31]在对抗攻击中的作用.柏林噪声与Simplex 噪声均属于低频噪声,在连续的空间内具有相近的像素值,像素值变化缓慢,具有较强的低频属性,在对抗攻击中效果显著优于高斯噪声等白噪声.
Fig.1 FastGBA algorithm architecture图1 FastGBA 算法架构
Guo 等人[32-33]的工作进一步提出了控制低频噪声频率的方法,可以通过离散余弦变换及其逆变换来控制低频系数.首先生成一个全0 矩阵;其次将矩阵左上角的数值进行随机赋值;再将矩阵经过离散余弦变换或逆离散余弦变换来获得低频噪声;最后通过控制0 像素值的比例,就可以控制低频噪声的生成.
在本文中,采样方式与Guo 等人[32-33]的方式一致,首先生成一个与原图像尺寸相同的全0 矩阵,记图像大小为W×W;其次将矩阵的左上角大小为(W/8)×(W/8)的矩阵的数值全部替换为从高斯分布中采样所得的数值;最后对此矩阵进行逆离散余弦变换,便得到一个低频噪声.低频噪声图如图2 所示:
Fig.2 Low frequency noise obtained by inverse discrete cosine transform图2 经逆离散余弦变换所得的低频噪声
目前,在对抗样本的生成方案中,大多数的算法都是将扰动施加到整个图像中,几乎每一个像素都会受到扰动.Brunner 等人[28]提出了使用掩模的方法来控制扰动,并且成功证明了将扰动限制在特定区域是有利于攻击的.但该方法的掩模生成方案较为粗糙,即该掩模直接通过2 张图像的减法运算得到,因此这种方案所标示的特定区域十分依赖于跟当前图像相减的那张图像,故而生成的掩模只能够单一地应用于有目标攻击.在进行无目标攻击时,这种方案并不能准确地指示出特定区域.
最近关于视觉Transformer 的相关工作[34-35]表明,不论是人类视觉系统还是神经网络对图像进行识别,必然都有重点关注的特征区域,即兴趣区域(region of interest,ROI).对感兴趣的区域进行攻击,同时尽量减小对其他区域像素的扰动,可以得到L2距离更小的对抗样本.
本文引入了基于自注意力机制生成的注意力图,并利用注意力图作为掩模.Chefer 等人[35]近期提出了一种新的关于Transformer 的解释机制的方法来生成注意力图,本文引用此方法生成的注意力图作为掩模,令掩模与每次生成的低频噪声进行Hadamard 乘积运算.图3 展示了原图、注意力图以及二者的叠加可视化图像.
实验发现,通过计算所得到的掩模在非ROI 区域的权值不一定为0,这需要设定一个阈值δ,将小于δ的数值变为0,计算方式可表述为:
其中sgn(·)为符号函数,mask与δ的运算借助Python的广播机制来进行,得到的掩模对采样的噪声计算方式为:
边界攻击通常需要从一个已经是对抗性的样本点出发,逐渐减小与原样本的距离.我们发现Cheng等人[27]在sign-opt 算法中所使用的基于二分逼近的快速算法十分有效,它直接从高斯分布中采样,通过100 次循环来查找相对原样本较近的对抗样本点.但这样做存在的一个明显的缺点是采样的高斯噪声与原图像叠加后不能确保得到的图像是对抗性的.
本文对文献[27]中这一操作进行了改进:首先从高斯分布中采样随机噪声θ,对θ使用逆离散余弦变换,令噪声转换至低频空间中;其次对θ和掩模进行Hadamard 运算并进行向量单位化,得到一个新的扰动方向,在此方向上,与以原始图像为中心、初始距离为300 的超球面上所得的交点进行二分逼近,得到该方向上L2距离最小的对抗点.反复进行上述过程,直至设定的二分逼近次数耗尽.操作如图4 所示.
Fig.3 Illustration of attention mechanism图3 注意力机制的图示
Fig.4 Binary approximation diagram图4 二分逼近示意图
算法1.一次线性方向的二分逼近算法.
输入:原始图像x0,原始图像标签y0,神经网络分类器F,当前最小L2距离dbest,最小距离所对应的方向θbest,图像尺寸大小w,图像掩模mask;
输出:噪声较大的对抗样本xadv.
在经过线性二分逼近后,所找到的对抗点已经十分靠近决策边界,最大程度地利用好查询次数,也就是每经过一次查询后,都可以找到一个距离原图像更近的对抗点,这样就可以极大程度地减小距离.经过SurFree 攻击算法这种基于几何性质的算法启发,本文提出了基于几何性质的邻域探测算法.
考虑当前对抗点xadv与x0的中点xmid,以xmid为中心、d(x0,xadv)/2 为半径的超球面O2,由几何性质可知,球内的任意一条弦的长度都不超过球的直径,即性质1.
性质1.∀xcandidate∈O2,d(xcandidate,x0) ≤d(xadv,x0),当且仅当xcandidate=xadv时,d(xcandidate,x0)=d(xadv,x0).
在当前对抗点的邻域中,可以大概率地找到令图像距离减小且保持对抗性的点.本文提出算法2 来选取具体的待检测样本点,具体思路为:通过构建正交单位向量u和v来计算出待检测样本点.u为原始样本点指向对抗样本点的方向的一个单位向量,v为与u正交的一个单位向量.通过u和v不断地进行矢量相加,再单位化的计算,令指向方向与超球面O2的交点更加靠近xadv,在交点靠近xadv的邻域后,选取当前方向与超球面O2的交点作为待检测样本点,此过程中无需进行模型查询,计算的详细过程参见算法2.
算法2.待检测样本点选取算法.
输入:原始图像x0,图像掩模mask,对抗样本xadv,图像尺寸大小w;
输出:待检测样本点xcandidate,对抗样本点与原始样本点的中点xmid,单位向量u和v.
由算法2 所计算出的候选样本点存在概率不具有对抗性,面对这种情况,需要继续执行基于几何性质的邻域探测.令算法2 得到的u和v进行矢量叠加,得到新的方向,计算此方向与超球面的交点,查询此样本点是否为对抗点,不为对抗点则继续执行算法2.详细的探测过程见算法3.待检测样本点选取示意图如图5 所示.
算法3.一次邻域探测算法.
输入:原始图像x0,原始图像标签y0,神经网络分类器F,对抗样本点xadv,图像掩模mask,图像尺寸大小w;
输出:一个新的对抗样本点xadv.
Fig.5 Schematic diagram of candidate sample point selection图5 待检测样本点选取示意图
由算法2 可知,待检测样本点都处于以对抗样本点和原始样本点连线的中点为球心的超球面上.由性质1 可知,这种待检测样本点与原始样本点的距离都小于当前对抗样本点与原始样本点的距离.由算法3 可以不断检查待检测样本点,当发现检测的样本点具有对抗性,更新此样本点为当前对抗样本点.不断重复算法3 过程,便可以不断逼近黑盒模型的决策边界,即不断缩小L2距离.
选用4 个深度学习神经网络模型作为黑盒攻击的替代模型,网格模型分别为ResNet-18[1],ResNet-152[1],DenseNet-161[4],EfficientNet-B4[5].这4 个模型 的top-1 正确率如表1 所示.
实验的侧重点是评估在相同限制条件下不同算法的攻击成功率,故本文仅从ImageNet 数据集中每个标签挑选一张可以被表1 中4 个模型正确分类的图像来进行实验,共计1 000 张图像,并且将图像大小放缩至3×224×224.
Table 1 Black Box Substitutive Models and Their top-1 Accuracies表1 黑盒替代模型及其top-1 准确率
实验平 台环境:Intel Xeon Gold 5 218 2.30 GHz(CPU),NVIDIA Tesla V100S ×2(GPU),188 GB 内 存(DDR4),Ubuntu 18.04.5 LTS(操作系统),Python 3.8,Pytorch 1.7.1(深度学习框架).
算法采用L2距离作为扰动评价标准,并以攻击成功率作为算法优越性的衡量标准.针对单张图像,每一种攻击算法的攻击效果都不尽相同,不能够准确地反映出算法效率,因此在数据集上总体的攻击成功率更加能够说明算法效率的指标.总体的攻击成功率计算公式为:
其中N表示样本总数,本文中N=1 000,Nadv表示经过有限次查询后产生的对抗样本的L2距离小于给定L2距离的样本数量.
首先对FastGBA 算法阈值δ的取值进行实验,并提出了δ的动态改变方案.随后,选取发表于CVPR 2021 的SurFree[25]攻击算法以及发表于IEEE S&P 2020 的HSJA[24]攻击算法作为基准(baseline),进行了对比实验.其中SurFree 攻击算法采用原作者的开源代码,HSJA 攻击算法采用Foolbox[36]中的开源代码.最后进行了消融实验,分析了本文算法对实验结果的影响.
经过多次实验,发现将δ设置为一个固定数值时,无法得到一个较优的胜率,即δ不存在一个固定的最优值.对每张不同的图像,最优的δ值都各不相同,故此设计了一个逐步递减的δ值动态改变方案,即在前100 轮随机查找最近点时,每10 轮令δ值递减0.05,δ初始值设置为0.5.
Fig.6 Changes curves of attack success rate under different ranges of disturbance图6 不同范围内扰动下攻击成功率的变化曲线
在500 次查询次数的限制下,如图6(b)所示,在小扰动范围内(扰动大小处于0~10)时,固定δ值时的效果几乎差不多,没有明显的分化.如图6(c)所示,在中等扰动范围内(扰动大小在10~20)时,开始出现分化,呈现出固定δ值取值较小时,效果越好.如图6(d)所示,在大扰动范围内(扰动大小超过20),分化变得很明显,也是固定δ值取值较小时效果越好.
而通过图6 可以发现δ值动态改变方案可以在每一个阶段都超越固定值方案,效果优于固定值方案.在扰动大小大于5 时,动态改变方案效果显著优于固定值方案,成功率的提升在5%~10%,扰动越大,攻击成功率的提升越明显.
同时还可以发现,若δ值取值过大,在中等扰动以及大扰动的情况下,攻击成功率会显著下降.这一现象说明基于自注意力机制所产生的掩模所标识的扰动区域基本上是准确的,其以大数值所标识的区域基本上是深度学习模型所较为关注的特征区域,应当予以保留并在这些区域上进行扰动添加.
本文所提出的动态改变方案旨在寻找到最适合单张图像的δ值,抹除掉掩模中对于非重要特征区域的扰动,从而减小图像的整体扰动,提升成功率.
表2 展示了在500 次、1 000 次、2 000 次的查询次数限制下,3 种算法在4 个深度学习模型上所产生的对抗样本小于目标L2距离的成功率.通过表2 可知:
1)FastGBA 攻击算法具有更强的泛化性.在查询次数为2 000 且L2距离小于等于20 的限制下,FastGBA攻击算法在4 种模型上的攻击成功率均超过了90%,而HSJA 攻击算法以及SurFree 攻击算法在相同的限制下,在4 种模型上的表现并不稳定.在ResNet-18 模型上,二者都可以达到90%以上的成功率;与之不同的是在ResNet-152 以及EfficientNet-B4 模型上,二者的成功率甚至都没有超过80%;在DenseNet-161 模型上,FastGBA 攻击算法的成功率领先HSJA 攻击算法18%,领先SurFree 攻击算法11.8%,这表明FastGBA攻击算法的泛化性要优于HSJA 攻击算法以及SurFree 攻击算法.
2)FastGBA 攻击算法具有更强的攻击性能.在查询次数限制在1 000 次内时,FastGBA 攻击算法的成功率优于HSJA 攻击算法以及SurFree 攻击算法.限制条件越苛刻,FastGBA 攻击算法的优势就越明显.在攻击EfficientNet-B4 这个高准确率模型时,限制查询次数为500 且L2距离小于等于1 时,FastGBA 攻击算法的成功率是HSJA 攻击算法的1.28 倍,是SurFree攻击算法的4.63 倍.
Table 2 Success Rate of Reaching the Target Distance Under the Limitation of Query Times表2 在有限查询次数下达到目标距离的成功率
3)FastGBA 攻击算法产生的对抗样本具有更好的视觉效果.对人类视觉系统而言,L2距离小于等于10 时,对抗样本与原图像已经非常相似;L2距离小于等于5 时,人眼已经几乎无法区分对抗样本与原图像.通过表2 数据可以发现,在限制L2距离小于等于10 的条件下,FastGBA 攻击算法的表现全面超越了HSJA 攻击算法以及SurFree 攻击算法.
4)FastGBA 攻击算法更加 稳定.ResNet-152 模型相比于ResNet-18 模型,神经网络层数更多,可以拟合更加复杂的数据分布,能够学习到的数据特征也就越多.攻击算法在面临网络层数加深的此类情况时会面临攻击性能下降的问题,在查询次数为1 000 次、L2距离限制为20 时,HSJA 攻击算法成功率下降了21.8%,SurFree 攻击算法成功率下降了24%,而Fast-GBA 攻击算法成功率仅下降了5.7%,这表明Fast-GBA 攻击算法相较于HSJA 攻击算法以及SurFree 攻击算法更加稳定.
图7 展示了在500 次、1 000 次、2 000 次查询限制下,3 种攻击算法在4 个深度学习模型上的攻击成功率与扰动大小间的关系.图7 结果表明,3 种算法均是扰动越大,攻击率成功率越高.
通过图7 可以发现:
1)4 个模型上都存在在扰动大小相同的情况下,FastGBA 攻击算法的攻击成功率基本上都高于SurFree攻击算法以及HSJA 攻击算法.在成功率一致的情况下,FastGBA 攻击算法所产生的扰动总体上都小于SurFree 攻击算法以及HSJA 攻击算法.
2)FastGBA 攻击算法的收敛速度更快.在低查询量时(查询次数为500),3 种算法在4 个模型上都未表现出收敛的趋势,但FastGBA 攻击算法的成功率均一直领先于HSJA 攻击算法和SurFree 攻击算法;在中等查询量时(查询次数为1 000),FastGBA 攻击算法与SurFree 攻击算法在ResNet-18 模型上已经表现出收敛趋势,在其余3 个高正确率模型上尚未表现出收敛趋势,HSJA 攻击算法尚未表现出收敛趋势;在查询次数较高时(查询次数为2 000),可以发现FastGBA 攻击算法在4 个模型上都已经表现出明显的收敛趋势,而SurFree 攻击算法在ResNet-18 模型上已经表现出收敛趋势,在其余3 个高正确率模型上尚未表现出明显的收敛趋势,HSJA 攻击算法的收敛趋势一直不明显.以上表明了FastGBA 攻击算法相比SurFree 攻击算法以及HSJA 攻击算法具有更快的收敛速度.
Fig.7 The change curve between disturbance sizes and attack success rates图7 扰动大小与攻击成功率的变化曲线
在较深的神经网络模型上,即ResNet-152,DenseNet-161,EfficientNet-B4 上,查询次数为500 时,SurFree 攻击算法与HSJA 攻击算法的成功率与扰动大小呈现出明显的线性相关,FastGBA 攻击算法的成功率则呈现出曲线上升.这进一步说明了FastGBA 攻击算法的效率更高,收敛速度更快.
3) FastGBA 存 在2 个不足.一是想 要接近100%成功率地攻破一个深度学习模型,3 种算法均需要使用较大的扰动.因此,如何在低查询量、低扰动的情况下,尽可能地提高攻击成功率需要进一步研究.二是在较浅的神经网络模型ResNet-18 上使用高查询量(查询次数为2 000)和高扰动(L2距离大于20)时,SurFree 攻击算法略优于FastGBA 攻击算法,尽管在此时二者差距不超过1%.这可能是由于FastGBA 攻击算法采用邻域探测进行对抗样本,发现导致FastGBA 攻击算法容易陷入局部最优解.这表明在此种条件下,FastGBA 攻击算法将来还需要进一步优化与提高.
表3 展示了分别为在500 次、1 000 次、2 000 次查询限制下,3 种算法在4 个深度学习模型上产生的对抗样本.在中低查询量时(查询次数小于等于1 000),FastGBA 攻击算法所产生的图像由于应用了掩模的缘故,扰动较为集中,常常会集中在图像的某一区域内,随着查询次数的增加,这些扰动也在逐渐减小,所产生的对抗样本质量逐渐提高.SurFree 攻击算法与HSJA 攻击算法所产生的扰动则会均匀地作用在整张图像上,随着查询次数的增加,二者所产生的对
抗样本的质量也在逐渐提高.
Table 3 Attack Results on the Same Images Under the Limit of Same Query Times表3 相同查询次数限制下对同一图像的攻击结果
在实验中,FastGBA 攻击算法与SurFree 攻击算法都使用了低频噪声来进行攻击,HSJA 攻击算法使用的则为高斯噪声.低频噪声的平滑性可以令图像产生更加逼近真实图像的纹理特征.分类器会将低频噪声所添加的特征提取出来与图像原本特征一同进行分类,大大降低了正确类别所对应的置信度;而高斯噪声较为尖锐,不易组成更加贴近真实图像的特征,且也容易被线性滤波器滤除,造成攻击失效.这也是在低查询量时(查询次数为500),HSJA 攻击算法表现较差的原因之一.SurFree 攻击算法虽然使用了低频噪声来进行实验,但其在初始化对抗样本时直接使用了基于均匀噪声的线性初始化,而导致生成的对抗样本在视觉上无法体现出其使用了低频噪声.
本文对算法中的组成模块进行了消融实验,分析了低频噪声与掩模对算法性能的影响.
图8 展示了针对ResNet-18 模型,在查询次数为500 的限制下,各种模块对于成功率的影响.当同时使用了低频噪声与自注意力机制生成的掩模时,FastGBA 攻击算法的效果最好;低频噪声和掩模2 个模块都不使用时,攻击成功率最低.
Fig.8 Ablation study图8 消融实验
可以发现,FastGBA 攻击算法在仅使用高频噪声即高斯噪声时,攻击效率明显低于仅使用低频噪声.在仅使用低频噪声的情况下,攻击成功率有了大幅度的提高.在使用高频噪声与掩模的情况下,攻击成功率也同样明显优于仅使用高频噪声.
在将低频噪声与掩模结合至FastGBA 攻击算法中时,成功率得到进一步提升,超过其余的3 种情形.
实验证明,低频噪声和掩模会对攻击成功率造成较大的影响,也给对抗防御提供了新的思路,可以从消除低频噪声和区域噪声这两点入手,进行防御训练.
针对Hard-label 问题本文提出了FastGBA 攻击算法,其核心思想为:在当前对抗样本的邻域,通过几何性质,快速发现新的对抗样本.实验结果表明本文所提出的算法能够有效地提高对抗攻击的成功率,并且相比于当前的最好算法能够在较低查询率下有着更加明显的效果.
本研究仍然存在不足之处:FastGBA 攻击算法采取邻域探测,易陷入局部最优解.因此,下一步拟对FastGBA 攻击算法如何跳出局部最优解做进一步探究.并且,在本文所提出算法中,低频噪声的生成采取了固定频率的生成,没有结合样本的原始纹理特征去做考虑,因此未来将对低频噪声的自适应生成做进一步的研究,探究噪声生成频率对攻击算法成功率的影响.
作者贡献声明:刘昊提出了算法思路和实验方案;张泽辉、夏晓帆对实验方案提出了改进意见并修改论文;高铁杠提出了指导意见并修改论文.