曾金芳 封琳琅 李婕妤 闫李丹
摘要:虽然现已有许多关于图像注意力机制的研究,但是现有的方法往往忽视了特征图的全局空间结构和空间注意力与通道注意力的联系。所以本文提出了一种基于整个空间拓扑结构的注意机制,将特征图映射成结点与特征的形式,再借助图卷积网络的特性,得以从整个空间学习特征权重图。其次空间注意力与通道注意力一体化结构能够更有效地学习特征权重。通过多个实验测试表明,在图像分类和人脸识别任务中,展现了优异的性能和普遍适用性。
关键词:深度学习;注意力机制;图像分类;人脸识别
随着计算机性能的提升,卷积神经网络(convolutional neural network,CNN)广泛地运用于图像领域。经过多年的研究,基于卷积神经网络的网络架构取得了重大的成功。HE等提出了残差网络,可以跳层连接的残差单元有效地解决梯度消失与梯度爆炸问题,使得网络的深度成倍增长,进而图像注意力机制逐渐受到关注。WANG等使用编码器-解码器的结构对残差网络进行了注意力机制的改造得到残差注意力网络(residual attention network,RAN)。HU等使用通道注意和通道特征融合来抑制不重要通道的方式构建了缩聚激发网络(squeeze-and-excitation networks,SENet)。PARK 等构建了瓶颈注意模块(bottleneck attention module,BAM),该模块依次使用通道注意力网络和空间注意力网络推理注意力图。FUKUI等构建了复杂的注意力分支结构网络(attention branch network,ABN),引入具有注意力机制的分支结构来扩展基于响应的视觉解释模型。MISRA 等考虑了通道-空间相互作用,基于三个维度两两相关性构建注意力网络TAM (triplet attention module)。
虽然现已提出的许多注意都从通道注意力和空间注意力两方面来设计模型,但是其空间结构的尺度取决于卷积核的大小,而且没有从图像整体出发分析空间特性并忽视了通道与空间的关联性。在研究中发现,图卷积网络(graph convolution network,GCN)能够充分地使用这些特性学习特征图。因此本文基于图卷积网络提出了图结构注意力网络(graph structure attention network,GSAN),该模型既考虑了通道与空间的关联性也考虑了图像整个拓扑结构。
1图结构注意力网络
在已有的研究表明,图卷积网络本身充分考虑了通道的影响并且在解决非欧几里得数据展现了强大的性能。我们利用这些特性设计了一个通道注意力与空间注意力一体化的注意力网络模型,而不用像其他注意力网络模型一样分别设计通道注意力分支和空间注意力分支。在模型中我们设计了一套由图像到图的数据映射关系,使得输入特征与图卷积网络的输入相匹配,并以图卷积网络为基础构建了图结构注意力网络。在研究中表明,本文所设计注意力模型分类性能与卷积层数有关,所以本文设计的卷积层数可调的注意力网络,以下内容均以两层卷积层的网络为例说明。
特征图在模型中的维度与尺度变化过程如图1所示。Norm表示正则化,Pool表示池化,GCN表示图卷积网络。特征图F的尺度由F∈R经过正则化与池化得到F∈R,然后经过图卷积通道压缩得到中间态F∈R并再经过一层图卷积恢复F∈R,最终利用广播机制恢复到F∈R。
2图与图卷积网络
图是一系列的结点和描述两个结点关系的边组成。图是数据元素的集合,这些数据元素相互连接形成网络,因此经常被用来描述具有拓扑结构的数据。如图2所示,表示一个由四个结点与四条边组成的图,其对应的邻接矩阵则是描述边的连接关系的矩阵。当边L(i,j∈1,2,3,4)存在时,对应的邻接矩阵元素A为1,否则为0。
卷积网络的卷积,本质上利用滤波器对矩阵空间的某个区域内的像素点进行加权求和,进而求得新的特征表示的过程。许多没有明确规律的非欧几里得数据并不适用于卷积网络,而图卷积的诞生者很好的解决这一问题。在已往的研究中,图卷积网络在具有拓扑结构的数据上表现出了强大的分类性能,其依赖不变的邻接矩阵对输入的结点特征学习,如图3所示。
本文所搭建的图结构注意力网络使用的图卷积网络模型如式(1)和式(2)所示。
3圖结构注意力网络算法
图结构注意力网络如图4所示,该注意力网络流程主要分成以下几个。
步骤1:对上一层网络得到的输出特征图进行正则化(Norm)处理,并利用平均池化(AvgPool)操作将三个维度(C×H×W)的特征图压缩成两个维度(C×H)。
步骤2:对步骤1得到的向量组重新排列,得到特征矩阵。此外,对平均池化后得到的向量建立一维的欧式空间,计算两点之间的欧氏距离,将其倒数作为结点之间连接的紧密程度,我们将其称为弱连接,如等式3 和等式4所示。经过弱连接的映射后,将欧氏空间数据结构映射成了满足图卷积输入的拓扑结构数据。最后经过正则化后,得到概率描述的边,进而得到邻接矩阵。
步骤3:将特征矩阵与正则化后的邻接矩阵输入多层的图卷积网络(GCN),并设定一个减少系数r,该系数为在中间层中减少通道数的系数。最后经过激活函数并恢复维度对原特征图进行加权求解得到重新分配权重后的特征图。
4实验结果与分析
4.1实验平台
实验环境为Ubuntu18.04操作系统,AMD3600X处理器,RTX2070SUPER显卡,Pytorch框架。本文所有实验均使用上述平台。
4.1.1图像分类实验
在該实验中我们在CIFARr100数据集对模型进行Rank-1准确度评估。我们在不同网络模型上测试了SENet、BAM、TAM性能。分别设置了一项基准测试实验和一项消融实验。
CIFAR100数据集:该数据集有100个类。每个类有600张大小为32×32的彩色图像,在模型训练过程中将其中500张作为训练集,100张作为测试集。对于每一张图像,它有两个标签分别代表图像的细粒度和粗粒度标签。
参数设置:使用SGD优化器(lr=0.1,momentum=0.9,weight_decay=5e-4)和Cross Entropy Loss损失函数。学习率调整策略为迭代200次并在60、120,160次迭代调整学习率为原来的0.1倍。
为了确定图卷积的层数对GSAN的影响,我们设计了一组不同层数的对比实验。如表1所示,较低复杂度的GSAN更有利于避免过拟合。
为了测试本文的注意力网络性能与普遍适用性,我们在MobileNetV2、ResNet18 和ResNet50 上均做了不同注意力模型的对比试验。如表2所示,在MobileNetV2和ResNet18上相较于其它方法达到了最好的效果,在ResNet50上稍差于BAM。
4.1.2人脸分类实验
在该实验中我们使用余弦相似度计算准确率的策略。在CASIA-WebFace数据集上训练模型,并在LFW 数据集和CFP-FP数据集上进行人脸识别测试。
CASIA-WebFace数据集:CASIA-WebFace数据集是经过数据清洗的数据集,所以含有噪声的图像较少,常作为训练集使用。数据集有10 575个人的494 414张人脸图像。
LFW数据集:图像源于生活中的自然场景,所以图像受到表情、光照、多姿态、遮挡、年龄等因素影响而差异极大。数据集有5 749个人的13 233张人脸图像。
CFP-FP数据集:数据集对于每个人有10张正面图像和4张侧面图像。CFP-FP数据集有500个人的7 000张人脸图像。
参数设置:使用SGD优化器(lr=0.1,momentum=0.9,weight_decay=5e-4)和ArcFace[16]损失函数。学习率调整策略为迭代18次并在6、11、16次迭代调整学习率为原来的0.1倍。
由于ArcFace损失函数的不同缩放系数s会极大的影响实验结果的准确率,因此我们先通过ResNet50-IR 模型来确定准确率最高s,如表3所示。
经过缩放系数的对比实验可以看出ResNet50-IR模型在s为33的时候准确率达到最大值,因此在其他实验中将缩放系数s固定为33进行训练和测试。实验结果如表4和表5所示,在ResNet50-IR上,当图卷积层为2时达到最好的效果,并且性能优于其他注意力模块。
5结语
本文提出一种图结构注意力网络,该方法压缩宽度维度并有效地结合空间拓扑结构和通道注意力。通过映射成拓扑结构的方式学习空间注意力,有效地解决现有注意力感受野受限于卷积核大小的问题和卷积核过大导致性能下降的问题,并且更好地学习全局信息。实验结果表明,本文注意力网络在图像分类和人脸识别任务中均展现了优异的性能与普遍适用性。
参考文献:
[1]HE K,ZHANG X Y,REN S Q,et al. Deep residual learning for image recognition[C]. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2016:770-778.
[2]LONG J,SHELHAMER E,DARRELL T. Fully convolutional networks for semantic segmentation[C]. In Proceedings of the IEEE Conference on Computer vision and Pattern Recognition. 2015:3431 -3440.
[3]KRIZHEVSKY A,SUTSKEVER I,HINTON G E. Imagenet classification with deep convolutional neural networks[C]. In Advances in Neural Information Processing Systems. 2012:1097- 1105.
[4]SIMONYAN K,ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[C]. arXiv preprint arXiv.2014:1409,1556.
[5]WANG F,JIANG M Q,QIAN C,et al. Residual attention network for image classification[C]. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017:3156-3164.
[6]HU J,SHEN L,SUN G. Squeeze-and-excitation networks[C]. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2018:7132-7141.
[7]PARK J,WOO S,LEE J Y,et al. Bam:Bottleneck attention module[C]. arXiv preprint 2018.
[8] FUKUI H,HIRAKAWA T,YAMASHITA T,et al. Attention branch network:Learning of attention mechanism for visual explanation [C]. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,2019:10705-10714.
[9] MISRA D,NALAMADA T,ARASANIPALAI A U,et al. Rotate to attend:Convolutional triplet attention module[C]. In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision.2021:3139-3148.
[10] SANDLER M,HOWARD A,ZHU M L,et al. Mobilenetv2:Inverted residuals and linear bottlenecks[C]. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018:4510-4520.
[11]HAN,DONGYOON,KIM J,et al. Deep pyramidal residual networks[C]. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2017:6307-6315.
[12]KRIZHEVSKY A. Learning multiple layers of features from tiny images[C]. 2009.
[13]YI,DONG,LEI Z,et al. Learning face representation from scratch[C]. arXiv preprint 2014.
[14] HUANG G,MATTAR M,BERG T,et al. Labeled faces in the wild:A database for studying face recognition in unconstrained environments[C]. 2008.
[15] SENGUPTA S,CHEN J C,CASTILLO C,et al. Frontal to profile face verification in the wild[C]. In Proceedings of the IEEE Conference on Winter Conference on Applications of Computer Vision.2016:1-9.
[16] DENG,KANG J,GUO J et al. ArcFace:Additive angular margin loss for deep face recognition[C]. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2019:4685-4694.
[17] N T,KIPF,MAX,et al. Semi-supervised classification with graph convolutional networks[C]. In Proceedings of the 5th International Conference on Learning Representations.2017.
[18] NIU Z Y,ZHONG G Q,and YU H. A review on the attention mechanism of deep learning[J]. Neuro computing.2017(452):48-62.