频域混合注意力模型

2022-12-22 11:46王芋人武德安
计算机工程与应用 2022年24期
关键词:频域预处理注意力

王芋人,武德安,朱 莉

电子科技大学 数学科学学院,成都 610097

目标检测是计算机视觉中的一个备受关注的问题,其主要围绕目标分类和目标定位两个任务。自从具有开创性的R-CNN[1]提出,许多新颖的设计得以提出:Faster-RCNN[2]、YOLOv3[3]、SSD[4]、FPN[5],这些设计大多搭载强大的卷积神经网络主干:DCN[6]、Resnet[7]、AlexNet[8]、VGG[9]、GoogLeNet[10]。近些年,受视觉注意力启示,许多学者将注意力引入到卷积神经网络中,选择性的增强目标特征,抑制无关信息,以提高小目标检测的准确率[11]。至此,提出了多种注意力模型,有SENet[12]、EcaNet[13]、CBAM[14]、GSoP-Net[15]、AA-Net[16]、SkNet[17],这些注意力模型如SENet、EcaNet通常以每个通道的平均值作为该通道的代表值。而CBAM采用了平均值和最大值作为代表值。尽管平均值池化(global average pooling,GAP)和最大值池化具有简单高效的特点,但处理多种不同通道时缺乏特征多样性,无法获取丰富的输入信息。所以,便有了一个疑问,平均值和最大值能否代表各种通道信息。FcaNet[18]提出了用离散余弦变化替代均值池化对通道注意力进行预处理的方法,增加了特征多样性,但缺少对空间域注意力的探讨。因此,理论分析了平均值池化和频域预处理结果的区别,随后用离散哈特利变化(discrete Hartley transform,DHT)[19]从通道和空间域两个方向对特征图进行了预处理改造。最后在小目标数据集(small object dataset)[20]上验证了该模型的改进效果。

1 注意力模型和DHT变化

首先介绍了通道注意力模型、空间域注意力模型、离散哈特利变化,然后简要了证明了通道注意力和离散哈特利变化的性质。

(1)通道注意力模型。

通道注意力模型广泛用于卷积神经网络中,其能够自动调整每个通道权重,达到提高检测精度的作用。假设X∈ℝC×H×W是卷积神经网络提取到的特征图,C是特征图的通道数量,H是特征图的高度,W是特征图的宽度。注意力机制可以写成如下形式[12-13]:

attc=sigmoid(fc(gapc(X))) (1)

其中,attc∈ℝC是通道注意力机制产生的C维权重向量,sigmoid是Sigmoid函数,fc是全连接层或者卷积神经网络,gapc是对C个通道全局平均池化。Sigmoid函数得到C个权重后,特征图的每个通道乘以通道对应的权重,对不同的特征通道进行适当增强或者抑制:

(2)空间域注意力模型。

空间注意力模型不同于通道注意力机制从通道方向对特征图进行抑制和增强,而是从空间域对特征图H×W个C维向量进行平均值或者最大池化预处理得到H×W个实数,作为全连接层的输入。其有两种形式如下[14]:

其中atts∈ℝH×W是空间域注意力机制产生的权重矩阵,sigmoid是Sigmoid函数,fs一般是卷积神经网络,gaps和maxs分别是对特征图H×W个C维向量全局平均池化和最大值池化。Sigmoid函数得到权重矩阵后,特征图的H×W个C维向量乘以权重矩阵对应的权重,对不同的特征向量进行适当增强或者抑制:

(3)离散哈特利变化(DHT)。

通常,1DDHT定义公式如下[19]:

其中,f∈ℝL属于1DDHT的输出频谱,x∈ℝL是输入向量,L是输入x的长度。另外,二维(2D)DHT的公式如下:

其中,f2d∈ℝH×W是2DDHT的输出频谱,x2d∈ℝH×W是输入特征图,H、W分别是输入特征图x2d的高和宽。相应地,2DDHT的逆变化可以写成如下公式:

通过公式(1)~(5)可知,现有的方法采用的是平均值或者最大值作为通道注意力模型和空间域注意力模型的预处理方法。公式(6)、(7)表明DHT的输出可以视作对特征图上像素点乘以DHT权重的加权求和结果,如果将多种频率的DHT权重引入到特征图的预处理中,将增加预处理结果的多样性,而不仅仅局限于平均值和最大值这两种结果。接下来将证明gap是2DDHT取最低频率权重时的特殊情况,而仅仅使用2DDHT的最低频率权重缺乏特征多样性。因此,分别采用2DDHT和1DDHT从通道和空间两个方向对特征图进行了预处理改造。

2 频域混合注意力模型

(1)注意力模型的理论分析。

首先证明了现有的注意力模型中预处理方法gap是DHT取最低频率权重时的特殊情况,然后从通道和空间两个方向对特征图进行了DHT处理。

理论1 GAP是(2D)DHT的一种特殊情况。

证明 设公式(7)中的h和w都为0,得到:

公式(9)中,f2d0,0代表(2D)DHT中最低频率的部分,等于平均池化的结果。这样理论1就得到了证明。

基于理论1,GAP是(2D)DHT的特殊情况,因此,可以使用(2D)DHT作为注意力机制预处理的一种方式。通过公式(8)可知,特征图上的像素点是由多种频率成分组成的,所以特征图也是由多种频率成分组成。

为方便叙述记:

则有:

根据公式(1)和(11),可以得出输入特征图X也不只由GAP组成:

看出在公式(1)GAP预处理方法中只用到了公式(12)第一项,而其他频率组成成分的信息被现有的预处理方法丢弃掉了。因此,把GAP替换成具有更多频率组成成分的DHT作为注意力预处理的方法,用于解决特征信息多样性缺乏的问题。

(2)频域混合注意力模块。

以卷积神经网络中的特征图X作为输入,如图1所示频域混合注意力模块先对特征图做频域通道注意力模块处理,得到通道注意力权重attc∈ℝC×1×1,随后再用频域空间域注意力模块对特征图处理得到atts∈。整体的过程可以总结如下[14]:

图1 ResBlock+频域混合注意力模型Fig.1 ResBlock+Frequency mixture attention module

公式(13)中⊗表示对应元素相乘,X″即为频域混合注意力模块的输出特征图。接下来将会详细描述两个注意力模块的细节。

(3)频域通道注意力模块。

首先将特征图X沿通道方向拆分为n份。将其表示为[X0,X1,…,Xn-1], 其 中Xi∈,i∈{0,1,…,n-1},C'=C/n,C可 以 被 拆分为n份,n常取16。对于每份,分配对应的2DDHT频率。这样,2DDHT就可以用于处理通道注意力模型:

其中,[u,v]是对应于Xi的频率组成成分的二维索引。Freqic∈是一个C'维的向量。整个预处理结果用级联形式表示为:

其中,Freqc∈ℝC是一个C维的向量。整个频域通道注意力模型可以表示为:

其中,fc隐藏层为一层,输入节点、隐藏层节点、输出节点数量分别为通道长度C、C/16、C的全连接层。

通过2DDHT的预处理将多种频率组成成分的特征信息融入到注意力模型中,实现了频域通道注意力模型,缓解了传统注意力模型通道方向特征多样性缺乏的问题,此过程的整体过程如图2所示。

图2 频域通道注意力模型Fig.2 Frequency channel attention module

(4)频域空间域注意力模块。

将 特 征 图X∈ℝC×H×W沿 通 道 轴 线 方 向 拆 分 为H×W个C维 向 量 ,将 其 表 示 为[Y0,Y1,…,YH×W-1],Yi∈,i∈{0,1,…,H×W-1},如图3中部的H×W个C维向量,然后为每一个C维向量分配对应的1DDHT频率处理。这样,1DDHT就可以用于处理空间域注意力模型:记

其中,[u]是对应于Yi的频率组成成分的一维索引。Freqis∈是一个一维的实数。整个预处理结果用矩阵形式表示为:

其中,Freqs∈是一个H×W的矩阵,即为图3右下角中黄色模块,经过卷积核为1×1,输出通道为1的卷积神经网络输出的结果再通过Sigmoid函数映射为频域空间注意力权重矩阵,该矩阵元素皆为0到1的权重,如图3中右下角灰白色模块。整个频域空间域注意力模型可以表示为:

其中,fs是卷积核为1×1,输入输出通道均为1的卷积神经网络。

通过特征图空间域方向的1DDHT的预处理,实现了频域空间域注意力模型,从空间域方向对特征图进行了选择性的抑制和增强,此过程的整体过程如图3所示。

图3 频域空间域注意力模型Fig.3 Frequency spatial attention module

(5)选取频谱成分的原则。

由公式(6)、(7)可知对特征图进行通道方向的2DDHT和空间域上的1DDHT变化时,分别会有H×W组和C组频率可供选择,选择哪一组频率能够得到较好的预测准确率。本文参考FcaNet附录中的Low-K(low‐est-k)方法,由于实验中取频率最低的16种频率组成成分能取得较高的准确率,所以为两种频域注意力模块选取了频率最低的前16组频率作频率选择,每次2DDHT(1DDHT)只从这16组频率中选一组频率作为输入。因此,频域通道注意力模块中将通道分为n组,每一组对应一个频谱成分。所以频域通道注意力模块公式(15)中的n对应取16,与频谱成分的数目相同。

3 注意力网络结构

结合前文所叙述,提出的注意力网络结构,如图4所示。主要包含两个组件:(1)卷积神经网络网络。Resnet-50,用于提取图片特征信息,卷积网络结构如表1所示,图片经过Conv1、Conv2_x卷积层后,得到初步的角点、纹理信息,再经过深层次残差网络Conv3_x、Conv4_x、Conv5_x,学习到物体的形状、外部轮廓及一些细节特征,最后通过多分类交叉熵损失函数和Faster-RCNN的Smooth-L1边框回归函数进行分类回归和边框回归,实现对目标的分类和定位。(2)频域混合注意力模块。丰富特征图预处理的多样性,随着训练的加深,逐步获得稳定的注意力权重值,对特征图进行选择性的抑制和增强,从而提高特征信息辨识度和检测精度。

图4 注意力网络结构Fig.4 Attention network structure

表1 Resnet-50卷积网络结构Table 1 Building blocks of Resnet-50

首先,将数据集中图片输送到骨干网络Resnet-50中提取特征信息,随后对第四张特征图layer4做频域混合注意力处理,layer4通道、宽、高分别为2 048、7、7,频域混合注意力模型处理过程示意图如图1~3所示。频域通道注意力模块把特征图的2 048个通道等分为16等分,结合第2章选取的16组最低频率组成,为每一等份分配一组频率,进行公式(14)的2DDHT预处理得到公式(15)的C(2 048)维向量,预处理值经过公式(16)中的全连接层得到权重值后,对通道进行抑制和增强;随后频域空间域注意力把特征图拆分为7×7个2 048维度向量,将这49个向量分为16组,其中15组是3个向量一组,最后一组4个向量,对这49个向量进行公式(18)的1DDHT预处理,预处理得到一个如公式(19)所示的通道为1,宽和高为7的特征图,特征图经过公式(20)中卷积核为1×1,输入输出通道均为1的卷积神经网络后,再经过Sigmoid函数映射为频域空间注意力权重矩阵,得以对特征图空间域方向的抑制和增强。

4 实验分析

4.1 实验平台、实验数据和评价指标

通实验操作系统为Ubuntu18.04,深度学习框架采用Pytoch1.3.0,GPU型 号 为NVIDIA GeForce GTX 2080Ti。

为了验证提出的频域混合注意力模型对小物体检测效果,分别与SENet、EcaNet、CBAM、FcaNet一共五种注意力模型,在小目标数据集(small object dataset)做对比实验。选取了Small Object Dataset中的蜜蜂、观赏鱼、飞虫这三种物体作为检测对象。

本文使用了COCO数据集定义mAP作为评价指标:

其中,t代表阈值。当预测的锚框和标注框交并比IoU大于该阈值时,即算成功预测到物体,计为TP(true positives)表示真正例。而低于该阈值就规定为没有预测到物体,计为FP(false positives)即将正例预测为负例的数量。

其中,t=[0.50,0.55,0.60,0.65,0.70,0.75,0.80,0.85,0.90,0.95]即将IOU阈值分别设定为从0.50到0.95,步长为0.05的10个IOU阈值分别计算准确率AP求和后,再除 以10得 到mAP,并 选 取 了AP50、AP75、APs、APM、Parameters、FLOPs一共七个指标作为评价标准。

4.2 实验结果对比及分析

实验基于Small Object Dataset数据集,计算在Faster-RCNN目标检测框架下,特征提取网络选用Resnet-50时的平均精度mAP和AP50、AP75、APs、APM、Parameters、FLOPs一共七个指标。

从表2中可以看出,频域混合注意力模型相对其他注意力模型,在相近的参数数量和计算量下,取得了较好的准确率,mAP相对SENet、CBAM、EcaNet、FcaNet分别提高了1.2、1.1、0.9、0.7个百分点。APs相对SENet、CBAM、EcaNet、FcaNet分别提高了2、1.8、1.6、1.4个百分点。这六次对比实验,小物体数据集训练时损失函数变化曲线如图5所示。

图5 损失函数变化曲线Fig.5 Loss function variation curve

表2 实验精度对比Table 2 Object detection results of different methods on small object dataset

可见训练过程中,六组实验的损失函数曲线逐渐趋于平稳,没有出现明显的颠簸现象,训练到20个epoch时,网络逐渐趋于平稳,到80个epoch时,到达最优结果,实验结束,其中频域混合注意力模型能取得较好的收敛效果。

部分检测可视化结果对比图如图6、图7所示。

图6 蜜蜂检测可视化图Fig.6 Visualization map of honeybee detection

图6(a)图为Resnet-50检测结果图,右下角的两只蜜蜂漏检,而在图6(f)频域混合注意力模型检测结果图中,却能检测出来,而且两只蜜蜂的分类置信度分数分别能达到90%、53%,比另外四种注意力模型同一位置的两只蜜蜂的分类置信度均高。图7(a)图为Resnet-50检测结果图,最底部的一只观赏鱼漏检,而在图7(f)频域混合注意力模型检测结果图中,却能检测出来,而且分类置信度分数能达到90%,比另外四种注意力模型同一位置的观赏鱼的分类置信度均高。表明频域混合注意力模型的加入能提高原有Faster-RCNN的检测精度,并且检测精度能高于现有的多种注意力模型。

图7 观赏鱼检测可视化图Fig.7 Visualization map of fish detection

5 结束语

本文首先理论分析了平均值预处理和频域预处理结果的区别,然后从通道和空间域两个方面对特征图进行DHT处理,增加了特征多样性,获取更为丰富的输入信息。最后在小目标数据集(small object dataset)数据集上进行了验证,表明相近计算量下,该模型的检测精度要高于现有注意力模型,体现出频域混合注意力模型的有效性。

猜你喜欢
频域预处理注意力
求解奇异线性系统的右预处理MINRES 方法
让注意力“飞”回来
基于频域的声信号计权改进算法
高COD二噻烷生产废水预处理研究
如何培养一年级学生的注意力
频域稀疏毫米波人体安检成像处理和快速成像稀疏阵列设计
网络控制系统有限频域故障检测和容错控制
基于预处理MUSIC算法的分布式阵列DOA估计
A Beautiful Way Of Looking At Things
基于改进Radon-Wigner变换的目标和拖曳式诱饵频域分离