基于全局注意力的多尺度显著性检测网络

2022-02-19 10:23叶协康马晨阳陈小伟林家骏

计算机应用与软件 2022年2期

叶协康马晨阳陈小伟* 张晴林家骏

1(上海应用技术大学计算机科学与信息工程学院上海 201418) 2(华东理工大学信息科学与工程学院上海 200237)

0 引言

显著目标检测是对图像中最具视觉特点和吸引人的区域或物体进行定位，并按照符合人眼视觉特征的边界进行分割。显著目标检测作为图像处理的重要预处理步骤，其应用十分广泛，如视觉跟踪[1]，语义分割[2]、目标识别[3]和图像检索[4]。

早期的显著目标检测算法主要依赖于启发式先验信息，如颜色、纹理和对比度，但是这些手工的特征很难捕捉高级语义关系和上下文信息，往往不能准确定位和分割出显著目标，特别是面对颜色对比度低、多目标、背景结构杂乱等复杂场景。近年来，深度学习技术发展迅速，其中卷积神经网络在各类计算机视觉任务中较大提升了模型性能[5-6]。基于卷积神经网络的显著目标检测模型[7-8]较传统的方法将检测性能提高到了一个新的高度。这些模型采用编码器与解码器组合的结构。编码器部分通常由预训练好的模型组成，如ResNet[9]或VGG[10]，提取不同层次不同尺度的各类特征。在解码器中，提取到的特征会以不同的方式进行特征融合，最终生成显著图。

尽管基于卷积神经网络的显著性检测模型取得了较好的研究进展，但是在面对低对比度、杂乱背景等复杂场景时，仍存在一些问题有待解决。从卷积神经网络得到的不同层次的特征具有不同的特征属性。高层次的特征包含丰富的语义信息但是缺少准确的位置信息，低层次的特征包含丰富的细节信息但却无法排除背景噪声干扰。研究人员提出多尺度特征融合方法，但是简单的多尺度特征融合方法不能高效地融合特征。另外，对于从不同的卷积层提取的特征，并不是所有的特征通道都对最终的显著图有同等重要的影响。部分特征通道对显著目标具有较高的敏感度，对检测显著目标提供了积极的响应，而其他特征通道的敏感度较低，甚至对非显著目标有较高的响应，反而对检测显著目标产生了负面影响。因此，如果能够选择出相对重要的特征通道，去除噪声通道产生的负面影响，便可以更好地检测显著目标，从而获得更好的模型性能。

为了解决上述问题，本文提出一种基于全局注意力的多尺度网络模型用于显著目标检测。首先，所提网络采用主干网络提取输入图像的多层级特征，将多层级特征分别融合，得到高层级特征和低层级特征。随后，针对从主干网络提取的最深层特征信息进行处理，利用不同膨胀率的空洞卷积获得不同感受野信息以提取输入图像的多尺度全局信息，通过面向通道的注意模块选择合适的注意特征通道，计算表示每个特征通道重要性的权重系数，将得到的注意力权重作用于整合得到的高层级特征和低层级特征，利用注意力权重突出显著目标特征通道，并且过滤噪声通道。最后，利用高层级特征去指导低层级特征定位显著目标，通过融合引导优化，丰富显著目标的细节信息并抑制不相关的背景噪声，提高模型性能。

为了验证提出模型性能，在5个公开显著目标检测基准数据集上进行实验并与近年发表的具有代表性的方法进行比较，实验结果表明，本文模型可以获得更好的局部细节和显著图。

1 相关工作

传统的显著性检测方法大多根据图像的低级特征和启发式先验信息来预测图像的显著性，如颜色、纹理、对比度[11]等。虽然这类方法在简单场景中能够检测出大部分显著性物体，但是这些方法主要依赖低层和中层特征，缺乏高层语义信息，无法在纹理复杂、背景杂乱的图像中准确识别出显著的目标。

卷积神经网络在高级语义信息表征方面具有优势，近年来被广泛应用于显著计算模型中[5-6]。文献[12]将启发式显著先验特征与循环深度网络相结合，使用手工处理后的特征作为显著先验特征输入。近年来，研究人员尝试利用多层、多尺度特征融合[7]，同时聚合高层语义信息和低层结构细节，以进一步提升模型性能。文献[13]提出了一种分层优化模型，通过整合局部上下文信息逐步优化图像细节。文献[14-15]利用短连接融合多层级特征，同时利用高层语义信息和低层细节结构进行显著性检测。然而，多尺度特征存在冗余信息，只利用简单的加法操作和连接操作的多尺度特征融合方法无法解决多层级特征间的信息冗余。

注意力机制可以在一定程度上有效过滤多尺度特征中的冗余信息，可显著提升特征表示和学习性能，已应用于目标跟踪[16]、姿态估计[17]、图像分割[18]等多个计算机视觉任务中。文献[19]提出了一种注意引导网络，该网络有选择性融合多尺度上下文信息，产生注意特征来抑制背景的干扰，从而获得更好的性能。文献[20]采用门控双向信息传递模块，提供一个自适应并且有效的策略来集成多层级特征。文献[21]使用残差学习融合多层级特征进行显著性优化，提出反向注意力的方式指导残差学习。

2 本文方法

2.1 模型整体结构

本文提出的基于全局注意力的多尺度特征显著性检测模型的结构如图1所示，主要由三个模块组成，分别为特征增强模块(Feature Enhancement Module，FEM)、全局注意力模块(Global Attention Module，GAM)、多尺度优化模块(Multi-scale Optimization Module，MOM)。其中：特征增强模块针对从骨干网络各个侧边输出的多层级特征进行处理，提升特征的表达能力；全局注意力模块利用空洞空间卷积池化金字塔(Atrous Spatial Pyramid Pooling,ASPP)模块[22]提取全局信息，再从全局特征中提取通道权重信息；多尺度优化模块将经通道权重优化后的高层级特征引导优化后的低层级特征进行优化，最后将优化后的低层级特征和高层级特征进行连接，生成最终的显著图。

图1 网络模型

2.2 特征增强模块

表1 特征增强模块中的卷积层细节

最后，分别将采用处理后的前三层特征和后两层特征进行连接，使用3×3大小的卷积核进行卷积操作，再将融合特征降至128维，得到高层级特征(High-level fusion features，fH)和低层级特征(Low-level fusion features，fL)。

2.3 全局注意力模块

为了更好地提取全局信息，本文用ASPP模块对VGG-16中从Pool5层提取的深层特征进行处理。与普通的卷积操作相比，空洞卷积能够增大特征的感受野而不增加模型的计算量，因此使用空洞卷积可以提取更丰富的全局信息，本文模型分别采用膨胀率为1、6、12、18的空洞卷积，将不同空洞卷积后得到的特征融合得到多尺度全局信息特征X。

不同特征通道对不同的对象会有不同的响应值，对于一幅给定图像，并不是所有的物体都是显著目标，因此无区别地对待所有特征通道可能会导致检测性能下降，甚至出现完全相反的结果，所以找到对显著目标具有高响应值的特征通道会大大提高模型性能。受文献[23]的启发，本文对全局信息优化后的特征进行重要性权重计算，网络模块如图2所示。首先用全局平均池化操作处理，然后采用两个1×1卷积操作，最后使用Sigmoid激活函数得到通道注意力权重。

图2 全局注意力模块细节

2.4 多尺度优化模块

由于来自深层的高层级特征图包含较多的高级语义信息，能够准确定位显著目标，而来自浅层的特征具有丰富的空间信息，能够更好地捕捉结构细节，为了高层特征与低层特征更好地融合以获得更优的显著图，本文提出新的融合方法，采用高层级特征指导低层级特征定位显著目标。

3 实验与结果分析

3.1 基准数据集

本文方法在5个常用基准数据集上进行性能评估实验。ECSSD数据集包含1 000幅各种复杂场景的图像。DUT-OMRON数据集包含5 168幅更具挑战性的图像。HKU-IS数据集包含4 447幅图像，其中包含很多不连续显著的对象、对比度较低或显著目标触及图像边界的图像。PASCAL-S数据集是从PASCAL-VOC分割数据集中挑选出来的,这个数据集共有850幅自然图像。DUTS-TE是DUTS数据集的测试集，包含很多具有挑战性的复杂场景。

3.2 评估指标

本文采用5种性能评价指标来定量评价。

(1) PR曲线：通过使用0到255之间的不同阈值对显著性图进行二值化计算，然后将二值化后的图与真值图进行比较，得到一系列成对的查准率和查全率，即可绘制PR曲线。

(2) F-measure是对查准率和查全率进行加权计算,即：

(1)

式中：β2通常设置为0.3[24]；p为查准率；r为查全率。

(3)ωFβ是F-measure的加权，弥补了传统评价指标的插值、依赖和重要性相同等不足，类似于Fβ，ωFβ由pω和rω的加权调和平均值计算而得，即：

(2)

(4)MAE定义为预测的显著图与真值图之间的像素级平均绝对误差：

(3)

式中：w和h分别代表预测的显著图S的宽度和高度；G表示真值图。MAE的值越小表示预测的显著图与真值图之间的差距越小，即性能越强。

3.3 实现细节

本文网络基于PyTorch实现,并使用单个NVIDIA GTX TITAN GPU训练网络。使用DUTS-TR数据集训练模型，该数据集包含10 553幅图像。为了使模型更具鲁棒性，通过水平翻转进行数据增强。模型使用Adam优化器训练，其权重衰减为0.000 5，初始学习率为0.000 5，并在迭代了15个epoch后学习率下降10%，总共训练24个epoch。为了更好地监督损失，本文采用混合损失函数监督的方式，同时使用BCE[25]、SSIM[26]、IoU[27]作为损失函数。

3.4 与新近算法的性能比较

本文方法与9种相关显著目标检测方法进行比较，包括DCL[14]、RFCN[5]、DHS[13]、NLDF[6]、Amulet[7]、PAGR[19]、C2S[8]、RAS[21]和DSS[15]，出于公平原则，本文使用上述算法作者提供的模型和显著图。

3.4.1定量评估

表2 不同方法在不同数据集的Fβ和比较

续表2

表3 不同方法在不同数据集的MAE和ωFβ比较

图3为各方法在基准数据集上的PR曲线比较，可以看到，本文方法在DUT-OMRON数据集上与RAS性能相当，在ECSSD、PASCAL-S、HUK-IS数据集上，本文方法较其他方法均具有优势，说明本文方法性能优于其他方法。

(a) ECSSD

(b) DUT-OMRON

(d) HUK-IS图3 不同算法在不同数据集的PR曲线比较

3.4.2定性评估

图4是本文方法和其他方法的显著性检测直观视觉效果比较。可以看出，本文方法的显著性检测视觉效果比其他方法好，能够更加准确地检测显著性目标。例如，在第5幅图像中，其他方法未能完整地检测出显著性目标，而本文准确检测出完整的显著性目标。在第7幅图像中，其他方法检测出来的蝴蝶被蝴蝶后的花朵干扰，导致检测出来的显著性区域比真值多出一部分，而本文方法精准地检测出完整的蝴蝶。无论是显著性目标边界比较细致(第1、第2、第6行)、前景背景对比度不大(第3行)，还是有多个显著性目标(第4、第8行)，本文方法均能准确定位显著性目标，检测出完整显著区域。

(a)输入 (b) 真值 (c) DCL (d) RFCN (e) DHS (f) NLDF (g) Amulet (h) PAGR (i) RAS (j) DSS (k) 本文图4 不同方法的视觉对比

3.5 消融分析

为了验证本文模型各模块的有效性，我们分别依次移除各个模块，在DUTS数据集上重新训练模型，在DUT-OMRON和HKU-IS数据集上进行性能测试。

如表4所示，其中：Ourswo_ASPP表示移除全局注意力模块中的ASPP模块；Ourswo_Weight表示移除全局注意力模块中的通道权重模块；Ourswo_GAM表示移除整个全局注意力模块；Ourswo_MOM表示移除多尺度优化模块中高层特征与低层特征融合步骤。可以看出本文模型的各个模块移除后，性能有明显下降，说明本文算法中各个模块的有效性。

表4 本文模型各模块性能比较

4 结语

本文提出一种基于多尺度优化和全局注意力的网络结构。首先，该网络增强主干网络的特征，融合前三层和后两层特征，进行多尺度特征融合得到高层和低层特征，然后利用ASPP模块提取全局信息，再提取全局信息中的通道权重，以此权重引导优化高层和低层特征，最后融合高层特征和低层特征，得到显著性预测图。本文方法在常用的基准数据集上与近几年基于深度学习的显著性检测方法进行比较，实验结果证明本文方法整体上相较于近几年的方法性能更加优异。