并行注意力机制在图像语义分割中的应用

2022-05-15 06:35张德祥

计算机工程与应用 2022年9期

张汉，张德祥，陈鹏，章军，王兵

1.安徽大学电气工程与自动化学院，合肥230601

2.安徽大学农业生态大数据分析与应用技术国家地方联合工程研究中心，互联网学院，合肥230601

3.安徽工业大学电气与信息工程学院，安徽马鞍山201804

语义分割技术已经成为计算机视觉领域的重要研究方向，其目标是对图像中的每个像素进行分类，将图像分割成具有相同语义的区域块，以进行图像的分析与理解。语义分割的重要性在于越来越多的应用需要利用图像进行理解推断，包括人机交互、自动驾驶、医学影像、计算摄影、虚拟现实、缺陷检测等领域[1]。对于传统的分割方法，文献[2]依据图像的颜色或灰度值不同设置中间阈值进行分割，文献[3]利用区域间特征的不连续性将检测的边缘点连接成闭合曲线实现区域分割，文献[4-5]分别通过定义生长准则和以数学形态学为基础进行分割，CRF-RNN[6]、DPN[7]则分别引入条件随机场、马尔可夫随机场模型改善分割效果。这些传统的分割方法没有深层次的网络结构，因而计算复杂度不高，对实际的设备需求也较低，但由于此类方法多是根据图像的低级视觉特征而没有利用中高级语义信息以及像素间的相关性，在遇到相对复杂的实际场景往往得不到令人满意的分割效果。

随着深度学习的快速发展与广泛应用，基于卷积神经网络的分割算法在分割技术上取得了突破性进步。文献[8]将任意尺寸的图像作为输入、标签作为监督信息，设计出一种端到端的全卷积网络。自此，语义分割进入了一个全新的发展阶段，同时也奠定了使用深度网络解决语义分割的基本框架。全卷积网络通过重复的卷积池化组合提取特征，再结合跳级结构上采样至输入尺寸进行像素分类。这种模型在许多简单场景理解都取得了较好应用，但随着场景的复杂化、多样化以及对精度的高要求，这种简单的模型因为下采样造成局部信息的丢失以及不能从全局视野下利用像素的相关性问题而不能满足实际需求，因而一系列改进算法应运而生。

为了减少局部信息的丢失，文献[9-10]设置多尺寸输入，融合不同尺寸的输入信息，文献[11-12]扩大卷积核尺寸，减少下采样层数，文献[13-17]设置不同空洞率的空洞卷积和不同尺寸的池化核进行多尺度特征融合，文献[18-21]在上采样时逐层融合低水平特征。尽管这些工作有助于减少局部信息的丢失，改善分割效果，但作为一种局部手段的卷积操作，仍难以获得全局信息以及在全局视野下利用像素间的相关性对目标进行分析判断，因此这些方法在一些特定场景中对于分割的改善是有局限的。

为了捕获全局信息以及从全局视野下利用像素间的相关性，文献[22]通过学习到的注意力图自适应聚合远距离上下文信息，文献[23-24]采用一种非局部操作捕获特征图上任意位置特征间相关性，文献[25]搭建了一个有向无环图的递归神经网络捕获丰富的上下文依赖关系，文献[26-28]将注意力机制应用在通道、位置、类别不同角度以捕获具有依赖的全局信息。这些策略也都相应地促进了分割效果，但全局信息倾向于从全局视野下对目标进行分类而缺乏必要的空间信息以致上采样时不能准确恢复像素位置。因此，融合必要的局部信息更有利于优化分割结果。

由此，提出了一种融合了局部注意力和全局注意力的网络模型，该模型在捕获丰富的局部信息同时从全局视野下对分割目标进行判断。局部注意力模块分编码和解码两个阶段，编码阶段通过设置不同尺寸的卷积核依次下采样特征图以获得更大的感受野，解码阶段则在上采样时融合相同尺寸的下采样特征图以减小下采样造成的局部信息的丢失，同时实现多尺寸的局部信息融合。全局注意力模块从全局视野下学习输入特征图的全局描述，输出特征图中每个位置的特征是输入特征图中所有位置特征的加权和且权重由输入特征图中特征间相关性决定，越相似的特征相关性则越大。两个注意力模块的融合有效改善了分割效果。此外，由于语义分割是一种像素级分类，下采样的特征图需要上采样为输入尺寸，而双线性插值法作为最常用的上采样方法是在像素四周进行水平和垂直方向的两次插值以确定目标像素，其没有考虑到标签像素间的相关性，因而可能会得到次优分割结果。采用一种数据相关的上采样方法[29]代替常规的双线性插值法并且有效改善了分割结果。在样本分布不均衡时，样本量少的类别特征过少，网络很难从中提取规律并且容易过度依赖有限的数据样本而产生过拟合问题。因此，针对数据集的不平衡问题，采用Dice Loss[30]损失函数并在类别损失前加入权重系数有效缓解了由于数据不平衡引起的分割误差，进一步改善了分割效果。

1 相关工作

（1）语义分割

语义分割是计算机视觉领域研究的基本话题。FCN[8]率先采用全卷积网络实现图像的像素级分类。随后，基于FCN的改进算法在语义分割领域取得了重大突破。为了减少局部信息的丢失，改善分割效果，U-Net[18]、SegNet[20]使用编码-解码结构将低水平特征与高水平特征进行融合，RefineNet[9]采用RefineNet块的同时融合不同尺寸的输入特征，DPC[31]使用结构搜素技术创建多尺寸结构，DeepLab V3[14]、DeepLab V3+[15]使用不同空洞率的空洞卷积并行多尺度特征提取，文献[32]、PSPNet[16]采用不同尺寸的卷积核、池化核并行实现多尺寸目标学习。

（2）自注意力机制

注意力机制是生物视觉行为的仿生，即模拟生物在观察目标时将注意力集中在关键特征而忽略其他不相关信息。自注意力机制是注意力机制的改进，其减少对外部信息的依赖，强调与自身特征的相关性。因自注意机制可以捕获长距离依赖关系，在自然语言处理、图像、视频等领域都受到了广泛关注。文献[33]首次将注意力机制用于机器翻译中并取得了显著效果，EncNet[34]引入上下文编码模块捕获全局上下文信息和突出与场景相关联的类别信息，SENet[26]采用全局平局池化模拟全局特征并将其作为通道权重学习通道相关性，OCNet[35]提出目标文本模块并嵌入到金字塔和空洞空间金字塔结构中，DANet[27]将注意力机制同时应用在通道和位置上并将各自提取特征进行融合，CCNet[36]采用一种串联的十字交叉的注意力网络捕获全局信息，HMANet[28]进一步扩大注意力应用范围，除通道、位置注意力外，文章引入类别注意力重新校准类别信息。

鉴于以上语义分割方法和自注意力机制的成功使用，从减少局部信息的丢失以及捕获具有长范围依赖的全局信息出发，提出了一种局部和全局注意力融合的卷积神经网络以改善分割效果。局部注意力通过编码-解码结构的设置将高水平特征与低水平特征进行多尺度融合，全局注意力学习特征间相关性并将其作为权重捕获具有全局依赖的全局信息。此外，采用一种数据相关的上采样方法代替常规的双线性插值法并针对数据集的不平衡问题，采用Dice Loss 损失函数并在类别损失前加入权重系数以缓解由于数据不平衡引起的分割误差。

2 网络模型

2.1 概述

模型整体结构如图1所示，首先，采用修改的Resnet-50作为主干网络学习输入图像特征。随后，局部和全局注意力两个并行模块分别对主干网络输出的特征进一步提取并将各自提取的特征进行像素级融合，为减小下采样丢失的有效局部信息，采用自适应最大池化下采样高分辨特征图与注意力模块融合的特征图进行特征聚合。最后采用数据相关的上采样策略恢复聚合的特征图至输入尺寸，实现像素分类。

图1 模型整体结构Fig.1 Overall structure of model

2.2 主干网络

计算特征图上两个位置特征间相关性需统计特征图上任意特征与其所在特征图上所有特征的相关性，假设特征图通道数、宽、高分别为C、W、H，则得到注意力图需要的计算量为C×H×W×H×W。因此，主干网络的输出特征图不宜过大以减轻计算注意力图时巨大的计算开销。另一方面，图2给出了输出相关性对应不同感受野的输入相关性。

图2 输出相关性对应不同感受野的输入相关性Fig.2 Output correlation corresponds to input correlation of different receptive fields

由图2可知，主干网络输出特征图中每个特征对应某一范围的输入图像，计算公式如式（1）：

lk-1是第k-1 层的感受野大小，fk-1 是当前层的卷积核大小，si是第i层的步长。

由等式（1）可知，随着网络的加深，感受野不断加大，然而过大的感受野则不能准确反映输入图像中区域间的相关性（蓝色：相同种类的区域很少，相关性低，红色：相同种类区域增大，相关性增大）。鉴于此，主干网络的输出特征图不宜过小以减少过大的感受野不能准确反映区域间的相关性。

综上所述，采用Resnet-50 的前三个分块作为主干网络并将第三个分块的步长设置为1 以权衡输出特征图尺寸和局部感受野问题，这样得到的特征图尺寸是输入图像的1/8，输入图像尺寸归一化为224×224像素，因此，经主干网络的特征提取输出特征图的尺寸为28×28像素。

2.3 局部注意力

由2.2 节主干网络模块讨论知，在统计特征间的相关性时需减少感受野以更准确反映输入图像区域间的相关性。然而由数据集测试结果可视化可见，输入图像中目标尺寸不一，为实现多尺寸目标分割，则需进行不同感受野的特征融合。随着网络的加深，感受野不断增大，由于下采样层的增多则会造成更多局部信息的丢失。因此，为实现多尺度特征融合时减少局部信息的丢失，鉴于U-Net、SegNet等编码-结构的成功应用，提出了如图3所示的局部注意力网络。

图3 局部注意力模块Fig.3 Module of local attention

局部注意力网络是一种U型结构，分编码和解码两个阶段。输入图像经主干网络的特征提取后，输出特征图的通道数为1 024，从图3 知，解码阶段特征图上采样时与相同尺寸的下采样特征图进行像素级融合，融合的特征图需要有相同的通道数，如式（2）：

其中，Kh、Kw表示卷积核高宽，Cin、Cout表示输入、输出通道数，Hout、Wout表示输出特征图高宽。

由式（2）可知，卷积层的计算量与卷积核的宽高以及输出通道数成正比。因此，为了减少计算量，首先采用1×1的卷积层减少通道数为512。为实现多尺寸特征提取，鉴于最大池化下采样操作只保留池化核范围内很少的一部分信息而造成巨大的局部信息丢失以及主干网络输出特征图的尺寸为28×28像素，在编码阶段采用具有3 级的金字塔结构并用7×7、5×5、3×3 的卷积核依次下采样得到14×14、7×7、4×4的局部特征图，为了增大局部感受野，在下采样之后设置相同尺寸的卷积核进一步特征提取。编码阶段可表示为：

因为下采样时感受野不同，解码阶段在上采样时与相同尺寸的编码特征图进行融合从而实现了多尺寸的局部特征融合。解码阶段可以表示为：

这种局部注意力模块通过编码-解码结构的设计，在下采样时通过卷积操作增大感受野，并在上采样时逐级融合下采样特征，低水平的局部信息对高水平的特征进行了补充，不同感受野的局部信息融合时减少了局部信息的丢失。由后期实验表明，局部注意力模块有效改善了分割效果。同时，特征图的分辨率和通道数较小，因此不会带来计算上的压力。

2.4 全局注意力

随着网络的加深，感受野逐渐增大。但卷积是一种局部操作，仍难以得到全局信息，全局平局池化将所有特征相加进行融合，这种简单的融合方法没有考虑到像素间的依赖性，因而对于分割效果的提升是有限的。随着自注意力机制的广泛应用，捕获长范围具有依赖性特征越来越成为全局特征提取的重要方法。由文献[23]知，在计算机视觉任务中，全局注意力机制操作的定义为：

C(x)是归一化系数，i、j分别表示输入特征图x中的某个空间位置，f是一个计算特征图中两个特征的相关性函数，g(xj)表示j位置特征的映射。由公式（5），设计了如图4所示的全局注意力模块。

图4 全局注意力模块Fig.4 Module of global attention

全局注意力模块可分3个阶段。首先，采用特征值相乘法模拟特征间相关性，即：

对于通道数为C，高宽分别为H、W的特征图需要的计算量为C×H×W×H×W。因此，在计算特征间相关性时为了减轻计算压力除减少特征图尺寸外，还可以相应程度地减少特征图通道数。如图4所示，经残差网络的特征提取，首先对输入特征图x∈RH×W×C引入1×1 卷积并随之转换为多通道向量，N=H×W，随后对转置后的A和B执行矩阵乘法，最后通过Softmax归一化得到注意力图D∈RN×N，即：

在第二阶段中，通过矩阵乘法将第一阶段得到的特征间相关性作为权重加在相应的特征前。首先采用1×1 卷积用以减少通道数并随之转换为多通道向量C∈，随后对注意力图D进行转置并与多通道向量C执行矩阵乘法并转换为H×W×C2的特征图。最后在第三阶段中通过1×1 卷积恢复特征图尺寸并与输入特征图x执行像素级融合，即：

α是一个初始化为0的可学习因子并在学习过程中得到更大的权重[37]。由等式（8）知，经全局注意力后，输出特征图尺寸和输入特征图相同，并且输出特征图中的每一个像素是输入特征图上的相应像素与其所在特征图上所有像素的加权和，且权重由两个像素的相关性决定，由此捕获了具有像素依赖关系的全局信息。

2.5 数据相关上采样

双线性插值是在像素四周进行水平和垂直方向的两次插值以确定目标像素，其没有考虑到标签像素间的相关性，因而可能会得到次优分类结果。一个重要发现是标签中的像素是非独立分布的，像素间包含着结构信息。因此可以将标签近乎无损压缩到后再解压至L1，然后将解压过程中学习的重建矩阵W用于上采样，L2与最终聚合特征图维度相同。

可将标签L1压缩到L2可分为4个阶段。首先将L1分块成H2×W2个r×r子窗口，，然后将每个子窗口转化为向量，{0,1}表示标签经过one-hot编码处理，N1=r×r×C1，接着将向量V压缩成，最后水平、垂直压缩其他子窗口。对于第三阶段，采用线性压缩方法：

图5 r=2 时标签L1 压缩至特征图尺寸L2 过程Fig.5 Process of groundtruth L1 compressed to resulting feature map L2 which r=2

2.6 损失函数

首先选择Dice Loss作为损失函数是因为分割的真实目标是最大化预测结果与标签的交并比，而在给定优化指标本身与代理损失函数选择时，最优选择是指标本身[38]。由文献[30]知Dice Loss损失函数形式如等式（10）：

L是类别总数，N为输入图像分辨率，pln表示像素点属于类别l的概率，rln表示像素点是l类的类别标签，平滑因子λ用于防止计算时分母为0。

在样本分布不均衡时，样本量少的类别特征过少，网络很难从中提取规律并且容易过度依赖有限的数据而产生过拟合问题。由文献[17，39-40]知，样本量多的类别特征容易学习是因为大量的样本降低模型的整体损失，模型在训练时更偏向于容易样本的特征学习而对于样本量少的困难样本的关注度降低。网络的输出是与类别数相同的多通道矩阵，矩阵中的值经Softmax 归一化后表示此像素属于各类别的概率且概率值相加为1。对于简单样本，概率值p值更接近于1，困难样本的概率值更接近于0，为了增大困难样本在损失中的比重，文献[39]在损失前加入权重系数(1-p)γ（γ是一个取值0-1的超参数），可知对于简单样本，输出概率值p越大，(1-p)γ则会越小。相反，困难样本的输出概率p越小，(1-p)γ则越大，这样在训练时，困难的样本的损失被放大，模型会更加关注困难样本。同样，文献[40]根据训练时的不同阶段，采用渐增方式对超参数γ进行调节。受之启发，为了平衡各类别样本损失，本文希望所有类别的样本在训练中对于分类器同等重要，即希望加大少数样本损失权重。与之不同的是，没有从输出概率角度增大困难样本的损失而是根据各类样本的数量重新缩放分类损失大小。如等式（11）：

其中

在类别损失前引入权重系数，对于二分类分割，损失可表示为：

w0、w1表示背景、前景类别权重，p0n、p1n表示像素分类为背景、前景的概率，r0n、r1n表示背景与前景标签。因为图像标签经one-hot 编码，因此r0n=0、r1n=1 且等式（13）可表示为：

由等式（14）知GDLb即为前景损失与总损失之比，由等式（12）知权重系数与此类别像素个数的平方成反比。样本越不平衡，越小，对背景的调节将会越大。这样，前景损失在总损失的比重增大，在训练时模型将会提高对样本量少的困难样本的关注度。由后期实验可看出此方法有效缓解了因为样本不平衡原因导致像素多的样本损失占比过大而倾向此类别学习的问题。

3 实验

为评估提出模型的可行性及泛化能力，在药丸污点、药丸缺损和走廊三个数据集上进行了综合性实验，实验结果以及和其他模型的比较表明，提出的模型具备很好的实施性同时兼有很强的泛化能力。接下来将介绍数据集和实施细节，然后详细介绍在污点数据集上的消融和对比实验，最后呈现在缺损和走廊数据集的实验结果以及三个数据集预测结果的可视化。

3.1 数据集和实施细节

3.1.1 数据集

（1）药丸污点和药丸缺损数据集

污点和缺损数据集均来自HALCON 软件，两种数据集具有相似的特点，因此将其放在一起说明。因为同一张图像中最多包含两类，即完好和污点、完好和缺损、完好，所以两个数据集都是二分类分割。污点数据集有968张图片，缺损数据集有946张，两种数据集均有632×320、300×300、429×320 像素三种尺寸且都有高质量的像素标签。

（2）走廊数据集

走廊数据集来自CMU实验室，包含967张图像，尺寸为240×320 像素，实验时分割出走廊区域，因此也是二分类问题。

3.1.2 实施细节

模型基于开源框架PyTorch 实现并采用GeForce GTX 1080 Ti GPU 加速训练。对于三种数据集，随机划分训练集为75%，测试集为25%。通过实验精调，污点数据集初始学习率设置为0.3，缺损和走廊数据集为0.5，污点数据集训练80 个周期且在区间[20，40，50，70]衰减，减因子为0.5，缺损和走廊数据集训练30个周期且每隔10个周期衰减一半。污点和缺损批量设为8，走廊为16，动量和衰减因子分别设为0.95 和0.000 1。三种数据集均采用随机梯度下降算法作为优化器训练网络。

3.2 污点数据集实验结果

3.2.1 污点数据集消融实验

将修改的ResNet-50作为主干网络并通过局部注意力和全局注意力两个并行模块强化特征学习以改善分割效果。为了验证主干网络和两个注意力模块的有效性，在污点数据集上进行了全面的消融及对比实验。实验时，以双线性插值上采样方法恢复特征图至输入尺寸、Dice Loss作为损失函数、平均交并比（MIoU）作为评价指标。

如表1 所示，从实验1、2、3 可看出局部注意力和全局注意力模块在主干网络基础上分别提升了6.62 和6.73个百分点的平均交并比结果，当将两个注意力模块融合时得到了94.02%的良好结果，由此可得知在网络中融入局部注意力和全局注意力模块对药丸污点分割的有效性，而这种有效性则归功于局部注意力模块通过不同尺寸的卷积核下采样局部特征图，并在上采样时逐层融合不同感受野的下采样特征图捕获的丰富局部信息以及全局注意力模块从全局视野下利用像素间的相关性捕获的全局信息。为了验证分级的局部注意力对特征提取的必要性，实验5 中，采用和局部注意力相同的7×7、5×5、3×3的卷积核并行多尺度提取特征，由实验结果可见，采用这种方法也能相应程度改善分割效果，但相比于局部注意力有着1.24 个百分点的平均交并比差距，造成这样的差距可能是因为5×5、3×3卷积支路在增大感受野时需要增大步幅而有大量的局部性信息的丢失。实验6 中因为全局平均池化是一种简单的特征融合，其没有考虑到像素间的相关性因而实验效果不及全局注意力模块。此外，实验7中采用标准的Resnet-50 作为主干网络，然而相比于修改的Resnet-50 有着0.58 个百分点的差距，标准的Resnet-50 增加了第四个分块，感受野相应增大，增大的感受野不能很好反映输入图像区域间的相关性，标准的Resnet-50 相比于修改的主干网络增加了两个下采样层也会造成局部信息的丢失，此外，统计了使用两个主干网络在参数量和计算量的差距，修改的Resnet-50 的参数量、计算量分别为8.97×107、2.997×1010，标准的Resnet-50 因为增加了第四个分块以及上采样层参数量和计算量分别增加了3.723×107、2.92×109。实验8、9 中将主干网络替换为VGG-16和Xception-65，由实验结果可推测使用VGG-16实验效果不佳是因为多层的下采样造成局部信息的不断丢失以及重复的卷积池化操作对特征提取的局限性，而Xception-65则可能因为网络过于复杂以及连续的空洞卷积造成的局部信息的丢失。

表1 污点数据集消融实验Table 1 Ablation experiments of contamination dataset

3.2.2 双线性插值和数据相关上采样比较

双线性插值上采样方法是在待插入像素点四周的四个已知像素点进行水平和垂直方向的两次线性插值，这种过于简单的上采样方法在像素分类时可能会得到次优结果。采用一种数据相关的上采样方法代替此方法，为了证明数据相关上采样方法能够很好的恢复原始信息，在实验4 基础上进一步实验。实验结果如表2 所示，当采用数据相关上采样方法时，实验得到了94.68%的平均交并比结果，相较于双线性插值法有了0.66个百分点的提升。

表2 上采样方法比较Table 2 Comparison of upsampling methods

3.2.3 损失函数比较

由污点测试结果可视化可见，数据集存在样本不平衡问题，训练时将会加大模型对于样本少的特征的学习难度。在Dice Loss类别损失前加入类别权重系数（GDL）使得网络的学习更专注于样本量少的类别。为了说明GDL能够缓解由于样本不平衡造成样本量少的类别分割效果不佳问题，对每类的交并比进行统计。在数据相关上采样实验的基础上实验结果如表3，可看出GDL损失函数相较于Dice Loss损失函数有了1.71个百分点的提高且多因为污点类别的交并比结果的提升。由此说明了GDL 损失函数可以相应程度解决样本不平衡问题，改善分割结果。

表3 损失函数比较Table 3 Comparison of loss functions

3.2.4 与现有流行方法比较

首先简要介绍HALCON 软件。HALCON 是一个广泛应用于机器视觉领域的图像处理库，类似于计算机视觉库OpenCV，HALCON内部包含丰富的图像处理算子。为了缩短开发周期，HALCON 自带开发环境HDevelop以供开发者快速进行程序设计并可将程序导出为C、C++、C#等语言以进行更大程序的设计。随着深度学习的快速发展，最近版本的HALCON 也逐渐支持深度学习并不断进行功能完善，在接下来的HALCON 实验就是在此基础上实现的。

实验时以语义分割最常用的像素准确率（PA）和平均交并比（MIoU）作为分割评价指标。几种常用分割方法的实验结果如表4 所示，HALCON 实验时保留了对污点数据集分割的原有算法，并精调实验超参数以达到最优分割效果。从表4实验1可见，HALCON在此数据集上取得了93.10%的平均交并比结果，此结果优于FCN-16s、DeepLab V3+和DANet三种常用模型。然而，由实验结果1、5 可知，提出的模型平均交并比结果比HALCON还要高出3.29个百分点。由此说明提出模型在污点数据集上能够得到很好的分割效果。

表4 与现有流行方法比较Table 4 Comparison with existing popular methods

3.3 缺损数据集实验结果

为了进一步评估提出模型的有效性，在缺损数据上也进行了实验。同样，实验以像素准确率（PA）和平均交并比（MIoU）作为评价指标评估分割效果。实验结果如表5所示，HALCON实验时同样采用默认的分割算法并精调实验超参数，由实验1、5 可见，提出模型在像素准确率、特别是平均交并比都取得了很大的提升。与此同时，利用几个现有流行模型进行了实验，由实验2、3、4、5表明，提出的模型在药丸缺损数据集上有着先进的分割能力。

表5 缺损数据集实验结果Table 5 Experimental results of crack dataset

3.4 走廊数据集实验结果

为了观察提出的模型是否具备很好的泛化能力，在走廊数据集上进行了对比实验。实验结果如表6所示，文献[41]运用简单的AlexNet作为主干网络然后上采样融合低水平特征进行分割，因而实验效果不佳。所以，在这里本文模型和文献[41]的实验结果作定性比较而不作定量比较。然而从实验5可以看到，提出的模型得到了98.53%的像素准确率和96.28%的平均交并比结果，这两个结果特别是平均交并比显著高于其他几个模型。因此可以说明提出的模型不仅可以有效改善分割效果同时具备很好的泛化能力。

表6 走廊数据集实验结果Table 6 Experimental results of corridor dataset

3.5 实验预测结果可视化

保存训练时的最优模型进行实际部署，实际预测结果如图6 所示（第一行：待测图像，第二行：标签，第三行：预测结果），由图6 污点数据集可视化结果可以看到，提出的网络不仅能在边缘较为平滑（第三列）和变化突兀的目标上（第一列）取得非常好的预测结果，对于样本不平衡且非连通的目标上（第二列）也能得到很好的预测。因此，可以推断网络对污点特征具有很强的学习能力。同样在缺损数据集可视化中可以发现网络也得到了很好的分割结果。在走廊数据集的可视化中可以看到预测结果棱角分明，很好地识别出边角区域。在与标签的对比中发现，网络准确分割出走廊区域，同时也验证了模型具有很强的泛化能力。此外，如图7污点数据集训练、测试时损失及平均交并比变化曲线可见训练过程处于平稳状态，没有出现过大和反复的震荡现象，且训练10个周期左右，网络快速收敛，实验时继续训练至80周期以尽可能得到最优模型。

图6 污点、缺损、走廊数据集预测结果可视化Fig.6 Visualization of prediction results of contamination，crack and corridor datasets

图7 损失及平均交并比变化曲线Fig.7 Changing curves of loss and MIoU

4 结束语

呈现了一种新的语义分割方法：以修改的ResNet-50作为主干网络提取特征后输入给局部注意力和全局注意力两个并行模块，局部注意力模块采用编码-解码结构多尺度融合局部信息而全局注意力模块从全局视野下利用像素间的相关性捕获具有依赖的全局信息。通过两个注意力模块的融合有效的进行特征的学习；此外，采用一种数据相关的上采样方法恢复特征图至输入尺寸；针对数据集不平衡问题在Dice Loss 类别损失前加入权重系数。从药丸污点、药丸缺损以及走廊数据集的实验结果中体现了提出的模型不仅具有很好的实施性，同时具备很强的泛化能力。