基于注意力机制特征增强的舰船目标识别

2022-04-06 06:15赵春晖肖舒匀

黑龙江大学工程学报 2022年1期

赵春晖，肖舒匀，宿南

(哈尔滨工程大学信息与通信工程学院，哈尔滨 150001)

0 引言

近年来，遥感图像广泛应用于各个领域[1-2]。舰船遥感图像的目标检测是遥感图像研究领域重要的内容。实现舰船目标的精准检测对保证海上安全、渔业管理以及海域监管具有重要意义。舰船目标识别不仅要实现通常意义上的舰船检测，还要实现对于舰船型号的细粒度级分类。由于海洋环境多变、海岸舰船排列紧密，舰船船型复杂、目标较小等多种因素，舰船的目标检测中特征信息的提取以及利用受到复杂现象的抑制，容易导致漏检以及错检等问题，因此舰船的定位及识别更加具有挑战性。

传统的舰船目标检测算法通过先验信息首先选择海洋作为研究区域[3-4]，然后利用模板匹配、监督分类等方式在寻找感兴趣区域进行目标检测。但是，传统方式对遥感图像的质量要求较高且方法鲁棒性较差，难以满足实际生产生活应用的要求。基于深度学习的舰船目标检测算法更为高效，检测算法主要分为双阶段和单阶段两种类型。单阶段目标检测算法以YOLO系列[5]作为代表，直接在图像上对目标进行定位以及预测出类别置信度，该类算法速度更优；双阶段目标检测算法以Faster R-CNN[6]系列作为代表，具有区域建议网络结构，先预测一些可能存在目标的候选框，该类算法检测准确率更具优势。

深度学习算法目标检测中，特征信息的提取及利用决定了算法的检测效果。特征金字塔(Feature Pyramid Networks，FPN)[7]的提出实现了对多尺度特征新的融合，更充分的保留和利用了不同特征层中语义信息和位置信息。注意力机制可增强网络的表达能力。SENet(Squeeze-and-Excitation Networks)[8]网络是最早提出的成型的基于注意力机制的网络，Hu等通过将SENet结构插入到分类网络中通过对特征通道信息进行加权提升了网络的分类能力。CBAM(Convolutional Block Attention Module)[9]模块是利用通道和空间的关系，增强特征层的空间信息。ECAM(Efficient Channel Attention Module)[10]在SENet网络基础上主要通过全局平均池化和全连接层对通道信息进行加权，可以高效快速的改善网络对不同通道的注意力。

FPN模块是目标检测算法中常用的特征融合模块，见图1，巧妙地融合了多尺度的特征信息[11]，但其不足之处：①在FPN中，特征层以自上而下的方式进行融合，高层的特征信息可以对低层特征进行指导，丰富低层的语义信息，最顶层的特征层缺乏其他层信息的补充以及1x1的卷积降维导致部分信息丢失;②FPN特征融合后，每个候选区域的特征是根据预测框的尺寸大小选择的，即大目标选用高层特征层提取目标特征，小目标选用低层特征层提取目标特征[12]，导致其它特征层对于某个目标的语义信息被忽略，不利于目标检测的检测精度。

图1 FPN结构

本文主要针对FPN存在的两个特定性问题进行改进。基于注意力机制的特征增强架构被提出来以改进FPN的不足，架构中包含两个改进模块：顶层特征增强和自适应ROI特征增强。顶层特征增强模块是一个通道和空间信息双重注意力网络，最顶层的特征层{C5}经过通道注意力和空间注意力之后进行融合为一个新的特征层，以此保证顶层特征层的特征信息更完整的得到保留，将得到的新特征层与后续的特征层再进行融合。自适应ROI特征增强模块为每一个ROI汇集所有特征金字塔层的特征，从特征融合之后的特征金字塔{P2,P3,P4,P5}中的每一层学习生成更好的ROI特征，ROIFE为不同层的ROI特征生成不同的空间权重，将ROI特征加权相融合。

1 方法

1.1 算法介绍

以深度学习目标检测算法作为基础网络[13]，对网络中特征融合部分FPN进行改进，结构见图2。骨干网络提取特征之后送入FPN进行特征融合，在特征融合的过程中，从最高层{C5}的语义信息保留不完整的角度出发，设计增加TLFE模块，{C5}通过并联的通道注意力和空间注意力模块，赋予其更多的语义和空间信息。在特征融合之后，从受ROI预测框的尺度限制仅从固定某一层获取特征信息导致其他层语义信息遗漏这一角度出发，设计增加ROIFE模块，对于任意一个ROI预测，提取出该ROI在{P2,P3,P4,P5}上的所有对应的特征，然后利用网络本身学习权重参数，将不同层的特征求和作为这个ROI最终的特征。

图2 算法整体结构

1.2 顶层特征增强

顶层特征图具有较大的感受野[14]，对图像中目标的位置以及大目标的定位识别都具有重要的意义[15]。遥感图像中的舰船目标由于排列紧密以及海洋背景复杂等原因，定位舰船目标的位置是一个难点[16]，极易发生漏检的现象。因此，设计顶层特征增强的注意力机制，更大程度的保留顶层特征图的语义信息时十分有必要的。顶层特征增强模块结构见图3，上半部分是空间注意力机制，操作原理见式(1)。C5特征层经过一系列的卷积操作得到关于空间信息的权重信息，将该空间权重信息与原始C5特征图相乘，突出C5特征图中更具信息的部分。下半部分是通道注意力机制，机制过程见式(2)。为了有效计算通道注意力，需要对输入特征图的空间维度进行压缩[17]。对于空间信息的聚合，本文利用的是全局平均池化。Global average pooling与average pooling的差别就在“global”是对整个feature map求平均值，编码了全局的统计信息。从空间的角度来看，通道注意力是全局的，而空间注意力是局部的。通道注意力顺着通道维度对C5进行全局平均池化压缩，获取全局感受野，经过Sigmoid非线性处理，将输出结果作为每个通道的权重值。最后将原始的C5与通道权重值相乘，使网络对不同的通道信息施加不同的关注度，以此针对性的获取更丰富的通道语义信息。

图3 顶层特征增强模块结构

outputspatial=Sigmoid(Conv1×1(C5))

(1)

其中，Conv为卷积操作。

outputchannel=Sigmoid(GAP(C5))

(2)

其中，GAP为全局平均池化操作；Sigmoid为激活函数。

C5在得到空间注意力和通道注意力的权重，权重值与原始C5相乘得到2个有关注度的新特征层之后，将空间关注度与通道关注度的特征图相融合构成特征层P6:

P6=(C5⊗outputchannel)⊕(C5⊗outputspatial)

(3)

P6相比于C5保留了更丰富的顶层特征层信息。在特征融合过程中，将P6融入到P5中，以此可以保证后续ROI可以更充分的得到顶层的特征信息。

1.3 自适应ROI特征增强

FPN中特征融合之后得到{P2,P3,P4,P5}4层特征层，然而在后续ROI进行特征选取，网络根据ROI预测框的大小只选定某一层特征层进行特征提取，通常大目标会选择顶层特征层，小目标会选择低层特征层。这导致对于任意一个ROI来讲，其他3层特征层上的特征信息无法被利用，提取到的特征缺乏多尺度信息及特定性的某些特征。因此，设计一个注意力模块，可以让任意一个ROI充分利用4层的特征信息，自适应提取到4个特征层的特征信息，会最大程度的保证对目标有利的特征信息都被提取到。

自适应ROI特征增强模块原理见图4，对于任意一个ROI目标，模块聚集{P2,P3,P4,P5}4层的特征信息，4层特征信息进行concat操作，经过全局最大池化保留通道信息，而后经过一系列的卷积以及sigmoid激活函数，得到关于4层特征的注意力权重，通过网络不断自适应的更新权重信息。在网络中第1次的1×1卷积，是为了缩放通道值，减少网络计算量，对通道数合理的较少，可以兼顾网络的计算效率和检测性能[18]。第2次1×1卷积是为了恢复通道信息值。权重分别与原始4层特征图相乘将注意力信息融入特征层中，ROI目标对应的特征信息进行融合，得到最终ROI的目标特征信息:

图4 自适应ROI特征增强模块内部结构

Pset=concat(P2+P3+P4+P5)

(4)

output=Sigmoid(Conv1×1(Conv1×1(Pset)))

(5)

在特征图层次上，4层特征图分别与注意力权重相乘得到含有注意力加权的特征图，在ROI层次上，含有注意力加权的特征图相加融合为ROI对应的目标特征信息，FROI为某个ROI目标最终提取到的特征信息,表示为

FROI=ROI⊕(Pset⊗output)

(6)

自适应ROI特征增强模块仅利用了几层卷积操作即可实现对{P2,P3,P4,P5}的4层特征信息进行加权融合，既保证了ROI目标可聚合4层的特征信息，充分提取各个特征层的特征信息进行特征信息的学习，又保证增加较小的网络的计算量。

2 实验

为验证本文提出的基于注意力机制的特征增强架构得有效性，将基于注意力机制的特征增强架构插入FPN中，以Faster R-CNN作为基础算法，以resnet50和resnext101 2种网络作为骨干网络。

2.1 实验数据集

HRSC2016作为舰船识别研究的数据集，图像分辨率在0.4～2 m，图像大小为300～1 500。该数据集包含两级标签，父级标签全部舰船目标标记为ship类，子级标签为对舰船型号的细分共含有24类。在子级标签中，因在训练数据中没有Kitty Hawk和Blue Ridge类别，选择余下22类作为目标类别进行验证实验。数据集共有有436张训练图片(1 197个样本)和453个测试图片(1 219个样本)，子级类别分布见图5。利用父级标签对基于注意力机制的特征增强架构可以对舰船目标的位置及共性特征信息起到增强作用进行验证，利用子级标签对基于注意力机制的特征增强架构可以对舰船型号间细粒度的差异特征起到增强作用进行验证。

图5 HRSC2016数据分布

2.2 评价指标

精确召回曲线(PRC)和平均精确度(AP)被用作衡量船舶识别的指标[19]。Recall和precision的定义为

(7)

(8)

(9)

其中，TP为预测正确的真值；FP为预测错误；FN为未成功预测的真值；AP为PRC曲线下的面积；AP越高代表船舶识别效果越好。

2.3 舰船共性特征对比实验结果及分析

对HRSC2016数据集中父级标签(所有舰船标签类别均为ship)进行实验研究基于注意力机制的特征增强架构的有效性。舰船不同型号之间包含某些部件的差异性，因此对于混合型ship数据集，提取舰船的共性特征信息、忽略部件差异特征信息是重点[20]。所有算法实验环境、算法初始化参数设置相同。实验结果见表1。

实验利用FasterR-CNN、Cascade R-CNN、RetinaNet 3种算法，以及Resnet50和Reanext101 2种骨干网络验证FBAM的有效性。由表1可见，3种算法嵌入FBAM的实验精度均高于嵌入FPN，FasterR-CNN(Resnet50)提高1.2%、Cascade R-CNN提高0.8%、RetinaNet提高0.5%。实验验证了FBAM无论是嵌入到双阶段目标检测算法还是但阶段目标检测算法，都能够提高对特征信息的利用率，增强目标的共性特征信息。当Faster R-CNN分别使用resnet50和resnext101两种骨干网络提取舰船共性特征时，FBAM分别可以实现1.2%和1.8%的提高，都可以具有较明显的优势。算法提取特征的骨干网络可以通过连接FBAM实现特征信息更充分的利用。此外，嵌入FBAM模块远比网络改变骨干网络更方便，且不会造成训练计算量的大幅增多。与原始FPN相比，FBAM架构的引入，有效的提高了FPN网络对于特征信息的利用率，在舰船识别中，由于顶层信息的充分保留以及多尺度信息对ROI的充分指导，可以提高对舰船的定位能力。

表1 舰船共性特征增强实验结果

可视化结果见图6和图7。由图6可见，对于舰船小目标的定位，FBAM也有所提高。由于目标尺寸过小的限制，小目标的特征信息较难被学习到[21]，ROIFE模块对于各层信息的融合，网络对注意力参数的自适应更新，使小目标与海洋背景的区别特征更加明显。小目标舰船的边缘信息更充分的被学习利用。对于紧密排列的舰船目标FBAM也可以提高检测效果。顶层信息的充分保留可以提供丰富的上下文信息，对于舰船的边缘特征都可以起到促进学习的作用。由图7可见，舰船外在特征发生改变(舰船船身颜色、不同的集装箱的装卸)的情况下，本章所提出的特征提取模块依然可提取舰船的共性特征，准确检测舰船。

图6 FPN和FBAM(本文)算法的舰船定位可视化结果(基于Faster R-CNN，Resnext101)

图7 舰船外在颜色改变、舰船目标与背景相似情况下FBAM算法的检测结果可视化(基于Faster R-CNN，Resnext101)

2.4 舰船型号细粒度级特征的对比实验结果及分析

对HRSC2016数据集子级标签(舰船标签类别为型号级)进行实验研究基于注意力机制的特征增强架构的有效性。不同型号间的差异通常都体现在某些部件上的差异，实现舰船型号级的识别，更需要网络在特征信息的提取及融合上能够关注到细粒度级别的差距，网络能够对不同类别间的差异特征施加更多的关注度。算法FPN作为对比算法，算法实验环境、算法初始化参数设置相同。实验结果见表2。

表2 舰船型号识别实验结果

表2中共包含22种舰船型号，FBAM架构对于多数舰船型号的识别准确率都有提高，例如Hovercraft和Santoantonio分别提高了10%左右。从整体mAP来看，FBAM比FPN在resnet50上提高3.2%，在resnext101上提高3.5%。FBAM在顶层信息得到充足的保留的条件下，一定程度上保证了舰船位置定位的准确率。另一方面，充足的顶层信息和自适应学习的ROI特征，可以使网络充分关注到细粒度级别的特征差异，不同型号的部件差异权重值被提高。FBAM中的注意力机制可以在网络反向传播过程中不断更新权重参数，针对性的增加差异性特征的重要性。

可视化结果见图8。由图8可见，某些舰船型号在对比算法中被误检，而在FBAM架构中可以被正确识别，提高了舰船细粒度级别识别的准确率。可视化结果表明了当不同类别的舰船较为相似(图8(a)、图8(b))，例如Perry、Arleigh Burke、Ticonderoga和WarshipA型号的舰船外在形状较为相似；shipA和Car carrierA型号较为相似。经典的网络很容易将两种型号误检为同一型号，特征增加架构通过对差异特征信息的增强，一定程度上减少了误检概率，将较为相似的型号也可以更多的区分出型号间的不同点，正确进行型号分类。此外，由图8(c)可见，在Car carrierB类别样本数量相对来讲较少的情况下，本章提出的基于注意力机制的特征增强架构也可以增强差异特征，提高了对于型号的识别准确率。

图8 基于舰船差异特征增强的舰船型号识别可视化结果(基于Faster R-CNN，Resnext101)

3 结论

在遥感图像舰船识别中，特征信息的充分利用是准确定位舰船的位置以及识别出舰船型号的关键。针对FPN网络结构顶层特征信息丢失以及各个特征层无法被ROI充分提取特征的问题，从注意力机制的角度出发，提出了基于注意力机制的特征增强架构，该架构对于舰船目标识别的两大任务，即舰船位置定位以及舰船型号细粒度级分类都具有提升效果。该架构主要包含2个模块：顶层特征增强模块和自适应的ROI特征增强。顶层特征增强模块通过将通道注意力和空间注意力并联，充分将顶层特征图的语义信息和位置信息得以保留；自适应ROI特征增强模块将融合后的特征金字塔中每层特征信息进行汇集，通过权重对不同的特征信息施加不同的关注度。利用HRSC2016舰船数据集，对本文提出的基于注意力机制的特征增强架构进行验证，实验结果充分证明了基于注意力机制的特征增强架构可以有效提高舰船识别的精度，既对舰船的共性特征起到增强作用，又对型号间的差异特征起到提高关注度的作用。