超尺度自导注意力网络的遥感船舶识别

2021-10-15 10:08:52陈会伟刘树美刘培学公茂法

计算机工程 2021年10期

陈会伟，刘树美，刘培学，公茂法

（1.青岛黄海学院智能制造学院，山东青岛 266427；2.山东科技大学电气与自动化工程学院，山东青岛 266427）

0 概述

随着遥感传感器的快速发展，高空间分辨率遥感图像可以为目标物体提供更详细、更多样的几何结构描述［1］及丰富的细节和空间结构信息。但由于物体尺度变化的复杂性，遥感目标的识别仍然存在巨大挑战。

截止目前，国内外研究人员设计了诸多算法以检测和识别遥感图像中不同类型的物体［2-3］。早期的多尺度目标检测识别算法多基于人工参与的特征设计，如DALAL［4］、LOWE［5］等利用多尺度滑动窗口生成不同尺度的图像块，分别通过手工制作的HOG（Histogram of Oriented Gradient）和SIFT（Scale-Invariant Feature Transform）等特征描述符提取特征，并将提取的特征输入支持向量机（SVM）或条件随机场（CRF）中进行分类识别。TAO 等［6］利用改进的SIFT匹配策略对机场中的目标物体进行检测。XIAO等［7］利用HOG 的旋转不变性检测遥感图像中的飞机、汽车等大型目标。虽然手工制作的特征在特定的目标识别任务中表现良好，但其通用性和鲁棒性较差［1］，且特征的设计耗时较长。

随着深度学习模型在自然语言处理、图像分割等领域的广泛应用，深度学习技术被研究人员应用于多尺度遥感目标识别和检测任务中以减少人工参与特征设计带来的误差［8］。如HAN 等［9］使用Fast-RCNN 检测高分辨率遥感图像中地理空间目标。CHEN 等［10］结合转移学习方法，利用单一结构CNN 和有限的训练样本以实现飞机识别。DENG 等［11］采用级联整流线性单元（ReLU）和inception 模块的CNN 来捕获图像多尺度特征，并通过多个中间层生成类目标区域。ZHONG 等［12］提出一种位置敏感平衡（Position-Sensitive Balancing，PSB）框架，有效解决特征提取中的平移不变性。DING 等［13］采用密集卷积网络（Dene Convolution Networks）、多尺度表示和多种改进方案以增强VGG-16 的特征提取能力，提高了检测精度。WANG 等［14］提出一种多尺度的视觉注意网络以捕获多尺度空间的上下文语义，并突出目标区域的特征。

虽然上述的多尺度目标检测方法提高了目标检测或识别的精度，但这些多尺度结构多是建立在单一结构的卷积层上，受到卷积层数的限制且缺乏丰富的接收域，导致捕获的多尺度特征难以对极端尺度变化的目标对象进行建模，影响高空间分辨率遥感图像中超大和极小目标的识别精度。但是，如果仅通过叠加单一结构的卷积层来增强特征提取能力，就会随着网络层数的增加而出现拟合和梯度消失、爆炸等问题。

为缓解高空间分辨率遥感图像中目标对象的极端尺度变化问题，本文提出一种超尺度自导注意力网络（Hyper-Scale Self-Guided Attention Networks，HSSGAN）的目标识别框架。该网络在卷积层中构建多个轻量级多尺度结构，从多个卷积子空间组中捕获丰富的多尺度特征，根据组之间的连接将多尺度特征进行组合，形成极端尺度特征，即小尺度和超尺度特征。利用自导注意力网络逐层细化极端特征图，在极端尺度的局部和全局语义之间建立长期依赖关系，并解决冗余信息的重复使用问题以提高遥感图像中目标船舶的识别精度。

1 超尺度自导注意力网络的识别框架

高空间分辨率遥感图像中目标物体的结构通常在尺度、纹理和形状上变化较大，且容易表现出类内和类间多样性。而传统卷积神经网络的接受域有限，产生的局部特征难以对超尺度的目标物体进行详细描述。为解决这些问题，提出一种超尺度自导注意力网络的遥感船舶识别框架，利用超尺度子空间组捕获目标船舶的局部和全局语义，并逐步细化超尺度特征图，自适应地建立长期依赖关系，滤除冗余信息以提高识别精度。HSSGAN 的网络结构如图1 所示。

图1 HSSGAN 的网络结构Fig.1 Network structure of HSSGAN

在图1 中，Conv1×1 表示卷积核大小为1×1，Conv3×3 表示卷积核大小为3×3。该超尺度自导注意力的遥感船舶识别框架主要包含超尺度特征提取模块和自导注意力模块2 个部分。超尺度特征提取模块主要被用于提取船舶目标的不同尺度特征，其中包括极小尺度和超大尺度。而自导注意力模块主要由通道注意力和位置注意力2 个模块组成，被应用于不同尺度的特征中以实现不同尺度特征的逐步细化、去除冗余信息、增强相关特征的表征能力，使特征对不同类型的目标具有更优异的区分能力。

1.1 超尺度块

超尺度块［15］是由多个不同尺度的卷积层通过组连接构成的轻量级子空间模块，能够增强超尺度特征的表示能力。与传统卷积层通过提取多尺度特征以增强表征能力［16-17］不同，组连接为2 个卷积层中组特性之间的连接，通过实现层间信息复用使该2 层能获得更多细节信息。在卷积接收域有限的情况下，此方法可提高同尺度卷积特征的利用率，并增加层间细节信息的传递。

假设初始输入为xi，且xi∊{x1，x2，…，xn}，经过不同尺度的单一卷积层可得到CK(xi)，其中：K为卷积核的大小，且满足K=1，3，5，7。组连接复合函数为γ(·)，尺度特征Fi∊{F1，F2，…，Fn}，尺度块内的组连接计算如式（1）所示：

其中：M表示同尺度卷积块数量；⊙表示点积拼接；concat(·)表示简单拼接。

在不增加卷积层接收域的情况下，捕获的卷积特征按照组连接方式可提高特征的复用率，弥补有限接收域带来的局限性。继续对不同尺度卷积层捕获特征Fi并使用组连接方式，可得到超尺度的特征图FHS，计算公式如式（2）所示：

其中：F′(xi)表示不同尺度的组连接特征。

由于相邻尺度组之间具有很强的关联性，对其进行组连接能有效增强特征的表征能力，且可实现不同尺度信息组之间的互补，有利于遥感目标的准确定位。

1.2 自导注意力模块

超尺度块虽然能有效捕获目标船舶的超尺度信息，但是对图像进行编码时，容易忽略超端尺度上的细节信息以及重复使用不相关的冗余信息，导致相关信息的表征效果弱化。为解决此问题，引入自导注意力网络（Self-Guided Attention），对这些超尺度特征进行逐步细化有助于编码局部和全局语义，从而自适应地在局部和全局语义之间建立长期依赖关系，通过消除冗余信息以突出相关信息对目标船舶的表征。由于低层级特征包含大量的纹理细节信息，因此将超尺度特征FHS与不同尺度特征相结合，使不同尺度特征映射的低层信息和高层语义相互补充，并将其输入到自导注意力模块中，能生成细化的注意力特征AS。计算公式如式（3）所示：

自导注意力模块由位置注意力（Position Attention，PA）［18-19］和通道注意力［20］（Channel Attention，CA）构成，位置注意力能获得丰富的上下文表示，而通道注意力可被看作是特定类的响应，能加强不同语义信息之间的关联性。

设输入到注意力的特征图为F∊RC×W×H，其中：C表示通道维度；W表示宽维度；H表示高维度。

PA 是特征图F经过卷积块传递并重构生成新的特征图，利用上述同样操作得到的过程，2 个特征图的空间注意力系数如式（4）所示：

通过位置注意力，进一步聚合了超尺度特征图的全局上下文语义。

通过CA 增加了超尺度特征对不同类之间差异性的区分能力。

由于自导注意力模块被应用在多个超尺度特征图上，因此自导损失为多个模块的损失之和，定义为τG，如式（8）所示：

其中：τi表示不同超尺度注意力图的引导损失。通过自导注意力模块，可对超尺度的特征图进行逐步细化，在局部和全局语义之间建立长期依赖关系，并增强不同类之间特征图的差异性。

2 实验结果与分析

2.1 数据来源和评价指标

该数据集由Kaggle提供，共4 000张80像素×80像素的RGB 高空间分辨率遥感图像，其中1 000 张为有船舶图像，3 000 张无船舶图像。为验证本文所提HSSGAN 方法的可行性，对原始数据集进行了旋转、平移等增强处理，并将数据集随机划分为训练集、验证集和测试集。其中，20%的图像用于训练，并从中随机抽取其中10%进行5 倍交叉验证。剩余80%的图像用于测试。

为进一步验证该方法的正确性，采用精准率（Precision，P）、召回率（Recall，R）和F1-Score 值（F1）等多种评测指标进行验证。计算公式如式（9）所示：

其中：TTP表示真阳性，即正确识别数；FFP表示假阳性，即错误识别次数；FFN表示假阴性。

2.2 实验参数设置

使用Adam 优化函数对网络进行训练，学习率为0.000 5，批处理设置为64，迭代次数为250 次。为证明超尺度模块的有效性，对不同超尺度块的识别效果进行了验证，即设置为Hyper-1、Hyper-2、Hyper-3和Hyper-4。

为验证所提HSSGAN 方法的优越性，与如下相关方法进行了比较。

1）HSF-Net［21］。该方法称之为嵌入深度多尺度特征的光学遥感船舶检测，主要是将不同尺度的特征映射到同一尺度空间，并使用端对端网络进行训练检测。

2）CF-SDN［22］。该方法为提高特征的表征能力，融合了不同层次的特征，由粗到精的对船舶进行了检测。

3）TP-FCN［23］。该方法主要对不同深度的层分配不同任务，深层提供检测功能，浅层补充捕获特征信息，以实现精确定位，可有效缓解精确定位与特征表征能力之间的权衡问题。

2.3 结果分析

2.3.1 不同超尺度块间的比较

为验证本文所提HSSGAN 方法的有效性，使用不同超尺度块在Kaggle 实验数据集上进行测试验证。实验结果如表1 所示，其中：Hyper-1 表示1 个超尺度块；Hyper-2 表示2 个超尺度块；Hyper-3 表示3 个超尺度块，即本文所提HSSGAN 方法；Hyper-4表示4 个超尺度块，以此顺推。

表1 不同超尺度块的实验结果Table 1 Experimental results of different super-scale blocks

从表1 中可看出，随着超尺度块的增加，识别精度也随之增加。而当超尺度块为4，即Hyper-4 时，识别精度开始下降，其F1 值为0.939 58。而Hyper-11的识别精度最低为0.869 18，因为较少的超尺度块不能有效地捕获遥感船舶的细节信息，且不能获得足量的判别特征，导致影响船舶的识别精度。当超尺度块足够多时，可能会增加冗余信息的使用率及增加网络参数量，导致网络出现拟合现象，从而使识别精度下降。

HSSGAN 方法迭代200 次的精准率、损失率和混淆矩阵如图2 所示。图2（a）表示训练和验证集的准确率（Accuracy）；图2（b）表示训练和验证集的损失率；图2（c）表示测试集的混淆矩阵。

图2 HSSGAN 的精准率、损失率和混淆矩阵Fig.2 Accuracy rate，obfuscation matrix and loss rate of HSSGAN

从图2 中可看出，随着迭代次数的增加，精准率先增加然后处于稳定状态，损失率则下降一定程度后处于稳定状态。

HSSGAN 方法对不同尺度船舶的检测效果如图3所示。图3（a）～图3（c）的左部分为自导注意力对不同尺度变化船舶的热力图，右部分为识别结果。

图3 不同尺度的识别效果Fig.3 Recognition effects of different scales

由图3 可看出，超尺度块能有效获取遥感船舶的超尺度特征，即对极端尺度的船舶特征具有较强的敏感性，特别是对尺度较小的船舶，如图3（a）所示。这是因为超尺度块捕获了遥感船舶的高层语义，同时也融合了低层级信息。

自导注意力网络可对超尺度块的特征图逐步细化，并在局部和全局语义间建立长期依赖关系，同时进一步丰富上下文语义，强调相关特征的关联。该功能尤其对尺度较大的遥感船舶非常明显，如图3（b）和图3（c）所示。

2.3.2 与相关方法的比较

为验证HSSGAN 方法的优越性，与相关方法进行了对比，实验结果如表2 所示。

表2 与相关方法对比的实验结果Table 2 Experimental results compared with relevant methods

从表2 中可以看出，本文所提方法HSSGAN 在精准率、召回率和F1-Score 值上均取得最优效果，分别为0.961 58、0.973 01 和0.966 78。这是因为超尺度块有效捕获了遥感船舶的超尺度特征，从多个尺度对目标船舶进行了描述，同时自导注意力网络使这些特征更加精细，让相关特征受到了更多关注。

相比于TP-FCN 方法，CF-SDN 和HSF-Net 方法的识别效果更好，F1-Score 值分别提高了0.095 81 和0.117 34。因为这2 种方法都采用了多尺度策略，从不同尺度对图像中的目标对象进行了描述，对比结果也证明了多尺度策略的有效性。

在小尺度上的识别效果如图4 所示，其中椭圆形圈表示该区域内无船舶。

图4 不同方法在小尺度上的识别效果Fig.4 Recognition effects of different methods on a small scale

由图4 可知，TP-FCN 方法虽然对椭圆形圈内的目标进行了精准识别，但对水中船舶的辨识度有待提高。CF-SDN 和HSF-Ne 方法将红色圈内的其他目标误识别成船舶，但对水上目标进行了正确识别。

2.3.3 自导注意力模块的研究

为验证自导注意力网络对识别效果的影响，针对自导注意力网络进行了消融实验测试，结果如表3 所示，其中：Non-guided 表示无自导注意力模块；PA-guided 表示只使用了位置注意力模块；CA-guided 表示只使用了通道注意力模块；加粗字体表示最大值。

表3 自导注意力模块的消融实验结果Table 3 Ablation results of self-directed attention module

从表3 中可以看出，无自导注意力模块的F1-Score值仅为0.942 20，识别效果最差。尽管位置注意力模块对船舶的识别效果有所提高，但通道注意力模块的识别效果要稍强于位置注意力模块，这证明在该数据集上通道注意力模块的贡献要高于空间注意力模块（PAguided），即在船舶识别过程中，增加超尺度特征在类间的差异性能更好地提高识别效果，识别效果的可视化如图5 所示。

图5 识别效果的可视化Fig.5 Visualization of the recognition effect

由图5 可知，图5（b）和图5（c）给出的识别效果一样，这是因为通道注意力模块的F1 值仅比位置注意力模块提高了0.004 44，这进一步说明了两者共同使用的增强效果要高于单个组件，即所提的自导注意力模块细化的特征图更好地聚合了局部和全局语义。

3 结束语

本文设计超尺度自导注意力识别框架，采用超尺度的子空间组捕获遥感船舶的超尺度特征和不同层级的结构信息，使用自导注意力模块逐步聚合相关的上下文语义及滤除冗余信息，增加特征在不同类之间的差异性，并突出相关信息的表征能力。实验结果表明，所提模型在定量和定性上均优于HSF-Net、CF-SDN、TD-FCN 等其他相关方法。