自适应权重金字塔和分支强相关的SAR图像舰船检测

2022-10-21 01:56郭伟申磊曲海成王雅萱林畅

中国图象图形学报 2022年10期

郭伟，申磊，曲海成，王雅萱，林畅

辽宁工程技术大学软件学院，葫芦岛 125105

0 引言

与可见光和红外波段传感器获取图像的方式不同，合成孔径雷达(synthetie aperture radar, SAR)只记录了一个波段的回波信息，生成的SAR图像主要反映地物的后向散射信息，图像信噪比较低。但是合成孔径雷达成像不受天气条件限制，具备全天时、全天候的特点。在军事侦察、海上救援和渔业监控领域广泛应用。因此，利用SAR图像对海洋舰船目标检测成为图形图像处理的研究热点。

传统的SAR图像目标检测算法主要包括检测和判别两个步骤。基于背景杂波统计分布的恒虚警率检测算法(constant false alarm rate，CFAR)是通过对海洋杂波进行统计建模确定阈值(Abu和Diamant，2020)，把输入信号与该阈值对比确定有无目标；基于极化分解的舰船目标检测(Sugimoto等，2013)是将协方差矩阵做去旋转角度处理来进一步提高舰船目标的二次散射，降低体散射，最后送入检测器；基于极化特征的舰船目标检测(Wang等，2012)通过对相干矩阵做滤波处理来解决SAR图像中舰船方向位模糊问题。传统目标检测模型依赖手动提取特征，需要检测目标和背景有较高的对比度，模型泛化能力和鲁棒性差，在复杂场景下模型检测效果并不理想。

随着深度学习技术快速发展，深度特征提取和强大的自适应学习能力，推动了深度学习在SAR图像目标检测领域的应用。基于深度学习的目标检测分为双阶段目标检测和单阶段目标检测。双阶段方法Fast R-CNN(Girshick，2015)经过一系列的卷积层和池化层提取特征，通过RoI(region of interest)得到一个固定的特征图，输入到全连接层完成分类和回归；Faster R-CNN(Ren等，2017)在主干网络中用RPN(region proposal network)代替selective search方法生成建议窗口。单阶段方法中SSD(single shot multi-box detector)模型(Liu等，2016)在特征图上生成多种不同尺度的候选框，并直接进行分类和回归，少了候选框筛选的过程；同为单阶段方法，YOLO(you only look once)(Chang等，2019)则是将图像分成N个网格，每个格子分别预测分类得分和边框。双阶段目标检测方法首先利用RPN网络生成候选区域，然后基于目标候选框区域做二次调整。具有检测精度高、正负样本分配均衡的优点，但是检测速度慢，模型结构复杂且需要训练更多参数，单阶段目标检测将生成的候选框直接送入检测阶段，模型结构简单、速度较快，但精度相比双阶段较低且容易出现漏检、误检的情况。

深度学习算法与传统目标检测算法相比，具有更好的鲁棒性和泛化能力。但是SAR图像舰船尺度变化较大，且多为小目标，直接将卷积神经网络(convolutional neural network，CNN)模型及其衍生模型应用到SAR图像检测，容易出现漏检和误检。在近海岸受复杂背景信息影响，检测框不能调整到理想效果。

针对以上问题，本文提出了一种自适应权重金字塔和分支强相关的目标检测模型。该模型由自适应权重金字塔和分支强相关模块组成，自适应权重金字塔生成包含语义信息和空间位置信息的特征图，分支强相关模块加强了分类和回归的关联。本文的主要工作有：

1)设计超参数自动学习每一层的权重，利用每一层特征和对应权重融合特征高层语义信息和底层位置信息，得到含有语义信息和位置信息的特征层;

2)设计融合模块，融合分类分支和回归分支，增强两分支的相关性;

3)在回归分支增加IoU(intersection over union)分支，通过IoU分支中包含的位置信息来指导回归分支更好地调整候选框。

1 单阶段目标检测模型

SAR图像具有的全天时、全天候的特点决定了其在海上监测、海上救援方面的广泛应用，这就要求对SAR图像检测的较高实时性。以SSD、YOLO为代表的单阶段检测模型去除了region proposal(Wang等，2019a)阶段生成大量可能包含目标的边界框，利用分类器判别该框中是否包含目标的工作，在实时性方面更具有优势。单阶段检测模型包含以下3个模块：1)特征提取模块：将图像数据输入到合适的特征提取网络中，利用在ImageNet数据集上训练好的参数初始化该特征提取网络，生成不同尺度的特征图;2)RPN逐像素点生成大量候选框，这些候选框映射到输入的特征图上，送入到检测模块;3)利用分类分支判断目标类别，回归分支调整候选框的位置。由于单阶段模型是将包含候选框的特征图直接输入检测模块进行分类和回归，具有较快的检测速度。所以本文选择使用单阶段的检测算法应用在SAR图像检测，单阶段检测模型如图1所示。

图1 单阶段检测模型

为了提高检测模型的检测精度，引入了特征金字塔网络(feature pyramid networks，FPN)(Lin等，2017a)。FPN包括两个步骤：首先残差网络提取生成{C2，C3，C4，C5}层特征，此时高层特征语义信息丰富空间位置信息缺失，底层空间位置信息丰富语义信息缺失。然后当前特征图与自上而下构建的特征图融合(赵永强等，2020)生成{P2，P3，P4，P5}层特征图，FPN结构图如图2所示。但是自上而下融合过程中语义信息逐渐丢失，所以底层特征包含较少的语义信息。

图2 特征金字塔结构图

2 AR-Net模型

合成孔径雷达成像的原理决定了SAR图像包含更少的特征信息，雷达照射粗糙物体表面形成相干斑噪声的影响，所以直接将SAR图像应用于Reti-nanet等单阶段检测网络(Wang等，2019b)并不能得到理想的效果。传统金字塔网络虽然能够将高层语义信息融合到底层，但是高层特征缺少底层丰富的位置信息，在物体多为小目标的SAR图像中，容易出现小目标漏检情况。相干斑噪声(马晓双等，2015)使得图像质量下降，隐藏图像精细结构，目标边缘模糊，导致候选框不能完全包围目标。因此本文提出了自适应权重金字塔(adaptive weight pyramid, AWP)和分支强相关(strongly related branch, SRB)的检测网络，该检测模型结构图如图3所示。

图3 网络整体结构图

该AR-Net(adaptive weight pyramid and strongly related branch network)网络的特征提取模块采用残差网络(ResNet101)(He等，2016)，其中{conv2，conv3，conv4，conv5}分别有3、4、23、3个残差块，与conv1层的7×7卷积层和3×3最大池化层，共有101个卷积层。每个残差块有2个1×1卷积层和1个3×3卷积层，每一层的最后一个残差块步长为2，因此经过每一层特征提取，特征图尺度会下降一半。之后将每层生成的特征图输入到自适应权重特征融合模块，在该模块下，首先将不同尺度大小的特征图经过上采样或下采样到同一尺度，采样得到的特征图与其对应的权重相乘，并对结果相加作为该层的输出特征。输出的特征图送入检测模块，为了有更好的检测效果，对分类分支和回归分支分别输入融合模块重新整合特征图。使用分类分支对目标进行判别，使用回归分支调整检测框，IoU分支作用于分类分支指导回归分支调整检测框，最终得到理想的检测效果。

2.1 自适应权重金字塔

经过残差网络提取特征，高层特征语义信息较为丰富，底层特征空间位置信息较为丰富。SAR图像目标尺度多变，采用P3—P7的特征金字塔将高层的语义信息融入到底层，高层缺少判别位置的空间位置信息，这种金字塔对尺度大的目标检测效果较好，对于小目标容易出现漏检情况。AugFPN(Guo等，2020)提出在目标检测中特征图不仅要包含能够判别类别的语义信息，而且还要包含体现位置信息的空间信息。针对SAR图像的特点，本文提出自适应权重特征融合金字塔，该算法结构图如图4所示。

图4 自适应权重金字塔结构图

以构造P3层为例，首先将每一层的特征图进行上采样或下采样到C3尺度大小，然后通过1×1卷积改变通道数为256，生成的特征图与其对应的权重相乘，权重的构造如图5所示。最后将每一层带有权重指导的特征图相加，生成特征金字塔的P3层，以此类推依次生成金字塔的{P4，P5}层。这样根据权重指导重新构造每一层的特征信息，计算为

图5 权重结构图

(1)

以构造P3层权重为例，首先同样对每一层特征图采样、卷积使得每一层尺度相同，然后以通道维度进行拼接，生成H×W×(256×N)的特征图，其中N为输入的层数。最后送入1×1的卷积层改变通道数为N和Softmax运算，得到融合后的权重特征图。计算为

(2)

(3)

(4)

(5)

以P3层为例，如果P3层上(i,j)处有目标且为正样本，但是其他层可能在(i,j)处为负样本，这样在反向传播过程中就既包含负样本又包含正样本，这种情况容易造成低训练效果，也会对梯度结果造成影响。本文自适应权重融合方式的反向传播梯度表达为

(6)

2.2 分支强相关模块

由于相关斑噪声和复杂背景导致的目标边缘模糊，舰船目标特征不明显，从而影响模型的检测效果。分类分支和回归分支是两个单独的分支，在检测过程中分类分支无法指导回归分支对检测框的调整，导致检测框不能理想的包围目标。本文提出分支强相关模块，通过添加IoU分数，避免高IoU低分类分数的检测框被抑制。然后通过融合模块对分类分支和回归分支特征进行融合，融合模块结构如图6所示。

图6 融合模块结构图

该模块首先将拼接生成的特征图送入1×1卷积层，然后做4种不同卷积核的卷积操作，生成4个64通道数的特征图，最后对拼接生成的特征图送入Softmax，生成一个[0,1]的权重图，实现两个特征融合。

图3中生成的IoU与分类得分相乘，采用α权重平衡双方比重，具体计算为

(7)

式中，Scls为分类置信度，iou(i,j)为IoU分数，P(i,j)为分类分数。α为权重平衡因子，α∈[0,1]在α取0.5时检测效果最优，α取不同值时检测结果见表1。

表1 不同权重检测结果

2.3 损失函数

本文模型是逐像素点生成预测框，通过预测框真实标签对比得到最终结果，所以会处理大量没有舰船目标的负样本。为了解决正负样本不均衡的问题，采用focal loss(Lin等，2017b)做分类优化，定义为

Lcls=

(8)

式中，p(i,j)为在(i,j)处预测的类别，γ为调制系数，目的是为了减少易分类样本的权重，使模型更多地训练难分类样本，α为权重，目的是调节正负样本对总loss影响权重。根据Faster R-CNN,本文设置α=0.25，γ=2。对于回归分支，为了保证在目标值和预测值差别较大的情况下不出现梯度爆炸，选择smooth_L1_loss做回归优化，定义为

(9)

(10)

(11)

式中，Nall为所有样本数量；Npos为正样本数量。

3 实验结果和分析

实验环境为ubuntu16.04操作系统，搭载CPU为Corei7-7700，显卡为NVIDIA GTX1080Ti，显存为11 GB，在Tensorflow框架下运行，通过CUDA8.0和cuDNN5.0加速训练。该模型学习率设置为0.000 5，每40 k次迭代学习率衰减1/10，在80 k次迭代网络完全收敛。非极大值抑制阈值(Bodla等，2017)为0.5，预测概率阈值为0.6。

表2 SSDD数据集基本信息

3.1 数据增广

训练过程中，为了提高模型的鲁棒性和学习能力，需要对SAR图像数据增广。常见SAR图像增广的方式有翻转、改变视角、尺度变化和图像压缩，根据SAR图像单通道的特点选择翻转、添加高斯噪声(Lee和Seo，2005)以及改变亮度，数据增广能避免因数据较少而产生的过拟合现象。图7为数据增广示例。

图7 图像增广图

3.2 评价指标

用召回率(recall)、精确率(precision)和平均精度(average precision，AP)来表示SAR图像舰船检测的效果，计算为

(12)

(13)

(14)

式中，TP表示舰船目标被标记为舰船，FN表示舰船目标被标记为非舰船，FP表示将非舰船目标标记为舰船，P(R)为召回率和精确率围成的面积，即精度。为了更好地衡量该模型二分类精确度，引入F1分数(Chicco和Jurman，2020)作为评估标准，计算为

(15)

3.3 消融实验

自适应权重金字塔更好地融合高层语义信息和底层空间位置信息，能够有效检测小目标。分支强相关模块增强分类分支和回归分支在反向传播过程的依赖性，通过IoU指导回归分支，避免高IoU低分类置信度的候选框被抑制。为了证明每个模块的有效性，本文通过对召回率、精确率、平均精度以及F1值进行对比，消融实验结果见表3。

表3 消融实验结果

由表3可以看出，原始模型效果最差，因为输入检测模块的特征图空间位置信息和语义信息不丰富，目标区域不明显，小目标漏检严重。本文提出的自适应权重特征金字塔，能够平衡高层语义信息和底层空间位置信息，输入检测模块的特征图舰船信息更显著，在检测中召回率提升了0.89%，精确率提升了2.58%，平均精度提升了2.85%，F1值提升了1.74%。分支强相关模块通过IoU分数避免了高IoU低分类置信度被抑制的情况，同时调整候选框能够更好地框选目标，在检测中该模块平均精度提升了2.31%。最终结果召回率提升了4.46%，精确率提升了7.14%，平均精度提升了3.62%，F1值提升了5.8%。

为了分析AR-Net模型在不同场景下的检测效果，选取包含近海岸和远海舰船目标的SAR图像，对比实验前后检测效果，检测效果如图8所示。

图8 检测结果对比图

自适应权重特征金字塔能够充分融合语义信息和空间位置信息，为展示该模块融合效果，本文对融合前后的特征图在Tensorboard上进行可视化，可视化特征图如图9所示。

根据图9可以看出，在SAR图像中经过自适应权重特征融合后的特征图目标更加明确，经过平滑后的特征图目标更加突出，更好地反映出目标位置。对于高层特征图，由于分辨率低，小目标模糊严重，不适合对小目标的检测。所以对于小目标检测底层特征尤其重要，经过自适应权重金字塔，提高了检测网络对小目标的关注度。

图9 特征融合前后对比

3.4 对比实验

本文与其他方法进行了实验对比，以验证AR-Net模型的效果。双阶段Faster R-CNN检测模型，Faster R-CNN检测阶段首先经过第1阶段粗略调节候选框，然后在第2阶段进一步精细调节；单阶段FCOS(full convolutional one-stage)检测模型，该模型摒弃了传统的锚框，实现无锚框检测；FPN特征金字塔，FPN对特征图采用自上而下的特征融合机制，相邻的上层特征图和下层特征图实现简单的特征融合；YOLOv3将输入图像平均切分为多个网格，将网格输入检测网络；张筱晗等人(2020)设计了双向高低层特征融合机制，高层特征进行逐像素加权，将高层的语义信息加到低层，低层空间位置信息加到高层。对比结果见表4。

从表4可以看出，双阶段的Faster R-CNN与单阶段的FCOS相比，具有更高的检测精度。FPN能够至上而下融合高层语义信息，平均精度达87.92%，Dense-FPN算法实现对每一层特征的融合，使得每一层特征都含有其他层的特征信息，检测精度最佳。但是双阶段和密集金字塔检测速度慢，无法满足实时性要求。相比其他模型,AR-Net具有更高的检测精度，同时也能满足实时性检测的需求，因此总体来看，AR-Net算法在SSDD数据集中具有更好的检测效果。为了直观展现不同模型的检测效果，本文通过各个模型的PR(precision-recall)图进行对比，如图10所示。

图10 不同算法的PR图

表4 算法性能对比

3.5 泛化能力测试

为了证明AR-Net的泛化能力，对数据集进行两种不同方式的数据分割：1)将数据集按照{8∶2、7∶3、6∶4、5∶5}不同比例随机分割;2)将数据集按照7∶3的比例多次随机分割。本文将多种样本的召回率、精确率、平均精度和F1值的均值和方差作为模型泛化能力的评估标准，不同样本的测试结果见表5和表6。

表5 不同比例样本分割

从表5中可以看出，经过不同比例分割的测试样本中样本数量不同，舰船目标数量差别较大。但是AR-Net的平均精度均在90.54%上下浮动，平均精度的方差为0.001 1，F1值的方差为0.059 8，召回率和精确率的方差分别为0.375 1和0.398 5，说明AR-Net针对不同数量的样本测试集检测效果稳定，具有较强的泛化能力。从表6中可以看出，在同一比例下进行多次样本分割，样本数量相同，舰船目标数量差别较小。AR-Net针对多次分割的样本召回率均值和方差分别为93.06%、0.180 7，精确率的均值和方差分别为95.35%、0.190 5，平均精度的均值和方差分别为90.55%、0.001 1，F1值的均值和方差分别为94.19%、0.059 8。通过表5和表6数据对比，在不同比例分割的测试样本和多次相同比例分割的测试样本中，AR-Net均表现出了较强的泛化能力。在样本数量相同的测试集下，AR-Net各项评价指标的方差更小。

表6 相同比例多次样本分割

3.6 不同场景下检测效果

SSDD数据集中包含近岸和远海舰船目标，本文选取不同场景不同尺度的目标检测效果。第1行、第2行为近海岸舰船，容易受到周边非舰船目标的影响，同时密集停靠舰船目标的高IoU低分类分数的候选框被抑制，导致一个框含有多个目标的情况；第3行为远海大目标，容易出现目标定位不准确；第4行为远海密集小目标，舰船目标尺度小，容易漏检；第5行带有相干斑噪声，背景信息复杂，目标边缘不清晰。可以看出，对于以上各种场景的目标AR-Net都能有理想的检测效果，各种场景检测效果如图11所示。

图11 不同背景检测效果图

4 结论

由于SAR图像复杂的背景信息，针对小目标检测效果差和检测框不能很好地包围目标的问题，本文提出了一种自适应权重特征融合金字塔和分支强相关的检测模型AR-Net。自适应融合高层语义信息和底层空间位置信息，使得待检测的特征图既具有语义信息又包含空间位置信息；另外IoU分支指导回归分支优化检测框，获得更精准的检测框。在SSDD数据集上与其他舰船检测方法对比，在速度损耗有限的情况下，该模型具有更好的检测精度和鲁棒性。虽然该模型具有较好的检测精度，但是在舰船停靠密集的场景，检测框大量重叠，检测框之间相互抑制，容易出现定位不准和目标漏检，这是因为水平检测框没有旋转检测框更加精准。下一步的任务是对密集排列的舰船目标有更好的检测效果。