谢洪途, 姜新桥, 王国倩, 谢恺
(1.中山大学(深圳) 电子与通信工程学院, 广东 深圳 518107; 2.广州医科大学 第五附属医院, 广东 广州 510700)
合成孔径雷达[1](synthetic aperture radar,SAR)是一种高分辨率成像雷达[2-3], 具有全天候和全天时等特点,能不间断对陆地和海洋进行观测[4-5]。近年来,利用SAR图像进行舰船检测的相关研究在海洋遥感领域得到高度重视[6-7]。SAR图像中,舰船的尺寸因类型而异,这种多尺度问题降低了舰船的检测性能。传统SAR图像舰船检测方法主要依赖于人工设计特征,容易受到复杂背景干扰,存在识别精度差、识别效率低且泛化能力弱等缺点[8-9]。深度学习方法具有自主学习参数和自动提取特征的能力,摆脱了对人工设计特征和建模的依赖性,相较于传统方法具有抗干扰性强、检测准确率高等优点[10],特别是在场景复杂多变、目标姿态不一的SAR图像舰船检测领域中具有巨大的发展潜力[11]。
Li等[12]通过利用特征融合、迁移训练等策略改进了更快的区域卷积神经网络(region-convolutional neural network,R-CNN)[13]模型进行SAR图像舰船检测。胡昌华等[14]通过重新设计底层残差单元与特征金字塔的网络结构,提出了一种基于改进的一见倾心版本3(you only look once v3 version,散YOLOv3)的SAR图像舰船检测模型。Wang等[15]提出了一种基于RetinaNet的舰船检测模型。杨龙等[16]提出一种基于深层次多尺度特征融合的卷积神经网络舰船检测模型。Cui等[17]提出了一种基于CenterNet的大规模SAR图像船舶检测方法,能实现大尺度SAR图像的舰船检测。Guo等[18]提出了一种有效且稳定的单级检测器,能实现较高精度的SAR 图像舰船检测,且时间成本的增加可忽略。然而,现有基于深度学习的SAR图像舰船检测方法仍存在一些问题:
1)模型参数冗余。现有算法一般采用较为复杂的骨干网络提取SAR图像特征。然而,不同于光学图像,SAR图像不包含丰富的色彩信息,引入复杂的网络对SAR图像检测可能不会带来更多助益,反而将导致模型体积及参数量庞大。同时,现有数据集的量不足,采用大型模型易出现过拟合问题。
2)需要额外后处理。现有基于深度学习的SAR图像舰船检测方法主要采用基于锚框的思想。这种基于密集锚框的方法并不适用于目标稀疏、正负样本极不均衡的SAR舰船图像,因为需消耗大量的计算资源进行后处理以去除重叠的候选框。
3)训练样本单一稀缺。深度学习算法需要大量且复杂多样的训练样本,国内外常用于舰船检测的公开数据集,如AIR-SARShip-1.0[19]等,存在背景较为单一和训练样本匮乏等缺点,训练的模型泛化能力较差,难以适用于更加复杂的场景。
针对上述问题,本文提出了基于改进CenterNet的轻量级无锚框SAR图像舰船检测的模型,即CenterNet SAR(CenterSAR)。与基于锚框的目标检测方法相比,该方法的检测性能更优、实用性更强。其次,为减小模型体积,降低模型参数,结合SAR图像特点采用了更加轻量化的骨干网络,即采用跨阶段局部网络(cross stage partial network,CSPNet)[20]与空间金字塔池化网络(spatial pyramid pooling,SPP)[21]作为瓶颈网络。最后,为解决SAR图像训练样本有限、场景复杂多变及目标姿态不一等问题,采用了一系列适用于SAR图像的数据增强方法。实验结果表明,本文所提方法能够在复杂多样的场景下取得较好的舰船检测性能,并且其高效的检测性能和轻量化的设计有助于实现终端部署和实时检测。
SAR成像和光学成像差异较大,导致SAR图像存在表征不直观、背景杂波不均匀和相干斑噪声强等特点。其次,SAR图像中目标姿态大小不一,同一目标在不同分辨率和不同角度的图像中具有明显的差异,不利于检测模型的训练。此外,基于深度学习的目标检测模型参数量较多,需大量的训练样本数据作为支撑,而SAR图像相较于光学图像较难获得,样本容量的不足容易导致严重的模型过拟合等问题。鉴于上述问题,直接将基于光学图像的检测方法应用于SAR图像目标检测时,容易存在检测框偏移较大、识别准确率较低等问题,因此需要针对SAR图像的特性进行相关预处理。
本文采用了一系列适用于SAR图像的数据增强技术以丰富训练样本[22],通过对原始训练数据采用一系列变换以扩充模型训练空间,增加模型的鲁棒性和泛化性,同时减少模型过拟合。主要包括随机多尺度缩放、翻转、随机小角度旋转和填充等,如图1所示。随机多尺度缩放主要包括一定范围内的图像缩放,由于SAR图像中舰船目标一般较小,对图像进行适当放大可以更有效地提取目标特征。随机翻转主要包括随机水平翻转与随机垂直翻转。随机小角度旋转主要包括逆时针5°以内的随机旋转变换,而SAR图像散射特性在5°内是近似保持不变的,同时还能提高训练样本的多样性[23]。经过变换后的图像尺寸大小可能改变,在最后增加一层填充层以保证所有输入图像具有固定的大小,同时有助于模型进行多尺度训练。其次,本文通过引入随机因子,使得增强的数据更具有多样性。最后的填充层使得所有输入图像可进行任意尺度的缩放并保证最后输入模型的图像大小一致,从而提高模型的泛化能力。
图1 数据增强示意Fig.1 Data enhancement diagram
本文将用于光学图像目标检测的CenterNet[24]引入SAR图像目标检测,提出一种改进的CenterNet模型。CenterNet不需要事先针对不同种类目标设计各种尺寸的锚框用以提取目标特征,能降低网络复杂度并减少不必要的参数。CenterNet包含用于特征提取的骨干网络以及用于中心预测、宽高回归、偏移校正的3个子网络,能够输出相应大小的预测框来实现目标的检测。因此,本文设计了适用于SAR图像舰船检测的深度神经网络,即CenterSAR。
CenterSAR采用了端到端的设计,其模型结构如图2所示,主要包含全卷积网络和目标检测网络。全卷积网络由用于特征提取的骨干网络、特征融合的瓶颈网络和特征采样的反卷积网络组成。与CenterNet一致,目标检测网络由中心预测、宽高回归、偏移校正3个子网络构成,用于从低分辨率特征图中提取检测框信息,从而实现定位舰船目标。
图2 CenterSAR模型结构Fig.2 CenterSAR model structure
本文设计了一个编码器-瓶颈-解码器结构的全卷积网络。编码器以残差网络(residual network,ResNet)[25]作为骨干网络用于提取图像特征,并设计了CSPNet网络[20]与SPP[21]网络作为瓶颈(neck)网络用于增强模型的特征提取能力,解码器则由反卷积网络(deconvolution network)堆叠组成。给定采样步长R,该网络能提取SAR图像的高阶特征,并进行下采样获得低分辨率特征图。
2.1.1 特征提取骨干网络
特征提取主要利用深度网络对图像中浅层位置信息和高层语义信息进行提取,然后根据目标特性对所提取的特征进行处理。主要目的是加强对SAR图像中隐藏信息的利用,减少SAR图像中干扰的影响,从而提高舰船目标的检测精度。骨干网络的设计需要由一定深度的卷积神经网络堆叠组成,然而卷积神经网络存在随着网络深度的增加而出现梯度消失和权重衰减等退化问题。残差网络ResNet的提出能有效解决网络深度带来的问题,十分适合作为提取图像特征的骨干网络,因此在诸多任务中被广泛使用。不同于光学图像,SAR图像不包含丰富的彩色信息,网络过深对SAR图像目标检测不会带来优势,反而会增加额外的参数量及引起过拟合问题。为此,本文采用较浅的残差网络ResNet-18作为SAR图像特征提取的骨干网络。
图3为ResNet-18网络的结构图,卷积层之间的曲线为跳层残差连接。其中,实线表示恒等残差连接,用于通道数相同的卷积层之间,虚线表示变换残差连接,用于通道数不同的卷积层之间,需要引入额外的卷积层进行变换。输入可以通过跨层的残差连接与经过激活后的输出相加,使得输入可以更快地向前传播,从而加快模型训练过程的收敛。ResNet网络包含5个卷积组,第1个卷积组包含1个7×7卷积层,其余4个卷积组由一定数量的残差块构成。每个卷积组中包含1次下采样操作,使得特征图尺寸大小减半,因此ResNet网络的各种经典结构(如ResNet-18、ResNet-34、ResNet-50和ResNet-101)都包含5次下采样操作,从而使得ResNet网络输出的特征图尺寸(分辨率)是输入图像尺寸(分辨率)1/32。对于ResNet-18,残差块里包含2个具有相同输出通道数的3×3卷积层,每个卷积层后接一个批量归一化层和ReLU激活层。残差块的设计要求卷积层的输入与输出具有相同的形状和通道数,如果想改变通道数,就需要引入一个额外的1×1卷积层将输入变换成相同通道数后再进行残差连接。
图3 ResNet-18网络结构Fig.3 ResNet-18 network structure
2.1.2 特征融合瓶颈网络
瓶颈(neck)网络位于模型颈部,是目标检测网络中承上启下的关键部分,它对骨干网络提取的重要特征进行特征融合后再加工应用,有利于下一步网络的任务学习。本文设计的瓶颈网络由CSPNet与SPP 2个模块组成,如图4(a)和图4(b)所示。
CSPNet设计的主要目的是使该架构能够达到更丰富的梯度组合,同时能减少计算量。该目标是通过将输入层的特征图划分为2部分,然后通过提出的跨阶段分层结构将它们合并来实现。CSPNet首先将输入层的特征图平均划分为2部分,分别经过一系列局部卷积层,然后其中一部分特征则经过设计好的隐藏层网络(如残差块)进行特征提取,最后通过过渡连接层将2部分输出进行跨阶段连接合并。相比于直接将特征图输入到隐藏层网络中进行计算,CSPNet仅输入特征图的一部分,能显著减少运算量以及内存消耗,并且分阶段卷积和合并的操作能够进一步增强网络的学习能力。
SPP是一种特征金字塔网络,采用4种不同尺寸(1×1、5×5、9×9、13×13)最大池化操作来提取不同尺度的特征,并对4种池化采用不同的步长和填充方式以保证提取的特征图大小一致,然后将提取的特征图进行特征融合操作。由于SPP仅有运算简单的池化操作,不包含可训练权重参数。因此,引入SPP模块并不会影响检测模型的复杂度,同时还能增强网络的特征提取能力。
2.1.3 特征采样网络
经过骨干网络的特征提取和瓶颈网络的特征融合,获得一个尺寸较小的低分辨率特征图。为了进一步利用输入图像的特征图进行目标检测任务,需要设计一个解码器对提取的特征图尺寸进行扩大处理,实现图像由低分辨率到高分辨率的映射,即上采样(upsampling)操作。现有上采样方法主要包括双线性插值、反池化和反卷积。前2种方法不包含可训练参数,无法随着网络训练进行适应性调整,因此本文采用反卷积作为上采样网络[26]。该操作能够抑制SAR图像噪声,加强图像表征能力,对图像的细致结构进行最大限度的恢复。
本文设计的解码器主要包含3个反卷积模块,每个模块由可变形卷积层、批归一化层、ReLU激活层、反卷积层、批归一化层、ReLU激活层依次连接构成。加入正向卷积层的作用是对反卷积从边缘像素中学习到的特征作进一步提取,以保证网络对图像噪声的鲁棒性。如果区域之间差异很大(如海洋和陆地),由于标准卷积操作固有的对称几何结构,卷积操作对于大尺度和未知形状的舰船将难以学习到图像的空间依赖性,从而导致该层学习的特征表示较弱。因此,本文选择可变形卷积[27-28]替代标准卷积操作。将可变形卷积应用于SAR图像舰船检测,能较好地对复杂场景下不同类型区域进行特征提取,从而获取包含舰船目标的区域。
本文设计的目标检测网络由中心预测网络、偏移校正网络和宽高回归网络等3个子网络组成。
2.2.1 中心预测网络
中心预测网络由2层卷积层与1层ReLU激活层组成,将全卷积网络得到的采样特征图作为输入,最后再经过一层Sigmoid激活函数变换将网络的输出元素值映射至[0,1]。中心预测网络的预测目标是1个二维矩阵,称之为热图。热图中元素值为1的位置表示该点存在目标,同时热图上围绕该位置的一定范围的元素值以高斯函数形式分布为:
(1)
2.2.2 偏移校正网络
2.2.3 宽高回归网络
上述3个子网络主要起到分类、偏移校正和预测框回归的作用,因此需要设计3种不同的损失对模型进行训练。给定SAR图像中预先标注的N个目标中心点p0,p1,…,pN,目标中心点的分类损失Lk采用焦点损失(focal loss),即:
Lk=
(2)
由于关键点对位置非常敏感,为了得到更准确的结果,加入了偏移量损失Loff对目标关键点位置进行校正。本文采用L1距离作为损失函数为:
(3)
对于宽高回归网络预测输出的检测框尺寸,本文同样采用L1距离作为损失函数对检测框宽高进行回归:
(4)
因此,本文模型的总损失为3部分损失的加权和:
L=Lk+λoffLoff+λsizeLsize
(5)
式中:λoff与λsize均为超参数,用于控制对应部分损失的权重大小。根据经验,本文中均设置为0.5。
为了验证本文所提方法的舰船检测性能,本文使用电子科技大学韦顺军团队构造的HRSID(high resolution SAR images dataset)数据集[29]进行实验。该数据集借鉴微软COCO(common objects in context)[30]数据集的构建过程,在25%重叠率的情况下,将136个全景SAR图像(分辨率1~5 m)裁剪为800像素×800像素的SAR图像。该数据集包含5 604 张不同分辨率、极化、海域和沿海港口的SAR舰船图像及16 951个舰船实例。其中,训练集和测试集分别有3 642张和1 962张SAR图像。
硬件平台采用CPU为Intel i9-9900X,GPU为NVIDIA RTX 2080 Ti,操作系统为Ubuntu18.04的计算机,软件框架为PyTorch[31],并采用CUDA10.1对所有模型进行训练和测试阶段的加速。利用现有的目标检测方法进行对比,主要包括更快R-CNN (Faster R-CNN)[13]、掩膜R-CNN(Mask R-CNN)[32]、级联Mask R-CNN(Cascade Mask R-CNN)[33]、RetinaNet[34]、全卷积单阶段目标检测(fully convolutional one-stage object detection,FCOS)[35]等模型。根据文献[29]的实验设置,本文采用了ResNet-50和ResNet-101结合特征金字塔网络(ResNet-FPN)[36]作为对比模型的骨干网络。训练优化器为随机梯度下降(stochastic gradient descent, SGD)法,动量和学习率分别为0.9和0.002 5,权重衰减因子为0.000 1,共计训练12轮次。而本文所提的CenterSAR模型采用Adam作为优化器,初始学习率设为0.000 1,分别使用ResNet-18与ResNet-34作为骨干网络提取特征,其余参数设置与对比模型一致。在训练过程中,所有方法均使用了本文所提的随机数据增强操作,同时训练时输入图像尺寸调整为1 000像素×1 000像素。
初始训练时,所有模型使用较低学习率进行学习防止梯度爆炸,随后使用正常学习率进行训练。为确保模型收敛到较好的位置,使用余弦周期函数对各种方法的学习率进行周期性衰减。测试阶段,基于锚框的算法(RetinaNet、Faster R-CNN、Mask R-CNN及Cascade Mask R-CNN)使用的交并比(intersection over union, IoU)阈值为0.7;无锚框检测算法FCOS选取置信度大于0.6的预测框作为预测结果;本文CenterSAR在推理阶段中心预测网络输出热图,首先在热图上选择100个候选中心点,然后根据每个中心点对应存在目标的置信度进行筛选,将置信度低于0.5的中心点对应的预测结果去除,保留置信度较高的中心点对应的预测框。
实验中,训练样本首先在{800×800, 900×900, 1 000×1 000, 1 100×1 100}像素范围内随机选取尺寸进行缩放,然后进行水平或垂直翻转及5°内小角度旋转,最后对变换后的图像进行填充保持输入图像大小一致。本文按照该方式,通过增加模型训练迭代次数,训练样本能得到很大程度的扩充。为验证所提数据增强方法的效果,对单独使用不同数据增强方法的CenterSAR模型进行了实验,并对4种增强方法综合使用(本文操作)进行对比。实验结果如表1所示,采用的骨干网络为 ResNet-18。其中,AP50和AP75表示IoU阈值分别为0.5和0.75时目标的平均检测精度,AP表示IoU阈值为 [0.5∶0.05∶0.95]时目标的平均精度,APs表示小型目标(面积小于32×32像素)的平均检测精度,APm表示中型目标(面积位于32×32像素到96×96像素之间)的平均检测精度,APl表示大型目标(面积大于96×96像素)的平均检测精度。
由表1可发现,不同的数据增强方法都能较大程度地提升模型的检测精度,其中以随机缩放对模型性能的提升最为明显。根据表1中APs、APm和APl的结果,可以发现随机缩放数据增强方法显著提高了模型对各个尺度舰船的检测精度。此外,随机翻转和随机旋转也从不同程度上提升了模型检测效果,各种指标都超过了未使用数据增强方法的模型检测效果。当模型综合4种数据增强方法时,AP50能够达到90.1%,优于单独使用任一数据增强方法的性能表现,从而验证了本文将4种数据增强方法进行综合使用的有效性。
表2为采用不同目标检测模型获得的实验结果。由表2可知,本文基于ResNet-18与ResNet-34的CenterSAR模型性能优于大部分对比模型,分别在AP50时达到90.1%与90.0%的检测精度,仅低于使用ResNet-50+FPN和ResNet-101+FPN作为骨干网络的FCOS模型。根据APs和APl的结果,本文所提的CenterSAR分别以67.3%和30.0%的检测精度取得了更好的性能表现,并且APm的结果也仅略微差于最优的检测模型Cascade Mask R-CNN,说明本文所提的CenterSAR模型能有效提取舰船目标的中心点,从而使得模型在多尺度舰船目标上具有更好的检测精度。此外,由表2可发现,当IoU阈值较小时(即AP50),基于无锚框的检测算法FCOS与CenterSAR检测性能较好;当IoU阈值提高,检测指标更为苛刻时(即AP75),基于锚框的检测算法Faster R-CNN及其变体Mask R-CNN和Cascade Mask R-CNN则取得更好的表现。其主要原因可能是基于锚框的算法能生成大量候选预测框,因此非极大抑制处理后的预测框质量较高。而无锚框的检测算法直接对预测框位置进行生成回归,因此预测框位置精确性不如基于锚框的算法。由表2还可发现,采用更深的骨干网络对于所有目标检测模型带来的提升并不大,甚至在部分情况下导致检测性能下降。这也说明了SAR图像与光学图像的差异性,即SAR图像不包含丰富的彩色信息,采用一定深度的网络即能充分提取SAR图像的特征,更深的网络反而带来负效益,从而降低模型运行效率。
表2 目标检测结果对比Table 2 Comparison of the target detection results %
图5展示了基于不同模型的检测方法在远近海简单场景下的舰船目标检测结果,其中绿色框表示数据集中舰船目标的真实检测框,红色框表示不同方法的预测检测框。在远海场景下,由于背景较为纯净,虽然受到海面杂波的干扰,但舰船目标较为明显,因此各种方法都能较好地检测出舰船目标,基本没有出现漏检现象。在近海场景下,如图5(b)、(d)、(f)和(h) 所示,基于锚框的检测算法在SAR图像目标检测中逐渐出现了不同程度的虚警,将沿岸礁石检测为舰船目标。相反,如图5(j)和(l)所示,无锚框的检测算法FCOS与本文所提CenterSAR方法则不受沿海礁石的影响,仍然能够准确地检测舰船目标,而且未出现虚警现象。
图5 远近海简单场景下基于不同模型检测方法的结果Fig.5 Results of the detection methods based on the different models in the simple scenarios of the far and near seas
图6为基于不同预测模型的检测方法在复杂场景下舰船目标检测结果,包括沿岸和港口场景。可发现,基于锚框的Faster R-CNN算法受到陆面区域的影响导致检测性能较差,不仅存在较严重的漏检现象(图6(a)),同时在针对多舰船小目标检测存在虚警(图6(b))。虽然Mask R-CNN与Cascade Mask R-CNN检测性能优于Faster R-CNN,漏检情况较少,但是虚警目标仍然较多。基于锚框的RetinaNet算法的检测性能较差,在复杂场景下存在较为严重的漏检情况。无锚框检测算法FCOS与本文CenterSAR比较类似,都具有较好的检测性能,并且相较于基于锚框的算法存在较少的虚警目标。其中,本文CenterSAR的检测性能更优于FCOS,针对复杂的多目标场景能够检测到更多的舰船目标(图6(l))。上述实验结果表明,基于锚框的方法容易产生大量重叠的检测框,虽然在SAR图像中能够定位舰船目标,但同时也容易存在大量虚警。相比之下,本文所提的CenterSAR算法能够在各种场景下准确检测舰船目标,仅仅出现了少量虚警及漏检目标,从而说明了本文所提的CenterSAR算法在舰船目标检测任务中具有良好性能和优越性。
图6 复杂场景下基于不同模型检测方法的结果Fig.6 Results of the detection methods based on the different models in the complex scenes
图7给出了基于不同模型检测方法的模型大小(MB)和运行时间(s)对比。其中,模型大小主要取决于训练的参数量,运行速度主要是检测单张SAR图像所需的平均时间。在运行速度方面,双阶段检测方法Faster R-CNN、Mask R-CNN和Cascade Mask R-CNN由于需要先对图像提取候选框,然后基于候选区域做二次修正得到预测结果,虽然检测精度较高,但是检测耗时也比较长。单阶段检测方法RetinaNet和CenterSAR直接对输入图像进行计算生成检测结果,因此具有较快的检测速度。
图7 不同模型参数量与运行时间对比Fig.7 Comparison of the different model parameters and running time
本文所提CenterSAR方法是一种基于目标关键点的单阶段检测方法,由于不需要额外的后处理以去除大量的重复锚框,因此检测速度远高于其他对比方法(含RetinaNet),单张SAR图像检测的平均耗时最少仅需0.024 s(ResNet-18)。在模型大小方面,现有的目标检测方法都依赖于复杂的骨干网络提取图像特征,且融合了特征金字塔网络FPN对图片进行多尺度变化增强以更好地检测小目标。然而这不仅带来了极大的计算量,同时还大大增加了模型的参数量。相比之下,本文的CenterSAR使用了更加轻量化的设计。当采用 ResNet-18作为骨干网络时,模型大小仅为36.3 MB,检测耗时仅为0.024 s,在保证检测精度的同时,提高了检测效率。当骨干网络的层数加深,即采用ResNet-34时,本文的CenterSAR在检测精度上有略微提升,但牺牲了一定的检测效率且增加了模型参数量。因此,考虑到实际应用对于模型性能的需求,采用ResNet-18作为本文CenterSAR模型的骨干网络是更好的选择。
为了验证所提CenterSAR中CSPNet和SPP[37]网络对最终目标检测性能的影响,在HRSID数据集上进行消融实验以分析CSPNet和SPP网络的有效性。消融实验结果如表3所示。第1组为以ResNet-18为骨干网络的CenterNet模型,第2组为在第1组基础上融合了CSPNet的CenterNet模型,第3组为在第1组基础上融合了SPP网络的CenterNet模型,第4组为在第1组基础上融合了CSPNet和SPP网络的CenterNet模型,即本文所提的CenterSAR。与第1组相比,融合了CSPNet的CenterNet模型的AP50达到了89.1%,使得其检测精度提高了0.4%,而模型大小降低到39.7 MB,检测耗时降低到0.028 s。因为采用跨阶段的分割与合并策略,增强了骨干网络的学习能力,降低了模型参数量和消除了计算瓶颈,从而提高检测精度和检测效率。据APs、APm和APl的结果可以发现,融合了CSPNet的CenterNet模型在一定程度上提高了不同尺度目标的检测精度。与第1组相比,融合了SPP网络的CenterNet模型的AP50达到了89.5%,使得其检测精度提高了0.8%,而模型参数降低到40.2 MB,运行速度降低到0.031 s。说明融合SPP网络使模型能更好地获得丰富的局部特征信息,对模型整体检测性能的提升有一定的影响,在一定程度上降低了模型参数大小和减少了计算量,从而提高检测精度和检测效率。据APs、APm和APl的结果可以发现,融合了SPP网络的CenterNet模型在显著提高了不同尺度目标的检测精度,从而适用于SAR图像多尺度舰船目标检测。与前3组相比,本文所提的CenterSAR融合了CSPNet和SPP网络,其检测性能获得最优,AP50达到了90.1%,而模型参数降低到36.3 MB,运行速度降低到0.024 s。主要原因是该模型继承了ResNet、CSPNet和SPP网络优势,提升了骨干网络学习能力和局部特征提取能力,通过对骨干网络提取重要特征并进行特征融合,从而进一步提高目标检测精度和检测效率。
表3 CSPNet和SPP消融实验结果Table 3 Ablation experimental results of the CSPNet and SPP
为探讨不同骨干网络对 CenterSAR 性能的影响,分别使用层数更深的ResNet-50、ResNet-101以及更加轻量化的MobileNet[38]作为CenterSAR的骨干网络,在HRSID数据集上进行实验对比。
表4为使用不同骨干网络的CenterSAR模型的对比结果,包括模型参数量、运行速度与检测精度。可以发现,使用更深的 ResNet(如ResNet-50与ResNet-101),CenterSAR的检测性能存在严重的下降,AP相比于ResNet-18降低了6.3%。使用更深的骨干网络造成了CenterSAR对各种尺度舰船目标检测性能受到严重影响,尤其是针对大型舰船目标的检测,APl降低了14.6%,这也说明了SAR图像与光学图像存在差异,使用更深的网络对于图像特征提取并不会带来优势,反而导致模型性能的降低。此外,更复杂的网络结构还造成了模型参数和运行时间的大大增加,使用ResNet-101作为骨干网络的 CenterSAR参数量达到259.1 MB,运行时间达到了 0.086 s,使得本文所提的CenterSAR方法逐渐失去在模型大小和运行速度上的优势。
表4 基于不同骨干网络的CenterSAR模型的对比Table 4 Comparison of CenterSAR models based on different backbone networks
由表4还可以发现,使用MobileNet作为骨干网络具有轻量化的优势,模型参数量仅为29.7 MB,并且运行速度为0.022 s,相较于使用ResNet-18的模型更加轻量化与快速。然而,在检测性能方面,使用MobileNet作为骨干网络的CenterSAR模型 AP仅为55.5%,并且在各项检测指标上都不如使用 ResNet-18作为骨干网络的结果。该实验结果表明,尽管MobileNet是一个轻量高效的卷积神经网络,但并不适用于作为提取SAR图像特征的骨干网络。
综上,本文选择ResNet-18或ResNet-34作为所提CenterSAR 的骨干网络是合理有效的,不仅具有较好的检测性能,同时在模型大小与运行速度方面也取得了较好的平衡,适用于对模型轻量化程度与运行效率要求较高的嵌入式设备场景。
为进一步验证所提方法的泛化性能,额外选取海军航空大学发布的SAR图像舰船检测数据集(SAR ship detection dataset,SSDD)对本文所提CenterSAR模型进行测试。由于SSDD数据集中 SAR 图像来源与 HRSID 数据集类似,直接采用在 HRSID 数据集训练所得到的CenterSAR模型在SSDD数据集上进行测试,测试结果如图8所示。由图8(a)~(d)可以发现,舰船目标均已被正确检测,且没有出现虚警现象,无论是在近海场景或近岸场景中,预测的检测框(红色)与真实的检测框(绿色)都具有较高的重合度,表明本文CenterSAR具有很好的泛化性能与可靠性。由图8(b)~(d)可以发现,在近岸场景(尤其是小型舰船场景)中,本文CenterSAR能够准确无误地检测出所有舰船目标,说明本文 CenterSAR 对于多尺度(小型、中型和大型)舰船检测是有效而稳健的。由图8(e)~(f)可以发现,在复杂场景(尤其是港口场景)中,舰船目标排列密集,重合度较高,并且陆面区域干扰影响较大,本文CenterSAR仍能实现较好的检测性能,能正确检测沿岸场景中所有舰船目标且未出现虚警现象,仅对港口场景中个别舰船目标出现了虚警现象,这表明本文所提方法具有较好的抗干扰性。值得注意的是,该实验结果是CenterSAR在HRSID 训练得到的模型直接迁移至SSDD数据集进行检测得到的,并不需要额外利用SSDD数据集进行训练,说明本文所提CenterSAR具有较好的鲁棒性和泛化性,有利于迁移到真实场景中进行广泛应用。
图8 基于SSDD数据集的不同场景下舰船检测结果Fig.8 Ship target detection results in the different scenarios based on the SSDD dataset
1)本文提出了一种基于改进CenterNet的轻量级无锚框SAR图像舰船检测方法(即CenterSAR),着重解决复杂场景下多尺度舰船检测的难题,并提高了模型检测速度和运行效率。
2)本文CenterSAR通过预测目标关键点信息及检测框的相关属性,以实现舰船目标的检测,该方法摒弃了现有基于密集锚框生成的思想,从而具有轻量化与高效的优势。此外,该方法采用适用于SAR舰船图像的数据增强方法以扩充训练样本,并引入多尺度训练以增强模型泛化性能。在公开SAR图像舰船数据集HRSID上的实验结果表明,本文的CenterSAR方法对于弱小舰船目标具有较好的检测能力,能够准确识别不同尺度的舰船目标。同时,实验中采用了SSDD数据集对本文的CenterSAR的泛化性能进行了验证。
3)本文的CenterSAR是基于目标关键点的单阶段检测方法,相比于基于锚框的检测方法更适用于目标稀疏的SAR图像舰船目标检测任务,在沿岸和港口等复杂场景下具有较好的鲁棒性。
4)本文CenterSAR采用了轻量化的结构设计,检测过程中不需要一系列后处理,在具备较优的检测性能的同时兼具有检测速度快和模型参数少的优势,因此在实时性要求较高的终端应用场景下具有重要的应用价值。