基于改进YOLOv5s的红外舰船检测算法

2023-08-09 13:35李海军孔繁程
系统工程与电子技术 2023年8期
关键词:舰船卷积特征

李海军, 孔繁程,*, 林 云

(1. 海军航空大学岸防兵学院, 山东 烟台 264001; 2. 烟台大学教务处, 山东 烟台 264005)

0 引 言

随着高新技术的不断发展,当前信息化战争形式不断演变。提升智能化的全向态势感知高精度目标识别与精确制导等能力,是提高武器装备作战效能的重要途径。反舰导弹是能否实现精确打击是当前精确制导武器的关键技术研究重点,红外成像制导具备抗云雾干扰、隐蔽性强等特点,成为反舰导弹末端探测舰船的主要方式[1]。

舰船检测的传统方法一般依赖舰船的灰度、边缘信息或是模板匹配等条件,这些方法区域选择策略的效果以及泛化能力较差,检测目标的特征需要人工设定,鲁棒性较差。随着人工智能技术不断发展,通过计算机视觉技术设计的检测算法实现有效的目标检测,深度学习技术能够避免传统工业为实现目标检测的复杂设计,并且在检测精度上得到改善,推动了人工智能技术在舰船目标检测等工程项目上的应用。

当前检测算法大致分为3种类型。第一类是基于Transformer的目标检测算法,以基于注意力机制的目标检测(detection transformer, DETR)算法[2]为代表,算法将注意力机制引入到目标检测任务中,属于anchor-free算法。Yao[3]等研究了关于对象查询和参考点的随机初始化,提出利用稠密检测和稀疏集检测的优势来提升在目标拥挤的情况下DETR的鲁棒性。第二类是两阶段检测算法,首先生成可能存在目标区域(区域选择),然后加入分类器进行回归分类并修正,是anchor-based算法,代表算法有Mask区域卷积神经网络(Mask regional convolutional neural network, Mask R-CNN)[4], 快速R-CNN(faster R-CNN,Faster R-CNN)[5-6], 基于区域的全卷积神经网络(region-based fully convolutional neural network, R-FCN)[7-8]等。Wang[9]等利用最大稳定性极值法替换原阈值决策准则,提升了检测率的同时降低了虚警率。第三类是单阶段检测算法,直接对目标物体进行回归预测,代表的有YOLO、单步多框目标检测(single-shot multibox defector,SSD)[10]等,其中YOLO系列[11-14]不断更新,其目标检测算法识别速度相对而言较快。单阶段算法中,Fu[15]等使用注意力机制和圆平滑标签对YOLOv5检测网络进行重构,得到新的旋转检测网络,近岸舰船检测效果得到提升。Song等[16]用可变形卷积网络自适应提取几何平移目标的形状不变深度特征,通过对标准卷积的网格学习采样偏移量,可以鲁棒地提取形状变化的目标特征,用于SAR舰船检测。

上述算法虽经改进能在不同背景下完成目标检测的任务,但针对本文研究背景会有如下问题:① 当前anchor-free算法只可通过特征金字塔网络(feature pyramid network, FPN)技术在一定程度上缓解语义模糊性的问题,仍无法完全消除单尺度图像中两艘舰船中心点落到同一特征图的现象,并且反舰导弹打击过程中一定要保证检测过程的稳定。由于anchor-free算法没有先验框的支持,所以不如anchor-based稳定。② DETR目标检测算法虽比之前的anchor-free对大目标检测效果有所提升,但对小目标检测效果较差。反舰导弹接近目标的过程中舰船图像角度、尺度不断变化,需要适应在不同环境不同尺度条件下准确识别舰船目标,难以满足精度要求,并且弹载设备算力功耗难以满足其训练阶段的硬件条件需求。③ 两阶段算法虽精度高于单阶段算法,但检测速度较慢,不足以实现反舰导弹执行突防任务实时打击舰船的目标。④ 当前检测算法对目标背景复杂的红外舰船目标检测时,算法的检测能力较差,误检率高。

综合上述存在的问题,本文针对反舰导弹末制导检测目标的过程,在单阶段算法YOLOv5s基础之上进行改进,主要包含4部分:利用深度可分离卷积替换标准卷积减少模型参数冗余,降低参数量特征提取网络引入注意力机制提升网络对小目标关注度和特征提取能力;改善远距离小尺度目标检测的鲁棒性;引入自适应空间特征融合,加强特征图通道间的关联,提升对多尺度特征的目标检测精度;通过修改损失函数提高目标检测框的可靠度。

1 YOLOv5s算法框架

YOLOv5算法[17]是目前新的一阶段目标检测算法,其在灵活性和速度上相比于上一代有了很大的提升,其结构如图1所示。YOLOv5算法是2020年推出的,针对不同情况其共包含4个版本:YOLOv5x、YOLOv5l、YOLOv5 m、YOLOv5s。这之中的YOLOv5s是4个结构中参数以及计算量最少的版本。本文将选择 YOLOv5s进行训练,其具体网络结构如图1所示。YOLOv5s网络结构一般分为4个部分:输入端,主干网络,颈部,输出端。

图1 YOLOv5s网络结构图Fig.1 Network structure diagram of YOLOv5s

输入端主要包括mosaic数据增强,简单提升目标的检测能力。自适应锚框。计算初始设定长宽的锚框,自适应。图片缩放提升推理速度。

主干网络使用了切片结构、跨阶段部分连接(cross stage partial connections, CSP)模块。切片结构主要是对图片进行了切片操作,减少了参数量,提升每秒浮点计算(floating-point operations persecond, FLOPS)速度。CSP模块将基础层的特征向两部分进行映射。

颈部采用的是FPN和路径聚合网络(path aggregation network, PAN)进行图像特征的聚合,能够加强底层特征的传播。

输出端使用GIOU_Loss当作损失函数,然后通过非极大值抑制后处理。

2 改进的红外舰船检测算法

2.1 深度可分离卷积

深度可分离卷积(depth-wise separable convolution, DSC)[18]在MobileNet、ShuffleNet等一些轻量级网络中得到应用,其能够极大降低模型参数数量以及运算成本,并且在检测精度基本不改变的情况下,提高检测速率,实现模型的轻量化。深度可分离卷积原理如图2所示,将标准卷积分成逐通道卷积和逐点卷积1×1两步进行。首先是输入数据的各通道进行深度卷积操作,然后使用点卷积线性连接深度卷积的输出。

图2 深度可分离卷积Fig.2 Depth wise convolution

将标准卷积和深度可分离卷积进行对比,假设输入图像的大小为M×M×Q,卷积核大小为N×N×R,输出通道数为S,无相同填充,步长为1,则使用标准卷积使用的参数量为

Pn=N×N×Q×R×S

对应的深度可分离卷积在相同情况下使用的参数量为

Pd=N×N×Q+Q×R×S

2.2 轻量高效的坐标注意力模块

注意力机制参考人的视觉与神经处理信息的方式。人首先一般通过观察整幅图片的全景来确定局部需要重点关注的区域,来获取目标更多的细节信息。注意力机制能够有效提升模型性能上,因此被广泛地应用在计算机视觉领域当中。目前应用较为广泛的有压缩和激励网络(squeeze and excitation, SE)[19]、基于卷积神经网络的注意力模块(convolutional block attention module, CBAM)[20]等,其中SE只考虑内部通道信息而忽略了位置信息的重要性;BAM和CBAM是通过对多个通道取最大值和平均值进行全局池化,这种加权只考虑了局部范围的信息[21]。最新发表的协调注意力(coordinate attention, CA)模块[22]是通过将位置信息嵌入到通道注意力中,这种方法简洁高效,能够实现即插即用,使得移动网络能够获取更广的区域的信息且不会造成额外的计算负载,性能优于SE、CBAM等注意力模块。

CA模块的整体结构如图3中所示,输入特征图的水平和垂直方向分别进行平均池化得到两个一维向量,在空间上使用Concat和1×1卷积将通道归一并进行信息交互,再通过批量标准化和非线性模块来进行编码,分别得到水平方向和垂直方向的空间信息,然后利用Split函数划分通道,再分别经过1×1卷积得到同输入特征图一样的通道数,将空间信息乘以其权值得到新的通道信息,再通过归一化操作进行融合。这样就可以考虑到目标的通道间的关系和空间方向与位置敏感信息,进一步提升模型对于红外小目标的检测性能,降低漏检率。

图3 CA模块Fig.3 CA module

如图4所示,经实验验证,在 YOLOv5s 主干网络的bottleneckCSP模块前引入CA模块指导不同权重的分配,可以使主干网络充分利用通道以及空间信息,提高通道中特征感知度,有效关注红外小目标的相关特征信息,实现目标弱特征和小特征的提取。

图4 主干网络引入CAFig.4 Backbone imported with CA

2.3 自适应空间特征融合

反舰导弹不断靠近舰船的过程中,被锁定的舰船成像在导引头中,其分辨率会随距离发生变化,红外舰船检测算法需能够适应不同尺度、不同类型的目标。原始YOLOv5s中颈部通过PANet[23]进行图像特征的聚合并输出。在FPN的自上而下的融合结构之后添加了PAN的自上而下的增强结构,这是一种双向融合,而不是原来的单一融合。图5是自顶向下和自底向上的融合路径。

图5 PAN结构Fig.5 PAN structure

该融合方法只是将特征映射转换成相同大小的特征映射,然后简单地将他们进行线性组合,如加法或者级联[24-25]。可随着降采样的进行不断深入,模型从浅层特征学习阶段到深层的语义特征学习阶段,针对深层的语义特征学习虽然有着大的感受野的优势,但是较大的降采样因子将会有位置信息的偏差,并且深层的语义特征学习阶段与浅层特征学习阶段之间相对独立,难以在深层突出红外小目标特征,无法充分利用不同尺度的目标特征,降低了特征融合的有效性。为提升特征融合的效果,本文在此基础上引入新的空间融合方法:自适应空间特征融合(adaptive spatial feature fusion, ASFF)[26]对YOLOv5s的颈部进行改进,其思想是通过自适应学习得到多尺度特征融合的空间权重分配方案。ASFF通过很小的计算成本,引入启发式特征选择机制,解决特征融合过程内部不一致性。

YOLOv5s中PAN处理后会得到3个不同维度的特征,而后续相加需要保证3个特征大小以及通道数相同,因此利用上采样和下采样来调整不同维度的特征。图6中的输入特征1、特征2、特征3表示经过PANet处理后的3个不同尺度特征图,以ASFF-1为例,首先利用1×1卷积使特征2、特征3的通道数和特征1相同,然后将特征2、特征3分别进行2倍和4倍的下采样操作,使其同特征1的分辨率大小相同,并记为特征21、特征31,再通过1×1卷积得到特征21、特征31、特征3的权重α、β、γ,最后上述3个特征图分别加 权得到空间融合特征。由Softmax公式可知,权重参数α、β、γ满足0≤α,β,γ≤1,α+β+γ=1。

图6 ASFF结构Fig.6 ASFF structure

2.4 损失函数改进

YOLOv5s将GIOU_Loss[27]作为损失函数,尽管其能够衡量真实框和预测框的相交程度并解决交并比(intersection over union, IOU)无法计算梯度的问题,但是仍不能解决广义IOU(generalised IOU, GIOU)真实框包含预测框时的位置关系,这就只能通过不断迭代来进行收敛,使得计算过程变得繁琐。因此,根据多角度多尺度变化的数据集来设计损失函数。损失函数一般包含预测框的预测误差Lα、预测框置信度误差Lb和目标类别误差Lc。在现有的IOU Loss基础上引入power变换,得到新的损失函数α-IOU[28]。α-IOU本质上是现有的GIOU、距离IOU(distance IOU, DIOU)、完全IOU(complete IOU, CIOU)等的统一幂化,具有一个幂次。α-IOU基础可定义为

(1)

在式(1)中引入正则化项变为一般形式:

Lα-IOU=1-IOUα1+Pα2(B,Bgt)

(2)

取α1=3,α2=6,并且参考CIOU考虑的目标框长宽比带来的影响引入惩罚项βν。最终,损失函数的公式为

Lα-IOU=1-IOU3+P3(B,Bgt)+(βν)3

(3)

式中:P为目标标记框、预测框中心点欧式距离与包住二者的最小框的对角线长度的比值;β为权重,β=1-(1-IOU)/(1-IOU+v);ν是衡量两个框的宽高比的参数。

3 实验与结果分析

3.1 实验数据集

由于缺乏高质量公开的红外舰船数据集,所以本文主要采用网络爬虫的方式,通过网络搜集到包括民用船只以及国外军用舰船等公开数据,总共6 145张图片。由于部分图像目标不全或者角度较差,先对这些图片逐一进行挑选,最终得到包括5 630张舰船的数据集,然后按照8∶2的比例将照片划分成训练集和测试集,并采用Labelimg软件进行了标注,对图片进行采样核查标注信息以及数据分布。格式为(visual object classes, VOC)数据集格式,数据集中图像为原始图像,不对不同尺度的图片进行任何清晰化等预处理操作。图7为选取网络公开的民用船只数据中部分样本图像。

图7 部分样本Fig.7 Part of the sample

3.2 实验平台设置及评价指标

本文所有涉及到的实验均是在Ubuntu20.04操作系统进行的,CPU是core i9-12900KF,GPU为显存12G的NVIDIA GeForce RTX 3080ti,python版本为3.7.11,开发工具是pycharm2020.1,框架使用Pytorch1.9.0。

表1 实验训练参数

本文采用目标检测模型常用的精确率P、召回率R、mAP和一秒处理帧数FPS作为模型评价指标[29]。精确率是评价模型检测目标的准确性的指标;召回率是评价模型能否全面检测目标的指标;mAP是全面衡量模型检测精度的指标,可理解为PR曲线和坐标轴包围形成的面积值;FPS是衡量目标检测速度的指标,这里使用AP@0.5[30]即IOU≥0.5时就认为检测到目标。

(4)

3.3 舰船检测实验结果

实验设定迭代轮数为200,图8中所示的是原始YOLOv5s和改进算法在训练过程中Loss随迭代轮数变化曲线。

图8 原始与改进算法损失曲线Fig.8 Loss curves of original and improved algorithms

从图中8得到,两个算法在前50轮训练中迅速收敛,并且在100轮之后基本保持稳定,直到训练结束,所以两种模型在本数据集达到较好的训练效果,并也未出现过拟合现象。本文模型在训练初期的损失值较高,迭代轮数到20后,损失值降到1以内,之后迭代损失曲线趋于稳定;相对于YOLOv5s模型,本文模型总体的损失值较小,收敛较快,检测精度较高。

图9选取典型背景公开数据的检测结果图,左边的是YOLOv5s检测结果,右边是本文改进算法检测结果,图9(a)中对于大小适中,局部对比度强的舰船图像都能够检出;由图9(b)中看到,改进算法将原始模型漏检的多尺度目标右侧被遮挡的小目标检出;图9(c)中是岛屿背景干扰的轮渡图像,两算法都能避免误检,均具备一定的抗干扰能力;通过观察图9(d)得知,改进算法将原始模型漏检的远距离云雾干扰红外小目标检出,充分说明改进算法具有很强的红外小目标检测能力;图9(e)和图9(f)是夜间舰船检测结果,图中能看到YOLOv5s出现不同的漏检情况,图9(e)中未检测出图像左侧单一目标,图9(f)中未检测出右侧侧舷视角的舰船,而改进算法能够精确检测到这两个目标。综上,对于原始YOLOv5s算法漏检的远距离小目标、夜间小目标和夜间多角度目标,改进算法都能够准确识别出,而且在置信度上略微提高,所以,证明改进算法在小目标以及夜间恶劣环境场景下鲁棒性较强,并且对于多尺度多角度目标也能有较好的检测精度。

图9 YOLOv5s与本文算法检测结果对比Fig.9 Detection results of YOLOv5s compared with that of the proposed algorithm

3.4 消融实验

为验证深度分离卷积、坐标注意力机制等改进策略对模型检测效果提升的有效性,我们进行了消融实验,8组不同结构的网络使用相同的实验设备以及数据进行测试,选取参数量、mAP和FPS作为实验评价指标,通过参数量可以衡量模型复杂度,实验结果对比如表2所示。表2中,“-”表示未采用该方法,“√”表示采用该方法。

表2 消融实验结果

表2中对比序号2与原始YOLOv5s可得,引入深度可分离卷积模块参数量降低了1.6 M,FPS提升了4.8,所以深度可分离卷积在检测效率上有着显著性提升;序号3将坐标注意力机制CA引入主干网络使mAP提升2.22%,证明该方法的确能够很好地利用特征信息,关注通道有用特征,降低漏检率,FPS下降了2.8,表明在计算量增加以及模型结构变复杂,一定程度上降低了效率。序号4引入自适应空间特征融合mAP提升3.05%,证明引入ASFF通过学习得到权重,抑制无用特征的学习,有效保证各层次特征融合的针对性,并且增加有限参数量,检测效率下降不大,是个有效的改进策略。序号5、6、7是各种策略复合进行实验,对比序号1、2、3可知,多种策略的组合使用结果优于单一策略。序号8是本文提出的改进算法,与YOLOv5s相比mAP提升2.79%。从图10中的损失函数曲线也能够看出本文算法性能相对其他算法更优。综上所述,本文所用模型在目标检测准确率提升至89.35%,检测速度达到44.6,满足实时性要求的同时,在检测精度上有效提升;改进算法参数量减少0.6 M,能够满足弹载设备配置要求。

图10 消融实验损失曲线Fig.10 Loss curve of ablation experiment

3.5 主流检测算法性能指标对比

为能客观评价改进模型的检测效果,验证改进算法在精度以及检测速度上的提升,对比Faster R-CNN、SSD、YOLOX、YOLOv4、Centernet、YOLOv5s等经典目标检测算法在相同条件下的检测效果,本文算法与现有目标检测算法对比实验结果如表3和图11所示。通过各项参数对比可得,改进的算法解决目标漏检问题优于上述目标检测算法,证明了算法检测红外舰船目标的有效性。可以看到,anchor-free的算法Centernet和YOLOX在整体精度表现不如anchor-based的YOLOv5s算法。由于本文算法使用了坐标注意力机制以及自适应空间特征融合,能够更关注空间方向与位置敏感信息,充分使用特征图的信息,实现多尺度特征提取,更加适合检测红外小目标的任务要求。本文算法的检测速度为44.6 FPS,比原始YOLOv5每秒图像传输增加1.3帧,这是因为算法通过在主干网络中使用深度可分离卷积降低参数量,比SSD、YOLOX、YOLOv4等算法运行效率高。引入注意力机制和特征融合方法,融合多尺度的特征信息,使用空间通道信息计算分配权重,算法的准确率显著提升,所以,改进算法能够实现高检测精度的同时不引入额外的计算负担。

表3 主流算法对比结果

图11 FPS-AP曲线Fig.11 FPS-AP curve

4 结 论

在当前信息化作战背景下,精确打击目标成为掌握战场先机的主要手段。针对深度学习的目标检测算法检测红外舰船小目标时存在部分漏检的问题,本文通过对YOLOv5s算法进行改进。使用深度可分离卷积搭建主干网络,简化卷积模块,减少冗余计算,提升检测效率;采用坐标注意力机制提升特征感知度,并引入自适应空间特征融合方法,进而提升检出率,并且提出使用最新的损失函数α-IOU,在多尺度的自建数据集上进行实验验证并与原始算法对比,检测精度由86.47%提升至91.64%,mAP指标由85.56%提升到89.35%,尤其在红外小目标检测以及云雾背景干扰条件下精度显著提升。

猜你喜欢
舰船卷积特征
舰船通信中的噪声消除研究
基于3D-Winograd的快速卷积算法设计及FPGA实现
舰船测风传感器安装位置数值仿真
如何表达“特征”
从滤波器理解卷积
不忠诚的四个特征
基于傅里叶域卷积表示的目标跟踪算法
抓住特征巧观察
舰船腐蚀预防与控制系统工程
一种基于卷积神经网络的性别识别方法