摘 "要: 针对光学遥感图像因目标尺度差异大,小目标特征信息不足导致的检测精度低、误检、漏检问题,文中提出一种基于PSN⁃YOLOv7的光学遥感图像目标检测方法。首先,增加一个160×160的小目标检测层,增强网络的多尺度目标检测能力;其次,提出改进的ELAN⁃P和ELAN⁃WS模块,在减少计算量和参数量的同时,增强全局理解能力减少目标特征信息的损失,有效改善误检;最后,提出MNI损失函数改进YOLOv7的CIoU位置损失函数,抑制小目标造成网络损失不平衡的影响,从而减少目标漏检的情况。在DIOR公开遥感图像数据集上进行训练与测试,实验对比结果表明,所提方法检测精度mAP@0.5为92.3%,比YOLOv7网络提高了3.2%,且计算量和参数量与原YOLOv7网络相当,提升检测精度的同时保证了网络的性能平衡。
关键词: 光学遥感图像; 目标检测; 损失函数; 多尺度; 深度学习; 特征信息
中图分类号: TN911.73⁃34; TP751.1 " " " " " " " "文献标识码: A " " " " " " " " " 文章编号: 1004⁃373X(2024)21⁃0119⁃06
Optical remote sensing image object detection based on PSN⁃YOLOv7
CHEN Xinyu1, CHEN Yuanyuan1, LIAN Yongjian2, GENG Yanbing2, ZHANG Nan1, LIU Shengren1, ZHANG Lingjun2
(1. School of Information and Communication Engineering, North University of China, Taiyuan 030051, China;
2. School of Computer Science and Technology, North University of China, Taiyuan 030051, China)
Abstract: In view of the low detection accuracy, 1 detection and missing detection in optical remote sensing images caused by large difference in object scale and insufficient feature information of small objects, a method of optical remote sensing image object detection based on PSN⁃YOLOv7 is proposed. A 160×160 small object detection layer is added to enhance the multi⁃scale object detection capability of the network. The improved ELAN⁃P (ELAN is the abbreviation of efficient layer aggregation network) and ELAN⁃WS modules are put forward to strengthen the global understanding ability, reduce the loss of feature information and improve detection effectively while reducing the calculation burden and parameters. The MNI (mixed loss function of NWD and IoU) loss function is proposed to improve the CIoU (complete IoU) position loss function of YOLOv7 to suppress the influence of network loss imbalance caused by small objects, so as to reduce the missing detection of objects. Training and testing were carried out on public remote sensing image dataset DIOR. The results of comparison experiments show that the detection accuracy mAP@0.5 of the proposed method is 92.3%, which is 3.2% higher than that of YOLOv7 network, and its calculation burden and parameters are equivalent to those of the original YOLOv7 network. It can be seen from the above that the proposed algorithm improves the detection accuracy and ensures the performance balance of the network.
Keywords: optical remote sensing image; object detection; loss function; multi⁃scale; deep learning; feature information
0 "引 "言
光学遥感图像目标检测指利用算法对感兴趣的遥感图像目标自动分类与定位,在情报侦察和灾害救援等领域有重要作用[1⁃2]。传统目标检测算法通过支持向量机[3](Support Vector Machine, SVM)和K⁃means[4]等分类器检测,但需要手工构建特征。深度学习目标检测算法主要基于anchor⁃base,分为两阶段模型的R⁃CNN[5⁃7]系列、单阶段模型的SSD[8]和YOLO系列[9⁃11],单阶段和两阶段算法各有优点,单阶段算法检测速度快,两阶段算法检测精度高。
通用的深度学习算法仅能完成普通的检测任务,但对于多尺度、密集分布及背景复杂等场景检测效果不理想[12]。
针对此问题,国内外学者进行了一系列研究,文献[13]在SSD算法的基础上,添加跳跃连接解决层数增加导致的性能退化问题,同时引入特征融合机制提高检测精度,但计算量严重增加。文献[14]引入RepLKDeXt模块简化了YOLOv7模型并增加了模型的适用范围,但参数量较大。文献[15]对YOLOv3模型进行改进,加快检测速度的同时提升了漏检率,但检测模糊物体的能力较弱。文献[16]提出了一种新的目标检测器CF2PN,它通过多层次、多尺度的特征融合方法,解决了高分辨率遥感图像中目标尺寸差异大的问题,但复杂场景下的检测性能差。
本文针对上述问题,以及光学遥感图像因目标尺度差异大,前景和背景极度不平衡所导致的检测精度低、误检、漏检问题,对YOLOv7目标检测网络做出改进与性能优化,提出一种基于PSN⁃YOLOv7(PSA⁃SCConv⁃NWD with YOLOv7)的光学遥感图像目标检测算法。本文所作的改进与创新如下。
1) 在YOLOv7网络的head部分增加一个160×160的小目标检测层,增强网络的多尺度目标检测能力,并从主干引入新的特征提取分支获取更多特征信息。
2) 提出新的特征提取模块ELAN⁃P和ELAN⁃WS,减少计算量和参数量的同时,减少目标特征信息的损失并抑制无用信息的提取,减小算法的误检率。
3) 提出MNI损失函数改进YOLOv7的位置损失函数CIoU,减少小目标对网络造成的损失不平衡影响,进一步减少目标漏检的情况。
4) 调整网络的先验框,进一步提升算法的检测精度。
1 "PSN⁃YOLOv7目标检测网络
1.1 "新增小目标检测层
光学遥感图像目标尺度变化大且包含许多小目标,虽然YOLOv7网络具有多尺度(80×80、40×40、20×20三个不同的检测头)检测能力来分别检测大、中、小目标,但80×80检测头得到的特征图是经过多次卷积和主干网络的8倍下采样融合生成,在此过程中浅层特征信息大量丢失,且图像中占像素较少的小目标特征信息丢失更加严重,从而造成小目标的漏检问题。本文使用的数据集图像像素大小为800×800,而小目标占比[17]为10%。考虑到上述问题,根据感受野的原理和保持网络多尺度特征检测的能力,在YOLOv7网络的head部分直接新增一个160×160的检测头,可以将输入图像的每个网格单元最小化至5×5,极大提升模型对小目标的检测能力。
此外,考虑到随着网络深度的增加,深层网络能够获取到的小目标特征信息在底层十分有限,且包含大量噪声及冗余特征,本文从主干网络引入新的特征提取层,通过重构与融合操作整合特征信息,并抑制噪声和冗余特征,构建并行多分支特征融合网络获取更多的有效特征信息。PSN⁃YOLOv7的网络结构如图1所示。
1.2 "改进的ELAN⁃P和ELAN⁃WS结构
光学遥感图像中背景复杂和前景极度不平衡,背景占据图像中的大部分区域,且图像中目标尺度不一,因此特征提取模块的构建十分关键。YOLOv7网络中特征提取主要由ELAN(Efficient Layer Aggregation Network)与ELAN⁃WS模块完成,这两个模块由大量CBS模块堆叠而成,虽能有效提取特征信息,但大量堆叠时容易造成细节损失且只能捕获局部信息,对于小目标的检测尤其不利。
因此,本文将PSA[18](Pyramid Squeeze Attention)注意力机制嵌入到ELAN结构中建立远程通道依赖关系,获取更多的特征信息。将PSA注意力机制直接嵌入ELAN中,计算量和参数量大大增加,故使用深度可分离卷积将PSA注意力机制改进为LPSA(Lighter Pyramid Squeeze Attention)模块。改进后的ELAN⁃P结构如图2所示。
考虑到主干网络中的ELAN模块已提取到大量特征信息,而ELAN⁃WS模块是为进一步加强特征提取能力获取更丰富的特征信息,但光学遥感图像中背景像素占比远高于目标,此时得到的特征中会含有大量无用的信息,并且大量的无用信息会严重影响网络的检测能力。为解决此问题,使用SCConv[19](Spatial and Channel Reconstruction Convolution)改进CBS(Conv⁃BN⁃SiLU)模块,并嵌入到ELAN⁃WS结构中,抑制多余的特征信息提升目标检测的精度,减少模型计算量和参数量的同时减小内存访问成本,提高模型训练效率。改进后的ELAN⁃WS模块结构如图3所示。
1.3 "MNI损失函数
光学遥感图像中的目标方向是随机分布的,且一张图像中包含的目标非常多,不同物体边界框交叉重叠容易漏检和错检。使用IoU[20](Intersection over Union)计算损失函数具有非负性、尺度不变性等优点,但无法解决以下情况:
1) 不同方向上两个相同交叉级别IoU完全相等,此时无法判断预测的准确性。
2) 两个目标没有重叠时,IoU为0、梯度为0,网络更新停止。NWD[21](Normalized Wasserstein Distance)的主要优点是没有重叠或重叠时可以忽略不计,它也可以使用度量分布的相似度来计算损失函数,可以有效改善小目标的检测精度与漏检问题,但NWD需要解决最优运输问题,计算复杂度高。
考虑到光学遥感数据集中目标是多尺度的,因此使用MNI(Mixed Loss Function of NWD and IoU)损失函数计算位置损失,即使用NWD和IoU度量的混合损失函数。设水平边界框[H]=([xc],[yc],[w],[h]),则MNI损失函数定义如下:
[LMNI=1-λIoU-(1-λ)NWD+ε] (1)
[NWD=e-DC] (2)
[IoU=Area⋂AreaGTArea⋃AreaGT] (3)
[D=(xc-xGTc)2+(yc-yGTc)2+(w-wGT)2+(h-hGT)2Δ2] (4)
式中:[λ]为超参数,计算损失函数时用来调节NWD和IoU的比例;[ε]=10-6是一个误差校正系数;[C]为常数,是数据集中目标的绝对平均尺寸;([xGTc],[yGTc])、[wGT]、[hGT]分别是真实框的中心坐标以及宽高;[Δ]=2,是一个常数;[Area]和[AreaGT]分别为预测框和真实框。
2 "实 "验
2.1 "数据集及预处理
实验使用公开的光学遥感图像数据集DIOR,其涵盖20个对象类,每幅图像像素为800×800,空间分辨率为0.5~30 m,且在不同季节、天气等场景下获得。实验中训练集、验证集、测试集的比例为7∶1∶2。先验框的大小对于检测精度有着不小的影响,因此,本文使用K⁃means聚类算法为DIOR数据集重新生成先验框,每个检测头设定3组先验框,具体配置如表1所示。
2.2 "实验环境与参数设置
实验基于RTX6000(GPU)计算机,环境搭建于Windows 10操作系统下的Python 3.6,PyTorch 1.9,CUDA 10.2。训练时初始学习率设置为0.01,最小学习率为0.001。采用SGD优化器更新网络参数,batch⁃size为16,epoch为200。
2.3 "性能评价指标
本文的性能评价指标有:[P]、[R]、AP、mAP@0.5、Params和GFLOPs。[P]、[R]分别为目标的查准率和召回率;Params为参数量,用来衡量算法的空间复杂度;GFLOPs为计算量,用来衡量算法的时间复杂度;FPS为每秒传输帧数,用来衡量模型的推理速度。
网络的样本有正样本和负样本之分,由于网络的影响,对于样本的识别有差异。定义TP为正样本被识别为正类,FN为正样本被识别为负类,TN为负样本被识别为负类,FP为负样本被识别为正类。查准率和召回率如式(5)和式(6)所示:
[Precision=TPTP+FP] (5)
[Recall=TPTP+FN] (6)
AP为Precision⁃Recall曲线在Recall从0~1的积分。一般来说,AP值越高,该网络对于某单类别目标的检测性能较好。设Precision⁃Recall曲线的函数为[f(x)],则公式定义为式(7)。
[AP=01f(x)dx] (7)
mAP为数据集中所有类别AP值的平均值,可以衡量所有训练类别的性能,mAP越大,说明训练好的模型性能越优良。mAP定义见式(8):
[mAP=t=1TAPtT] (8)
式中[T]为总类别数。
2.4 "超参数实验
[λ]为调节IoU和NWD比例的超参数。为检验NWD改进网络的有效性,在添加160×160检测头的网络上设计实验,实验结果如表2所示。
分析表2中的实验结果,以IoU为0.5的标准判断,当[λ]=0.2,计算损失函数时IoU和NWD的比例为1∶4,数据集中的小目标检测精度有所提高,mAP@0.5达到了最大值90.6;当IoU在0.5~0.95区间取值,以整个区间的精度为判断标准,[λ]=0.5时,mAP@0.5:0.95达到了最大值66.7,IoU和NWD的比例为1∶1时在整个区间达到了最优值,各尺度目标检测精度均得到了较好的提升。经过实验验证与数据分析,当[λ]=0.2时,mAP@0.5达到了最大值,且mAP@0.5:0.95仅比最优值小0.2%,故将[λ]=0.2确定为最优超参数值。
2.5 "消融实验
为验证PSN⁃YOLOv7目标检测网络的有效性以及提出的各种改进措施对遥感图像目标检测性能的提升作用,以YOLOv7为基准模型进行了一系列消融实验,实验结果如表3所示,表中“√”代表改进使用了此模块。
分析表3消融实验结果,可得出如下结论。
1) 改进1是加入160×160检测头以及新的特征提取层,相较于YOLOv7,改进1的精度有所增长,主要原因是提升了小目标的检测精度,但参数量和计算量大幅增加。
2) 改进2是在改进1的基础上,使用新的MNI损失函数计算网络的位置损失,召回率提升1.3%,证明此改进方法有效提升了小目标的位置损失对网络带来的影响。
3) 改进3和改进4是在改进1的基础上,分别将ELAN⁃P和ELAN⁃WS模块嵌入到新的网络中,此两种改进方法的查准率分别提升2%和1.4%,同时检测精度分别提升1.7%、1.1%,证明网络提取特征的能力加强,且改进后的网络参数量和计算量有所下降。
4) 改进5和改进6在改进3和改进4的基础上使用MNI计算损失函数,保持查准率的同时,两者的召回率均提高1.9%,证明位置回归对于网络的影响减小,模型的鲁棒性增强。
5) 改进7是将ELAN⁃P和ELAN⁃WS模块同时嵌入到改进1的网络中,查准率提升2.1%,检测精度提升1.8%,证明网络提取特征能力增强的同时剔除无用信息的能力也得到增强。
6) PSN⁃YOLOv7是在改进7的基础上使用MNI计算损失函数,相较于基准模型YOLOv7,查准率提升3.4%,召回率提升2.4%,检测精度提升3.2%,参数量持平,GFLOPs仅增长1.1。
2.6 "对比实验
为了验证PSN⁃YOLO算法的优越性,将本文设计算法与其他主流算法进行对比。表4给出了不同算法的实验结果。
由表4的实验结果可知:PSN⁃YOLOv7算法的性能明显优于Faster⁃RCNN、SSD、YOLOv3等经典目标检测算法,检测精度提高的同时保证了模型的检测速度;PSN⁃YOLOv7算法的查准率仅比YOLOv5低0.1%,推理速度仅比YOLOv8减少了4.1 f/s,而召回率和检测精度高于所有算法。
2.7 "检测结果可视化分析
挑选出6个背景复杂、易误检、易漏检的场景可视化,进一步展示PSN⁃YOLOv7算法的优越性。图4a)、图4b)分别为YOLOv7、PSN⁃YOLOv7算法的预测结果,可以看出PSN⁃YOLOv7的检测精度在各场景中均优于YOLOv7,展示出了PSN⁃YOLOv7算法的优越性。图4c)、图4d)分别为YOLOv7、PSN⁃YOLOv7算法的热力图可视化结果,可以看出,YOLOv7算法有误检目标,且提取冗余特征信息过多,降低检测精度的同时大量增加了算法的复杂度。相比之下,PSN⁃YOLOv7算法具有更强的特征提取能力,能够提取到更多关键的语义信息和细节特征,抑制了大量的冗余特征,更加关注目标所在区域,减少了目标误检的情况,从而大幅提升了目标的检测精度。
3 "结 "语
本文以YOLOv7为基准模型,针对光学遥感图像受多尺度与背景复杂的影响而导致检测精度低、误检、漏检的问题,通过多种改进措施,提出了一种光学遥感图像目标检测算法PSN⁃YOLOv7。新增160×160的检测头增强了网络检测小目标的能力;ELAN⁃P和ELAN⁃WS模块加强了网络提取特征的能力,并抑制无用信息的影响,误检目标大量减少,配合新增的检测头使得网络拥有良好的多尺度检测能力。进一步使用改进的MNI损失函数计算位置损失,抑制了小目标损失造成的网络不平衡,减小了模型的误检率,同时增加了模型的鲁棒性与泛化能力。保持高检测精度的同时平衡了模型各方面的性能,可以满足光学遥感图像目标检测的需求。
注:本文通讯作者为陈媛媛。
参考文献
[1] 聂光涛,黄华.光学遥感图像目标检测算法综述[J].自动化学报,2021,47(8):1749⁃1768.
[2] 冯长峰,王春平,付强,等.基于深度学习的光学遥感图像目标检测综述[J].激光与红外,2023,53(9):1309⁃1319.
[3] OSUNA E, FREUND R M, GIROSIT F. Training support vector machines: An application to face detection [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 1997: 130⁃136.
[4] KAYASAL U. Magnetometer aided inertial navigation system: Modeling and simulation of a navigation system with an IMU and a magnetometer [M]. United Kingdom: LAMBERT Academic Publishing, 2009: 74⁃77.
[5] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2014: 580⁃587.
[6] REN S Q, HE K M, GIRSHICK R B, et al. Faster R⁃CNN: Towards real⁃time object detection with region proposal networks [J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 39(6): 1137⁃1149.
[7] HE K M, GKIOXARI G, DOLLAR P, et al. Mask R⁃CNN [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2017: 2980⁃2988.
[8] LIU W, ANGUELOV D, ERHAN D, et al. SSD: Single shot MultiBox detector [C]// Proceedings of European Conference on Computer Vision. Heidelberg: Springer, 2016: 21⁃37.
[9] REDMON J, FARHADI A. YOLOv3: An incremental improvement [EB/OL]. [2018⁃08⁃13]. http://arxiv.org/abs/1804.02767.
[10] WANG C Y, BOCHKOVSKIY A, LIAO H Y M. Scaled⁃YOLOv4: Scaling cross stage partial network [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2021: 13029⁃13038.
[11] WANG C Y, BOCHKOVSKIY A, LIAO H Y M. YOLOv7: Trainable bag⁃of⁃freebies sets new state⁃of⁃the⁃art for real⁃time object detectors [EB/OL]. [2023⁃09⁃30]. https://doi.org/10.48550/arXiv.2207.02696.
[12] 付宏建,白宏阳,郭宏伟,等.融合多注意力机制的光学遥感图像目标检测方法[J].光子学报,2022,51(12):312⁃320.
[13] 裴伟,许晏铭,朱永英,等.改进的SSD航拍目标检测方法[J].软件学报,2019,30(3):738⁃758.
[14] 李安达,吴瑞明,李旭东.改进YOLOv7的小目标检测算法研究[J].计算机工程与应用,2024,60(1):122⁃134.
[15] XU D, WU Y. FE⁃YOLO: A feature enhancement network for remote sensing target detection [J]. Remote sensing, 2021, 13: 1311.
[16] HUANG W, LI G, CHEN Q, et al. CF2PN: A cross⁃scale feature fusion pyramid network based remote sensing target detection [J]. Remote sensing, 2021, 13(5): 847.
[17] LI Z, WANG Y, ZHANG N, et al. Deep learning⁃based object detection techniques for remote sensing images: A survey [J]. Remote sensing, 2022, 14(10): 2385.
[18] ZHANG H, ZU K K, LU J, et al. EPSANet: An efficient pyramid squeeze attention block on convolutional neural network [EB/OL]. [2021⁃05⁃30]. https://api.semanticscholar.org/CorpusID:236177840.
[19] LI J F, WEN Y, HE L H. SCConv: Spatial and channel reconstruction convolution for feature redundancy [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2023: 6153⁃6162.
[20] YU J H, JIANG Y N, WANG Z Y, et al. UnitBox: An advanced object detection network [EB/OL]. [2018⁃08⁃13]. http://arxiv.org/abs/1608.01471.
[21] WANG J W, XU C, YANG W, et al. A normalized Gaussian Wasserstein distance for tiny object detection [EB/OL]. [2022⁃12⁃15]. https://arxiv.org/abs/2110.13389.
作者简介:陈鑫钰(1997—),男,甘肃平凉人,硕士研究生,研究方向为计算机视觉和目标检测。
陈媛媛(1980—),女,山西太原人,博士研究生,教授,博士生导师,研究方向为光电信息处理技术。