基于改进YOLOv8 的遥感影像小目标检测研究

2024-05-03 05:41王思元

信息记录材料 2024年3期

王思元

（哈尔滨师范大学地理科学学院黑龙江哈尔滨 150500）

0 引言

在遥感影像解译中，小目标检测是一项十分具有挑战性的任务。小目标的分辨率通常比较低，且特征较为模糊，在一定程度上增加了识别与定位的难度。此外，还存在小目标被其他地物遮挡的情况。由于目标的不完整性，在目标检测中，会出现漏检错检［1］。传统的遥感影像小目标检测方法包括基于滑动窗口的区域选择、特征提取以及分类器三个部分。传统的检测方法难以适应不同尺寸大小的目标，使用固定的窗口大小，对小目标的检测不够灵活［2］。近年来，在小目标检测方面，深度学习的方法逐渐占据主导位置。区域卷积神经网络（region-based convolutional neural network， R-CNN）为小目标检测奠定了基础，通过引入区域候选网络生成候选区域，然后再进行分类和回归［3］。单次多框检测器（single shot multiBox detector， SSD）采用多尺度目标检测的方法，在不同层次的特征图上进行检测，更好地完成不同尺度的目标检测［4］。YOLO（you only look once）系列提出了一种端到端的实时目标检测方法。一次性完成目标的检测和定位，优化目标检测流程，实现高效的实时检测。尽管深度学习的方法在图像处理的任务中取得了一定的成绩，但仍需要进一步提升模型的性能、适应能力以及鲁棒性等，以更好地满足实际应用的需求［5－6］。

1 YOLOv8

YOLO 系列算法是仅采用一个卷积神经网络实现端到端的目标检测方法。它将目标检测任务视为回归问题，一次性直接完成目标检测与定位，以实现高效的实时目标检测［7］。2015 年，YOLOv1 首次提出，经历多次迭代，2023年Ultralytics 公司发布了YOLO 的最新版本YOLOv8。YOLOv8 是一个无锚模型，即不使用预先定义的锚框匹配真实目标框，而是直接预测对象的中心［8］。无锚检测减少了箱体预测的数量，从而加快了非极大值抑制的速度。无锚检测的方法在一定程度上也可以避免由于预设锚框参数设置不合理导致的重复检测及漏检的问题［9］。YOLOv8的骨干网络类似于YOLOv5，虽然仍然延续跨阶段局部（cross stage partial， CSP）网络思想，但使用C2f 模块替换C3 模块，使得模型更加轻量化，同时能够获得更加丰富的梯度流信息。YOLOv8 的整体网络结构如图1 所示，主要分为骨干网络（backbone）、颈部网络（neck）和检测头（head）三部分。

YOLOv8 的优点在于其具有更快的检测速度，并且由于其结构的特性，在实时应用中可以实现较低的延迟。同时，较强的特征提取能力使得模型能够更准确地捕捉细节特征，在不同的数据集上，均表现出更高的检测精度［10］。但是YOLOv8 的整体模型较大，需要较高的计算资源，在一些资源受限的设备上可能会难以应用。YOLOv8 在检测有遮挡旋转的目标或者一些小目标时，效果会有一定的降低。

2 算法改进

为了提升YOLOv8 在遥感影像小目标检测中的整体性能，本研究对模型做如下三个方面的改进。第一，用更加轻量级卷积方法鬼影混洗卷积（ghost-shuffle conv，GSConv）代替YOLOv8 中Backbone 中的卷积，以减少模型的计算成本［11］。第二，引入Slim-neck 设计范式，进一步优化Neck 部分的结构，其中GS Bottleneck 模块能够有效地对网络的特征处理能力进行增强，而VoV-GSCSP 模块则可以提高特征利用效率及网络的性能。第三，通过在特征推理阶段添加切片辅助超推理（slicing aided hyper inference， SAHI）库模块，再次提高小目标的检测率［12］。改进后的网络结构图如图2 所示。

图2 改进后的整体网络结构图

2.1 GSConv

为了进一步解决卷积神经网络中预测计算的速度问题，研究人员引入一种新的轻量级卷积技术GSConv，在保持准确性的同时减轻模型负担［13］。在GSConv 中，输入的数据首先通过一个卷积层，该层的输出通道数为C2/2，然后进行深度可分离卷积的操作，再将卷积层与深度可分离层的输出进行拼接操作，最后进行混洗操作。它将通道重新排列以提高不同通道间的信息流动，在提高网络的效率同时兼顾对不同通道的信息整合［14－15］。GSConv 最终的输出特征图共有C2个通道。GSConv 的计算成本只有标准卷积（standard convolution， SConv）的一半，但模型的学习能力却与SConv 不相上下。GSConv 结构如图3 所示。

图3 GSConv 结构图

2.2 Slim-neck

Slim-neck 是一种新的设计范式，用于卷积神经网络的Neck 部分，旨在保持准确度的同时，降低计算复杂度及相关推理时间。Slim-neck 灵活地使用 GSConv、 GS Bottleneck 以及VoV-GSCSP 模块进行构建。这种组合模式更加便于处理不同场景的任务。GS Bottleneck 基于GSConv 模块，能够加强网络对特征的处理能力，GS Bottleneck 模块的结构如图4 所示。VoV-GSCSP 则是利用一次性聚合方法设计的CSP 网络模块，以提高特征利用率及网络的性能，VoV-GSCSP 模块结构图如图5 所示。

图4 GS Bottleneck 模块结构图

图5 VoV-GSCSP 模块结构图

2.3 SAHI

SAHI 的核心思想是通过将图像进行切片来检测小目标。在本研究中，将此模块添加到改进模型中的特征推理阶段，首先采用滑动窗口将图像分成若干区域，再进行调整图像尺寸大小的resize 操作，将预测图片分区域进行预测，并同时对整张图片预测。将预测的两部分结果合并，用非极大值抑制完成过滤，实现整个推理过程。SAHI 可以不重新训练原始检测模型，在不影响性能的情况下快速应用，提升小目标的检测率，从而提升模型的整体性能。

3 实验结果与分析

3.1 实验环境与数据集

本研究在Linux 18.04 操作系统上进行实验验证。深度学习框架选用PyTorch，将初始学习率与权重衰减系数分别设置为0.01 和0.000 5，迭代次数设置为300 次。在推理预测阶段，SAHI 的切片宽度及高度设置为100×100，宽度及高度的重叠率设置为0.2。实验选用DOTA 系列数据集作为实验数据。DOTA 数据集是一个用于航空影像中目标检测的大规模数据集［4］。DOTAv1.0 通过不同传感器及平台采集影像共2 806 张，实例数量188 282 个。数据集中采用四边形边界框标注，包括飞机、船只、储罐等15 种类别。根据本研究中的模型特性，将图片裁剪为640×640，然后再输入模型中进行训练。

3.2 评价指标

根据YOLO 系列模型的评价标准，本研究选用如下几个评价指标：准确率（precision，P）、召回率（recall，R）、mAP50 以及mAP50－95 对模型的性能进行评价。准确率，即在所有预测为正样本的结果中，预测正确的比例，如公式（1）所示。召回率，即在所有真实值为正样本的结果中，预测正确的比例，公式如（2）所示。以准确率和召回率作为两坐标轴，PR曲线下的面积就是该类别的平均精度（average precision，AP）。mAP50 指交并比为0.5 时，所有类别的平均AP。mAP50－95 指交并比从0.5 到0.95，以0.05 为一个步长上的平均mAP，如公式（3）和（4）所示。其中TP指模型正确预测的正样本数量；FP指错误预测的正样本数量；FN指错误预测为负样本的数量。

3.3 消融实验

本研究设计消融实验，在软硬件配置相同的情况下，验证模型中所添加模块的有效性。表1 中详细给出了实验结果数据。通过分析，改进后的模型准确率为0.783，原模型为0.752，改进后的模型比原模型准确率提升了3.1%。召回率由0.627 上升到0.666，提升了3.9%。mAP50 与mAP50－95 分别提升了4.1%和4%。改进后的模型参数量与原模型相比下降了15.6%。此外，各模型的预测效果如图6 所示。根据结果图可以得出，添加了SAHI 模块的改进模型有效改善了漏检现象，如图6（f）所示，获得了更好的预测效果。

表1 消融实验

图6 消融实验结果对比图

3.4 对比实验

为了验证改进模型的性能，选取目前较为主流的目标检测算法YOLOv3－tiny、YOLOv5n、YOLOv6n 进行比较。上述几种模型的实验环境均保证一致。对比结果如表2所示。从结果数据分析可知，YOLOv3－tiny 及YOLOv6n较与改进后的模型相比，参数量较大，且通过准确率、召回率、mAP50 以及mAP50－95 来看，改进后的模型均优于其他几种模型。预测结果如图7 所示。

表2 对比实验

图7 对比实验结果对比图

4 结语

本文通过对YOLOv8 算法进行改进，将改进后的算法应用于遥感影像中的小目标检测。根据消融实验及对比实验的结果数据来看，改进后的模型与原模型相比在数据量、准确率、召回率及平均精度上都有了一定的提高，对遥感影像中小目标受遮挡不完整的情况也能够准确识别，对漏检错检的有一定程度的改善。但在后续工作中仍需进一步优化网络，提升模型在更多复杂场景中的表现能力。