基于改进YOLOv5的红外目标检测

2024-07-03 09:52陈超峰赵阳朱盛滔
无线互联科技 2024年10期

陈超峰 赵阳 朱盛滔

摘要:针对红外成像特性及其应用环境的差异导致的红外目标检测准确性不足等问题,文章提出了一种基于改进YOLOv5算法的红外目标检测方法。该方法引入了SIoU损失函数和多尺度扩张注意力机制,以增强模型对小尺寸目标和复杂背景中目标的检测性能。实验结果表明,与未改进的YOLOv5模型相比,改进模型在精确率、召回率和平均精确率等关键性能指标上均有显著提升,证明了该改进方法的有效性。

关键词:红外目标检测;SIoU损失函数;多尺度扩张注意力

中图分类号:TP391文献标志码:A

0 引言

在军事和民用领域,红外目标检测技术是夜间和低能见度环境中识别目标的关键技术[1]。然而,传统红外目标检测方法依赖复杂的图像处理技术和手动特征提取,面临计算成本高和环境适应性差的挑战。随着深度学习技术的发展,基于卷积神经网络(Convolutional Neural Networks,CNN)的算法,尤其是YOLO系列,为提高检测速度和性能提供了新的可能[2]。但是,将YOLO算法直接用于红外目标检测,尤其是小目标和复杂背景下的检测存在局限性。

为此,本文对YOLOv5网络进行了改进,引入SIoU损失函数以替换原有的GIoU损失函数,并引入了多尺度扩张注意力机制。这些改进优化了模型对细小物体和小目标的检测能力,显著增强了模型在复杂背景下对目标的感知能力。

1 YOLOv5网络介绍

YOLOv5检测算法是一个轻量级的检测模型,其结构如图1所示,主要由4个部分组成:(1)多尺度输入的输入层;(2)用于特征提取的主干网络;(3)由特征金字塔网络和路径聚合网络结合的颈部网络,这一设计加强了网络特征融合的能力;(4)预测头部分用于生成边界框、置信度和类别概率,直接输出检测结果。这种结构设计使YOLOv5成为一个既快速又高效的目标检测解决方案。

2 YOLOv5网络的改进

在红外图像的目标检测中,小目标通常更难检测。因此,在改进的YOLOv5网络中,使用SIoU损失替换原本的GIoU损失函数。与GIoU相比,SIoU损失函数在精细物体检测和小目标检测方面表现得更为出色。其通过融入角度考虑和规模敏感性,引入了一种更为复杂的边界框回归方法,解决了以往损失函数的局限性。SIoU损失函数由4个成本函数组成,分别为角度成本、距离成本、形状成本和IoU成本。通过整合以上方法,模型可以实现更好的训练速度和准确性的预测性能。

此外,在处理红外图像时,目标通常隐藏于复杂背景之中,系统难以识别目标。而多尺度扩张注意力机制[3]通过采用多尺度扩张注意力以及滑动窗口扩张注意力的创新方法,有效地捕捉了图像中局部和稀疏的补丁交互,显著增强了模型对于目标的感知能力。所增强的感知力也进一步提高了YOLOv5在红外图像目标检测任务中的性能。

2.1 SIoU损失函数

其中,Λ为角度损失,表示预测框和真实框之间的角度差异,ch为真实框和预测框中心点在y 轴上的坐标差,σ为真实框与预测框中心点在x 轴上的坐标差,Δ为距离损失,重新定义距离成本并考虑了角度成本,γ=2-Λ,γ表示为时间优先的距离值,ρ表示预测和真实框中心的欧式距离。

其中,Ω为形状损失,θ表示控制形状成本的关注值,一般设置为2~6,ω表示目标框与预测框之间形状不匹配的度量。最终,SIoU损失函数定义如下:

2.2 多尺度扩张注意力机制

多尺度扩张注意力机制的工作原理如图2所示。在多尺度扩张注意力机制中,首先,将特征图的通道分割成不同的头部;然后,在每个头部内部使用不同的扩张率执行滑动窗口膨胀注意力,此操作使得每个头部的自注意力操作对应其扩张率和感受野;最后,模型在不同的尺度上捕捉图像特征,这些特征随后被连接在一起,送入一个线性层进行特征聚合。这种设计允许模型在不同的尺度上理解图像,从而提高对图像内容的整体理解。通过这种方法,多尺度扩张注意力机制不仅可以捕捉局部细节,还能够感知更广泛区域的上下文信息,增强了模型的表现力。

3 实验及结果分析

3.1 数据集

本文采用的数据集是FLIR_ADAS_v2热成像数据集,该数据集由安装在车辆上的摄像头采集而得,包含9711张红外图像,15个不同的对象类别,如人、自行车、汽车、交通灯等。其中,训练集和验证集的比例分别为90%、10%。此外,该数据集的标签为JSON格式。因此,在使用之前,系统需要将其预处理为TXT文件,以便适应YOLO所需的标签格式。

3.2 评价指标

为了评估模型的性能,本文使用精确率、召回率和平均精确率均值作为评价指标。

精确率(Precision)表示在所有被模型预测为红外目标的样本中,实际上为红外目标的样本所占的比例。其计算公式为:

召回率(Recall)表示在所有实际为红外目标的样本中,被模型正确识别为红外目标的样本所占的比例。其计算公式为:

平均精确率(Mean Average Precision, mAP)表示在不同召回率水平下,精确率的平均值,以精确度和召回率为横纵坐标所围成的面积,用于综合评估模型在红外目标检测任务上的整体表现。其计算公式为:

3.3 实现细节

本文使用YOLOv5s模型并对其进行了改进,采用官方提供的预训练权重在FLIR_ADAS_v2热成像数据集上进行训练,总共训练300个Epoch,前50个Epoch采用冻结训练方式,Batch size设置为16,随后进行解冻训练,Batch size设置为8,优化器选用SGD,初始学习率设定为0.01。所有实验均在NIVIDIA GeForce RTX 4060、32GB RAM的PyTorch2.1.0环境下完成。为了更好地观察网络的训练过程,将损失函数值和平均精确度进行了可视化,如图3所示。随着训练的进行,算法的损失曲线逐渐收敛,平均精确率均值逐渐升高。

3.4 消融实验

为了验证本文所提出各项改进措施的有效性,通过进行消融实验,比较不同改进模块对算法性能的具体影响。实验对比结果如表1所示。

可以看出,在改进后的YOLOv5模型中,采用替换SIoU损失函数和加入多尺度扩张注意力机制的方式,显著提升了模型在精确率、召回率和平均精确率均值这3个关键性能指标上的表现。与原始的YOLOv5s模型相比,改进模型的精确度、召回率以及平均精确率均值分别提高了1.52%、1.39%、3.28%。这表明本文提出的改进措施有效地增强了网络对红外目标的检测能力,满足了高精度检测的要求。

4 结语

针对红外目标检测的挑战,本文提出了一种基于改进YOLOv5算法的检测模型。通过引入SIoU损失函数和MSDA机制,本文的模型在处理小目标以及复杂背景中目标的检测方面表现优异。实验结果表明,与传统YOLOv5模型相比,改进模型在精确度、召回率和平均精确率均值等关键性能指标上有明显提升,验证了本文所提改进措施的有效性。

参考文献

[1]侯旺,孙晓亮,尚洋,等.红外弱小目标检测技术研究现状与发展趋势[J].红外技术,2015(1):1-10.

[2]罗元,王薄宇,陈旭.基于深度学习的目标检测技术的研究综述[J].半导体光电,2020(1):1-10.

[3]JIAO J, TANG Y M, LIN K Y, et al. Dilateformer:multi-scale dilated transformer for visual recognition[J]. IEEE Transactions on Multimedia,2023(25):8906-8919.

(编辑 王永超编辑)

Infrared target detection based on improved YOLOv5

Chen  Chaofeng, Zhao  Yang, Zhu  Shengtao

(Xijing University, Xian 710123, China)

Abstract: Aiming at the problems of insufficient accuracy of infrared target detection caused by differences in infrared imaging characteristics and their application environments, this paper proposes an infrared target detection method based on the improved YOLOv5 algorithm. The method introduces the SIoU loss function and the multi-scale expansion attention mechanism to enhance the models detection performance for small-size targets and targets in complex backgrounds. The experimental results show that compared with the unimproved YOLOv5 model, the improved model has significant improvement in key performance indicators such as precision rate, recall rate and average precision rate, which proves the effectiveness of the improved method.

Key words: infrared target detection; SIoU loss function; multiscale dilated attention