基于YOLOv4 的红外多波段图像目标检测算法*

2023-12-09 08:50陈韦学刘志成赵朝阳王金桥
计算机与数字工程 2023年9期
关键词:波段红外模态

陈韦学 朱 猛 刘志成 赵 旭 赵朝阳 尹 彤 王金桥

(1.天津津航技术物理研究所 天津 300308)

(2.中国科学院自动化研究所 北京 100190)

(3.空军装备部驻北京地区军事代表局 天津 300074)

1 引言

目标检测是计算机视觉和遥感图像分析的一项基本任务,被大量应用于民用和军事领域,包括医疗诊断、自动车辆导航、搜索和救援行动等。传统的目标检测算法依赖于从图像中提取手工设计的特征作为算法的输入,之后该算法执行目标的分类与精细定位。该类方法采用的手工特征对图像的表达能力不足,泛化能力较弱。近年来,基于深度学习的方法以大量的训练数据为基础,端对端提取高阶语义特征,从而充分表达目标,极大地提升了目标检测的精度。

在遥感领域,不同类型的传感器(视觉、近红外、短波、中波和长波红外、紫外线等)技术在计算机视觉领域取得了重大进展,为解决遥感目标检测任务创造了新的可能性。同时,在某些场景下,环境信息的复杂性与语义信息的丰富性,使得很少有单一模态的数据能够提供对检测目标的完整理解。若能够建立不同模式数据之间的关系,在对象识别过程中涉及新模式的信息可以提高识别质量[1]。

在遥感图像的目标检测领域,目前以可见光与单波段红外图像的多模态融合为主,但可见光图像在烟雾、黑暗条件下的成像效果差[2],具体表现为物体轮廓不清晰,特征信息丢失,使得检测任务无法适应不同的光照条件[3]。因此,为了充分研究其他波段信息的实用价值,本文摒弃了可见光波段的成像特性,并使用不同波段的红外图像,且提出了相对应的图像融合算法,本文的主要贡献如下:

1)依托本实验室采集的丰富场景下的红外多波段图像数据,本文将同一场景下的短、中、长波段的图像数据进行整合、标注,构建多波段目标检测数据集。

2)提出了基于YOLOv4 的网络模型的像素级红外图像融合方法,来充分发挥神经网络共享计算的特性,从而实现目标识别过程中对多源信息的利用,又保证较高的计算效率。

2 相关工作

2.1 目标检测算法发展现状

传统模式的目标检测算法基本上是在特定的候选区域,使用特征提取方法进行目标的识别。常用的传统特征提取方法有SIFT[4]、HOG[5]、Haar[6]等。在某些特定的任务中,这些方法能够有效地表征图像信息,但其在某些复杂场景难以做到精确描述,具有一定的局限性。

由于深度学习理论的快速发展,目标检测与识别技术在此基础上也取得了很大进步。目前基于深度学习的目标检测算法主要分为两类。一类是通过生成候选区域进行检测的双阶段算法,主要包括R-CNN[7],Fast R-CNN[8],Faster R-CNN[9]系列。其中,Faster R-CNN 属于R-CNN 和Fast R-CNN 的迭代版本,在网络结构上将特征抽取、候选区域提取、bounding box 的回归以及类别预测汇总到了一个网络中,使得其性能得到了较大提升。另一类目标检测方法是基于直接回归进行目标检测的单阶段算法,以YOLO[10]、YOLOv2[11]、YOLOv3[12]、YOLOv4[13]和SSD[14]算法为代表,具有实时的图像处理能力。

2.2 多模态目标检测算法

在遥感图像领域,用于目标检测任务的高光谱图像、合成孔径雷达(SAR)图像和红外图像等模态信息得到了广泛应用,每种模态都有其信息独特性。若有效利用不同模态之间的信息互补性,则能够给整体带来某种类型的附加价值,使多种形态的数据融合成为了可能[15]。在文献[16]中,作者使用RGB+T(热通道)的方式进行多模态数据融合,使用T 通道替换RGB 中的某一通道,生成TGB、RTB 和RGT三种模式的图像,并对其进行筛选以得到最优解;在文献[17~18]中,作者利用可见光与单波红外遥感图像,在YOLOv3 的架构上,提出了针对这两种模态的特征级融合与像素级融合两种方式,并通过实验验证,其准确率有了一定程度的提升;在文献[19]中,作者利用YOLOv2 网络,研究了RGB 和深度模态数据的最优融合点,并成功应用于行人检测。

2.3 多波段目标检测算法

目前最先进的多模态目标检测算法,大多选择可见光(RGB)模态与其他模态的数据融合方式,从而拓展RGB 图像的能力,并取得了不错的效果,但其在大雾、夜间等场景有很大的局限性。因此,本文抛弃了可见光波段的图像数据,只使用红外模态的数据,并利用不同红外波段数据携带的差异性信息,结合YOLOv4 网络,引入一个卷积神经网络框架,实现了多波段红外信息的像素级融合。为了验证算法的有效性,本文选择了短、中、长波不同波长信息的组合方式,进行大量对比实验,本文的实验结果验证了与单波段相比,多波段数据融合算法能够有效利用各个波段的差异性信息,具有较大的优势。

3 多波段数据集介绍

本次实验所构建的数据集,为红外遥感数据集,包括短、中、长三个波段不同波长红外相机采集的数据。不同波段相机采集的原始图像存在目标位置信息不匹配的问题,本文使用基于惯导信息的矫正方法,对同一场景的数据进行对齐操作,使目标的位置精度得到了保证;同时采集图像的空间分辨率非常大,不满足常见硬件设备对网络输入大小的要求,本文对其进行裁剪,最终构建了多波段目标检测数据集。

数据集标注目标为车辆,其背景包括城区、道路、树林和村庄等,背景信息较为复杂。现有数据集包括2203 张具备完整7 个谱段的分辨率为640×512的图像。图像采集的波段信息如表1所示。

表1 红外图像的波段信息

表1 对不同红外波段的波长进行了说明,从中能够看出,数据集的数据包括短波波段、中波和长波波段数据。本文在中波的波长范围内挑选两个子波段,长波的波长范围内挑选四个子波段,来构建数据集。短波中的近红外波段具有可视性,只用来进行目标的辅助标注工作,模型的训练由短、中、长波数据完成。

4 融合算法阐述

4.1 多波段融合

多波段目标检测算法以YOLOv4 框架为基础,由于传感器的输出图像为同一场景的不同波段的遥感数据,本文首先根据先验知识来保证这几个通道相互对齐,之后,根据实验所需要的波段需求进行筛选,得到理想的谱段组合方式。由于需要实现多维度数据的输入,本文将算法的第一个卷积层进行了修改,使其能够自适应地满足多个维度的图像数据的输入,并兼容任意谱段数据通道的数量,实现不同数量的谱段组合的实验方式。

对植物体的标记方法有: ①“植物营养室”培养法。在密闭的植物营养室中,通入放射性气体供植物进行光合作用。②植物地上部引入法。将示踪剂配制成浓度合适的溶液,通过涂抹、喷雾、注射等方法将示踪剂从植物的地上部引入植物体内。③植物根部引入法。即将示踪剂加入栽培介质如水、沙、土等,供给植物生长。

图1 为多波段目标检测算法的方法框架图。从图中可以看出,该模型的输入为多个波段的图像组合,本文将其组合为多维度的数据模型,之后将其送入目标检测网络,得到最终的检测结果。在图像的预处理阶段,本文需要将多个组合的图像信息进行融合,如式(1)、(2)所示:

图1 多波段目标检测融合算法框架

其中,F为目标检测神经网络,I…IN为不同波段的图像数据,concatinate 为拼合操作,此方法能够使图像保持原有的通道数,并实现不同波段图像的横向拼接,以满足图像的输入需求。在训练时,训练数据为上述拼合操作产生的多波段图像,图像的标注工作则在近红外图像上完成,并映射到短、中、长三个波段。

为了保证各个波段数据在数据扩增后的空间一致性,本文设计了并联分治的扩增方式。本文沿用了YOLOv4 的Mixup[20]、Mosaic[21]等数据增强方式,并增加了随机角度旋转的数据扩增方式。之后采用并联分治的方法,使每个波段的信息使用一致的参数进行数据增强,从而确保不同红外波段图像的信息一致性。

在式(3)中,split 为组合图像的拆分操作,在式(4)中,DAt代表第t个数据增强策略,本文对同一场景的不同波段数据使用相同参数进行数据增强,在式(5)中,concatinate 将多波段数据在深度方向上进行叠加,为最终生成多维度的谱段图像数据,本文将此多维度图像送入检测模型。在多谱段目标识别模型的训练阶段,数据扩增的每步都进行上述公式中表示的并联分治增强方式,以保持谱段数据对齐。

4.2 网络输出

本文将图像的三个输出特征层分割为若干个搜索单元,并在其中单独地进行目标搜索。对于每一个搜索单元,多波段目标融合算法能够预测出3个目标框,每一个目标框返回一个输出的特征向量:

在式(6)中,与为预测目标框相对于当前搜索单元的中心坐标系数,tw与tℎ表示预测目标框的高度与宽度系数。o来表达预测框的置信度得分,p1表示为此目标为车辆目标的概率。

接下来,本文要根据上述预测参数回归计算预测边界框的中心坐标、宽度和高度。这时本文引入已经设计好的anchor box 的信息,用ax和ay表示此搜索单元的宽度和高度(从图像的左上角开始计算),用aw和aℎ表示此anthor box 的宽度和高度,最终,预测框的中心坐标表示为x=σ(tx)+ax,y=σ(ty)+ay。其宽度为w=awexp(tw) ,高度为ℎ=aℎexp(tℎ)。

5 实验与分析

本文的实验是基于YOLOv4 目标检测框架进行的,使用了本位构建的多波段目标检测数据集。具体来说,本文按照5∶1 的比例将数据集进行分割,1835组图像用于训练,368组图像用于测试。

5.1 单波段目标检测结果

在模型的训练阶段,本文训练了300 个epochs,通过这一过程,本文对一系列的超参数进行评估,以测试模型的性能。

为了测试单波段数据的表现,本文首先使用红外单波段图像进行训练,从表2 中可以看出,中波波段的性能最好,其中,中波1 波段的mAP 达到了0.6995,为表现最好的波段。对于长波的四个波段而言,长波4波段的表现最差,其他波段与中波1相比性能会降低4%~9%左右。短波红外波段的准确率、召回率和平均精度则低于其他波段,表现不佳。为了有效提高目标检测模型性能,本文使用多波段融合算法进行训练,得到多波段模型。

表2 单红外波段模型评测结果

5.2 多波段目标检测结果

本文使用多波段数据融合算法,构建了相对应波段的融合模型,本节将其与单波段数据的训练结果进行对比,并将不同波段组合得到的mAP 绘制在了表3中,由于7个波段的波段组合很多,结果无法一一列举,本文挑选了几个波段并展示其实验结果。

表3 中波1、长波1、长波1波段交叉实验评测结果

表3 对波段融合数据的结果进行定量分析。从表中可以看出,双波段的准确率、召回率和mAP都有5%~10%左右的提升,而三个波段数据的融合结果相较于双波段其mAP 增长了4%,达到0.7858。另外,上表中也列出了全部七个波段的数据融合训练结果,其mAP 为0.7902,而三波段数据融合mAP分别为0.7858,性能提升为0.0044。可以看出,随着加入波段的增加,其检测性能在逐步提升,但是此实验结果表明,波段数量由三个增加到了七个,其mAP 的提升幅度却非常小,说明图像包含的冗余信息也随着数据量的增加而增加,正向信息的利用率有所降低,导致多波段数融合的性能提升缓慢。

5.3 不同波段目标检测结果可视化分析

本文使用不同波段组合的训练模型进行目标检测,并将两张图片的检测结果绘制在图2 和图3中。为了准确观察目标车辆的位置信息,图(a)中的输入图像表示两张待检测图像所对应的近红外波段示意图(实际送入网络的图像为相应短、中、长波的红外图像),可以观察到,第一张图片在右半部分存在四个车辆目标,第二张图片在下半部分存在三个车辆目标。

图2 单波段模型目标检测结果

图3 多波段模型目标检测结果

图2 为单波段红外图像可视化检测结果,中波1 波段的模型在第一张图片存在一个车辆目标的误检,在第二张图片中表现良好。而长波1 波段在这两张图片的检测结果不佳,检测结果大部分为漏检和误检信息;图3 为上述两张图像的多波段模型检测结果,从图中可以看出,双波段融合与三波段融合都能够正确检测出目标的位置信息,不存在中波1 和长波1 波段的错误检测。检测结果说明,相较于单波段模型,红外多波段融合算法能够提高目标检测的准确率,并且算法有能力在保证一定准确率的前提下处理人眼无法辨认的各波段数据。

6 结语

我们结合现有的多波段红外数据集,提出了一种基于YOLOv4 框架的图像数据融合的目标检测算法,此方法使用多波段图像并联输入、单波段图像统一增强的思想保证了红外多波段数据增强的一致性。实验结果表明,其克服了光照条件的影响,mAP 提升了10%以上,有效提高了模型的检测性能。若在此基础上能够定量地对每个波段的贡献程度进行分析,则能够有效提高多源信息的利用率,使模型更加精炼。

猜你喜欢
波段红外模态
网红外卖
闪亮的中国红外『芯』
TS系列红外传感器在嵌入式控制系统中的应用
基于快速递推模糊2-划分熵图割的红外图像分割
M87的多波段辐射过程及其能谱拟合
国内多模态教学研究回顾与展望
日常维护对L 波段雷达的重要性
基于HHT和Prony算法的电力系统低频振荡模态识别
基于SPOT影像的最佳波段组合选取研究
由单个模态构造对称简支梁的抗弯刚度