基于深度学习的红外小目标检测算法综述

2023-11-17 07:18李文博
激光与红外 2023年10期
关键词:实时性红外图像

李文博,王 琦,高 尚

(江苏科技大学计算机学院,江苏 镇江 212100)

1 引 言

红外辐射是一种频率介于可见光与微波之间的电磁波,具有与可见光相同的本质。在自然界中,温度高于绝对零度(-273 ℃)的一切物体总是在不断地发射着红外辐射。按图1所示流程,通过使用红外热像仪等专业设备收集、探测这些辐射能,并将其转换为相应的电信号,经过放大、模数转换等处理后就可以形成与景物温度分布相对应的红外热图像。它能够再现景物各部分温度与辐射发射率的差异,因而可以显示出物体的特征。在一些特殊天气或特殊场景,例如可视距离短、能见度差、存在被物体遮蔽的情况,基于可见光图像的目标检测效果并不十分理想。而红外成像技术凭借穿透能力强,工作距离远,受天气影响较小,抗外界干扰能力强、且测量精度高、能持续工作等优点,使得基于红外成像技术得到的图像进行的目标检测方法得到了众多领域的广泛应用,如辅助医学诊断[1]、缺陷检测[2]、海上船舰搜寻[3]等。作为目标检测领域的一个分支,基于红外图像的小目标检测巨大的应用价值随之显露,众多研究人员也相继将关注点与研究方向集中于该领域。

图1 红外成像原理图

目前对于红外小目标的检测主要可分为以下两类算法:基于传统方法的红外小目标检测算法与基于深度学习的红外小目标检测算法。由于受外界因素影响,在众多应用场景下,待检测的小红外目标占整幅红外图像的面积非常小,一般不超过100个像素。同时,红外小目标缺少相对明显的颜色、形状、纹理等信息,且边界模糊,这使得对其的检测更具挑战。更困难的是,建筑物、流动的云等干扰物的存在使得红外小目标容易被干扰和淹没[4]。再者,由于高于绝对零度的物体都可以产生红外辐射,检测算法的虚警率会大幅度提升。此外,现有的检测方法在实时性、高效率等性能上还不能全方位地完全满足部分领域的特殊应用需求。因此,为应对上述挑战,我们可以:

1)分析红外小目标的成像特性,确定合适的检测算法并为其选择恰当的改进方式。

2)针对红外小目标易受环境干扰等问题,除改进检测方法外,可以适当对红外图像本身进行处理。

3)兼顾算法的实时性、鲁棒性等,根据应用场景的特殊需求,寻求性能之间的平衡。

2 传统红外小目标检测算法

由于任务及数据间存在差别,传统的方法会更多依赖于人工,需要人为对数据进行观察、计算与实验,手动调整参数。根据检测方式的不同,传统的红外小目标检测算法可分为单帧型(Single-frame based)与多帧型(Multi-frame based)。

2.1 单帧型目标检测算法

单帧型检测算法的思路主要有以下三种:增加背景与相关目标间的对比度,从而实现直接检测;抑制背景,提高相关目标可辨识度;将被检测目标与背景分离,从而实现检测。主要应用的方法有小波变换法、注意力模型法、形态学滤波法等。

在应用该类算法对红外小目标进行检测时,多是通过各种方式方法,尽可能地使得小目标与背景区别开来。如袁帅等人[5]基于第二种检测思路,通过计算目标区域与内外双层邻域的差异以提高明弱小目标的局部对比度,抑制复杂背景噪声;而吴文怡等人[6]为得到更多的小目标特征,将Contourlet变换应用于红外小目标检测领域,多方向分解图像;此外,潘胜达等人[7]提出基于双层局部对比度机制DLCM,可以实现不同尺度的红外小目标检测。

上述算法的优点在于计算相对简单、复杂度较低、实时性较好等,但其更适用于简单场景下的检测,而对于复杂多变的现实场景则略显拙劣。

2.2 多帧型目标检测算法

多帧型检测算法是指利用时域、空域信息检测目标,并预测目标在序列图中的运动轨迹。按照目标特性处理顺序的不同,该类算法主要分为两类,跟踪前检测(Detect Before Track,DBT)算法与检测前跟踪(Track Before Detect,TBD)算法。

DBT算法通常先利用单帧检测算法得到每帧中若干可能的目标,再根据目标运动轨迹的连续性,排除序列图中的不可能目标,进而得到真实目标的运动轨迹,也可以理解为是在单帧型算法的基础上加入后处理方法,其流程如图2所示。以娄康等人[8]的研究为例,即基于卡尔曼滤波方法,预测下一帧的目标位置,再与实际位置进行校验,最终提取到目标轨迹。该类算法容易实现,且可以跟踪目标运动轨迹,应用性强,但其性能受应用的单帧型算法的性能影响较大,若单帧型算法性能不佳,则DBT算法的最终性能也很难符合预期。

图2 DBT 算法流程图

TBD算法中多指利用灰度波动信息,直接对多帧序列图中的目标进行提取,具体流程如图3所示。该类算法的研究思路主要有四种:一维处理法、三维搜索法、帧间差分法与空时结合法。以一维处理法为例,它是指单独关注某个像素点在连续多帧间的灰度信息,利用目标像素点与其他像素点在时域中的波动信息差异,对目标像素点与其他像素点进行区分。如Bae等人[9]提出逐个对像素点的灰度值在时域上采用时域内积,以确定小目标位置;刘德连等人[10]提出停滞点连线的概念,将其作为基准来计算每一个像素点的灰度与基准之间的差值来确定目标位置。该类算法性能相对较好,且在某些情况下,可以同时确定目标位置与运动轨迹,但其需要综合考虑前后多帧图才可完成对当前帧的检测,使得实时性相对较差。同时,由于需要以目标的众多信息作为先验知识,某些场景下的检测性能会有一定概率因缺少相关信息而导致检测失败。

图3 TBD 算法流程图

3 基于深度学习的红外小目标检测算法

随着计算机性能的不断提升,自2012年AlexNet出现后,基于深度学习方法的目标检测算法逐渐走入人们的视野,并在安防[11]、自动驾驶[12]、智能医疗[13]、智慧家居[14]等众多热门行业受到关注。与依赖人工设定的基于传统方法的目标检测不同,基于深度学习的目标检测算法是通过训练神经网络并根据其学习到的目标特征信息,判断某物颜色、纹理等特征是否与目标特征吻合,进而实现对目标的检测。值得注意的是,对于复杂场景下的小目标检测,如同时出现建筑物、干扰物体、天空等的情况,基于深度学习的目标检测算法的性能通常优于传统目标检测算法。但并非所有的深度学习类目标检测算法都适用于某一任务,需依照部署场景选择恰当的算法。在对算法进行甄别时,评估指标是评定其性能是否符合要求的重要参照,而对于不同类型算法的性能判别,又需根据各自的特点采取不同的评估指标。此外,数据集选取的是否得当亦会影响算法的检测效果,是须慎重考虑的部分,具体内容参照下文。

3.1 评估指标

作为了解算法性能的基准,评估指标为全面分析目标检测算法的优劣提供了参照物。目前对基于深度学习的目标检测算法的性能评估指标有交并比(Intersection over Union,IoU)、准确率(Accuracy)、精确率(Precision)、召回率(Recall)、平均精确率(Average Precision,AP)、平均精确率均值(mean Average Precision,mAP)、检测速度(Frames Per Second,FPS)、浮点运算数(Floating point operations,FLOPs)等。令TP、FP、FN、TN分别表示表1所示含义,即TP代表将正样本预测为正样本的数目,FN代表将正样本预测为负样本的数目,FP与TN同理可得,则上述评估指标的具体含义及计算方式可以参照表2。在使用评估指标选择网络模型时,若对精确度的需求较高,则主要考虑mAP与Recal两个指标的数值;若对算法的实时性有较高要求,且有嵌入式部署需求的可能性,则主要考虑FPS与FLOPs两个指标。

表1 混淆矩阵

表2 常用评估指标介绍

3.2 红外小目标数据集

数据集的优劣是影响深度学习模型优劣的重要因素之一,数据集中图像的特征越清晰,习得的特征越多越准确,检测结果通常会越优秀。不同于可见光的图像数据可以通过拍摄多张图片取平均的方式直接获取,红外图像降噪数据集的制作难度较大。现在可公开获取的红外小目标数据集数量相比之下较少,主要有如下几种:

1.SIRST数据集[15]

SIRST单帧红外小目标数据集由数百个序列中抽出的代表性图片组成,其中的图像目标以5种不同的形式进行标注,可适用于不同的检测模型与任务,如实例分割、图像分类等。该数据集共包含480个小目标,分布在427张红外图像中,且约55 %的目标面积占比在0.02 %之内,35 %的目标亮度是全图最亮。

2.NUDT-SIRST数据集[16]

NUDT-SIRST数据集是受其他数据稀缺领域的解决方案的启发,开发的大型红外小目标数据集。其中主要包含5个场景:城市、田野、亮点、海洋和云。每幅图像都是由真实背景合成的,有各种不同的目标,如点状、扩展状等。

3.红外飞机小目标数据集[17]

红外飞机小目标数据集共包括22个已标注的data文件夹,图像内容主要以地面背景、天空背景、多架飞机、飞机远离、飞机靠近等情景为主。

4.地/空背景下红外图像弱小飞机目标检测跟踪数据集[18]

地/空背景下红外图像弱小飞机目标检测跟踪数据集是以低空飞行的弱小飞机目标检测跟踪为应用导向,以单架或集群固定翼无人机目标为检测目标的数据集。其获取场景包括天空、地面等,总计16177帧图像、共囊括16944个目标。

3.3 红外小目标检测算法

3.3.1 检测算法介绍

基于深度学习方法的红外小目标检测算法主要分为两种:基于one-stage的方法与基于two-stage方法,其代表算法如图4所示。

图4 主流目标检测算法图

One-stage目标检测算法是基于回归的范式,不生成候选框而直接对物体进行分类和候选框预测,简化了网络结构,准确度虽较two-stage的目标检测框架低但实时性较好,代表算法有YOLO[19]系列、SSD[20]系列、Anchor-Free[21]系列等。以R-CNN[22]、MaskR-CNN[23]、Faster-RCNN[24]等为代表的two-stage目标检测算法则是将检测过程划分为两步,先通过区域选择方法生成候选框,再与卷积神经网络CNN结合,对候选框的位置进行分类与回归,准确率高但实时性较差。两种算法的具体流程,如图5所示。

图5 One-stage 算法与 two-stage 算法流程图

以上两种方法各有其优缺点,如表3所示。以YOLO算法与R-CNN算法的对比为例,YOLO算法将全图分为S×S的网格,每一个小网格只负责对其中的目标进行检测,所有网格中的目标的边界框、置信度等会一次性得到预测,因而实时性好,但准确率相对有较大的提升空间,其结构如图6所示。而R-CNN算法与YOLO算法的检测流程不同,如图7所示,它首先对图像生成1~2 k个候选区域,再对每个候选区域进行特征提取并将其送入每一类的SVM分类器,判别其类别,最后使用回归算法修正候选框的位置。与YOLO算法相比,R-CNN的准确率更高,但是由于其流程较复杂、生成的众多候选框引入了大量的计算,故实时性较差。因而,根据实际问题选择合适的算法,并对其进行恰当的改进则尤为重要。

图6 YOLO 算法结构图

图7 R-CNN 算法流程图

虽然相比于其他传统方法,基于深度学习方法的红外小目标检测算法在检测性能方面占据优势,但是,使用该类的算法对红外小目标进行检测时,仍有需重点关注的问题难点,如下所述:

1)由于深度学习较依赖于利用大量的样本数据对模型进行训练的过程,因而样本数据的数量与质量会对检测结果造成较大的影响。然而,现有的高质量红外小目标数据集较少,训练样本稀缺,使得在小样本条件下,对红外小目标进行检测难度更大。可以考虑利用现有样本对其进行扩增,使得其数量与质量满足基本训练需求。同时,也要将算法的泛化性、鲁棒性纳入考量中。

2)CNN通常使用堆叠网络的方式增大感受野以提取到更有效的语义特征。然而,对于红外小目标,特征提取困难较大,极易受到环境因素干扰,且随着网络层数的增加,语义特征可能会消失,导致检测效果差。

3)由于小目标在红外图中所占面积小,若直接利用现有主流深度学习模型,设定的锚框尺寸不贴近目标尺寸,则锚框偏移一个像素点也会对检测效果影响非常大。

4)随着近些年各行业领域对检测模型的应用要求的逐步提高,为使得其可以移植于嵌入式这类对实时性要求较高的平台,解决计算开销大、资源受限等问题,需要对原有模型结构进行精简,从而得到一个轻量化且准确率相当的网络,即要求其具有更快的检测速度,更小的内存占用,以便部署在硬件环境受限的条件下。因而,需要考虑是否有必要使用模型压缩方法以轻量化网络模型。

3.3.2 算法改进介绍

以one-stage方法为例,葛玉鹏等人[25]针对红外小目标检测,改进YOLOv3模型的特征融合结构FPN,提出如图8所示的自适应特征融合方法。改进后的网络可以提高重要信息权重,抑制次要信息,其mAP(mean Average Precision)可达到89.3 %。同时,结合了通道注意力和位置信息注意力的坐标注意力结构,进一步提升了模型的准确率。同样是对于YOLOv3的改进,李慕锴等人[26]借鉴SENet中依照权重重标定特征的思路,引入SEblock,将准确率提升到83.97 %。与上述改进思路不同,徐延想等人[27]为缓解红外小目标特征不明显,且提取困难等问题带来的不良影响,基于ReneDet网络设计了IoU预测模块,使得网络更好的感知小目标位置,并且针对小目标容易发生漏检的问题,提出了目标搬移算法以间接增加小目标数量。而同样是考虑到红外图像数据少的问题,王悦行[28]等人另辟蹊径,利用如图9所示的特征迁移学习,将大量仿真图像和少量真实图像作为训练样本,解决跨域适应性问题,将海天场景下的检测mAP提高到94.21 %。对于轻量化领域的研究,李北明等人[29]利用GhostNet模块做模型剪枝,改进YOLOv5s,使得模型参数量仅为1.9 M,在海思平台取得90.2 %的mAP前提下,检测速度可以达到25帧/s,兼顾了实时性、计算复杂度的问题,可以很好的移植到硬件条件受限的环境中。

图8 自适应特征融合模块图

图9 特征迁移学习流程图

对于two-stage目标检测算法,杨子轩等人[30]针对红外小目标纹理信息少的问题,在由R-CNN改进的模型CascadeR-CNN的基础上,引入注意力机制并将其分为全局通道注意力、局部通道注意力和空间注意力机制。同时,设置小锚框以匹配小目标尺寸问题,从而获得更准确的检测结果。而针对红外图像本身存在的问题,蒋志新等人[31]选择在进行图像预处理时,将直方图均衡化与图10所示的Retinex相结合以进行图像增强,同时,改进FasterR-CNN网络的损失函数,较原始网络,mAP提成了6.11 %。与之类似,李斌等人[32]基于差异统计方法,在top-hat上加入感兴趣块与周围区域的差异信息,提出适用于小目标的增强方法,有效地增强图像对比度,抑制背景信息。

综上所述,研究者们可以根据红外小目标检测存在的问题难点,针对性地提出解决方案。如针对样本稀少的问题,可以自行构建优质红外数据集;为获得更好的检测结果,一个非常有效的方式是在对红外图像进行预处理时,对图像进行数据增强,如Mixup[33]、Mosaic[34]等;也可通过重新制定注意力模块、特征融合模块等方式,弥补红外小目标缺少形状、纹理等特征对检测造成的影响,如YimianDai等人[15]为了强调红外小目标的特征信息,对网络的下采样策略进行调整,同时,提出自底向上的注意力调制模块BLAM与ACM模型,以此来将底层的细节特征编码入高层特征中并供其使用;锚框问题可以通过k-means算法重新生成,或学习Jinming Du等人[35],针对红外小目标设计新的small Anchor;实时性问题可以通过使用知识蒸馏、参数量化与模型剪枝等模型压缩方法提高,其主要方法的原理与优缺点如表4所示。以上方法都可以高效且极具针对性的解决上述提及的问题难点。

表4 常用模型压缩方法对比

值得一提的是,对于样本稀少问题,除上述提到的方法,使用生成对抗网络(Generative Adversarial Networks,GAN)[36]来生成数据也是可行性非常强的一种方式。该网络由两个部分构成:生成器Generator与判别器Discrimination。生成器负责通过机器生成“真实”数据以通过判别器的检测,而判别器则负责判断数据是否是真实数据,以过滤掉生成器伪造的“真实”数据。通过上述的过程,使得生成器与判别器实现相互间的对抗博弈,从而让生成器生成的数据越来越“真实”,判别器的鉴定水平也随之提高,其网络流程如图11所示。由于GAN中生成器的更新信息来自判别器,而不是来自数据样本,因而,只用到了反向传播,过程较为简单。同时,GAN网络生成的样本更加清晰、真实,若形成规模化的数据库,极有可能会提升目标检测算法的检测效果。

图11 生成对抗网络 GAN 的检测流程图

虽然基于深度学习方法的红外小目标检测算法研究已经取得了巨大的进展,上文3.3.1章节中提到的四个问题难点仍旧是在现阶段乃至今后一段时期内阻碍该领域研究的重点所在,也是未来提高红外小目标检测性能的必由之路。

4 总结与展望

在技术发展日新月异的时代,基于深度学习的红外小目标检测算法具有较为重大的理论意义和实际应用价值,具有开阔的市场前景。目前,该领域的研究已经取得的一些成果可以满足大多数场景的需求,如灾难救援[37]、海洋监测[38]、红外预警[39]等。本文在对现有的红外小目标检测算法进行介绍的基础之上,详细阐述了基于深度学习的红外小目标检测算法的相关内容,如性能评估指标、可用数据集、类别划分等,并对其算法原理、优势及不足进行解释说明,同时,以介绍代表性示例的方式进一步解析算法的精妙之处。综上所述,传统的检测方法虽然可以实现基本功能需求,但在精确度与实时性等性能方面皆有较大的实际限制;而基于深度学习的方法由于避免了人工调参步骤,转而使用神经网络进行训练学习,相比于传统方法,精确度与实时性具有一定的优越性,且可以更好的应对复杂场景下的检测任务。

然而,目前红外小目标的检测研究面临着可用红外样本少、小目标自身可用特征少、算法鲁棒性、实时性及泛化性还不能适用于特定场景等问题,在一定程度上限制着该领域的发展,并使得对其的研究仍然具有极大的挑战性。因而,未来对于红外小目标检测算法研究的发展趋势应是:

1)科技及工业的发展会为获取图像的设备、方式以及图像处理方法等注入新的动力,使得研究者可以更加轻松地制作高质量红外小目标数据集,获取到携带有更多可用特征的红外小目标,进而,提升算法精度。

2)高实时性、低复杂度的检测算法成为研究热点。AI技术的飞速发展使得模型的嵌入式部署、移动端部署成为可能,这要求在对算法进行设计时,要更多的考虑轻量化方面的改进。

3)各模块、算法等跨领域融合成为未来研究的趋势,如传统算法与深度学习算法的结合、图像处理领域算法与深度学习算法的结合等。

4)受限于二维平面图像可学习信息的局限性,基于3D的深度学习模型会极大地增加信息量,更全面地对目标进行学习,从而更准确地确定目标类别,得到更准确地检测结果。

猜你喜欢
实时性红外图像
改进的LapSRN遥感图像超分辨重建
网红外卖
基于规则实时性的端云动态分配方法研究
闪亮的中国红外『芯』
有趣的图像诗
TS系列红外传感器在嵌入式控制系统中的应用
基于虚拟局域网的智能变电站通信网络实时性仿真
航空电子AFDX与AVB传输实时性抗干扰对比
基于快速递推模糊2-划分熵图割的红外图像分割
一种车载Profibus总线系统的实时性分析