动态特征优化机制下的跨尺度红外行人检测

2022-10-28 05:51孙思雅
光学精密工程 2022年19期
关键词:红外尺度行人

郝 帅,何 田,马 旭,杨 磊,孙思雅

(西安科技大学 电气与控制工程学院,陕西 西安 710054)

1 引 言

行人检测旨在利用计算机视觉方法判断图像或者视频序列中是否存在行人目标并给予精确定位[1]。目前,该技术已广泛应用于目标跟踪[2]、车辆辅助驾驶[3]、人体行为分析[4]等领域。由于热红外传感器受光照变化及天气条件的影响小,具有较强的抗干扰能力,能够满足全天候检测任务需求[5]。因此,基于热红外图像的行人检测(简称红外行人检测)具有重要的研究意义,也成为行人检测领域的研究热点。

传统红外行人检测算法[6]主要是利用滑窗技术实现人工特征提取并结合分类判别器完成行人检测任务。该算法虽然在某些特定场景下能够实现目标的准确检测,但难以捕捉红外行人目标的高级语义信息,在复杂环境下泛化能力欠佳。相较于传统的目标检测算法,基于深度学习的红外行人检测算法利用卷积神经网络出色的特征提取和非线性拟合能力自动学习目标特征,在检测精度、速度以及泛化能力上都表现更好。该类算法通常可分为两类:两阶段(two-stage)检测和一阶段(one-stage)检测。快速区域卷积神经网络(Faster Region-based Convolutional Neural Network,Faster R-CNN)[7]作 为two-stage 的代表算法之一,首先寻找候选区域,然后在候选区域上对检测结果进行分类回归,能够达到较高的检测精度,但因主干特征提取网络仅提取单层特征图,对红外行人目标的特征表达能力不足,导致密集多目标的检测性能受限。为此,在Faster R-CNN 检测网络基础上,刘琼[8]等考虑到红外图像低清晰度对检测精度的不利影响,设计了膨胀最大值滤波器以增强红外行人目标显著性,进而提高检测精度。Chen[9]等针对红外行人目标多尺度特性,构建区域分解分支,结合多区域特征实现了跨尺度红外行人检测任务。Xu[10]等为降低检测网络误检率,基于视点几何约束原理,提出地面上下文聚合网络,从而剔除远离地面区域的红外行人误检目标。然而,two-stage 红外行人检测算法易丢失部分遮挡目标空间信息,且候选框之间存在大量冗余,算法计算成本较高,往往难以完成复杂环境下的实时检测任务。

One-stage 算法基于回归思想,直接利用检测网络预测行人目标类别概率并定位坐标,大大提高了检测速率。Pei[11]等设计了一种基于Retinanet 的目标检测器以融合多层语义信息,从而提高红外图像中小尺度行人目标的检测能力。Wang[12]等结合短路连接和多重空洞卷积,使检测算法在抑制网络退化现象的同时扩大检测感受野,进而增强检测算法对红外行人检测目标的特征表达能力。李经宇等[13]针对复杂环境下多尺度目标显著度低的问题,引入注意力模型使检测网络在多层特征融合分支上执行权重分配,从而提高了行人目标显著度。刘怡帆等[14]结合CLAHE(Contrast Limited Adaptive Histogram Equalization)算 法 及YOLO(You Only Look Once)检测网络,通过提高红外图像中待检测目标的对比度,提升检测精度。Liu 等[15]在YOLO检测网络基础上构建anchor-based 和anchor-free协同预测检测头,通过设置权重参数在线选择损失函数来提高检测网络对密集小尺度红外行人目标的检测能力。然而,上述算法并未测试多目标相互遮挡或重叠区域时的检测性能。

综上所述,one-stage 算法相比于two-stage 算法能够更好地兼顾检测精度和速度。然而,受红外传感器固有特性限制及复杂环境干扰,onestage 算法检测行人目标时依然存在以下问题:红外传感器受热灵敏性限制,行人目标纹理特征较弱且存在边缘模糊现象,易淹没于冗余背景中,从而导致红外待检测目标特征难以有效表达,影响检测网络性能;在密集多目标场景下,红外行人目标存在多尺度及部分遮挡,进而导致红外行人特征形变甚至丢失。

针对上述问题,本文提出一种动态特征优化机制下的红外行人检测算法(Cross-scale Detection Network based on Dynamic Feature Optimization Mechanism,DFOM-CSNet)。首先,设计了亮度感知模块(Luminance Perception Module,LPM)对输入图像进行亮度特征提取;接着设计了EG-Chimp(Chimp optimization with Energy loss and Gradient variation)优化模型对构建的目标函数进行迭代寻优,从而在增强输入图像局部对比度和细节表达能力的同时抑制背景信息干扰。为增强检测网络对多尺度及部分遮挡行人目标的检测性能,提出了一种CSFF-BiFPN(Bi-Directional Feature Pyramid Network Based on Cross Scale Feature Fusion)结构。该结构采用尺度跳跃连接的方式,增强颈部网络特征聚合能力。同时,构建跨尺度特征融合模块(Crossscale Feature Fusion,CSFF)来学习不同尺度特征之间的权重参数,从而改善多尺度以及部分遮挡情况下的行人检测效果。为精确定位检测目标,在原网络中引入完全交并比(Complete Intersection Over Union,CIOU)[16]回归损失函数,通过计算真实框与预测框的重叠面积、中心点距离及长宽比,加速算法收敛,进而提高检测精度。

2 DFOM-CSNet 红外行人检测算法

针对复杂环境下行人尺度多样性以及图像对比度低等特性造成红外行人目标难以准确定位的问题,本文在YOLOv5 特征提取网络CSPDark-Net[17]的基础上,提出DFOM-CSNet 算法,其框架如图1 所示,由DFOM、主干网络、颈部网络及预测层构成。其中,DFOM 机制旨在增强输入图像的对比度及细节表达能力,由LPM 模块和EGChimp 优化模型两部分组成。LPM 模块对红外图像进行亮度特征提取,同时EG-Chimp 优化模型对构建的目标函数进行迭代寻优,从而增强红外行人目标的对比度和细节表达能力并抑制背景信息干扰。

图1 DFOM-CSNet 网络结构Fig.1 Structure diagram of DFOM-CSNet network

主 干 网 络 由Focus 和CSPNet(Cross Stage Partial Network)两部分构成。其中,Focus 切片模块不仅扩大了网络感受野,还能够有效抑制图像特征信息损失,从而加快训练速度。CSPNet结构旨在解决网络优化过程中梯度信息重复进而造成计算成本过高的问题。

颈部网络借鉴CSPNet 构造了CSP2_X 结构以加强网络特征融合能力,并设计CSFF-BiFPN特征金字塔结构通过尺度跳跃连接方式及跨尺度特征融合模块,改善多尺度以及部分遮挡情况下的行人检测效果。

预测层通过引入CIOU 回归损失函数提高训练过程中预测框的回归速度和精度。

3 动态特征优化机制

受红外传感器热辐射成像机理的影响,红外图像相较于可见光图像分辨率往往较低,细节分辨能力较弱。针对该问题,本文提出一种DFOM机制,它利用亮度感知模块将输入图像分解为亮度特征图像及红外背景图像,并设计EG-Chimp优化模型对构建的目标函数进行迭代寻优,从而在增强输入图像局部对比度和细节表达能力的同时抑制背景信息干扰。

3.1 LPM 模块

为解决红外行人目标特征难以准确表达的问题,设计LPM 模块。首先,构建四叉树-贝塞尔插值算子,通过调节部分采样控制点来恢复大规模像素矩阵,进而得到初始背景图像。然后,为避免由于边缘控制点采样不均而造成图像块效应,利用引导滤波的局部线性拟合特性平滑图像边缘信息,最终得到重构背景图像和亮度特征图像,为后续动态特征优化奠定基础。

3.1.1 四叉树-贝塞尔插值

为准确重构红外背景图像,本文引入四叉树分解方法[18],通过尽可能多地采样除红外亮度区域外的控制点来估计背景轮廓信息。具体分解步骤如下:

算法1:动态特征优化机制Input :红外图像Iir,最大优化迭代次数Max_iteration,寻优参数α,搜索种群XAttacker,XChaser,XBarrier 和XDriver.1. LPM 模块构造四叉树-贝塞尔插值算子重构初始红外背景图像;引入引导滤波平滑噪音并得到红外亮度特征图像ILir和红外背景图像IBir;2. EG-Chimp 优化模型构建动态特征优化图像:IOir=α×ILir+IBir;设计目标函数对参数α 寻优:F=min { LSF+λLCON};While t <Max_iteration For each chimp计算各人猿种群的位置向量;更新f,m,c,a,D;End For For each search chimp更新目前搜索种群的位置向量;End For更新XAttacker,XChaser,XBarrier 和XDriver;t=t+1;End While Output :动态特征优化图像IOir

(1)调整原始红外图像尺寸为512×512,且将其分解为4 个等尺寸的一级图像块;

(2)逐块比较各图像块内的最大灰度pmax和最小灰度pmin,若满足分解条件:

式中:threshold 表示分解阈值,这里取10。

则进一步将该图像块分解为4 个二级图像块。

(3)重复步骤(2),直至所有图像块均不满足公式(1),则四叉树分解结束。

通过四叉树分解算法可将输入图像分割为多个图像块,从各图像块中均匀采样16 个控制点后,利用贝塞尔插值运算子重建红外背景图像,即:

式中:(x,y)表示插值采样点;P表示由16 个采样控制点组成的4×4 矩阵;X和Y分别为由4×4均匀采样控制点的行列坐标值构成的矢量;M表示常系数插值矩阵。各参数的具体取值如下:

3.1.2 引导滤波

为解决采样过程中各图像块边缘区域控制点因选取不一导致重构背景图像出现块效应的问题,本文采用引导滤波[19]对初始背景图像进行平滑处理,即:

式中:IBir表示红外背景图像;wk表示以像素k为中心的图像块;ak和bk为两线性参数,具体取值如下:

式中:μk和分别表示引导图像Iir在wk中的像素均值和方差;代表Ibk的像素均 值;|w|为wk图 像块内包含的像素点个数;ε表示正则化参数,以避免ak取值过大。

最后,利用线性相减算子可提取红外亮度特征图像ILir,如式(8)所示:

LPM 模块结构如图2 所示。

图2 LPM 模块原理Fig.2 Structure diagram of LPM module

3.2 EG-Chimp 优化模型

为抑制复杂背景对行人目标准确检测的影响,本文提出EG-Chimp 优化模型,通过迭代寻优生成具有局部高对比度的动态特征优化图像IOir,如式(9)所示:

式中α为寻优参数。

3.2.1 目标函数构建

本文构建的目标函数旨在兼顾动态特征优化图像的梯度变化和能量损失,分别用空间频率LSF和内容损失LCON表示。

空间频率(Spatial Frequency,SF)反映图像空间突变如边缘的变化情况,用于度量图像的梯度分布,图像SF 值越高,图像中人物目标越清晰[20]。其计算公式如下:

式中:(i,j)表示图像的横纵坐标。

为避免在优化过程中由于行人目标亮度特征过度增强而导致其细节信息无法有效保留的问题,利用l2函数构建内容损失函数,即:

综上所述,为了增强原始红外图像中行人亮度特征的同时兼顾细节信息,构造的目标函数为:

式中:λ为保持两项平衡的正则化参数,这里λ=1 500。

3.2.2 目标函数自适应优化

元启发式优化算法由于其简单、灵活、高效等特点,已成为解决全局优化问题的主要方法[21]。然而,随着问题复杂性的增加,该算法易出现收敛速度较慢,陷入局部最优解等问题[22]。因此,针对目标函数式(12),本文引入人猿优化算法[23],通过模拟人猿捕食和混乱抢食2 种状态,加快算法收敛,进而求解得到寻优参数α,在保证动态特征优化图像空间频率的同时抑制其内容损失。该算法将人猿划分为攻击型XAttacker、驱赶型XChaser、拦截型XBarrier和追逐型XDriver4 类。狩猎过程中,人猿可根据猎物的位置相应地改变自身位置,如式(13)所示:

式中:t表示当前的迭代次数,Xprey为猎物的位置向量,Xchimp为人猿的位置向量,a,c和m为系数向量,具体取值如下:

式中:f在迭代过程中由2.5 非线性递减至0,r1和r2是[0,1]内的随机向量;m为一个基于高斯混沌映射得到的混沌向量chaos,代表了人猿在狩猎过程中混乱抢食的社会现象,具体取值如下:

式中:mod(·)为求余算子,且Chaos(1)=0.7。猎物被包围后,由驱赶者、拦截者、追逐者辅助攻击者完成最终狩猎任务。为提高算法收敛速度,模型在迭代后期模拟了人猿混乱抢食过程,如下:

式中χ为[0,1]内的随机参数。

狩猎过程中,一方面人猿根据攻击者、驱赶者、拦截者和追逐者位置更新位置,并攻击猎物;另一方面人猿通过分散活动寻找猎物完成全局搜索任务。最终,通过多次迭代可得到动态特征优化图像,如图3 所示。通过动态特征优化机制可以有效增强红外图像亮度信息,相较于原始图像,优化后的图像具有更高的清晰度,为行人目标的准确检测奠定了基础。

图3 动态特征优化前后的图像对比Fig.3 Comparison of images before-and-after infrared feature dynamic optimization

4 基于CSFF-BiFPN 的颈部网络

4.1 CSFF-BiFPN 金字塔结构

原始Yolov5 网络为提高不同尺度间特征聚合能力,利用FPN+PAN 结构在自底向上传递强语义信息的同时,自顶向下传递强定位信息。然而,该结构将不同尺度特征图进行尺寸调整后直接相加聚合,无法充分利用输入端的跨尺度信息,进而影响最终的检测精度。为解决此问题,本文构建CSFF-BiFPN 特征金字塔结构,通过尺度跳跃连接方式提高网络特征聚合的能力,并设计跨尺度特征融合模块,以利用可学习权重参数对多尺度特征进行权值分配,进而增强检测网络对多尺度及部分遮挡行人目标的检测性能,特征金字塔结构对比如图4 所示。本文所构建的CSFF-BiFPN 特征金字塔结构,通过删除仅有一条输入边的节点来减少网络参数量。同时,借鉴FPN-PAN 结构,从两个方向分别传递强语义和强定位信息。为进一步利用输入特征的跨尺度信息,通过尺度跳跃连接的方式提高网络特征聚合能力并结合跨尺度特征融合模块CSFF_2和CSFF_3对来自不同输入端的特征信息进行权重分配。

图4 特征金字塔结构对比Fig.4 Comparison of feature pyramid structures

4.2 跨尺度特征融合模块

FPN-PAN 结构对来自不同尺度的输入特征进行尺度调整后直接进行相加运算,易导致特征融合不足的问题。因此,本文设计了跨尺度特征融合模块CSFF_2 和CSFF_3,自适应学习尺度不同的输入特征权重参数,模型结构如图5所示。

图5 跨尺度特征融合模块结构Fig.5 Structure of cross-scale feature fusion module

将 leveli的 输 入 特 征 记 作Ii,其 中i∈[1,2,3]。首先,对不同尺度特征进行尺度调整,在上采样过程中,利用1×1 的卷积调整通道数并引入最近邻插值提高分辨率,在下采样过程中,通过步长为2 的3×3 卷积完成1/ 2 比例的下采样,并通过在2 步卷积之前添加步长为2 的最大池化层完成1/ 4 比例的下采样;接着,利用1×1 的卷积预估各输入特征的权重参数,并在保持权重参数之间相对关系的同时,加快算法收敛,利用softmax 函数对各预估权重进行归一化处理;最后,对尺度调整后的输入特征进行权重分配得到融合后的输出特征,分别如下:

式中:λφ,λγ,λψ,λδ和λη表示利用1×1 卷积得到的预估权重参数。

5 实验结果与分析

实验中软硬件平台配置如表1 所示。

表1 软硬件平台配置Tab.1 Software and hardware platform configuration

5.1 实验数据集和网络模型训练

为验证本文所提出算法的优势,从KAIST数据集[24]中随机选取1 000 张样本数据进行实验,行人目标共5 384 个。其中,训练样本为700张,剩余300 张图片作为测试数据集。

在网络模型训练过程中,将输入图像分辨率统一调整为640×640,并采用动量项为0.937 的异步随机梯度下降法进行训练,在每一批训练的batch 中包含32 张图片,分29 次送入训练网络。在前200 轮将训练中的学习率设置为0.01,随着迭代轮数的增加,在后100 轮迭代中将训练的学习率降到0.001。为了防止模型过拟合,将权重衰减正则项设置为5×10-3,同时选用CIOU 损失函数[16]通过计算两框的重叠面积、中心点距离及宽高比提高预测框的回归速度,如下:

式中:b和bgt分别表示预测框和目标框的中心点,ρ(⋅)为两框中心点间的欧式距离,C表示覆盖预测框与目标框之间的最小矩形的斜距,ς为限制预测框长宽比的权重参数,v表示衡量预测框与真实框宽高比的一致性参数。ς和v分别为:

式中:w,h,wgt,hgt分别表示预测框和目标框的宽和高。

5.2 图像对比度分析

为验证本文所提出动态特征优化机制的有效性,选取熵(Entropy)[25],Brenner 梯度函数[26],离散余弦变换函数(Discrete Cosine Transform,DCT)[27]和方差函数(Variance)[26]作为客观评价指标。其中,Entropy 表征了图像所含信息量的丰富程度,Brenner 通过计算图像二阶梯度估计其清晰程度,DCT 突出图像频率分布信息,Variance 则从图像灰度变化的角度评估图像的聚焦程度。Entropy,Brenner,DCT 和Variance 数值越大,动态特征优化后图像对比度越高,特征表达能力越强。对KAIST数据集中随机选取1 000张样本数据进行测试验证,其定量分析结果如表2所示。

由表2 可知,本文提出的动态特征优化算法的4 种评价指标均为最优,从而证明原始图像经过动态特征优化后不仅包含更丰富的信息量,而且具有最强的对比度和最好的特征表达能力。

表2 1 000 张图片的评价指标平均值Tab.2 Average values of evaluation indexes for 1 000 images

5.3 消融实验

为客观评估本文算法的检测性能,将DFOM-CSNet 检测网络与原始YOLOv5 检测框架进行对比,结果如图6 所示。

图6 消融实验结果Fig.6 Results of ablation experiment

从图6(a)可以看出,YOLOv5 检测网络约在75 轮后达到平衡且最终稳定于0.018;而本文提出的DFOM-CSNet 检测算法仅训练20 轮损失值即下降至0.02,并最终稳定于0.009 左右,取得了较好的训练效果。从图6(b)可以看出,YOLOv5 检测网络最终的平均准确率大致为0.895,而本文算法的检测精度可达0.913。

为了进一步验证各改进模块的作用,本文在原始YOLOv5 算法框架基础上通过加入不同改进策略对测试集进行消融实验,所有实验均使用相同的数据样本和参数设置,对比结果如表3所示。

表3 改进模块验证Tab.3 Improved module validation

从表3 可知,相比于原始YOLOv5 检测网络(损失函数为GIOU),引入CIOU 损失函数后精度提升了0.5%,加入DFOM 动态特征优化机制后精度提升了1.1%,构建CSFF-BiFPN 跨尺度特征融合模块后精度提升了0.8%。为验证不同模块协同训练的优势,对CSFF-BiFPN 网络下结合GIOU 和DFOM 的 检 测 算 法,YOLOv5 网 络下结合CIOU 和DFOM 的检测网络,及CSFFBiFPN 网络下基于CIOU 的检测算法进行消融实验,结果表明,检测精度相较于原始网络分别提升了1.9%,1.5%及0.9%。最后,本文算法通过融合多种改进模块检测精度可达90.7%,较原始检测网络提升了2.4%。

5.4 对比实验分析

为客观评价本文算法的检测性能,选取Faster-RCNN[7]、SSD[28]、RetinaNet[29]、Sparse RCNN[30]、VarifocalNet[31]、TOOD[32]、I-YOLO[33]、YOLOv4-CLAHE[13]和TC-Det[34]9 种 检 测 算 法,在部分行人遮挡场景、多尺度密集多目标场景、亮度过曝场景下与本文CSNet 及DFOM-CSNet检测网络进行对比测试,结果如图7 所示(彩图见期刊电子版)。其中,真实红外行人目标如原始红外图像中黄色实线框所示,为了便于观察和后续分析,各算法的漏检和误检区域已用红色虚线框进行标注。

图7 检测结果对比Fig.7 Comparison of detection results

从第1 组实验可以看出,除DFOM-CSNet 检测算法外,其余几种对比算法在处理部分行人遮挡场景时均存在不同程度的漏检。从第2 组实验可以看出,在复杂环境下Faster-RCNN、SSD、RetinaNet,及Sparse R-CNN 算法存在较为严重的漏检问题,而其余5 种检测框架对不同尺度间特征信息的聚合能力不足,难以实现多尺度行人目标的准确检测。本文提出的DFOM-CSNet 检测算法通过设计CSFF-BiFPN 特征金字塔结构,以增强网络特征聚合能力并构建跨尺度融合模块对不同尺度特征进行权重分配,有效提高了多尺度密集多目标场景下行人目标的检测性能。从第3 组实验可以看出,在亮度过曝场景下,受日间过度光照影响,红外图像无法准确表达行人目标的细节信息,导致各种算法在检测过程中均出现较多漏检。本文提出的DFOM-CSNet 检测算法通过设计动态特征优化机制可以有效增强红外图像局部对比度,相较于CSNet 算法具有更好的检测性能。

为定量评估本文检测网络的优势,对KAIST 数据测试集进行对比实验,所有目标检测算法均使用相同的数据样本和参数设置,检测结果如表4 所示。可以看出,本文算法在检测精度上明显优于其他9 种对比算法。虽然引入动态特征优化机制后网络运行时间变长,但相比对比算法仍具有明显优势。

表4 不同检测算法的对比结果Tab.4 Comparison results of different detection algorithms

6 结 论

针对红外行人图像分辨率低、待检测目标存在多尺度及部分遮挡特性导致传统算法难以准确检测的问题,本文在CSPDarkNet 特征提取网络的基础上提出了一种动态特征优化机制下的跨尺度红外行人检测算法。在KAIST 数据集上进行行人目标检测实验,结果表明,本文设计的动态特征优化机制通过构建LPM 模块和EGChimp 优化模型,在抑制红外背景信息的同时能够增强行人目标的对比度和细节表达能力。然后,提出了CSFF-BiFPN 特征金字塔结构,采用尺度跳跃连接方式有效增强了颈部网络对部分遮挡及多尺度行人目标的检测能力;并通过构建跨尺度特征融合模块,利用可学习权重参数对多尺度特征进行权值分配,有效解决了行人目标在多尺度密集多目标场景下由于特征表达能力不足而造成的漏检和误检问题。

与9 种经典检测算法相比,本文提出的DFOM-CSNet 网络检测精度可达90.7%,在各类复杂场景下具有更好的检测效果,且能够满足实时性需求。但该算法对小尺度目标仍然存在漏检,下一阶段将针对这一问题展开研究。

猜你喜欢
红外尺度行人
环境史衰败论叙事的正误及其评判尺度
网红外卖
“资源一号”02卫星可见近红外相机、宽幅红外相机在轨顺利开机成像
闪亮的中国红外『芯』
毒舌出没,行人避让
汤定元:中国红外事业奠基人
路不为寻找者而设
我是行人
以长时间尺度看世界
9