基于深度学习的多模态行人检测算法

2022-11-02 02:00李晓艳符惠桐牛文涛王鹏吕志刚王伟明
西安交通大学学报 2022年10期
关键词:特征提取行人模态

李晓艳,符惠桐,牛文涛,王鹏,吕志刚,王伟明

(1.西安工业大学电子信息工程学院,710021,西安; 2.西安工业大学发展规划处,710021,西安;3.西安翔迅科技有限责任公司,710068,西安; 4. 陕西航天技术应用研究院有限公司,710100,西安)

行人检测是深度学习中目标检测内一项重要的研究内容,广泛应用于安防安检、自动驾驶、人机交互等工业领域[1]。卷积神经网络的快速发展及应用使目标检测的精度有了质的飞跃,但极大地依赖于卷积神经网络的多参数、多运算以及高功耗[2]。例如,Faster R-CNN[3]、SSD[4]、YOLO[5]等先进的目标检测算法逐渐被提出,行人检测任务从此变得高效、精准。此外,在军事作战、侦察中,以大规模有生力量的作战已经逐步被机械化、智能化的武器装备所取代,复杂的应用背景、全天候的应用需求、高效的检测效率对目标检测的鲁棒性、检测精度和推理延迟提出了更高的要求[6]。如何在光照不足的夜间场景下提升行人检测算法的质量是目前研究的重点与难点。

单一的可见光传感器难以适应微光及无光环境,无法完成复杂环境下的行人检测工作,多传感器的信息融合有助于完成不同信息间的互补,从而更好地适应全天候的工作[7]。可见光和红外数据的多光谱融合有效地提升了算法对于环境的感知能力,使夜间高精度行人检测成为了可能,各国学者也在积极进行研究。文献[8]由聚合通道特征的方法扩展而来,提出可见光和红外信息融合的聚合通道特征(ACF)+热通道+热通道直方图方向梯度的方法,并创建了KAIST多光谱行人检测数据集[9]。该方法对可见光和红外光图像进行了图像配准,可有效地进行特征融合,但是该方法为传统方法,检测效率及准确率都很不理想。文献[10]首次将可见光图像和红外图像进行图像深度特征的融合,相较于传统方法在准确率上有了极大提升。文献[11]进一步对可见光和红外图像的特征级融合进行了探索,提出了更加高效的中层特征融合方案。文献[12]基于中层特征级融合方法,结合Faster R-CNN中候选区建议网络(RPN)[13-14]的思想,最终采用提高决策树(BDT)分类的方法,进一步提升了行人检测精度。文献[15]基于Faster R-CNN目标检测算法,在不同的阶段进行可见光和红外图像深层特征的融合,并且提出一种感知光照导向的融合算法,实现了全天候行人的精确检测,但是效率依然不高。文献[16]讨论了多模态融合检测过程中存在的模态不平衡的问题,并搭建了MBNet网络以解决模态不平衡的问题,极大地提升了算法的检测效率,但算法体积庞大,推理效率有较大的优化空间。综上所述可知,多模态行人检测算法大多数存在推理效率不高、算法体积庞大的问题。

本文在MBNet算法的基础上,提出了一种针对可见光和红外多模态融合的轻量级行人检测算法(G-MBNet),在保证检测精度的情况下,有效地压缩了算法体积、提升了算法推理效率。本文以ResNet18[17]为基础网络,结合跨链接[18]的思想搭建跨阶段部分残差网络(CSP-ResNet18),并且在残差结构内容引入轻量级注意力机制ECA[19]提升算法性能,最终通过Ghost轻量级模块[20]进行算法重构,减少算法参数,提升算法效率。

1 MBNet多模态行人检测算法

MBNet多模态行人检测算法由特征提取结构、光照感知结构和特征对齐模块共3部分组成,如图1 所示。

图1 MBNet多模态行人检测算法Fig.1 MBNet multi-modal pedestrian detection algorithm

在特征提取阶段融入了差分模态感知融合(DMAF)模块以解决特征模态不平衡问题。该模块以差分放大电路为原型,通过两个模态特征之间进行互补,以一种模态去增强另外一种模态,从而可以提高算法对另一个模态特征信息的敏感程度,提升两个通道间信息交互的程度。DMAF模块具体公式为

(1)

(2)

式中:FW和FR分别表示模态增强后的可见光和红外图像特征;FW1和FW2分别表示模态增强前的通道1和通道2的可见光图像特征;FR1和FR2分别表示模态增强前的通道1和通道2的红外图像特征。

差分模态很好地反映了两个模态之间的差异。为了更好地让差分信息融入至对应的通道中,对差分信息进行平均全局池化、激活以及点乘操作,之后与对应通道进行相加得到新的融合特征,公式为

(3)

(4)

式中:F′R和F′T分别代表经过差分放大后的可见光和红外通道特征;f表示残差映射;GAP表示全局平均池化;σ表示激活函数;⊕、⊗分别表示逐元素相加和相乘操作;FTD表示可见光互补特征;FRD表示红外互补特征。

此外,光照感知特征对齐模块可以使算法适应不同的光照条件,并且在区域建议阶段后对齐两个模态的特征。其中,光照感知值通过一个微型神经网络捕获照明机制获得,只采用RGB图像进行光照感知,得到的感知系数作为可见光和红外特征的权重系数并进行加权融合,得到最终的特征值。由于可见光和红外图像并不是完美校准,所以通过形态对齐模块用于预测两个模态之间的偏移量,以此进行模态之间的校准。此外,紧接着基于光照感知特征补充阶段对可变形锚框和置信度分数进行微调,提高检测精度。

总体来说,特征提取阶段计算量极大,推理效率不足,所以本文主要对特征提取阶段的网络进行轻量化设计,以压缩算法体积、加快整体算法的推理效率。

2 G-MBNet轻量化行人检测算法

本文基于MBNet多模态行人检测检测算法,通过特征提取网络构建、网络模型优化、网络模型重构等方法,在保证检测精度的情况下对检测算法进行轻量化设计,最终的轻量化设计方案如图2所示。首先,选用MBNet算法的ResNet50特征提取网络作为基础特征提取网络;其次,在特征提取阶段采用更加轻量的ResNet18特征提取网络,并结合跨阶段连接的方式搭建CSP-ResNet18算法,同时在残差中嵌入ECA轻量级注意力机制,以很小的计算代价提升轻量级特征提取网络性能;最终,利用即插即用的轻量级模块重构特征提取网络,基于冗余思想而设计的Ghost卷积可进一步压缩算法体积,加快算法效率。

图2 轻量化方案示意Fig.2 Schematic diagram of lightweight scheme

2.1 CSPResNet18特征提取网络

在MBNet网络中,两个特征采集通道均采用ResNet50网络,网络模型较大且推理时延较长,所以本文选择最轻量的ResNet18结构作为基础网络进行优化,并且保证识别精度。ResNet网络的残差结构如图3所示。

图3 残差结构示意Fig.3 Schematic diagram of residual structure

由于ResNet18网络结构的特征提取能力随着网络深度的减少而减弱,所以本文参考借鉴CSPNet网络的跨阶段部分连接网络,对ResNet18进行网络结构优化,跨阶段部分CSP网络结构如图4所示。

图4 CSP结构示意Fig.4 Diagram of CSP structure

前向预测过程可表示为

Xk=Wk*[X″0,X1,...,Xk-1]

(5)

XT=WT*[X″0,X1,...,Xk]

(6)

XU=WU*[X′0,XT]

(7)

式中:*表示卷积操作;Xk为第k层的输出特征;Wk为第k层的权重;[X″0,X1,...,Xk-1]表示将输入特征X″0,X1,...,Xk-1进行拼接操作;X′0、X″0为输入特征X0的两个部分,X″0分别经过式(5)、(6)两个卷积层后与X′0进行拼接操作,最后通过卷积操作输出特征XU,从而完成该阶段的前向预测。

CSP结构有效地丰富了网络优化中的梯度信息,增强了卷积神经网络的学习能力,可以在减少参数、增加效率的同时,保证网络的准确性,并且有效地降低了内存成本。最终,基于ResNet的CSP结构如图5所示。

图5 CSPResNet结构Fig.5 CSPResNet structure diagram

2.2 ECA轻量级注意力机制

人类视觉在快速地进行了全局图像扫描后,可以关注到一些重点目标区域,对需要注意的地方投入更多的精力,以获取所需的细节信息。与此同时,会降低对其他区域投入的权重。通过这种方式,可以极大地提升图像识别精度与处理效率。研究人员受此启发后发现:应对识别重要的特征数据提升权重,增强重要特征对识别结果的影响;应压制不重要数据的权重,减弱其在网络中的影响力。

轻量级ECA通道注意力机制以SE注意力机制[21]为原型,但其没有使用降维操作,从而避免了降维而引起的信息丢失,同时进行了适当的跨信道交互,在显著降低模型复杂度的同时保证了模型性能。此外,自适应卷积核的方法确定了局部信道的覆盖范围,十分高效。ECA模块示意如图6所示。

图6 ECA通道注意力示意Fig.6 ECA channel attention diagram

ECA模块相较传统的注意力机制避免了全连接操作,并且使用了一个k×C的矩阵Wk用于学习通道间的注意力信息,矩阵Wk可表示为

(8)

矩阵Wk将可学习的权重分为k个一组,避免了不同组之间的完全独立。此时,输入权重yi以及k个相邻通道之间的信息计算式为

(9)

为了让模块更加高效,采用权重共享的方式,公式为

(10)

式(11)可以直接通过一个k×k的一维卷积实现,较为简单。k的选择十分重要,跨信道交互作用的覆盖范围应该与特征维度C成正比。映射关系可表示为

C=φ(k)=2γk-b

(11)

此时,k的表达式为

(12)

式中:|·|odd表示取最接近的奇数;超参数γ和b根据经验设置为2和1。

最终,ECA模块引入ResNet的位置如图7所示。

图7 ECA模块插入位置Fig.7 The ECA module insertion position

2.3 基于Ghost模块重构

Han等[20]认为,深度学习中对冗余信息的利用也很关键,由此基于对相似冗余信息的重复利用提出Ghost轻量级卷积模块。传统卷积和Ghost卷积模块卷积示意图如图8所示。

(a)标准卷积

传统卷积操作计算了大量的近似特征,使最终的特征图存在过多重复信息,所以冗余信息的生成操作可以用更廉价的线性变换完成。Ghost模块基于该思想完成冗余信息的计算。首先,通过传统的标准卷积完成m层本源特征的生成,公式为

Y′=X*f+b

(13)

式中:b为偏置项;输出特征图Y′∈h′×w′×m。接着,基于Y′进行线性映射

yij=φi,j(y′i),∀i=1,...,m, ∀j=1,...,s

(14)

式中:y′i∈Y′;φi,j表示本源特征i的第j次线性变换。

φi,j可以生成对应的Ghost特征yij,可见y′i可以生成一个或多个Ghost特征。当j=s时,φi,j为普通的卷积操作,最终获得n=ms个特征图,其中n为卷积操作最终的通道数量。

传统卷积操作的浮点型运算量为n×h′×w′×c×k×k,其中,c为输入的通道数,Ghost卷积由传统卷积操作结合m(s-1)=n/s(s-1)次线性操作两部分,线性变换部分采用的卷积核平均尺寸为d×d,故理论加速比率R为

(15)

由于d×d=k×k,s≪c,所以可以认为,Ghost卷积相比传统卷积,运算速度提升了s倍。

3 实验与分析

3.1 实验环境

实验测试环境为Ubuntu 16.04操作系统,由Pytorch深度学习框架实现G-MBNet多模态轻量化行人检测算法。服务器显卡型号为NVIDIA RTX2080 Ti。

3.2 实验数据集及预训练

本文采用KAIST行人数据集,该数据集包含95 328对对齐的可见光和红外图像对,共103 128个边界框,覆盖1 182个独特的行人,图像尺寸为640×512 像素。此外,测试集包含2 252帧从视频中每20帧采集的图像,其中,1 455帧白天拍摄图像,797帧夜间拍摄图像。评价指标为平均缺失率,表示每张图片的平均误检率(FPPI)在[0.01,1]范围内的对数空间均匀取9个点时的缺失率均值,即FPPI分别为0.010 0、0.017 8、0.031 6、0.056 2、0.100 0、0.177 8、0.316 2、0.562 3、1.000时的平均缺失率。平均缺失率越低,则证明算法性能越好。

此外,为了使小网络有更加合理的初始权重、更加有效地进行收敛,本文提取COCO数据集[22]中行人目标数据对G-MBNet以及中间网络进行预训练,从而获得更合理的初始化权重,实验结果如表1所示。

表1 基于预训练权重的对比实验结果

由表1可以看出,未使用预训练权重的时长为使用预训练权重的1.5倍,使用预训练权重能够使时间成本大幅度降低。并且,使用预训练权重的漏检率优于未使用预训练权重的。在MBNet中,漏检率降低了1.56%,在G-MBNet中,漏检率降低了0.22%,证明了预训练权重的重要性。此外,MBNet在未使用预训练权重时,红外通道出现了梯度爆炸的现象,预训练权重的引入使整个网络的训练更加稳定,证明了合理初始化权重在网络训练时的必要性。

3.3 消融实验

MBNet(基础算法)、CSPR-MBNet(在MBNet中引入CSP结构搭建的ResNet18网络CSP-ResNet18)、CSPR-ECA-MBNet(引入ECA注意力模块后的骨干网络算法)、G-MBNet、G-MBNet-CBAM(在Ghost-MBNet中引入CBAM[23]注意力机制)、G-MBNet-SE(在Ghost-MBNet中引入SE注意力机制)、DW-ECA-MBNet(在MBNet中引入深度可分离卷积(DW)[24-25]与ECA注意力机制)算法的对比如表2所示。

由表2可以看出,CSPR-MBNet相较于原始的MBNet参数减少了55.51%,并且算法体积也减少了62.38%,推理效率由原来的52 ms提升至38 ms,效率提升1.37倍,精度仅下降了4.58%。在引入ECA注意力机制后,算法参数、体积以及推理时延基本没有发生变化,但是精度相较于MBNet仅下降了3.95%,证明了ECA模块的轻量以及对于检测精度有较大的提升。此外,本文对比了不同注意力机制,如CBAM与SE模块。在引入CBAM与SE后,由于引入的模块数量较少,所以算法的体积与运算量变化不大。根据实验结果来看,轻量级ECA模块具有更好的漏检率以及推理时延,有较高的性价比。

表2 各轻量级算法的对比实验结果

在Ghost卷积模块重构后,本文将Ghost模块与深度可分离卷积DW模块进行了性能比较,在使用DW卷积模块进行网络重构后发现,推理时延有较大的提升,优于Ghost重构网络的,但是漏检率相较于G-MBNet具有较大的差距。权衡之下可知,Ghost卷积模块兼顾了精度与速度,具有较大的优势,证明了Ghost模块在本文方案中的适用性。最终,本文对比了搭建的各个轻量级算法的损失值曲线,如图9所示。

图9 各轻量级算法损失值曲线的对比Fig.9 Comparison of loss value curves of various lightweight algorithms

由图9可以看出,各轻量级算法均有优秀的收敛性能。其中,CSPR-ECA-MBNet收敛性能最佳,在第9次迭代后损失值趋于稳定。CSPR-MBNet由于缺少ECA的支持,整体损失略微逊色于CSPR-ECA-MBNet,也于第9次迭代后趋于稳定。G-MBNet收敛性能较弱,不过在前9个迭代数也进行了快速收敛,同样达到了较好的收敛效果。

白天、夜晚情况下的G-MBNet行人检测结果如图10和图11所示。白天情况下的检测结果如下:从图10(a)可以看出,当光线较好且人员可视效果较好时,G-MBNet具有良好的检测效果,相较于真值标签所发生的偏移小且精度良好;从图10(b)可以看出,当光线较弱且目标较小时,发生了一个标注框标注多个目标的现象;从图10(c)可以看出,当场景较为复杂且目标较小时,目标框发生了较大的偏移,检测效果较差。图10(b)和10(c)检测效果不佳的原因是特征提取网络深度的减少削弱了其特征提取能力。

(a)光线良好场景

夜晚情况下的检测结果如下:从图11(a)可以看出,当场景简单时,G-MBNet检测效果较为理想;从图11(b)和11(c)可以看出,在面对小目标场景及复杂场景时,出现了小目标漏检的情况,检测效果较差。

综上所述可知,经过轻量化设计后的网络在进行多模态行人检测时具有良好的表现。但是,在针对远距离的小目标时,特征提取能力较弱,没有表现出较好的检测精度,在多个小目标在一起或者目标框较小时,出现了目标框定位较大、多目标在一个标注框内,甚至漏检的情况。总体而言,本文算法在多模态目标检测阶段检测速度较快、检测精度较高。为了更好地进行算法验证,本文在下一小节对不同算法进行了精度对比。

(a)光线良好复杂场景下的检测结果

3.4 算法对比实验

本文算法与其他先进算法在KAIST数据集上的对比结果如表3所示。可以看出,经过轻量化后的行人检测算法在检测速度上有了极大提升。虽然精度相较于MBNet有部分损失,但在检测精度和检测时延上依然优于其他算法,并且速度达到了最优。由此,本文所设计的轻量级多模态行人检测算法G-MBNet的有效性得到了证明。

表3 不同先进算法的对比结果

4 结 论

目前,主流的多模态行人检测算法大多数存在检测速度不足的问题,本文提出一种基于Ghost模块的搭建的G-MBNet轻量级多模态行人检测算法。该算法选取轻量级骨干网络ResNet18,借鉴跨阶段部分CSP构架的思想重构CSP-ResNet18网络,在减少参数以及算法体积的基础上提升了ResNet18算法的检测性能。其次,引入ECA通道注意力机制。通过引入极少的参数提升了网络关注特征通道中重要的部分,从而提升了算法的检测精度。最终,通过Ghost轻量级卷积模块重构网络,减少了网络不必要的卷积操作,提升了整体算法的检测效率。实验结果表明,本文提出的轻量级多模态行人检测算法G-MBNet有效。相较于MBNet,G-MBNet体积更小、预测速度更快、精度损失更小。本文提出的轻量化特征提取网络可以在其他检测方案中直接使用,为深度学习算法的部署提供了有效方案。但是,本文方案仅考虑了MBNet算法特征提取部分算法参数的减少,其他部分依旧存在较多的冗余操作,如光照感知部分的全连接层、复杂的特征对齐模块等,可以在未来的研究中提出更加高效的光照感知和特征对齐操作。

猜你喜欢
特征提取行人模态
联合仿真在某车型LGF/PP尾门模态仿真上的应用
多模态超声监测DBD移植肾的临床应用
跨模态通信理论及关键技术初探
毒舌出没,行人避让
空间目标的ISAR成像及轮廓特征提取
基于Gazebo仿真环境的ORB特征提取与比对的研究
基于特征提取的绘本阅读机器人设计方案
路不为寻找者而设
微动目标雷达特征提取、成像与识别研究进展
我是行人