基于改进型YoloV5s 的热红外道路车辆及行人检测方法

2022-06-23 09:17严运兵
智能计算机与应用 2022年6期
关键词:卷积红外矩阵

李 阳,赵 娟,严运兵

(1 武汉科技大学 汽车与交通工程学院,武汉 430065;2 中国科学院 深圳先进技术研究院集成所,广东 深圳 518055)

0 引言

近十年来,汽车夜视辅助驾驶系统的研究取得了快速发展,相关研究表明车载红外夜视仪在减少夜间行车事故中有很好的效果。

与传统的激光雷达成像以及可见光成像等探测技术相比,红外探测技术具有其独特优势。对此可分述如下:

(1)被动式红外热成像传感器接收前方热辐射信号并输出为图像帧,能够捕捉更清晰的目标轮廓信息,输出图像梯度更大,有利于特征提取。

(2)红外热成像技术能够实现全天候工作。可见光探测器多数只能够在白天或光源充足的情况下进行探测工作,而红外热成像探测器能够不受白天、夜晚的限制,实现昼夜工作。

(3)热红外成像探测技术抗干扰能力强。主动雷达成像探测的效率容易受到目标表面材料吸波性能的影响;可见光成像探测容易受到雨天、雾霾、风沙等对自然光有强干扰的天气的影响。由于红外热成像探测属于被动探测,不需要向外界发送信号,故不会受到各种雷达吸波材料的影响;红外热成像对自然光、灯光等依赖程度低,几乎不会受到自然界光学效应的影响。

由于热红外图像的特性,传统基于RGB 可见光图像的目标检测算法,在热红外环境下并不能达到理想的效果,原因在于:

(1)热红外图像的性质更接近单通道灰度图,通道信息更弱,针对RGB 图像的三通道空间信息进行特征提取的主干特征提取网络在红外图像上存在计算量冗余。

(2)热红外图的梯度信息更强,目标边缘特征更明显,但是目标局部信息相对于三通道RGB 信息更弱,故在遮挡或重叠等情况下,针对三通道RGB图像优化的目标检测算法极容易发生误检与漏检情况。

本文基于热红外图像的特性,针对原版YoloV5s 的Focus Layer、Upsample Layer、Weighted_NMS 进行针对性的优化,通过在PAN 结构的上采样中使用转置卷积保留19∗19、38∗38 特征图的语义信息的渐变关系,加强参数学习,以提高在热红外条件下的识别准确率,加快推理速度,改善传统基于可见光成像的目标检测算法在热红外环境下应用的实时性、鲁棒性。

1 YoloV5 算法结构分析及改进

YoloV5s 网络结构如图1 所示。由图1 可知,YoloV5s 的Neck 网络结构借鉴了图像分割领域中PANet的设计思路,在FPN 特征金字塔自顶向下传达强语义特征后,在Neck 网络中再借由PAN结构自底向上传达强定位特征,二者相结合,从不同的主干层对不同的检测层进行参数聚合,有效地提高了网络的特征提取能力。

图1 YoloV5s 网络结构Fig.1 YoloV5s network structure

YoloV5s 中CSP 模块如图2 所示。由图2 可知,在主干特征提取网络中,YoloV5s 借鉴了CSPNet的设计思路,在网络中添加了CSP 结构,与CSPNet 的不同点在于YoloV5 中设计了2 种不同的CSP 模块,其中CSP1 模块位于主干特征提取网络中,而CSP2 模块位于FPN 结构中。二者相结合,用以提高网络宽度,从而增强CNN 的学习能力,实验结果表明该方法能够有效降低计算瓶颈,减少计算成本。

图2 YoloV5s 中CSP 模块Fig.2 CSP module in YoloV5s

1.1 Focus 机制

原版YoloV5s 的图像输入端会经过Focus 层处理,具体操作是每隔一个像素取得一个值,类似于临近下采样,这样便可取得4 张互补的图片,但是信息由平面空间转化为通道空间,Concat 拼接后由原先的RGB 三通道变成4×3 通道。其方式是将输入为(,,3)图像经过操作后得到(2,2,12)的特征图。Focus 层原理示意如图3 所示。

图3 Focus 层原理示意图Fig.3 Schematic diagram of the Focus layer

相比于传统的Conv 下采样,Focus 层的优势在于不丢失信息,而是将原有的空间信息转化为深度信息。反面观之,相比于传统的Conv 下采样,Focus层的计算量大幅度增加,得到的效果相比于传统的Conv 下采样提升并不大,又由于热红外图像本身代表的是热量梯度,输出与单通道灰度图类似,在三通道输出时,每个通道的图像矩阵元素相等,其空间信息在三通道上表现并不明显,通过Focus 层将三通道图像的特征转化为12 通道图像特征时,对特征信息的提取效果不佳,反而占用了计算资源,减慢了推理速度,见表1。

表1 Focus 层对算法的影响Tab.1 The impact of the Focus layer on the algorithm

1.2 上采样层优化

在原版Yolov5 的neck 结构中采用的上采样方式为最近邻插值上采样法,如图4 所示。

图4 最近邻插值算法Fig.4 Nearest neighbor interpolation algorithm

算法原理为计算新特征图的坐标点像素值对应原图坐标点的像素值,其对应关系如式(1):

其中,原特征图坐标定义为(,),新特征图坐标定义为(,),长宽同理。

当带入新特征图像素点坐标(,),求出原特征图像素点坐标(,)不为整数时,最近邻插值法采用的方法为四舍五入选取最接近的整数。

最近邻插值上采样法的优点是不需要计算,只需要寻找,所以速度最快,但缺点是生成的新特征图破坏了原特征图像素点之间的渐变关系。

针对此问题,基于热红外图像的特性,本文提出转置卷积上采样方法替代传统最近邻插值算法。

对于正向卷积下采样操作,假设图像矩阵为:

假设卷积核为:

可得输出矩阵大小为2×2。假设输出矩阵为:

将矩阵与矩阵按行展开为列向量可得:

故卷积下采样运算可表示为:

推导可得稀疏矩阵为:

故转置卷积上采样操作可近似表示为:

由上式可得,转置卷积操作可将矩阵特征的尺寸信息恢复到下采样前矩阵的尺寸信息,但无法恢复矩阵的每个元素值。基于YoloV5s 的Neck 结构中PANet 的结构特性,低维度特征上采样后与高维度特征结合,且在前向推理的过程中,转置卷积上采样卷积核参数为可训练参数,相比于传统最近邻插值上采样,转置卷积上采样在一定程度上增强了网络推理能力。

最近邻插值上采样层与转置卷积层的对比见表2。由表2 分析可知,相对于最近邻插值上采样方法,转置卷积上采样能够有效提高网络识别准确率,消除移去Focus 层带来的影响。

表2 最近邻插值上采样层与转置卷积层的对比Tab.2 Comparison of nearest neighbor interpolation upsampling layer and transposed convolutional layer

1.3 NMS 非极大值抑制方法优化

在Yolov5s 的后处理中,使用加权NMS算法来进行检测框的非极大值抑制。YoloV5 加权NMS原理如下式:

十分抢眼的是,在每一页外面均多出一个长2厘米、宽1厘米的不同颜色的纸片,上面清晰地标注着该风险的初始评分。其中,评分≤5分为低风险项,用蓝色纸片;6~15分为中等风险,用黄色纸片;评分>15分为高风险,用红色纸片。

其中,表示每个候选框经过加权平均后的候选框;w表示权重;C表示每个候选框的置信度;(·)表示第个候选框和最大置信度候选框进行计算。

加权NMS 的算法在通常情况下,相对于传统NMS 算法通常能够获得更高的值以及值,但其缺点也很明显,就是加权因子取决于候选框的与得分。在YoloV5s 中,候选框的只考虑2 个框的重叠面积,对于候选框的重叠关系表示并不全面,而每个候选框的得分又会有定位与得分不一致的问题,进而导致在使用加权NMS 算法作为后处理方法时出现对遮挡、重叠目标识别精度不佳的情况。

为此,提出以DIOU_NMS方法来优化候选框后处理方法。相比于传统方法以及加入权重项的_方法,DIoU-NMS 方法加入了以候选框与最大置信度候选框的中心距为惩罚项的惩罚机制,原理如图5 所示。

图5 DIoU_NMS 原理Fig.5 Principle of DIoU_NMS method

研究推得的数学表达式为:

其中,为B中心点的欧式距离;为B的最小外接矩形的对角线长度;用于控制惩罚幅度。

在实际应用时,使用DIoU_NMS 算法表示为:

其中,sB的分类置信度。

由公式可得出,当→∞时,DIoU 退化为IoU,此时DIoU_NMS 与传统NMS 效果相当。当→0时,几乎所有中心点不与重合的框都被保留。

经试验得到,在不增加计算成本的情况下,相对于传统IoU_NMS 与加权IoU_NMS,DIoU_NMS 方法可以使得相关性能得到提升,其实验结果如图6 所示。修改NMS 方法对算法的影响见表3。

表3 修改NMS 方法对算法的影响Tab.3 The influence of different NMS methods on the algorithm

同时,由图6 可知,对于遮挡、重叠目标的检测效果,DIoU_NMS 方法要优于传统IoU_NMS 与加权IoU_NMS。

图6 加权NMS 与DIoU_NMSFig.6 Weighted NMS and DIoU_NMS

2 实验及结果分析

2.1 实验数据集

实验数据集为FLIR Thermal Dataset,数据集采集参数见表4。

表4 FLIR 热红外道路信息数据集参数Tab.4 FLIR thermal infrared road dataset information

2.2 训练系统及训练参数

训练平台参数见表5。

表5 训练平台参数Tab.5 Parameters of training platform

模型训练参数见表6。

表6 模型训练参数Tab.6 Training parameters of the model

2.3 测试平台

Hi3519AV100 开发平台是一颗面向监控IP 摄像机、运动相机、全景相机、ADAS 系统、航拍等多个领域推出的高性能、低功耗的SoC 开发平台。该芯片平台集成了神经网络硬件加速引擎(Neural Network Inference Engine,NNIE),是海思媒体SoC中专门针对神经网络、特别是深度学习卷积神经网络进行加速处理的硬件单元,并在计算能力达到1.7 TFLOPS的同时,支持现有大部分的公开网络结构,如 AlexNet、VGG16、GoogleNet、ResNet18、ResNet50 等分类网络,Faster R-CNN、YOLO、SSD、RFCN 等检测网络以及SegNet、FCN 等场景分割网络。该芯片集成了海思第四代ISP,支持WDR、多级降噪、六轴防抖及多种图像增强和矫正算法。

综上可知,该研究基于12 nm 制程的高性能、低功耗架构设计,相比于同类型产品大大降低了散热需求,有利于应用部署在车载系统常见的狭小、密闭环境中。

因此,本文以Hi3519AV100 为基础搭建实验平台,进行对照组实验以及多模型对照实验。

2.4 实验结果分析

表7 为不同检测算法在FLIR 数据集中进行对照实验后得到的检测精度结果。

从表7 可以看出,本文的优化方法针对热红外图像数据集,相比于原版YoloV5 在推理帧数相接近的情况下,运行后在上得到了5.7%的提高,召回率上得到了4.1%的提高。相对于常应用在嵌入式开发平台上的Tiny-YoloV3、Tiny-YoloV4算法而言,本文算法在上获得了压倒性的优势,大幅提高了识别精度。相对于工业领域得到广泛应用的YoloV3、YoloV4 算法,在指标接近的情况下,大幅降低了所需计算量,提高了帧数的处理能力。

表7 主流检测算法对照实验Tab.7 Comparison experiments of mainstream detection algorithms

由上述实验结果可以看出,本文方法针对热红外条件下的图像进行优化,相对于传统的算法,性能指标得到较大提高。

3 结束语

本文基于YoloV5s,探讨了传统基于可见光成像的图像算法在热红外图像上的检测性能不佳的问题,并结合热红外图像的特性,进行针对性优化,在FLIR 数据集上进行了实验验证,实验后达到93.4%、达到79.9%的同时,达到213帧,不仅提高了检测精度,而且也保证了ADAS 系统要求的实时性。

虽然本方法达到基本预期,但本文方法仍存在以下几点问题:

(1)本文检测方法的head 部分仍是基于传统的Anchor Based 方法,在优化潜力与前向推理效率方面与新兴的Anchor Free 模型相比存在一定差距。

(2)本文方法所针对的任务较为单一,且在不同的检测任务,如全景分割、实例分割、目标跟踪等任务中的表现欠佳。

后续工作将围绕如下2 方面进行改进:在网络结构方面,参考Anchor Based 思想对网络结构进行后续改进。在任务方面,针对热红外图像的实例分割、全景分割等视觉任务进行更深入的优化。

猜你喜欢
卷积红外矩阵
基于全卷积神经网络的猪背膘厚快速准确测定
网红外卖
基于图像处理与卷积神经网络的零件识别
基于深度卷积网络与空洞卷积融合的人群计数
多项式理论在矩阵求逆中的应用
卷积神经网络概述
基于蓝牙转红外的遥控装置
马静坡 元像·宋陵
矩阵
矩阵