史健婷,张贵强,陶 金,吴林皓
(1 黑龙江科技大学 计算机与信息工程学院,哈尔滨 150022;2 黑龙江科技大学 研究生学院,哈尔滨 150022)
行人检测技术结合了数字图像处理、模式识别、计算机视觉和其他相关技术,无论是在智慧交通,还是在自动驾驶、人体行为分析等领域有着广阔的发展前景[1]。行人检测技术,是研究和判断所给的图像或在每帧视频序列中,是否存在要检测的行人目标。近年来,道路安全问题频繁发生,在寻找降低交通事故发生方法的同时,行人检测技术也受到人们的广泛关注[2-3]。
行人检测算法可分为传统的算法和基于深度学习的算法。传统的行人检测算法有:Haar 小波特征[4]、HOG+SVM[5]、DPM[6]等等。传统的行人检测主要通过人工设计方法,对图像特征进行提取,进行目标识别和检测,但算法设计复杂,权值参数难以得到较准确的数值,泛化能力不强。
基于深度学习的算法,如卷积神经网络(Convolutional Neural network,CNN)[7],通过大量的数据,能自动学习出目标的原始表征,相较于手工设计的特征而言,具有更强的判别能力和泛化能力[8]。之后出现了一系列改进算法,包括Fast RCNN[9-11]、Faster RCNN[12]、SSD[13]、YOLO[14]等算法。其中,YOLOv4网络结构简单高效,具有易部署、运用场景广泛的特性。特别是针对红外图像下的小目标检测,有很大的应用前景[15]。虽然YOLOv4 网络采用多尺度进行预测,能够结合更好的分类器,但是还存在识别物体的精准性差、召回率低等缺点。因此,本文对YOLOv4 算法进行了改进。通过与原YOLOv4 算法进行比较,将对红外图像行人的检测精准度(MAP)提高了0.04%。
YOLOv4 算法以CSPDarknet53 作为主干网络,在采用ResNet 短跳连接的同时,增加输入输出的维度拼接,更好的实现了深浅层特征的结合,在主干网络的顶端,加入了SPP 模块。采用1∗1、5∗5、9∗9、13∗13 最大池化的方式,进行多尺度特征融合。该模块和PAN 结构相结合,使分辨率为76∗76 的浅层特征向上传播,保证每个检测头都可以接受浅层特征,极大的增加了网络对小目标特征的表达能力。YOLOv4 的网络结构如图1 所示。
图1 YOLOv4 网络结构图Fig.1 YOLOv4 network structure diagram
除了对主干网络的改进之外,YOLOv4 还引入了其它tricks 来提升网络性能。在激活函数方面,引入Mish激活函数,如公式(1)所示:
函数图像如图2 所示。
图2 Mish 激活函数图像Fig.2 Mish activation function
可以看出,Mish激活函数在x =0 处也是光滑可导的,具有较好的泛化能力和结果的有效优化能力。在数据增强方面,采用Mosaic 数据增强方式,对多张图片以随机缩放、随机剪裁和随机排布的方式进行拼接,大大丰富了数据集,可以让网络直接计算多张图片的数据,增加模型泛化能力。
式中:D2表示预测框和目标框中心点距离,DC为最小外接矩形C的对角线距离。
注意力机制(Attention Mechanism)在文本分析、行人检测、外界语音处理等方面有广泛的使用。注意力机制就像人类注意力观察一样,通过相应的空间、通道等方面,从软注意力和强注意力两方面进行分析和处理。
2017 年,Jie Hu 等人通过研究,提出了一种新的框架结构——SENet(Squeeze- and- Excitation Network,即“压缩和激励”SE 块)。SENet 通过加强所要研究的重要区域,把所要输入的图像进行卷积,然后得到feature map 进行分析,设计出一个一维向量,作为分数来进行评价。与所要研究的图像通道一样,该向量的每个评价分数采用乘法加权方式,得到原通道的大小,这样处理提高了研究的重要区域。SE 模块的结构图如图3 所示。
图3 SE 模块结构图Fig.3 Se module structure diagram
在YOLOv4 中,主要采用3x3 大小的标准卷积进行特征提取操作。标准卷积由于其感受野的形状和大小均为固定,在对小目标进行检测时,同样会对非目标区域进行特征提取操作,会导致最后卷积所提取到的特征中干扰因素较多,对检测器的预测造成较多的干扰影响。因此,基于YOLOv4 的标准卷积思想,利用形变卷积为核心组件,构建形变特征提取模块,提升对于目标特征提取的有效性。
形变卷积与标准卷积相比,具有3 点优势:
(1)感受野有效性的提升,即特征图在映射目标信息时针对性更高;
(2)卷积核能够适配目标位置进行采样,所提取到的特征信息与目标更匹配;
(3)由于形变卷积经过特征提取时,能够有效针对目标所在区域进行提取,使得特征图在网络中传递时,其稳定性(即权值参数不会突变)优于标准卷积。
形变卷积与标准卷积在进行特征提取操作时的区别如图4 所示。
图4 形变卷积与标准卷积特征提取对比Fig.4 Comparison of feature extraction between deformation convolution and standard convolution
为了增强对于目标位置信息的复用,针对YOLOv4 的注意力机制思想,在每个尺寸的特征图,经由形变特征提取模块组后,加入Coordinate 坐标注意力机制模块,对坐标信息进行加强。Coordinate坐标注意力机制模块基于SE 通道注意力机制进行优化,提取出了特征图横向与纵向的特征权值信息,再通过聚合,以达到精确的目标位置坐标显著性标记。Coordinate 坐标注意力机制模块结构如图5 所示。
图5 Coordinate 坐标注意力机制模块Fig.5 Coordinate attention mechanism module
在图5 中,模块的工作流程主要分为两步:一是提取特征图上X轴与Y轴的特征信息;二是对提取的特征信息进行激活加权。首先,输入到模块的特征图由全局池化分解出两个方向上的一维特征,该过程基于SE注意力机制压缩操作进行优化。
标准全局池化计算过程为:
式中:Zc为全局池化输出;H为特征图的高;W为特征图的宽;Xc为全局池化输入。
Coordinate坐标注意力机制则将全局池化分解为:
完成分解后,再对两个方向的特征图进行聚合,以此获得带有坐标信息的特征图。之后,将该特征图分别由两个二维卷积进行特征提取与激活加权计算,得到两个坐标方向的加权特征信息。将该特征信息映射到特征图中,即可反映目标在特征图中的坐标信息。
对于影响网络定位准确性的因素,最直观的表现为YOLOv4 检测器中的anchors 组件。检测器通过anchors 判定目标是否存在及目标的位置,即anchors 能够对特征图的某个区域是否存在目标进行判定,同时预测目标位置。由于目标的形态大小具有不确定性,即通过手动设定的anchors 尺寸无法准确适配目标的位置,致使在检测时存在一定的偏差。为优化anchor 的定位准确性,在YOLOv4 检测层中加入“Guided Anchoring”机制,通过网络自适应生成anchors,来提高anchors 及候选区域的质量。
不同于常规anchors 操作,在一个坐标点上对一组anchor 的尺寸进行预测并挑出最符合大小的一个,其值对一个anchor 的尺寸进行预测,使得对于不规则目标的拟合性更强,召回率也更高。本文设计的网络命名为YOLO-sd。
本设计实验环境配置为:软件层次上,操作系统为Ubuntu 18.04,神经网络框架为Darknet,CUDA 版本为10.0,cuDNN 加速包为7.6.4;在硬件层次上主要使用了RTX2080ti 型号的GPU 进行卷积计算加速。
关于红外行人检测算法评价的相关性能指标包括:交并比IOU、精度(precision)、召回率(recall)等。
式中:S1为红外图像预测的行人区域;S2为标注的行人区域;TP为红外图像下行人区域,预测为行人正确情况;FN为红外图像下行人区域,预测为不是行人错误情况;FP为实际不是行人区域,但是预测此区域有行人情况。
所采用的数据集来自OSU Thermal Pedestrian Database,通过数据清洗、预处理等操作,构成2 100张训练集和500 张的测试集。将改进后的模型YOLO-sd 与YOLOv3、YOLOv4 以及SSD 算法进行对比测试,测试结果见表1。
表1 模型检测性能对比Tab.1 Performance comparison of models
通过对比结果可以看出,本文提出的YOLO-sd算法,整体鲁棒性要优于YOLOv3 和YOLOv4;在召回率的对比中,YOLO-sd 优于YOLOv3 和YOLOv4,说明对于目标的查全率更好,且IOU数值也更优。YOLO-sd 与SSD 对比,YOLO-sd 的精度、平均准确率(map)、F2-1Score 要优于SSD;其它指标,召回率和交并比略低于SSD,综合反映了对于主干网络及检测网络部分的优化,在提升网络性能方面有巨大帮助。网络优化性能pr 曲线如图6 所示。
图6 pr 曲线对比Fig.6 Comparison of PR curves
利用YOLO-sd 的实际测试结果如图7 所示。
图7 测试结果Fig.7 Test result
本文提出了一种基于YOLOv4 改进的红外图像行人检测算法YOLO-sd,优化后的YOLO-sd 针对于灰度图及小目标的检测能力有明显提升,提高了红外检测的实用性。该算法主要应用于低像素及小目标的检测环境,主要采用形变卷积为核心组件,构建形变特征提取模块提升对于目标特征提取的有效性,同时针对于形变卷积对特征提取网络模块进行优化,增强了特征信息的传递能力。经测试,优化后的YOLO-sd 在针对于红外小目标的检测场景下检测精度有明显的提高。整体精度提升1.05%,达到83.09%。本文的网络对于夜间来往的行人、驾驶的车辆来说,有辅助参考价值,有助于提高安全性。