基于注意力和多级特征融合的铁路场景小尺度行人检测算法

2022-06-01 09:00石瑞姣陈后金李居朋李艳凤万成凯
铁道学报 2022年5期
关键词:背景噪声行人尺度

石瑞姣,陈后金,李居朋,李艳凤,李 丰,万成凯

(1.北京交通大学 电子信息工程学院, 北京 100044;2.北京世纪瑞尔技术股份有限公司, 北京 100085)

铁路运输兼顾货运和客运,是关乎国计民生的运输大动脉。现阶段铁路运输无法做到全封闭运行,因铁路基础防护设施薄弱而导致的铁路交通事故时有发生。其中,铁路关键区域行人入侵是影响铁路行车安全的重要因素,对铁路区域进行实时行人检测对于保障行车安全具有重要意义。近年来,利用深度学习进行行人检测取得了飞速发展。相较于传统算法,深度学习可以自动学习行人高级语义特征,具有更高的检测精度和更强的泛化能力。

现有基于深度学习的行人检测算法主要分为三类[1]:第一类是一阶段检测算法,将整个检测环节作为一个回归及分类问题处理,检测速度快但准确性低,代表性算法有SSD[2]、YOLO系列[3-6]、RetinaNet[7]等;第二类是二阶段检测算法,利用区域候选网络产生候选区域,在候选区域分类和回归输出检测结果,准确度高但检测速度慢,代表性算法有Faster R-CNN[8]、Mask R-CNN[9]等;第三类是多阶段检测算法,通过迭代二阶段检测器逐步提高网络检测的准确度,检测精度高于二阶段检测网络,但检测速度明显变慢,主要包括Cascade R-CNN[10]、级联全卷积神经网络[11]等算法。目前基于深度学习的目标检测算法在大、中尺度行人目标上取得了较高的检测精度,但由于小尺度行人本身像素点少,携带特征信息不足,且经卷积神经网络多次降采样后部分行人信息丢失,因此针对小尺度行人的检测仍面临巨大挑战。

现有小尺度行人检测算法多是在通用行人检测算法上进行改进,以提升算法对于行人尺度变化的鲁棒性,从而提高小尺度行人检测精度。其中,针对小目标检测最通用且最有效的改进方式为高、低层特征融合,充分利用低层特征图的位置信息和高层特征图的语义信息提高小目标检测精度。2016年,Liu等[2]提出的SSD算法第一次尝试利用不同层级特征图进行不同尺度目标的检测,但由于低层特征图感受野小、包含语义信息不足,导致SSD算法对小目标检测精度低。为解决SSD算法存在的缺点,2017年,特征金字塔网络(Feature Pyramid Networks,FPN)[12]被提出,通过自顶向下的路径和横向连接实现高、低层特征图融合,得到兼具高分辨率和高语义性的特征图,对小目标的检测精度有了明显提高,但该方法在网络中引入额外的网络层,增大了计算量,影响了检测的实时性。为此,文献[13]提出尺度变换模块,在不增加额外参数的前提下获得不同尺度的语义特征。2017年,DSSD[14]算法被提出,将SSD的基础网络由VGG替换为ResNet-101,同时在SSD的辅助卷积层之后添加反卷积层形成“宽-窄-宽”的沙漏结构,增强低层特征图的语义信息,显著提升了小目标检测精度。2018年,YOLOv3[5]算法被提出,借鉴FPN的思想,融合3个不同层的特征图分别对不同尺度目标进行检测。文献[15]利用FPN提取多尺度融合特征,同时利用在线困难样本挖掘筛选出困难样本重新送入网络训练,解决了正负样本不均衡的问题。2019年,Golnaz等[16]提出基于自动架构搜索的FPN结构,利用强化学习训练控制器在给定的搜索空间中选择最优的模型架构,具有良好的灵活性和较高的检测性能。

上述基于FPN的多尺度目标检测器显著提升了网络对于小目标的检测性能,但直接将高、低层特征融合忽略了低层特征图中背景噪声的干扰。低层特征图感受野小、语义信息弱,包含大量背景噪声,直接与上采样后的高层特征图融合易将背景噪声向后传播,影响检测精度。

为有效解决大视场中小尺度行人检测精度低的问题,本文以YOLOv3为主干网络提出一种注意力机制引导下的多级特征融合网络模型(Attention Multi-Level Feature Fusion Network,AMFF-Net)。首先,通过将注意力机制引导下的特征融合与YOLOv3网络相结合,抑制背景噪声向后传播;其次,针对多次降采样后小尺度行人特征信息丢失的问题,设计四倍降采样预测分支,利用高分辨率特征图进行小尺度行人检测;最后,将CIoU损失函数作为目标框回归损失函数,解决均方误差用于目标框回归时存在的优化不一致及尺度敏感问题。在私有数据集和Caltech公开数据集的测试结果表明,本文算法相较于原始YOLOv3具有更低的对数平均漏检率。

1 YOLOv3网络

YOLOv3网络由特征提取和多尺度预测两阶段组成。特征提取阶段,YOLOv3将Darknet-53作为特征提取网络,该网络由53个卷积层组成,通过改变卷积核滑动步长完成张量尺寸的变化,避免了因池化造成的小尺度行人特征信息丢失,同时引入残差块结构,在增加网络深度的同时降低产生过拟合的风险。多尺度预测阶段,YOLOv3网络借鉴FPN的思想,融合3个不同层特征图以提升目标检测性能。多尺度预测结构示意见图1。

图1 多尺度预测结构示意

YOLOv3损失函数分三部分:目标框预测损失、置信度预测损失和类别预测损失。其中,目标框预测采用均方误差(Mean Square Error,MSE)损失函数,置信度预测和类别预测采用交叉熵损失函数。损失函数计算方式为

(1)

利用YOLOv3网络进行小尺度行人检测存在以下问题:

(1)YOLOv3网络利用八倍降采样后的特征图进行小目标检测,小尺度行人特征信息严重丢失。

(2)低层特征图语义信息弱,包含大量背景噪声,直接与上采样后的高层特征图融合导致背景噪声向后传播,干扰后续行人目标预测。图2中融合前后特征图对比证实了这一观点。

图2 YOLOv3网络高低层特征融合前后对比

(3)目标检测任务通用距离测量标准为交并比(Intersection over Union,IoU),其计算方式为

(2)

式中:P、G分别为预测框和真实框;IPG为P与G的交并比。使用均方误差作为目标框回归损失函数存在优化不一致的问题,且均方误差对目标框尺度敏感,不具有尺度不变性。

2 小尺度行人检测网络模型

针对上述基于YOLOv3网络的小尺度行人检测所存在的问题,本文从多尺度目标预测、注意力机制引导下的特征融合、损失函数优化3个方面对YOLOv3作出改进,提出小尺度行人检测模型AMFF-Net。

2.1 四分支目标检测网络

为避免多次降采样后小尺度行人特征信息丢失,设计了四分支目标检测网络。四分支YOLOv3网络结构见图3。将YOLOv3中用于小目标预测的八倍降采样特征图进行二倍上采样后与Darknet-53特征提取网络第2个残差模块输出的特征图进行融合,构建四倍降采样分支进行小目标检测。

2.2 通道-空间注意力机制

图3 四分支YOLOv3网络结构

图4 引入注意力机制抑制低层特征图中背景噪声实现流程

CSAM用于注意力模块中权重系数生成的网络结构见图5。图5中:上分支为通道注意力模块(Channel Attention Module,CAM),采用SENet网络[17]的权重生成方式,维度为w×h×c的输入特征图首先通过全局平均池化(Global Average Pooling,GAP)将维度压缩为1×1×c,然后经过两次全连接层(fully connected layers,FC)生成通道注意力权重;下分支为空间注意力模块(Spatial Attention Module,SAM),采用CBAM网络[18]的空间注意力权重生成方式,维度为w×h×c的输入特征图分别进行全局平均池化和全局最大池化(Global Max Pooling,GMP)输出两幅维度为w×h×1的特征图,将两幅特征图横向连接后经过7×7卷积得到空间注意力权重;通道注意力权重与空间注意力权重经过Sigmoid归一化后点乘生成CSAM注意力权重。

图5 CSAM注意力网络结构

2.3 CIoU损失函数

针对均方误差用于目标框回归所存在的优化不一致及尺度敏感问题,本文基于比值的概念重新设计具有尺度不变性的目标框回归损失函数——CIoU损失函数,其具体计算方式为

LCIoU=1-IPG+RCIoU

(3)

(4)

(5)

(6)

式中:b、bgt分别为两框的中心点;ρ为两中心点间欧式距离;c为同时覆盖预测框和目标框的最小矩形的对角线距离;w、h为预测框的宽、高;wgt、hgt为真实框的宽、高;v为用来衡量预测框和目标框之间宽高比例的一致性;α为用于平衡比例的参数。从α参数的定义可以看出,CIoU损失函数更倾向于向重叠区域增多的方向优化。

CIoU损失函数以IoU损失函数为主体,有效解决了均方误差作为目标框回归损失函数时的优化不一致及尺度敏感问题。在此基础上加入惩罚项RCIoU,用于对预测框形状以及距真实框中心点的距离进行约束。

CIoU损失函数中充分考虑到影响目标框回归效果的3个重要几何因素:重叠面积、中心点距离和宽高比。通过在IoU损失函数基础上引入中心点归一化距离以及宽高比例因子,有效改善IoU损失函数无法优化真实框和预测框不相交的情况,以及在两框相交时无法区分其相对位置的缺陷,使得回归过程更稳定。

3 数据与实验

3.1 数据集

为满足实际应用需求,使算法更好地契合铁路场景,构建了Railway私有数据集(以下简称“Railway数据集”),并与Microsoft COCO Dataset数据集(以下简称“COCO数据集”)共同构成联合数据集进行网络模型训练。Railway数据集中图像采集区域主要包括火车站台、铁路道口及铁路沿线等,为保证数据集中图像多样性,对采集到的视频每秒抽取一帧构成最终数据集。Railway数据集相关属性信息见表1,不同场景下行人图像示例见图6。

表1 Railway数据集属性信息

图6 Railway数据集不同场景下行人图像示例

从图6中可以看出,由于铁路沿线监控位点距离行人较远,采集到的图像多为大场景下的小尺度行人(本文将小尺度行人具体定义为宽度小于20像素的行人)。

将COCO、Railway数据集的训练集合并作为联合数据集的训练集,Railway数据集的测试集作为联合数据集的测试集。

3.2 评价指标

为了更加客观地对算法检测性能进行评价,本文将通用的行人检测评价指标——对数平均漏检率LAMR作为算法性能定量评价标准。LAMR根据MissRate-FPPI曲线计算得出,MissRate-FPPI曲线横坐标为每张图像的误检率FPPI,纵坐标为漏检率MissRate。在MissRate-FPPI曲线横坐标的(10-2,100)区间上以0.25为间隔取9个点,9个点对应漏检率对数的平均值作为e的指数获得LAMR,具体计算方式为

(7)

(8)

(9)

式中:FN为假阴性,表示漏检行人数量;NP为测试集中行人总数;FP为假阳性,代表误检行人数量;NI为测试集中包含的图像数量。

3.3 训练与测试

Railway数据集中图像分辨率为1 920×1 080,YOLOv3网络输入尺寸为608×608,为避免图像输入网络时因过度缩放而造成小尺度行人信息丢失,将1 920×1 080分辨率的图像左右重叠拆分为两张分辨率为1 080×1 080的图像,两张图像之间有重叠,可有效应对行人刚好位于图像正中间的情况。将拆分后的1 080×1 080分辨率的图像等比例缩放至608×608送入网络训练。

3.3 钢纤维再生混凝土的轴心抗拉强度与钢纤维含量特征值呈线性增长的关系,劈裂抗拉强度基本呈三段式线性增长的关系。钢纤维的含量特征值在0.2~0.4之间时,劈裂抗拉强度增长较快,含量特征值在0.5时达到顶峰。但是,钢纤维对再生混凝土轴心抗拉强度的影响系数远小于钢纤维对再生混凝土劈裂抗拉强度的影响系数。

网络基于Tensorflow框架实现,操作系统为Ubuntu 16.04,服务器显卡配置为GeForce GTX 1080 Ti。训练所需超参数设置为:batchsize设置为32,subdivisions为16,动量为0.9,权重衰减为0.000 5,初始学习率为0.001,迭代30 000次,训练至20 000和25 000次时分别对当前学习率进行0.1倍的衰减。

3.3.1 Railway数据集测试结果

(1)加入注意力机制前后检测结果对比

在特征融合阶段加入CSAM注意力模块对低层特征图中背景噪声进行抑制,定性说明注意力机制对于背景噪声的抑制作用。加入注意力机制前后特征图可视化结果对比见图7。

图7 加入注意力机制前后特征图可视化结果对比

由图7(b)可以看出:低层特征图中包含大量背景噪声;如不对背景噪声进行抑制而直接与高层特征图融合,会导致融合后特征图存在背景噪声干扰,见图7(c);引入CSAM注意力后背景噪声得到有效抑制,见图7(d),从而说明了改进的有效性。

(2)综合改进检测结果对比

依次将CIoU损失函数、四倍降采样预测分支、通道-空间注意力机制加入YOLOv3网络,在Railway数据集测试改进前后算法检测性能。网络综合改进前后测试结果对比见表2。

表2 网络综合改进前后测试结果对比

由表2可以看出:将CIoU损失函数用于训练过程中目标框回归时,使YOLOv3在不改变参数量和计算量的前提下对数平均漏检率降低了3.2%;在此基础上增加四倍降采样分支,运行速度降低了1.93 fps,对数平均漏检率进一步降低了6%;在特征融合阶段引入通道注意力和空间注意力均可以提高网络检测精度,两种注意力叠加使用时检测精度进一步提高,对数平均漏检率降低了1.85%,检测速度略有降低。

图8 改进前后算法测试结果对比

改进前后算法在Railway数据集的检测结果示例见图9。图9(a)中红色框为人工标记的真实框,图9(b)和图9(c)中蓝色框为改进前后网络预测框。由图9中可见,使用YOLOv3检测时漏检的行人通过本文算法成功被检出。

图9 改进前后算法在Railway数据集检测结果示例

为进一步验证本文算法的优越性,将本文算法与现阶段其他小目标检测算法进行对比。不同算法训练所用数据集及实验环境配置相同,其在Railway数据集测试结果对比见表3。

表3 不同算法在Railway数据集测试结果对比

从表3中可以看出,本文算法在检测精度上具有明显优势,相较于原始YOLOv3网络对数平均漏检率降低了11.31%,相较于其他改进YOLOv3算法仍具有更高的检测精度。但由于本文算法在原始YOLOv3网络基础上增加了四倍降采样分支以及CSAM注意力机制,网络层数增加增大了网络的参数量及运算量,致使检测速度有所降低。

3.3.2 Caltech公开数据集测试结果

为验证本文算法泛化性能以及与现阶段主流算法进行对比,在Caltech公开数据集上对算法检测性能进行评估。Caltech数据集采集自10 h的车载视频,分辨率为640×480。按照常规划分,set00~set05子集中每3帧取一帧构成训练集,set06~set10子集中每30帧取一帧构成测试集,网络输入为608×608。

由于本文将小尺度行人定义为宽度小于20像素的行人,因此在Caltech数据集的“Scale=Far”(行人宽度为0~12像素)和“Scale=Medium”(行人宽度为12~32像素)子集上测试本文算法对小尺度行人的检测性能。同时,为进一步验证本文算法对所有尺度行人的普适性,在“Reasonable”和“All”子集上对算法进行测试。不同算法在Caltech数据集测试结果对比见表4。

表4 不同算法在Caltech数据集测试结果对比

从表4可以看出,本文算法在“Reasonable”子集的对数平均漏检率与SDS-RCNN算法存在2.34%的差距,但在“All”“Scale=Medium”“Scale=Far”子集相较于其他算法均具有更高的检测精度,对数平均漏检率明显降低。在检测速度方面,本文算法相较于SA-FastRCNN等网络检测速度较快,但由于网络层数增加致使本文算法相较于原始YOLOv3检测速度有所降低。

4 结论

(1)本文针对使用YOLOv3网络进行小尺度行人检测时存在的不足,从多尺度预测、特征融合、损失函数优化三方面对网络作出改进,提出了一种基于注意力和多级特征融合的铁路场景小尺度行人检测网络AMFF-Net。

(2)通过在Railway私有数据集和Caltech公开数据集上测试,本文算法相较于原始YOLOv3网络虽然运行速度有所降低,但检测精度明显提升,在Railway数据集上对数平均漏检率降低了11.3%,在Caltech数据集的不同子集中对数平均漏检率均有明显降低。在后续研究中可通过将网络轻量化进一步加快算法检测速度。

猜你喜欢
背景噪声行人尺度
环境背景噪声对飞机噪声监测结果的影响
毒舌出没,行人避让
利用背景噪声研究福建金钟库区地壳介质波速变化
财产的五大尺度和五重应对
路不为寻找者而设
应用背景噪声成像研究祁连山地区地壳S波速度结构
我是行人
曝光闯红灯行人值得借鉴
宇宙的尺度
9