基于特征金字塔SSD的行人检测算法

2021-12-23 07:21:52李福进孟路达
关键词:先验行人卷积

李福进,孟路达

(华北理工大学 电气工程学院,河北 唐山 063210)

引言

汽车在给人们带来出行便利的同时,不仅带来了交通拥堵问题,也带来严峻的安全问题。全球每年有120万人死于交通事故中,平均每25 s就有一人死于车祸。此外,无人驾驶技术逐渐走入人们的生活中,已经成为目前最受关注的人工智能研究方向之一。无论从何种角度,无人驾驶技术都是一项充满挑战性的研究工作。在无人驾驶技术中,对行人检测是尤其重要的板块,与无人驾驶技术的安全性紧密相连[1]。由于现实生活中环境背景复杂多样,场景光照强弱不一,行人之间相互遮挡等问题都是影响行人检测的因素。在无人驾驶技术环境下,怎样使得行人处于安全的环境下,是一项具有挑战性的工作。目标检测是计算机视觉领域的一个重要发展方向,目标检测算法主要分为2类:一种是传统的目标检测算法,对图像中的每个区域进行特征提取,然后使用分类器对图像进行分类的方法;另一种是不需人工提取设计特征的基于深度学习的目标检测算法[2]。

自深度学习方法,尤其是卷积神经网络学习算法的兴起,使得目标检测技术快速精准。基于深度学习的目标检测算法可以分为2类;一类是基于候选区域的两阶段算法,以SPP-NET,FASTER-RCNN为代表,首先提取候选区域,再进行分类和定位,这种算法检测精度高,但是检测速度较慢;另一类是基于回归的一阶段目标检测算法,以YOLO[3],SSD[4]为代表,该算法直接输出边界框的位置及其类别,这种算法检测速度快,可以达到实时检测的目的,但精度略低。

为了调高SSD算法在无人驾驶行人检测中的精度与速度,使用MobileNet[5]代替VGG-16网络作为特征提取网络,减小模型体积,显著降低了计算量,提高检测速度。该研究加入特征金字塔结构[6],使各个特征层之间信息流动,增强语义信息,从而提高检测精度。

1 SSD网络

1.1 网络结构

SSD目标检测算法是一种典型的直接通过回归的单阶段目标检测算法,识别网络为VGG-16网络,将VGG-16网络中的全连接层改为卷积层,并添加4层具有不同感受野的卷积特征图,在这些特征层中获取不同大小和长宽比例的先验框(default box),类似于Faster R-CNN的anchors机制,然后预测先验框中目标的种类与位置。

SSD算法采用难样本挖掘方式(hard negative mining)过滤多余的负样本框,使正负样本比例接近3:1,保持样本平衡,然后利用卷积层提取特征后直接进行分类和回归,最后使用非极大值抑制法对冗余的检测框进行剔除。

1.2 先验框生成与匹配原则

由于卷积神经网络不同层有着不同的感受野,也就是每个特征图上每一个单元对应输入图像的尺寸大小不同。假设用m个特征图做预测,每个特征图会设置6个大小不同的锚框,如图1所示,则每个特征图中锚框大小计算公式如下:

图1 锚框设置原理图

(1)

其中,Smin取为0.2,Smax取为0.9,表示最小尺度为0.2,最大尺度为0.9。锚框的高度与宽度计算公式为:

(2)

其中,ar∈{1,2,3,1/2,1/3},是锚框的宽高比。当ar=1时,额外添加了一个默认框,其尺寸为:

(3)

匹配原则如下:

(1)每个真值框和初始框的交并比(IOU)最大的先验框进行匹配。与真值框匹配的先验框,称为正样本,反之称为负样本。通常一幅图片中的目标非常少,所以真值框很少,但是先验框又很多,负样本相对正样本会很多,极其不平衡。

(2)未匹配的先验框,真值框与某个先验框的IOU大于某个阈值,则匹配。为了正负样本比例接近1∶3,采用难样本挖掘方式滤掉多余负样本。

1.3 SSD局限性

SSD网络中利用多尺度特征图预测目标检测,但如果想要保障检测的性能,需要使每一层特征图都必须足够复杂,才能检测和精准定位行人。为此,可以通过引入特征金字塔方式,使各特征层信息流动,丰富语义信息,从而更精准地检测行人。

2改进的SSD网络

2.1 网络结构

如图2所示改进的SSD网络使用MobileNet作为主干网络,图3是分解过程示意图。

图2 改进的SSD网络结构图

图3 深度可分离卷积示意图

图2中改进的SSD网络使用MobileNet作为主干网络。MobileNet模型是基于深度可分解的卷积,将标准卷积分解成一个深度卷积和一个点卷积(1×1卷积核)。图3中标准卷积输入P的维度是(DP,DP,M),标准卷积核K(DK,DK,M,N)则得到输出G的维度(DG,DG,N),则计算量为DK·DK·M·DP·DP·N。现在将卷积核进行分解,首先对各个通道进行卷积操作,对得到的输出再进行1×1的卷积。计算量为DK·DK·M·DF·DF + M·N·DP·DP,计算量大大减少,为原来的1/D2K+1/N。

2.2 特征金字塔

在SSD网络特征层中进行预测时,浅层特征层的目标空间位置更丰富,深层特征层的语义信息更丰富。为更精准地检测行人,因此引入特征金子塔结构。如图4所示,左侧是从图2中选取的6种尺寸(1,1)、(3,3)、(5,5)、(10,10)、(19,19)和(38,38)的特征层组成自上向下金子塔结构。将语义信息更丰富的高层特征图上采样,保证与下一特征图大小相同,再经过1×1的卷积核,将通道数升为512,提高检测结果,然后将相邻特征图融合,从而生成新的特征图,使信息更加充分,便于检测,最后送入softmax层进行预测分类与回归。

图4 特征金字塔结构

2.3 损失函数

训练过程中总的目标损失函数是由用于分类的损失Lconf用于回归的损失Lloc加权和。总体损失函数公式:

(4)

位置损失函数如下:

(5)

(6)

(7)

置信度损失函数公式如下:

(8)

3实验

3.1 数据增强

数据增强是指通过平移、反转等手段从现有数据中产生新数据的方法。具体进行以下操作:

(1)输入原视图像;

(2)采用一个图像块,使其与目标有不同的重叠比;

(3)随机抽取一个图像块;

(4)每个抽取的图像块设置为固定大小314×314,并以0.5的概率随机水平翻转。

3.2 平台搭建

实验配置为:intel i7-8700CPU,64位Ubuntu16.04 LTS操作系统,Nvidia GeforceGTX1060GPU,实验框架为Tensorflow深度学习框架。为检测算法的性能,该项研究使用PASCAL VOC2007和MSCOCO数据集进行训练和测试,其中VOC数据集包括4个大类,20种小类别的目标。MSCOCO数据集包括80种类的目标。

该项研究将已经训练好的SSD模型作为预训练模型,使用随机梯度下降算法更新参数,在训练集上迭代8万步,设置初始学习率为0.001,权值衰减项为0.000 5,动量项为0.9。

图5为训练过程中的损失函数值,通过曲线可以看到在起始阶段,网络损失值偏高,随着迭代次数的增加,经改进的SSD网络在迭代次数为4万次时趋于收敛,改进的SSD网络保持收敛性能,鲁棒性能较强,未发生过拟合现象。

图5 训练过程中损失函数值

3.3 PASCAL VOC2007

使用VOC2007训练集训练提出的模型。设置bachisize为16,再前50K次迭代中,学习率为0.001,接着以0.000 1和0.000 01的学习速率各训练30K次。

训练结束后,在PASCAL VOC2007测试集(4 950张图片)上进行测试(IOU=0.5),行人检测的P-R曲线如图6所示,由图6中可以看出,随着召回率的升高,精确度整体上要高于传统SSD算法。

图6 行人的P-R曲线对比

VOC2007数据集上测试结果如表1所示,传统的SSD网络在不同层的特征图进行预测,特征没有融合,信息语义缺乏,检测精度低。该项研究加入特征金字塔,高底层间信息流动,检测精度比传统SSD提高了8.3%。并且使用70 000张图片测试实验实时性,计算fps。将MobileNet作为SSD主干网络,减少模型体积,在提高检测精度的同时,加快了检测速度。

表1 PASCAL VOC 2007检测结果(显卡:GTX1060)

3.4 MS COCO

为进一步验证该项研究方法的可行性,在COCO数据集上进行训练,并从验证集随机抽取5 000张行人图像作为测试集对模型进行评估。不同IOU阈值下检测进度如表2所示。

表2 COCO数据集检测结果

从表2中可以看出,该实验方法要比SSD在各个阈值下的精度都要有所提高,阈值为0.5时,平均精度提升5.2%;阈值为0.7时,平均精度提升4.2%;阈值为0.9时,平均精度提升2.5%。阈值为0.5~0.9时平均精度提升4.4%。

4结论

使用基于深度可分解卷积的MobileNet代替传统的VGG-16网络作为SSD的主干网络提取特征,减小模型体积,显著降低了计算量,引入特征金字塔结构,增加特征层的复杂程度,丰富特征层信息,在PASCAL VOC2007和MS COCOD的实验表明,实验方法比SSD检测算法检测更加精准、快速,在无人驾驶技术环境下,为行人的安全性提供了更好的保障。

猜你喜欢
先验行人卷积
基于3D-Winograd的快速卷积算法设计及FPGA实现
毒舌出没,行人避让
意林(2021年5期)2021-04-18 12:21:17
基于无噪图像块先验的MRI低秩分解去噪算法研究
从滤波器理解卷积
电子制作(2019年11期)2019-07-04 00:34:38
路不为寻找者而设
扬子江(2019年1期)2019-03-08 02:52:34
基于傅里叶域卷积表示的目标跟踪算法
我是行人
基于自适应块组割先验的噪声图像超分辨率重建
自动化学报(2017年5期)2017-05-14 06:20:44
基于平滑先验法的被动声信号趋势项消除
先验的废话与功能的进路
东南法学(2015年2期)2015-06-05 12:21:36