Faster RCNN的交通场景下行人检测方法

2020-06-19 08:45徐向前孙涛

软件导刊 2020年4期

徐向前孙涛

摘要：为了提高行人检测的准确性和鲁棒性，针对现有行人检测方法准确率低且实时性不佳等问题，参考目标检测算法中快速区域卷积神经网络Faster RCNN算法，首先采用K-means聚类算法得到合适的宽高比，然后优化区域建议网络（ RPN）结构，降低计算量，并通过比较MobileNet、VGG16、ResNet50特征提取网络效果优劣，提出改进Faster RCNN的交通场景下行人检测方法，在Caltech-NEW数据集上进行训练与测试。实验结果表明，该方法大幅提高交通场景下行人检测的实时性和准确性，在测试集上检测准确度达到87.5%，单张图片检测耗时为0.187s，相比现有其它方法，其检测效果更好。

关键词：卷积神经网络;行人检测;K-means算法;区域建议网络

DOI： 10. 11907/rjdk.192692

开放科学（资源服务）标识码（OSID）：

中图分类号：TP306

文献标识码：A

文章编号：1672-7800（ 2020）004-0067-04

Pedestrian Detection Method in Traffic Scene Based on Faster RCNN

XU Xiang-qian， SUN Tao

（kSchool of Mech.an ical Engi，zeering ，Univer.sity of Sh.angh.aifor Science and Tech.nology，Sharzgh.ai 200093，China ）Abstract ： In order to iiuprove the accuracy and robustness of pedestrian detection ， aiming at the problems of' low accu racy and poor re-al-time perforruance of existing pedestrian detection methods. fast neural network of fast region convolution in target detection algo-rithm is ref'erred. Firstly， K-means algorithru is used to obtain the appropriate aspect ratio. then the structure of region proposal net-work （ RPN） is improved to reduce the amount of calculations. By conlparing the performance of MobileNet. VGG16. and ResNet50feature extraction networks. an improved detection method of traffic scene based on Faster RCNN is proposed. and the improved algo-rithm is trained and tested on the Caltech-NEW dataset. The experimenfal results shouw that the method greatly improves the real-timeand accuracy of detection in traffic scenes. The mAP （mean Average Precision） on the test set is 87.5% . and the detection speed of asingle picture is 0.187 seconds. Compared with other methods.this method is better.Key Words ： convolutional neural network ; pedestrian detection ; K-means algorithm ; RPN

O 引言

交通場景下行人检测是指在交通场景下，判断图像或者视频序列中是否包含行人目标并准确判断出行人位置。行人检测是目标检测中非常重要的课题，基于卷积神经网络的行人目标检测方法是国内外学者的研究热点，行人检测算法在高级驾驶辅助系统（ADAS）、智能驾驶系统、智能机器人、行人数据分析等领域有着重要应用“。

传统的目标检测方法将SIFT[2]（Scale-Invariant Fea-ture Transform）、HOG[3]（histogram of oriented gradient）等传统人工提取的特征算子传人SVM[4]。（Support Vector Ma-chine）、AdaBoost等分类器进行分类并完成目标检测。在现实生活中，人类是一个刚性和柔性相结合的物体，在受到光照、姿态、尺寸等因素v影响时，传统人工提取的特征算子往往不能满足行人检测要求，存在泛化能力弱、准确度低等缺点[5]。

近年来，以卷积神经网络为代表的深度学习算法在图片分类、目标检测等领域取得了巨大成功。基于卷积神经网络的深度学习目标检测方法相比于人工设计特征算子的传统方法，其能够自主学习图片不同层级的不同特征，提取图片中更加丰富、更加抽象的特征[6]。目前，深度学习算法中最有代表性的算法有RCNN[7]、Fast RCNN.sJ、FasterRCNN[9]。、YOLO[10]等。在这些算法中，整体可以归为两类，第一类是以R-CNN为代表的卷积神经网络，其采用两步式（ Two-Stage）[11].首先会找出图片中目标可能出现的位置，即区域提议（Region Proposal），然后利用特征层提取的特征信息对目标作分类，这类检测器的优点是检测准确率高，问题是无法达到实时性要求;第二类是以YOLO为代表的卷积神经网络，采用端到端（End-to-End）的方式[12]，将目标检测任务转化为回归问题，这类检测器的实时性显著提高，但是准确率不如Faster RCNN等两步式检测器[13]。

本文基于Faster RCNN目标检测算法，使用K-means聚类算法得出适合交通场景下的行人锚框宽高比，优化区域提议网络RPN），然后将MobileNet[14]、VGG16[15]、ResNet50分别作为特征提取网络，对比3种特征提取网络对行人检测模型准确率的影响。在此基础上，提出改进的Faster RCNN的交通场景下行人检测方法，并研究对比不同模型在不同行人数据集上的行人检测能力。

1 基于Faster RCNN的行人检测方法

Faster RCNN目标检测算法流程如图1所示。整个过程分为输入原始图像、通过特征提取网络提取特征，利用区域建议网络生成初步候选区域、利用检测网络进行行人分类和回归计算得到行人位置框等过程[16]。

Faster RCNN为了得到初步候选区域，运用区域建议网络自动生成候选区域，将特征网络提取的特征图作为区域建议网络的输入，区域建议网络将输出初步的目标候选矩形框。为了生成候选区域，在特征网络提取的特征图上使用一个nXn的滑动窗口（卷积核）以一定的步长滑动。区域建议网络是一个全卷积网络，由分类和窗口回归两部分组成，在分类层输出2xh个得分，主要用于判断候选区域中的目标所属类别（行人或者背景）。候选区域与真实值（ ground truth）重叠部分面积超过阈值0.7，则被判定为存在行人目标，此时被判定为背景，其余忽略不计。在回归层会根据输入的候选区域得到4xk个坐标位置，用于微调候选框。

Faster RCNN引入锚框机制（Anchors），Faster RCNN的锚框具有不同的尺度和比例，3种尺度大小分别为128、256、512以及3种宽高比分别为1：1、1：2、2：1。

2 改进的行人检测方法

2.1 区域建议网络（RPN）改进

Faster RCNN网络能够白动提取训练集样本的特征信息，对位移、尺度等具有一定的不变性，在检测目标时有较好的检测精度和较快的检测速度[17]。但Faster RCNN网络在检测行人目标时存在众多影响网络检测实时性和识别准确率的因素，Faster RCNN网络并不能完全满足交通场景下行人检测任务实时性和准确率的要求[18]。其存在如下缺点：①交通场景下，行人检测需要较高的实时性，Fast-er RCNN检测行人目标的实时性不足;②Faster RCNN检测行人目标的检测精度较差。本文利用K-means算法计算出合适的锚框宽高比，优化区域建议网络结构，提高准确率与实时性。建立Caltech-NEW行人数据集用于训练模型，提高模型准确率和泛化能力。

区域建议网络的锚框参数设置忽略了行人目标的特殊性。在绝大多数交通场景下，行人目标都是高度大于寬度，因此设置不同宽高比的锚框对交通场景下的行人目标而言是一种干扰，锚框宽高比应该根据实际情况确定。

2.2锚框聚类分析

通过K-means聚类算法统计Caltech-NEW行人数据集中全部行人目标位置框的真实值（Ground Truth）。将行人目标框真实值的宽高比作为样本i，聚类目标是找到每个样本潜在的类别v，并将同类v的样本i放在一起。算法具体步骤如下：

Stepl：随机选取k=2、3，聚类中心点为：

Step2：对于每一个样本i，计算其历属类别：

Step3：对于每一个类i，计算该类的中心：

Step4：重复以上过程直到收敛。

K-means聚类算法随机计算K个类中心作为起始点。如图2所示，聚类算法会将宽高比样本i分配到离其最近的类中心，根据收敛结果移类中心，重复直至类中心不再改变或者达到限定迭代次数。

如图3所示，聚类分析得出交通场景下行人目标宽高比为w - 0.4lh，本文将原Faster RCNN算法中区域建议网络锚框的宽高比修改为（0.41：1），修改之后的每个位置就有3个Anchor，分类层输出6个节点，回归层输出12个节点。

3 实验分析

3.1实验平台

本文实验以上海理工大学智能车为平台，使用单目摄像头在阴天、雨天、夜晚等多种天气和环境下采集行人数据。

3.2 实验数据集

实验使用的数据集由两个部分组成：①加州理T学院的Caltech Pedestrian Dataset公共数据集。[19];②上海理工大学智能车平台采集的真实交通场景行人数据集。

本次实验所用的数据集命名为Caltech-NEW数据集，数据集共包含约16000张图片。为了提高泛化能力，在Caltech数据集的基础上加入上海市区以及校园内采集的大量符合汽车行车视角的行人图片，分别包含：晴天、雨天、阴天、雪天、夜晚。图片尺寸为640x480，数据集图像示例如图4所示。

3.3 实验评价方法

本文引进准确率和召回率以更好地评价模型，如式（3）、式（4）所示。

准确率=

召回率=

式中，TP代表正确地检测出了行人，FP代表将其它目标当作行人，FN代表将行人当作其它目标，TN代表没有检测出行人目标。

假设Ⅳ个样本，其中M个正例，可以得到M个召回率：，对于每个召回率r，其最大准确率如式（5）所示。

（Average Precision）[20]用以衡量模型在每个类别上的好坏，衡量模型在所有类别上检测性能的高低，计算如式（6）所示。

由于本文只对行人目标这一个类别进行检测，因此m.AP和AP的值相等。

3.4训练过程

本次实验硬件配置是Inter Core i7处理器，内存8GB，GPU为英伟达Quadro P4000。采用的编程环境是Pvthon，基于深度学习框架Tensorflow，网络架构分别以MobileNet、VGG16、ResNet50为基础，最大迭代次数为70000次，学习率为0.001，权值衰减值设置为0.0005，训练30000轮之后开始衰减学习率，动量值设置为0.9。将Caltech-NEW行人数据集的80%作为训练集，20%作为测试集，通过迭代训练调优，得到最佳网络模型。

4 实验结果分析

锚框是区域建议网络的核心，原Faster RCNN算法由于目标大小和宽高比不一致，需要多个尺度的锚框组合，但在本文算法中并不需要如此。本文采用对数据集目标框进行聚类分析得到更加适合行人目标检测的锚框个数和宽高比，使得锚框数量变得较少，缩短了计算时间，加快了检测速度。为了比较RPN网络调整Anchor宽高比对训练结果的影响，在PASCAL VOC2007数据集上训练评估Faster RCNN算法和本文算法，分别训练30000轮。如表1所示，本文改进算法检测率优于原Faster RCNN算法，准确率提高了4.1%。实验结果表明，本文提出的改进算法对于行人检测具有有效性，并提高了准确率。

表2为在Caltech-NEW交通场景数据集测试集上的单张图片检测耗时结果。可以看出，本文算法在改进Fast-er RCNN后，检测所用时间优于未改变的Faster RCNN检测算法。使用改进的RPN使得初步矩形目标候选区域减少，这是一种简单有效的解决方案，使用了GPU加速，减少了训练时间。实验结果表明，本文算法有效提高了行人检测的实时性。

为了对比不同特征提取网络对算法准确率的影响，分别采用MobileNet、ResNet50、VGG16特征提取网络与本文改进算法相结合，在Caltech-NEW行人数据集上分别训练行人目标检测模型。如表3所示，在0- 30000轮迭代次数，本文算法训练得出的检测模型随着迭代次数的增加，mAP值快速提升并趋于稳定;在迭代次数为30000轮时，准确率达到0.85左右，之后随着迭代次数的增加，准确率略有波动，但总体上保持不变。这表明本文算法所得出的3种模型在迭代30 000次时其检测性能基本都达到了较好水平。继续训练达到70 000轮迭代后，各特征提取网络都出现不同程度的准确率下降。综上所述，采用VGG16、ResNet50为特征提取网络时，本文算法得出的检测模型效果较佳，当迭代次数超过30 000轮时，采用MoblieNet为特征提取网络效果最好。

本文算法得出的检测模型Loss曲线随着训练迭代次数的增加，检测模型性能基本保持不变，在超过70000迭代次数之后，模型没有出现过拟合现象。

由图5可知，本文的算法在召回率小于0.8时，模型准确率处于0.95左右。在Caltech-NEW数据集测试集上mAP值为0.860，相较于原Faster RCNN算法在行人目标的准确率0.702，采用改进后的Faster RCNN算法准确率大幅提高。

在不同的交通环境场景下，采用本文算法在Caltech-NEW数据集测试集中的部分检测结果如图6所示。

5 结语

随着智能驾驶的不断发展，保障行人安全一直是智能驾驶研究人员的共同目标，行人目标相较于交通场景下其它目标显得尤为重要。针对已有的目标检测算法在行人检测中检测准确率不佳、检测速度较慢、区域建议网络锚框设置不合理等缺点，以Faster RCNN为基础，提出了交通场景下改进的行人检测算法，根据行人目标在图像中呈现宽高比相对固定的规律，通过K-means聚类算法优化RPN区域建议网络，设置合理的anchor数量和宽高比，综合比较3种不同特征提取网络对算法准确率的影响，白建Caltech-NEW数据集，提高模型在交通场景下检测行人目标的泛化能力。通过实验验证，本算法准确率和实时性都较高，证明Anchor框对算法准确率有一定的积极影响。

[1]许言午。曹先杉，乔红，行人检测系统研究新进展及关键技术展望[j]，电子学报，2008.36（5）：368-376.

[2]BAY H ， ESS A， TLTYELAARS T. et al.Speeded-up rohust features（SURF） [J]. Computer Vision and Image Lnderstanding， 2008， 110（3）： 346-359.

[3]DALAL N，TRIGGS B. Histograms of oriented gradients for human de-tection[C]. 2005 IEEE Computer Society Conference on Computer Vi-sion and Pattern Recognition ， 2005 ： 886-893.

[4]]VIOLA P. JPNES M.Robust real-time object detectinn[j]. Interna-tional Journal of Computer Vision.2001，4 ： 34-47.測研究综述[J]. 动化学报. 2007 33（I）： 84 -90 .

[6]CERONIMO D， LOPEZ A. SAPPA A， et al.Survey of pedestrian de-tection for ad.anc.ed driver assistance systems [J]. IEEE Trans . onPattern Analysis and Machine Intelligence ， 2010 ， 32（7）： 1239-1258.

[7GIRSHICK R . DONAHUE J. DARRELL T. et al. Rich feature hierar-chies for accurate object detection and semantic segmentation[c].Pro-ceeding of the IEEE Conference on Computer Vision and Pattern Rec- ognition， 2014 ： 580-587.

[8]GIRSHICK R. Fast R-CNW[c]. Santiago：2015 lEEE InternationalConference on Computer Vision，2015.

[9]REW S， HE K. CIRSHICK R. et al. Faster R-CNN ： towards real-timeohject detection with region proposal networks [j].IEEE Transactionson Pattern Analysis &- Machine Intelligenc.e ， 2017 ， 39（6）： 1137-1 149

[10]REDMON J， DIVVALA S， GIRSHICK R， et al.You onlv look once ：unified ， real-time obj ect detection[c] . Prriceedings of the IEEE Con-ference on Computer Vision and Pattern Recognition， 2016 ： 779-788.

[11]杜友田，陳峰，徐文立，等 .基于视觉的的运动别综述 .电子学报， 2007， 35（1）： 84-90.

[12]苏松志 .行人检测若干关键技术术研究 [D].厦门：厦门大学， 2011.

[13]REILLY V ， SOLMAZ B.SHAH M. Geometric constraints for humandetection in aerial imagery [C]. The llth European conferenc：e onComputer ，'ision， 2010 ： 252-265.

[14]HOWARD A C. ZHU M . CHEN B ， et al. Mobilenets efficient convn-lutional neural networks for mohile vision applications[DB/OL] . arX-iv preprint arXir ： 1704.04861.2017.

[15]SIMONYAhr K， ZISSERMAN A.Very deep convr）lutional networksfor large-scale image recongnition[R].Computer Research Reposito-rv.2014.

[16]DOLLAR P， BELOhrCIE S.PERONrA P.The fastest pedestrian detec-tor in the west [C]. Proceedings on British Machine Vision Cnnfer-ence（BMVC 2010） .2010： 1-11.

[17]WOJEK C ， B.SCHIELE. A performance evaluatinn of single andmulti -feature people detection [C] . Annual Symposium of theDeutsche-Arheitsgemeinschaft-fu r-Mustererkennung ， 2008 ： 82-91 .

[18]OJALA T， PIETIKAINEN M . HARWOOD D.A comparative study oftexture measures with classification based ON feature distributions[J]. Pattern Recognition ， 1996， 19（3）： 51-59.

[19]DOLLAR P， WOJEK C . SCHIELE B . et al. Pedestrian detection ： anevaluatir）n of the state of the art [J]. IEEE Transactions on PatternAnalysis and Machine Intelligence ， 2012 ， 34（4）： 743-761.

[20]HENDERSON P. FERRARI V. End-to-end training of ohject classdetectors for mean average precision[J]. Asian Conference on Com-puter Vision， 2016 （ 6）： 198-213.

收稿日期：2019-12-02

作者简介：徐向前（1995-），男，上海理工大学机械工程学院硕士研究生，研究方向为汽车系统动力学;孙涛（1974-），男，博士，上海理

工大学机械工程学院副教授、硕士生导师，研究方向为汽车系统动力学。本文通讯作者：徐向前。