视频监控领域深度特征编码的行人检测算法

2019-09-10 18:31罗南超郑伯川
关键词:模式识别

罗南超 郑伯川

摘 要:由于高清视频监控领域现有行人检测算法在复杂背景下检测准确率不高且检测实时性不强,提出了一种新颖的深度特征行人检测算法,该算法利用聚合通道特征模型对监控高清图像进行预处理,筛选出具有显著特性的疑似目标,大大降低目标检测的数量;然后对获取的疑似目标区域进行尺度校正与特征提取,并输入到深度模型中进行深度特征编码,提高特征的表征能力;最后输入到LSSVM分类模型,得到最终的行人检测结果。仿真实验结果显示所提行人检测算法在保证检测准确率的同时,具有较高的检测效率。

关键词:模式识别;深度编码;行人检测;SVM算法;自编码网络;聚合通道特征

中图分类号:TP 391.9   文献标志码:A

DOI:10.13800/j.cnki.xakjdxxb.2019.0419   文章编号:1672-9315(2019)04-0701-07

Abstract:To solve the problem of poor real time detection and low precision in video surveillance,a novel deep feature based pedestrian detection algorithm is proposed.The algorithm firstly uses the aggregation channel feature model to process the surveillance images,and selects the suspected target region with salient characteristics.Then,the scaled correction and feature extraction are performed on the obtained suspected target region.The corresponding low level features are obtained and input into the deep auto encoder network for deep feature coding so as to enhance the representation ability.Finally,the coding feature is input into the least squares SVM classification model to obtain the final detection results.A large number of qualitative and quantitative experimental results show that the proposed detection algorithm guarantees the accuracy of pedestrian detection with higher efficiency.

Key words:pattern recognition;deep coding;pedestrian detection;SVM Model;auto encoder network;aggregation channel feature

0 引 言

行人检测是安防监控、智能驾驶等领域的关键技术,吸引了国内外科研人员的广泛关注与深入研究[1]。并提出了许多有效的解决方案与算法,取得了重大的进展。然而,现有的大部分算法对目标姿态、服饰、分辨率等因素比较敏感,这就使得行人检测的普适性不强,复杂背景下检测精度不高[2]。

早期行人检测算法大都是采用背景建模方法,通过提取前景目标特征,最后采用支持向量机、AdBoost,随机森林、决策树等模型进行行人检测与分类[3]。这些传统的检测分类模型对固定场景下明显行人目标检测效果较好,但对复杂变化场景的检测率不高,其本质原因是现有特征对行人的描述能力不够。近年来,以卷积神经网络为代表的深度模型强调模型的深度,通过将低层次特征进行逐层组合优化,获得更加抽象的高层次特征,增强目标模型的表征能力[4]。

目前,行人检测领域的研究方向大都集中在深度学习领域,取得了巨大突破,提出了以卷积神经网络(CNN)为框架的RCNN,SPP NET,Fast RCNN,Faster RCNN和以YOLO为框架的SSD,CS SSD[5-6]。Byeon等人在RCNN的基础上,将难分样本挖掘机制嵌入SGD模型中,使得训练过程根据训练函数自动选择合适的正负样本进行训练[7];由于高层的抽象特征损失了很多細节信息,Zhang等人提出了一个多层次特征融合的深度模型,不仅考虑了高层特征语义信息,还结合低层次纹理信息,提升行人目标定位精度。虽然深度学习算法提升了整个检测领域的检测性能,但由于该模型训练耗时,同时对硬件要求较高,直接影响实时性应用[8]。

由于现有的算法都是采用穷举策略对样本训练学习再进行分类,不仅具有很高的算法复杂度,模型的泛化能力也不高。因此,笔者结合多年在安防监控领域图像处理算法的经验,以“XXX市平安城市监控项目”为契机,对高清监控领域复杂场景下行人目标检测算法进行了多层次深入分析,针对现有算法实时性不强的问题,提出了一种高层次特征深度编码的行人检测算法,该算法是利用聚合信道特征提取出高清图像中多尺度显著性目标,通过降低疑似样本的数据,提升检测的速度;为了提高检测的精度,该算法直接对获取的疑似区域进行深度特征编码,得到高层次深度特征;最后采用最小二乘支持向量机对获得的深度特征进行决策分类,输出检测到的行人目标。实验结果表明文中所提的特征深度行人检测算法的检测效率较高,对复杂背景下的小尺度、非刚性行人目标检测准确率较高,适合应用于高清监控、安防等领域。

1 深度特征自编码网络

1.1 深度自编码模型及其相应符号描述

1.4 行人检测及其框架

众所周知,现在目标检测算法大都利用一定的搜索策略生成海量的候选样本集,然后利用响应的算法,如相关匹配、检测器、模式识别等模型对候选区域进行评分(Score),从中找出最优样本作为最终检测到的目标[17]。这是一种穷举搜索模式,复杂度相当高。同时,由于行人是非刚性目标,其外形受尺度、姿态等因素影响太大,一方面只有通过多尺度筛选目标才能覆盖所有目标区域,复杂度太高;另一方面对多尺度区域进行筛选的算法非常低效[18]。为了降低行人检测样本复杂度,增强检测的效率,首先采用聚合通道特征模型获取疑似目标区域,降低单帧图像搜索时间。大量定性定量仿真实验结果表明,经过聚合通道特征模型处理后疑似目标几乎囊括了图像中所有可能目标区域,大大降低疑似目标检测时间。

假定经预处理的图像具有M个疑似显著性区域,可以表示为{Bi∈Rmi×ni|i=1,2,…,M}。由于不同疑似区域的尺度不同,且模型训练参数是固定大小,因此,为了便于模型训练与参数的优化,M个疑似样本需要归一化到统一的尺度,{Di∈Rm×n|i=1,2,…,M}。

由于疑似样本Di需要归一化到统一的尺度,通过获取相应的梯度直方图特征,并将其转换成特征向量di;然后利用学习到的深度模型进行深度编码,得到深度特征向量vi;最后利用训练好的LSSVM对深度特征进行分类,找到最优行人目标,并重构出分类向量ci,其中ci=gd(θ,vi).图1展示了文中提出的行人检测模型的训练流程;图2则是提出的行人检测算法对疑似样本的检测过程,可以看出该模型通过预处理可以大大降低样本量,只需要对疑似区域进行检测;同时,深度编码增强了行人的表征能力,可提高疑似目标检测精度。

2.1 实验数据集

为了有效评估所提深度特征编码行人检测算法的性能,选择了国际上通用的行人检测公共数据集:NICAT与MIT。针对实验特征,所有图片被随机分成测试集、训练集与验证集,其中训练集中包含于13 589个训练样本,13 991个负样本。由于模型都是归一化到相同尺度进行深度特征编码,所有样本尺度设置为64×128.测试集则包含有948张具有不同尺度、服饰、分辨率,姿态的行人。

2.2 对比算法及评价指标

对比算法不仅包含传统低层次特征行人检测算法,也包含现有最新深度学习算法,分别是HoG SVM(HS)[19],CLPD[20],CrossTalk[21],Shapelet[22],HOG LPB[23],R CNN[24],各对比算法的特点见表1.为了便于定量分析各算法的检测性能,实验选用检测错误权衡图(DET)曲线[25]和检测时间(Time)分析与评价不同算法的行人检测效果,其中DET表征每个图像检测准确率与误检率(False Positives Per Image,FPPI)的关系。实验软硬件环境设置为:Xeon Bronze 3106-B 1.7 GHz,32 GB内存,Nvidia Geforce GTX 1080Ti,Ubuntul 604,64位操作系统。

2.3 定量性能对比及其分析

为了定量对比所有算法的检测性能,图3展示了行人目标检测准确率与FPPI的关系曲线。从曲线图可以看出,相比于HS算法、HOG LPB算法、Shapelet算法、CLPD算法和CrossTalk算法,所提检测算法具有较高的准确率,重要的是该深度编码模型也比RCNN性能较好,主要是文中算法是对低层次特征进行深度编码,泛化性较高。为了便于直观分析,表2中展示了FPPI=1时不同算法下检测的准确率,这便于直观分析。当FPPI=1时,算法的检测率是67.79%,而对比算法中最好检测结果是65.01%.从曲线图可以看出,在相同条件下,提出的算法准确率最高,相比于深度学习RCNN高2.78%.总之,所提算法获得较好的检测效果,主要归功于直接对低层次方向直方图特征进行深度编码,增加了目標表征能力,进一步增强模型的泛化性;同时,模型摒弃了传统深度学习采用softmax进行分类学习,而是采用了最优线性最优解得最小二乘SVM分类算法,进一步提升了模型检测的整体性能。

时间复杂度是评价算法性能的一个重要指标。为了便于客观分析,对比算法都是采用作者提供的源代码或可执行文件,其参数及其初值都使用默认值。由于对比算法的编程语言与编程风格的差异,这对评估文中所提算法的运算时间带来了一定的困难。因此,文中仅仅对具有相同硬件环境下进行分析,其对相同图像平均检测时间见表3.虽然提出的深度特征编码算法增加了预处理模块,但这反而降低了算法的时间复杂度。这是由于采用的预处理模块是一种低漏检的显著性目标检测算法,可以过滤掉大量非目标区域,大大降低后续特征提取与深度编码的时间。实验结果也表明,模型的单帧计算时间最低。若能采取多通道GPU并行编程,算法将达到实时的检测效果。

2.4 检测结果定性分析

试验从测试数据集中挑选了3幅比较有代表性的图像进行分析,结果如图4所示。由于篇幅的限制,只对定量结果中最好的HOG LPB,RCNN与Shapelet进行定性对比分析。红色的矩形框是文中算法检测到的行人结果,可以看出文中算法能够检测到图像中的行人,尤其是第一行图像中间的远处模糊的白色衣服行人,主要归功于深度编码的表征能力,然而第二行中墙上的疑似区域也被检测出来,但文中算法不存在漏检,充分说明算法的有效性。第三行图像中,墙壁的颜色与某个行人的衣服一致,导致对比结果中出现一些漏检,文中的算法能够检测到行人,但墙壁上一些类似行人的区域也被检测成行人,而且对类似行人的影子也有误检,但文中算法不存在漏检。蓝色矩形框为RCNN算法的检测结果,该算法直接利用样本进行深度特征学习,其结果中能找到大多数明显的目标,然而对远处的行人检测效果不佳,主要是该模型在进行多层学习时存在梯度消失现象,造成一些弱小目标被排除;黄色矩形框是Shapelet算法的结果,该算法是利用机器学习的方法自动地生成自适应的局部特征,主要还是通过低层次梯度信息进行组合。从结果可以看出,该算法对明显边缘信息的行人检测较好,但存在大量的虚检。粉色矩形框是HOG LPB的结果,该方法是融合多种特征对行人进行检测,但从结果看出,该方法的检测精确度较差,存在漏检与误检。值得注意的是,文中提出的行人检测算法也存在一些误检,尤其是针对一些疑似强边缘目标,主要是采用了方向梯度直方图作为低层次特征,与人体类似的强边缘很容易误认为人体,但该模型也对对携带行李、附着物遮挡等情况的检测效果较好,这表明深度编码可以增强特征表征能力,提升检测精度。

3 结 论

1)提出的深度特征编码行人检测算法能够利用聚合信道特征模型筛选出具有显著特性的疑似目标区域,降低检测样本的复杂度。

2)对获取的疑似目标区域进行深度特征编码,增强特征的表征能力。

3)实验结果表明所提出算法在复杂背景下的检测性能超过现有大多数检测算法,具有一定的可行性和使用价值。

因此,文中提出的行人检测算法可以应用于高清监控、安防等领域,解决现有行人检测算法在复杂背景下存在检测准确率不高且检测实时性不强的问题。下一步,我们将算法移植到监控系统中,进一步验证算法的工程价值。

参考文献(References):

[1] 覃 剑,王美华.采用在线高斯模型的行人检测候选框快速生成方法[J].光学学报,2016,36(11):169-179.

QIN Jian,WANG Mei hua.Fast pedestrian proposal generation algorithm using online Gaussian model[J].Acta Optica Sinica,2016,36(11):169-179.

[2]吴冬梅,王 静,李白萍,等.基于改進SURF算法的大规模群体人数统计[J].西安科技大学学报,2015,35(5):650-655.

WU Dong mei,WANG Jing,LI Bai ping,et al.Large scale population statistics based on improved SURF algorithm[J].Journal of Xi’an University of Science and Technology,2015,35(5):650-655.

[3]Benenson R,Omran M,Hosang J,et al.Ten years of pedestrian detection,what have we learned?[C]//European Conference on Computer Vision,2014:613-627.

[4]Tian Y,Luo P,Wang X,et al.Deep learning strong parts for pedestrian detection[C]//International Conference on Computer Vision,2015:1904-1912.

[5]Liu W,Anguelov D,Erhan D,et al.SSD:Single shot MultiBox detector[C]//European Conference on Computer Vision,2016:21-37.

[6]Ren S,He K,Girshick R,et al.Faster rcnn:towards real time object detection with region proposal networks[C]//Advances in Neural Information Processing Systems,2015:91-99.

[7]Byeon Y H,Kwak K C.A performance comparison of pedestrian detection using faster RCNN and ACF[C]//International Conference on Advanced Applied Informatics,2017:858-863.

[8]Zh Z,Xie C,Wang J,et al.Deepvotin:a robust and explainable deep network for semantic part detection under partial occlusion[C]//IEEE Conference on Computer Vision and Pattern Recognition,2018:1372-1380.

[9]Munder S,Gavrila D M.An experimental study on pedestrian classification[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2006,28(11):1863-1868.

[10]Zhao X,He Z,Zhang S,et al.Robust pedestrian detection in thermal infrared imagery using a shape distribution histogram feature and modified sparse representation classification[J].Pattern Recognition,2015,48(6):1947-1960.

[11]Tang Z,Wang S,Huo J,et al.Bayesian framework with non local and low rank constraint for image reconstruction[C]//Journal of Physics Conference Series,2017:010-038.

[12]Zhang S,Benenson R,Schiele B,et al.Filtered channel features for pedestrian detection[C]//Computer Vision and Pattern Recognition,2015:1751-1760.

[13]Guo L,Ge P S,Zhang M H,et al.Pedestrian detection for intelligent transportation systems combining AdaBoost algorithm and support vector machine[J].Expert Systems with Applications,2012,39(4):4274-4286.

[14]Zhang J,Shan S,Kan M,et al.Coarse to Fine Auto Encoder Networks(CFAN) for real time face alignment[C]//European Conference on Computer Vision,2014:1-16.

[15]Mathur,Mridul Kumar.Image compression using robust error back propagation neural network with GDAL[J].International Journal of Research and Engineering,2017,14(4):133-136.

[16]Li L,Yu S,Xiao W,et al.Sequence based identification of recombination spots using pseudo nucleic acid representation and recursive feature extraction by linear kernel SVM[J].BMC Bioinformatics,2014,15(1):340.

[17]Hosang J H,Benenson R,Dollar P,et al.What makes for effective detection proposals[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2016,38(4):814-830.

[18]Girshick R B,Donahue J,Darrell T,et al.Region based convolutional networks for accurate object detection and segmentation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2016,38(1):142-158.

[19]Dalal N,Triggs B.Histograms of oriented gradients for human detection[C]//Computer Vision and Pattern Recognition,2005:886-893.

[20]Dollar P,Wojek C,Schiele B,et al.Pedestrian detection:an evaluation of the state of the art[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,34(4):743-761.

[21]Dollar P,Appel R,Kienzl W.Crosstalk cascades for frame rate pedestrian detection[C]//European Conference on Computer Vision,2012:645-659.

[22]Sabzmeydani P, Mori G. Detecting Pedestrians by Learning Shapelet Features[C]//Computer Vision and Pattern Recognition, 2007: 1-8.

[23]Wang X,Han T X,Yan S,et al.An HOG LBP human detector with partial occlusion handling[C]//International Conference on Computer Vision,2009:32-39.

[24]Girshick R B.Fast R CNN[C]//International Conference on Computer Vision,2015:1440-1448.

[25]Felzenszwalb P F,Girshick R B,Mcallester D A,et al.Object detection with discriminatively trained part based models[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2010,32(9):1627-1645.

猜你喜欢
模式识别
轻身调脂消渴片的指纹图谱建立、化学模式识别及含量测定
基于MBP算法和深度学习的人脸识别
基于二次随机森林的不平衡数据分类算法
基于视频的带电作业中组合间隙的智能检测
基于特征化字典的低秩表示人脸识别
汽车外观造型创新设计遗传算法的应用
基于Matlab的人脸检测实验设计
自动洁地机器人的设计
珠宝科技进步对珠宝鉴定的影响
分布式光纤传感边坡工程检测设计