行人检测模型向平躺人体检测的迁移及其性能分析

2015-05-25 02:26夏道勋苏松志李绍滋
关键词:候选框平躺检测器

夏道勋,苏松志,李绍滋*

(1.贵州师范大学数学与计算机科学学院,贵州贵阳550001;2.厦门大学信息科学与技术学院,福建厦门361005)

行人检测模型向平躺人体检测的迁移及其性能分析

夏道勋1,2,苏松志2,李绍滋2*

(1.贵州师范大学数学与计算机科学学院,贵州贵阳550001;2.厦门大学信息科学与技术学院,福建厦门361005)

人体检测是计算机视觉研究中的难点和热点,具有很好的理论意义和应用价值,它可分为行人检测和平躺人体检测.平躺人体检测的研究正处于起步阶段,存在视角变化大、姿态多样、背景复杂等尚未解决的问题.为此本文借鉴行人检测研究成果,将梯度方向直方图和支持向量机模型(HOG+SVM)、形变部位模型(DPM)和聚合通道特征(ACF)三大主流行人检测模型迁移到平躺人体检测中,验证它们的检测效果和分析检测性能.总结行人检测和平躺人体检测的异同,找出平躺人体检测存在的关键问题,为建立适应平躺人体检测建模提供了理论依据和实践经验,最后给出平躺人体检测模型的一些研究建议.

行人检测;平躺人体检测;梯度方向直方图;支持向量机模型;形变部位模型;聚合通道特征

人体检测是在输入单张图片或者视频帧中,判断其是否包含人体,如果存在,则给出人体的位置信息,它可分为行人检测和平躺人体检测.人体兼具刚性和柔性物体的特性,易受穿着、尺度、遮挡、姿态和视角等影响,逐渐受到研究人员的高度重视,使得人体检测成为计算机视觉的研究难点与热点.国内外研究机构在该领域做了许多研究工作[1-9].例如,Dollar等[]于2012年实现了100帧/s的检测速度;Ouyang等[]将深度学习引入行人检测中来,使检测效率得到显著提高.行人检测研究中,最具代表性的三大主流行人检测模型分别是梯度方向直方图和支持向量机模型(histogram of oriented gradients(HOG)and support vector machines(SVM),HOG+SVM)[13]、形变部位模型(deformable parts model,DPM)[14]和聚合通道特征(aggregated channel features,ACF)[15].

然而,比较行人检测,平躺人体检测在姿态、视角、透射形变和样本分布等更具挑战性,是计算机视觉和模式识别应用如视频监控、灾害救助、生物特征识别、医疗护理和公共服务机器人等研究领域的关键问题.主要研究方法有时空法、形状不变性、姿态估计法、3D头部位置分析、VAU技术和RGB-D等.研究者提出了一些独特的平躺人体检测算法[16-20].近年来,基于RGB-D目标检测的研究受到广泛的关注.Mastorakis等[21]提出一种新的基于Kinect传感器检测平躺人体方法.Kepski等[]设计一种顶置式三维深度相机实现平躺人体检测,对超过45 000张深度图像进行测试,获得0.0%的错误率.在受害者检测中,近年来研究者们提出了基于无人机(uninhabited aerial vehicle,UAV)的搜救方法[23-24].

根据平躺人体检测研究的现状,较行人检测起步晚,并且不具备理论化、系统化.因此,本文试图将行人检测的三大主流模型向平躺人体检测进行迁移,验证它们的检测效果和分析检测性能,总结行人检测和平躺人体检测的异同,找出平躺人体检测存在的关键问题,为建立适应平躺人体检测建模提供了理论依据和实践经验,最后给出平躺人体检测的一些研究建议.

1 模型迁移

本文只涉及行人检测的三大主流模型HOG+ SVM、DPM和ACF,并将其迁移到平躺人体检测中,对模型迁移过程中存在的关键点和难点提出解决方案,主要包括数据集的重新标注、检测器的重新设计和非极大值抑制的算法设计.

1.1 数据集的标注

人体检测训练阶段和检测阶段输入的数据都是带有人体的图像数据集.数据集由测试集和训练集组成,它们都需要事先进行标注,获取人体在图像中的具体位置,平躺人体数据集也不例外.但是直到现在,较为完整、系统的平躺人体数据集应是厦门大学平躺人体数据集(XMULP),它的详细内容将在2.1中列出.

行人都是直立行走的,它的标注信息图示化是正立的矩形框.如图1的(a)所示,行人的标注信息是由正立矩形最左上角顶点A(x,y)、矩形框的宽w和高h决定·一个行人的标注信息可形式化描述为:{xi,yi,wi,hi},(xi,yi)是矩形框左上角顶点坐标,wi、hi分别是矩形框的宽和高·然而,平躺人体的检测不单受限于行人检测的诸多因素,并且还受人体躯干的主方向和姿态等更显著性变化的限制,用行人检测的标注方法已经不再适应平躺人体检测,需要有适应于平躺人体检测的一套标注方案.本文提出“人体15关节点标注法”,如图1的(b)所示,图中的15个点分别代表人体15个关节点.该方法只要确定头部和腹部关节点的坐标位置,标注软件会自动拟合其他13个关节点的位置,拟合完毕后,可人为调整各个关节点的具体位置,使各个关节点的位置更加准确.当15个关节点位置确定后,以颈部和腹部关节点连线AB作为主方向,在主方向左侧和右侧、上方和下方最远的点C和D、E和F,结合主方向的方向角度θ即可找到平躺人体的标注信息,形式化描述为{xi1,yi1,xi2,yi2,xi3,yi3,xi4,yi4},脚标1~4分别代表矩形的4个顶点序号.平躺人体标注信息是非正立的矩形框,不同的数据样本可能存在不同的平躺方向,要使数据集样本具备多样性,其平躺人体主方向方向夹角应该在(0°,360°]区间服从均匀分布.因此,平躺人体数据集样本在送入HOG+SVM、DPM和ACF模型中进行训练时,必须涉及到训练图片的旋转,将矩形框主方向旋转到正立的方向.

1.2 检测器的重新设计

经过前期的模型训练,HOG+SVM、DPM和ACF模型已经具备检测平躺人体的主方向是正立的情况,非正立的平躺人体是检测不到的.要提升检测器的检测性能,必须将3个模型的检测器重新设计,主要涉及检测图片的视角变化、尺度缩放、非极大值抑制和结果处理等.新设计的检测器如图2所示.

图1 行人标注和平躺人体标注的异同Fig.1 The differences between pedestrian annotation and lying-pose annotation

图2 平躺人体检测过程示意图Fig.2 Sketch map of the lying-pose detection process

1)检测图片的视角变化和尺度缩放.平躺人体的表观受透视变换的影响较大,需要通过透视变换采样来模拟多视角下人体的变形,以增加平躺人体样本的多样性,提高检测器的效率.Morel等[25]在研究图像配准的过程中提出一种仿射变换矩阵(2×2的矩阵)分解方法,受该方法的启示,我们提出了透视变换矩阵的分解方法,在图像采样过程中,以参考图像的中心点作为三维世界坐标系的原点,S为模拟相机方位.根据透视变换成像原理,参考图像上的点(x,y,0)T和采样图像平面上的点(x′,y′)T之间的关系可以通过共线方程描述:

其中f表示相机焦距,(r sinøsinκ, ̄r sinøcosκ,r cos ø)为相机的世界坐标,r表示投影中心和原点之间的距离·因此,图像之间的单应矩阵可以表示为:

最终的透视变换矩阵与旋转角ø、κ和r、f这4个参数相关,r和f的值与目标的尺度相关·在测试过程中,需要对滑动窗口进行归一化,因此可以把这两个参数的值设置为常数·扩充后测试集的数量与参数ø和κ的采样间隔有关,设这两个参数的采样点数为M和N,则扩充后测试集数量是原始数据集数量的MN倍·但在测试过程中,如果同时兼顾检测精度和检测速度,需要对测试集的透视变换进行优化和精简·

2)检测候选框的非极大值抑制.对原始测试集的单张图像进行检测时,通过上一步的透视变换,产生不同视角、不同尺度的待检测实例,经过滑动窗口切割的样本送入模型进行分类,得到平躺人体检测候选框,候选框附带有(x1,y1,x2,y2,x3,y3,x4,y4,scale,angle,score)参数值,前面8个参数是候选框在尺度scale和角度angle下的矩形框的4个顶点坐标值,score是分类器对候选框的判分值.这些候选框相对于原始图像有着不同的旋转角度和缩放尺度,必须对这些候选框坐标值做反向处理,将所有候选框坐标反向变化到原始单张图像下,带有不同的尺度大小、不同主方向和不同分类器判分值的众多候选框形成形如金字塔模型.利用Mean-Shift算法进行非极大值抑制,得出最终的检测结果.

1.3 非极大值抑制的改进

本节重点阐述金字塔Mean-Shift算法.Mean-Shift最早由Fukunaga等[26]提出关于概率密度梯度函数的估计,是偏移的均值向量.后来,Cheng[27]对Mean Shift算法在族核函数和权重系数2个方面做了推广,使得不同样本点的重要性不一样,这极大地延伸了Mean-Shift的适用范围,它在聚类、图像平滑、图像分割和跟踪方面得到广泛的应用.

在数据集合的分析过程中,如果需要知道数据分布密度最大的位置,即可对标准密度梯度进行估计.利用核函数的可微性,其密度梯度估计定义为恒等于核密度估计的梯度·其梯度为:

令g(x)= ̄k′(x),假设除了有限个点,轮廓函数k(.x)的梯度对所有x∈[0,∞)均存在·将g(x)作为轮廓函数,核函数G(x)定义为G(x)=cg,dg(‖x‖2),这里cg,d是标准化常量,核函数K(x)称为核函数G(x)的阴影函数(shadow)·将g(x)代入上式有:

上式中的第1项是在x点处基于核函数G(x)的无参密度估计,第2项(第2个中括号内)是Mean-Shift向量,令为mh,G(x).为了更好地理解这个式子的物理意义,我们假设上式中的g(x)=1,这时mh,G(x)可以写成.

Mean-Shift向量mh,G(x)应该转移到样本点相对于点x变化最多(最大)的地方,其方向也就是密度梯度的方向·但是,式(5)中的所有样本点xi对m(x)的贡献是一样的·一般而言,离x越近的采样点估计x周围的统计特征越重要,因此引入了核函数的概念·就是对每个采样点的权值,所以式(4)是在核函数g(x)加权下的Mean-Shift向量.

金字塔Mean-Shift算法是在它的基础上,将不同尺度、不同角度以及不同分类权重等的所有数据集,融合在相同参考值下,做统一的非极大值抑制.为了较为直观地展示算法的实现过程,我们将问题做简化.在二维平面下,生成服从高斯分布的有限个随机点,随机点附带有与检测候选框相同的参数值,如图3(a)所示.经过金字塔Mean-Shift算法非极大值抑制后,得出如图3(b)所示的6个中心点,中心点即为我们所需要的坐标位置.

图3 金字塔Mean-Shift算法示意图Fig.3 Sketch map of the pyramid Mean-Shift algorithm

2 实验及性能分析

2.1 数据集

人体检测的训练阶段和检测阶段输入的数据是人体数据集.本文的平躺人体数据集采用XMULP.见图4.

该数据集由训练集和测试集组成,训练集正样本有1 003张图像共1 487个平躺人体,负样本有3 764张图像.测试集有313张图像共532个平躺人体.它们是从厦门大学校园内以及周边不同场景下采集而得,有多于30个自愿者参与.图4显示,平躺人体躯体的朝向在(0°,360°]服从均匀分布,标注的平躺人体矩形框的宽高比服从高斯分布,证明了数据集的可靠性.

图4 数据集平躺人体角度(a)和宽高比(b)的分布Fig.4 The aspect ratio(a)and lying-pose angular(b)distribution of the dataset

2.2 性能评价指标

在目标检测领域中常用的性能评价指标有两个:FPPW(false positive per window)和FPPI(false positive per image).基于滑动窗口的目标检测框架中,窗口融合算法的选择会影响到检测器的性能,FPPI需要对检测窗口进行合并,能有效评估不同检测器的检测能力,因此本文采用FPPI评估行人检测模型迁移性能,它是通过逐渐递增检测器阂值而得.在某张检测图像中,如果检测器检测窗口BBdt能显著地覆盖人体真实窗口BBgt的大部分面积,则视为检测窗口是正确地检测到人体.

在实验中,检测器的输出值都归一化到[0,1],我们取thr=0.5.

2.3 实验结果

实验中,测试集图像的大小为560×455.HOG+ SVM模型的样本窗口大小为64×128,HOG描述子的参数设置为默认,单个样本维度是3 780,利用线性SVM作为分类器.DPM模型没有使用HOG特征默认的4×9=36维向量,而是对每个8×8的cell提取18+9+4=31维特征向量,再依据主成份分析(PCA)结果选9+4维特征,达到与HOG特征相等的维度.分类器采用Latent-SVM模型(LSVM),整个训练分3个阶段,它们分别是:1)传统的SVM训练;2)LSVM训练;3)优化LSVM模型.ACF模型是利用颜色空间(LUV)颜色特征、梯度方向特征以及6个方向特征构成特征组,由AdaBoost训练分类器模型,可使行人检测达到实时.

本文采用FPPI-Missrate作为评价指标.FPPIMissrate二维曲线的横坐标FPPI=FP窗口数/图片数;Miss rate=漏检窗口数/目标总数.模型的检测性能曲线图和检测结果分别由图5和图6所示.从图5曲线显示,DPM模型和ACF模型的检测性能明显优于HOG+SVM模型,在FPPI为10 ̄1时,ACF和DPM模型的漏检率比HOG+SVM模型下降了13.1%,ACF和DPM模型基本相等,但从曲线的整体趋势来看,ACF模型性能略高于DPM模型.从图6来看,DPM模型和ACF模型矩形框所围的平躺人体效果没有HOG+SVM模型的好.

图5 HOG+SVM、DPM v5和ACF的FPPI-Missrate曲线图Fig.5 The FPPI-Missrate curve diagram of HOG+SVM,DPM v5 and ACF

3 结 论

平躺人体检测受姿态多样性、视角变化大、透射形变和样本不服从统一分布等难题,挑战性极大.经过行人检测3个主流模型向平躺人体检测迁移实验以及对检测性能的分析,平躺人体检测应在以下几点做更深入的研究.1)平躺人体涉及平面内旋转和平面外旋转,需要设计快速的透视变换算法;2)为了增加样本的多样性,可考虑做样本的几何空间扩充和特征空间扩充;3)根据人体关节点标注信息,可以对人体姿态进行聚类,建立不同姿态模型,以增强模型的检测性能.4)需要进一步在检测速度上做深入的研究.

图6 HOG+SVM、DPM v5和ACF的检测结果Fig.6 The detection result of HOG+SVM,DPM v5 and ACF

[1] Dollar P,Wojek C,Schiele B,et al.Pedestrian detection:an evaluation of the state of the art[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,34(4):743-761.

[2] Andriluka M,Schnitzspan P,Meyer J,et al.Vision based victim detection from unmanned aerial vehicles[C]∥IEEE/RSJ International Conference on Intelligent Robots and Systems(IROS).Taipei:IEEE,2010:1740-1747.

[3] Geronimo D,Lopez A M,Sappa A D,et al.Survey of pedestrian detection for advanced driver assistance systems[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2010,32(7):1239-1258.

[4] Duan Genquan,Ai Haizhou,Lao Shihong.A structural filter approach to human detection[J].Lecture Notes in Computer Science,2010,6316:238-251.

[5] Cao Song,Duan Genquan,Ai Haizhou.Fast human detection using node-combined part detector[C]∥Proc of ICIP.Brussels:IEEE,2011:3589-3592.

[6] 许言午.面向行人检测的组合分类计算模型与应用研究[D].合肥:中国科学技术大学,2009:1-123.

[7] 苏松志.行人检测若干关键技术研究[D].厦门:厦门大学,2011:1-113.

[8] 谢尧芳.静态图像的行人检测技术研究[D].厦门:厦门大学,2010:1-77.

[9] 苏松志,李绍滋,陈淑媛,等.行人检测技术综述[J].电子学报,2012,40(4):814-820.

[10] Doll′ar P,Wojek C,Schiele B,et al.Pedestrian detection:an evaluation of the state of the art[J].IEEE Trans Pattern A-nal Machine Intell,2012,34(4):743-761.

[11] Ouyang W L,Wang X G.Joint deep learning for pedestrian detection[C]∥IEEE International Conference on Computer Vision.Sydney,VIC:IEEE,2013:2056-2063.

[12] Luo P,Tian Y L,Wang X G,et al.Switchable deep network for pedestrian detection[C]∥Computer Vision and Pattern Recognition(CVPR).2014 IEEE Conference on.Columbus,OH:IEEE,2014:899-906.

[13] Dalal N,Triggs B.Histograms of oriented gradients for human detection[C]∥Proc IEEE Conf Computer Vision Pattern Recognition.[S.l.]:IEEE,2005:886-893.

[14] Felzenszwalb P F,Girshick R,Mc Allester D,et al.Object detection with discriminatively trained part based models[J].IEEE Trans Pattern Anal Machine Intell,2010,32(9):1627-1645.

[15] Doll′ar P,Appelv R,Belongie S,et al.Fast feature pyramids for object detection[J].IEEE Trans Pattern Analy-sis and Machine Intelligence,2014,36(8):1532-1545.

[16] Foroughi H,Naseri A,Saberi A,et al.An eigenspacebased approach for human fall detection using integrated time motion image and neural network[C]∥Signal Processing,2008.ICSP 2008.9th International Conference on.Beijing:IEEE,2008:1499-1503.

[17] Nait-Charif H,McKenna S J.Activity summarisation and fall detection in a supportive home environment[J]. Proceedings of the Pattern Recognition,17th International Conference on(ICPR′04),2004,4:323-326.

[18] Vinay V,Mandal C,Sural S.Automatic detection of human fall in video[J].Pattern Recognition and Machine Intelligence,2007,4815:616-623.

[19] Khandoker A H,Lai D T H,Begg R K,et al.Wavelet-based feature extraction for support vector machines for screening balance impairments in the elderly[J].Neural Systems and Ehabilitation Engineering,2007,15(4):587-597.

[20] Durrant-Whyte H,Roy N,Abbeel P.Lying pose recognition for elderly fall detection[C]∥Robotics:Science and Systems VII.[S.l.]:MIT Press,2012:345-353.

[21] Mastorakis G,Makris D.Fall detection system using kinect′s infrared sensor[J].Journal of Real-Time Image Processing,2014,9(4):635-646.

[22] Kepski M,Kwolek B.Fall detection using ceiling-mounted 3d depth camera[C]∥VISAPP.Chicago,IL,USA:IEEE,2014:1-8.

[23] Morse B S,Engh C H,Goodrich M A.Uav video coverage quality maps and prioritized indexing for wilderness search and rescue[C]∥Proceedings of the 5th ACM/ IEEE International Conference on Human-robot Interaction.Piscataway,NJ,USA:ACM/IEEE,2010:227-234.

[24] Naidoo Y,Stopforth V,Bright G.Development of an uav for search amp;rescue applications[C]∥AFRICON. Livingstone,Zambia:IEEE,2011:1-6.

[25] Morel J M,YU G S.ASIFT:a new framework for fully affine invariant image comparison[J].SIAM Journal on Imaging Sciences,2009,2(2):438-469.

[26] Fukunaga K,Hostetler L.The estimation of the gradient of a density function[J].IEEE Transactions on Information Theory,1975,21(1):32-40.

[27] Cheng Y Z.Mean shift,mode seeking,and clustering[J].Pattern Analysis and Machine Intelligence,1995,17(8):790-799.

The Migration Research of Pedestrian Detection Model to Lying-pose Detection and Performance Analysis

XIA Dao-xun1,2,SU Song-zhi2,LI Shao-zi2*
(1.School of Mathematics and Computer Science,Guizhou Normal University,Guiyang 550001,China;2.School of Information Science and Engineering,Xiamen University,Xiamen 361005,China)

The human body detection constitutes a difficult task and a hotspot in computer vision research.Bearing theoretical significance and application values,it can be divided into the pedestrian detection and the lying-pose detection.The research of lying-pose detection is in its infancy.View change,posture diversity,and complex background face several problems that need to be solved timely.This paper attempts to migrate from HOG+SVM,DPM,and ACF three mainstream pedestrian detection models to lying-pose detection on the basis of the research results of pedestrian detection.Its aim is to validate detection effects and analyze detection performances.Here we summarize similarities and differences between the pedestrian detection and lying-pose detection,and find key problems of the lying-pose detection.To establish adapt lying-pose detection model provides the theoretical foundation and practical experience.Finally,some research suggestions are given for lying-pose detection models.

pedestrian detection;lying-pose detection;histogram of oriented gradients(HOG);support vector machines(SVM);deformable parts model(DPM);aggregated channel features(ACF)

TP 391

A

0438-0479(2015)04-0540-06

10.6043/j.issn.0438-0479.2015.04.018

2014-12-02 录用日期:2015-01-23

国家自然科学基金(61202143);贵州省自然科学基金(黔科合J字LKS[2013]24号)

*通信作者:szlig@xmu.edu.cn

夏道勋,苏松志,李绍滋.行人检测模型向平躺人体检测的迁移及其性能分析[J].厦门大学学报:自然科学版,2015,

54(4):540-545.

:Xia Daoxun,Su Songzhi,Li Shaozi.The migration research of pedestrian detection model to lying-pose detection and

performance analysis[J].Journal of Xiamen University:Natural Science,2015,54(4):540-545.(in Chinese)

猜你喜欢
候选框平躺检测器
饭后立刻平躺会致癌吗
重定位非极大值抑制算法
面向自然场景文本检测的改进NMS算法
病毒还在我的身体里没走
基于深度学习的重叠人脸检测
平躺,一个错误的哺乳姿势
基于二次否定剪切选择的入侵检测方法*
一种针对特定目标的提议算法
车道微波车辆检测器的应用
“夜是流动的一切”