黄 炜,叶张帆,黄立勤
(福州大学 物理与信息工程学院,福建 福州 350108)
基于可变形部件模型的人群计数方法*
黄 炜,叶张帆,黄立勤
(福州大学 物理与信息工程学院,福建 福州 350108)
为实现户外场景下中等密度人群的高精度高鲁棒性计数,基于因为可变形部件模型优越的准确性和鲁棒性,首先使用其来进行行人检测,来获得大量的检测候选框,然后对获得的候选框进行预处理。接下来提取各个预处理后的候选框的空间、时间以及颜色特征,基于这些特征,用狄迪克雷混合模型和吉布斯采样理论来对候选框进行聚类。通过这种方式,获得人群团块的区域。最后使用基于角点的人群计数方法来对每个人群团块区域进行人群计数,通过综合这些检测结果,最终得到人群数目。
人群计数;行人检测;狄迪克雷混合模型;吉布斯采样
随着人口的增长以及社会的进步,智能安防领域受到越来越多的重视,而人群计数技术作为智能安防中不可或缺的一个部分,这几年也成为研究的热点。
人群计数技术主要分为两大块[1]:基于检测的人群计数和基于回归的人群计数。
基于检测的人群计数方法主要就是通过分割出一个个的人来实现人群计数。基于检测的方法又可以进一步细分为基于各种检测模型的方法和基于轨迹聚类的方法。基于检测模型的方法用各种检测模型来检测人。在人体比较能清楚分辨的中低密度下,使用高精度的行人检测模型[2];在中高密度下,因为遮挡问题,所以使用人头检测模型[3]又或者头加肩膀检测模型[4]等人体区域检测的方法来鲁棒精确地在中高密度下进行人群计数。而基于轨迹聚类的方法主要通过将场景中的角点的轨迹聚类来检测出场景中的每一个独立的动作,来区分出一个个的人,以此来实现人群计数[5]。
基于检测的方法有构建简单、使用成本低的优点。在中低密度时,人群遮挡不那么严重,基于检测的方法能有很好的效果。但是当人群密度增大,遮挡严重的时候,由于检测器或者轨迹不能很好地分割出每个个体,因此人群计数效果就会大打折扣。
基于回归的人群计数方法就是通过构建特征与人数的映射关系来实现人群计数。比如使用局部特征[6],或者使用全局特征[7],又或者是采用基于角点的人群计数方法[4,8-9]。基于回归的人群计数方法有检测准确度高、在中高密度时检测准确性好的优点。但是采用特征回归的方法进行人群计数,又要面临视角失真纠正的问题,这就需要有场景的先验知识,适用性就差了。并且在中低密度计数方法中,相较基于检测的方法,基于回归的方法又有着不必要的复杂度。
本文受到参考文献[10]的启发,创新性地将可变形部件模型[11]与狄迪克雷混合模型[12-13]相结合。首先本文用高斯混合模型对输入图片流提取前景二值图。其次再用可变形部件模型行人检测器对输入图片流进行行人检测。接着对获得检测候选窗进行预处理,删除误检的检测窗,补充漏检的检测框。然后将预处理过的检测候选框提取特征,使用狄迪克雷混合模型进行聚类,再针对每个类进行基于角点的人群计数,最后整合所有类的计数结果得到人群的数量,算法框架如图1所示。
图1 本论文的系统框图
这种对检测器输出的结果进行聚类,再利用角点进行人群计数的方法,结合了基于检测的和基于回归的两种人群计数方法的优点,不仅提高了检测的精度,且也不需要视角失真纠正,降低了系统的复杂度。再加上可变形部件模型行人检测器优秀鲁棒的检测效果,使得计数结果更精确鲁棒。
1.1 可变形部件模型行人检测器
可变形部件模型(Peformable Parts Models, DPM)是由FELZENSZWALB P[14]提出的一种基于部件的检测方法,对目标的变形具有很强的鲁棒性。DPM采用改进后的梯度直方图(Histogram of Oriented Gradients, HOG)。针对多角度问题,它采用了多组件策略,针对目标自身一定程度的形变,它采用了基于图结构的部件模型策略。
DPM行人检测模型由三个部分组成:根滤波器、部件滤波器和变形关系(弹簧模型)。根滤波器用于检测目标整体的轮廓特征,部件滤波器用于捕捉目标具有区分意义的局部特征,变形关系用于增加检测的鲁棒性。
图2所示是一个DPM行人检测模型。其中左边为根滤波器,中间为部件滤波器,右边为变形关系。
DPM模型通过公式(1)计算各个部分的响应,最后通过阈值分割就可以得到检测目标。
(1)
其中,
(dxi,dyi)=(xi,yi)-(2(x0,y0)+vi)
(2)
φd(dxi, dyi)=(dx,dy,dx2,dy2)
(3)
1.2 选框预处理
不论多先进的检测算法都有不连续的输出,这里主要通过三种方法降低误检率和漏检率。
为了降低误检率,本文首先通过高斯混合模型(Gaussian Mixture Models, GMMs)来对背景进行建模[10],从而得到每个像素的前景可能性值。以此通过阈值分割来去除未包含前景目标的检测窗。除此之外,本文还通过阈值分割去除掉高度大于规定门限的候选窗,来去除过大的检测候选窗。
为了降低漏检率,本文通过建立前一帧与当前帧以及后一帧与当前帧的光流图,将前后帧的检测候选窗都映射到当前帧,来降低漏检率。
实验证明,这三个方法能有效地降低漏检率和误检率。
1.3 狄迪克雷混合模型聚类
狄迪克雷混合模型是一种无监督聚类方法,它可以在不知道类的数量的前提下进行无监督聚类。这有别于一些传统的聚类算法,比如K-Menas[15]就需要提前定义类的数量。
对经过预处理的检测候选框,提取以下特征:(1)检测框的空间中心;(2)在Lab颜色空间中的a 和b的前景颜色分量;(3)方向光流直方图[16]。综合以上的时间、空间以及颜色特征,检测候选框可以被更好地聚类。在参数θk下,检测候选框Xn是由类k产生的可能性由公式(4)给出:
(4)
其中Xn代表检测候选框,θk代表混合模型的参数。本文通过吉布斯采样[13]来进行数据采样,如公式(5)所示:
(5)
其中N是获得的所有检测候选框,Nk是被分配到类k的检测候选窗数目。其中α控制着采样的概率,值越大将使模型生成更多的类,反之亦然。这里α的值通过训练得出,本文选取每15帧进行训练,得出最佳的α值。
1.4 基于角点的人群计数方法
基于角点的人群计数方法使用检测到的角点来估计人群数量,这种方法虽然简单,但是效果却很好,多次获得相关比赛的冠军[17-18]。
通过上面的步骤,本文将候选检测框聚成一个个类。我们知道,如果多个检测框包含同一个人,那这些检测框里面的角点数量几乎是一致的,并且如果一个类里面包含多个人,那这个类将有更多的角点。所以本文用公式(6)来计算每个类内的人数:
(6)
1.5 对计数结果的数据融合
由于输入的视频帧在时域上是连续的,因此当前帧的检测人数与前后帧的差值最小。基于此,本文采用基于连续三帧的平均滤波器[8,10,19],来平滑连续三帧的检测结果。实验证明,这种平滑是必要的,且效果显著。
为了使本文的算法更有说服力,本文使用PETS2009数据库作为实验数据,并选择S1.L1.13-57与S1.L1.13-59作为测试数据。两组视频数据的基本情况如表1所示。
表1 测试数据详情
在本文中,使用两种性能衡量指标:平均绝对误差(Mean Absolute Error, MAE)如公式(7)所示,平均相对误差(Mean Relative Error, MRE)如公式(8)所示。
(7)
(8)
其中N代表总的测试帧数,G(i)和T(i)分别代表第i帧的真实人数和检测人数,实验结果如表2所示。
表2 MAE(MRE)测试结果
本文采用检测效果鲁棒准确的可变形部件模型行人检测器来获得候选检测窗,然后通过狄迪克雷混合模型聚类算法将人群细分成不同的类,并针对每个类进行基于角点的人群计数。实验证明,这种方法鲁棒性更强,也更准确。但是存在着当密度过高时,人群相互遮挡,产生大量漏检的问题。在未来的研究工作中,可以考虑使用基于人头或者头加肩膀的行人检测器,又或者在聚类后的人群计数方法上做深入研究来解决高遮挡带来的问题。
[1] SALEH S A M, SUANDI S A, IBRAHIM H. Recent survey on crowd density estimation and counting for visual surveillance[J]. Engineering Applications of Artificial Intelligence, 2015, 41:103-114.
[2] DALAL N, TRIGGS B. Histograms of oriented gradients for human detection[C]. Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR′05), 2005: 886-893.
[3] SUBBURAMAN V B, DESCAMPS A, CARINCOTTE C. Counting people in the crowd using a generic head detector[J]. Proceedings of 2012 IEEE Ninth International Conference on the Advanced Video and Signal-Based Surveillance (AVSS), 2012: 470-475.
[4] Hu Ronghang, Wang Ruiping, Shan Shiguang, et al. Robust head-shoulder detection using a two-stage cascade framework[C]. Proceedings of the ICPR, 2014: 2796-2801.
[5] CHERIYADAT A M, BHADURI B L, RADKE R J. Detecting multiple moving objects in crowded environments with coherent motion regions[C]. Proceedings of 2008 CVPRW’08 IEEE Computer Society Conference on the Computer Vision and Pattern Recognition Workshops, 2008: 1-8.
[6] FRADI H, DUGELAY J L. Low level crowd analysis using frame-wise normalized feature for people counting[C]. Proceedings of the 2012 IEEE International Workshop on Information Forensics and Security (WIFS), 2012: 246-251.
[7] FRIEDMAN J, HASTIE T, TIBSHIRANI R. Additive logistic regression: a statistical view of boosting (with discussion and a rejoinder by the authors)[J]. The Annals of Statistics, 2000, 28(2): 337-407.
[8] ALBIOL A, SILLA M J, ALBIOL A, et al. Video analysis using corner motion statistics[C]. Proceedings of the Proceedings of the IEEE International Workshop on Performance Evaluation of Tracking and Surveillance, 2009: 31-38.
[9] CONTE D, FOGGIA P, PERCANNELLA G, et al. A method for counting moving people in video surveillance videos [J]. EURASIP Journal on Advances in Signal Processing, 2010, 2010(1): 1-10.
[10] TOPKAYA I S, ERDOGAN H, PORIKLI F. Counting people by clustering person detector outputs[C]. Proceedings of 2014 11th IEEE International Conference on the Advanced Video and Signal Based Surveillance (AVSS), 2014: 313-318.
[11] FELZENSZWALB P F, GIRSHICK R B, MCALLESTER D, et al. Object detection with discriminatively trained part-based models[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2010, 32(9): 1627-1645.
[12] BDIRI T. Mixture models for multidimensional positive data clustering with applications to image categorization and retrieval [D]. Montred: Concordia University, 2015.
[13] NEAL R M. Markov chain sampling methods for Dirichlet process mixture models [J]. Journal of computational and graphical statistics, 2000, 9(2): 249-65.
[14] FELZENSZWALB P, MCALLESTER D, RAMANAN D. A discriminatively trained, multiscale, deformable part model[J]. IEEE Computer Society Conference on Computer Vision & Pattern Recognition, 2008, 8:1-8.
[15] MACQUEEN J. Some methods for classification and analysis of multivariate observations[C]. Proceedings of the Proceedings of the fifth Berkeley symposium on mathematical statistics and probability, 1967: 281-297.
[16] CHAUDHRY R, RAVICHANDRAN A, HAGER G, et al. Histograms of oriented optical flow and binet-cauchy kernels on nonlinear dynamical systems for the recognition of human actions[C]. Proceedings of 2009 CVPR 2009 IEEE Conference on the Computer Vision and Pattern Recognition, 2009: 1932-1939.
[17] ELLIS A, FERRYMAN J. PETS2010 and PETS2009 evaluation of results using individual ground truthed single views[C]. proceedings of 2010 Seventh IEEE International Conference on the Advanced Video and Signal Based Surveillance (AVSS), 2010: 135-142.
[18] ELLIS A, SHAHROKNI A, FERRYMAN J M. Pets2009 and winter-pets 2009 results: a combined evaluation[C]. Proceedings of 2009 Twelfth IEEE International Workshop on the Performance Evaluation of Tracking and Surveillance (PETS-Winter), 2009: 1-8.
[19] CONTE D, FOGGIA P, PERCANNELLA G, et al. Counting moving persons in crowded scenes[J]. Machine Vision and Applications, 2013, 24(5): 1029-1042.
The deformable parts model based crowd counting approach
Huang Wei, Ye Zhangfan, Huang Liqin
(School of Information Engineering, University of Fuzhou, Fuzhou 350108, China)
This paper resolves the problem of counting highly precisely and robustly in middle high density scene. Based on the accuracy and robustness of Deformable Parts Model(DPM), this paper uses deformable parts model to firstly detect the pedestrians, in order to get the candidate windows of detection. Then, these candidate windows are pre-processed. Besides, this paper exacts the spatial, temporal and color features of these candidate windows. Based on these features, Dirichlet Process Mixture Models(DPMMs) and Gibbs sampling methods are used to cluster the candidate windows. In this way, the crowd blob regions are obtained. Finally, the corner points based counting approach are used to count the crowd in the crowd blob regions. In this way, the crowd number will be obtained by synthesizing all the counting results.
crowd counting; pedestrian detection; Dirichlet Process Mixture Models(DPMMs); Gibbs sampling
国家自然科学基金(61471124);福建省中青年教师教育科研项目(JA15626)
TP181
A
10.19358/j.issn.1674- 7720.2017.12.017
黄炜,叶张帆,黄立勤.基于可变形部件模型的人群计数方法[J].微型机与应用,2017,36(12):57-60.
2016-12-27)
黄炜(1991-),男,学士,主要研究方向:计算机视觉、机器学习。
叶张帆(1987-),通信作者,男,学士,主要研究方向:计算机视觉、机器学习。E-mail:yezhangfan@fzu.edu.cn。
黄立勤(1973-),男,博士,教授,主要研究方向:计算机视觉、机器学习、医学图像处理。