基于卷积神经网络的监控视频人数统计算法

2016-03-17 08:12:59马海军王文中翟素兰

安徽大学学报（自然科学版） 2016年3期

关键词：卷积神经网络

马海军，王文中，翟素兰,2，罗　斌,2*

(1.安徽大学计算机科学与技术学院，安徽合肥 230601;

基于卷积神经网络的监控视频人数统计算法

马海军1，王文中1，翟素兰1,2，罗斌1,2*

(1.安徽大学计算机科学与技术学院，安徽合肥 230601;

近年来，随着各行各业对人流量统计需求的不断增长，国内外诸多学者开始关注人数统计系统领域的相关算法，并有大量的研究成果文章发表.目前有很多基于无监督学习的方法来做人数统计任务，例如基于自相似性方法[1]、基于运动相似性方法[2]等.然而，这种基于无监督方法的人数统计计数精度非常有限.因此，其他学者开始考虑使用基于有监督学习的方法做人数统计研究.这种方法大致分为两大类：一是基于检测的方法.这类方法大都基于机器学习的策略，通过有监督学习得到一个目标分类器，然后在图像中做目标分类检测任务.一般通过检测图像中人头、人脸、行人或前景分割等方法进行人数统计[3-6].文献[7]提出一种基于人头检测的方法做人群计数的思路，利用机器学习Adaboost[8]方法训练出人头分类器，但是该方法的目标检测效果在遮挡严重、低分辨率、光照不均等因素影响下，精度很难达到应用的需求.二是基于回归的方法.这类方法避免了难度较大的检测问题，使用图像浅层特征融合，并且配合一种回归模型来实现图像特征到图像包含人数的映射[9-10].但是人工设计的特征很难完成复杂监控场景中图像人群分布特征的描述，导致计数精度降低.

近年来，大量研究者从人类理解、分析视觉特征的角度出发，研究了学习特征，该特征更加符合仿生生物识别过程.现有大量实践证明，通过CNN学到的特征优于传统设计的特征.为了提高网络鲁棒性，作者标注了大量的人群图像.实验表明，该算法能在高清图像实现高效的人数统计任务，且精度优于其他方法.

1卷积神经网络与岭回归结合的视频人数统计算法

对于图像的处理是深度学习算法最早尝试应用的领域.早在1989年，Yann LeCun等提出了卷积神经网络(convolutional neural networks,简称CNN)的概念.目前常用的卷积神经网络指的是除输入层和输出层以外，隐层超过一层的卷积神经网络[11-12].卷积神经网络是一种多层的监督学习神经网络，隐层的卷积层和池化采样层是实现卷积神经网络特征提取功能的核心模块.通过梯度下降法最小化损失函数，对网络中的权值参数逐层反向传播进行参数调节，并采用大量的迭代训练以提高网络的精度[13].作者的卷积神经网络的任务就是回归得到人群密度分布特征图，之后将人群密度分布特征图作为输入图像的特征表示，使用岭回归的方法实现图像特征到人数之间关系的映射.

1.1卷积神经网络回归人群密度分布特征图

经典的卷积神经网络模型均含有全连接层，但是全连接层限制了输入图像的尺寸且需要大量的权值数据，这些因素直接导致了卷积神经网络模型的训练和测试效率降低.因此，作者采用了如图1所示的全卷积神经网络模型回归人群密度分布特征图.该网络模型解决了输入图像尺寸的限制和模型收敛速度慢等问题.该神经网络模型共由3层卷积层构成.第一层卷积层具有64个9*9*3的卷积核，第二层卷积具有32个5*5*64的卷积核，第三层卷积具有1个3*3*32的卷积核.其中，在每层卷积后利用ReLU函数进行激活，以加速模型训练收敛.模型的输入图像大小为72*72，从原始帧中随机抠取的256*256大小的图像块均需要等比缩放到72*72大小.输入图像在经过3层卷积后会生成一幅人群密度分布映射的特征图.该图中人的分布被高亮突出显示了，图中像素值越大表示该处出现人的概率越大.由于要回归出36*36大小的人群密度分布特征图，所以其真值也被降采样到36*36大小.人群密度分布特征图包含丰富的局部和细节信息，所以CNN模型可以学习密度映射关系且能得到一个较好的人群图像特征表示.

1.1.1损失函数设计

作者采用了计算欧几里得距离作为损失函数，准确得到了人群密度分布特征图.损失函数为

(1)

1.1.2卷积神经网络模型训练

为了得到人群密度分布特征图，作者提出了基于卷积神经网络回归人头中心点映射图的方法，来估计人群密度分布特征图.卷积神经网络模型训练过程如图2所示.模型训练步骤分为以下3步：

第一步：手工标注图像人头中心点图，生成人头中心分布二值点图.

第二步：将上一步生成的人头中心分布二值点图的亮点位置作为高斯核的中心.以高斯核替代其周边像素值，若点分布较密集时，其周边像素值为其覆盖的高斯核对应值的叠加值.人头中心分布二值点图经过高斯滤波后，生成如图2中所示的人群密度分布特征图的真值图，将其作为网络模型的观察值.

第三步：根据观察值和预测值进行欧几里得损失函数计算并获得差值，也就是损失值.将损失值进行网络反向传播来更新权值，不断迭代最终完成模型训练.

图1卷积神经网络结构图
Fig.1The structure of the convolutional neural network

图2卷积神经网络训练流程图
Fig.2The training flow of the convolutional neural network

1.2基于岭回归模型的人数统计

为了学习到人群密度分布特征图到图像中包含人数的映射关系，需要大量的训练样本数据与其对应人数真值.假设图像中预测人数函数为

(2)

(3)

其中：λ为岭参数，N表示训练样本数；Yi表示第i帧图像中包含人数的真值.通过岭回归训练得到最优ω后，由卷积神经网络模型对任意图像，求得其人群密度分布特征图，再通过公式(2)就可以最终求得该帧图像包含人数的预测值，完成人数统计目标.

2实验结果与分析

作者在某火车站和某步行街视频数据上与两种不同的人数统计方法进行比较，通过对实验结果的对比分析，作者方法更加有效，其人数统计精度在大部分情况下优于其他的人数统计算法，且效率较高.

2.1实验设置

为了方便分析，作者采用两组从某火车站和某步行街监控视频中获取的图像序列进行实验.火车站图片分辨率为1 920*870,如图3(a)所示;步行街图片分辨率为920*560,如图3(b)所示.为了保证深度学习训练的有效性，对两个场景数据分别人工标注100帧人群图像，之后从这200帧已标注的图像中分别随机抠取20 000张256*256大小的子图像，用以学习人群密度分布特征图.同时对标注的图像进行旋转与加噪声处理，提高训练样本的数量和多样性.使用硬件平台为 i7-4770,3.4 GHz的处理器，内存为16 GB，显卡为GTX980，内含GPU，系统为Ubuntu 14.04.卷积神经网络在Caffe开源框架下实现.文献[10]对比实验在MATLAB 2013b环境下实现，作者算法和文献[7]方法对比实验在Visual Studio 2010环境下实现，并调用OpenCv库函数.

图3两个不同的场景图像举例
Fig.3 Example images in two scenes

计数效果评判使用平均绝对误差(mean absolute error,简称MAE)与平均相对误差(mean relative error,简称MRE)两个量度量.MAE和MRE计算公式如下

(4)

(5)

作者实验中为了得到最优岭参数λ，选取了多组λ值，并在两个视频场景图像块集合上进行了实验，分别从某火车站场景和某步行街场景中随机抠取的20 000张图像块里，各自取16 000个图像块.这些图像块经过卷积神经网络模型处理后会各自生成16 000张人群密度分布特征图，将其作为岭回归模型的训练集，其余各自的4 000个图像块通过卷积神经网络模型处理后也会各自生成4 000张人群密度分布特征图，并将其作为岭回归模型的测试集.最终以两组测试集数据的MAE大小作为选择最优岭参数λ的判断标准.实验结果如表1所示.其中MAE_1表示某火车站场景测试数据集的MAE结果，MAE_2表示某步行街场景测试数据集的MAE结果，MAE_avg表示两个场景测试数据集的平均MAE大小.由表1中数据可知，当λ取值为2的时候，岭回归模型整体效果最优.

2.2对比实验结果与分析

为了验证作者算法的有效性，作者使用两组视频图像分别实现了文献[7]方法与文献[10]方法，并与作者算法做了比较.

图4为文献[7]中提出的基于Adaboost与梯度方向直方图特征结合的人头检测方法来统计人数的实验结果.由于监控场景中，光照不均、人头状态多样、遮挡等多种因素干扰，人头检测存在部分误检与漏检情况，因而基于人头检测的人数统计方法的精度不高，并且高清图像下基于多尺度滑动窗策略的目标分类检测步骤比较耗时.

图4文献[7]方法人数统计结果
Fig.4Crowd counting results by the method in [7]

图5为文献[10]方法与作者方法针对不同人群密度分布图像回归得到的人群密度分布特征图的结果比较.每张图像最左边为原始图像，中间为文献[10]方法回归得到的人群密度分布特征图，最右边为作者方法回归得到的人群密度分布特征图.文献[10]方法中，以sift特征与岭回归模型回归图像人群密度分布特征图，然而作者方法回归人群密度分布特征图不是采用现有的人工设计的特征，而是通过卷积神经网络自学习得到的特征，该特征更加符合仿生生物识别过程.从图5中对比可知，作者方法能够更加准确地描述图像人群密度分布情况，故使用作者方法最终回归出的人数精度高于文献[10]方法.

图5文献[10]方法与作者方法得出的人群密度分布对比结果
Fig.5Density map comparisons between the proposed method and [10]

为了验证作者算法的可行性，对两组视频分别利用文献[7]方法、文献[10]方法和作者方法进行实验.从火车站视频中以25帧为间隔抽取82帧图像，从步行街视频中以100帧为间隔抽取21帧图像，其人数统计对比结果如图6所示，MAE和MRE结果如表2所示.

由表1可知,对于高清图像人群密集的情况，运用作者方法人数统计结果平均绝对误差(MAE)与平均相对误差均较小，表明了作者算法人数预测效果较好.由图6实验结果对比图可知作者方法人数预测结果最接近实际人数.文献[7]方法由于漏检的原因导致人数预测结果普遍偏离并低于实际人数，而文献[10]方法中sift特征对人群密度分布描述不够准确导致人数预测结果普遍偏离并高于实际人数.所以，采用作者方法人数统计结果精度较高，比文献[7]和文献[10]方法更有效.为了进一步验证作者算法的有效性，在两组视频中分别随机抽取了两帧图像进行验证，如图7所示.其中GT表示图像中包含的实际人数，OUR表示作者方法预测人数.

由图5可知，作者算法在高清图像、监控视频、人群密集情况下人数统计预测效果较好，方法可行.作者算法也具有较高的处理效率.在分辨率为1 920*870大小的图像上，文献[7]方法处理一帧图像耗时500 ms左右；而作者提出的方法只需耗时50 ms左右，基本可以满足实时性的要求.作者提出的方法中卷积神经网络模型训练的时间为2 h左右，之后的岭回归模型训练时间为8 s左右.所以作者提出的方法学习效率也能达到实际应用的需求.

由该实验可知，作者提出的算法不仅能够在精度上优于其他算法，并且处理高清图像速度快，效率高，在监控视频中人群密集遮挡严重的情况下也能准确预测人数.

图6在两个数据集上的人数统计对比实验结果
Fig.6Crowd counting results comparison on two datasets

3结束语

作者提出并实现了基于卷积神经网络与岭回归结合的监控视频人数统计算法.该算法通过卷积神经网络回归图像中人头中心点，从而获得人群密度分布特征图，然后使用岭回归模型分析人群密度分布特征图得到该帧图像对应的人数.另外，作者在多组视频上使用基于卷积神经网络的人数统计方法进行了测试.实验结果表明，该算法具有较高的人数统计精度和鲁棒性.未来，作者将尝试标注更加丰富的行人代表性特征点，丰富训练样本集，使得本模型在解决人数统计问题上更加鲁棒.

参考文献：

[1]AHUJA N, TODOROVIC S. Extracting texels in 2.1 D natural textures[C]//Computer Vision, 2007， ICCV， IEEE 11th International Conference on IEEE, 2007: 1-8.

[2]RABAUD V, BELONGIE S. Counting crowded moving objects[C]//Computer Vision and Pattern Recognition, IEEE Computer Society Conference on， IEEE, 2006, 1: 705-711.

[3]刘红, 宋茹, 王保兴. 基于个体特征和纹理特征的视频人数统计算法[J]. 安徽大学学报 (自然科学版), 2015 (3): 47-50.

[5]ZHANG X, SEXTON G. Automatic human head location for pedestrian counting[C]//Image Processing and Its Applications, Sixth International Conference on， IET, 1997, 2: 535-540.

[6]ZU K, LIU F, LI Z. Counting pedestrian in crowded subway scene[C]//Image and Signal Processing, CISP'09， 2nd International Congress on， IEEE, 2009: 1-4.

[7]SUBBURAMAN V B, DESCAMPS A, CARINCOTTE C. Counting people in the crowd using a generic head detector[C]//Advanced Video and Signal-Based Surveillance (AVSS), IEEE Ninth International Conference on， IEEE, 2012: 470-475.

[8]VIOLA P, JONES M J. Robust real-time face detection[J]. International Journal of Computer Vision, 2004, 57 (2): 137-154.

[9]RYAN D, DENMAN S,SRIDHARAN S, et al. An evaluation of crowd counting methods, features and regression models[J]. Computer Vision and Image Understanding, 2015 (13): 1-17.

[10]LEMPITSKY V, ZISSERMAN A. Learning to count objects in images[C]//Advances in Neural Information Processing Systems， 2010: 1324-1332.

[11]LE C Y. Generalization and network design strategies[C]// Connections in Perspective， North-Holland,Amsterdam, 1989: 143-55.

[12]孙志军, 薛磊, 许阳明,等. 深度学习研究综述[J]. 计算机应用研究, 2012(8):2806-2810.

[13]GUYON I, ALBRECHT P, LE CUN Y, et al. Design of a neural network character recognizer for a touch terminal[J]. Pattern Recognition, 1991, 24 (2): 105-119.

(责任编辑朱夜明)

doi:10.3969/j.issn.1000-2162.2016.03.005

收稿日期：2015-03-16

基金项目:国家863计划资助项目(2014AA015104); 国家自然科学基金资助项目(61502006,61502003); 安徽省自然科学基金资助项目(1308085MF97)

作者简介：马海军(1990-),男，安徽合肥人，安徽大学硕士研究生；*罗斌(通信作者)，安徽大学教授，博士生导师，博士，E-mail: luobin@ahu.edu.cn

中图分类号：TP311

文献标志码:A

文章编号:1000-2162(2016)03-0022-07

2.安徽省工业图像处理与分析重点实验室,安徽合肥 230601)

A surveillance video crowd counting algorithm based on convolutional neural network

MA Haijun1, WANG Wenzhong1, ZHAI Sulan1,2, LUO Bin1,2*

(1.School of Computer Science and Technology,Anhui University, Hefei 230601,China;2.Key Lab of Industrial Image Processing & Analysis of Anhui Province,Hefei 230601,China)

Key words:convolutional neural network; crowd counting; surveillance video; ridge regression

Abstract:Crowd counting in surveillance video is one of the important modern security tasks with high research significance and application value. It has made great progress in recent years, but still has not solved the problems about accuracy of crowd counting in surveillance video and time consuming of high resolution images. Therefore, the crowd counting algorithm by incorporating convolutional neural network and ridge regression was proposed in this paper. We could get the crowd density map from regression of the centers of heads through convolutional neural network, then used ridge regression model to analyze the crowd density map to got the number of people in current frame. The proposed algorithm had been tested on several videos and compared with several classical algorithms. The experimental performance validated the effectiveness of the proposed method.

关键词:卷积神经网络；人数统计；监控视频；岭回归