周成博,陶青川(四川大学电子信息学院,成都 610064)
基于景区场景下的人群计数
周成博,陶青川
(四川大学电子信息学院,成都610064)
人群计数在景区等公共场景下具有广泛的现实意义和发展空间。通过对目标区域的人群统计信息进行分析,可以对很多社会安全问题起到一定的预警作用,从而实现物力和人力以及社会资源的分配和调度。因此,人群计数问题已经成为了人工智能和机器视觉的研究焦点之一。
目前,有2类方法在人群计数中广泛使用:①直接法[1-3]:在人群密度很低的场景中,通过逐个分析视频中的个体,从而得到人群的结果。②间接法[4-12]:利用图像特征得出人群人数,即有图像特征和图像人数建立回归关系。后者将图像中的人群看做一个整体研究对象,而前者是通过检测分析个体特征,并考虑到景区等大场景下人群密度变化较大以及拥挤时人体间相互遮挡,所以本文选用间接法。
影响间接法的一个主要因素是图像特征。间接法常用的特征有:纹理特征[4](GLCM)、梯度统计特征[5-7](HOG)、像素统计特征(运动块的大小[8-10]、特征点个数[11-12])等。由于采用间接法,建立图像特征和人群人数的回归模型,本文提出一种融合像素与纹理特征相结合的人群计数方法。首先,通过标定图像中的目标区域(图像子块),则图像中的总人数即为各个图像子块人数之和。然后,提取图像子块的特征:一是像素点比例特征,包括前景像素点和边缘像素点比例;二是图像纹理特征:彩色图像的灰度共生矩阵。最后,采用基于像素和纹理特征的支持向量回归方法来得到人群人数。实验表明,与传统方法相比,本文方法具有较高的人群计数准确率。图1是本文方法的流程图。
图1 本文算法流程图
1.1运动目标提取
提取运动前景目标在本文中采用基于混合高斯模型的方法。K个高斯分布构成了背景图像的一个像素点,即:
式中:xt是t时刻的RGB值,ωi,t为t时刻第i个高斯分布的权系数,τi,t表示t时刻第i个高斯分布的方差矩阵,μi,t为t时刻第i个高斯分布的均值向量(假设R,G,B两两独立),k取值为3-5,表示分布模式数;I为三维单位矩阵。
初始化时,高斯分布的均值向量和权重都为0,方差取一个较大的值(V0)。时刻t,将一帧图像的每个像素点值xt和相应的k个模型相比较,如果第i个高斯分布Gi均值和像素值xt两者之间的距离在标准差的2.5倍范围内,则判定该Gi与像素值xt匹配。如果所有的高斯分布中存在有与像素值xt相匹配的模型,则该模型的参数按照如下式子更新:
(1)如果模式不匹配,它们的标准差σ和均值μ维持原值。
(2)如果模式匹配,Gi的标准差σ和均值μ更新如下:如果该像素的所有Gi和像素值xt两者之间完全不匹配,那么模式Gi中最小权重者重新赋值,即:其中:W0为预设的一个较小值且大于0;
如果t时刻像素值xt和模式Gi之间相匹配,令Mk,t= 1,否则Mk,t=0,然后权重ωk,t以下式更新。
接下来确定由背景过程产生的哪些高斯分布,即背景过程的最佳描述。首先根据ωk,t/σk,t。
按降序排列K个高斯分布,标准差小、权重大的模式排列靠前,标准差大、权重小的模式靠后,如此最前列最能够描述稳定背景过程,而相反最后列最能够描述背景暂态扰动产生的分布,它将被取代。最后,背景像素模型产生于前B个:
式中:阈值T取值为0.5≤T≤1;B为前B个最佳描述背景像素的高斯分布。
重新分析前B个高斯分布和t时刻的各个像素点xt的匹配关系,如果为背景点,那么必有像素值xt和前B个高斯分布之一匹配,反之,不匹配,该像素为前景运动目标。如此,便可提取出运动目标。
1.2融合像素点河改进的GLCM人群统计回归方法
像素点比例能够反映图像中人群密集的程度,高密度人群图像表现为细腻的纹理。因此可以同时提取图像的纹理特征和像素特征,建立起图像特征向量和人群人数的回归模型,并用此模型来估计人群人数。本文采用像素(前景像素和边缘像素)特征与改进的灰度共生矩阵CGLCM的方法来提取高密度人群的特征,并用支持向量回归机建立图像纹理特征和人数的回归模型。
(1)改进的纹理特征提取方法CGLCM
由于传统的GLCM方法进行纹理特征提取只适用于单通道的灰度图像,不能适用于多通道彩色图像[13],因此BENCO等[14]改进了GLCM方法,提出了以彩色图像为基础的纹理特征提取方法(color GLCM,CGLCM))。首先将RGB图像分离成R,G,B三个分量,并任意计算两个单通道分量的GLCM,如此便得到9 个GLCM 矩阵:CGLCM(Grr,Grg,Grb,Ggr,Ggg,Ggb,Gbr,Gbg,Gbb);然后分别计算9个矩阵的特征向量:
FV=[FE(Grr),FE(Grg),FE(Grb),FE(Ggr),FE(Ggg),FE(Ggb),FE(Gbr),FE(Gbg),FE(Gbb)](10)
式中FE(k)表示矩阵k的纹理特征值,最后求得9个分量FE(k)的特征值的均值作为CGLCM方法的特征提取结果,完成彩色图像纹理特征的计算。
(2)像素特征与改进灰度共生矩阵CGLCM的人群纹理特征提取
经过预处理后图像,然后分别计算当前帧的前景、边缘像素与当前帧ROI图像总像素的比值,将这两个比例因子作为特征的两个维度。此外,熵、对比度、逆差矩、能量这四种特征彼此独立不相关,成为了分析共生矩阵的常用方式。在本文中,通过分析特征的数据,发现能量,逆差矩对人群密度变化时影响不大,所以只选取熵、对比度两种特征作为特征维度。首先对人群ROI图像进行像素统计计算得到两个比例因子,作为图像像素特征。然后得到ROI图像的CGLCM,计算CGLCM的对比度、熵。将两种特征的结果作为最终的特征向量。其具体计算步骤如下:
(1)计算当前帧的前景图像像素和边缘图像像素与当前帧ROI图像总像素比值:
其中:pf为当前帧的前景图像像素,pe为边缘图像像素;pr为ROI图像总像素。
(2)计算图像的彩色灰度共生矩阵p(i,j,d,θ),选取θ=0°、90°、45°、135°四个方向,d=1,得到每个方向上的9个矩阵FV。
(3)分别计算9个灰度共生矩阵4个方向上的熵、对比度,具体如下:
熵:(4)计算各个方向上2个特征值的均值,得到CGLCM的一个8维的特征向量。
(5)将(1)和(4)求得的一个10维特征向量作为图像的最终特征。
1.3SVR回归模型的建立
支持向量回归机(Support Vector Regression,SVR)是一种被广泛应用的机器学习方法,它通过建立线性和非线性回归模型,克服了神经网络的局限性的缺点,具有泛化能力强、全局最优解等特点,因此本文用它来建立回归模型。
设训练集样本为:
T={(xi,yi),xi∈Rm,yi∈R,i=1,2,…,n}(14)
将输入向量投影到高维空间,建立下式的最优决策函数:
通过SVR建立由输入向量到高维特征空间的映射:
式中,Ø(x)非线性映射函数,ω,b分别为权重向量、阈值。SVR回归分析建立为如下约束优化问题,ε为不敏感损失函数:
这是一个凸二次优化问题,惩罚系数常量C>0,ξi、ξi*为松弛因子,表示考虑到拟合误差的存在,样本偏离ε的程度。
对于式(16)和(17),为了获得问题的最优解,引入拉格朗日(Lagrange)函数进行优化:
式中K(xi,x)称为核函数,高斯径向基核函数选取如下:
本文使用OpenCV[15]提供的可供C++调用的动态库,它可以解决回归、分类及分布估计等问题。
根据本文提到的人群计数方法,设计了基于C++语言的人群计数系统。该系统采用了Microsoft Visual Studio 2010作为系统开发工具、OpenCV[15]开源库作为图像工具、MFC作为图形用户界面开发工具,在Intel Celeron CPU G1610@2.60GHz 2.60GHz、4.00GB RAM 32bit的PC上完成视频人数统计。实验所用的人群数据集来自国家5A级景区九寨沟,并选取了两个景点:珍珠滩栈道2和树正上车,视频获得来源于九寨沟景区数字图像处理大楼服务器。
图2给出了两个景点的各二幅图像:(a)图表示相应景点的原图,(b)图反映了对应的人群计数感兴趣区域图像,图中绿色闭合区域代表要预测的图像子块,并在右上角给出了对应该帧的估计人数(N代表总人数,o,t分别代表两个图像子块的人数)。可以看出,树正上车景点人群密度高于珍珠滩栈道2。
图2 视频图像样本
为了评估算法的性能,用平均绝对误差(Mean Absolute Error)和平均相对误差(Mean Relative Error)两个指标来度量实验结果,即:
式中,N是测试图像帧的总数;P(i)是算法估计帧i各子块人数之和;R(i)是帧i的真实人数,作为标准参考值。通过和传统的GLCM相比较,得到的实验结果如表1所示。
表1 实验结果比较
在表1的实验结果中,从景区两个监控点的视频中各选取1000幅左右图像作为训练样本,约400幅图像(无任何训练样本)作为测试样本。可以看出,与传统的GLCM相比,本文算法在两个监控点均取得了较好的结果,能够满足实时监控的需求。通过对比以上两个景点,发现在人群密度非常高时,两种方法的准确率均较高。这表明,在本文方法中,纹理特征占有最主要的作用,更适用于大场景高密度人群计数。
图2、图3给出了珍珠滩栈道2和树正上车两个景点的约400幅图像中预测人数与实际人数的曲线图,其中绿线为预测人数,红线为实际人数。
从图3、4看出,本文预测结果和实际人数有轻微的误差,但不影响实际应用中结果的判断,再次论证本文算法的可行性。
本文提出了一种两种特征(像素特征与纹理特征)相结合的人群人数统计方法。以景区人群作为研究对象,通过提取前景人群目标的像素比例特征和彩色图像纹理特征构建人群特征向量维度,进而建立特征向量和人群人数之间的回归模型,最后根据该模型实现人群计数。通过分析同一视频的测试实验结果,在有关人群计数准确率的2项指标上,本文方法均优于传统方法。
图3 估计人数与实际人数的对比图
图4 估计人数与实际人数的对比图
[1]Li M,Zhang Z X,Huang K Q.Estimating the Number of People in Crowded Scenes by MID Based Foreground Segmentation and Head-Shoulder Detection[C].Proceedings of the 19th International Conference on Pattern Recognition.Flofida,USA:IEEE,2008:1-4.
[2]于海滨,刘敬彪,刘济林.用于行人头部特征提取的目标区域匹配方法[J].中国图象图形学报,2009,14(3):482-488.
[3]Zhao T,Nevalia R,wu B.Segmentation and Tracking of Multiple Humans in Crowded Environments[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2008,30(7):1198-1211.
[4]郭森,严和平,柳伟.基于灰度共生矩阵的密集人群人数估计[J].计算机工程与应用,2008,44(28):169-171.
[5]Chan A B,Liang Z S,Vasconcelos N.Privacy Preserving Crowd Monitoring Counting People without People Models or Tracking[C]. Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Flofida,USA:IEEE,2008:1-7.
[6]Chan A B,Vasconcelos N.Counting People with Low-Level Features and Bayesian Regression[J].IEEE Transactions on Image Processing,2012,21(4):21-60-2177.
[7]张路,陈淑荣.基于ROI区域强分辨力HOG特征的视频行人检测[J].微型机与应用,2013,32(7):46-48.
[8]Hou Y L,Pang G K.People Counting and Human Detection in a Challenging Situation[J].IEEE Transactions on Systems Man and Cybernetics,2011,41(1):24-33.
[9]李寅,王贵锦,林行刚.结合局部和全局特征的人群密度估计算法[J].清华大学学报:自然科学版,2013,53(4):542-545.
[10]郑翔翔,张怡.基于头部检测和跟踪的人数统计方法.计算机应用与软件,2011,28(2):44-46.
[11]Conte D,Foggia P,Percannella G.A Method for Counting People in Crowded Scenes[C].Proceedings of the Seventh IEEE International !Conference on Advanced Video and Signal based Surveillance.Klagenfurt,Austria:IE-EE,2011:111-118.
[12]Conte D,Foggia P,Percannella G.Counting Moving People in Videos by Sali-ent Points Detection[C].Proceedings of the 20th International Conference on Pattern Recognition Istanbul,Turkey:IEEE,2010:1743-1746.
[13]Muniz R,Corrales J A.Novel Techniques for Color Texture Classification[C].Hamid R.IPCV06:Proceeding.USA:WORLDCOMP' 06Publication,2006:6114-6120.
[14]BENCO M,Hudec R.Novel Method for Color Textures Features Extraction Based on GLCM[J].Radio Engineering,2007,4(16):64-67.
[15]熊显涛,杜宝江.机器视觉工具包OpenCV开发技术[J].计算机与网络,2005(1-0):184-185.
Video Surveillance;Counting People;Background Modeling;Texture Features;SVR Regression Model
Counting People Based on the Scenic Spot
ZHOU Cheng-bo,TAO Qing-chuan
(College of Electronics and Information Engineering,Sichuan University,Chengdu 610064)
1007-1423(2016)05-0052-06
10.3969/j.issn.1007-1423.2016.05.012
周成博(1989-),男,河南商丘人,硕士研究生,研究方向为计算机应用与图像识别
2015-12-29
2016-02-03
景区中采用摄像机实现自动人群计数在智能安防领域具有重要价值,但摄像机透视成像、背景复杂、行人相互遮挡等因素导致人群计数精度不高。提出一种像素特征和纹理特征相结合的人群计数方法,首先获得像素点特征,然后对传统的灰度共生矩阵进行改进,最后用回归模型估计人数。实践表明,具有良好的实时性和较高的计数准确率,能够很好地满足景区实时自动计数的需求。
视频监控;人群计数;背景建模;纹理特征;SVR回归模型
陶青川(1972-),男,四川南充人,硕士生导师,副教授,研究方向为模式识别与智能系统、计算机应用与图像识别
The use of video surveillance for automatic people counting in scenic spots has an important value in the field of intelligent security. However,there are several factors such as camera perspective imaging,background clutter,and pedestrian occlusion,which lead to a low count accuracy.Proposes a method which combines pixel features with texture features,firstly it gets pixel features,then improves the traditional gray level co-occurrence matrix,finally uses the regression model to estimate the number of people.A large number of experimental results on several real video sequences demonstrate real-time effect and the high precision for various environments and meet the requirements of real-time monitoring of the scene spot.