刘 赏 董林芳
(天津财经大学信息科学与技术系,天津,300222)
人群运动中的视觉显著性研究
刘 赏 董林芳
(天津财经大学信息科学与技术系,天津,300222)
在公共场所中人们都倾向于以分组的形式进行运动,本文把这种以分组形式运动的若干个行人称为运动群组,具有视觉显著性的人群运动群组是场景理解的重点,其对人群的整体运动也影响最大。本文对运动群组的视觉显著性展开了研究,分别从规模、速度、组内紧致度和变化度4个方面来对运动群组的视觉显著性进行度量,并基于该度量给出了视觉显著性运动群组检测方法。首先,利用光流法对运动人群进行分析得到光流向量;然后通过层次聚类算法对运动人群进行分组;最后,基于本文所给出的度量计算每个群组的视觉显著性,以检测出视觉显著性最高的运动群组。实验表明该方法能够有效地对视觉显著性运动群组进行检测,该研究成果可应用于人群场景理解、人群运动分析和人群场景分类等计算机视觉研究领域。
人群运动;视觉显著性;群组规模;组内紧致度;群组变化度
利用计算机视觉技术实现对人群运动分析是当前的一个热点研究领域,并出现了大量的研究成果。计算机视觉技术中,人群运动分析的方法主要分为低层次分析方法和高层次分析方法。低层次方法主要是对人群的基本特征进行分析,包含人群计数、人群密度分析、人群分割和人群分组等。文献[1]利用Bernoulli形状模型统计人群的人数;文献[2]采用L0最优化方法对场景中的静态人群进行提取;文献[3]利用Lie algebra仿射变化来学习人群的整体移动;文献[4]利用流体力学理论对人群流进行分割。高层次方法的研究集中在对人群行为模型分析和人群场景结构建模;文献[5]研究了人群运动的集体特征并给出了度量;文献[6]给出了一致性滤波器以检测人群中的一致性运动;文献[7]对单帧内的光流点进行聚类以获得人群的分组模式;文献[8]利用自顶向下的层次模型来学习光流和路径之间的语义模式;文献[9]提出了一种动态行人代理的混合模式以学习人群的集体行为;文献[10]对人群场景中的运动轨迹段进行了语义分析。
图1 视觉显著性人群Fig.1 Visual saliency group
社会学和行为学的大量研究表明,在公共场所中人们都倾向于和自己的朋友、家人一起行动。一般情况下,人群中的行人都不是单独行动,而是三五成群,即以分组的形式进行运动。本文把上述这种以分组形式运动的若干个行人,称之为运动群组,并在下文给出了定义。运动群组的运动可以通过组内相似性和组间相异性进行描述。组内相似性是指运动群组内个体的运动具有稳定性和一致性。由于组内的成员具有共同的运动目标,且个体的运动受到相邻成员行为的影响,个体会调节自己的运动,尽量与其他成员的运动保持一致[5]。因此运动群组的规模、密度、运动方向和速度等都基本保持不变。组间相异性是指不同群组运动之间的差别,不同运动群组具有不同的运动目标,因此不同运动群组在规模、密度、运动方向和速度等方面是不同的,例如,不同方向的人群在通过十字路口时表现出来的冲突性。在实际情景中,组内相似性高且组间相异性大的运动群组很容易引起监测者的关注,本文把这种运动群组称为视觉显著性最大的运动群组。这里的视觉显著性是指规模大、密度大、持续时间长(即组内相似性高),或者运动速度明显与周围不同(即组间相异性大)的运动群组。图1给出了视觉显著性人群的示意图。如图1所示,场景A中具有白色标识点的区域是规模大、速度大的运动群组,其所对应的行进队列是场景的重点关注部分;场景B中具有白色标识点的区域为速度最大的运动组,需要在人群分析时着重关注。这类具有视觉显著性的运动群组是监测者重点关注的对象,其对人群整体运动的影响也最大。
一般来说,视觉显著性主要包含图像静态显著性特征和运动显著性特征。静态显著性特征包含位置、规模、相邻区域对比度和区域内紧致度等;运动显著性特征包含运动强度、运动空间一致性和时间一致性等。通过深入研究和分析,本文主要从运动群组的规模、速度、组内紧致度(即密度)和变化度4个方面来进行运动群组视觉显著性的度量,并利用其对当前场景内的各运动组进行分析,以检测出视觉显著性最高的运动群组。
文献[11]指出,在人群运动中以分组模式的运动占整体运动的70%以上,即在人群场景中家人、朋友常以分组的形式进行运动。在这些分组中,组内的成员具有共同的目标,以相似的运动模式进行活动。因此,本文给出了人群运动群组的定义,并基于此展开了视觉显著性研究。
定义1运动群组
人群中以三五成群的分组方式进行运动的若干个行人被定义为运动群组。运动群组中成员的运动方向相同、运动速度相似、成员与成员之间的距离较近。
采用文献[7]给出的方法对运动人群进行分组。该方法首先计算人群图像的特征点,然后通过分析相邻帧的特征点得到光流向量。密集人群视频中的特征点数量巨大,包含很多冗余信息和噪声,为了提高光流向量的计算效率,本文采用高斯自适应共振理论(Adaptive resonance theory,ART)方法来减少特征点的数目[12,13]。处理后得到的光流向量仍然保留了特征点的运动特征,不会影响之后运动模式的检测分析。目前常用的聚类方法主要有:基于划分的方法、基于层次的方法、基于密度的方法和基于模型的方法[14]。得到光流向量后,通过构建邻接图来度量光流向量之间的相似性,并采用层次聚类法对光流向量进行聚类分析。设视频序列包含m帧图像,Framet为视频序列中的某一帧,t=1,…,m。Framet中包含n个光流点,即Featurest={feati},i=1,…,n,其中feati=(Xi,Vi)为一个光流点向量,Xi=(xi,yi)表示feati的位置信息,Vi=(vxi,vyi)表示feati的速度信息。聚类分析开始时,把每一个光流向量看作是一个初始类,然后选择距离最近的两个类featp和featq进行合并。当聚类的个数达到事先定义的数目k时,则停止合并。为了减少噪声,去除掉了包含很少光流点的类。在聚类过程中,通过公式D(featp,featq)=(dp(featp,featq)ds(featp,featq))2计算两个特征点featp和featq之间的距离。其中dp和ds的计算分为两种情况。
(1) 当featp和featq在两条平行的曲线上时,dp和ds的计算公式为
(2) 当featp和featq在同一条曲线上时,dp和ds的计算公式为
静态显著性主要通过图像区域的位置、规模和紧致度等进行度量,而运动视觉显著性通常从以下3个方面来进行衡量[15]:(1) 该运动区域与相邻区域的对比度;(2) 运动区域内所包含成员的时空紧致性;(3) 运动区域的稳定性。因此,本文从规模、速度、组内紧致度和变化度4个方面对运动群组进行视觉显著性的描述和度量,其中规模、速度和组内紧致度用于描述运动群组的图像静态显著性特征,变化度用于描述运动群组的运动视觉显著性。
定义2运动群组的规模
定义3运动群组的速度
定义4运动群组的组内紧致度
图2 运动群组的紧致 Fig.2 Moving group tightness
定义5运动群组的变化度
人眼对于速度最为敏感,往往会一眼识别出速度过快或者过慢的运动群组。在速度类似的情况下,人们会关注规模大,密度大和紧致度高的运动群组。在规模和速度类似的情况下,在连续运动中保持一致、变化不大的稳定运动群组较为容易引起关注。这类群组往往是由朋友和家人形成的,因而在场景中相对稳定、不易发生变化,应该被当作整体对待。基于以上分析,本文通过规模、速度、组内紧致度和变化度来度量人群运动群组的组内相似性和组间相异性。通过这4个度量,以检测出视频中视觉显著性最大的运动群组。对运动群组的视觉显著性定义为
图3 视觉显著检测过程Fig.3 Visual saliency detection process
采用Visual Studio2012平台,结合开源计算机视觉库OpenCV2.4.9对本文所提出的视觉显著性运动群组检测方法进行了编程实现。实验数据选取了4个典型的人群场景视频,这4个场景来源于香港中文大学所提供的人群运动视频数据库(http://www.ee.cuhk.edu.hk/~jshao/CUHKcrowd_files/cuhk_crowd_dataset.htm),其中场景1为视频1_008760417-demonstration-1.avi;场景2为视频1_15-2-sec3.avi;场景3为视频1_17-1.avi;场景4为视频1_012590260-soldiers-marching-2.avi。
对以上场景进行聚类分析后,采用不同的颜色对不同的运动群组进行标识,并利用本文所给出的方法计算各群组的视觉显著性。由于视频第1帧不存在帧间对比,因此从第2帧开始分析视觉显著性。表1给出了各个场景中2~11帧所对应的视觉显著性运动群组的度量数值。图4~7为各个场景2~11帧所对应的图像,为了方便辨识,对视觉显著性群组所对应的光流向量点进行了加粗显示。图4为场景1在k=2时的人群运动群组。其中2~8帧都检测出右边运动群组为当前场景中的视觉显著性最大运动群组。在第9帧中,光流向量的计算错误导致聚类分析时出现了分组模式错误,进而使得视觉显著性计算错误。图5为场景2在k=4时的人群运动群组。其中2,3,6帧检测出最下面的运动群组为视觉显著性最大运动群组,第4,5,7,8,11帧检测出最左面的运动群组为视觉显著性最大运动群组。其原因在于,最左面运动群组的规模较大,而最下面运动群组中成员运动速度较大,且在相邻帧中的变化较小、运动较为稳定。因此,分别被检测为视觉显著性最大群组,这与实际情况相符合。第10帧标识右上方为视觉显著性群组,这是由于光流检测算法的噪声数据,即在光流计算过程中把背景也标识了光流点,进而使得运动群组的规模和速度值的计算出现错误。图6为k=3时的人群运动群组,电梯上的人群为被检测为视觉显著性最大运动群组。通过分析该视频,可见该运动群组的规模与其余两个运动群组相比较高,为实际场景中的视觉显著性最大运动群组。图7为场景4在k=2时得到的运动群组模式,检测2~11帧中右侧的运动群组为当前场景的视觉显著性最大运动群组,该场景中这两个运动群组的组内紧致程度类似,右侧运动群组的速度明显高于左侧的静止群组,实验结果与实际情况相符合。
表1 最大视觉显著性运动群组的数值
图4 场景1中的视觉显著性运动群组Fig.4 Visual saliency groups in scene 1
图5 场景2中的视觉显著性运动群组Fig.5 Visual saliency groups in scene 2
图6 场景3中的视觉显著性运动群组Fig.6 Visual saliency groups in scene 3
图7 场景4中的视觉显著性运动群组Fig.7 Visual saliency groups in scene 4
由上述实验可见, 本文提出的算法可以对规模大、速度快、 紧致度高且运动稳定的视觉显著性最大运动群组进行正确的检测。实验中错误检测的原因在于光流检测算法的噪声数据。在光流计算过程中,由于光线等因素的影响而错在背景位置标识出光流向量,使得运动群组的分组出现错误,进而造成显著性度量(例如运动群组的规模和速度)的计算出现错误,最终导致其视觉显著性的检测错误。
在实际情景中,具有视觉显著性的运动群组是监测者重点关注的对象,其对人群整体运动的影响也最大。通过对人群运动的研究和分析,本文从规模、速度、组内紧致度和变化度4个方面对运动群组进行视觉显著性的描述和度量。其中,规模、速度、组内紧致度用于描述当前运动群组的静态视觉显著性;变化度用来描述运动群组的运动视觉显著性。基于这4个度量,本文提出了视觉显著性运动群组检测方法,并进行了实验。实验结果表明在光流噪声较小的情况下,本文所提的方法能够有效地对具有视觉显著特征的运动群组进行检测。该研究结果可在人群运动分析、人群场景理解和人群场景分类等视觉研究领域中得到应用。降低光流噪声对显著性检测方法的影响,提高检测方法的鲁棒性将是我们下一步的研究工作。
[1] Rabaud V, Belongie S. Counting crowded moving objects[C]∥Conference on Computer Vision and Pattern Recognition.New York,USA:IEEE Computer Society Press, 2006:705-711.
[2] Yi Shuai, Wang Xiaogang, Lu Cewu, et al. L0 regularized stationary time estimation for crowd group analysis[C]∥Conference on Computer Vision and Pattern Recognition. Columbus, Ohio:IEEE Computer Society Press,2014:2219-2226.
[3] Lin Dahua,Grimson E, Fisher J. Learning visual flows:A lie algebraic approach[C]∥Conference on Computer Vision and Pattern Recognition.Miami, Florida,USA:IEEE Computer Society Press,2009:747-754.
[4] Ali S, Shah M. A lagrangian particle dynamics approach for crowd flow segmentation and stability analysis[C]∥Conference on Computer Vision and Pattern Recognition. Minneapolis, Minnesota: IEEE Computer Society Press, 2007:1-6.
[5] Zhou B,Tang X,Zhang H,et al. Measuring crowd collectiveness[J]. IEEE Trans on Pattern Analysis & Machine Intelligence, 2014, 36(8):1586-1599.
[6] Zhou B,Tang X,Wang X. Coherent filtering:Detecting coherent motions from crowd clutters[C] ∥Proceedings of 12th European Conference on Computer Vision. Florence, Italy: Springer-Verlag Berlin Heidelberg, 2012:857-871.
[7] Min Hu, Saad Ali, Mubarak Shah. Learning motion patterns in crowded scenes using motion flow field[C]∥Proc International Conference on Pattern Recognition. Tampa,Florida,USA: IEEE Computer Society Press, 2008:1-5.
[8] Wang X, Ma X, Grimson W. Unsupervised activity perception in crowded and complicated scenes using hierarchical Bayesian models[J] . IEEE Trans PAMI, 2008, 31(3):539-555.
[9] Zhou B, Wang X, Tang X. Understanding collective crowd behaviors:Learning a mixture model of dynamic pedestrian-agents[C]∥Conference on Computer Vision and Pattern Recognition. Providence, Rhode Island:IEEE Computer Society Press, 2012:2871-2878.
[10] Zhou B,Wang X,Tang X. Random field topic model for semantic region analysis in crowded scenes from tracklets[C] ∥Proceedings of the 2011 IEEE Conference on Computer vision and pattern Recognition.Piscataway, NJ, USA:IEEE Computer Society Press,2011,42(7):3441-3448.
[11] Moussaïd M,Perozo N, Garnier S, et al. The walking behaviour of pedestrian social groups and its impact on crowd dynamics [J]. Plos One, 2010,5(4):e10047.
[12] Williamson J R. Gaussian ARTMAP:A neural network for fast incremental learning of noisy multidimensional maps[J]. Neural Networks, 1996, 9(5):881-897.
[13] Yaghini M, Shadmani M A. GOFAM:A hybrid neural network classifier combining fuzzy ARTMAP and genetic algorithm[J]. Artificial Intelligence Review, 2013, 39(3):183-193.
[14] 张晓,张媛媛,高阳,等.一种基于密度的快速聚类方法[J]. 数据采集与处理,2015,30(4):888-895.
Zhang Xiao, Zhang Yuanyuan, Gao Yang, et al. Fast density-based clustering approach[J]. Journal of Data Acquisition and Processing, 2015, 30(4):888-895.
[15] 谢昭,刘玉敏,张骏,等.时空运动显著性的目标跟踪[J].中国图象图形学报,2015, 20(8):1070-1082.
Xie Zhao,Liu Yumin,Zhang Jun,et al. Spatio-temporal motion saliency for object tracking[J]. Journal of Image and Graphics, 2015,20(8):1070-1082.
ResearchonVisualSaliencyofCrowdMovement
Liu Shang, Dong Linfang
(Department of Information Science and Technology, Tianjin University of Finance Economics, Tianjin, 300222, China)
In public places, pedestrians always move by groups, which are called as motion groups. A motion group with the highest visual salienoy is the focus of the scene understanding. A new measurement of motion group′s visual saliency is defined in this paper, and the measurement includes four descriptors as follows: scale, speed, group compactness and group variation of different frame. Based on these descriptors, a new method is proposed for detecting the highest visual saliency group. Firstly, the optical flow method is used to compute optical flow vectors. Then, hierarchical clustering algorithm is used to group the crowd. Finally, the values of each group′s visual saliency are computed to find the group with the highest visual saliency value. Experimental results show that the proposed method can detect the highest visual saliency groups effectively. The research can be applied to computer visual fields such as crowd scene understanding, crowd motion analysis and crowd scene classification etc.
crowd motion;visual saliency; group scale;group tightness;group variation
国家自然科学基金(61502331)资助项目;天津市自然科学基金(15JCQNJC00800)资助项目;中国民航信息技术科研基地开放课题(CAAC-ITRB-201504)资助项目;中央高校科研业务经费项目(3122013C005)资助项目;中国民航大学科研启动项目(2013QD18X)资助项目。
2015-12-24;
2016-06-06
TP391
A
刘赏(1977-),女,副教授,硕士生导师,研究方向:计算机视觉和图像分析与处理、模式识别,E-mail:liushangw@aliyun.com。
董林芳(1972-),女,副教授,硕士生导师,研究方向:计算机视觉和图像分析与处理,E-mail:donglinfang@163.com。