王军
(电子科技大学中山学院,广东 中山 528402)
基于群体交互区域的群体行为识别
王军
(电子科技大学中山学院,广东中山528402)
为了解决由于人体对象数量过多引起的复杂性问题,提出了一种基于群体交互区域(GIZ)的群体行为识别方法.利用人际关系模型检测群体交互区域;提出了吸引特征与排斥特征,用来描述群体行为;在此基础上,采用CTM(Correlated Topic Models)模型进行群体行为识别.利用该方法在BEHAVE数据集上进行了训练与测试,行为识别结果正确率在93%以上.
群体行为识别;群体交互区域;吸引与排斥特征
人体行为识别是计算机视觉的重要研究课题,有着广阔的应用前景.人体行为识别可以分为以下3个方面:(1)个人行为识别[1],(2)交互行为识别[2],(3)群体行为识别[3-13].然而大多数以前的研究都集中于解决个人行为识别和交互行为识别问题,群体行为识别仍然是一个非常重要的问题,不仅由于技术上的困难,而且实际应用需求在日益增加.在本文,我们集中解决群体行为识别问题.群体行为一般都由多个个人行为构成.比如“approaching”这个群体行为就是由多个“walking”这个个人行为构成的.因此,为了识别群体行为,局部(个人)信息和整体(群体)信息都需要考虑.
群体行为识别方法可以分为两大类:基于特征图的方法和基于运动轨迹的方法.基于特征图的方法[3,4]把一个行为描述为许多的时空的运动梯度特征以及它们的统计数字,而一个群体行为用一些显著特征表示.然而,由于这种方法对于特征提取有很强的依赖性,易受情境的影响.基于轨迹方法[5-7]首先分析个人行为,然后通过分析个人轨迹之间关系来实现交互识别,该方法对于情境具有更好的鲁棒性.文献[2]利用格兰杰因果关系[7]分析两人之间的交互作用.然而,由于格兰杰因果关系检验的局限性,主要用于双人行为识别问题.为了处理更复杂的情境,文献[5]利用局部轨迹信息分析自我、双人、群体因果关系.然而,他们都假设一个场景中只有一个群体.因此,这些方法对于复杂的情境不具有一般性,如一个群体在参与一个行为,有其他的个人经过.为了解决这个问题,文献[9]和文献[10]提出首先检测每组群体行为,然后识别每一个群体行为.文献[9]利用最小生成树算法把群体分成几个组,然后构造一个网状形以及提取一个直方图特征.尽管文献[9],[10]利用分组能够识别群体行为,但是怎样探测分组仍然是一个难题.
为了解决这些问题,提出了一种基于群体交互区域(GIZ)的群体行为识别方法.该方法首先利用人际空间关系模型进行群体交互区域检测,然后在该群体交互区域提取吸引与排斥特征(ARF)、利用额外特征(AF)以及格兰杰因果关系(GCT)特征,再利用k-mean算法得到群体行为的特征词表示,最后,利用CTM建立群体行为模型识别.实验结果表明该方法的有效性.
视频图像中通常含有多种行为:个体行为、群体行为,因此,为了识别群体交互行为,首先需要找出相应的群体行为区域.基于人际关系模型,每个人都有一定距离的内部空间,倾向于和熟人维持一个近距离.当有陌生人靠近的时候,他会感到不舒服和尴尬.根据距离一个人的距离,可以将人际关系分为四种:亲密的,私人的,社会的,公开的,对应的可能交互行为,如图1所示.
设从第1个时间步长到第T个时间步长第i个人的运动轨迹如下:
图1 基于空间关系学的人际关系区域
假设在一定的距离内将会发生交互行为,则根据空间关系学的私人距离定义一个潜在的交互作用区(IPZ)来表示交互的可能性.整个过程分为四步,如图2所示.
图2 群体交互区域GIZ的检测
(1)围绕每一个人体对象画一个潜在的交互作用区(图2-a).
(2)在这些潜在的交互作用区之间计算重叠面积(图2-b),重叠面积越大,群体行为发生的概率越高.并按式(2)计算重叠面积与覆盖交互人体对象的总面积之比:
式中,Ω(xi)表示第i个人体对象的一个IPZ,Nc表示重叠IPZ区域内的总人数.
(3)若满足式(3),则该潜在的交互作用区为群体交互区域(GIZ)(图2c),并赋值该GIZ ID
式中,α是一个控制一组人体对象落入相同GIZ可能性的阈值.
(4)算出在GIZ每一对可能的交互特征 (图2-d).
为了描述GIZ内的交互行为,我们提出了一个新的特征——吸引和排斥特征(attraction and Repulsion Features,ARF).吸引特征描述人们相互靠近的趋势,而排斥特征捕捉人们相互远离的趋势.这些特征和人体对象之间的相对距离的改变有密切联系,如图3所示.
图3 吸引和排斥特征
设a和b分别表示时刻ta和tb两个人体的相对距离,如果:
对于某个人体定义表示其一个轨迹信息的一个子集:
上式中,ξiT,k表示对象i的轨迹信息在k时间步长中的一个子集构成的一个变量.于是,我们可以按式(6)计算对象i和j之间的相对距离,
I+(n)和I-(n)是指示函数,当n大于0时返回1,反之亦然.再加上在k时间步期间平均速度的大小和方向vijT,k和øijT,k,最后得到吸引与排斥特征的七维特征表示如下:
为了表示群体行为,我们首先积累提取在时间窗口大小为ω的特征.然后用k-mean算法通过特征聚类得到群体行为的特征词表示.然后我们利用CTM建立群体行为模型识别.
CTM模型是由D.Blei等提出的[13],如图4所示,其中θ为随机变量,满足对数正态分布(logistic normal distribution),∑和μ为参数;z为隐含主题;w为词;β为词在各隐含主题的概率分布;矩形框表示其中的内容进行重复,其右下角的值表示重复的次数.
图4 CTM模型
对于一个由词描述的特征,CTM模型的生成过程如下:
(1)产生一个主题概率分布:
(2)对于第n个词:
(a)产生一个主题分配zjn~Multi(θj)
(b)产生一个词wjn~Multi(βzjn)
给定一个特征集,且特征集中的每一特征均采用词描述,那么可以采用变分EM算法对特征在隐含主题的概率分布θ和词在各隐含主题的概率分布参数β进行估计.对于一个新特征,利用训练好的CTM模型,得到其主题的概率分布.
利用CTM模型可以有效地表示出特征在隐含主题上的概率分布,而且该模型还完全考虑到了特征隐含主题之间的关系,使主题描述更加接近现实.
本文在BEHAVE数据集[8]上进行实验来说明所提出方法的性能.我们从两方面来评估所提出的方法:(1)和已有的方法对比,表明我们所提方法对于群体行为识别的精确性.(2)特征的影响——所提出的特征到底能够提升多少性能.
公共数据集BEHAVE数据集,帧频为25,图象分辨率为640*480.它由10个群体行为类组成,我们主要考虑Approach(A),Split(S),WalkTogether (W),RunTogether(R),Fighting(F),InGroup(I)等群体行为,每一类由2到5人完成.实验中,利用MATLAB R2010a在台式机上进行实验.参数设置如下:一个IPZ内人之间的距离为58像素,阈值TGIZ为0.1.对于特征提取,时间间隔k为13.对于群体行为表示,窗口大小ω为3帧.k-mean算法的簇大小为100.我们利用三倍交叉验证法来评估我们的方法.
5.1不同方法的对比实验
为了说明文中提出方法的优越性,我们与文献[9],[10],[12]的方法进行了对比实验.文献[9]的方法利用最小生成树算法把群体分成几个组,然后构造一个网状形以及提取一个直方图特征;文献[10]的方法把群体行为看成是由个体、双人群体构成的子群体行为组成;文献[12]的方法利用mean shife聚类和模糊时间逻辑进行群体行为识别.实验结果如表1所示结果表明文中方法具有更高的识别率.
表1 不同方法的实验结果
5.2不同特征的对比实验
我们评估所取特征对群体行为识别的影响.第一种特征也就是文中所采用的的特征,即ARF、GCT、AF的组合特征,共,24维;第二种特征维ARF17维.图5为实验结果的混淆矩阵,从图可看出,吸引与排斥特性(ARF)大大提高群体行为识别的正确率.这是因为,吸引和排斥特征有效地描述了群体行为.
图5 群体行为识别的混淆矩阵
5.3有无GIZ检测对比
为了说明GIZ检测的有效性,我们对有无GIZ检测对比进行了对比实验,图6为实验结果,从图可以看出,利用了GIZ检测方法的识别效果明显优于没有使用该方法的.这是因为视频图像中往往含有个体行为和群体行为GIZ检测能去掉图像中的个体行为,从而提高群体行为识别率.
图6 有无GIZ检测对比
人体动作识别已经成为计算机领域的一个重要研究方向,本文提出了一种基于群体交互区域(GIZ)的群体行为识别方法.主要工作和创新点:
(1)利用人际关系模型检测群体交互区;
(2)利用吸引与排斥特征、利用额外特征以及格兰杰因果关系特征描述群体行为;
(3)采用CTM(Correlated Topic Models)模型进行群体行为识别.并利用该方法在BEHAVE数据集上进行实验,识别结果正确率在93%以上.
〔1〕Tanaya,G,Rabab K W.Learning Sparse Representations for Human Action Recognition[J]. Pattern Analysis&Machine Intelligence IEEE Transactions on,2012,34(8):1576-1588.
〔2〕Zhou Y,Ni B,Yan S,et al.Recognizing pair-activitiesbycausalityanalysis.[J].Acm Transactions on Intelligent Systems&Technology,2011,2(1):389-396.
〔3〕Amer M R,Todorovic S.A chains model for localizingparticipantsofgroupactivitiesin videos[C]//IEEE International Conference on ComputerVision.IEEEComputerSociety,2011:786-793.
〔4〕Cheng Z.L,Qin,Q,Huang,S.J.group activity recognition by gaussian processes estimation.In Proceedings of IEEE International Conference onPatternRecognition,Istanbul,Turkey, 2010,pp.3228-3231.
〔5〕Ni B,Yan S,Kassim A.Recognizing human group activities with localized causalities.[C]// Proceedings/CVPR,IEEE Computer Society Conference on Computer Vision and Pattern Recognition.IEEE Computer Society Conference on Computer Vision and Pattern Recognition.2009:1470-1477.
〔6〕Sethi R J,Roy-Chowdhury A K.Individuals,groups,and crowds:Modelling complex,multi-objectbehaviourinphasespace.[C]// Computer Vision Workshops(ICCV Workshops),2011IEEEInternationalConference on.IEEE,2011:1502-1509.
〔7〕Granger C W J.Investigating Causal Relations byEconometricModelsandCross-Spectral Methods.[J].General Information,1969,37(37):424-38.
〔8〕BlunsdenS,FisherR.Thebehavevideo dataset:Ground truthed video for multi-person behavior classification[C]//In Proceddingsof TheBritishMachineVisionConference,Aberystwyth,UK,August 2010:1-12.
〔9〕Yin Y,Yang G,Xu J,et al.Small group human activity recognition[C]//Proceedings of International Conference on Image Processing. 2012:2709-2712.
〔10〕Zhang C,Yang X,Lin W,et al.Recognizing HumanGroupBehaviorswithMultigroup Causalities[C]//2012 IEEE/WIC/ACM International Conferences on Web Intelligence andIntelligentAgentTechnology.IEEE Computer Society,2012:44-48.
〔11〕Gaur U,Zhu Y,Song B,et al.A string of feature graphs model for recognition of complex activities in natural videos[C]//IEEE International Conference on Computer Vision. IEEE International Conference on Computer Vision.2011:2595-2602.
〔12〕Münch D,Michaelsen E,Arens M.Supporting Fuzzy Metric Temporal Logic Based Situation Recognition by Mean Shift Clustering [J].LectureNotesinComputerScience,2012,7526:233-236.
〔13〕Bei D M,Laferty J D.Correlated topic models[C].Advances in Neural Information ProcessingSystems18.Cambridge,MA:MIT Press,2006.
TP391
A
1673-260X(2016)04-0035-04
2015-12-29
国家自然科学基金项目(50808025)
王军,讲师,中南大学博士生,从事模式识别研究