基于PE—Cuboid特征的人体行为识别算法

2014-09-10 17:44陶玲

电脑知识与技术 2014年6期

陶玲

摘要：为了克服单纯使用局部时空兴趣点（spatial-temporal interest point，STIP）的方法在对视频序列中人体行为进行识别时提取的特征点太少，且其不能完整的表征图像的特征，提出一种结合局部特征和全局特征的特征描述子PE-Cuboid，能有效的提高人体行为识别的正确率。对每一个视频序列提取PE-Cuboid特征，利用像素变化概率图（PCRM）和边缘方向直方图（EOH）捕捉全局运动信息，局部的Cuboid描述子对全局特征做进一步区分，对最终生成的PE-Cuboid特征进行K-means聚类形成视觉词汇本（visual dictionary），将视觉词汇本输入到线性SVM分类器（linear Support Vector Machines，LSVM）中进行学习、训练、分类，最后采用打分的机制得到行为类别。该文算法在KTH、 Weizmann行为数据库和我们自拍测试集中都做了测试，实验结果显示算法具有较高的识别率。

关键词：行为识别；时空兴趣点；PE-Cuboid；支持向量机

中图分类号：TP391 文献标识码：A 文章编号：1009-3044（2014）06-1287-04

Human Action Recognition Algorithm Based on PE-Cuboid

TAO Ling

（School of Computer Science a nd Engineering， Wuhan Institute of Technology， Wuhan 430074，China）

Abstract： The methods of human action recognition using only local spatial-temporal interest points are normally lack of effective feature points to describe an action.This paper presents a feature descriptor PE-Cuboid combing local features and global features，this approach can highly improve the recognition rate of human action. To extract PE-Cuboid features of each video sequence， the global motion information is composed of pixel change ratio map（PCRM） and edge orientation histograms（EOH） while the local feature is represented as a collection of Cuboid descriptors. An action codebook is constructed by clustering the PE-Cuboid features using K-means method，then we use the visual dictionary as a input for a linear support vector machine（LSVM） to train a classifier，finally action recognition is achieved by scoring mechanism.We test our algorithm on the KTH human motion dataset，the Weizmann human action dataset and our own testing dataset，the results indicate our approach has a high recognition rates on those datasets.

Key words：action recognition， STIP， PE-Cuboid， SVM

对视频序列中的人体行为识别通常分为两个步骤：首先对视频中的运动人体目标提取特征，用这些特征来表征人体运动信息，接着根据这些特征对行为进行识别。然而在实际研究中，由于光照变化、遮挡、复杂背景等环境因素的影响，如何在视频中提取出有效的并能适应于环境变化的特征对于行为识别显得尤为重要[1]。

目前用于行为识别的特征描述方法大致可以分为全局特征和局部特征。全局特征一般是利用人体外形轮廓来完成识别。在文献[2]中，Davis采用一种基于模板的描述行为的方法：运动能量图（motion energy image-MEI）与运动历史图（motion history image-MHI）。MEI用来确定一段视频序列中发生运动的区域，MHI则反映该区域中运动目标的运动剧烈程度，且根据时序信息，距离当前时刻越远其运动值越小。像素变化概率图PCRM[3-4]与MHI相似，能够大致估计出视频序列中的运动区域，并且根据设定阈值，当相邻两帧的差分图像大于此阈值时，PCRM值随之增大，那么运动目标的运动时间越长或者运动越剧烈，其PCRM值就会越大，在像素变化概率图中显示就会越亮。但是此方法的识别效果对阈值的设置有较大依赖，不好控制。

基于方向直方图[5-7]的方法在近几年行为识别研究中也十分热门。在文献[7]中，作者首次提出HOG算子，并将其应用在行人检测中，后来HOG也被应用于行为识别作为特征描述算子[5-6]获取图像全局信息。HOG和边缘方向直方图 EOH[6]都是通过在空间域对图像求导获得梯度信息，只能用于捕捉空间特征。

时空特征（spatial-temporal features）[8]是一种局部特征表示法，由于局部特征其兴趣点非常具有区分性及较强的描述性，且对噪声、光照等不敏感，目前被广泛应用在行为识别中。兴趣点的检测算法在基于局部特征的方法中非常关键。最直接的探测时空兴趣点的方法是扩展一个2维兴趣点。Laptev等人将2维的Harris角点扩展到3维的时空兴趣点（STIP），即同时在时间维和空间维探测兴趣点，但是由于其在3维空间的假定限制条件过多，算法只能检测到很少的兴趣点，而且有很多运动类型可能不能很好的区分。Dollar[9]放弃了对空间的约束条件而只着重于对时间维的变化，这样就可以探测到更多的兴趣点，并提出了基于Cuboid的特征描述子，他在时间维应用Gabor滤波器用来探测具有周期运动的成分，但是这种周期运动仍然不足已表示复杂的动作。

为了克服以上这些方法的不足，该文在基于文献[9]和[10]的基础上，考虑将全局特征和局部特征结合起来，全局部分采用PCRM和EOH结合的全局描述符，用来体现运动目标的整体运动状态和运动目标的边缘轮廓信息，对提取出来的有运动信息的区域利用Cuboid描述子做进一步区分，从而达到更精确的行为识别。融合而成的PE-Cuboid特征比单纯的Cuboid能更多的表示多种运动形式，并且计算比Cuboid快。提取出特征之后，下一阶段即对特征进行学习分类最终完成识别。对得到的PE-Cuboid特征通过K-means聚类得到视觉词汇本（visual dictionary），计算每个视频中的每个特征向量到每个聚类中心的距离，最后每个视频会生成一个k维的直方图，将生成的直方图输入到支持向量机（support vector machines-SVM）中，使用1VS1的策略将要分类的行为分开分类，有多少种行为就会生成多少种分类器，来一个测试样本就跟这些分类器比，最后使用打分的机制，得分最大的就认为该视频属于哪一类。实验显示，该文算法能更高效的提高识别的准确率。

1 PE-Cuboid特征描述子

以往的行为识别研究中，大多是单纯的使用全局特征或者局部特征来对行为进行描述，该文提出的对视频中行为识别算法的主要思想是：采用全局和局部特征结合的方法融合成更能表征人体运动信息的特征描述子。通过PCRM和EOH得到目标的全局运动信息和边缘轮廓信息后，在保存下来的运动区域矩形框内应用基于Cuboid[9]的局部时空特征。该文将此算法简称为PE-Cuboid算法。

由于对视频中运动人体的行为进行识别需要大量的训练视频，对目前已有的标准行为集中的每个视频提取PE-Cuboid特征，得到训练视频集特征向量，接着聚类这些特征向量形成词汇本，对聚类中心求欧氏距离，形成直方图，最后将直方图输入到分类器SVM中，得到视频分类结果。识别时也采用同样的特征提取方式，并利用打分机制做出最佳判决，得到识别结果。

本文提出的PE-Cuboid算法大致分为4个部分：1）逐个视频提取特征向量；2）特征融合；3）训练分类；4）打分识别。

1.1 特征提取与特征融合

本文采用文献[11]中对PCRM的处理方法，通过式（1）计算运动目标在横轴和纵轴方向上的能量分布[Eix（m）]、[Eiy（n）]，大致估计出视频序列中运动目标的位置。

[Eix（m）=m=1MPCRM（m，n） ][Eiy（n）=n=1NPCRM（m，n）] （1）

然后通过式（2）将PCRM图非均匀量化到8个量化空间，并归一化直方图。

[Fpcrmk=（x，y）∈parti（x，y）∈binkPCRM（x，y）] [Fpcrm=log（Fpcrmk+1k=13nlog（Fpcrmk（k）+1+ε] （2）

图1是提取PCRM图示例。PCRM能反映运动目标的全局运动信息以及视频中运动目标的运动状态和运动强度。

a） KTH数据库走路行为视频的一帧 b）像素变化累积图 c）像素变化概率图

图1 提取PCRM图步骤

另外，考虑到人眼在观察事物时多数会根据事物的边缘轮廓信息来进行判断，该文在特征提取中引入边缘方向直方图（EOH）。根据梯度幅值和梯度方向，将[θ]量化为8个方向（0°、45°、90°、135°、180°、225°、279°、315°），统计各个区域对应的幅值，最终得到边缘方向直方图。如式（3-4）。parti和bink分别为第i个图像区域和第k个量化空间。

[Ei，k=（x，y）∈partiθ（x，y）∈binkG（x，y）] （3）

[EEOHi，k=Ei，k+εk=1nEi，k+ε] （4）

接着对视频帧中提取出的矩形框应用Gabor滤波器得到兴趣点，以每一个兴趣点（即以上所定义的响应函数的最大值）为中心挖出一个小立方体Cuboid，将视频序列由包含N个时空兴趣点的Cuboid进行描述。在建立直方图时，由于Cuboid数量太多，不直接使用Cuboid本身作为行为描述子，原因是尽管同一种行为由两个人表演，他们的外观和运动或许有很大程度的不同，但是他们形成的兴趣点却是类似的。基于这种设想，即使事实上Cuboid的数量可能是无限的，但是不同类型的Cuboid的数量却是相对小的。该文将每个Cuboid通过映射到一个与它最接近的原型向量来指定一个类型（Cuboid type），仅由立方体类型（Cuboid type）来完成识别，这样有些像素点的Cuboid本身被丢弃，只保留它们的类型（Cuboid type），使用Cuboid type的直方图作为行为描述子。行为描述子之间的距离通过计算卡方距离。

最后将PCRM、EOH和Cuboid结合的PE-Cuboid特征进行融合，既能反应目标的全局运动信息，也能反应局部运动细节信息。特征融合最基本的思想就是将所有由不同方法生成的特征向量连结起来形成一个更大的特征向量，将这个新的更大的特征向量作为分类器（如支持向量机，SVM）的输入。在这里本文采用基于bag-of-features的技术，给定3种不同的方法，分别生成不同的特征向量序列[{Hi|Hi={hij}（1≤j≤Ki）}]，[1≤i≤N]，[Ki]是每种特征向量的维数，融合之后的特征向量为[Hfusion={hpcrm，heoh，hCuboid}]。

1.2 行为分类和识别

1.2.1 PE-Cuboid特征的矢量量化

得到视频特征之后，采用对特征矢量量化的方法对特征描述子进行聚类得到视觉词汇本（visual dictionary），再根据视觉词汇本对视频特征进行特征编码。聚类也就是一个向量量化（Vector Quantization，VQ）的过程，目前应用最广泛的聚类算法是K-means。为了建立视觉词汇本，对生成的所有PE-Cuboid描述子进行K-means聚类，将PE-Cuboid特征池中的特征向量分成[k]个簇Clusti（i=1，…，k），每个聚类中心Clusti即为视觉词汇本（visual dictionary）中的一个视觉单词（visual word），用这些词来代表视频集中的所有行为。每个PE-Cuboid特征都可以用词汇本对其进行描述，将每个特征对应到词汇本的单词Clusti中，正规化形成直方图h，统计每个单词Clusti出现的频率 fi。该文采用文献[9]中稍作改进的K-means算法，能快速加快聚类的速度。在编码时，视觉词汇本和编码方式的选择都会对最后的识别造成影响。

1.2.2打分决策识别结果

本文采用最大打分法来识别结果，让分类器对测试视频的特征向量进行打分，得分最高的标签即为该视频的最终标签。使用这种方法有时会导致几种类别得分相等的问题，基于此问题，该文采用随机选择其中一种类别作为最终的识别结果。

2 实验结果与分析

为了验证该算法的有效性和鲁棒性，算法在两个数据集上做了测试：KTH行为数据库和weizmann行为数据库，分别验证了本文算法的识别性能。

实验的硬件环境是CPU Pentium（R） Dual-Core E5700 3.0GHz；内存2G。操作系统为WINDOWS7，仿真软件为Matlab7.0。算法分3个部分进行：首先读入训练视频集，对每一个视频片段提取特征得到DATAset特征集；然后对DATAset聚类生成词汇本，产生词汇本时在特征集中随机选择500个特征，词汇本大小为200，最近邻数目k取50。分类器选择支持向量机的线性核函数（linear kernel），并采用1vs1的方法训练多个二值SVM分类器。图2中， a）列和b）列分别是我们的算法在标准数据集上的识别结果，c）列为我们自拍测试视频识别结果。

a）Weizmann数据集识别结果 b）KTH数据集识别结果 c）自拍测试视频识别结果

图2 不同数据集上识别结果

3 结论

通过在不同数据集上进行对比分析，可以看到本文提出的PE-Cuboid算法在对人体行为识别时具有很好的性能，在对摄像头抖动或聚焦变化时也能很好的捕捉到运动人体并正确识别其行为。使用全局特征和局部特征相结合的PE-Cuboid特征描述子，代替单一使用全局或局部特征的特征提取方法，可以更有效的表征运动目标特征，并使用改进的K-Means将视频进行聚类，得到视频的视觉词汇本，最后以该词汇本作为特征矢量，利用1对1的方法训练多个二值SVM分类器，实现行为分类识别。实验结果表明，该文提出的PE-Cuboid算法对目前几个权威行为库都有很好的识别效果，具有很好的稳定性和鲁棒性。

参考文献：

[1] Ronald Poppe，A Survey on vision-based human action recognition，Image and Vision Coputing，2010：976-990.

[2] Bobick B， Davis J. The recognition of human movement using temporal templates. IEEE Transactions on Pattern Analysis and Machine Intelligence （PAMI）， 2001， 23（3）：257-267.

[3] Haoran Yi， Deepu Rajan， A new motion histogram to index motion content in video segments. Pattern Recognition Letters， 2005， 26：1221-1231.

[4] Yao-Hui Qin， Hong-Liang Li， Guang-Hui Liu， et al. Human action recognition using PEM histogram. In IEEE International Conference of Computational Problem-Solving （ICCP）， 2010， 323-325.

[5] Junsong Yuan， Zicheng Liu， Ying Wu. Discriminative video pattern search for efficient action detection. IEEE Trans. on Pattern Analysis and Machine Intelligence ，2011，9：1728-1743.

[6] Yu-Ting Chen and Chu-Song Chen， “Fast Human Detection Using a Novel Boosted”， IEEE Transactions on Image Processing， 2008，17：1452-1464.

[7] Navneet Dalal and Bill Triggs. Histograms of oriented gradients for human detection. In IEEE Conf.Computer Vision， Pattern Recognition （CVPR）， 2005， 1：886-893.

[8] Laptev I， Lindeberg T. Space-time interest points， In ICCV， 2003： 432-439.

[9] Dollár P， Rabaud V， Gottrell G， et al. Behavior Recognition via Sparse Spatio-Temporal Features， In VS-PETS 2005： 65-72.

[10] Nibles J C， Wang H， L. F.-F. Li. Unsupervised learning of human action categories using spatial-temporal words. In BMVC， 2008，79（3）：299-318.

[11] Blank M， Gorelick L， Shechtman E，et al.Actions as space-time shapes.ICCV，2005（2）：1395-1402.