基于归一化R变换分层模型的人体行为识别

2013-09-08 10:18欧阳寒王宗祺
计算机工程与设计 2013年6期
关键词:识别率类别姿态

欧阳寒,范 勇,高 琳,王宗祺

(西南科技大学 计算机科学与技术学院,四川 绵阳621010)

0 引 言

人体行为识别在视频监控、基于内容的视频检索、体育赛事分析、人机交互和虚拟现实技术等领域具有广泛的应用价值,已经成为计算机视觉中的热点研究领域。人体行为识别,通常被简化成一个时变数据的分类问题,包括行为描述和行为分类识别两大部分。

虽然广泛的应用前景和潜在的经济价值已促进人体行为分析的描述方法和识别算法的快速发展,但人体行为种类繁多、复杂多变,单独采用某一形状特征或者运动特征表征人体行为都存在不足,故出现了利用多种特征进行人体行为表征的方法。然而目前人体行为识别都是对选取的特征结合相应的识别方法一步得到识别结果,所以人体行为的多特征描述方法往往只是多种特征的直接合并,这种方法虽然能提高人体行为的识别率,但一方面会导致维数急剧增加,使得识别的速度大幅度地降低,进而需要进行降维处理;另一方面,特征融合会削弱单一特征的区分性能。由于识别结果由所有特征共同决定,故某一特征对特定几种行为的区分能力,会因其他特征的相似性被削弱。

为了保留多特征的鉴别能力和区分能力,同时不增加特征维度。本文借鉴人们对事物识别和理解的一般分析过程 (即由粗到细、由主要特征到细节特征),在分析和总结以往行为识别方法、行为分层模型和具体研究的基础上,提出了一种基于多特征的先划分再识别的人体行为识别分层模型。

1 人体行为分层识别方法

人体行为特征的选取和表征是人体行为理解和识别中至关重要的一步。为了利用多特征的鉴别能力和区分能力,同时避免因融合多特征导致的特征维数增加。本文提出了一种人体行为分层识别模型,第一层依据单一特征快速确定出行为的类别划分,第二层则针对不同行为划分选取不同特征 (组合)实现行为类型识别。这种分而治之的分层识别方法降低了行为特征的维数,在一定程度上解决了行为识别复杂度较高的问题,其次,通过分层搜索,可以根据不同行为类型划分,自适应选择最佳描述特征,进而提高识别的准确性。

考虑到不同的人执行相同动作,其速度和组成动作的各个姿态可能存在差异性,而动作的发生区域大体是一致的。经过权衡计算复杂度和模型精确度,本文第一层选取描述了运动发生区域的运动能量图像 (MEI)[1]作为特征,另外,由于存在因视角改变造成的位置和尺度变化或不同人之间自身的尺度差异,选取了具有平移和尺度不变性且对噪声不敏感的归一化R变换对MEI进行表征。第二层确定行为的具体所属类别时,则选取了比运动全局特征MEI更能体现细节特征的关键姿态作为特征,利用宽比和高比特征以及星状模型[2-3]进行行为表征,方法框架如图1所示。

图1 人体行为分层识别方法

2 特征选取与表征

2.1 运动能量图像

运动能量图像 (motion energy image,MEI)是动作序列中相邻两帧的累积差分图像,标识了运动发生区域,其定义[1]如下

其中,D(x,y,t-i)是相邻两帧中坐标为 (x,y)的像素值的累计差分。设I(x,y,t)是t时刻的二值轮廓图像中坐标为 (x,y)的像素值,D(x,y,t-i)的定义[1]如下

运动能量图像保留了2D人体模型易获取且对纹理变化不敏感的优势,同时,弥补了运动信息缺失导致误识别的不足。

2.2 归一化R变换

获取底层特征后,需有一种充分有效的方法对其表征用以进行后续的行为训练和分类识别。本文选择了具有平移、尺度不变性的归一化R变换——一种改进的Radon变换。

2.2.1 Radon变换

对离散的二值图像进行Radon变换,其原理是将原始图像通过线积分的形式变换到另外一对参数域内,投射成一个R矩阵。设I(x,y)是一个图像,其Radon变换定义为

其中θ∈ [0,π],ρ∈ [-∞,∞],δ(·)是狄拉克delta冲激函数,定义如式 (4)

Radon变换虽然计算简单且对噪声不敏感,但会因图像I(x,y)的尺度改变引起Radon变换幅度的线性变化和沿ρ方向的缩放变换,会因平移引起沿ρ方向的平移,如图2第二行第一列所示。

对此,文献 [4]提出了一种改进Radon变换——R变换,其定义为

R变换具备了平移不变性,对于尺度变化,仅能引起振幅变化,而不会导致形状变化,如图2第二行第二列所示。

图2 Radon变换、R变换和归一化R变换的不变性

2.2.2 归一化R变换

为使特征同时具有平移不变性和尺度不变性,文献[5]使用了基于Radon变换的多尺度不变特征[6],定义为

即使预先不进行位置和尺度规范化的图像,其多尺度特征TR(θ|t)也具有平移不变性和尺度不变形,但尺度变换因子t的选取需要大量的实验总结,而且图像的起始点通常是未知的,这会导致特征TR(θ|t)的循环平移,以致于后续的匹配过程需要处理特征TR(θ|t)的平移,计算比较复杂。鉴于此,本文直接对具有平移不变性的R变换R(θ)进行归一化处理如式 (7),使其同时具备尺度不变性

由Radon变换 (式 (3))和R变换 (式 (5))定义可以看出,归一化特征RN(θ)是由积分操作得到,其计算简单,且对噪声、尺度和平移等操作引起的畸变具有良好的适应性,即提取的特征具有良好的鲁棒性 (如图2第二行第三列所示)。

3 人体行为分层识别方法的实现

基于归一化R变换的分层人体行为识别算法分为行为训练和行为识别两部分,均由划分大类和确定具体类别两层构成 (见图1),实现方案如图3所示。训练阶段,依据MEI的归一化R变换完成行为的第一层大类划分,然后分别确定划分出的各行为类别的描述和分类方法。识别阶段,第一层利用欧式距离法确定行为的所属划分类别,第二层则依据该类别在训练阶段制定的行为描述和分类方法进行最终的行为识别。

图3 算法流程

算法描述如下:

步骤1 对行为训练集S= {S1,S2,S3,…,Sn}中的行为Si,逐帧提取其人体姿态二值轮廓,其中,行为Si= {K1,K2,K3,…,Km},Kj为组成行为 Si的各帧图像;

步骤2 计算行为Si的运动能量图像Ei;提取行为Si的关键姿态对 (Ki1,Ki2),Ki1为运动幅度最小的视频帧,Ki2为运动幅度最大的视频帧;

步骤3 计算运动能量图像Ei的归一化R变换曲线Ri;计算Ki2的星状模型STi以及Ki1和Ki2的宽度比和高度比;

步骤4 若行为集S未处理完,则转步骤1;否则,转步骤5;

步骤5 利用K-Means对行为的归一化R变换集R={R1,R2,R3,…,Rn}进行聚类,依据聚类中心集RN,对行为S进行大类划分,得到的各划分类为Ci;

步骤6 对各类Ci分别选取适合行为描述并确定相应的分类识别方法,对具体类别的识别进行分而治之;

步骤7 对于查询行为Sq= {K1,K2,K3,…,Km},处理步骤同步骤1—步骤3;

步骤8 根据训练得到的RN,利用欧式距离法确定查询行为Sq的归一化R变换曲线的类别Ci;

步骤9 将查询行为Sq以Ci类别的描述方式进行表征;

步骤10 根据训练阶段确定的Ci类别的分类识别方法,确定查询行为Sq的具体所属类别。

4 实验结果与分析

本文采用留一交叉验证法对Weizmann人体行为数据库[7]中的10种行为进行实验,每个动作均由9个人分别单独完成,其中Lena分别演示了向左和向右两种走、跑和单脚向前跳跃,共有93组数据。

训练阶段,首先计算所有行为MEI的归一化R变换曲线,再利用K-Means对其进行聚类 (K值为6),依据聚类中心,将行为划分为3大类,第一类包括bend、jack和pjump,第二类仅有wave1,剩下的6类则组成第三类。接着,分别确定第一类和第三类的行为描述和行为识别方法。第一类中三种行为有较明显的差异,选用了算法Step2的关键姿态对 (Ki1,Ki2)的宽比和高比特征对其进行描述,并利用经验阈值 (当Ki1和Ki2的宽度比小于1.55且高度比在区间 [1.85,1.2]中时,识别为行为pjump;宽度比在区间 [1.5,2.5]且高度比在区间 [0,0.75]中时,为行为Bend;宽度比在区间 [1.5,2.5]且高度比在区间[0,0.75]中时,为行为bend;宽度比大于2.5时,为行为jack)识别各行为;第三类中的walk、run、side和skip四种行为较相似,故选取的特征是区分性更强的人体星状模型,最后利用模板匹配进行行为识别。识别阶段首先确定查询行为的所属大类别,再根据相应类别的行为描述和行为识别方法确定行为的最终类型。

本文算法对所有行为直接计算其MEI,避免了因图像尺度、位置归一导致识别率降低。另一方面,归一化R变换特征对噪声和尺度、平移等变化具有良好的鲁棒性,会将具有尺度和平移关系的MEI定义为同一类,否则划分为另一类。强调的是运动的整个过程而非某一时刻的姿态,故对关键姿态较相似的行为 (如站立不动和pjump,walk和run以及jack等)也能取得较高识别率;对关键姿态差异较大但MEI形状具有尺度和平移关系的行为 (如bend和pjump),将划分成同一类,提高了第二层利用关键姿态进行行为识别的准确率;但对于MEI形状相似且关键姿态相似的行为 (如jump和run),会出现误识别。图4为本算法的识别结果,平均识别率达92.47%。与同样采用留一交叉验证法对Weizmann人体行为数据库进行实验的其他方法的识别率的比较,见表1。

表1 不同方法对Weizmann人体行为的识别率比较

图4 本文算法对Weizmann行为识别的混淆矩阵

为了进一步验证该分层模型简单有效,采用留一交叉验证法对ViHaSi[10]人体行为数据库中的9种行为进行实验,选取的是6号摄像头拍摄的各行为侧影轮廓。这9种行 为 是: 向 后 滑 倒 (collapse)、投 掷 (granade)、跑(run)、拳 击 (punch)、悬 挂 (hangOnBar)、砸 碎 (heroSmash)、跳下去 (jumpFromObject)、跳过去 (jumpOver-Object)、被击打后自旋跌 倒 (knockOutSpin),分别由Gaulix1、 Gaulix2、 Humanoid1、 Humanoid2、 Man3、Man4、MiaWom、Player、Wom1和Wom2十人单独完成,共90组数据。训练阶段,依据对行为MEI的归一化R变换的K-Means聚类结果,将行为划分为6类,第一类包括granade、heroSmash、punch和run,其余行为各为一类。识别阶段,首先计算查询行为的MEI,利用欧式距离度量该MEI的归一化R变换与各划分类别的训练中心的相似度,若与第一大类最相似,则需进行第二层识别,即使用人体星状模型进行行为描述,利用模板匹配进行行为识别;否则,与之相似度最高的类别即为该行为的所属类别。识别结果如图5所示,平均识别率达96.67%。

图5 本文算法对ViHaSi行为识别的混淆矩阵

5 结束语

本文提出基于归一化R变换分层模型的人体行为识别。第一层依据MEI的归一化R变换将行为划分为多类,第二层对各类行为使用不同的行为描述和识别方法进行识别,实现分而治之。本文第二层分别使用标识了运动部位和运动幅度的关键姿态的星状模型以及宽比和高比特征确定各类行为的识别结果。实验结果表明,该行为识别分层模型简单有效。

目前第二层各划分类别的描述和识别方法是依赖经验、人为确定的。根据组成各划分类别的行为,自适应选择相应的行为描述和识别方法,是下一阶段的主要工作。

[1]Eweiwi A.Temporal key poses for human action recognition[C]//IEEE International Conference on Computer Vision Workshops. Barcelona:IEEE Computer Society, 2011:1310-1317.

[2]CHEN H S.Human action recognition using star skeleton[C]//Proceedings of the 4th ACM International Workshop on Video Surveillance and Sensor networks.ACM:Santa Barbara,California,USA.2006:171-178.

[3]CHUANG C H.Human action recognition using star templates and delaunay triangulation [C]//International Conference on Intelligent Information Hiding and Multimedia Signal Processing.Harbin:IEEE Computer Society,2008:179-182.

[4]YING W,Kaiqi H,Tieniu T.Human activity recognition based on R transform [C]//IEEE Conference on Computer Vision and Pattern Recognition.Minneapolis:IEEE Computer Society,2007:1-8.

[5]YIN Yong,ZHANG Jing,WANG Jiandong.Human activity recognition based on improved Radon transforms [J].Compute Engineering and Applications,2012.48 (11):196-200 (in Chinese).[印勇,张晶,王建东.人体行为识别的改进Radon变换方法 [J].计算机工程与应用,2012.48 (11):196-200.]

[6]LV Yuzeng.Affine invariant feature extraction and recognition of shapes [D].Changsha:National University of Defense Technology,2008 (in Chinese).[吕玉增,形状仿射不变特征提取与识别研究 [D].长沙:国防科学技术大学,2008.]

[7]Cheema S.Action recognition by learning discriminative key poses [C]//IEEE International Conference on Computer Vision Workshops. Barcelona:IEEE Computer Society, 2011:1302-1309.

[8]Niebles J C,LI F F.A hierarchical model of shape and appearance for human action classification [C]//IEEE Conference on Computer Vision and Pattern Recognition.Minneapolis:IEEE Computer Society,2007:1-8.

[9]YAN C,QIANG W,Xiangjian H.Human action recognition by radon transform [C]//IEEE International Conference on Data Mining Workshops.Pisa:IEEE Computer Society,2008:862-868.

[10]Martinez Contreras F.Recognizing human actions using silhouettebased HMM [C]//IEEE International Conference on Advanced Video and Signal Based Surveillance.Genova:IEEE Computer Society,2009:43-48.

猜你喜欢
识别率类别姿态
攀爬的姿态
基于真耳分析的助听器配戴者言语可懂度指数与言语识别率的关系
听力正常青年人的低通滤波言语测试研究*
全新一代宋的新姿态
跑与走的姿态
提升高速公路MTC二次抓拍车牌识别率方案研究
壮字喃字同形字的三种类别及简要分析
西夏刻本中小装饰的类别及流变
高速公路机电日常维护中车牌识别率分析系统的应用
多类别复合资源的空间匹配