基于中粒度模型的视频人体姿态估计

2018-05-15 01:31史青宣邸慧军陆耀田学东

自动化学报 2018年4期

史青宣邸慧军陆耀田学东

视频人体姿态估计是指获取给定视频中人体各部位在每帧图像中的位置及方向等信息的过程[1],是目前计算机视觉领域的研究热点,在行为识别[2]、人机交互[3]、视频理解[4−5]等领域均有广泛的应用.

近些年,基于部件模型[6],针对单帧图像的人体姿态估计展开了大量的研究并取得了卓有成效的进展[7−10],然而这些方法对人体四肢,尤其末端(手腕、肘、脚踝、膝盖)部位的估计结果还很不理想,直接运用到视频的人体姿态估计问题上并不能得到满意的结果.针对视频中的人体姿态估计,借助运动信息,在人体部件模型基础上添加时序一致性约束,将会得到更准确的估计结果.现有基于部件的视频人体姿态估计方法通常的做法是,为每帧图像生成各个人体部件的状态候选;然后,构建时空概率图模型,推理视频中每一时刻的人体姿态.根据实体在时域上的覆盖度,目前这类方法采用的模型可以分为细粒度模型和粗粒度模型两类.

第一类是细粒度模型.以人体部件(构成姿态序列的最小单位)为实体,在单帧人体空域部件模型(图1(a))基础上,添加部件的帧间时域联系,形成一个时空部件模型(图1(b)),实体在时域上只覆盖单帧图像,模型推理目的是为每帧图像中的人体各部件挑选符合时空约束的最优状态[11−16].由于人体姿态变化的多样性,人的体型、穿着、视角等变化,部件模型很难捕捉到所有的表观变化,而时域上只引入了相邻帧间的一致性约束,没有长时一致性的约束,易出现部件状态估计的误差累积.另外由于模型存在环路,无法获取精确解,近似推理也在一定程度上进一步降低估计的精度.

图1 现有视频人体姿态估计方法采用的模型Fig.1 The models used in video pose estimation

第二类是粗粒度模型.以人体部件的轨迹为实体,时空部件模型在时域上的依赖关系不复存在,实体在时域上覆盖整个视频,模型塌陷成为与单帧人体姿态估计相同的模型(图1(c)),模型中结点表示部件的轨迹,边表示部件轨迹间的约束关系,此时模型推理的目的是为每个人体部件挑选一个最优的轨迹来组装成最终的姿态序列[17−18].粗粒度模型在时域上可以添加长时一致性的约束,避免了误差累积的情况,而且模型简化,推理简单.然而,为人体部件生成合理优质的轨迹本身属于跟踪问题,对于人体四肢部位,尤其末端部位(比如腕部、踝部),极易出现表观的剧烈变化、遮挡、快速运动等情况,而这些都是跟踪的典型难题.

本文综合粗、细粒度模型的优点,从中粒度出发,以人体部件的轨迹片段为实体,构建时空模型,推理为每一人体部件选择最优的轨迹片段,通过拼接各部件的轨迹片段形成最终的人体姿态序列估计.模型中实体覆盖若干帧,方便添加长时的一致性约束,降低对部件模型的敏感度.为解决对称部件易混淆的问题,模型中添加对称部件间约束(如图2(a)),并从概念上将对称部件合并为一个结点(如图2(b)),通过该处理消除空域模型中的环路,同时保留对称部件间约束,最终模型如图2(c)所示.

环路的存在使得时空概率图模型的确切解不可得,通常只能通过近似推理,如循环置信度传播[11,19]、采样[20]变分[12]等手段来获取近似解.另外一类思路对原始环状图模型进行拆解,用一组树状子图来近似原始图模型[13−14,21].还有部分研究者采用分步优化的策略[15−16],首先不考虑空间约束,对检测最为稳定的部件(如头部)进行序列估计,再基于该序列估计,对其邻接部件进行优化,该过程一直到所有部件处理完成.本文将整个时空模型(图4(a))拆解为一组马尔科夫随机场(图4(b))和隐马尔科夫模型(图4(c)),分别负责空域和时域的解析,通过迭代的时域和空域交替解析,完成时空模型的近似推理.

图2 中粒度时空模型Fig.2 The medium granularity model

除推理算法外,部件候选集的质量直接影响最终姿态估计的结果.直接将单帧图像的前K个最优姿态检测作为候选[22−23],很难保证能够覆盖真实的姿态.为了生成更多可靠的姿态候选,常用的一个策略是引入局部运动信息对姿态检测结果进行传播[15−16,24−26].借助准确的运动信息,对优质的姿态检测结果进行传播,可以为相邻帧生成合理的姿态候选.然而当视频中存在快速运动或连续出现非常规人体姿态时,这种策略将会失效.1)快速运动易导致运动估计出现误差.图3给出了一个快速运动的例子,可以看出传统的运动估计算法(LDOF[27]、FarneBackOF[28])无法成功捕捉脚的快速运动.这使得即使在t帧有准确的检测,也无法通过传播为t+1帧生成合理的候选.2)当非常规姿态连续出现时,姿态检测器会在相邻的多帧图像中连续失败,没有好的姿态检测结果,即使有准确的帧间运动信息,也无法通过传播为这些帧生成好的候选.这时可借助长时运动信息将优质的检测结果传播到更远范围[29].然而,从图4给出的例子可以看出,传统的运动估计几乎无法避免误差累计与漂移.针对以上问题,本文引入全局运动信息[30−31]对姿态检测结果进行传播.全局运动信息可以给出前景长时一致的对应关系,较好地解决了快速运动造成的障碍,将优质的姿态检测结果稳定地传播,为更多的帧提供有效候选.

图3 不同方法的短时运动估计对比Fig.3 Short-term performances of different motion estimation approaches

图4 不同方法的长时运动估计对比Fig.4 Long-term performances of different motion estimation approaches

本文的主要贡献可以归纳如下:1)引入全局运动信息进行姿态检测的传播,克服局部运动信息的弊端,为后期推理提供更合理、优质的状态候选.2)构建中粒度模型,有效避免细粒度模型对部件模型敏感的缺点,同时便于添加长时的一致性约束.

1 问题描述

给定含有N帧的视频,本文通过三个主要步骤得到最终的姿态估计结果(图5).首先,用姿态检测器对每帧图像进行姿态检测;然后,借助全局运动信息,将每帧中的最优检测结果传播到整个视频,从而为每个人体部件生成N条轨迹,随即这些轨迹被切割成重叠的固定长度的轨迹片段,构成每个部件的轨迹片段候选集;最后,通过求解中粒度时空概率图模型的优化问题,获得符合时空一致性约束的最优轨迹片段,拼接融合各部件的最优轨迹片段形成最终的姿态估计序列.

第1.1节简要介绍单帧图像中进行姿态检测的混合部件模型[7],第1.2节描述轨迹片段候选的生成过程,第1.3节定义中粒度时空概率图模型.

1.1 单帧姿态检测

图5 基于中粒度模型的视频人体姿态估计方法示意图Fig.5 Overview of the video pose estimation method based on medium granularity model

用于单帧图像的人体姿态检测器将人体建模成一个包含M个结点的树状图模型G=(V,E),如图1(a)所示,其中结点对应人体的M个部件,边表示部件间的空间约束关系.人体的姿态可表示为所有部件的状态集合:X={x1,x2,···,xM},其中部件i的状态xi由图像中的坐标位置构成.给定图像I,对某一特定人体部件状态配置X可用式(1)进行评分:

这里φ(xi,I)为部件的观测项,用于计算部件i取状态xi时的图像区域特征与部件模板的匹配程度;ψ(xi,xj)评估两个相连人体部件i与j间的几何连接状况与人体模型对应结点间几何约束的匹配程度.所有部件的模板和部件间的几何约束模型均利用结构化SVM进行联合训练得到.

姿态检测问题则形式化为最大化S(I,X)问题.本文采用文献[7]的算法进行单帧图像的姿态检测,并采用文中方法对部件以及相连部件间空间约束进行建模,为描述简洁,公式中省略了部件类型相关的描述,具体细节可参考文献[7].

1.2 部件轨迹片段候选生成

本文采用分层弹性运动跟踪方法[31]对视频中的人体进行弹性运动跟踪[30],获取全局运动信息,并基于此信息,对每帧获得的人体姿态检测结果进行传播.全局运动信息给出的是目标在视频各帧的一个全局对应关系,给定某帧图像中一个点,通过该对应关系可以获取该点在其他帧的对应位置.因此,将第t帧的姿态检测结果X={x1,x2,···,xM}作为参考点集,通过全局运动信息,可获取该点集在视频各帧中的对应位置,由此得到各部件的一条轨迹.对所有N帧中的姿态检测结果实施该传播操作,为各部件生成N条轨迹候选.

在假设全局运动信息可信的前提下,t帧的姿态检测结果中xi越准确,传播xi所生成的轨迹质量越高,越是邻近xi的轨迹片段越可靠.拼接各部件的优质轨迹片段,将得到高精确度的姿态估计结果.基于此直观想法,本文将所有轨迹切割成重叠的固定长度的轨迹片段,构成各部件的轨迹片段候选,构建以部件轨迹片段为实体的中粒度时空模型,推理挑选出符合时空约束的最优轨迹片段.

1.3 中粒度模型

本文将视频的姿态估计问题建模成一个如图6(a)所示的时空概率图模型,其中结点对应人体部件轨迹片段,边表示轨迹片段间的空间几何约束以及时间上相邻片段的一致性约束,目的是为每个人体部件挑选出最优的轨迹片段.该问题可形式化为图模型的优化问题,由于该图模型存在环,受文献[14]启发,本文将时空模型分解为两个树状结构子图模型:马尔科夫随机场与隐马尔科夫模型,分别负责空域解析(如图6(b))和时域解析(如图6(c)).为保留对称部件间的约束关系,同时剔除空域模型中的环路,对称部件已合并,即原始的14个关节点的人体模型简化为8结点模型,为描述清晰,我们用单部件和组合部件对部件进行区分,其中单部件指头和颈两部件,组合部件指合并的对称部件即肩、肘、腕、胯、膝以及踝等6个部件.

图6 时空模型分解为空域子模型和时域子模型Fig.6 Sub-models of the full graphical model

1.3.1 马尔科夫随机场

子图模型马尔科夫随机场(图6(b))用于在每个视频分段内进行空域解析,我们用G=(VT,ET)来表示.表示在第t个视频分段Vt中的M个人体部件的轨迹片段配置,其中Tt∈T,T是各部件轨迹片段候选的任意组合.对特定轨迹片段配置Tt的评分可由下式完成:

其中,一元项计算部件轨迹片段与视频片段Vt的兼容性,以及在片段内时域上部件表观的一致性.当部件为组合部件时,在该一元项中还将添加对称部件间的评测.二元项评估两部件轨迹片段间的空域兼容性.

为了能使公式描述更清晰,用Q替换Vt,当部件i为单部件,用Si替换当部件i为组合部件,用Ci替换表示长度为F帧的视频片段Q中第f帧图像,表示部件i的轨迹片段在第f帧的状态.

对单部件,一元项定义为

其中,综合部件i的表观评分(式(1)中部件表观评分项)与前景覆盖度为权重因子,φg(Si)计算片段内部件i的表观时序一致性,用部件表观特征的方差与片段内最大位移的比值来衡量,定义为

其中,为部件i在图像qf中取状态时,所在的局部图像块归一化后的颜色直方图.

对组合部件,一元项定义为

其中,前两项分别为左右部件轨迹片段的表观评分,Φs(·)定义同式(3),Ci.l与Ci.r分别表示组合部件i的左右两个部分;第3项度量对称部件间的表观一致性,为对称部件间颜色直方图的Chi-square距离;第4项度量对称部件间距离,定义λ2与λ3为权重因子.评估原则为:轨迹片段的表观与部件模型越兼容,对称部件间颜色越一致、距离越远,得分越高.

二元项评估两部件轨迹片段间的空域兼容性.当邻接的两结点均为单部件时,二元项定义为

当邻接的两结点分别对应单部件与组合部件时,二元项定义为

当邻接的两结点均为组合部件时,二元项定义为

其中,ψp(·)评估两邻接部件的空域兼容性,定义同式(1)中的二元项.

1.3.2 隐马尔科夫模型

隐马尔科夫模型负责在候选集中挑选出符合时域一致性约束的轨迹片段.我们将整个视频分割为重叠的N个片段,用表示.任一部件i在整个视频上的轨迹片段配置用表示,并建模成为一个马尔科夫链.时域上的轨迹片段配置Ti的评分函数可以定义为

其中,一元项评估轨迹片段的表观评分以及与i结点的双亲结点pa(i)的空域兼容性,具体定义为

其中,定义同式 (2).二元项评估两邻接轨迹片段的时序一致性,本文利用轨迹片段重叠部分的距离来计算,假设两邻接轨迹片段分别为A和B,重叠m帧,则我们用计算A与B之间的距离.对单部件结点,二元项定义为

对组合部件结点,二元项定义为

其中,λ4与λ5为权重因子.

2 模型推理

给定所有人体部件在每一视频片段的轨迹片段候选,模型推理的目标是挑选符合时空约束的最优轨迹片段,即获取轨迹片段的最优配置.我们通过迭代的时空解析来实现.通过空域子模型上的解析,计算出所有轨迹片段的得分,筛选高分轨迹片段候选,构成时域解析的输入状态空间.依据时域解析结果再次对候选进行筛选,作为空域解析的输入进入下一次迭代.迭代解析过程从空域开始,原始输入状态空间由切割轨迹获取的轨迹片段构成.随着交替解析的进行,逐步缩减状态候选数量,一直到最后挑选出最优结果.最终的姿态序列由最优轨迹片段拼接融合得到.

在空域解析阶段,在第t个视频片段,为部件i选择轨迹片段候选a的评分定义为

由于空域子模型是树状结构,所有部件轨迹片段候选的评分可以通过消息传递算法求得.从部件i到其邻接部件j的消息定义为

由此,部件i的轨迹片段的评分可依据以下定义计算:

消息从叶子传递到根,再由根传递回叶子,一个循环即可求得所有轨迹片段的评分.

在时域解析阶段,由于子模型为链状结构,所有轨迹片段的评分同样可通过消息在马尔科夫链上的一个循环传递完成.时域模型上从t片段向t+1片段传递的消息定义为

时序反向传递的消息定义类似,由此,部件i的轨迹片段的评分可定义如下:

其中,(式(10))涉及结点i与其双亲结点间的空域兼容性评估,我们采用分步处理的策略来进行各部件的时域解析.从空域模型的根结点(头部)开始时域解析过程,由于头部是检测最为稳定的部件,首先,对其进行独立的时域解析;然后,基于头部的解析结果,计算其子结点的空域兼容项得分并对其进行时域解析,这个过程按空域模型结构一直到所有叶子结点推理完成.

迭代时空解析的算法如算法1所示.

3 实验

3.1 实验数据

本文在三个视频数据集上进行了实验.

UnusualPose视频数据集[12]:该视频集包含4段视频,存在大量的非常规人体姿态以及快速运动.

FYDP视频数据集[29]:由20个舞蹈视频构成,除个别视频外,大部分运动比较平滑.

Sub_Nbest视频数据集[22]:为方便与其他方法对比,本文按照对比算法中的挑选方法,只选用了文献[22]中给出的Walkstraight和Baseball两个视频.

3.2 评价机制及实验设置

本文采用目前常用的两个评价机制对实验结果进行分析.

PCK (Percentage of correct keypoints)[7]:PCK给出正确估计关键点(关节点部件的坐标位置)的百分比,这里的关键点,通常指的是人体的关节点(如头、颈、肩、肘、腕、胯、膝、踝,当一个关键点的估计位置落在真值α·max(h,w)像素范围内时,其估计被认为是准确的,这里的h,w分别是人体目标边界框的高和宽,α用于控制正确性判断的阈值.边界框由人体关节点真值的最紧外包矩形框界定,根据姿态估计对象为整个人体或上半身人体,α值设为0.1或0.2.

PCP(Percentage of correct limb parts)[11]:PCP是目前应用非常广泛的姿态估计的评价机制,它计算的是人体部件的正确评估百分比,与关节点不同,这里的人体部件是指两相邻关节点连接所对应的人体部位(比如上臂、前臂、大腿、小腿、躯干、头部).当一个人体部件两端对应的关节点均落在端点连线长度的50%范围内时,该部件的估计被认为是正确的.

实验中,视频分段的长度为7帧,邻接片段重叠3帧,模型推理通过一次迭代完成.通过表观评分挑选前20个轨迹片段构成最初输入空域解析的状态空间,经空域推理为每个部件挑选最优的3个假设构成时域解析的输入,并通过时域推理得到最优的估计,最终的姿态序列由轨迹片段的拼接融合得到.

3.3 算法有效性分析

本文提出的人体姿态估计方法,主要包括三个关键处理策略:1)采用全局运动信息对姿态检测结果进行传播;2)构建中粒度模型,以部件轨迹片段为推理实体;3)对称部件合并,以简化空域模型结构同时保留对称部件间约束.为验证这三个关键处理策略的有效性,本文设置了4组对比实验,每组实验改变其中一个处理策略,实验的设置如下.

实验1.用局部运动信息对姿态检测结果进行长时传播,构建中粒度模型,模型中添加对称部件间约束.

实验2.用全局运动信息对姿态检测结果进行长时传播,构建小粒度模型,推理每帧中每一部件的状态,模型中添加对称部件间约束.

实验3.用全局运动信息对姿态检测结果进行长时传播,构建大粒度模型,推理每一部件的轨迹状态,模型中添加对称部件间约束.

实验4.用全局运动信息对姿态检测结果进行长时传播,构建中粒度模型,模型中只保留连接部件间空间约束关系,不添加对称部件间约束.

所有算法在UnusualPose视频数据集上进行了对比,结果如图7所示,其中“局部运动信息”、“细粒度模型”、“粗粒度模型”和“无对称”分别对应实验1∼4.可以看出,对本文方法的三个关键处理策略的替换,都导致了估计精度不同程度的下降.综合来看,本文方法的三个处理策略有效提高了视频中姿态估计的准确率.

图7 算法关键策略有效性测试结果Fig.7 Examination of key modules

3.4 与其他算法对比

本文与 Nbest[22]、UVA[29]、SYM[15]、HPEV[18]以及PE_GM[12]共5个视频人体姿态估计方法进行了实验对比.由于SYM与HPEV方法的代码无法获取,在UnusualPose视频数据集上,本文只对比了Nbest、UVA 和PE_GM三种方法.在FYDP视频集和Sub_Nbest视频集上,我们直接引用文献中提供的数据结果进行对比.

人体四肢在表达姿态中起着至关重要的作用,也是在评估姿态估计算法性能时最为关注的地方.由表1可以看出,在UnusualPose视频集上,对比其他视频姿态估计方法,本文方法在四肢关节点上的PCK精度最高,体现了本文方法在应对非常规人体姿态和快速运动等难题时的优势.从表2可以看出,在FYDP数据集上,本文方法得到了最高的平均PCK得分.表3显示本文方法在Sub_Nbest视频集上的PCP值与PE_GM方法综合性能相当,均优于其他视频姿态估计方法,需要注意的是PE_GM方法采用与本文相同的全局运动信息对检测结果进行传播,候选质量与本文相同,进一步证明采用全局运动信息对姿态检测结果进行传播的有效性.不同在于PE_GM方法采用细粒度模型,通过选取姿态检测结果最优的关键帧启动其推理过程,其最终的检测结果高度依赖其选取的启动帧,而本文方法无需选取启动帧,不受初始选取的限制.综合来看,本文提出的算法具有一定的优越性.

表1 UnusualPose视频集上的PCK评分对比Table 1 PCK on UnusualPose dataset

表2 FYDP视频集上的PCK评分对比Table 2 PCK on FYDP dataset

表3 Sub_Nbest视频集上的PCP评分对比Table 3 PCP on Sub_Nbest dataset

除了以上定量实验结果外,我们还在图8中展示了不同方法在UnusualPose视频集上的姿态估计结果.我们为每段视频选取一帧,并用骨架结构展示姿态估计的结果,相比较可以看出,本文给出的姿态估计结果更符合真实的人体姿态.图9与图10分别展示了本文方法在FYDP视频集和Sub_Nbest视频集上的部分姿态估计结果.

图8 UnusualPose数据集上的实验结果对比Fig.8 Qualitative comparison on UnusualPose dataset

图9 FYDP数据集上的实验结果Fig.9 Sample results on FYDP dataset

4 结论

本文提出了一种用于视频人体姿态估计的中粒度模型,该模型以人体部件的轨迹片断为实体构建时空模型,采用迭代的时域和空域解析进行模型推理,目标是为各人体部件挑选最优的轨迹片断,以拼接组成最后的人体姿态序列.为生成高质量的轨迹片段候选,本文借助全局运动信息对姿态检测结果进行时域传播,克服了局部运动信息的不足.为解决对称部件易混淆的问题,模型中添加对称部件间约束,提高了对称部件的检测准确率.算法有效性分析实验表明本文中采用中粒度模型,通过全局运动信息进行姿态的传播以及在对称部件间添加约束等三个策略均对姿态估计的准确率提高有不同程度的贡献.与其他主流视频姿态估计方法在三个数据集上的对比实验结果显示了本文方法的优势.

图10 Sub_Nbest数据集上的实验结果Fig.10 Sample results on Sub_Nbest dataset

References

1 Li Yi,Sun Zheng-Xing,Chen Song-Le,Li Qian.3D Human pose analysis from monocular video by simulated annealed particle swarm optimization.Acta Automatica Sinica,2012,38(5):732−741(李毅,孙正兴,陈松乐,李骞.基于退火粒子群优化的单目视频人体姿态分析方法.自动化学报,2012,38(5):732−741)

2 Zhu Yu,Zhao Jiang-Kun,Wang Yi-Ning,Zheng Bing-Bing.A review of human action recognition based on deep learning.Acta Automatica Sinica,2016,42(6):848−857(朱煜,赵江坤,王逸宁,郑兵兵.基于深度学习的人体行为识别算法综述.自动化学报,2016,42(6):848−857)

3 Shotton J,Girshick R,Fitzgibbon A,Sharp T,Cook M,Finocchio M,Moore R,Kohli P,Criminisi A,Kipman A,Blake A.Efficient human pose estimation from single depth images.IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(12):2821−2840

4 Cristani M,Raghavendra R,del Bue A,Murino V.Human behavior analysis in video surveillance:a social signal processing perspective.Neurocomputing,2013,100:86−97

5 Wang L M,Qiao Y,Tang X O.Video action detection with relational dynamic-poselets.In:Proceedings of the European Conference on Computer Vision.Zurich,Switzerland:Springer,2014.565−580

6 Felzenszwalb P F,Huttenlocher D P.Pictorial structures for object recognition.International Journal of Computer Vision,2005,61(1):55−79

7 Yang Y,Ramanan D.Articulated human detection with flexible mixtures of parts.IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(12):2878−2890

8 Sapp B,Jordan C,Taskar B.Adaptive pose priors for pictorial structures.In:Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition.San Francisco,CA,USA:IEEE,2010.422−429

9 Andriluka M,Roth S,Schiele B.Pictorial structures revisited:people detection and articulated pose estimation.In:Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition.Miami,FL,USA:IEEE,2009.1014−1021

10 Eichner M,Marin-Jimenez M,Zisserman A,Ferrari V.2D articulated human pose estimation and retrieval in(almost)unconstrained still images.International Journal of Computer Vision,2012,99(2):190−214

11 Ferrari V,Marin-Jimenez M,Zisserman A.Progressive search space reduction for human pose estimation.In:Proceedings of the 2008 IEEE Conference on Computer Vision and Pattern Recognition.Anchorage,AK,USA:IEEE,2008.1−8

12 Shi Q X,Di H J,Lu Y,Lü F.Human pose estimation with global motion cues.In:Proceedings of the 2015 IEEE International Conference on Image Processing.Quebec,Canada:IEEE,2015.442−446

13 Sapp B,Toshev A,Taskar B.Cascaded models for articulated pose estimation.In:Proceedings of the Eeuropean Conference on Computer Vision.Heraklion,Greece:Springer,2010.406−420

14 Zhao L,Gao X B,Tao D C,Li X L.Tracking human pose using max-margin Markov models.IEEE Transactions on Image Processing,2015,24(12):5274−5287

15 Ramakrishna V,Kanade T,Sheikh Y.Tracking human pose by tracking symmetric parts.In:Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition.Portland,OR,USA:IEEE,2013.3728−3735

16 Cherian A,Mairal J,Alahari K,Schmid C.Mixing bodypart sequences for human pose estimation.In:Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition.Columbus,OH,USA:IEEE,2014.2361−2368

17 Tokola R,Choi W,Savarese S.Breaking the chain:liberation from the temporal Markov assumption for tracking human poses.In:Proceedings of the 2013 IEEE International Conference on Computer Vision.Sydney,Australia:IEEE,2013.2424−2431

18 Zhang D,Shah M.Human pose estimation in videos.In:Proceedings of the 2015 IEEE International Conference on Computer Vision.Santiago,Chile:IEEE,2015.2012−2020

19 Sigal L,Bhatia S,Roth S,Black M J,Isard M.Tracking loose-limbed people.In:Proceedings of the 2004 IEEE Conference on Computer Vision and Pattern Recognition.Washington,D.C.,USA:IEEE,2004.421−428

20 Sminchisescu C,Triggs B.Estimating articulated human motion with covariance scaled sampling.The International Journal of Robotics Research,2003,22(6):371−391

21 Weiss D,Sapp B,Taskar B.Sidestepping intractable inference with structured ensemble cascades.In:Proceedings of the 23rd International Conference on Neural Information Processing Systems.Vancouver,Canada:MIT Press,2010.2415−2423

22 Park D,Ramanan D.N-best maximal decoders for part models.In:Proceedings of the 2011 IEEE International Conference on Computer Vision.Barcelona,Spain:IEEE,2011.2627−2634

23 Wang C Y,Wang Y Z,Yuille A L.An approach to posebased action recognition.In:Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition.Portland,OR,USA:IEEE,2013.915−922

24 ZuffiS,Romero J,Schmid C,Black M J.Estimating human pose with flowing puppets.In:Proceedings of the 2013 IEEE International Conference on Computer Vision.Sydney,Australia:IEEE,2013.3312−3319

25 Sapp B,Weiss D,Taskar B.Parsing human motion with stretchable models.In:Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition.Colorado Springs,CO,USA:IEEE,2011.1281−1288

26 Fragkiadaki K,Hu H,Shi J B.Pose from flow and flow from pose.In:Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition.Portland,OR,USA:IEEE,2013.2059−2066

27 Brox T,Malik J.Large displacement optical flow:descriptor matching in variational motion estimation.IEEE Transactions on Pattern Recognition and Machine Intelligence,2011,33(3):500−513

28 Wang H,Klaser A,Schmid C,Liu C L.Action recognition by dense trajectories.In:Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition.Washington,D.C.,USA:IEEE,2011.3169−3176

29 Shen H Q,Yu S I,Yang Y,Meng D Y,Hauptmann A.Unsupervised video adaptation for parsing human motion.In:Proceedings of the European Conference on Computer Vision.Zurich,Switzerland:Springer,2014.347−360

30 Di H J,Tao L M,Xu G Y.A mixture of transformed hidden Markov models for elastic motion estimation.IEEE Transactions on Pattern Analysis and Machine Intelligence,2009,31(10):1817−1830

31 LFeng,Di Hui-Jun,Lu Yao,Xu Guang-You.Non-rigid tracking method based on layered elastic motion analysis.Acta Automatica Sinica,2015,41(2):295−303(吕峰,邸慧军,陆耀,徐光祐.基于分层弹性运动分析的非刚体跟踪方法.自动化学报,2015,41(2):295−303)