石祥滨,朱燕梅,代 钦,刘 芳
(沈阳航空航天大学计算机学院,沈阳110136)
在人体运动捕获中,为了更加方便、准确、高效的提取人体的姿态,通常要在人体的关节上佩戴标记,通过识别和跟踪标记提取人体的运动姿态。标记跟踪首先利用标记的特征识别出标记在图像中的位置,然后记录标记在图像序列中的运动轨迹。针对人体运动捕获方法中的标记的识别和跟踪问题,近几年来许多的学者做了相关的研究[1-8],并取得了一定的研究成果。其中,文献[2]中,分别在人体的四肢上佩戴不同颜色的标记,根据标记的颜色特征识别标记,然后参考标记在空间中的运动速度实现标记的跟踪。文献[3]中,在人体上佩戴光学标记,用卡尔曼滤波方法跟踪标记,结合关节点之间的关系预测被遮挡的标记的坐标。文献[4]中,表演者需要穿紧身衣,且紧身衣上贴有不同颜色的色块标记,通过识别色块的颜色特征识别标记位置,极限约束指导标记的跟踪。文献[7]中,将具有可区分的颜色特征的标记附在人体关节处,利用YCrCb颜色特征识别标记,kalman指导跟踪,跟踪过程中操作者需要手动指导跟踪,不能够实现系统的全自动,且手动标注标记的位置准确度不高。上述方法均采用标记的颜色或者亮度信息识别标记,采用标记的运动速度和方向特征跟踪标记。对简单的人体运动都能够很好的实现标记的跟踪,但当标记被身体其他部位遮挡,或者是多个标记重合的时候,会出现跟踪错误的现象。因此,在人体标记跟踪过程中,正确的解决标记的遮挡一直是一个难题。
分析人体标记容易出现遮挡且遮挡后不易预测的原因,总结如下:①人体动作的灵活性强,所能做出的姿态众多,在运动过程中很容易出现遮挡的情况;②人体标记特征相似,当两个或多个标记出现重叠,然后分开时,容易跟踪错误;③人体关节点的运动轨迹非线性,不能按照常规的处理线性运动的物体的方法处理该问题;④人体关节的运动速度不恒定,当标记出现遮挡时,很难利用简单的速度或者加速度来处理人体标记的跟踪。
综上所述,面对这些跟踪难题,要实现对遮挡标记完全正确的跟踪是不现实的。不过,可以通过改善一些跟踪方法或者适当的加入一些约束来使得标记的跟踪与实际标记的运动轨迹更加接近。国内外的一些人体运动捕获系统中处理标记遮挡的方法多种多样,比较常用的方法有以下几种。
在文献[2]中,Ukida H、Kaji S等人提出:在人体的众多姿态中,颜色标记容易被身体的其他部分遮挡,在这种情况下,人体标记的位置就不能够准确的提取出来,提出使用前一时刻标记的位置及其之前的标记的位置来预测该时刻被遮挡的标记的位置。在文献[3]中,Aristidou A、Cameron J等人提出了一种实时的估计被遮挡的标记点的位置的方法。该方法利用了前一时刻的标记的位置信息,并假设人体的各个关节是刚体,标记分布在人体的各个肢段上,肢段上标记的相对距离是基本固定。因此,被遮挡标记点的相邻标记点为该标记点的预测提供了很多有效的信息,利用相邻标记和遮挡标记的位置关系预测遮挡标记位置。在文献[4]中,罗忠祥、庄越挺等人在处理遮挡标记时采用卡尔曼滤波的预测机制来预测标记点的大概位置,将预测结果作为特征跟踪的结果。在文献[5]中,朱强、庄越挺等人结合人体解剖学中的各种约束和标记的亮度信息来解决标记点的遮挡问题。在文献[6]中,Ofli F、Demir Y等人采用人工参与标记点跟踪的方法,当标记出现遮挡时,操作者将手动纠正标记点的跟踪。
上面所提到的几种方法存在以下几个问题:①手动参与标记跟踪,能够正确的跟踪标记,但是系统的自动化程度低;②人体骨骼长度以及人体解剖学的约束是用在空间标记点上的,在二维标记点跟踪上没有相应的约束;③简单的采用标记点的速度和方向信息来预测遮挡标记点,预测的点没有任何约束,无法保证跟踪的正确率。
为了避免标记跟踪过程中的人工参与以及提高标记跟踪的正确率,本文通过分析人体运动的特征,统计出人体的一些在同一个区域,且没有太大的相对运动的标记点,可以通过跟踪区域约束标记的跟踪。因为区域跟踪[9-11]的优点在于其含有的信息量比较大,当标记出现遮挡时,区域能够提供更多的信息指导标记的跟踪,同时能够保证区域内的标记一直在区域中。因此,本文提出了一种结合人体标记跟踪的方法,该方法充分结合了人体区域的特征,将人体划分出三个区域,并结合区域的位置信息和提取的标记点的位置信息实现对标记的跟踪。
本文采用的人体标记为红色的色块,将红色标记缠绕在人体关节处,利用标记的颜色特征来识别标记的位置。结合初始化的人体姿态和提取的标记中心点的坐标完成人体结构模型的初始化。采用棍状人体模型,其中每根棍代表一个关节,结点代表人体关节点,本文采用的棍状模型中共有15个关节点,如图1所示。
图1 人体棍状模型
通过观察人体模型和人体的运动特征将人体划分出三个区域:区域一(头部)只有一个标记,且头部在人体的运动过程中相对独立,容易识别;区域二和区域三中各含有三个标记,这三个标记在人体运动的过程中,相对运动较小,且整个区域面积较大,容易跟踪。具体的划分如图2所示,三个区域占据了人体的大部分面积,包含了7个标记。
图2 区域划分
统计出每一个标记区域的X方向的最大值和最小值:Ximin,Ximax,Y方向的最小值和最大值:Yimin,Yimax,通过上面四个参数,可以求出区域的高和宽 hx=Ximax- Ximin,hy=Yimax- Yimin,中心点(Xcore,Ycore)=((Xmax+Xmin)/2(Ymax+Ymin)/2)。
在区域跟踪过程中,为了减少图像中的背景对区域跟踪的影响,通过简单的背景减除法,去除视频图像中无关的背景,被保留下来的背景像素可以作为背景上下文信息指导区域的跟踪,处理过程如图3所示。
图3 简单背景减除
(1)区域模板在图像中的搜索范围的确定。本文主要解决的是人体弯腰程度不大的标记点的遮挡问题,因此可以认为区域中心点从上到下的排列顺序是不变的。在区域搜索时,根据各个区域的区域中心点来限定搜索范围,具体的搜索范围为:
1)区域一的中心点的纵坐标(这里假设二维坐标的原点在图像的左下角,横坐标和纵坐标轴的正方向分别是向上和向右)不会低于区域二的中心点纵坐标,区域二的坐标可以用(Ti-1,2·Xcore,Ti-1,2·Ycore)来表示;
2)区域三的中心点的纵坐标小于区域二的中心点的纵坐标;
3)区域二的中心点的纵坐标小于区域一的中心点纵坐标,且大于区域三的中心点的纵坐标。
区域一、区域二和区域三的横向搜索范围均可以大概设定,尽量比预测的范围大,设置为对应的区域宽的两倍。
(2)在设定的搜索区域范围内按照迭代的方式进行搜索,模板T,搜索区域C,搜索的具体步骤为:
1)初始化模板搜索的步长为λ=3;
2)t-1时刻区域对应的模板T,区域中心点(x0,y0),选取t时刻图像的搜索区域中的五个子区域进行一一匹配。五个子区域的高、宽与模板T相同,区域的中心点分别为(x0,y0)(x0±λ,y0)(x0,y0±λ)。利用归一化相关系数(Normalized Cross Correlation NCC)的方法评估模板和候选区域的匹配程度,如式(1)所示。
其中T为模板,Ci为候选区域,hx,hy分别为模板的宽和高。
3)选择其中一个对应NCC值最大的候选区域 Cmax,区域的中心点位置为(xmax,ymax),令(x,y)=(xmax,ymax)。
4)若(x,y)≠(x0,y0),则将(x0,y0)=(x,y),继续执行步骤(b);否则(x,y)=(x0,y0),如果λ≠0,λ=λ-1,继续执行步骤(b);如果λ=0,表明可能已经找到了目标区域,则对模板进行尺寸缩放和更新操作。
(3)模板的尺寸缩放。在目标运动的过程中,同一个运动目标在距离摄像头近的情况下,目标在图像中占的比例大。相反,距离摄像头远,则目标在图像中所占的比例小。所以,在人体运动的图像序列中考虑到同一区域在图像中所占的面积不同,要对模板的尺寸做微小的调整。本文针对没有其他物体遮挡的人体标记的跟踪,因此,不会出现区域完全被遮挡的情况,区域尺寸的变化是连续的。模板匹配的候选区域大小可作hx±2%,hy±2%的细微调整,同时将模板T的大小相对于候选区域做同样的调整。计算出调整后的模板和候选区域的最大NCC,将该值和模板调整前的最大NCC比较,选择具有最大NCC的模板大小作为该时刻模板的尺寸。
(4)模板更新。模板更新的目的是为了能够让模板适应跟踪区域表面变化的情况,模板Tt的更新不仅和相邻时刻的模板Tt-1有关,而且还和初始的模板T0有关。因此,随着时间的变化区域模板也应该做出相应的更新,本文中区域模板的更新操作如公式(2)所示,其中α在我们的模拟过程中取0.9。
利用区域的位置和标记点的位置关系约束标记点的跟踪,将标记点的跟踪分为四个部分:区域一中标记点的跟踪、区域二中标记点的跟踪、区域三中标记点的跟踪以及区域外的标记点的跟踪。具体的跟踪步骤如下:
(1)区域的帧间位移求取。t-1时刻的跟踪区域分别为:Tt-1,1、Tt-1,2、Tt-1,3,t时刻的跟踪区域分别为:Tt,1、Tt,2、Tt,3。区域单位时间内运动的位移即区域的中心点单位时间内运动的位移,区域运动位移计算方法如公式(3)所示,其中,Si,x,Si,y分别表示相邻两帧图像中跟踪区域在x,y方向的位移长度。
(2)提取标记的中心点,计算标记在前一时刻的帧间位移。利用标记的颜色特征提取标记的中心点,t时刻提取的标记中心点的坐标为:{pt,1,pt,2,…,pt,n}(n 为提取的标记点的个数,排列无序)。t-1、t-2时刻跟踪的标记中心点的坐标分别为:{pt-1,1,pt-1,2,…,pt-1,15}、{pt-2,1,pt-2,2,…,pt-2,15},标记点的顺序是按照模型中的关节序号排列的。标记在前一时刻的帧间位移可以用式(4)表示。
(3)区域一中标记点处理:
在实际的区域跟踪过程中,区域跟踪存在一定的误差,为了能够更加全面的找到区域内的标记点,根据本文的实验,将三个区域内标记点的搜索范围都设置为(hx×(1+10%),hy×(1+10%))。
1)区域内有一个标记点时,则该标记点为头部标记点;
2)多个标记点时,可以找到一个距离(pt-1,1·x+S1,x,pt-1,1·y+S1,y)点最近的区域内的标记点作为头部标记点;
3)区域内无标记点,则将点(pt-1,1·x+Si,x,pt-1,i·y+Si,y)作为标记点。
(4)区域二和区域三模板含有的标记数目相同,可以做同样的处理。这两个区域中标记的跟踪和头部标记跟踪情况不同,头部区域含有一个标记,容易跟踪,但在这两个区域中,可以利用标记之间的关系指导标记跟踪。跟踪步骤为:
1)如果三个点都找到距离最近的点,且不超过一定阈值threshold=(hx+hy)/4(测试过程中,根据标记的大小和区域的大小设置的),则t时刻的这三个标记点为跟踪的标记点;
2)如果只有两个点跟踪正确,另外一个点(假设pt,1)出现了遮挡,则根据三点之间的关系估计出遮挡的点,计算公式如(5)所示:
c)如果只有其中一个点(假设 pt,1)跟踪正确,被遮挡的点的位置结合预测点的位置和已知点的位置求出,计算公式如(6)所示:
d)如果三个标记点都没有跟踪上,则用预测点(pt-1,i·x+pst-1,i·x,pt-1,i·y+pst-1,i·y)代替。
(5)区域内的点都选择完毕之后,还剩八个关节标记点没有跟踪。这八个点包括:手腕两个、肘部两个、脚踝两个以及膝盖处两个。分析这几个点运动比较简单,利用距离最近原则进行跟踪,若被遮挡,则采用预测点替代。
以上为标记点跟踪的步骤,利用标记点的运动位置和人体三个区域运动位置的关系,实现区域跟踪指导标记点的跟踪。当出现标记点重合或者遮挡时,本文针对标记的不同的遮挡情况提出了相应的预测方法来预测标记点的位置,预测方法结合了三种特征来实现标记的正确跟踪:①人体区域的运动特征;②区域内部的标记点之间的关系特征;③标记点在人体运动过程中的运动速度和方向特征。即,当标记出现遮挡或者重合时,预测出来的标记点既要符合人体区域的特征,又要符合人体标记之间的相对位置关系特征,同时还要符合标记本身的运动特征。因此,本文提出的方法能够保证标记点在被遮挡或者标记点重合的情况下,仍能预测出标记点的位置,且没有太大的偏移。
本文用的实验视频拍摄于实验室,拍摄的摄像头参数的帧率为25帧秒,图像的分辨率为640×480。对外界的光照、背景等没有任何要求。运动者身上佩戴有红色块状标记,要求身上不能出现与标记相似的颜色。拍摄的一组含有1746帧的视频中,含有人体的一些简单的运动,其中包括简单的移动,对标记区域的遮挡等动作。下面是针对该视频做的实验:
图4 模板跟踪图像
图4是在视频图片序列中选取的四个动作,第一个人体动作中没有出现区域或者标记遮挡的问题,跟踪完好;第二个人体动作中,运动者的左手放在了头的前方,头部区域受到了一定面积的遮挡,且手部标记和头部标记出现了重叠,从图中可以看出并没有影响区域和标记点的跟踪;第三个人体动作中,人体的脖子、左肩和右肩的标记聚在了一起,区域二和初始模板出现了很大的变化,但是并没有影响区域和标记点的跟踪;第四个人体动作中,左手腕处的标记和左胯处的标记出现了部分重贴,左膝和右膝处的关节也出现了部分的重叠,仍然能保证区域和标记点跟踪的正确性。
图5 区域的变化
图5中,分别列出了区域一、区域二和区域三在视频图像序列中的变化情况。从上面的分析可以看出:虽然区域内对应的图像一直在变化,但是区域还是能够做到正确的跟踪,且在运动的过程中,区域内标记的相对位置并没有发生太大的改变,具有良好的稳定性。
为了更好的说明本文提出的标记点跟踪算法的有效性,利用本文算法跟踪的标记点位置和手动提取的标记点的位置做比较。在视频中对目标人体的左手标记点和右手标记点进行跟踪比较,比较结果如图6所示,其中横坐标为对应的帧数,纵坐标为像素值。
图6 标记点跟踪比较
统计右手和左踝的标记点的自动跟踪和手动 提取的位置的平均误差如表1所示。
表1 各标记点跟踪误差的标准方差
从图6和表1得知,利用本文的跟踪算法跟踪的标记点位置和手动提取的标记点位置相比平均误差很小,得知跟踪的标记点的位置符合标记点的真实位置。因此本文提出的人体运动捕获算法能够比较准确的跟踪出人体关节标记点。
针对人体标记在运动过程中因为遮挡容易出现跟踪错误的现象,本文提出了一种结合区域特征的人体标记跟踪方法,将人体划分出三个区域,对区域进行跟踪,跟踪过程中,区域模板保持实时的更新,利用跟踪的区域的位置和提取的标记点的位置实现标记的跟踪。对一些人体弯腰程度不大的人体运动中出现的标记遮挡或标记重叠的问题,本文算法有着比较满意的效果。但是对于人体出现严重遮挡的时候,跟踪效果不是太好,下一步将加入更多的人体约束信息指导人体标记的跟踪。
[1]Canton-Ferrer C,Casas J R,Pardas M.Towards a low cost multi-camera marker based human motion capture system[C]//Image Processing(ICIP),2009 16th IEEE International Conference on.IEEE,2009:2581 -2584.
[2]Ukida H,Kaji S,Tanimoto Y,et al.Human motion capture system using color markers and silhouette[C]//Instrumentation and Measurement Technology Conference,2006.IMTC 2006.Proceedings of the IEEE.IEEE,2006:151 -156.
[3]Aristidou A,Cameron J,Lasenby J.Real-time estimation of missing markers in human motion capture[C]//Bioinformatics and Biomedical Engineering,2008.ICBBE 2008.The 2nd International Conference on.IEEE,2008:1343 -1346.
[4]罗忠祥,庄越挺,潘云鹤,等.基于视频的运动捕获[J].中国图象图形学报,2002,7(8):752 -758.
[5]朱强,庄越挺,潘云鹤.基于紧身衣的人体动画研究A[J].软件学报,2002,13(4).
[6]Aristidou A,Lasenby J.Real-time marker prediction and CoR estimation in optical motion capture[J].The Visual Computer,2013,29(1):7 -26.
[7]Ofli F,Demir Y,Yemez Y,et al.An audio-driven dancing avatar[J].Journal on Multimodal User Interfaces,2008,2(2):93 -103.
[8]晏剑云,郑江滨.视频三维运动捕获系统中多运动目标跟踪方法[J].微电子学与计算机,2008,25(8):88-91.
[9]Poppe R.Vision-based human motion analysis:an overview[J].Computer Vision and Image Understanding,2007,108(1):4 -18.
[10]Sarwar S,Rao N I,Khan M F.Real-time object tracking using powell's direct set method for object localization and kalman filter for occlusion handling[C]//Digital Image Computing Techniques and Applications(DICTA),2012 International Conference on.IEEE,2012:1-7.
[11]Liu J,Carr P,Collins R T,et al.Tracking sports players with context-conditioned motion models[C]//Computer Vision and Pattern Recognition(CVPR),2013 IEEE Conference on.IEEE,2013:1830 -1837.