吕东岳 黄志蓓 陶冠宏 俞能海 吴健康
使用简易深度成像设备的高尔夫挥杆动态贝叶斯网络三维重建
吕东岳①黄志蓓*②陶冠宏②俞能海①吴健康②
①(中国科学院电子学研究所 北京 100190)②(中国科学院大学 北京 100049)
基于简易深度成像设备的动作捕捉系统因其与传统设备相比更加廉价且易于使用而倍受关注。然而,此类设备图像分辨率很低,肢体间互相遮挡,缺乏3维动作重建的基本数据条件。该文融合人体关节点父子关系与关节点在运动中的多阶马尔可夫性,提出一个描述人体关节点空间关系与动态特性的动态贝叶斯网络(DBN)模型,基于该DBN模型并利用高尔夫挥杆运动的相似性,构建了一种高尔夫挥杆3维重建系统DBN-Motion(DBN-based Motion reconstruction system),使用简易深度成像设备Kinect,有效地解决了肢体遮挡的问题,实现了高尔夫挥杆动作的捕获和3维重建。实验结果表明,该系统能够在重建精度上媲美商用光学动作捕捉系统。
信号处理;高尔夫挥杆重建;动态贝叶斯网络模型;深度成像设备
近年来,传统的高尔夫培训方式逐渐被利用动作捕捉设备逐步纠正挥杆动作的教学模式所取代。动作捕捉设备主要分为两大类[1]:光学动作捕捉设备[2,3]与可穿戴式微传感器动作捕捉设备[4,5]。前者需要在被捕捉者的肢体上附着主动式或被动式的标记,通过固定布置在使用者周围的高速摄像头捕捉标记的位置,通过标记的位置得到人体主要关节点的位置从而实现动作的捕捉与重建;后者则需要将一系列的微传感器节点(每个节点包含有加速度与磁传感器等设备)附着在使用者肢体上,通过分析传感器数据得到人体主要关节点的位置。虽然上述两类设备在研究与培训领域取得了较多的成果,但是这并不能掩盖它们本身所固有的缺陷:光学动作捕捉设备需要一处固定的环境,事先架设并且对设备进行调试,而且一旦设备的位置发生变化就需要重新调试;可穿戴式动作捕捉设备虽然对环境的适应性比光学设备强,但是穿戴式传感器节点会令使用者感到不适,影响挥杆时的发挥;同时,两种设备的价格都非常昂贵,系统架构十分复杂。
快速发展的深度成像技术为解决上述两种动作捕捉设备的固有缺陷带来了希望。已有学者采用简易深度成像设备进行3维动作的捕捉研究并取得了一定的成果。但是,简易深度成像设备的分辨率、帧率以及深度测量的精度还有待提高;同时,深度成像设备存在肢体遮挡问题[7]。为了解决上述问题并将简易深度成像设备运用于高尔夫挥杆研究领域,研究者们提出了一些专门用于高尔夫挥杆运动的算法。文献[11,12]提出一种利用深度成像设备给挥杆者的挥杆进行打分与评级的算法,在挥杆时捕捉挥杆者在3维空间中的骨架位置,运用序列相关模型对挥杆动作打分评级;文献[13]利用深度成像设备捕捉挥杆动作并识别了6种常见的挥杆错误;文献[14]尝试解决遮挡问题,提出了一种基于模板的算法来学习与纠正原始深度成像设备输出的人体关节点信息。上述算法在改进深度成像设备获取的原始失真挥杆动作中做出了一定的贡献,但是遮挡问题依然未能很好地得到解决。
为了更好地解决遮挡问题,提升深度成像设备对高尔夫挥杆捕捉与重建的精度,本文建立了一个用于描述人体关节点空间关系与动态特性的动态贝叶斯网络(Dynamic Bayesian Network,DBN)模型,通过融合人体关节点父子关系,关节点在运动中的多阶马尔可夫性以及人体关节点在挥杆运动中的相似性,该DBN模型改善了低分辨率深度图像信息下挥杆重建的精度,有效解决了关节点之间因为运动造成的相互遮挡问题;基于该DBN模型构建了一种可移动、非接触式的挥杆3维重建系统DBN-Motion(DBN-based Motion reconstruction system),并将其得到的高尔夫挥杆重建结果与商用光学动作捕捉系统MAT-T[15]得到的结果进行了对比实验。实验结果表明,DBN- Motion系统能够得到媲美于MAT-T系统的重建结果。
本文第2节介绍DBN-Motion系统的架构并详细介绍了作为其核心的DBN模型;第3节为实验与对比结果;第4节为结论与展望。
2.1系统架构
DBN-Motion系统包含3个部分:挥杆数据获取、挥杆数据处理以及挥杆重建,如图1所示。作为一种简易深度成像设备,Kinect拥有最全面的软件支持,并且能够很好地克服传统动作捕捉设备的缺陷[16],其对场地及周边电磁环境几乎没有任何要求,能够满足在任何室内环境中使用,这种优势是本系统可移动性的基础。本系统采用Kinect作为动作捕捉设备,RGBD数据(彩色与深度信息)通过OpenNI平台[17]转换为挥杆运动数据;系统的第2部分通过DBN模型修正第1部分获得的原始运动数据;系统的第3部分使用修正后的运动数据在4个视角下(斜上、正视、侧视与俯视)绘制重建整个挥杆过程。
图1 DBN-Motion系统架构
2.2 挥杆数据处理:DBN模型
2.2.1挥杆过程的相似性 挥杆过程定义为从上杆开始直到跟随阶段的一个特殊姿势(双臂自由挥动至大致与地面平行)为止。由于高尔夫挥杆有固定技术动作[18],所以不同的挥杆者的挥杆过程具有相似性。挥杆过程的相似性体现在两个方面:
(1)空间运动相似性:在不受干扰自由挥杆时,不同的挥杆者每一次挥杆过程中人体关节点的相对运动是相似的;
(2)时间比例相似性:对不同的挥杆者,挥杆过程的4个组成部分(持杆、上杆、下杆以及跟随)在整个挥杆过程中所占的时间比例是相似的。
利用上述两种相似性建模时,空间运动相似性体现在对不同的挥杆者在建模时可以采用相似的模型结构;时间比例相似性体现在对不同挥杆者的不同时长的挥杆过程进行了归一化,可以采用相似的模型参数来描述不同挥杆者的运动,同时模型参数的训练也可以采用更加广泛的数据,模型在不同挥杆者之间的鲁棒性也更加出色。
2.2.2 DBN模型 本文在人体骨架模型的基础上,将用来描述人体运动的15个关节点分为5条互相独立的链,由此形成的描述人体关节点关系的树状结构如图2所示。通过对15个主要关节点进行建模并获得位置信息,能够准确地将整个人体的动作完整地进行重建。在建模过程中,由于5条关节点链的结构相似,对其中一条链建立的模型表示亦可以应用到其他4条链上,区别仅在于模型参数的不同。
图2 人体关节点树状结构
在构建模型的过程中,使用下列的5个符号来表示模型中的状态、观测等要素:为链上的第个关节点在时刻在其父节点坐标系下的位置(关节点的相对位置);为链上的第个关节点在时刻在大地坐标系下的位置(关节点的绝对位置);为一条链上的第个关节点在时刻在大地坐标系下的位置的观测值(原始观测信息);为用于描述关节点动态特性的多阶马尔可夫链的阶数;为一条链中包含的关节点总数。
描述整条关节点链中关节点运动的DBN模型如图3所示。为了不影响模型的可读性,在描述关节点自身动态特性时只在根节点处体现了多阶马尔科夫链结构。
图3 DBN模型结构
为了在失真的原始数据的基础上获得精度比较满意的正常数据,需要寻找能够让关节点在时刻的绝对位置后验概率最大化的的位置。当运动过程持续时间为时,关节点链中共有个关节点,关节点处所有节点的联合概率密度分布可以看成由时刻关节点链中第个关节点扩充而来:
模型中条件概率密度均假设服从高斯分布。高斯分布的选择不仅简化了参数训练的复杂度,而且通过后续的实验章节中与现有的光学动作捕捉系统获得的结果进行的对比实验,从一个侧面印证了其符合高尔夫挥杆实际的正确性。
关节点的相对运动采用的是多阶马尔科夫链模型,在确定模型阶数时使用了文献[14]中提出的“平均关节点误差和”(mean value of sum of Joint Errors, msJE)作为评判依据:
图4 msJE的变化与动态模型阶数的关系
3.1 实验准备
MAT-T系统对架设的环境有严格的要求,需要将6台采样率为180 Hz的摄像装置以一定的高度环绕架设在挥杆区域周围,挥杆者全身佩戴标定点,通过摄像装置捕捉标定点在整个挥杆过程中的变化,从而获得人体挥杆时的运动数据;DBN-Motion系统架设时,Kinect摆放在距离挥杆者2.5 m左右、离地面1 m左右的位置,保证挥杆者的整个挥杆动作能完整地被其捕捉。
实验中邀请了5位不同的挥杆者,每人做6次完整的挥杆,两套系统同时捕捉挥杆者的动作,采用离线处理获得挥杆运动数据以作比较。在整个实验过程中,5位挥杆者的挥杆数据轮流作为测试数据,学习与重建的过程在挥杆者的挥杆数据之间轮流进行,确保每位挥杆者的每一次挥杆数据都有与之对应的重建结果。实验中考虑整个挥杆过程中人体运动最为剧烈的关节点(即双肩、双肘与双手),具体实现上,选择手部关节点位置、肩宽与臂长(包括左上臂、左前臂、右上臂与右前臂)等5段肢体长度以及全身关节点的差异来进行比较。
对于全身关节点位置的差异,除了可以使用式(5)定义的msJE作为对比标准外,其均值(mean value of msJE, mmsJE)也可以用作对比标准。
3.2与MAT-T系统的对比
由于本系统采用的简易深度成像设备Kinect的采样率(30 Hz)与MAT-T系统中的摄像装置不具有可比性,所以在实验过程中的对比均采用对应采样时刻的数据。图5展示了两套系统获得的其中一位挥杆者手部关节点位置的对比结果。图中,,,分别表示3维空间的3个分量,即大地坐标系下的宽、高与深度。
图5 挥杆者手部关节点位置对比
从图5的对比结果可以看出,DBN-Motion系统的手部关节点重建结果与MAT-T的结果在大部分挥杆过程中仅有细微的差异,即使存在明显差异也基本处于挥杆过程的收尾阶段(跟随阶段),此时由于击球动作已经结束,挥杆相似性的体现不如前3个阶段。总之,在手部关节点位置信息获取精度上,DBN-Motion系统的重建结果与MAT-T的结果之间是具有可比性的。值得注意的是,DBN- Motion系统的重建结果是基于采用其他挥杆者挥杆数据学习得到的模型得出的,这也从一个侧面印证了挥杆运动中相似性的存在。
两套系统获得的5位挥杆者的肢体长度的比较见表1,表中挥杆者的肢体长度均为在整个挥杆过程中的均值。
表1两套系统下挥杆者肢体长度比较
与MAT-T的结果相比,DBN-Motion系统重建的5段肢体段的长度基本上只有细微的差异,但是在肩宽数据中有两位挥杆者的数据差异非常大(大于10%)。在MAT-T系统中,标定点在肩部容易产生位移,从而造成肩部关节点位置信息产生误差[19],直观上反映即为肩宽不稳定。而在实际的挥杆动作中,挥杆者在整个过程中并不会做出对肩宽产生影响的动作。为了说明MAT-T系统获得的肩宽数据并不稳定,图6显示了其中一位挥杆者肩宽数据随时间变化的比较结果,为了突出DBN- Motion系统对原始关节点位置输出的修正效果,原始Kinect估计得出的肩宽数据也一并进行了比较。DBN-Motion系统获得的重建结果的波动性十分微小,MAT-T系统获得的结果在肩宽数据上的波动性大于DBN-Motion系统获得的重建结果,据此可以认为产生肩宽数据明显差异的主要原因为动作捕捉时标定点产生的位移。同时可以看到,原始Kinect获得的肩宽数据波动十分剧烈,说明了DBN- Motion系统对于原始观测数据的修正能力。
图6 挥杆者挥杆过程中肩宽数据的对比
通过与现有的光学动作捕捉系统(MAT-T)进行比较,本系统的核心,即用于描述全身关节点运动的DBN模型对深度成像设备估计的挥杆修正效果以及对关节点剧烈运动、遮挡的鲁棒性是显而易见的,使用简易深度成像设备对高尔夫挥杆这一行为进行重建是完全可行的。挥杆中运动最为剧烈的6个关节点的重建结果两套系统虽然仍有一定的差异,但已经具有可比性,如此的对比结果也从一个侧面印证了之前提出的模型条件概率密度高斯分布假设的正确性。相对于原始Kinect深度数据直接通过OpenNI平台估计得出的结果,DBN-Motion系统的输出精度有了很大的提高。同时,在DBN模型建模的过程中并未对任何关节点的运动做出限制,由此不难得出本系统同样适用于描述其他具有规律性的运动行为的结论。
本文使用简易深度成像设备构建了一种与传统动作捕捉设备不同的可移动、非接触式的高尔夫挥杆重建系统DBN-Motion,其核心是一种能够用于描述人体全身关节点运动位置信息的DBN模型。实验结果表明,该系统能够有效修正现有的简易深度成像系统(例如Kinect)获得的人体关节点位置信息;在与光学动作捕捉系统MAT-T获取的关节点位置信息的比较中,在对应采样时刻处的重建结果非常接近,肢体段长度的差异也很小,而且克服了后者肩部宽度容易受手臂扭曲导致的标定点移位造成的影响。不仅如此,该系统在建模的过程中并未对任何关节点的运动做出限制,可以适用于描述其他具有规律性的运动行为。
今后随着技术的进步,DBN-Motion系统在升级硬件设备后获得的重建结果的帧数以及精度也会随之上升。另外,今后的研究工作还将着眼于更加精细的人体挥杆运动描述(例如增加腕部关节点与脊柱关节点,尝试获取完整的杆头轨迹)与其他规律性的运动行为的描述与重建。
[1] Zhou H and Hu H. Human motion tracking for rehabilitationa survey[J]., 2008, 3(1): 1-18.
[2] Noiumkar Sand Tirakoat S. Use of optical motion capture in sports science: a case study of golf swing[C]. 2013 International Conference on Informatics and Creative Multimedia (ICICM), Kuala Lumpur, 2013: 310-313.
[3] Holte M B, Chakraborty B, Gonzalez J,.. A local 3-D motion descriptor for multi-view human action recognition from 4-D spatio-temporal interest points[J].,2012, 6(5): 553-565.
[4] Nam C N K, Kang H J, and Suh Y S. Golf swing motion tracking using inertial sensors and a stereo camera[J]., 2014, 63(4): 943-952.
[5] Chun S, Kang D, Choi H R,.. A sensor-aided self coaching model for uncocking improvement in golf swing[J]., 2014, 72(1): 253-279.
[6] Livingston M A, Sebastian J, Ai Z,.. Performance measurements for the microsoft kinect skeleton[C]. 2012 IEEE Virtual Reality Short Papers and Posters (VRW), Costa Mesa, CA, 2012: 119-120.
[7] Shum H P, Ho E S, Jiang Y,.. Real-time posture reconstruction for Microsoft Kinect[J]., 2013, 43(5): 1357-1369.
[8] Rosado J, Silva F, Santos V,.. Reproduction of human arm movements using kinect-based motion capture data[C]. 2013 IEEE International Conference on Robotics and Biomimetics (ROBIO), Shenzhen, 2013: 885-890.
[9] Xiang C, Hsu H H, Hwang W Y,.. Comparing real-time human motion capture system using inertial sensors with microsoft kinect[C]. 2014 7th International Conference on Ubi-Media Computing and Workshops (UMEDIA), Ulaanbaatar, 2014: 53-58.
[10] Kao W C, Hsu S C, and Huang C L. Human upper-body motion capturing using kinect[C]. 2014 International Conference on Audio, Language and Image Processing (ICALIP), Shanghai, 2014: 245-250.
[11] Zhang L, Hsieh J C, Ting T T,.. A kinect based golf swing score and grade system using GMM and SVM[C]. 2012 5th International Congress on Image and Signal Processing (CISP), Chongqing, 2012: 711-715.
[12] Zhang L, Hsieh J C, and Wang J. A kinect-based golf swing classification system using HMM and Neuro-Fuzzy[C]. 2012 International Conference on Computer Science and Information Processing (CSIP), Xi,an, 2012: 1163-1166.
[13] Lin Y H, Huang S Y, Huang S Y,.. A kinect-based system for golf beginners’ training[J]., 2013, 253(1): 121-129.
[14] Shen W, Deng K, Bai X,.. Exemplar-based human action pose correction and tagging[C]. 2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Providence, USA, 2012: 1784-1791.
[15] TaylorMade Performance Lab. Mat-t System[OL].http:// tmpl.taylormadegolf.com/mat-t-system, 2013.8.
[16] Smisek J, Jancosek M, and Pajdla T. 3D with kinect[C]. 2011 IEEE International Conference on Computer Vision Workshops (ICCV Workshops), Barcelona, 2011: 1154-1160.
[17] OpenNI Organization. Introducing OpenNI[OL].http://www. openni.org/images/stories/pdf/OpenNI_UserGuide.pdf.,
2013. 8.
[18] Arvind Dand Bates A. The speckled golfer[C]. The ICST 3rd International Conference on Body Area Networks, Tempe, Arizona, 2008: 1-7.
[19] McGuan S P. Achieving commercial success with biomechanics simulation[C]. 20 International Symposium on Biomechanics in Sports, Cáceres, Spain, 2002: 20, 451-460.
Dynamic Bayesian Network Model Based Golf Swing 3D Reconstruction Using Simple Depth Imaging Device
Lü Dong-yue①Huang Zhi-pei②Tao Guan-hong②Yu Neng-hai①Wu Jian-kang②
① (,,100190,)②(,100049,)
The simple depth imaging device gains more and more attention because of its lower cost and easy- to-use property compared with traditional motion capture systems. However, this kind of devices lack the basic data condition of 3D motion reconstruction due to low resolution, occlusions, and mixing up of body parts. In this paper, a Dynamic Bayesian Network (DBN) model is proposed to describe the spatial and temporal characteristics of human body joints. The model is based on fusion of the parent-child characteristics of joints and multi-order Markov property of joint during motion. A golf swing capture and reconstruction system DBN-Motion (DBN-based Motion reconstruction system), is presented based on the DBN model and the similarity of swing with a simple depth imaging device, Kinect, as capturing device. The proposed system effectively solves the problem of occlusions and mixing up of body parts, and successfully captures and reconstructs golf swing in 3D space. Experimental results prove that the proposed system can achieve comparable reconstruction accuracy to the commercial optical motion caption system.
Signal processing; Golf swing reconstruction; Dynamic Bayesian Network (DBN) model; Depth imaging device
TP391
A
1009-5896(2015)09-2076-06
10.11999/JEIT150165
黄志蓓 zhphuang@gmail.com
2015-01-29收到,2015-05-11改回,2015-06-26网络优先出版
国家自然科学基金(61431017)和科技部国际科技合作专项(2012DFG11820)资助课题
吕东岳: 男,1986年生,博士生,研究方向为信号与信息处理.
黄志蓓: 女,1973年生,副教授,研究方向为传感网络.
陶冠宏: 男,1986年生,博士生,研究方向为信号与信息处理.