手势识别中手分割算法综述

2015-06-02 01:35郭雷
电脑知识与技术 2015年9期
关键词:手势

摘要:首先分析了手势分割存在的技术难点及人进行手势分割过程中可能使用的特征,然后分析比较了现有手势分割算法的基本思想和特点,最后介绍了深度学习技术并总结了手势分割未来的研究方向。

关键词:RGB-D;手分割;手势

中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2015)09-0191-02

Abstract: The paper first analyses the several technical difficulties in hand segmentation and the features that can be used as in this process, then introduces the ideas of existing d hand segmentation algorithm. At last it introduces deep learning technology and concludes the research direction of hand segmentation in further.

Key words: RGB-D; hand segmentation; gesture

手势是一种无中间媒介的,非常人性化的人机交互方式。手势识别已经成为人机交互领域的重要内容和研究热点。基于视觉的手势识别技术,通常由手势分割、手势建模、手势形状特征提取、手势识别等几个步骤组成。其中,手势分割就是从视觉传感器获取数据中,将感兴趣的有意义区域,即手区域分割出来。这是基于视觉的手势识别过程中非常关键的第一个步骤。准确和快速的分割为后续步骤提供一个良好的基础,可以极大地提升手势识别系统的识别效果以及实时性能。

基于视觉的手势识别系统最初是利用摄像头作为传感器。一个或两个摄像头组成的视觉系统获取手势图像数据,手势分割采用图像处理方法,这些算法通常非常复杂,需要大量的计算资源。Kinect是微软推出的一款2.5维传感设备,它比传统摄像头获取场景的2D图像数据更进一步,同时也可以获取一定范围内的物体到傳感器的距离,即深度信息。更丰富的数据信息为更加快速有效的手势分割提供了可能。

本文首先分析了手势分割存在的技术难点及进行手势分割过程中可能使用的特征,然后分析比较了现有手势分割算法的基本思想和特点,最后介绍了深度学习技术并总结了手势分割未来的研究方向。

1 手势分割的技术难点

手势分割的难点主要源于两个方面,一是手势的环境因素复杂性。手势可以出现在任何一种复杂的环境背景中,颜色、亮度不同光照条件对手形成不同的高光和阴影、背景物体与肤色接近,移动的背景或手势,手势遮挡等。二是人类的手势动作在空间上有很大的灵活性,这导致手的外形特征复杂多变。这些都给手势准确分割带来了困难

在任何条件下,人类的识别系统都能够较为准确的认出感兴趣的区域,人类在处理复杂的手势时,使用了大量的关于手势特征的先验知识。但是人类视觉识别系统机理还有待进一步研究,目前还没有一个可以指导改进手势分割方法的统一的理论。

2 手势分割的特征[1]

基于Kinect传感器的手分割问题,可以看作是对RGB-D图像中的手像素或非手像素标记问题。这里,我们将RGB图像和对应的深度图像数据定义为:

Data= {data(i,j) ={color,depth} i, j | i = 1,...,n, j = 1,...,m, depth ∈ R, color∈Color Space}。

其中,color为位置(i,j)对应的颜色信息,按照某种颜色空间定义,depth为该位置的深度信息,

进行手分割时,必须对Data加以处理,提炼特征。通过调查以往的研究文献,总结出以下特征:

1) 人体的拓扑结构:和人体某一局部图像相比,人们更容易从人体的整体图像中确定手的位置。这是因为人类所具有的人体的整体拓扑结构知识。这个知识只提供给手部区域的大致方位。

2) 距手心距离:通过手的形态学知识,人类可以推断当距离手心距离小于某个值,肯定属于手部区域,如果大于某个值,肯定不属于手部区域;

3) 肤色和深度:虽然肤色易受到人种,光照等的影响,手部区域在深度图像或者彩色图像上虽然其整体上有可能并不均匀一致,但是其在较小的局部范围内应当保持一定的连续性,而非手部区域的边界像素与相邻背景区域像素具有较大的变化;

在进行手区域判断的时候,人类往往不是仅基于某种单一特征,而是多种特征的融合的决策。每个特征在决策过程中起到不同的作用,对一个手的不同位置起到的效用有可能也不一样。

3 手势分割算法

手势的分割实际上包括两个步骤:首先是手定位,这是指从RGB-D图像中确定手是否出现,并且确定手所在区域;在此基础上进行第二个步骤,即去除背景的干扰,将手区域从RGB-D图像中分离出来,该过程称为手分割。通常情况下,两个步骤同时进行。传统的基于视觉的手势分割方法主要有基于轮廓的手势分割方法、基于运动的手势分割方法、基于肤色的手势分割方法等。

基于轮廓的手势分割方法[2]利用手的拓扑结构特征来对手进行分割。但是该方法面临两个技术问题:一是,人的手势是灵活多变的,手部旋转或弯曲使得很难确定手部的初始轮廓;二是手势的形状存在深度凹陷区域,传统的轮廓方法无法收敛。这些因素极大地影响了轮廓的准确性,进而影响到手势分割的准确性。

肤色是手势最为明显的特征之一,基于肤色的手势分割方法[3]建立肤色模型,通过肤色和背景在肤色模型的差异来实现手势分割。但是,该方法不能很好解决实际应用中的手势复杂背景环境问题。实际环境中,肤色会受到光源亮度和位置变化、有色光源的色彩偏移等条件的影响。此外,手部反转弯曲形变使得光源角度和阴影也会发生变化。这些因素使得整个手部区域的肤色可能并不一致,这导致无法建立一个具有较高准确度的肤色模型。

基于运动的分割方法[4]主要分为是帧差法和背景差分法。帧差法对视频中的连续帧图像进行差分运算,消除由于运动而产生的背景影响,从而提取精确的运动目标轮廓信息。背景差分法首先对背景图像建模,然后通过图像序列中的当前帧和背景参考模型比较来检测运动物体,其性能依赖于所使用的背景建模技术。已有的研究表明,运动中的光影变化和背景的动态变化会影响到分割结果准确性。

在获取场景的2D图像数据的基础上,Kinect也同时获取一定范围内的物体到传感器的距离,即深度信息。更丰富的数据信息为更加快速有效的手势分割提供了可能。研究者利用RGB-D数据进行手势分割时,可以只深度图像或者融合RGB和深度信息。前者瞄准快速算法,后者目标是一个精确系统,下面进行简要介绍:

文献[5,6]将手分割看成一个深度聚类问题,基本思想是在深度图像中,手部区域与背景区域分的深度值不同。通过分析人的形体数据确定一个深度阈值,该阈值对应的像素区域就是手区域。利用预定义阈值和k-means聚类算法进行手检测。手指的位置通过手轮廓的凸包分析定位。这种方法在进行手势识别时,限定手必须处于距离Kinect传感器最近的位置,单一使用深度信息,忽略了RGB信息,手势分割的准确性受到影响;

微软提供的kinect SDK,利用机器学习算法提供了骨骼数据流,可以对人体骨骼关键点进行定位。文献[7]利用了骨骼信息中的手的位置信息。以此为基础,采用形态学分析设定RGB-D中,手的三个轴方向上阈值,该阈值范围内的区域被看成是手区域。然后利用OPEN VC中的腐蚀(cvErode)、找到边界(cvFindContours)等相关函数手的轮廓。因为采用阈值方式,手势分割的准确性受到环境因素影响较大,且该方法建立在骨骼算法和OPEN VC图像处理算法基础之上,手势分割的实时性受到影响。

文献[8]采用了特征模型和神经网络相结合的方法。首先建立手势的肤色模型,背景模型和深度模型,然后三个模型的两两重叠率作为神经网络的输入,三层神经网络的构建基于两点假设,一是每一个模型对于最终的像素分割结果都具有大于0的可信度贡献,二是,没有一个模型是绝对可靠的,每个像素的确定至少取决于两个模型的结果。

文献[9]采用了形态学分析的方法。在深度图中寻找管状或指形状作为手掌和手指的候选对象。基于手掌和手指位置上是相连的这一形态学常识,进而检测候选对象的空间位置以确定手部区域;

文献[10]建立了一个标准人类手在不同深度层的大小的查找表。利用kinect SDK提供的骨骼数据中的手的位置信息,确定手的深度,以此从查找表中找到对应手的大小,进而大概确定手区域。文献[11]将手检测问题看成是一个手像素或非手像素标记问题。算法集成彩色和深度信息进行手区域检测。皮肤检测算子对RGB图像进行处理,聚类算子对深度图像进行处理,二者的交集就是最终的手部区域。

4 深度学习技术

在已有的手势分割方法中,良好的特征表达,对最终算法的准确性起了非常关键的作用。上述方法中,特征的设计靠人工选取完成。通常来说,手工选取和设计特征是一件非常费力方法,需要专业的知识和大量时间进行调节。

深度学习是一种新的机器学习方法,其目标是建立、模拟人脑进行分析学习的神经网络,通过非监督学习,实现自动的学习特征。深度学习构建具有很多(5层、6层,甚至10多)隐层的机器学习模型,通过海量数据训练,使得原样本空间逐层变换到一个新特征空间,来学习更有用的特征。这类似于人类从原始信号,做低级抽象,逐渐向高级抽象迭代。最终的分类或预测在高级抽象层进行,从而提高了准确性。大数据学习的特征比人工规则构造特征更能够刻画数据的丰富内在信息。

5 总结

手势分割是基于视觉的手势识别过程中非常关键的第一个步骤,将极大地影响到手势识别系统的识别效果以及实时性能。准确和快速的分割是手势识别的基础,目前还不存在任何一种方法在所有应用系统和背景条件下都能取得良好的分割效果。深度学习技术为手势分割问题提供了一种新的解决思路,其更加接近于人类视觉系统机理。可以将手势识别过程看成是一个从海量的手势数据中深度学习过程,无需手势特征的先验知识,通过学习产生对于手势检测分割具有指导意义的特征,在此基礎上进行手势分割将会取得较为理想的结果。

参考文献:

[1] 蒋美云,郭雷. 基于特征算子的RGB-D图像手分割算法[J].计算机与数字工程,2014(11):2168-2172.

[2] Tofighi, Ghassem, S. Amirhassan Monadjemi, and Nasser Ghasem-Aghaee. Rapid hand posture recognition using Adaptive Histogram Template of Skin and hand edge contour[C].//In Machine Vision and Image Processing (MVIP), 2010:1-5.

[3] Julien L, Francois B. Visual Tracking of Bare Fingers for Interactive Surface[C].//Proceedings of the 17th Annual ACM Symposium on UIST, Santa Fe, NM, USA: ACM,2004:119-122.

[4] Kakumanu, Praveen, Sokratis Makrogiannis, and Nikolaos Bourbakis.A survey of skin-color modeling and detection methods[J].Pattern recognition.2007,40(3):1106-1122.

[5] R. Tara, P. Santosa, and T. Adji, Hand segmentation from depth image using anthropometric approach in natural interface development[J].International Journal of Scientific & Engineering Research,2012,3(5):1-4.

[6] U. Lee and J. Tanaka, Hand controller: Image manipulation interface using ?ngertips and palm tracking with Kinect depth data[C].//in Proc. Asia Paci?c Conf. Comput. Human Interact,2012:705-706.

[7] Maisto, Marco, Massimo Panella, Luca Liparulo, and Andrea Proietti. An Accurate Algorithm for the Identification of Fingertips Using an RGB-D Camera[J]. Emerging and Selected Topics in Circuits and Systems, IEEE Journal on,2013,3(2):272-283.

[8] Zhang, Xin, Zhichao Ye, Lianwen Jin, Ziyong Feng, and Shaojie Xu. A New Writing Experience: Finger Writing in the Air Using a Kinect Sensor[J]. MultiMedia, IEEE. 2013,20(4):85-93.

[9] G. Hackenberg, R. McCall, and W. Broll, Lightweight palm and ?nger tracking for real-time 3-D gesture control [C], in Proc. IEEE Conf. Virtual Reality,2011:19-26.

[10] Caputo M, Denker K, Dums B, et al. 3-D hand gesture recognition based on sensor fusion of commodity hardware [C], in Proc. Conf. Mensch Comput.,2012:293-302.

[11] Oikonomidis N. Kyriazis, Argyros A. Ef?cient model-based 3-D tracking of hand articulations using Kinect [C], in Proc. Brit. Mach. Vision Conf.,2011:101.

猜你喜欢
手势
追踪手势对视空间学习的增强作用*
基于神经网络的静态手势识别算法实现
V字手势的由来
基于B型超声的在线手势识别
基于AT89S52的手势可控LED滚动显示屏设计
柯尔文手势在视唱教学中的运用
打招呼
认手势说数字