一种基于肤色和深度的第一人称人手识别方法

2014-04-03 07:32郭训力俞扬

计算机工程与应用 2014年12期

关键词：人手视差肤色

郭训力, 俞扬

GUO Xun-Li, YU Yang

南京大学计算机软件新技术国家重点实验室, 南京 210023

National Key Laboratory for Novel Software Technology, Nanjing University, Nanjing 210023,China

1 引言

随着计算机性能的不断提高,人们越来越多的把目光投向了人机交互方面(HCI).尤其是近些年,触屏技术、语音识别技术等正在改变着人们的生活.人适应机器的方式正在慢慢的成为过去,机器适应人的行为获得了越来越多的发展空间.人的手部动作作为人与外界主要交互方式也越来越多的受到重视.

在计算机视觉领域,如何准确地识别人手已经得到广泛的研究.目前,识别图片中人手的方法主要分为基于模型的方法[1,2,3,4,5],基于几何特征的方法[6,7,8],以及基于颜色特征的方法[9,10,11].在诸多方法中,基于模型匹配的方法首先需要将给定模型与输入图片中不同位置的图像块进行比较,然后把最佳匹配的图像块作为人手区域.这种方法最为直观,但人的手型高度可变性给定模型往往只能捕捉其中的一部分手势,对模型之外的手型却无能为力,而且手型的变化也带来匹配的复杂性,使得计算量大大增加.基于几何特征的方法利用训练数据去拟合若干预定义的方程,该类方法要求图片仅含有手部轮廓,没有复杂背景,因此应用环境受到很大制约.另一方面,在增强现实应用的背景下,人佩戴增强现实眼镜,如图1所示,人手以第一人称的角度呈现,且往往只有人手的一部分出现在图片中,此时,以上两类方法的模型就不能够在图片中得到匹配,也就无法完成识别任务.

图1 佩戴增强现实眼镜的交互操作

基于颜色特征的方法主要利用颜色将手和背景分割,这种方法排除了手型变化的干扰,并且计算开销小,能够满足实时性要求.对于肤色识别已经有很多种方法[12].最简单的方法就是设置固定阈值,这种方法的缺点是显而易见的,即缺乏通用性.除此之外,统计直方图的方法[13]作为一种在线学习的方法在视频识别中受到广泛研究,该方法需要人为给定一个肤色初始点,然后不断统计视频帧序列中的颜色直方图,从而逐渐识别视频中的肤色区域,但对初始点的要求比较严格,而且检测效果非常依赖于人手在视频中出现的频率.高斯密度函数法[14,15,16]作为统计直方图方法的一种平滑替代,即将肤色像素点和背景像素点的直方图用均值、方差不同的高斯函数近似替代.这类方法取得了不错的效果,然而计算量仍然是一个障碍.贝叶斯方法属于非参数的方法[10,17,18,19,20],能够获得稳定结果的同时,避免了繁琐的调试参数,而且具有训练时间和测试时间短的优点,Antonis[10]在训练好的贝叶斯模型基础上使用了在线学习的方法,使得识别更能够适应当前环境,但单一基于肤色的方法同时也将人脸检测了出来.

本文所实现的系统即采用贝叶斯方法进行肤色检测.在此基础上,系统增加了一个深度过滤过程以排除预定义深度范围之外的肤色物体对识别的影响.实验表明,这一深度过滤步骤较好的降低了仅仅用肤色检测的误识别现象.

在下文中,首先简要介绍贝叶斯肤色模型,然后说明利用 HOG 特征进行深度过滤所用的方法,最后给出实验结果.

2 人手区域识别

2.1 贝叶斯肤色检测

用于特定颜色检测的颜色空间有很多种选择,常用的有RGB、YUV、HSV等.系统采用YUV颜色空间,因为YUV中的Y分量对应于亮度,由此,不考虑Y分量不仅可以减低贝叶斯自由变量的维度,也可以排除亮度对肤色识别产生的干扰[15].

对于采用U、V分量的贝叶斯分类器,其自由变量是二维元组c=＜u,v＞.假设c(x,y)表示图像中位于坐标(x,y)的像素点的颜色,P(s)表示训练集中像素点为肤色的先验概率,P(c(x,y))表示每种颜色元组在训练集中的先验概率,P(c(x,y)|s)表示肤色像素点对应的颜色元组的概率.由贝叶斯公式[10]可以得到一种颜色元组为肤色的后验概率,即P(s|c(x,y)):

然后设置一个合适的阈值T,大于T则认为是肤色点.整个训练过程是在线下进行,测试时仅仅通过计算式(1)即可.

2.2 HOG深度过滤

仅仅用肤色检测的结果往往会收到手部周围的近似肤色物体的干扰,如图 2所示,图中的淡红色花盆即被分类器判断为肤色.所以有必要进行深度过滤,即利用图片的第三维信息,获得距离摄像头特定距离范围的物体，而过滤掉这个范围之外的物体.

图2 贝叶斯肤色检测将花盆颜色视为肤色Figure 2.Bayesian treats the color of the flower port as skin color

本系统对双目摄像头得到的左右两幅图片,采用视差法计算深度.由于系统采用的双目摄像头能够保证平行放置,所以省去了摄像头标定和图像校准的耗时过程,仅仅计算目标点在左右两幅图像中的视差即可.考虑到物体的轮廓能够标志一个物体本身,在对图片测距时,需要利用Canny算子得到二值边缘图片,然后仅仅针对肤色区域的边缘点进行视差测距以降低计算耗时.

为了得到左右图片中对应点的视差,系统首先对肤色区域提取HOG特征[21].HOG用于表述图片中物体的梯度的局部特征,在视觉领域被广泛的应用[21,22].图3展示了一幅手部图片和对应的HOG特征效果图.在左右图片中,手指基本保持相同的梯度,且往往与背景梯度存在巨大差异,这可以保证基于 HOG的匹配能够比较准确.在得到HOG向量之后,对边缘点简单的连接其本身和周围点的HOG向量作为其用于匹配的特征向量.设左图中特定的边缘点为,其特征向量为.对应点就是在右图中相同纵坐标的边缘点中,搜索选定视差范围内与最为接近的,即

图3 HOG特征[21]效果图Figure 3.An illustration of HOG descriptor

图4展示了(2)对应的匹配结果,左右摄像头捕获的图片分别为下半图和上半图.上半图中黄色方框表示符合预定义的深度范围,上下两图之间的绿色线条表示匹配得到的对应关系.

图4 采用(2)式对应的部分匹配结果.Figure 4.An illustration of some matching results using equation(2).

3 系统运行结果

实验使用一个拥有双目摄像头的增强现实眼镜,如图1所示,实现了一个实时人手识别系统.它不需要人为的初始化图片中的手部区域,而是直接读入训练好的贝叶斯模型对图片进行预测,其大致核心流程如图5所示.

图5 系统大致流程.Figure 5.Main procedure of the system.

深度过滤利用HOG特征[21]在左右摄像头的图片之间进行匹配,根据视差判断是否在预定义的范围以内.图6所示为深度过滤结果,其中(a)表示随着手部远离摄像头,测得的视差越来越小,在预定义范围内的匹配越来越少,直到整个手部都离开预定义深度范围.(b)所示为两只手同时在图片中,左手在深度范围内,得到匹配,而右手不在深度范围内,没有得到匹配.

图6 深度过滤效果.Figure 5.An illustration of depth filtering.

其中贝叶斯分类器[10]采用肤色作为识别依据,对图片中的肤色较为敏感,当背景中除手之外还有肤色物体时,检测效果受到很大干扰.但经过深度过滤,其检测效果获得很大提升.如图7所示,(a)中的与肤色相近的门被深度信息滤掉,仅仅剩下了(b)中的手指部分.图8是另外两个将肤色物体过滤的例子.

图7 深度信息过滤掉预定义深度范围之外的肤色物体.Figure 7.With depth filtering, objects of skin color outside the predefined depth are eliminated.

在2.4GHz双核CPU上测试,系统从摄像头读入图片到完成识别任务,所需平均时间为0.0648秒,能够满足实时性的要求.

图8 深度信息过滤掉近肤色的花盆.Figure 8.The depth information filters out the flower pot of skin color.

4 结束语

在利用图像的二维信息的同时,利用其第三维——深度信息可以过滤掉不合适的深度范围的物体.将这一深度过滤过程应用在贝叶斯肤色模型基础上构建了人手识别系统.该系统首先读入训练好的贝叶斯肤色模型,对双目摄像头捕获的两张图片进行肤色区域分类,然后对这两张图片进行HOG特征匹配以获得满足预定义视差范围的区域,从而完成过滤，减轻了贝叶斯肤色模型的误识别现象.

将来,还可以考虑在线学习的方法,因为在线学习可以更好的适应当前环境,应该会很大的帮助识别.在应用方面,可以实现如图9所示的应用,即系统能够按照手指选择的命令执行相应的操作,达到增强现实的效果.

图9 增强现实应用的例子.Figure 9.An example of augmented reality application.

[1]Erdem Y., Ender K., Bülent S., Jérôme D., Shape-Based Hand Recognition, IEEE Transactions on Image Processing, 2006.

[2]Anil K.J.and Nicolae D., Deformable Matching of Hand Shapes for Verification, In:Conference on Image Processing, Oct.1999:857-861.

[3]Ekaterini S., Nikos P., Hand Gesture Recognition using A Neural Network Shape Fitting Technique,Engineering Applications of Artificial Intelligence, 2009:1141-1158.

[4]Antonis A.A., Manolis I.A.L., Binocular Hand Tracking and Reconstruction Based on 2D Shape Matching, In:International Conference on Pattern Recognition, 2006:207-210.

[5]Zhiquan F., Bo Y., Yuehui C., Yanwei Z., Yi L., Zhonghua W., Research on Sampling Methods in Particle Filtering Based upon Microstructure of State Variable.Lecture Notes in Computer Science, 2008,(5226):251-257.

[6]Cenker O., Aytul E., Burak B., Combining Implicit Polynomials and Geometric Features for Hand Recognition,Pattern Recognition Letters, 2003,13(24):2145-2152.

[7]Robert T.C., Yanxi L., Marius L., Online Selection of Discriminative Tracking Features, IEEE Transactions on Pattern Analysis, 2005:1631-1643.

[8]Sushmita M., Tinku A., Gesture Recognition:A Survey, IEEE Transactions on Systems, Man and Cybernetics,2007,3(37):311-324.

[9]Vladmir V., Vassili S., Alla A., A Survey on Pixel-Based Skin Color Detection Techniques, In:International Conference on the Computer Graphics and Vision, 2003.

[10]Antonis A.., Manolis I.A.L., Real-Time Tracking of Multiple Skin-Colored Objects with A Possibly Moving Camera, In:European Conference on Computer Vision, Prague, Czech Republic, 2004.

[11]Kurata_T., Takashi O., Masakatsu K., Katsuhiko S., The Hand Mouse:GMM Hand-color Classification and Mean Shift Tracking.In Second International Workshop on Recognition, Analysis and Tracking of Faces and Gestures in Real-time Systems, July 2001.

[12]Ming Hsuan Y., David J.K., Narendra A., Detecting Faces in Images:A Survey, IEEE Transactions Pattern Analysis, 2002, 1(24):34-58.

[13]David M.S., Richard A.F., Toward Robust Skin Identification in Video Images, In:International Conference on Automatic Face and Gesture Recognition, 1996.

[14]Stephen J.Mc., Yogesh R., Shaogang G., Tracking Color Objects using Adaptive Mixture Models, Image Vision Computing, 1999,(3)17:225-231.

[15]Rick K., John R.K., Finding Skin in Color Images, In:2nd International Conference on Automatic Face and Gesture Recognition, Killington, Vermont, USA, 1996.

[16]Jian F.C., Arthur A.G., Detecting Human Faces in Color Images, Image Vision Computing, 1999,1(18):63-75.

[17]Michael I., Andrew B., ICONDENSATION:Unifying Low-level and High-level Tracking in A Stochastic Framework, In:European Conference on Computer Vision, Freiburg, Germany, 1998.

[18]Esther K.-M., Frank A., Tracking Multiple Objects using the Condensation Algorithm, Robotics and Autonomous Systems, 2001, 2(34):93-105.

[19]Navneet D., Bill T., Histograms of Oriented Gradients for Human Detection, In:IEEE Conference on Computer Vision and Pattern Recognition, 2005.

[20]Thomas S., Lior W., Stanley M.B., Maximilian R., Tomaso P., Robust Object Recognition with Cortex-like Mechanisms, IEEE Transactions on Pattern Analysis and Machine Intelligence, 2007, 3(29):411-426.

[21]Qiang Z., Shai A., Mei-chen Y., Kwang-Ting C., Fast human Detection using A Cascade of Histograms of Oriented Gradients, In:IEEE Conference on Computer Vision and Pattern Recognition, 2006.

[22]Anna B., Andrew Z., Xavier M., Scene classification via pLSA, In:European Conference on Computer Vision,2006.