杨红玲,宣士斌,梁竣程,赵 洪,莫愿斌
(广西民族大学 信息科学与工程学院,广西 南宁 530006)
基于肤色检测与卷积神经网络的手势识别*
杨红玲,宣士斌,梁竣程,赵 洪,莫愿斌
(广西民族大学 信息科学与工程学院,广西 南宁530006)
针对光照变化、背景噪声等复杂环境对手势识别的影响,提出了一种基于YCbCr空间肤色分割去除背景结合卷积神经网络进行手势识别方法。首先根据人体肤色在YCbCr颜色空间中的聚类效果,采用基于椭圆模型的肤色检测方法进行手势分割;然后对分割后的手势图像提取骨架与边缘相融合的手势特征图;再通过深层次的AlexNet卷积神经网络结构,对经过融合的手势特征图进行识别。实验结果表明,针对复杂的背景环境,该算法具有较强的鲁棒性,在不同数据集下对手势的平均识别率提升了4%,可以达到99.93%。
肤色检测;手势分割;特征提取;卷积神经网络;手势识别
近年来深度学习在计算机视觉应用的高速发展,给新的人机交互方式带来更多的机遇,为了让机器人通过“看到”、“听到”等方式去完成相应的动作,就需要让机器人明白人的指令。手势作为传递指令的一种重要交互方式之一,基于深度学习的手势识别技术成为现在非常热门的研究课题,得到了很多科研工作者的关注。
目前手势识别一般分为两步,首先从复杂的背景环境中将手势分割出来,然后对分割的手势进行识别,因此在复杂背景下由于背景、环境、光照等外界条件的变化会给手势分割带来一定的困难,而分割效果的好坏也会对识别有一定的影响。常见的手势分割方法大多是基于肤色聚类的特性[1],应用颜色信息获取手势部位的所在区域,如基于HSV颜色空间的肤色检测,但是该方法对于光照变化比较敏感;基于高斯模型的肤色检测,该方法能在简单的背景下能取得很好的检测效果;基于椭圆模型的肤色检测则能很好地适应光照的变化和复杂背景,因本文算法在手势分割阶段选取该模型进行肤色检测。而对手势分割后的识别方法也有很多,如基于神经网络的识别方法具有较强的识别分类识别能力的分类能力,但是如果采用神经网络层数一般较浅,很容易出现过拟合的现象[2-3];基于几何特征的识别方法通过提取手势结构、边缘、轮廓等特征进行手势识别,具有良好的稳定性,但是不能通过提升样本量的同时进行识别率的提升[4-6];基于隐马尔科夫模型的识别方法虽然具有描述手势时空变化的能力,但是该方法的识别速度却不尽如人意[7]。随着深度学习在计算机视觉方面的迅速发展,基于深度学习的卷积神经网络的方法受到越来越多研究者的关注,其独特的局部感知、权重共享、深度层次化结果、自动特征提取过程给手势识别[8-9]带来新的思路,但是该方法对数据集的获取、网络结构的选择却有着一定的要求,若能获取较为干净的手势图像,选择更加深层次的网络结构,会使得学习的特征更加具有分类能力。
因此针对复杂环境下的静态手势图像,提出了一种基于肤色分割与卷积神经网络相结合进行手势识别的方法。该方法首先对比人体肤色在各颜色空间中聚类效果,选取对光照环境变化不太敏感的椭圆模型在YCbCr空间进行肤色检测实现复杂背景环境下的手势分割,同时针对分割图像中可能存在非手势区域的问题,采用最大类间方法去除图像中非手势区域,然后获取手势图像进行骨架与边缘相融合的特征图,再通过采用深层次的AlexNet卷积神经网络结构,对融合的特征图像进行训练,获取手势分类模型,从而实现复杂背景环境下的手势识别。实验证明该方法具有良好的识别效果,在不同数据集下对手势的平均识别率提升了4%,达到99.93%。
本文算法的输入为采集得到的原始手势图像,将原始图像通过滤波、去噪等预处理后进行手势分割。手势分割是根据人体肤色在颜色空间中具有良好的聚类效果,通过椭圆模型的肤色检测方法,提取包含手势区域的二值图像,然后获取图像中最大连通区域作为手势区域。手势识别对分割提取的手势区域进行分类识别。首先通过对分割后的手势图像进行骨架与边缘特征提取,获取这两种特征相融合的特征图,再采用深层次的AlexNet卷积神经网络结构,对融合的手势特征图像进行学习训练,获取分类模型对手势进行识别,判断手势所代表的含义。算法的输出为对各类手势进行识别的相对概率,具体的算法流程图如图1所示。
图1 手势识别算法流程图
由于手势识别过程输入的采集图像中非人手背景的存在会对手势识别造成一定的影响,因此本文提出了一种基于肤色分割与卷积神经网络相结合的手势识别方法,通过肤色分割一定程度上减少背景对手势识别的干扰;然后获取分割图像中的最大连通区域作为手势图像;最后通过卷积神经网络对分割后手势的骨架与边缘相融合的特征图像进行分类,获取识别结果。
1.1基于肤色模型的手势分割
由于肤色能在颜色空间中表现出良好的聚类效果,基于肤色模型的手势分割方法能把感兴趣的手势部分从复杂的背景中提取出来。由于图像采集设备获取的图像通常为RGB形式,相互之间存在着一定的相关性,亮度稍稍地变化就会对肤色分割产生巨大变化,并不适合进行肤色分割,而经过大量的统计结果发现,在将皮肤信息映射到YCbCr空间时,肤色像素点会在CbCr二维空间中近似形成椭圆分布,因此将YCbCr作为手势分割的颜色空间,并采用基于椭圆模型的方法进行肤色分割。通过判断某点在YCbCr空间的坐标(Cb,Cr)是否在椭圆内来区分肤色与背景。椭圆方程具体参数如下所示:
(1)
(2)
其中,Cx=109.38,Cy=152.02,b=14.03,θ=2.53,ecx=1.60,ecy=2.41,a=25.39;椭圆模型的肤色检测结果如图2所示。
图2 基于YCbCr空间的椭圆模型肤色分割效果图
由于肤色检测中会受到类似肤色的颜色背景的影响分割出一些非手势区域,因此本文通过对各个连通区域进行统计,获取图像中的最大连通区域,排除肤色检测结果图像中的非人手区域,实现对手势更加精确地分割。
1.2基于卷积神经网络的手势识别
随着深度学习的快速发展,其在图像识别领域也有了广泛的应用。基于深度学习的图像识别与传统方法相比,有着更加精确的识别精度和速度,因此本文采用基于深度学习的方法来进行手势识别,构建深度卷积神经网络结构,通过有监督的学习方法获取手势分类模型,进行识别手势。
1.2.1基于多特征融合的手势输入
由于手势变化的复杂性,虽然分割后的二值图像能够很好地排除影响手势识别的背景信息,但是人们在进行手势识别时往往更加关注手势本身所代表的含义而忽略整体手势的信息。为了提高手势识别的准确率,提取手势分割后图像中的本质信息,引入基于二值手势图像(如图3(a)所示)的骨架特征与边缘特征相融合后的特征图像作为卷积神经网络的输入图像。
骨架作为物体的一维表示,能够保持原物体的几何、形状、拓扑信息,是一种优良的形状描述符,能够有效地描述物体。因此,骨架广泛应用于计算机图形图像学、计算机几何学等众多领域。手势骨架作为一种对于手势本质信息表示方法,能够很好地描述手势所代表的物理含义,可以将手势骨架信息作为一类手势识别的特征描述,手势骨架提取结果如图3(b)所示。
图4 手势识别的卷积神经网络结构
虽然单一的手势骨架特征能够很好地解释手势所代表的含义,但是所含有的关键信息却有一定的缺陷。因此,进一步利用形态学算子提取手势二值图像的边缘(如图3(c)所示),获取具有更好解释效果的手势边缘图像,然后将其图手势骨架图像相结合作为卷积神经网络的输入,获取更好的识别效果,融合结果如图3(d)所示。
图3 多特征融合效果图
1.2.2基于深度卷积神经网络的手势识别
卷积神经网络(CNN)具有三个最基本的特征:局部连接、权值共享和下采样,通过局部连接和权值共享减少训练参数,同时通过下采样来提升模型鲁棒性的同时减少训练参数,因此根据卷积神经网络的特征,其一般包含两个特殊的网络神经元层:卷积层和下采样层。本文采用AlexNet的网络结构,Input Layer为输入层,具体为64×64的手势特征融合图像,Layer1~Layer5是卷积层,Layer6~Layer8为全连接层,Output Layer为输出层,输出层神经元有3个,分别代表手势类别:石头、剪刀、布。卷积核和各偏置等参数的初始值均随机产生,输入样本后通过前向传播和反向传播算法对网络进行训练来更新参数。手势识别的卷积神经网络结构如图4所示。
卷积滤波实质就是用卷积核在图像矩阵中滑动遍历,卷积核与图像上相对位置的元素作乘积,将所得结果相加得到一个结果值,最后通过激活函数获得卷积结果。当卷积核滑动遍历整张图像后,结束特征提取,获取一个新的图像特征矩阵。再通过下采样图像特征矩阵进行降维,减少计算量,同时避免特征过多导致出现过拟合,增强网络结构对位移的鲁棒性。具体的卷积和下采样计算如下所示:
f(x)=max(0,x)
(3)
(4)
(5)
其中ai,j表示经过卷积后第i行第j列元素;xi,j表示图像的第i行第j列元素;wm,n表示卷积核中第m行第n列权重;wb表示卷积核的偏置项;f表示激活函数,为RELU函数;b表示p*q样本区域经过下采样后的特征值;P为下采样函数,一般为MaxPoling或MeanPoling,本文中采用MaxPoling。
2.1实验结果
对本文提出的方法在两个数据库上进行验证,第一个数据库是在室内场景采集的手势图像数据库,用来评判算法的性能,在采集的手势数据库中,通过普通的摄像头拍摄不同环境、不同旋转角度下的3种类别的手势图像各100张用于算法性能的测试;第二个数据库采用Thomas Moeslund’s Gesture Recognition Database,在该数据库中对建立的基于手势分割与卷积神经网络的手势识别模型进行验证。本文从拍摄的各类手势图像中选取2 000个训练样本和200个测试样本。通过手势数据集,分析不同的训练次数与手势识别率和误差的关系,如图5所示。
从图5中可以看出训练次数较少时,手势的识别率较低,网络需要训练较多的次数才可以达到较好的识别效果。这是因为,在训练次数较低时,由于手势的复杂性,并不能提取出具有高效分类的网络参数,使得训练的误差仍然很高,当训练进行到一定程度时,网络参数就不会发生太大的变化,误差趋于稳定,网络的识别率趋于稳定。
图5 训练次数与手势识别率和误差的关系
2.2实验对比分析
为验证本文算法的性能,通过本文获取的实验结果的识别率,与国内其他学者的手势识别效果进行比较,表1显示了手势样本在不同方法下的识别率和时间消耗对比。
表1 本文方法与其他方法识别性能的比较
通过对比可以发现,本文算法获取的识别率相对较高的原因在于以下两点:(1)本文中采用椭圆模型进行肤色分割获取包含手势区域的二值图像,然后通过求最大连通区域的方法,获取干净的手势图像;(2)本文中采用相对文献[5-6] 更加深层次的卷积神经网络,同时将手势图像的骨架和边缘的融合特征图像作为网络的输入,能够描述手势所代表的物理含义,从而获得更好的识别效果。当然本文的不足之处在于复杂的网络结构使得识别时的耗时量会有一定的增加,但是由于其耗时量已经缩短在毫秒级,因此并不会因为耗时量对算法的实现产生更大的影响。
本文基于不同的背景环境,提出了一种基于肤色分割与卷积神经网络结合的方法进行手势识别。采用肤色分割去除背景对手势识别的干扰,同时通过获取分割后最大连通区域的方法排除类似肤色的烦扰,得到更加干净的手势二值图像,最后通过具有较高分类能力的AlexNex卷积神经网络结构对手势的骨架和边缘的特征融合图像进行学习训练,获取分类模型进行手势识别,从而解决了传统识别方法中训练方法复杂度高、训练参数多、识别率低等问题。下一步将通过改进网络结构或者改进分割算法进一步降低其在手势识别中的误识率,从而实现复杂环境下的动态手势识别。
[1] LICSAR A, SZIRANYI T. User-adaptive hand gesture recognition system with interactive training[J]. Image amp; Vision Computing, 2005,23(12):1102-1114.
[2] STERGIOPOULOU E, PAPAMARKOS N. Hand gesture recognition using a neural network shape fitting technique[J]. Engineering Applications of Artificial Intelligence, 2009, 22(8):1141-1158.
[3] 江立, 阮秋琦. 基于神经网络的手势识别技术研究[J]. 北京交通大学学报, 2006, 30(5):32-36.
[4] Liu Yun, Yin Yanmin, Zhang Shuijun. Hand gesture recognition based on HU moments in interaction of virtual reality[C]. International Conference on Intelligent Human-Machine Systems and Cybernetics. IEEE, 2012:145-148.
[5] 董立峰, 阮军, 马秋实,等. 基于不变矩和支持向量机的手势识别[J]. 微型机与应用, 2012, 31(6):32-35.
[6] 隋云衡, 郭元术. 融合Hu矩与BoF-SURF支持向量机的手势识别[J]. 计算机应用研究, 2014, 31(3):953-956.
[7] MURTHY G R S, JADON R S. Hand gesture recognition Using Neural Networks[C]. Advance computing Conference, IEEE, 2010:134-138.
[8] 王龙,刘辉,王彬,等. 结合肤色模型和卷积神经网络的手势识别方法[J]. 计算机工程与应用,2016,53(6):1-7.
[9] 操小文, 薄华. 基于卷积神经网络的手势识别研究[J]. 微型机与应用, 2016, 35(9):55-57.
[10] STERGIOPOULOU E, PAPAMARKOS N. Hand gesture recognition using a neural network shape fitting technique[J]. Engineering Applications of Artificial Intelligence, 2009, 22(8):1141-1158.
[11] 江立, 阮秋琦. 基于神经网络的手势识别技术研究[J]. 北京交通大学学报, 2006, 30(5):32-36.
[12] 蔡娟, 蔡坚勇, 廖晓东,等. 基于卷积神经网络的手势识别初探[J]. 计算机系统应用, 2015, 24(4):113-117.
2017-05-22)
杨红玲(1991-),女,硕士研究生,主要研究方向:图像处理与识别。
宣士斌(1964-),男,教授,主要研究方向:图像处理,图像处理与识别。
梁竣程(1982-),男,本科,主要研究方向:计算机网络。
Hand gesture recognition based on feature fusion and convolutional neural network
Yang Hongling, Xuan Shibin, Liang Juncheng, Mo Yuanbin
(School of Information Science and Engineering, GuangXi University for Nationalities, Nanning 530006, China)
To reduce the influence of the complex environment such as illumination changes and background noise to hand gesture recognition, an YCbCr based space color segmentation model is used to remove background, and AlexNet convolution network is employed to achieve hand gesture classification in this paper. Based on the human skin color clustering in the YCbCr color space, the method of skin detection based on elliptical model is used to extract gesture image. Then it extracts the gesture feature map fusing the skeleton and edge features from the segmented gesture images. Based on results of the features fusion of gestures, the AlexNet convolution network with deep level structure is employed to recognize the gesture image. The experimental results show that the proposed algorithm has strong robustness against the complex background environment, and the average recognition rate is improved by 4%, reaching to 99.93%.
skin detection; gesture segmentation; feature ertraction; convolutional neural network; gesture recognition
TP183
A
10.19358/j.issn.1674- 7720.2017.22.016
杨红玲,宣士斌,梁竣程,等.基于肤色检测与卷积神经网络的手势识别J.微型机与应用,2017,36(22):58-61.
广西自然科学基金(2015GXNSFAA13911);国家自然科学基金(21466008)