操小文,薄 华(上海海事大学信息工程学院,上海201306)
人工智能
基于卷积神经网络的手势识别研究
操小文,薄 华
(上海海事大学信息工程学院,上海201306)
传统的手势识别系统由特征提取和分类器组成,需要人工设计特征,但很难达到足够满意的效果且耗费大量的时间。将卷积神经网络应用于手势识别,能直接把图像数据输入网络,且不用进行复杂的前期预处理。卷积神经网络拥有很强的鲁棒性和较低的复杂性,通过大量的仿真实验,证明了该识别方法具有很好的识别效果,相比现有方法有较大的优势。
特征提取;卷积神经网络;手势识别;鲁棒性
随着现有科学技术的发展,机器人技术[1]将会给人类带来很大的便利,而人机交互[2]则是其中最重要的一环。因此,要让机器人根据人的指示完成相应的动作,就必须要让机器人“明白”人的指示。人们平时运用最多的就是手势,而基于视觉的手势识别技术涉及到模式识别[3]、图像处理以及计算机视觉[4]等许多领域,是现在非常热门的研究课题。目前国内对基于视觉的手势识别技术已展开了许多的研究工作。
关于手势识别[5]的常用算法有以下三种:(1)基于几何特征[6]的手势识别。将手势的区域和边缘特征用作待识别的特征,并采用各种距离公式进行模板匹配。该方法有较强的适应性和稳定性,但是学习能力不足且效率不高,有很明显的不足。(2)基于隐马尔可夫模型的手势识别。这是一种统计分析模型,其拓扑结构具有一般性,能够很好地描述手势信号的时空变化,适用于动态手势的识别,但是计算量过于庞大且速度缓慢,不能很好地满足当前应用的需要。(3)基于人工神经网络[7]的手势识别。具有较强的学习能力和抗干扰能力,而且网络能很好地拟合各类非线性映射,在拥有更快的计算速度的同时还有很强的鲁棒性和泛化能力,但由于其对时间序列的处理能力不强,主要应用于静态手势识别[8],而对于动态手势的识别[9]则效果不佳。
由以上分析可知,现有算法都有或多或少的缺陷,因此未能得到很好的应用。而卷积神经网络(Convo1utiona1 Neura1Network,CNN)在二维图像处理中的独特优势,使其在手势识别中的研究也渐渐开展。
传统图像识别[10]的分类模型如图1所示。人工设计特征是一件非常耗时耗力的事情,必须要有非常深厚的专业知识和经验才能确定出能用于正确分类的特征。然而卷积神经网络[11]则不需要人工设计特征,它能够将图像数据直接输入网络中,然后在输出端即可给出分类结果。其分类模型如图2所示。
图2 卷积神经网络分类模型
1.1 CNN网络结构
CNN包含有两种特殊的神经元层,分别是卷积层和下采样层[12],其整个网络结构由卷积层(C)和下采样层(S)交替出现最后与全连接层(F)相连所构成,并在最后的输出层给出结果。本文的网络结构如图3所示。
图3 手势识别CNN网络结构
卷积操作其实是用一个卷积核[13](即特征矩阵)在图像矩阵上移动,卷积核与图像上相对位置的元素作乘积,最后将所得结果相加得到一个值。当卷积核移动完毕,所有值就构成了一个新的图像矩阵,即完成了对上一层的特征抽取。其数学表达式如(1)所示:
其中,f为激活函数,一般为sigmoid或tanh;b为偏置项。
下采样则相当于对特征进行二次提取,这样做是为了对上一层的特征进行降维,减少计算量并且避免因特征过多导致出现过拟合。经过降维后的特征更能刻画出图像的一般性,更加适用于分类[14],并可以增强网络结构对位移的鲁棒性。
下采样的一般形式如式(2):
down(·)为下采样函数,与卷积操作类似,其也是对一个区域的加权求和,若用n×n大小的窗口进行下采样,最终的图像大小将会是输入图像的1 /n。
1.2 基于卷积神经网络的算法及训练过程
本文所采用的网络结构有8层,包含输入层、3层卷积层、3层下采样层、1层全连接层。与参考文献[8]相比,本文所用网络多了一层卷积层和一层下采样层,且卷积核大小设置也不一样。本文将网络的学习速率(a1Pha)设置为0.2,批次大小(batchsize)设置为20,迭代次数(numePochs)设置为150。且卷积核和各偏置等参数的初始值均随机产生,输入样本后通过前向传播和反向传播算法对网络进行训练来更新参数。其中每层所做的操作如下:
(1)输入层是已经归一化为48×48的图像,经二值化处理后即可输入网络。
(2)C1网络层是对输入图像进行卷积所得结果,本文使用7×7的卷积核对输入图像进行特征抽取,该层特征图为3张,大小为42×42。
(3)S2网络层是对C1层进行的抽样,抽样窗口大小为2×2,此时特征图数量仍为3张,大小为21×21。
(4)C3是对S2的卷积操作,卷积核大小设置为6× 6,特征图为5张,大小为16×16。
(5)S4网络层(同S2),为第二个下采样层,抽样窗口仍是2×2,特征图为5张,大小为8×8。
(6)C5是第三个卷积层,卷积核大小为5×5,此时图像大小为4×4,特征图数量设置为7张。
(7)S6是第三个下采样层,经2×2的抽样窗口后大小是2×2,图像数量为7张。
(8)F7层是全连接层,是把S6层的特征数据向量化后连接到输出层。根据分类的类别数,本文的输出层有三个神经元,即分三类。
整个网络结构确定后,利用前向传播(fP)、反向传播(bP)等算法确定网络参数,这样整个网络就训练完毕。
2.1 手势图像的预处理
虽然CNN可以直接输入原始图像,但是简单的预处理可以使最终识别效果更好而又不耗费太多时间。
本文将图像进行灰度和二值化处理,最终归一化到48×48作为试验的最终输入数据,如图4所示。
图4 图像预处理
2.2 实验结果及分析
本文的实验数据均为作者自己拍摄,手势总共有3种,分别是指向手势1、胜利手势2、摇滚手势3,如图5所示。当用设备拍摄时,保持设备与手的位置基本不变,在限制范围内,手可以任意旋转、平移,方向不定。
图5 3种手势类别
对于神经网络结构,样本的多少对最终学习效果有很大的影响。样本过少会使网络无法学习到图像的有效特征,降低识别效率。因此本文拍摄了大量的样本来进行试验,从各类手势中选取2 500个训练样本和500个测试样本。取其迭代10次的平均识别率作为该方法的最终识别率。
(1)分别用图像的灰度图和二值图进行试验,结果如表1、表2所示。
由以上结果可知,卷积神经网络在手势识别中拥有较高的识别率,且在单一背景下因手的灰度与周围环境的反差,用二值图像能获得更好的识别率。后续试验均采用二值化图像进行。
表1 二值图像的识别率
表2 灰度图像的识别率
(2)为了验证该网络结构的鲁棒性,模拟真实情况下的场景,给图像加上3种不同程度的噪声和3种不同程度的运动模糊。如图6所示。
图6 加噪和运动模糊后的图像
实验结果如表3~表8所示。
表3 噪声1下的识别率
表4 噪声2下的识别率
表5 噪声3下的识别率
表6 模糊1下的识别率
表7 模糊2下的识别率
表8 模糊3下的识别率
由上述结果可知,给图像加了噪声和运动模糊后,各类手势的识别率均有所下降,且受影响最大的为手势3,可能因为手势3最复杂,所包含的特征数最多,在噪声和模糊的影响下所掩盖的特征最多,导致识别率下降最快。但是在一定程度内,识别率虽有所下降但依旧维持在一个较高的水准,表明该网络确实有很强的鲁棒性,没有因为噪声和模糊的存在而出现较大的异常,完全可以满足现有的应用需要。
卷积神经网络避免了对图像前期复杂的预处理,不用去人工设计和提取特征,节省了大量的时间和人工成本。其独特的卷积-下采样结构使其拥有很强的容忍畸变的能力,而独有的权值共享则极大地缩减了网络的训练参数,大大降低了计算量,且使其拥有更简单的网络结构和更强的适应能力,给图像处理领域带来了极大的方便。
本文通过大量的仿真实验,验证了卷积神经网络在手势识别中的高效性和强鲁棒性,具有很好的应用前景。后续可以通过对网络结构和算法的一些改进,进一步降低其在手势识别中的误识率。
[1]刘江华,程君实,陈佳品.基于视觉的动态手势识别及其在仿人机器人交互中的应用[J].机器人,2002,24(3):46-51.
[2]王茂吉.基于视觉的静态手势识别系统[D].哈尔滨:哈尔滨工业大学,2006.
[3]孙世辉.基于视觉的复杂背景下手势识别方法的研究[D].大连:大连海事大学,2014.
[4]王振,高茂庭.基于卷积神经网络的图像识别算法设计与实现[J].现代计算机,2015,34(7):61-66.
[5]张圆圆.基于视觉的手势识别技术及其应用研究[J].计算技术与自动化,2015,34(1):131-135.
[6]殷倩倩.基于计算机视觉的静态手势识别[D].上海:复旦大学,2014.
[7]陈先昌.基于卷积神经网络的深度学习算法与应用研究[D].杭州:浙江工商大学,2013.
[8]刘飞飞.基于视觉的实时手势识别及应用[D].西安:长安大学,2015.
[9]王西颖,戴国忠,张习文,等.基于HMM-FNN模型的复杂动态手势识别[J].软件学报,2008,19(9):25-29.
[10]杨耿,和卫星.运动目标图像识别与跟踪系统的研究[J].计算机测量与控制,2005,13(3):267-269.
[11]LECUNY,BOTTOUL,BENGIOY,eta1.Gradient-based 1earningaPP1ied todocumentrecognition[J].Proceedingsof theIEEE,1998,86(11):2278-2324.
[12]赵志宏,杨绍普,马增强.基于卷积神经网络LeNet-5的车牌字符识别研究[J].系统仿真学报,2010,22(3):638-641.[13]蔡娟,蔡坚勇,廖晓东,等.基于卷积神经网络的手势识别初探[J].计算机系统应用,2015,24(4):113-117.
[14]SCHWARTZ R L,BARRETT A M,CRUCIAN G P,et a1. Dissociation of gesture and object recognition[J].Neuro1ogy,1998,50(4):17-21.
Study on gesture recognition based on CNN
Cao Xiaowen,Bo Hua
(Co11ege of Information Engineering,Shanghai Maritime University,Shanghai 201306,China)
The traditiona1gesture recognition system consists of feature extraction and c1assifier,which needs artificia1 design features,but it is hard to get enough satisfactory effect and sPends a 1ot of time.In this PaPer,convo1ution neura1network was aPP1ied to gesture recognition,the image data can be inPuted direct1y to the network,and it does not need comP1ex Pretreatment in the ear1y.Simu1ation exPeriments show that thismethod has good recognition effect,and the network has strong robustness and 1ow comP1exity,comPared with the existingmethod has great advantage.
feature extraction;convo1ution neura1network;gesture recognition;robustness
TP391.9
A
10.19358 /j.issn.1674-7720.2016.09.017
操小文,薄华.基于卷积神经网络的手势识别研究[J].微型机与应用,2016,35(9):55-57,61.
2016-01-08)
操小文(1991 -),男,硕士研究生,主要研究方向:图像处理与机器学习。
薄华(1971 -),女,硕士生导师,主要研究方向:遥感图像处理、模式识别、人工智能。