贠卫国,史其琦,王 民
(西安建筑科技大学 信息与控制工程学院, 陕西 西安 710055)
由于手语特征具有多样性,因此在以计算机作为辅助的手语识别其研究对象通常都是手势图像识别。手势识别的关键是手势提取,即从手势图像中挖掘出能够部分或完全表达手势的信息的如形状上下文等基于形状的[1];局部二值模式(Local Binary Patterns,LBP)等基于纹理的[2];傅里叶描述子等基于频率特征的[3]等有意义的特征。由于手势特征的类别多种多样,为了提高手势识别的准确率将从2个方面入手[4]:(1) 手势特征的提取。手势特征的采集容易受环境影响从而造成手势的几何特征和纹理特征有较大浮动,因此必须选用一些表达能力较强的特征来描述手势特征[5]。(2) 识别分类器的选择。例如,尚小晶等[6]提出一种基于改进概率神经网络(Probabilistic Neural Network,PNN)的手势动作识别方法。吴健健等[7]提出一种基于多特征融合与支持向量机(Support Vector Machine,SVM)的手势识别方法。
基于以上分析,本文提出了一种融合纹理特征、几何特征和卷积神经网络(Convolutional Neural Network,CNN)等特征进行手势识别的方法,并且将深度卷积神经网络(Deep Convolutional Neural Network,DCNN)作为分类器引入到手语识别中,从而来提高手语的识别率,并将此方法应用于建立的手语数据库-“hand”数据库中进行。
手势图像的特征众多,因此需要对手势图像进行预处理。手势图像预处理的步骤如图1所示,首先将手势RGB图像转换为手势灰度图像从而消除颜色特征的影响;其次将灰度图像转换成二值图像并选取二值图像的前景部分作为手势提取区域[8]。
LBP是描述手势图像纹理特征最常见的一种形式。LBP算子能够从3×3大小的窗口中,比较中心点像素与相邻点像素的灰度值[9]。LBP局部区域纹理计算方法如公式(1)所示:
(1)
图1 手势图像预处理的步骤Fig.1 Gesture image preprocessing steps
手势识别的算法流程图如图2 所示。
图2 手势识别的算法流程图Fig.2 Gesture recognition algorithm flow chart
CNN具有2个最大的特点:(1)局部连接性,图像中距离越近的像素之间的影响也就越大;(2)权值共享性,图像中区域间的权值是可以共享的[10]。概况的讲,卷积层的计算方法就是根据公式(2):
conv=σ(imgMat*W+b),
(2)
图3 多个卷积核运算提取图像特征Fig.3 Multiple convolution kernel operations to extract image features
式中:“σ”表示激活函数;“imgMat”表示灰度图像矩阵;“*”表示卷积操作;“W”表示卷积核;“b”表示偏置值。
图3中我们分别使用了2个不同卷积核进行卷积运算从而提取图像特征,得到了不同的图像特征。实际中,我们会采用多个卷积核来提取图像特征,进而来进行下一步的运算。
Hu氏不变量是具有旋转、平移、尺度不变性的量[11]。函数f(x,y)的二维Hu氏p、q阶统计量定义如式(3)所示,式中p,q为非负整数。
(3)
考虑质心(xc,yc)时,则式(3)变成式(4):
(4)
平移不变性通过以上统计量结果得到,尺度不变性由公式(5)计算确保。
(5)
Hu氏不变量见式(6)~(12),这些特征量可以用来描述手势图像特征。
φ1=η20+η02,
(6)
(7)
φ3=(η30-3η12)2+(η03-3η21)2,
(8)
φ4=(η30+η12)2+(η03+η21)2,
(9)
φ5=(η30-η12)(η30+η12)[(η30+η12)2-3(η21+η03)2]+
(3η21-η03)(η21+η03)[3(η21+η30)2-(η21+η03)2],
(10)
φ6=(η20-η02)[(η30+η12)2-(η21+η03)2]+4η11(η30+η21)(η21+η03),
(11)
φ7=(3η21-η03)(η30+η12)[(η30+η12)2-3(η03+η12)2]+(3η21-η03)
(η03+η12)[3(η30+η12)2-(η03+η21)2].
(12)
在我们的实验中,为了满足深度卷积神经网络的输入,特征选取7个Hu不变量的绝对值的对数值。
灰度共生矩阵(Gray Level Cooccurrence Matrix,GLCM)用来反映手势灰度图像的相邻像素之间的梯度信息量[4]。式(13)是灰度共生矩阵的计算公式:
(13)
式中:PGLCM(x,y)为归一化后的GLCM值,GGLCM(x,y)为原GLCM值,L为GLCM级数。
对比度、逆差矩、能量、熵和相关性这5个量[12]的计算方法依次如式(14)~(18)所示。
(14)
(15)
(16)
(17)
(18)
傅里叶级数特征是一种常用的表示手势轮廓的方法,傅里叶级数特征是将手势轮廓变换到频域上进分析,其高频部分可以清晰表达图像的形状纹理特征[13]。将预处理后的手势边缘图像排序为序列(x0,y0),(x1,y1),…,(xK-1,yK-1)。其中(x0,y0)是首坐标,K是范围内的点数。每个坐标都是1个复数s(k)=x(k)+j(k) (k=1,2,…,K),对其进行傅里叶变换可得到傅里叶系数a(u)(u=0,1,2,…,K-1):
(19)
手势轮廓的傅里叶级数特征是a(u)傅里叶反变换。
(20)
深度卷积神经网络具有更复杂的网络结构以及更强大的特征学习和表达能力[14]。DCNN可以看作是一种机器学习和深度学习交叉的产物。1990年LeCun等[15]提出了使用梯度反向传播算法训练的卷积神经网络模型。本文将DCNN作为分类器应用于手势识别从而解决手势识别问题。
深度卷积神经网络(DCNN)是由若干个单层卷积神经网络相互嵌套组成的,主要处理对象是二维输入数据,是一种监督型深度学习网络结构[16]。如图4所示一种最常见的深度卷积神经网络模型,其由2个卷积层(C1、C2)、2个下采样层(S1、S2)和1个全连接层堆叠而成。单层卷积神经网络的权值共享是通过约束神经元来实现的。各网络层的输入和输出都是由一组维度确定的特征向量来表示,有利于卷积运算降低时耗。
图4 深度卷积神经网络架构Fig.4 Deep convolutional neural network architecture
过拟合现象是训练中极易产生的现象,训练时若测试样本过少,样本参数可能会过度拟合训练数据集,这样容易影响训练数据集的泛化性能,造成过拟合现象从而对测试样本产生错误的分类结果。为了削弱这种情况,本文采用“dropout”方法的深度卷积神经网络通过在训练过程中随机地忽略隐含层中一定比例的节点响应,有效地提高了网络的鲁棒性。
本文中的手势数据均由本课题组人员自行录制,针对不同人以及不同背景下的手势分别进行了采集,并将手势图片保存成jgp格式,创建了“hand”数据库。为了验证方法的有效性,我们在“hand”数据库中进行试验。试验使用Lenovo笔记本电脑window 10系统,MATLAB(R2016a版本)环境,处理器为英特尔Core i5-7300HQ @ 2.5GHz。
本文所建立的“hand”手势数据库由5 220个样本构成,让15个不同的人把使用频率较高的86个手语词用摄像机采集数据。将所采集的手势图像统一调整成512×512(像素)大小,以方便进行操作和处理,并按照手语词对应的意思为图像文件命名,储存在本地硬盘中以备程序调用和对比[17]。我们随机选择使用“hand”数据库每个45张手势图像作为训练样本,5张作为测试样本。
将多特征进行融合并采用不同的分类器进行试验对比,其中类别数分别为100维LBP特征,7个Hu氏不变量,7层深度卷积神经网络,10个灰度共生矩阵特征量,400维傅里叶特征,总特征维数为520维。
试验结果见表1。通过对比分析得出文献[6]中的方法的识别率是最低的,说明PNN作为分类器的识别率最低,其识别效果最差,识别时间过长;文献[7]中的方法识别率中等,SVM的识别效果高于PNN;本文方法采用的分类器DCNN识别率最高可以达到97.73%,识别效果最好且大幅缩短了识别时间。同时可以看出随着特征融合的种类数的增多,其方法识别率随之升高。
表1 “hand”数据库试验结果Tab.1 “hand” database test result
本文提出了一种基于深度卷积神经网络的多特征融合的手势识别算法,将深度卷积神经网络作为分类器融入到手势识别中。伴随着融合特征复杂度提高,“dropout”方法能够在DCNN中避免过拟合现象,进而有效地提高识别率,对比概率神经网络和支持向量机作为分类器大幅缩短了识别时间,做到了高效分类。同时伴随着深度卷积神经网络层数的增加,“dropout”方法能够通过随机忽略各网络层中一定比例的节点响应,提高算法的鲁棒性。