基于PCA的深度信念网的手势识别研究*

2017-08-09 01:34徐旭雄

网络安全与数据管理 2017年13期

关键词：鲁棒性识别率手势

徐旭雄

(上海海事大学信息工程学院，上海 201306)

基于PCA的深度信念网的手势识别研究*

徐旭雄

(上海海事大学信息工程学院，上海 201306)

针对现有的手势识别均采用有监督模型进行特征提取和识别的现状，提出一种基于PCA的深度信念网(DBN)的半监督的手势特征提取与识别方法。运用所提方法进行了大量的实验，证明该方法与直接将图片输入到DBN网络相比，可以有效降低DBN的训练时间，并且识别率也有所提高；并且该方法与传统的有监督的SVM的手势识别方法相比,训练时间大幅度减少而识别率也有很大的提升。最后，对该方法进行了鲁棒性验证，经过大量实验，证明了其具有很强的鲁棒性。

手势识别；PCA；深度信念网；SVM；鲁棒性

0 引言

近年来，基于视觉的手势识别技术涉及到模式识别、图像处理以及计算机视觉[1]等诸多领域。随着人工智能的发展，人机交互是其非常重要的一个环节，而手势又是人机交互中最常用的一种交互方式。因此手势识别具有非常重要的现实意义，手势识别引起了国内外诸多学者的研究热潮。

关于手势识别有以下常用方法：(1)基于隐马尔科夫模型(HMM)的手势识别[2]，这是一种概率模型，在一般拓扑结构下，它能够很好地对手势信号的时空变化进行表述，但计算量太大，非常耗时。(2)采用有监督的SVM方法[3]，但它的识别率不高，且训练时间过长。

由以上分析可知，现有的算法有着各自的优劣。在生活中许多数据是无标签的，而这对有监督学习来说，要对这样的数据进行识别分类，是不能完成的任务。这种情况下，只能用无监督方法去实现。随着深度学习的快速发展及其在图像处理方面上的极佳表现，并且深度信念网是深度学习中的最具代表性的半监督的神经网络，因此，本文提出一种基于PCA的深度信念网(Deep Believe Network,DBN)的半监督的手势识别模型。

1 深度信念网(DBN)模型

DBN是常见的深度学习网络中的一种，简单来说，它是通过构建多层非线性映射的深度网络来模拟人脑结构与认知过程，实现对输入图像逐层抽象并非监督、贪心地提取特征。DBN结构图如图1所示。

从图1可知，DBN网络的整体结构是由多个受限玻尔兹曼机(Restricted Boltzmann Machines,RBMs)网络和一层前馈反向传播(feedforward backpropagation)BP神经网络组成。而RBM是由一个隐含层h和一个可视层v组成，两者之间的节点是由权值W双向连接的。而DBN最后一层采用的是有监督的BP对整个网络进行微调与分类，由文献[4]可知，DBN的学习过程分为预训练(pre-training)和微调(fine-tuning)两个过程。预训练是指在BP网络前，采用的是无监督的方法训练RBM，前一层的输出作为下一层的输入；而微调指的是把深层玻尔兹曼机训练得到的网络参数值作为整体网络参数初始化给BP网络，利用有监督的学习方法训练，并将BP网络训练的输出标签与实际标签产生的误差逐层向后传播，完成对整个DBN网络参数的微调。

由此可以看出，整个预训练过程可看成是对BP网络参数进行初始化，它能够避免因随机初始化BP网络而导致的训练时间长、容易陷入局部最优解的局面。

图1 DBN结构图

2 基于PCA的DBN的手势识别

本文的实验数据均为文献[5]的手势图像，该图片库总共有3种不同的手势，分别是指向手势1、V型手势2、摇滚手势3，每个手势各3 500张。手势图如图2所示。这3种手势是生活中常用的手势，并且每种手势的复杂程度不一样，每种手势的关联信息也是不一样的，通过本文方法，可以得知手势的复杂度是否会影响最终的实验结果。

图2 3种手势类别

2.1 实验步骤

本文设计了如图3所示的实验流程图。

图3 实验流程图

具体的实验步骤如下：

(1)选取每个手势图片各3 000张作为训练集，选取500张作为测试集；原图大小为352×288，为了减轻计算量，将图片都压缩为m×n；

(2)提取每个手势图像m×n个像素，本文选取m、n的值都为48，将图片数量作为行，每张图像像素作为列，形成3 000×2 304样本矩阵，再计算均值向量，然后计算样本矩阵的特征值与特征向量，选出主成分得到映射矩阵，最后将数据投影到映射矩阵得到降维向量。PCA处理的目的就是使用最少的前K项尽量表达原始数据的信息。在实验中发现，当K选取前30维时就可以表达原始数据90%的信息，为了最大程度保留原始数据，故K=30是本文选择的起点；而当K=60，它能保留原始数据95%以上的信息。故本文的K值选取为30～60，间隔为10；将这前K项分别表示为train_K；同理，对测试集也作相应的处理，保存为test_K。

(3)将train_K作为DBN的输入，则第一层RBM的可视层有3 000×K个神经元，那么对每一层的RBM表达式如式(1)所示：

(1)

式中，θ={W,a,b}是RBM模型的参数；连接权重Wij描述的是可视节点i和隐层节点j的对称交互，可见节点v和隐层节点j的偏置项分别是ai和bj。

(4)通过对比散度算法[6]进行训练，获得该层RBM最优的模型参数θ1={W,b,a}。

(5)固定底层RBM的参数，将底层RBM的输出作为上一层RBM的输入，也就是可视层。再应用对比散度算法对模型进行学习，得到该层最优的参数θ2={W,b,a}。

(6)重复步骤(4)、(5)过程，直至得到所需层数。

当完成每层的RBM训练之后，用RBM网络参数值初始化BP网络，BP网络将训练误差后向传播以调整网络参数，最终实现整个DBN网络训练。

2.2 DBN参数设置及实验结果

在DBN参数设置上，由实验步骤和文献[6-7]可设定BP网络的学习率α为2,RBM学习率α为0.8， BP网络的传递函数为sigmoid函数。RBM迭代次数固定为5；NN(即上文的BP)迭代次数固定为5；为了增加学习效率，RBM的每个Mini-batches为100，NN的Mini-batches为10，前K项的选取都在[30 40 50 60]中选择，本文设定RBM的深度为两层即三层DBN网络。第一层隐含层神经元为200,第二层为200×200的网络结构；在以上数据的基础上，选择K值和未经PCA处理的图片(raw pixel)分别进行实验，指向手势1、V型手势2、摇滚手势3的训练时间及其识别率分别如表1和表2所示。

表1 3种手势训练时间

表2 3种手势的识别率

由表1和表2可得：不同的K值，训练时间和识别率都是不一样的，K值取得越小训练时间越短，进而相应的识别率也偏低，但K值也不是越大越好，比如当K=60时，它的训练时间长，而它的识别率相对K=50却有所降低，但是总的来说，相比raw pixel而言，本文提出的方法都有极大的改进；当选择K=50时，本文的方法与raw pixel对比，3个手势的平均训练时间减少了近5.4 min，而识别率提高了近2.6%。

而对这3种手势的识别率来说，因为每种手势的复杂度不一样，手势越复杂，其信息相关度越高，对其使用相同的方法去处理，会导致其训练时间增加。且由于每种手势的方向是变化的，而相应的误识率也会有所升高。因此，手势3受到了最大的影响。

2.3 与传统有监督学习的SVM识别方法对比

为了验证本文模型在分类识别上的有效性，实验设置了与传统的有监督学习的SVM分类识别方法进行对比，对比试验的所有训练与测试样本均与本文的一致，即每个手势训练3 000张，测试样本500张，同样用PCA处理这些样本，K的取值为[30 40 50 60]。

SVM工具采用常用的开源工具LIBSVM[8]。

表6 鲁棒性实验结果

由于样本数据过大，在实验时的参数选择上，SVM的核函数为线性函数，而其他的原有的参数都是默认值。对比实验SVM方法的每个手势结果分别如表3和表4所示。

由表3和表4并对比表1和表2可知，传统的SVM方法与本文方法相比，它的训练时间变长且识别率也都变低。选择这两种方法最好的效果是K=50时，其比较结果如表5所示。当K=50时，本文提出的方法与用有监督的SVM对手势识别的各项性能指标相比，在平均训练时间上减少了5.2 min，而每种手势的平均识别率提高了近13.9%。

表3 SVM训练时间

表4 SVM方法识别率

表5 对比结果

2.4 鲁棒性验证

为了验证本文方法的鲁棒性，模拟现实生活中的场景，给每个手势图像分别加上3种不同的噪声和3种不同程度的运动模糊。如图4所示。

图4 不同噪声和模糊图

采用本文方法，且选择模型最优性能的K=50。其他数据不变，其实验结果如表6所示。

由表6可知，给图像增加了噪声和运动模糊以后，各类手势的识别率均有所下降，且需要更长的训练时间，越复杂的手势，受到的影响越大。但是，总体来说，还是维持在一个很高的识别水准，这就表明，该网络结构具有很强的鲁棒性，没有因为噪声和模糊而使得识别率出现极大的偏差。

综合上述所有实验结果可得：本文提出的手势识别方法可以有效降低DBN网络的训练时间，提高识别率，并且也具有非常强的鲁棒性。

3 结论

不同于传统的有监督的SVM分类学习模型的手势识别方法，本文提出的基于PCA的深度信念网的手势识别方法与之相比具有非常大的优势。当经过加噪和运动模糊以后，本文方法的识别结果还是维持在一个很高的水准，证明了本文方法的鲁棒性。本文在选择DBN网络层数时，是根据文献的经验性来选择的，而如何在动态中选取最优的DBN网络层数及其参数将是下一步的主要研究方向。

[1] 刘江华，程君实，陈佳品.基于视觉的动态手势识别及其在仿人机器人交互中的应用[J].机器，2002,24(3):46-51.

[2] 常亚南.基于HMM的动态手势识别[D].广州:华南理工大学，2012.

[3] 蔡芝蔚，吴淑燕，宋俊锋.基于SVM和组合优化模型的手势识别[J].系统仿真学报,2016,8(6):12-17.

[4] HINTON G E. Learning multiple layers of representation[C]. Trends in Cognitive Sciences, 2007: 428-434.

[5] 操小文，薄华.基于卷积神经网络的手势识别[J].微型机与应用,2016,35(9):55-57,61.

[6] HINTON G E.Training products of experts by minimizing contrastive divergence[J].Neural Computation,2002，14(8):1771-1800.

[7] 陶美平,马力,黄文静,等.基于无监督特征学习的手势识别方法[J].微电子学与计算机,2016,1(4):100-103.

[8] CHANG C C, LIN C J. LIBSVM: a library for support vector machines[EB/OL].[2013-11-12](2016-7-30).http://www.csie.ntu.edu.tw/-cj-lin/libsvm/.

Study on gesture recognition based on PCA and DBN

Xu Xuxiong

(College of Information Engineering, Shanghai Maritime University, Shanghai 201306, China)

In contrast to the supervised feature extraction method adopted in gesture recognition ,this paper proposed a semi-supervised gesture feature extraction and recognition method based on PCA and deep belief network (DBN).The experimental results show that the proposed method can reduce the training time of DBN and improve the recognition rate compared with the direct input the pictures to the DBN network. Furthermore,comparing with the traditional supervised SVM gesture recognition, a significant reduction in training time and the recognition rate is also greatly improved in this paper.Finally, the robustness of the proposed method is verified by a lot of experiments, which prove that the proposed method has strong robustness.

gesture recognition; PCA; deep belief network; SVM; robustness

航空科学基金(2013ZC15005)

TP391.9

10.19358/j.issn.1674- 7720.2017.13.017

徐旭雄.基于PCA的深度信念网的手势识别研究[J].微型机与应用，2017,36(13)：55-58.

2017-02-14)

徐旭雄(1991-)，男，硕士研究生，主要研究方向：图像处理与模式识别，深度学习。