基于CNN的手势识别技术研究

2017-11-21 05:17叶茂华
无线互联科技 2017年20期
关键词:池化层掩膜手势

叶茂华

(淮安信息职业技术学院,江苏 淮安 223003)

基于CNN的手势识别技术研究

叶茂华

(淮安信息职业技术学院,江苏 淮安 223003)

手势操作作为一种全新的操作方式,在智能设备中得到了广泛应用。传统的手势识别方法需要复杂的预处理过程,识别速度与准确度比较差。文章提出一种基于CNN的手势识别技术,取得了较好的识别效果,识别速度也有明显的提升。

卷积神经网络;手势识别;特征提取

随着人工智能技术的快速发展,人机交互得到了极大的丰富,从打字、触屏到语音,交互方式的发展给人们的操作带来了便利和极佳的使用体验。近年来,手势操作得到了人们广泛的重视,通过对用户不同手势的识别,系统能够理解用户的意图并完成相应的操作。本文主要利用卷积神经网络(Convolutional Neural Network,CNN)较强的容错性与鲁棒性,提出了一种新的手势识别技术,实现了较好的手势识别性能。

1 CNN

神经网络是一种利用仿生学原理,模仿大脑神经突触的信息处理过程而建立的网络模型。CNN是一种局部激活的前馈型神经网络,具有局部感受野、权值共享与降采样三大基本特征。典型的CNN主要由输入层、输出层、卷积层、池化层以及全连接层组成,其典型网络结果如图1所示。

图1 CNN结果

通过图1可以看出,当待处理图像传入输入层后,需要经过若干个卷积层与池化层的处理,通过若干个全连接层得到最终的输出结果。在卷积层通过滤波掩膜对图像进行卷积操作,能够实现图像局部特征的提取,CNN局部感受野的特征得到了体现。同时在同一卷积层中掩膜的参数保持一致,体现了CNN权值共享的特征。经过卷积层的处理,图像提取的特征进入池化层进行降采样以减少后续数据的处理量,最大值池化是最常用的池化方式。通过上述处理,将提取的图像特征拉伸为特征向量,再经过若干全连接层后,即可实现图像特征的较好分类识别。

CNN主要包括各卷积层的掩膜参数、层与层间的传递权值等。这些参数需要利用大量的训练数据进行优化调节,一般采用误差反向传递传播的方法,将误差反向进行传递,并根据误差逐层调节模型参数,最终达到较好的分类识别性能。

CNN的复杂网络结果、大规模的可设置参数赋予其较强的容错能力与鲁棒性。一方面对图像特征的提取具备平移、旋转及尺度不变性,使得训练好的CNN模型能够较好地适应不同场景的识别问题。另一方面CNN模型在训练中的调参过程耗时较长,一旦训练完成,其识别过程十分迅速,极大增强了CNN的实用价值。

2 基于CNN的手势识别方法

传统的手势识别方法首先通过边缘检测,提取手势区域,之后利用边缘特征、Hog特征、SIFT特征等实现手势特征的提取,最后利用特征向量完成手势的识别。这种方法学习能力较差,对场景的适应性不足。因此基于CNN的手势识别方法,具有较强的容错能力与适应性。

2.1 手势图像的预处理

在实际应用中,手势图像通常只占全部图像的一小部分,为了排除无关图像对手势识别可能造成的影响,需要对图像进行简单的预处理,主要包括手势区域的检测、分割与二值化操作。首先在较大尺度下,通过对人体躯干等结构的识别并在彩色图像中检测手势所在区域;其次利用图像分割,将手势区域分割出来;然后将得到的手势区域利用自适应阈值对图像进行二值化操作,并将背景区域置0,手势区域置1;最后再将手势区域平移至图像中心,并将图像规范为统一大小,作为神经网络的输入。

2.2 CNN的建立与训练

考虑到手势区域的图像不大,特征丰富度不高,因此本文采用了一种6层处理模型,具体如图2所示。

图2 CNN结果

第一层为卷积层C1,利用5×5的卷积掩膜对图像进行滑动卷积,得到局部图像的初级特征;第二层为池化层S2,对C1层得到的局部特征图像进行降采样,利用2×2最大值池化掩膜实现特征数据的1/4降采样;第三层为卷积层C3,利用5×5的卷积掩膜对池化得到的特征图进行进一步特征提取,得到图像的高级特征;第四层为池化层S4,进一步利用2×2最大值池化掩膜并对C3层得到的图像高级特征进行降采样;第五层为卷积层C5,与前两卷积层不同,该层采用全连接方式,对S4层的全部特征进行卷积操作,得到图像的特征向量;第六层为全连接层F6,通过C5特征向量上的全连接权重和,最终得到长度为10的识别结果向量。

CNN模型建立后,需要对其进行训练,以实现模型参数的优化调节。本文采用了Thomas Moeslund手势识别数据库作为训练样本,选择5类手势作为训练对象,每类收拾选择1 000张手势图片,其中每次迭代训练随机选择900张作为训练样本,另外100张作为测试样本,共计迭代10次,得到最终的CNN模型。

2.3 基于CNN的手势识别仿真实验

CNN模型训练完成后,利用数据集中已选取的测试样本对模型的识别性能进行测试,得到5种手势的识别结果,结果如图3和表1所示。

图3 手势示意

表1 手势识别结果

通过仿真实验结果可以看出,模型对手势1、手势2以及手势5的识别效果较好,均达到了100%的准确识别率,而手势3与手势4出现了部分误识别情况,这主要由于手势3与手势4中拇指的间距较小,同时相互区分度不大,才导致在不同拍摄角度产生误识别情况。总体来看,本文提出的基于CNN的手势识别方法取得了较好的识别效果。

3 结语

针对传统手势识别方法所存在的弊端,本文设计了针对手势识别方法的CNN结构,并利用手势数据集实现了网络模型的训练与参数的调节,最后通过仿真实验的结果可以证明该方法在实际生活中具有较强的应用价值。

[1]蔡娟,蔡坚勇,廖晓东,等.基于卷积神经网络的手势识别初探[J].计算机系统应用,2015(4):113-117.

[2]贾维闯,宫进,吴雄华.基于加速度的BP神经网络手势识别设计[J].电子技术与软件工程,2016(21):94.

[3]陈祖雪.基于深度卷积神经网络的手势识别研究[D].西安:陕西师范大学,2016.

Research on gesture recognition based on CNN

Ye Maohua
(Huai’an College of Information Technology, Huai’an 223003, China)

Gesture manipulation, as a new way of operation, has been widely applied in intelligent devices. Traditional gesture recognition methods generally need complex preprocessing with poor recognition speed and accuracy compared with the new. In this paper, a gesture recognition method based on convolutional neural network is proposed, good recognition results are achieved with recognition speed improved obviously.

convolutional neural network; gesture recognition; feature extraction

叶茂华(1981— ),男,江苏淮安人,工程师,学士;研究方向:软件工程。

猜你喜欢
池化层掩膜手势
利用掩膜和单应矩阵提高LK光流追踪效果
一种结合图像分割掩膜边缘优化的B-PointRend网络方法
卷积神经网络模型研究分析*
基于深度学习卷积神经网络的人体行为识别研究
V字手势的由来
基于全卷积神经网络的SAR图像目标分类*
光纤激光掩膜微细电解复合加工装置研发
多层阴影掩膜结构及其制造和使用方法