丁亮,武林,刘清民
(1.中国科学技术信息研究所,北京 100038;2.重庆理工大学保卫处信息科,重庆 400054)
基于边缘保持中值滤波和BP神经网络的自然手势识别研究
丁亮1,武林2,刘清民1
(1.中国科学技术信息研究所,北京 100038;2.重庆理工大学保卫处信息科,重庆 400054)
旨在对噪声干扰下的自然手势进行提取并识别,通过图像小波去噪、提取边缘的中值滤波处理,再将手势样本二值化并进行区域特征的提取,得到自然手势的二值化图像。基于BP神经网络对自然手势模拟,实现自然手势的去噪识别。对已有自然手势识别技术进行分析并做出合理展望,为自然手势识别研究提供新思路。
中值滤波边缘提取;区域特征提取;BP神经网络
自然手势识别技术是人工智能和自动化发展过程中必须解决的问题,生活中自然手势已经成为人机交互的重要信息。这些自然手势大数据的正确识别成为计算机科学与自动化领域研究的热点。国内外已经有很多的研究者从不同角度进行了不同程度的研究与应用,并且取得了一些研究成果。因为文化差异和应用情景的不同,使得手势识别研究不能整合到完整的框架中,理论及技术并没有成为一个完整的体系。
笔者通过小波去噪处理输入,将其二值化处理,根据边缘保持中值滤波等特征工程进行噪声去除。利用BP神经网络学习手势模型,实现常见手势识别。
20世纪90年代,Starner首先利用HMM模型进行美国手语(ASL)的识别研究,利用4个特征值构成单手手势的特征向量[1],University of Illinois的Pavlovic,V.I.等人提出手势识别的可视化交互研究,首次提出了手势识别的数学模型[2],Aditya Institute of Technology的GRS Murthy博士提出手势识别中的数据手套作为输入设备[3],哈尔滨工业大学的高文教授提出基于Hausdorff距离的手势识别[4],清华大学徐光祐教授进行了基于线条特征的手势识别研究,通过过去特征线条的特征、曲线段的跟踪、运动参数的获取、手势识别几个步骤[5],燕山大学的杨阿妮硕士提出基于马尔科夫模型的手势识别系统研究[6],上海海事大学的殷涛硕士提出了基于几何矩的手势识别算法[7],Jintae Lee和Tosiyasvl kunii进行了通过立体图像自动分析三维手势的研究工作,成功提取27个交互作用的手参数,实现了三维手势的重构[8],这些研究为虚拟现实交互技术的发展和机器人研究的发展做出了贡献。但是均未考虑自然手势原始图像中的噪声信息,即上述研究中的自然手势均为预处理好的单一场景下的样本数据。本文提出基于边缘保持中值滤波的噪声去除方案,对原始图像中的手势以外噪音进行去除,并用BP神经网络训练实现基本自然手势识别。
考虑背景干扰发生在图像采集中的情况,我们可以把图像劣化分为两种,一种是目标失真或者模糊而劣化,另一种是障碍物出现在目标图像上导致的劣化。像后者那样的障碍物就是图像的噪声。笔者针对手势图像采集时候可能出现的噪声,进行边缘检测并基于边缘保持提取手势特征实现去噪。
下面简单介绍连续小波变换理论将任意地L2(R)空间里的函数 f(t)在小波基下展开,表达式为:小波变换和傅立叶变换一样,是一种积分变换,f(a,b)为小波变换系数。不同于傅立叶变换的是小波具有尺度a和平移b两个参数,这样有利于提取信号函数的本质特征。
对于噪声处理,最好的结果是噪声被消除了,而边缘还完好地保留着。如图1所示,我们采用边缘保持中值滤波的方式进行,边缘保持中值滤波不仅可以用于噪声点消除,还可用于边缘提取,由于图像中的自然手势与背景之间的交界是边缘,边缘存在于图像中灰度、纹理结构或者色素点聚变的地方,首先将其灰度化,然后将焦点集中在灰度上就可以进行RGB256中相邻色素点大于整体标准偏差的点作为边界点:
图1 小波去噪算法
图2-图5分别为无障碍自然手势和有障碍自然手势加入椒盐噪声之后小波去噪的结果和进行边缘检测的处理结果。
对于有障碍自然手势样本图像,必须进行适当的特征提取,我们采用基于特征参数来提取物体。研究中我们采用以下几种特征描述:区域特征描述(面积、周长、重心)、形状特征描述(圆形度、欧拉数)、曲线和表面的拟合。在图像分析中,为了描述物体边界或者其他特征,需要将局部离散拟合为曲线或者曲面,通常使用最小均方误差准则来找出一定参数形式下的最佳拟合函数。
以图3为例,样本中不仅包含自然手势,还掺杂质图像,我们首先读入图像,进行阈值化处理、图像平滑、区域标记,最后计算出每个物体的上述特征,可见其中长宽比和面积最大的区域只有自然手势一个区域,只要把面积较大和长宽比较大区域提取出来即为自然手势区域。通过上述算法流程,得到通过特征提取的自然手势如图6所示。
图6 有障碍自然手势区域特征提取
BP算法是Rumelhart等人在1986年提出来的,由于其结构简单,可调整的参数多,可操作性好,得到了非常广泛的应用。
图2 无障碍自然手势去噪
图3 无障碍自然手势轮廓提取
图4 有障碍自然手势去噪
图5 有障碍自然手势轮廓提取
该网络在结构上与自组织特征映射的神经网络相似,分为输入层和输出层,输入层采集特征提取后的平面图像数据,主要在进行手势识别时候需要各个手指的手部姿势的信息,需要14个可能活动的红色节点信息,如7图所示,输入的每个量看作十四维空间中的一个特征向量;连接层采用全连接的方式,即每一个输出节点都与输入层的14个输入节点连接,每个连接都有相对应的输入权值ω。每个输出节点对应的14个ω表征了十四个输入量对于此输出节点的不同重要程度,输入权值在训练的过程中进行调整;输出层成为竞争层,每个输出节点根据各个输入的数值和权值进行计算后输出。在这个过程中,每一次全面输出都对应一种手势。
图7 自然手势关节
针对9个节点进行BP神经网络模型构建,输入-规则-输出三层模型设计必须遵循神经网络结构,其神经元的传递是S型函数,输出量为0~1的连续量,可以实现从输入到输出的任意非线性映射。其中ωij(i,j=12…9)表示权值,其中传输函数通常采用sigmoid函数。设计的BP神经网络的隐含层总共9×5=45个权值,输入-输出层构造五种手势如图8所示,该研究就以简单的数字识别为例,该部分就特征提取部分提取的手势为例子,进行训练和仿真。如下为仿真结果,输入手势5和0时能得到对应的类别向量。
判定为 5,输出的类别向量为(0,0,0,0,1,0,0,0,0)
判定为 0,输出的类别向量为(1,0,0,0,0,0,0,0,0)
图8 神经网络模型构建
本文采用了图像采集、二值化、小波去噪、叠加椒盐噪声、提取边缘的中值滤波处理、提取自然手势部分的区域特征处理、模拟自然手势的BP神经网络模型这几种计算机图像学和人工智能技术进行作为最关键的处理机制。通过上述机制很好地解决了有噪声障碍的自然手势识别,并取得了很好的效果。
在当今交交互系统应用广泛的时代,自然手势识别交互系统的研究可以大大使得生活变得方便,例如可以制造出更加人性化的电子游戏设备、在医学上可以进行机器人手术操作来提高手术准确度、在残疾人疗养中心可以采用自然手势识别交互系统来帮聋哑人方便的交流,甚至在当前流行的电子商务网站中运用自然手势别是交互系统来便于企业盈利[9]。
[1]Starnert,Pentland A.Real-Time American Sign Language Recognition from Using Hidden Markov Model[R].Technical Report,375,MIT Media Lab,Perceptual Computing Group,1995.
[2]Pavlovic V I,Sharma R,Huang T S.Visual Interpretation of Hand Gestures for Human-Computer Interaction:A Review[J].Pattern Analysis and Machine Intelligence,IEEE Transactions on,1997,19(7):677-695.
[3]Murthy G R S,Jadon R S.A Review of Vision Based Hand Gestures Recognition[J].International Journal of Information Technology and Knowledge Management,2009,2(2):405-410.
[4]张良国,吴江琴,高文,等.基于Hausdorff距离的手势识别[J].中国图象图形学报,2002,7(11):1144-1150.
[5]任海兵,徐光祜.基于特征线条的手势识别[J].软件学报,2002,13(5):987-993.
[6]杨阿妮,常丹华.神经网络与马尔可夫模型的手势识别系统[J].电子测量技术,2010,33(4):60-64.
[7]殷涛,葛元,王林泉.基于几何矩的字母手势识别算法[J].计算机工程,2004,30(18):127-129.
[8]Hans Rijpkema,Michael Girard.Computer Animation of Knowledge-Based Human Grasping[J].Computer Graplrics,1991,25(4):339-348.
[9]丁亮.关于电子商务网站中商品分类的分析[J].中国电子商务,2012(22):12-12.
Abstract:Extracts and identifies the natural gestures under noise interference.Through the image wavelet denoising,the median filtering process of the edge is extracted,and the gesture samples are binarized and the regional features are extracted to obtain the binarized image of the natu⁃ral gestures.Based on BP neural network for natural gesture simulation,to achieve the natural gesture denoising identification.Analyzes the existing natural gesture recognition technology and makes a reasonable prospect,and provides a new idea for natural gesture recognition re⁃search.
Keywords:Edge Extraction Median Filter;Feature Extraction;BP Neural Network
Research on Natural Gesture Recognition Based on Edge Preserving Median Filter and BP Neural Network
DING Liang1,WU Lin2,LIU Qing-min1
(1.Institute of scientific and Technical Information of China,Beijing 100038;2.Chongqing University of Technology,Chongqing 400054)
1007-1423(2017)25-0010-04
10.3969/j.issn.1007-1423.2017.25.003
丁亮(1994-),男,陕西汉中人,硕士研究生,研究方向为自然语言处理与机器翻译
武林(1991-),男,江苏连云港人,硕士研究生,研究方向为大数据技术及应用
刘清民(1993-),男,辽宁朝阳人,硕士研究生,研究方向为自然语言处理与机器翻译,Email:dingliang2015@istic.ac.cn
2017-07-27
2017-07-31