黄国范,李 英
(南阳师范学院 软件学院,河南 南阳 473061)
随着人机交互技术的发展,手语识别逐渐成为人们研究的热点.手语识别可以分为基于视觉的识别系统和基于数据手套的识别系统[1],基于视觉的手语识别方法交互方便自然,更能反映机器模拟人类视觉的功能,是目前手语识别的研究重点.
手势识别的方法主要有三种:模板匹配法、隐马尔可夫模型法以及神经网络法[2],而模板匹配法主要用于静态手势的识别.模板匹配法首先要进行手势训练以建立模板库,然后提取出合适的特征向量与模板进行匹配[3].但是,由于每个人的手指粗细大小不同,而且同一个手势平移以及偏转之后的意义并不影响手势本身所传达的意思,所以手势识别中提取的特征向量必须要保证其视觉不变,即消除平移、旋转、缩放、粗细变化等各种视觉敏感问题.
本文采用模板匹配的方法对字母手势进行识别,提取出傅立叶描述子作为特征向量,来消除视觉敏感问题,保证对于平移、旋转、缩放、粗细变化等各种仿射变换的不敏感性.实验结果表明,我们的方法对字母手势的识别是可行.
字母手势图像的预处理主要包括灰度变换、平滑、二值化等,为图像的识别作好准备工作.
灰度图像不是简单的非黑即白,而是用0(黑)到255(白)之间的灰度值来描述图像.灰度划分越细,越能准确的再现图像.实验中通过数码相机采集的JPEG图像,是24位真彩色图像.这种格式的图像数据量非常大,直接识别会大大影响速度.因此,我们首先要进行灰度化处理.具体做法是将JPEG图像的RGB三个颜色分量分别提取出来:
cColor为图像的RGB值,R,G,B分别为提取出的红、绿、蓝三个颜色分量.然后再根据下式进行灰度转换:
图像的平滑主要是减少图像噪声.图像平滑的方法主要有两种:一种是全局处理,另一种是局部处理[4].本实验由于背景单一,摄入的图像噪声较少,因此采用局部平均法进行图像的平滑.局部平均法的主要操作是模板运算.模板运算是图像处理中经常使用的一种运算方式,常用的算法是将图像中某个像素的灰度值和它周围相邻的八个像素的灰度值相加,然后再求取平均值,以此来作为新图中该像素的灰度值.该算法可表示为:
图像的二值化是将灰度图像转换为只有两个灰度值即黑白图像的过程.最简单的图像二值化方法可通过设定阈值来完成,即当该点的像素值大于设定的阈值时,以“0”标志,否则以“1”标志.所以二值化的关键在于阈值T的选择.
在实验中,由于采用的为单一的黑色背景,与手的灰度相差较大.因此,所采用的阈值设定方法为:先拍摄一张背景图片,然后取背景图像的平均灰度值,再乘以一个系数,便可得到二值化的阈值T:T=B*2.5
其中,B为背景图像的平均灰度值.
字母手势c的灰度及二值化处理效果图如下所示:
图2.1 原始图像
图2.2 灰度图像
图2.3 二值图像
模板匹配是数字图像处理的重要组成部分之一.模板匹配就是计算一个固定的目标模式和一个未知图像块的相异程度,用一个阈值决定输出.模板匹配可以用来确认一幅图中是否存在某种已知模板图像[5].模板匹配的方法主要有两种:全局匹配和特征匹配.全局匹配是把待测图像中的每一像素和模板图像中的每一像素都进行匹配,以对待测图像进行识别分类.而特征匹配则是提取出图像的某些特征,如直方图、点、线等几何特征进行匹配[3].为了降低计算复杂度,实验中选用特征匹配的方法,从待测图像和模板图像中分别提取出具有代表性的特征向量,然后对二者的特征向量进行相似度计算即可进行字母手势图像的识别.但是,由于手势本身具有的多样性、多义性以及时间和空间上的差异性等特点,因此,提取出的特征向量既要能够反映分类本质,又要具有较小的信息冗余度,而且还要保证对于旋转、缩放、位移等视觉不变性.实验中,我们选用了归一化的傅立叶描述子进行手势的特征提取,来消除手势图像对于平移、旋转和尺度的视觉敏感性.
傅立叶描述子(Fourier Descriptors)是物体形状边界曲线的傅立叶变换系数,是一种描述不受平移变换及旋转影响的曲线的方法.
傅立叶描述子的基本思想:选取字母手势图像边界上的某一点作为起始点,沿着边界曲线以逆时针方向运动,得到函数z(s),其中s为沿着手势图像形状边界距起始点的曲线距离,将z(s)展开为傅立叶级数,其系数便为z(s)的傅立叶描述子.而对于离散的数字图像,由于其边界坐标是离散的,因此其傅立叶描述子可以从z(s)的离散傅立叶变换中计算出来.我们可把图像坐标的序列点看作复数:
其中x轴为实轴,y轴为虚轴.
一维离散的傅立叶系数可定义为:
其中z是p的傅立叶变换.
上述介绍的傅立叶描述子与物体形状的大小、方向和曲线的起始点位置有关.为了识别具有旋转、平移和缩放不变性的形状,需要对傅立叶描述子进行归一化处理.根据傅立叶变换的性质,将物体平移a长度,放大r倍,旋转角度φ和平移位移(x0,y0)后,新形状的傅立叶系数为:
其中:k=0,1,…,n-1,x'(I)+y’(I)=x(I+a)+iy(I+a)
归一化的傅立叶描述子定义为:
利用归一化的傅立叶描述子便可以计算任意两个手势图像的相似程度,可以将手势图像边界的傅立叶描述子同模板库中手势图像的傅立叶描述子进行比较.
字母手势识别系统分为两个阶段:训练阶段和识别阶段.训练阶段,采用k_means聚类算法进行手势训练,得到字母手势模板;识别阶段,提取出归一化的傅里叶描述子作为特征向量对测试样本进行描述,进而与模板进行匹配,从而识别各种待测手势.
在字母手势识别系统中,使用高清数码相机进行图像的采集,并约定为黑色背景.在30个字母手势图像库中,我们分别对不同演示者从不同角度进行取照,每个字母手势取照10张,共形成300张图像库,选择其中5套作为训练样本,其余5套作为测试样本来进行识别.在这5组测试集上,平均识别准确率为92%,单组测试集上的最好识别率为96.7%,最差识别率为86.7%.文献[2]中,基于几何矩的平均识别率仅为86.7%.由此可见,我们的方法显著地提高了字母手势识别的准确率.
表1 测试集上的字母手势识别结果
在字母手势识别算法中,我们采用了模板匹配的方法进行手势的识别.在特征向量的选择上,我们选用了傅里叶描述子对测试样本与模板进行描述,以消除视觉敏感问题.实验结果表明,我们的方法较好地实现了字母手势的识别.
〔1〕Pavlovic V,Sharma R,Huang T.Visual Interpretation of Hand Gestures for Human-computer Interaction:A Review[J].IEEE PAM I,1997,19(7):156.
〔2〕张良国,吴江琴,高文,等.基于 Hausdorff距离的手势识别[J].中国图象图形学报,2002,7(11):2.
〔3〕何斌,马天予,等.Visual C++数字图像处理(第二版)[M].北京:人民邮电出版社,2002.146-148.
〔4〕李俊山,等.数字图像处理[M].北京:清华大学出版社,2006.125-128.
〔5〕何斌,马天予,等.Visual C++数字图像处理(第二版).人民邮电出版社,2002.