基于DTW的单个手语识别算法

2016-03-24 02:44:02张露
现代计算机 2016年8期
关键词:规整手语手势

张露

(同济大学电子与信息工程学院计算机科学与技术系,上海 201804)

基于DTW的单个手语识别算法

张露

(同济大学电子与信息工程学院计算机科学与技术系,上海 201804)

手语识别的研究起步于20世纪90年代,国内外知名高校、研究机构和学者在手语识别技术上都投入很大研究力量。采用图像处理方法,从视频图像中,通过提取肤色,图像形态运算,边缘提取,对图像进行预处理,然后对每一帧图像中的手势轮廓数据计算Hu矩,来采集手势特征,最后将动态时间规整(DTW)应用到图像识别中,对0-9十个数字进行检测,实验中,取得较好的识别效果。

手势;DTW;边缘检测;Hu矩

0 引言

基于视觉的手语识别技术还处于初级阶段,已有学者在这个领域做出过很多研究,但是很多理论还没有达到实际应用的水平。人手是柔性物体,手语手势变化多端,灵活度大,不像刚性物体,有具体的长度、宽度等定量特征。如何在复杂的、不断变化的背景中检测并分割手势,如何迅速并准确地识别出手势手语,都是研究这探索的热点。根据获取手语手势的不同方式,现阶段的手语识别技术可分为两大类:基于视觉表现和基于数字设备两大类。徒手手语识别技术不要求打手语者穿戴任何设备,只需要让摄像头采集到手势,剩下的工作全部由计算机完成。任海兵等于2000年研究的连续动态手势识别系统,可以识别12种手势,识别率为97%[1]。2002年,张良国提出了基于Hausdorff距离的手势识别算法,用于静态手势识别,对于中国手语的30个手指语识别效果较好[2]。哈尔滨工业大学的吴江琴、高文等和中科院通信技术联合实验室利用CyberGlove数据手套作为数据输入设备,综合神经网络、隐马尔科夫模型,统计模型、高斯混合模型等技术,对简单语句和单个词汇的识别率分别为90%和94%[3]。2011年华南理工的邹洪在实时动态手势识别关键技术研究中提出了一种基于光流特征的DTW动态手势识别算法[4]。本文在此基础上提出了一种基于DTW的中国手语单个词汇的识别方法。

1 预处理

为了在图像中提取出完整清晰的手部特征,需要对每一帧图像进行处理运算,步骤如下:

将输入RGB图像转换到YGbGr颜色空间,其中肤色阈值为77

对灰度图像进行滤波,以减少噪声;

对图像先进行开运算,消除小图像,在纤细处分离,再进行闭运算,填充图像内部小空洞,链接断裂处[6];

根据大小、位置截取手部区域;

使用Canny算子检测手部图像边缘,并保存数据[7]。

通过这一过程,能够将手部轮廓从视频每一帧图像中分离出来,以便后续提取特征和识别。图1为对原始图像进行分步处理后的结果。图2为最终提取出的手部轮廓。

2 特征提取

手势图像经过预处理后可得到手势的二值化图像、边缘轮廓和轮廓矩阵,这些数据中包含着很多表征手势特征的数据[8-9]。选择特征参数量少,同时易区分和可靠的特征能够有效提高识别率。

图1

图2

轮廓矩,简单的说就是对轮廓上的所有点进行积分运算或者求和运算得到的一个特征,假设手势图像函数为f(x,y),那么图像的p+q阶几何矩(标准矩)定义为:

公式(1)中,p,q=0,1,2,…,p,q分别对应着x维度和y维度上的矩,其大小表示了矩的阶数。当p和q都为0时,m00实际上等同于计算手势轮廓边界点数目的总和。

还可以给出(p+q)阶中心矩的公式:

再对几何矩进行归一化处理,定义式为:

使用Hu矩作为手势特征参数,很好地解决了特征匹配过程中遇到的尺度变化、平移变化、坐标及旋转变化等问题。Hu矩由7个不变矩构成一组特征向量,7个不变矩都由二阶、三阶中心矩构成,其中低阶矩包含了大部分有用的信息,高阶矩不仅负载而且存在比较多的噪声,为了克服噪声和减少计算量,采取了前2个M1,M2作为特征值,其定义如下:

对视频的每一帧图像中的手势进行Hu矩特征提取,可得到一组对应时间序列的矩阵,为后续识别提供数据。

下表为数字1的手语表达,从手部抬起到放下过程对应的Hu矩特征值序列,为方便表示,Hu矩值只写出了小数点后两位。

3 手势识别

动态时间规整(Dynamic Time Wraping,DTW)是采用动态规划技术,将一个复杂的全局最优化问题,化为许多局部最优化问题一步步地进行决策,由于此算法应用于语音识别领域而被广泛地研究,迄今为止已经在很多领域得到了应用。

时间序列是用时间排序的一组随机变量,由目标对象的某个物理量在不同时间点的采样值按照时间先后次序排列而组成的序列。通常情况下,处理时间序列数据的方式是将两个序列进行对比,在某些领域,欧氏距离等这样简单的距离度量方法就足够了,然而在多数情况下,两个序列的形状走势相同,在时间维度上的投影差别却很大。

DTW算法在时间序列相似性测量方面非常有效,它允许通过时间序列的“弹性”变换来最小化移位和扭曲的影响,能够用不同的相位来检测相似性。如设参考模板特征矢量序列为A={a1,a2,…,am},被测数据的特征矢量序列为B={b1,b2,…,bn},DTW算法就是要寻找一个最佳的时间规整函数,使A的时间轴非线性的映射到A的时间轴,总的累计失真最小。

构造一个m×n的代价矩阵C=[c(i,j)],为了找到两个序列的最佳匹配,从矩阵中找到一个路径使它们的累计距离最小,A与B之间的规整路径p的累计代价函数表示为cp(A,B),定义为:

表1

其中规整路径p=(p1,p1,…,pl,…,pL),l∈[1:L],是一个A与B之间的映射队列,A与B之间的最优规整路径P*就是累计代价函数取得最小值时的路径,DTW的度量公式为:

其中p*通过下面公式得到:

还需要对规整路径给出约束条件:

边界条件:路径必须从p1=(1,1)开始,到pL=(m,n)结束。

连续条件:查询候选序列中的每一点都必须用在规整路径中,在路径中,索引i和j都只能增加0或者1。

单调条件:规整路径永远不能返回。

坡度约束条件:路径不能太陡或者太缓,这一限制组织了非常短的子序列阿里匹配一个长序列。

通过这些约束,最后计算出最优规整路径,从而给出DTW(A,B)。由于手语也是基于时间序列的表达,因此可以利用DTW算法来实现识别[10],计算两段手语表达数据的距离来比较其相似度。

4 实验结果

为验证算法,在MATLAB中编程实现上述算法过程,手语视频使用中国科学院计算技术研究所视觉信息处理和学习研究组发布的开源DEVISIGN中国手语数据库。在数据库中选取0-9数字的手语表达视频,每个数字选取3组样本,1组样本作为参考模板,另外2组作为被测数据。以数字1为例,经过程序计算,参考模板与被测数据手势“1”的累计距离如表2。

从表中数据可知,被测数据中,手势“1”的累计距离最小,也就是说手势数字“1”与被测模板中的数字“1”相似度最高,达到了识别效果。

但是由于手部动作变化丰富,在光照条件不好,图像不清晰的情况下会有一定概率识别错误。针对10个数字多次计算识别之后,识别率在90%以上。

表2

5 结语

本文提出了一种基于Hu矩和动态时间规整(DTW)方法的单个手语词汇识别算法。将广泛用于语音识别的DTW算法应用到图像处理上,对于单个词汇取得了较好的识别效果。相较于使用辅助设备如数据手套等的识别方法,本文的识别方法仅使用视频图像,更加便捷。但是由于中国手语非常复杂,图像中仅提取轮廓Hu矩也不能完全表达手部特征,下一步工作将研究如何从视频图像中提取更加完整准确的手部特征来进行识别。

[1]任海兵,祝远新,徐光祐,等.连续动态手势的时空表观建模及识别[J].计算机学报,2000,23(8):824-828.

[2]张良国,吴江琴,高文,等.基于Hausdorff距离的手势识别[J].中国图像图形学报(A辑),2002,7(11).

[3]吴江琴,高文.HMM方法在手语识别中的应用.计算机工程与科学,1999,21(3):40-44.

[4]邹洪.实时动态手势识别关键技术研究[D].华南理工大学,2011.

[5]柯研.基于肤色模型的人脸检测算法研究[D].华中科技大学,2008.

[6]文华.基于数学形态学的图像处理算法的研究[D].哈尔滨工程大学,2007.

[7]]王小俊,刘旭敏,关永.基于改进Canny算子的图像边缘检测算法[J].计算机工程,2012,14:196-198+202

[8]商立群,杜亚娟.Hu矩和Zernike矩在图象识别中的应用[J].西安科技学院学报,2000,01:53-56.

[9]董立峰.基于Hu矩和支持向量机的静态手势识别及应用[D].武汉理工大学,2012.

[10]倪训博,赵德斌,姜峰,程丹松.Viterbi和DTW算法的关系分析——在非特定人手语识别中的应用[J].计算机研究与发展,2010,02:305-317.

[11]J.L.Raheja,M.Minhas,D.Prashanth,T.Shah,A.Chaudhary,Robust Gesture Recognition Using Kinect:A Comparison Between DTW and HMM,Optik-International Journal for Light and Electron Optics,Volume 126,Issues 11-12,June 2015,Pages 1098-1104,ISSN 0030-4026,http://dx.doi.org/10.1016/j.ijleo.2015.02.043.

[12]Choi H R,Kim E J,Kim T Y.A DTW Gesture Recognition System Based on Gesture Orientation Histogram[C].Consumer Electronics(ISCE 2014),The 18th IEEE International Symposium on.IEEE,2014:1-2.

[13]Jambhale S S,Khaparde A.Gesture Recognition Using DTW&Piecewise DTW[C].Electronics and Communication Systems(ICECS),2014 International Conference on.IEEE,2014.

Gesture Recognition Based on DTW

ZHANG Lu

(Department of Computer Science and Technology,School of Electronics and Information Engineering,Tongji University,Shanghai 201804)

Sign language recognition research started in 1990s,domestic and foreign well-known universities,research institutions and scholars have put a lot of effort into this.Uses the image processing method,find the contour of gesture,and calculates Hu moments as the feature of each gesture,applies the dynamic time warping(DTW)method to the detection,to recognize the gesture of number 0 to 9.The experiment results show that the algorithm has a good performance.

Gesture Recognition;DTW;Edge Detection;Hu Moments

1007-1423(2016)08-0077-04

10.3969/j.issn.1007-1423.2016.08.016

张露(1992-),女,河南安阳人,硕士研究生,研究方向为计算机视觉、手势识别

2016-01-22

2016-02-26

猜你喜欢
规整手语手势
手语学习,只为更懂你
300kt/a硫酸系统规整填料使用情况简介
挑战!神秘手势
自然手语在聋人大学生手语中的使用调查研究——以南京特殊教育师范学院为例
活力(2019年15期)2019-09-25 07:23:06
V字手势的由来
胜利的手势
提高日用玻璃陶瓷规整度和表面光滑度的处理方法
佛山陶瓷(2016年11期)2016-12-23 08:50:27
电梯的建筑化艺术探索
大观(2016年9期)2016-11-16 10:31:30
奇怪的手语图
基于发音机制的贪婪自适应语音时长规整算法
计算机工程(2015年8期)2015-07-03 12:20:34