一种基于改进DTWIMP算法的手势识别

2017-12-02 17:06赵磊周亦敏
软件导刊 2017年11期
关键词:手势识别

赵磊+周亦敏

摘要:手势识别是一种多维空间应用,而传统DTW算法只能解决一维问题,对其进行拓展,演化为不同维度运用,得到一种全新基于改进的新型算法DTWIMP,它能计算两个N维时间序列之间的距离。以欧氏距离为元素组成矩阵,根据Bellman最优化原理得到最优规整路径,结合预先录入的手势模版,实现动态手势识别。

关键词关键词:DTW;DTWIMP;欧氏距离;Bellman最优化;手势识别

DOIDOI:10.11907/rjdk.171904

中图分类号:TP3-0

文献标识码:A文章编号文章编号:16727800(2017)011001204

0引言

计算机视觉技术飞速发展,人机交互技术(Human Computer Interaction,HCI)显得愈发重要。人机交互最终目标是人与计算机能以更直观、自然的方式进行交流,所谓自然交互方式是指将人与人交流的手段引入HCI。对此国内外学者开展了大量研究,包括人脸与人体识别、面部表情、体态交互技术研究。手势作为人机交互领域重要一环,具有直观性、自然性特点,在交互式游戏、家电控制、手语识别、模拟训练及机器人控制领域得到了广泛应用。

使用传感器(深度摄像机或LeapMotion)捕获手势运动轨迹[1]。对于静态手势只需关心空间中手的位置与形状;对于动态手势实质上需识别手势轨迹,重点在于如何准确在手势时间序列上检测到手势起始点与终止点,规避手势交互中回程问题。本文对一维DTW加以拓展与改进,通过实验验证其在动态手势识别中的重要作用。

1DTW算法分析与改进

动态时间规整(Dynamic Time Warping,DTW)算法是一种动态规划技术,对非线性时间归一化后进行模式匹配[2]。该算法是种弹性匹配算法,用以解决两个时间序列在时间轴上长度不规整问题。

DTW算法可实现对于不同长度时间序列相似性的判断,传统DTW算法都是针对一维特征输入情况,由于手势输入特征是多维的,需要能够计算2个N维时间序列之间距离的算法,为此本文提出基于改进的DTWIMP算法,原理如下:

假定有两个不同时间序列X={x1,x2,…,xx}T与Y={y1,y2,…,yy}T,其中xi,yj是N维的向量,该时间序列长度分别为X与Y,构造规整路径Z={z1,z2,…,zz}T。因此规整路径序列Z的长度定义如下:

3实验分析验证

3.1模板相似度分析

获取模板距离后,可根据相似度公式分别计算出当前输入序列与各手势模板之间相似度(见图6)。横轴代表手势模板类型,不同线型代表当前输入序列与模板相似度。以手势O为例,定义输入序列与模板序列之间相似度为Likehoods,可得输入序列与手势模板O之间相似度最大,Likehoodsmax=0.365,而该输入序列与其他模板手势相似度明显低于该值,表明该输入序列最可能的分类标签是手势O。其余手势相似度曲线可由类似分析得到结论。

图6测试序列与参考模板相似度

3.2模型平均正确分类比率分析

评估DTWIMP算法对应不同训练样本的分类性能,对于MCI系统而言极其重要,因为如果使用3组训练样本与使用30组样本能达到同样分类性能,则数据采集及训练阶段将会节省大量时间。

ACCR(Average Correct Classification Ratio)代表平均分类正确率,为了验证每种手势样本训练数据集大小对DTWIMP算法分类性能影响(如3组样本训练集得到分类器性能与20组样本训练集得到分类器性能肯定不同)。设计如下实验:选取10名参与者,对同一种手势分别进行η(3≤η≤20)次样本数据实验,因估计模板阈值至少需要3组训练样本,所以最小取值3而非1。为避免选取实验样本出现“极好”情况(随机挑选训练数据得到最好模板),η的取值应重复10次,分别记录每一次ACCR值,尽量保证训练样本质量在同一水平,记录ACCR平均值来验证算法性能(见图7)。

图7分类正确率与样本数量关系

从上述数据可以看出,DTWIMP算法在训练集大小为3时,ACCR达到了74.55%正确率,在训练集大小为20时,达到了94.18%的正确率。ACCR总体趋势是大小与训练集样本数量呈正比趋势,训练集大小达到12时,ACCR值超过90%(虚线);训练集大小超过12后,ACCR提升并不明显。

实验发现,η的每次重复实验中,10名参与者标准偏差非常大,这表明DTWIMP分类性能很大程度取决于训练样本质量,例如某些参与者使用3组样本数据得到了ACCR值大于90%的结果,而另一些参与者使用3组不同质量样本集却得到了ACCR值小于70%的结果。说明样本集质量好坏对于分类算法结果具有重要影响。从图7可以看出,实际手势模板训练中,综合算法鲁棒性及节约时间考虑,每种手势样本集大小不少于12即可得到90%以上分类正确率。

3.3算法改进前后实时性对比

DTWIMP算法对全局规整进行边界约束,减少模板匹配所需计算次数,节省规整时间,提高了算法实时性[10]。以本文6种手势样本为例,分别重复进行50次預测实验,记录算法改进前后50次预测时间,图8为改进前后手势O预测时间对比。

图8算法改进前后手势O预测时间对比

通过计算,6种手势算法改进前平均耗时37.75ms,改进后平均耗时25.75ms,验证了经过路径约束后,算法实时提高31.79%(见表1)。

4结语

DTWIMP算法为多元状态空间动态手势提供了强大分类能力,实验结果证明该算法对于预定义的几种手势(在数据预分割与有限训练数据集条件下)有着优秀分类性能,同时该算法对于连续数据流中包含无关空手势的情况也取得了合适的分类结果。endprint

本文基于传统动态时间规划算法提出了多维状态空间DTWIMP算法,对全局规划路径进行限制,通过改进后DTWIMP算法对手势特征输入进行训练,辅以相应滤波、预处理、后处理,并通过KFolds折交叉验证模型健壮性。实验结果证明,较之基于颜色空间、手型等识别方法,该方法对于复杂背景具有良好适应性与鲁棒性,识别速度与识别准确率均有提高。另外,本文只研究了动态手势,但很多场景下静态手势识别也非常重要,因此如何提取手型特征将是一个难点

参考文献参考文献:

[1]余旭.基于Kinect传感器的动态手势识别[D].重庆:西南大学,2014.

[2]杨洁,康宁.动态时间规整DTW算法的研究[J].科技与创新,2016(4):1112.

[3]WANG L, ZHANG Y, FENG J. On the euclidean distance of images[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2005,27(8):13341339.

[4]徐波,于劲松,李行善.基于路径约束的动态时间规整方法研究[J].系统工程与电子技术,2004,26(1):103105.

[5]吴宇琼,杨巧梅.Bellman最优模型的应用[J].北方经贸,2007(8):142144.

[6]HERNANDEZVELA A, BAUTISTA M A, PEREZSALA X, et al. BoVDW: bagofvisualanddepthwords for gesture recognition[C].International Conference on Pattern Recognition,2012:449452.

[7]F CHANG, HC CHEN, HC LIU. Double kfolds in SVM[C]. Blumenau:Innovative Mobile and Internet Services in Ubiquitous Computing (IMIS),2015.

[8]高岳林,徐成賢.边界约束非凸二次规划问题的分枝定界方法[J].运筹学学报,2001,5(4):8189.

[9]曲智国,高颖慧,王平,等.基于空频域联合阈值分割的轮廓检测方法[J].计算机科学,2012,39(10):286289.

[10]柯映林,贾明.带边界约束的B样条曲面逼近[J].计算机辅助设计与图形学学报,2003,15(12):15491553.

责任编辑(责任编辑:何丽)endprint

猜你喜欢
手势识别
基于手势识别的工业机器人操作控制方法