基于多特征组合的动态手势识别

2018-06-19 12:58曹海婷戎海龙焦竹青马正华
计算机工程与设计 2018年6期
关键词:手形手势识别率

曹海婷,戎海龙,焦竹青+,马正华

(1.常州大学 信息科学与工程学院,江苏 常州 213164;2.常州大学 城市轨道交通学院,江苏 常州 213164)

0 引 言

手势识别技术目前主要有基于视觉的手势识别[1]和基于佩戴式的手势识别[2]。对于动态手势的识别,单一传感器有着自身局限性,多传感器已广泛使用[3,4]。其中SEMG和ACC这两类传感器,以其低成本、便携式和捕捉手势动作信息方面的优势,已经用于手语手势研究[5]和步态行为研究[6]等。

动态手势识别中特征参数的选取对识别系统的性能和计算复杂度有较大的影响,目前对SEMG和对ACC信号提取的特征过于单一[7,8],虽然计算量小速度相对较快,但算法本身不是很完善,会限制其在实际中的应用。文献[3]采用基于信息增益的特征选择算法选取最佳特征子集,虽然识别效果较好但是此方法需要综合考虑所选的算法是否适合所选的分类器,存在着不确定性。Liu JH等[9]进行决策级融合,有较好的抗干扰性但对预处理以及特征参数有较高的要求。

为了提高系统性能以及识别效果,本文对SEMG和ACC传感器进行特征水平上的融合,提出一种基于多特征组合的动态手势动作分类方法,探究不同特征组合对手势识别效果的影响。为了对短时间肌肉收缩动态手势的分割有较好的连续性,采用样本熵算法对活动段进行分割;对两类传感器提取不同种类的特征并进行多种组合,采用实验对比分析的方法选择最优的特征组合;对比随机森林、决策树、支持向量机和HMM这4种不同的分类器,最终选取HMM模型进行手势识别。

1 方 法

本研究多传感器手势动作的识别框架如图1所示,由信号采集、活动段分割、特征提取并融合以及分类识别4部分构成。这节重点介绍活动段分割、特征提取并融合以及分类识别。

图1 动态手势动作识别框架

1.1 活动段分割

活动段分割的目的是从SEMG及ACC信号中分割出有效手势活动段,从连续信号中自动确定活动段的起始点。如何从连续手势信号中分割出有效手势目前还没有比较完善的方法,SEMG信号能代表肌肉活动水平,当手势运动从一个动作到另一个动作时,相应肌肉会出现短暂放松,因此采用SEMG信号的幅值变化信息可以用于两类传感器的数据分割[10],ACC信号流同步于SEMG信号。此外相对于ACC的活动段提取方法,SEMG传感器检测手势是否处于活动段的方法更为成熟。实验研究发现,相比于振幅包络,移动平均法等分割方法,样本熵对手势分割具有更好的效果,对运动插入噪声的抑制效果较好。样本熵用于手势分割具体以下步骤:

(1)利用式(1)计算SEMG信号4通道在i时刻的平均值。根据实验选择移动窗内的窗口长度n=64,即对SEMG信号进行64点滑动窗分帧,重叠窗口长度为32

(1)

(2)然后计算每帧的样本熵值E,样本熵值的具体计算方法参考文献[11]。之后设定自适应阈值Th1和Th2。当某时刻E值大于Th1,并且接续5个值都大于Th1,则此时刻是活动段的起点;当某时刻E值小于Th2,并且接续的5个点都小于Th2,则此时刻是活动段的终点。设置接续点是为了防止短暂性间隔而导致将一个手势识别成两段的情况,根据实验设置接续点为5时效果最佳。此外起始值Th1大于终止值Th2,较高的Th1能够防止无意抖动导致识别为有意义手势,较低的Th2能够防止动作运动中幅度值较低发生断裂。

1.2 特征提取

当有效手势被完整分割后,要用有效的特征向量对动作进行描述。SEMG信号能够反映手的形态以及手腕屈伸等信息,对运动尺度较小的手势区分能力好;ACC信号能够反映手臂的动作轨迹以及位置等信息,能够较好地区分出运动尺度较大的动作。由于肌电和加速度计数据表示不同的物理意义,特征提取之后也常常具有不可比性,因此要对肌电和加速度计数据进行归一化处理,根据实验本文选择以最大值最小值尺度变换方式线性归一化至-1到1。

1.2.1 手形特征提取

手形是指手掌、手腕以及手指的状态,SEMG信号数据能够描述手形状态。目前对于SEMG信号通常提取时域、频域和时频域特征,但对于选取何种特征还没有理论最优方法,一般情况下尝试采用各种特征提取方法,然后选择满足系统需要的最优特征。但是已经有研究证明与时频域特征相比,频域特征通常效果不佳[12]。因此选取绝对平均值(MAV)、4阶自回归(AR)系数以及小波变换(WT)作为手形特征。

(1)不同动作之间由于肌肉活动力量不同,SEMG信号的幅度值会有所不同,MAV能够反映SEMG的幅值变化。MAV用式(2)表示,其中移动窗口长度N=64,重叠窗口长度为32,u(i)表示SEMG的第i个数据采集点

(2)

(2)SEMG信号是一种非平稳的生物电信号,但是在较短时间内能看作是平稳信号,可以用AR模型对信号进行分析。AR模型表示见式(3)

(3)

其中,al表示AR中第l个系数,p表示AR的阶数。根据已经以往实验分析,当p=4时识别效果是最佳的,p太大会导致计算量过高,p太小会导致分辨效果不佳。

(4)

采用离散小波变换方法对SEMG信号进行多尺度分解,提取尺度水平为4的dB4小波基函数。对4尺度小波基函数提取1个近似系数(A4)和4个细节系数(D1~D4)特征,然后计算每个系数的奇异值,这样就产生5维的特征矢量。

1.2.2 运动轨迹特征提取

运动轨迹是指手势动作中手臂的运动状态,ACC数据能够描述运动轨迹状态。选取均值(M)、方差(V)以及快速傅里叶变换(FFT)作为运动轨迹特征。

(1)M可以描述ACC的幅值变换,能够表征手臂的朝向和手势姿态。M用式(5)表示,其中移动窗口长度N=64,重叠窗口长度为32,a(i)表示各轴ACC的第i个数据采集点

(5)

(2)V能够描述信号随时间变化强度,能够表征手臂运动的剧烈程度,用式(6)表示

(6)

(3)FFT是一种典型信号处理方法,能够将信号从空间域变换到频率域。序列a(i)可以分解为偶数序列a1(i)和奇数序列a2(i)之和,见式(7)

a(i)=a1(i)+a2(i)

(7)

其中,a1(i)、a2(i)长度都是M/2,那么FFT变换可以表示为式(8)

(8)

本文提取各轴ACC数据的128点FFT的前3阶系数,即M=128。

1.2.3 特征级融合

特征级融合按特征向量的产生方式分为特征选择和特征组合两种方法。本文采用特征组合方法,将手形和轨迹特征组合在一起构造串行联合特征矢量。特征级融合能够减少一个分类器的使用,节省时间。

特征组合后用分类器进行识别,利用MATLAB软件进行仿真实验,得到识别率以及运行所用的时间。对比所有的识别率以及运行时间,选出最优的特征组合,使得用时较短识别率高。

1.3 分类识别

为了获得较高识别率,采用了HMM的分类算法。HMM模型是一种双重随机过程:一个是马尔可夫链,描述了隐藏状态的转移;另一个是可观察的观察值序列,描述了隐藏状态与观察状态之间的统计对应关系[14]。

1.3.1 HMM模型训练

HMM模型训练是对参数λ={π,A,B}进行估计的过程,常采用Baum-Welch算法,通过不断迭代去调整参数λ,让参数λ不断趋于收敛,使得输出P(O|λ)概率达到最大化[15]。

Baum-Welch算法是一种迭代算法,视观测序列(离散或连续)的不同,算法会有不同的形式。本文是对连续手势进行识别,选取连续的观测序列B,通常采用高斯混合模型(GMM),即

(9)

(10)

(11)

采用多个观测数据对模型参数进行重估,因此选取遍历式HMM模型(ergodic hidden Markov model,EHMM),这种模型可以从一个状态转移到另一种状态,并且观测序列之间可以被认为是独立的,从而获得多观测序列的重估值λ,并存储参数λ。

1.3.2 手势识别

此公式表示在t-1时刻时状态转移路径为q1q2…qt-1,t时刻时状态序列是Si,则此时会得到最大值概率P,即t时刻的δt(i)对应的序列就是所求的最优状态序列。

2 实 验

2.1 信号采集实验

本研究利用惯用手(右手)进行手势运动,采用4通道的SEMG和1个三轴ACC传感器进行数据采集。安放位置如图2所示,三轴ACC传感器安放于前臂靠近腕部的背面,用于捕捉手部的运动轨迹信息,4通道的SEMG传感器分别安放于前臂指伸肌、伸指总肌、桡侧腕长伸肌和尺侧腕屈肌,用于检测手的形态运动信息。本实验肌电数据是由加拿大Thought Technology公司研制的型号是SA7500表面肌电仪采集,采样率最大是2048 Hz,最小是256 Hz,AD分辨率是14 bit,采用的是差分电极;三轴加速度计数据是由荷兰Xsens公司生产的MEMS惯性传感器采集,采样率是256 Hz。实验选取两类传感器采样率都为256 Hz。

图2 右手传感器安放位置

手势运行环境是在MATLAB R2012a环境下完成的,计算机处理器是Inter(R) Core(TM) i3-4170 CPU @ 3.70 GHz,安装内存是4.00 GB(3.48 GB可用)。

研究过程自定义了5种静态手形和5种运动轨迹,如图3所示,静态手形包括:V(T),八(E),伸掌(S),握拳(W),OK(O);运动轨迹包括:九(NI),六(SI),叉(FI),圆(CI),右下(LI)。实验选取10种动态手势,分别为:TNI、SSI、EFI、WCI、OLI、SNI、WSI、OFI、TCI和ELI。

针对选取的10类动态手势,实验选取5名受试者,3名男生和2名女生,年龄是25到27岁之间。所有受试者惯用右手,无任何神经肌肉系统疾病史,具有手势运动工作经验。实验中每名受试者自然站立,左手自然下垂,在一周内分6次采集数据,每次采集10种动态手势,每个动态手势重复20遍。这样,用于实验分析的数据集包含了6000个动态手势样本。实验过程中对每类动态手势随机选取40个样本作为训练集,另外对每类手势选35个样本作为测试集。

图3 手形和轨迹

2.2 实验结果及分析

(1)特征组合分类:本文以受试者1为例,将提取的SEMG和ACC信号特征进行了7种不同的组合,在相同的HMM分类器下得到的10种手势的分类结果见表1,其中表格第一行代表特征组合序号,第二行代表不同特征组合,第一列代表10种手势代号。表2给出了不同特征组合的对比实验结果,其中时间表示提取手势特征所耗的时间。

结合表1和表2可以看出,首先,分类精度并非和特征组合的个数成正比,如特征组合D2与D4分类准确率相似,特征组合D6比D1分类精度高,特征组合D3比D6和D1分类精度高,特征组合D7比D5分类精度低。其次,不同特征组合下,存在个别手势的分类精度不和特征组合的效果成正比,可能是手势和轨迹差异性导致的,但是手势整体的分类精度和特征组合的效果是成正比的。最后,从表中还可看出,含有AR,MAV,FFT的特征组合要比其它特征组合分类效果好一些,说明这种特征组合在一定程度上具有互补性。

从表2可以看出,在特征提取算法上,含WT特征组合所用时间高于其它特征组合提取时间,这是由WT性质所决定的;在手势识别效果上,WT对静态手势识别效果好,但是含WT的特征组合对相同手势不同轨迹的动态手势识别易归为一类,整体识别效果并不好。对比所有特征组合识别所耗时间以及平均识别率,特征组合D5的识别效果最佳。

(2)分类器对比实验:为了探索不同特征组合在不同分类器下的识别结果,设计了HMM模型与常用分类器随机森林(RF)、决策树(DT)以及支持向量机(SVM)的对比实验,仍以受试者1为例,根据实验情况选择HMM的状态数为6,混合高斯函数个数为2;选择DT的决策树算法是CART算法,SVM的核函数为径向基核函数,RF的决策树数目是500。结果如图4所示。

从图4中可以看出,RF、DT、SVM、HMM这4种分类器最佳特征组合分别是D1、D5、D6、D5,且此特征组合下对10种手势的平均识别率分别为90.20%、82.04%、87.68%和94.11%,说明上面实验得出的最佳特征组合并非适用于所有分类器。

利用不同分类器得出的最佳特征组合对5位受试者进行手势识别,实验训练并测试相同受试者数据,识别结果如图5所示。从图中可以看出,对于所有受试者,分类器的准确率是稳定一致的。实验结果表明,DT分类效果最差,其次是SVM和RF,HMM分类效果最佳。此结果说明在最优特征组合下HMM模型识别效果最佳。

表1 不同特征组合的平均识别率/%

表2 不同特征组合的对比实验结果

图4 不同特征组合下分类器的平均识别率

图5 最优特征组合下分类器的分类结果

表3是以HMM作为分类器使用最优特征组合D5,得到的5位受试者在不同手势下的识别率,其中A代表平均识别率,S代表标准偏差。从表中横向可以看出,S3受试者平均识别率最高,为94.42%,S5受试者平均识别率最低,为93.89%。可能的原因有两个,第一是由于每一次动态手势的手形和运动轨迹不完全相同,会有一定的随意性,因而在一定程度上降低了识别率;第二是不同受试者的SEMG传感器放置位置略有不同,并且IMU传感器的方向可能稍有不同。如果对手势动作以及传感器安放位置进行规范,识别率会进一步提高。

表3 动态手势识别率/%

从表3中纵向可以看出,手势ELI整体识别效果最差,为92.81%,其次是手势EFI,为92.83%,这是由于手势ELI和EFI手形相同轨迹相似,在特征上具有一定的相似性,分类时两种手势有时会相互错分。手势TNI识别效果最好,这是因为手形和运动轨迹整体效果较好,特征识别上具有较强的可分性。纵观表格数据,整体识别率达到了(94.11±1.32)%以上。

3 结束语

为了提高动态手势识别的分类精度,本文提出了基于多特征组合与HMM相结合的方法。在特征提取上,对不同特征进行串行组合,通过大量的实验分析对比,确定了最佳特征组合。在分类器选取上,通过对比分析HMM、RF、DT和SVM分类器对动态手势的影响,最终确定HMM分类器识别效果好。实验结果表明,本文方法能有效提高手势的识别率,具有较好的鲁棒性。

然而,在人机交互手势应用中,本实验并没有严格规范手势动作,有一定随意性,信号受到不同受试者身体条件影响,后期会加以规范,调查影响,提高识别率。为了实现手势在日常生活的使用,未来要进一步减少识别时间,这是ACC和SEMG传感器用于实际的关键。

参考文献:

[1]Dong C,Ming CL,Yin ZZ.American sign language alphabet recognition using Microsoft kinect[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops.IEEE,2015:44-52.

[2]Matthew R Williams,Robert F Kirsch.Evaluation of head orientation and neck muscle EMG signals as three-dimensional command sources[J].Journal of Neuroengineering and Rehabilitation,2015,12(1):25-40.

[3]Wu J,Sun L,Jafari R.A wearable system for recognizing American sign language in real-time using IMU and surface EMG sensors[J].IEEE J Biomed Health Inform,2016,20(5):1-10.

[4]Wei SJ,Chen X,Yang XD,et al.A component-based voca-bulary-extensible sign language gesture recognition framework[J].Sensors,2016,16(4):1-16.

[5]Li Y,Chen X,Zhang X,et al.A sign-component based framework for Chinese sign language recognition using accele-rometer and sEMG data[J].IEEE Transactions on Biomedical Engineering,2012,59(10):2695-2704.

[6]WU Hao.Fall recognition based on surface EMG and acceleration signal[D].Hangzhou:Hangzhou Dianzi University,2016(in Chinese).[武昊.基于表面肌电信号与加速度信号的跌倒检测研究[D].杭州:杭州电子科技大学,2016.]

[7]Su RL,Chen X,Cao S,et al.Random forest-based recognition of isolated sign language subwords using data from accele-rometers and surface electromyographic sensors[J].Sensors,2016,16(1):1-15.

[8]Lu ZY,Chen X,Li Q,et al.A hand gesture recognition framework and wearable gesture-based interaction prototype for mobile devices[J].IEEE Transactions on Human-Machine Systems,2014,44(2):293-299.

[9]Liu JH,Chen WZ,Li MY,et al.Continuous recognition of multifunctional finger and wrist movements in amputee subjects based on sEMG and accelerometry[J].The Open Biomedical Engineering Journal,2016,10(1):101-110.

[10]YANG Xidong.Research of Chinese sign language recognition technology based on the fusion of surface electromyography and inertial sensors[D].Beijing:University of Science and Technology of China,2016:10-13(in Chinese).[杨喜东.融合表面肌电和运动传感器信息的中国手语手势识别技术研究[D].北京:中国科学技术大学,2016:10-13.]

[11]CHENG Juan,CHEN Xun,PENG Hu.An onset detection method for action surface electromyograph based on sample entropy[J].Acta Electronica Sinica,2016,44(2):479-484(in Chinese).[成娟,陈勋,彭虎.基于样本熵的肌电信号起始点检测研究[J].电子学报,2016,44(2):479-484.]

[12]Phinyomark A,Phukpattaranont P,Limsakul C.Feature reduction and selection for EMG signal classification[J].Expert Systems with Applications,2012,39(8):7420-7431.

[13]YU Yaping,SUN Lining,ZHANG Fengfeng,et al.sEMG pattern recognition based on multi feature fusion of wavelet transform[J].Chinese Journal of Sensors and Actuators,2016,29(4):512-518(in Chinese).[于亚萍,孙立宁,张峰峰,等.基于小波变换的多特征融合sEMG模式识别[J].传感技术学报,2016,29(4):512-518.]

[14]Liu JC,Zhang L,Chen X,et al.Facial landmark automatic identification from three dimensional (3D) data by using hidden Markov model(HMM)[J].International Journal of Industrial Ergonomics,2017,57(1):10-22.

[15]LI Xinde,PAN Jindong,DEZERT Jean.A target recognition algorithm for sequential aircraft based on DSmT and HMM[J].Acta Automatica Sinica,2014,40(12):2862-2876(in Chinese).[李新德,潘锦东,DEZERT Jean.一种基于DSmT和HMM的序列飞机目标识别算法[J].自动化学报,2014,40(12):2862-2876.]

猜你喜欢
手形手势识别率
上海手语手形调查研究
基于类图像处理与向量化的大数据脚本攻击智能检测
手形迷宫
挑战!神秘手势
基于真耳分析的助听器配戴者言语可懂度指数与言语识别率的关系
V字手势的由来
手形的联想
提升高速公路MTC二次抓拍车牌识别率方案研究
胜利的手势
高速公路机电日常维护中车牌识别率分析系统的应用