成 娟 陈 勋* 彭 虎
(合肥工业大学仪器科学与光电工程学院生物医学工程系, 合肥 230009)
基于双线性模型的动作肌电信号用户无关识别研究
成 娟#陈 勋#*彭 虎
(合肥工业大学仪器科学与光电工程学院生物医学工程系, 合肥 230009)
动作肌电信号具有个体差异性且不同动作的肌电信号是不同的,通过挖掘双线性模型的因素分解能力,将训练样本的特征矢量分解为用户相关和动作相关两大因素,通过确定因素的维度重构具有共性的训练样本特征。在测试样本特征重构阶段引入适应融合机制,更新模型参数重构测试样本特征。以11名受试者的4类动作为例,分别采用线性判别、K近邻分类算法和支持向量机,对比3种实验方案(多用户单天、单用户多天和基于双线性模型的多用户单天)的识别结果。实验表明,双线性模型的平均识别率最低为85%以上,相比于单纯的多用户单天识别结果(平均识别率不高于75%)有显著提高(P<0.001),且相比于单用户多天的识别结果(平均识别率90%以上)差异性不显著(P>0.24)。双线性模型为基于动作识别技术的非特定人肌电控制系统提供了交互方案,且该模型具备将多用户单天的数据看成单用户多天数据的能力,提供了用户训练负担降低的可行性。
肌电控制;手势识别;特征提取;双线性模型
基于生物电技术的人机交互旨在通过采集、分析和处理人体自身的生理学信号来控制外围设备,以取代或补充传统的基于鼠标或键盘等的控制方式。可用于人机交互的生物电主要有脑电、肌电和眼电等[1-3]。由于表面肌电电极具有无创性和操作简单的特点,同时表面肌电信号(surface electromyography, sEMG)能有效表征较多种类手势,肌电人机接口技术已经成为研究热点,广泛应用于智能假肢控制和康复训练、手语识别系统、虚拟游戏操控和工业控制等领域。其中代表性的有美国芝加哥康复研究所等进行肌电控制假肢手及其人机接口系统的研发[4]。微软研究院实现了基于手指动作肌电信号的空中吉他、触摸屏画板等操作[5]。其他国内外研究机构还实现了基于肌电模式识别的手语识别等[6-7]。
作为一种电生理信号,sEMG存在个体差异性。如何提取用户无关特征实现非特定人手势动作识别对肌电控制交互系统的推广应用具有重要意义。常规的特征处理包括特征降维和归一化,通过提取具有较多贡献的特征,以及特征幅值或时间尺度的归一化等,尽可能消除个体差异性[8-9]。此外,利用测试用户少量训练样本参与分类器的学习和训练,可以在一定程度上提高非特定人的识别结果[10]。但是这些方法并没有考虑到用户与动作间的关系。
不同的受试者执行同一手势动作产生的sEMG信号具有差异性,而不同的手势动作sEMG信号也不同。据此,将sEMG信号分解为用户相关(style)和动作相关(content)两大因素。非特定人手势动作sEMG信号识别类似于如何识别不同口音下的相同单词和如何处理不同观测环境下类似的面孔或物体等。Tenenbaum等[11]于2000年提出了双线性模型(bilinear models),因其具有强大的因素交互能力,能够将不同口音或不同观测环境的style因素,和不同单词或不同面孔的content因素进行分离,现已成功应用于人造3D物体的不同风格和内容的分类识别[12]。2013年Matsubara等将双线性模型首次应用于5类交互手势动作(4类运动手势,1类放松静态动作)sEMG信号的识别任务中[13]。王涛等采用双线性模型进行不同收缩力下的单指按压实验,验证了较少样本训练下手指模式的较好识别[14]。但是这两个工作仍然需要用户额外执行训练动作。本研究利用双线性模型的因素分解能力,对多类手势动作sEMG信号特征进行因素分解,通过参数优化选择,重构具有最大共性的特征,提高用户无关手势动作的识别率。同时,进一步挖掘双线性模型的因素分解能力,探索其将多用户一天的数据看成单用户多天数据的有效性,为肌电控制应用提供进一步降低用户训练负担的可行性。
图1所示为基于双线性模型的用户无关识别。首先,提取训练用户和测试用户的特征。其次,将训练用户特征进行双线性模型分解,得到用户相关因素和动作相关因素。之后,利用测试用户部分样本特征参与因素的更新,利用更新后的因素重构测试特征。最后,重构后的训练特征参与分类器的训练,而重构后的测试特征则送入训练好的分类器进行动作识别。
图1 基于双线性模型的用户无关特征重构Fig.1 Illustration of user-independent classification using sEMG bilinear models
1.1 数据采集
本研究共定义了4类常用手势动作,握拳(HD)、伸掌(EP)、伸腕(EW)和屈腕(FW)。数据采集使用Delsys Myomonitor IV(美国Delsys Inc.),该设备支持16通道差分肌电电极输入,肌电信号的采样频率为1 000 Hz。图2所示为电极配置。为了减少电极偏移造成的信号差异性,将人体前臂沿纵向等距离划分为5个环带(记为1~5),每个环带等距离分为8个条带(记为A~H)。由于定义的动作主要为腕部、肘部以及手指的运动,根据人体肌肉解剖学知识,涉及到的肌肉群见主要有桡侧腕长伸肌(5H)、桡侧腕屈肌(4C)、尺侧腕屈肌(3B)和旋后肌(4G)。最终4通道肌电电极安放在图2中深色区域位置。
图2 电极配置Fig.2 Illustration of customized electrode location marks and actual electrode placement
11位受试者(3男4女,年龄22~26岁)自愿参加数据采集工作,并签署知情同意书。这些受试者都是右利手,均没有任何神经肌肉和关节疾病史。在数据采集过程中,受试者舒适地坐在椅子上,按照顺序执行4类手势动作,每类动作重复14次。每位受试者共采集7次实验数据。
1.2双线性模型基本原理
双线性模型是数学上可分的双因素模型,当其中一个因素保持不变时,输出是另一个因素的线性函数。将手势动作信号特征矢量y={yk}∈K(其中K是维数)分解为用户相关因素和动作相关因素的线性组合,记为s={si}∈I和c={cj}∈J,其中I和J分别代表用户相关因素和动作相关因素的维度,则sEMG信号的对称双线性模型表达式为
(1)
式中,ωijk是表征两个因素交互能力的权值矢量。
1.3 双线性模型因素分解
设模型训练过程中,共涉及U个受试者,每个受试者执行的手势动作个数为M,并且每个动作训练样本个数为N,定义第u个受试者执行手势动作m时,第k维特征矢量的N个样本数据记为yk,um。训练的过程就是对所有的u、m和k,找到合适的style和content因素和权值{cm,su,Wk},使得合成的特征矢量与原特征矢量的均方根误差E最小,即
(2)
式中,su∈I表示第u个受试者的用户相关因素,第m个手势动作第n个样本的动作相关因素表示为cnm∈J,Cm=[c1m,...,cNm]∈JN代表第m个手势动作所有N个样本的动作相关因素。
为了得到最小的E,采用循环的奇异值分解(singular value decomposition,SVD)算法进行因素分解,一般情况下,5次循环即可收敛。
1.4 用户无关特征重构
特征重构阶段,新用户执行某一手势动作,得到特征矢量Ynew,采用SVD算法得到该新用户的Content因素Cm。据此,结合之前训练得到的权值,评估新用户的Style因素snew,有
(3)
Y和YTV矩阵的具体表达分别为
(4)
(5)
根据新用户的用户相关因素snew和之前训练的权值,计算出新用户第m个手势动作的动作相关因素Cnew如下:
(6)
最后,利用式(1)重构用户无关特征。
1.5 特征提取和分类识别
常用的sEMG信号特征可分为时域、频域和时频域的。研究结果表明绝对值幅值均值(mean absolute value, MAV)和3~6阶的自回归系数(autoregressive, AR)具有良好的表征能力[15],因此本研究中每通道sEMG信号提取MAV和3阶AR模型系数特征。而常用的分类器主要有简单的线性判别分类器(linear discriminant classifier, LDC)、隐马尔科夫模型、支持向量机(support vector machine, SVM)和K近邻(Knearest neighbors,KNN)等[16-17]。考虑到实际肌电控制的交互应用要求(一般选择计算复杂度低且易于移植的分类器),分别采用LDC、SVM和KNN分类器进行动作肌电信号的模式识别,以验证本模型的有效性。
为了验证双线性模型提取用户无关特征的有效性,共设计了3种实验任务,分别为单用户多天(user dependent cross time, UDC),多用户单天(original user independent, OUI)和基于双线性模型的多用户单天(bilinear models user independent, BMUI)。单用户多天实验是指将每位受试者前n次采集的数据作为训练样本,而将第n+1次的数据作为测试样本。两种多用户单天实验均将前m个受试者单次采集的数据作为训练样本,将第m+1个受试者单次采集的数据作为测试样本。它们的区别在于是否采用了双线性模型。本次实验中,n=6,m=10。
2.1I和J取值对识别结果的影响
利用双线性模型进行特征重构时,用户相关和动作相关的维度I和J取值不同时,可能导致识别结果有差异。选择7名受试者,其中训练受试者6名,因此I取值为1~6;而每位受试者的训练样本个数为14,故J取值为1~14。不失一般性的,以LDC分类器为例,表1列出了当I从1增加到6时,在不同的J的取值下,识别率的变化情况。不难发现,除了受试者S2,当I=3~5时,其他受试者的动作总体识别率最高。考虑到当I=4时,所有受试者的平均识别率最高(79.85%),最终确定I=4。
表1 不同取值I时得到的最大识别率
进一步地,本研究给出了当I=4时每位受试者取得最好识别结果对应的J值,以及相应4类手势动作的具体识别率,如表2所示。多半受试者4类动作的平均识别率为85%以上,而S6和S7这两位受试者的平均识别结果较低。经过双线性模型分解和重构后,识别结果两极分化较为严重,大部分动作可以完全正确识别但也有个别动作完全不能识别。此外,每位受试者取得最好识别结果的J值是不同的,多半受试者当J=1~3时,识别结果最好;但是受试者1和5当J=10时才能取得最好结果。最终确定J=3。
表2 取得最佳识别率时的J值和每个动作的具体识别率
2.2 3种识别任务的识别结果
图3给出了3种识别任务中手势动作的平均识别率,图3(a)~(c)分别对应KNN、LDC以及SVM分类器。不难发现,无论采用哪种分类器,对于不同的受试者,一般而言,OUI的识别结果最差,BMUI次之,而UDC的识别结果最好。在同一识别任务中,不同受试者的识别率有差异。一方面,不同受试者执行手势动作的熟练程度不一样,执行手势动作的熟练程度越高,其产生的sEMG信号的形似程度越稳定,识别率就越高;另一方面,不同受试者的解剖组织、生理状态,以及执行手势动作的习惯和理解方式等有差异,也会带来识别率的参差。表3给出了3种识别任务中11位受试者手势动作的平均识别结果(均值±标准差的形式),进一步证实了采用双线性模型能有效提高手势动作的识别率。一般情况下基于双线性模型的识别率的提升无法超越单用户多天的识别策略,但是个别受试者,例如图3(c)中的受试者9和受试者11,其BMUI识别率高于UDC。主要原因是这两位受试者对动作的熟练程度不够,即便是同一受试者执行同一手势动作,产生肌电信号的差异性很大。在本实验中,训练用户的个数大于单用户多天执行的次数,由BMUI提供的电极偏移信息较之UDC更加全面。表3给出了3种识别任务11位受试者的平均识别结果(均值±标准差的形式),OUI 图3 3种实验任务的动作识别率。(a)基于KNN;(b)基于LDC;(c)基于SVMFig.3 Accuracies of gesture recognition in three conditions. (a) KNN-based; (b) LDC-based; (c) SVM-based 表4给出了采用单因素变量分析方法得到的BMUI和OUI的显著性差异P值,以及BMUI和UDC的显著性差异P值。3种分类器使用环境中,BMUI的平均识别率相比于OUI有显著性提高(3种分类器:P<0.001)。而相比于UDC的平均识别率则无显著性差异(LDC和SVM:P>0.24;KNN:P<0.001除外),充分说明了基于双线性模型用户无关特征提取的有效性。 表3 3种识别任务所有受试者的动作平均识别率 表4 不同识别任务动作识别率的显著性差异 本研究验证了基于sEMG双线性模型动作肌电信号用户无关识别的可行性。通过选择因素维度重构具有较大相似共性的特征矢量,实验结果表明不同的特征维度对用户无关识别结果有一定的影响。与此同时,3种识别任务中,UDC识别率最高(平均识别率90%以上),这得益于所有的数据来源于同一个受试者,相当于用户相关因素最为稳定且差异性最小,但是为了消除电极偏移引起的sEMG信号差异,UDC需要每一个受试者在不同的时间段内执行多次实验。相关研究表明,5次左右实验基本涵盖了电极偏移的可能情况,此时分类器不再敏感,UDC识别结果稳定[18]。OUI方案中,每一位受试者只执行一次数据采集,由于不同受试者生理解剖差异,以及执行手势动作的习惯和方式不同,用户相关因素差异最大,识别率最低(平均识别率不高于75%)。BMUI是在OUI的基础上引入双线性模型进行分解和重构之后,削弱了用户相关因素引起的肌电信号差异,提升了用户无关特征的共性表达,使得BMUI的平均识别率有了大幅提升(平均识别率85%以上),且每位受试者仅需采集一次实验数据。本实验中,UDC需要单个用户执行6次实验数据提供训练样本,而BMUI则采用了10个用户执行的1次数据,实验结果表明,当电极偏移情况覆盖面足够广时,BMUI的识别结果可以逼近甚至超过UDC。然而,双线性模型提升用户无关识别率是有限度的,受试者间的差异,以及受试者执行手势动作的一致性和稳定性直接决定了用户无关特征提取的有效性。换言之,用户执行动作的规范性和熟练程度,以及用户的相似性(包括身高、体重、性别、最大收缩力等)是用户无关动作识别率的有效保证。在双线性模型的实际应用中,可以先判断新用户所属用户群,再进行用户无关特征提取,进一步保证用户无关识别率。此外,双线性模型具备将多用户提供的电极偏移信息看成是单用户的多天电极偏移信息,为训练用户训练负担的减少提供了一种可行方案。为了保证用户无关识别率,以往的研究策略更偏向于新用户较少次数甚至零次数的训练负担,这对于假肢患者或者中风偏瘫患者均有重要意义,即利用健康受试者的训练数据或者利用偏瘫患者健侧的训练数据参与分类器的训练,从而提升患者的用户体验。然而,当手势动作识别种类数增加,尤其是大词汇量的手语识别,由于sEMG信号的非平稳随机性,训练用户多次采集造成训练负担过重。双线性模型在保证识别率的前提下大大降低训练用户采集实验的次数,提供了训练用户训练负担降低的可行性,这为大规模手势动作识别系统的推广应用奠定了技术方案。 双线性模型的核心在于因素分解和适应融合机制,本研究利用固定次数的SVD算法获得双因素,并且因素的维度确定来源于实验数据,具有一定的主观性。未来可引入最大期望算法(expectation maximization algorithm, EM),通过在概率模型中寻找参数最大似然估计或最大后验估计实现因素分解的准确收敛。此外,双线性模型具有外推能力,先前的研究工作表明[13-14],利用新用户部分或全部种类的手势动作进行双线性模型的更新得到动作的识别率提升结果有差异,如何利用新用户较少个数的动作测试样本进行有效的模型更新,也是未来的研究重点。 用户无关特征的提取是实现非特定人手势动作的一大技术关键。本研究采用双线性模型进行特征分解和重构,提高了用户无关动作识别率,同时降低了用户训练负担。然而,目前双线性模型的维度选择依赖于实验数据,未来可引入自适应策略。此外,不同特征表征能力不同,未来可以挖掘其他有有效特征,进一步提升用户无关动作的识别率。 [1] 尧德中. 脑信息科学:概念、内容与挑战[J]. 中国生物医学工程学报, 2016, 35 (2): 129-132. [2] Käthner I, Kübler A, Halder S. Comparison of eye tracking, electrooculography and an auditory brain-computer interface for binary communication: a case study with a participant in the locked-in state[J]. Journal of Neuro Eng Rehab, 2015, 12(1): 1. [3] Choi C, Micera S, Carpaneto J, et al. Development and quantitative performance evaluation of a noninvasive EMG computer interface [J]. IEEE Trans Biomed Eng, 2009, 56(1): 188-191. [4] Schultz AE, Kuiken TA. Neural interfaces for control of upper limb prostheses: the state of the art and future possibilities [J]. PM&R, 2011, 3(1): 55-67. [5] Benko H, Saponas TS, Morris D, et al. Enhancing input on and above the interactive surface with muscle sensing [C] //Proceedings of the ACM International Conference on Interactive Tabletops and Surfaces. Banff: ACM, 2009: 93-100. [6] Li Yun, Chen Xiang, Zhang Xu, et al. A sign-component-based framework for Chinese sign language recognition using accelerometer and sEMG Data [J]. IEEE Trans Biomed Eng, 2012, 59(10): 2695-2704. [7] Khushaba RN. Correlation Analysis of electromyogram signals for multiuser myoelectric Interfaces[J]. IEEE Trans Neur Syst and Rehab Eng, 2014, 22(4): 745-755. [8] Frigo C, Crenna P. Multichannel SEMG in clinical gait analysis: A review and state-of-the-art [J]. Clin Biomech, 2009, 24(3): 236-245. [9] Chu JU, Moon I, Mun MS. A real-time EMG pattern recognition system based on linear-nonlinear feature projection for a multifunction myoelectric hand [J]. IEEE Trans Biomed Eng, 2006, 53(11): 2232-2239. [10] Liu J, Zhong L, Wickramasuriya J, et al. uWave: Accelerometerbased personalized gesture recognition and its applications [J]. Pervasive Mob Comput, 2009, 5(6): 657-675. [11] Tenenbaum JB, Freeman WT. Separating style and content with bilinear models [J], Neural Computation, 2000, 12(6): 1247-1283. [12] Xu Kai, Li Honghua, Zhang Hao, et al. Style-content separation by anisotropic part scales [J]. ACM Trans Graphics, 2010, 29(6): No 184. [13] Matsubara T., Morimoto J. Bilinear modeling of EMG signals to extract user-independent features for multi-user myoelectric interface [J]. IEEE Trans Biomed Eng, 2013, 60(8): 2205-2213. [14] 王涛,侯文生,吴小鹰,等. 用于肌电假肢手控制的表面肌电双线性模型分析[J]. 仪器仪表学报, 2014, 08:1907-1913. [15] 罗志增, 杨广映. 表面肌电信号的AR参数模型分析方法 [J]. 传感技术学报, 2003, 04: 384-387. [16] 张启忠,席旭刚,马玉良,等. 基于表面肌电信号的手腕动作模式识别 [J]. 中国生物医学工程学报, 2013, 03:257-265. [17] Alkan A, Günay M. Identification of EMG signals using discriminant analysis and SVM classifier [J]. Expert Syst Appl, 2012, 39(1): 44-47. [18] Cheng Juan, Chen Xiang. Key-press gestures recognition and interaction based on SEMG signals [C] //12th International Conference on Multimodal Interfaces and 7th Workshop on Machine Learning for Multimodal Interaction. Beijing: ACM, 2010: No 36. Research on User-Independent Gesture Recognition Based on Bilinear Models for sEMG Signals Cheng Juan#Chen Xun#*Peng Hu (DepartmentofBiomedicalEngineering,SchoolofInstrumentScienceandOpto-electronicsEngineeringHefeiUniversityofTechnology,Hefei230009,China) Due to the fact that surface electromyography (sEMG) signals of the same gesture vary from different individuals (user-related) and various gestures produce different sEMG signals (motion-related), the sEMG signals can be treated as the interaction of the two factors. This study utilized bilinear models to extract user-independent features. We first factorized original training features into two factors, and the determination of the factor dimensions can help the reconstructed features have the maximum similarity. When original testing features from a novel user were available, they were used to adapt the two factors with the aid of the aforementioned model parameters and the reconstructed testing features by using the adapted factors were finally sent to the trained classifier for recognition. Eleven subjects were recruited with each performing 4 types of gestures. Three classifiers (linear discriminant classifier,K-nearestneighbor and support vector machine) were employed for the classification of the three tasks, termed as user-dependent cross-time (UDC), original-user-independent (OUI) and bilinear-models-user-independent (BMUI). Experimental results showed that the averaged classification accuracy of BMUI was at least 85% whereas that of OUI was not higher than 75%. The one-way ANOVA analysis demonstrated the significant improvement of BMUI (P<0.001). Besides, although the averaged accuracy of UDC was above 90%, higher than that of BMUI, they were statistically insignificant (P>0.24). The proposed method provided a practical solution to the interaction implementation of myoelectric control system based on gesture recognition techniques, and the training samples could be significantly reduced since each subject will conduct only once experiment for training. myoelectric control; gesture recognition; feature extraction; bilinear models 10.3969/j.issn.0258-8021. 2016. 05.003 2016-01-07, 录用日期:2016-07-13 国家自然科学基金(61401138;81571760;61501164) R318 A 0258-8021(2016) 05-0526-07 # 中国生物医学工程学会高级会员(Senior member, Chinese Society of Biomedical Engineering) *通信作者(Corresponding author), E-mail: xun.chen@hfut.edu.cn3 讨论
4 结论