基于表面肌电图的人体运动意图识别研究进展

2021-05-28 08:10:12曹梦琳陈宇豪王珏刘天
中国康复理论与实践 2021年5期
关键词:意图准确率分类

曹梦琳,陈宇豪,王珏,刘天

1.生物医学信息工程教育部重点实验室,西安交通大学生命科学与技术学院健康与康复科学研究所,陕西西安市 710049;2.国家医疗保健器具工程技术研究中心,广东广州市 510500;3.神经功能信息学与康复工程民政部重点实验室,陕西西安市710049

可穿戴外骨骼机器人得到广泛研究,但帮助肢体运动障碍者进行运动功能重建的电刺激设备存在功能单一、人机交互性不强的缺点,而现代人机交互技术正由机器人被动接受指令向机器人主动识别人的行为意图方向改变。现代化的可穿戴外骨骼机器人通过收集和分析相关信息,获取人的运动意图,制定有效控制策略。准确实时识别人体运动意图是实现完美人机交互和佩戴舒适的关键[1]。

目前,外骨骼机器人通常基于力和角度传感器获得的数据、脑电图(electroencephalography,EEG)信号或表面肌电图(surface electromyography,sEMG)信号识别运动意图。从力和角度传感器获得的数据实时性较差,而EEG 和sEMG 在动作产生前就会生成。EEG 信号微弱,受噪声和伪迹影响较大。骨骼肌运动产生的肌电信号反映特定肌群的活动,使用sEMG进行运动意图识别可以缩短信息延迟[2‑3]。由于包含丰富的信息、成熟的采集技术和无创性,基于sEMG的人体运动意图识别将成为主流[4‑5]。

基于sEMG 的运动意图识别方法可分为3 类:基于肌肉骨骼模型的运动意图识别、基于传统机器学习的运动意图识别,以及基于深度学习的运动意图识别。肌肉骨骼模型以肌肉的生物力学建立sEMG和关节力矩、角速度或角加速度之间的函数,这种方法的优势是可以解释运动产生的过程[3,6];传统机器学习模型将sEMG特征作为输入;深度学习模型通常将经过预处理的sEMG 信号或sEMG 特征作为输入。在传统机器学习模型和深度学习模型中,离散运动分类或连续运动估计通过建立输入与人类运动意图之间的映射实现。常用于运动意图识别的传统机器学习模型包括支持向量机(support vector machine,SVM)、线性判别分析(linear discriminant analysis,LDA)、反向传播神经网络(back propagation neural network,BPNN)、多层感知器(multilayer perceptron,MLP)等。机器学习模型具有计算复杂度低、运算时间短、实时性强的特点。近来,深度学习研究被越来越多地用于人体运动意图识别。深度学习极大改善了模型的非线性、解决复杂问题的能力和识别的准确性[7],可作为一种端对端的运动意图识别方法,减少手工特征筛选,节省特征计算时间,常用的方法为卷积神经网络(convolutional neural network,CNN) 和递归神经网络(recurrent neural network,RNN)。

本文检索PubMed、Web of Science、中国知网、万方数据、维普数据库建库至2020 年12 月文献,筛选基于表面肌电图的人体运动意图识别实验研究,提取相关数据,进行描述性分析。

1 肌肉骨骼模型

sEMG 是非平稳、微弱的信号,振幅集中在0.01~10 mV,频率集中在20~500 Hz,特别是50~150 Hz。由于sEMG 在产生相应的运动前约30~150 ms产生,是运动意图识别的理想选择[8‑9]。

sEMG 驱动的肌肉骨骼模型可以分为三个子模型,即激活模型、收缩模型和肌肉骨骼几何模型[6]。原始sEMG在经过高通滤波、全波整流、低通滤波和归一化等预处理后,作为模型的输入[3]。

对于激活模型,肌肉激活ai(t)和处理后sEMGui(t)之间的关系可以表示为以下等式[10‑11]:

其中i表示肌肉,t代表时刻;-3 <Ai<0,是肌肉i的非线性形状因子。

收缩模型总是使用Hill肌肉模型(图1)[12]。

图1 Hill肌肉模型

Karavas 等[10]采用肌肉骨骼模型估计膝关节扭矩、轨迹和刚度趋势,估计值与实际值之间的归一化均方根误差(root mean squared error,RMSE)约0.12。Lloyd等[11]利用改进的Hill 型肌肉模型估计肌肉力量和膝盖力矩,平均相关系数(correlative coefficient,CC)为0.91,均方误差(mean squared error,MSE)为12 N·m。陈江城等[14]根据肌丝滑行理论,使用改进的肌肉模型估计膝关节动态关节力矩,预测最大绝对误差平均值为(11.0±1.32)N·m,平均残差为(4.43±0.698)N·m,平均线性CC为(0.927±0.042)。

Hill 肌肉模型通过振幅信息描述肌肉激活程度,没有考虑微观特性,无法有效反映活体肌肉生理参数对肌肉收缩的影响。改进的肌肉骨骼模型更加贴合实际肌肉收缩过程,但sEMG 信号驱动的肌肉骨骼模型中存在多个未知参数,需要通过初步实验进行参数识别。

2 传统机器学习

基于传统机器学习的运动意图识别可以分为两种:离散运动分类和连续运动回归。前者需要建立sEMG 信号与上下肢离散运动之间的映射关系。常见的下肢运动分类包括行走/跑步/站立/上楼梯/下楼梯、伸膝/屈膝、支撑前期/支撑中期/支撑后期/摆动前期/摆动后期等。后者需要构建sEMG 信号和上下肢连续运动之间的映射。常见的连续运动回归包括角度、角速度、角加速度、力和髋部、膝盖、踝部、肩部、肘部和腕部关节的力矩。后者对穿戴机器人的平滑控制更有价值,将是未来研究的重点[8]。

2.1 sEMG的特征提取与特征选择

特征提取和特征选择是基于传统机器学习的运动意图识别中重要的步骤。常用特征可以分为时域特征、频域特征和时频域特征。常用的时域特征有平均绝对值(mean absolute value,MAV)、均方根(root mean square,RMS)、方差(variance,VAR)、标准差(standard deviation,SD)、过零点数(zero crossings,ZC)、波形长度(wave length,WL)、斜率信号变化(slope signal change,SSC)、积分肌电值(integral electromyogram,iEMG)和平均绝对值差(difference of mean absolute val‑ue,DMAV)。时域特征的计算虽然简单,但不足以描述信号的信息。频域特征通常使用峰值频率(peak fre‑quency,PF)、中值频率(median frequency,MF)和平均功率频率(mean power frequency,MPF)。时频域特征通常使用傅立叶变换特征和小波变换特征。时频域特征虽然可以获得信号的综合信息,但提取过程复杂且耗时。

多通道sEMG 信号用于特征提取时,常存在冗余特征,需要使用合适的方法进行特征选择,以最少的肌肉组合、有效且耗时少的肌肉特征组合,实现运动意图的识别;既减少佩戴的传感器,又可以提高运动意图识别的实时性。常用的特征选择和降维方法有主成分分析、独立成分分析等,费舍尔分数[15]、轮廓似然最大化[15]、Davies Bouldin 指数(Davies Bouldin In‑dex,DBI)[16]等也可以用来评估肌肉特征的重要性。也有研究使用一些变体方法进行特征选择,如独立成分分析‑熵约束最小化[17]、核主成分分析[18]等。

2.2 离散运动分类

构建分类模型是基于传统机器学习的离散运动分类中的关键步骤。SVM的分类模型通过构造具有最大间隔的最优分类超平面来分离两类样本,具有解决非线性二元分类问题的能力[19]。而为了解决多分类问题,通常需要进行多次SVM 二分类。郑潇[20]使用遗传算法(genetic algorithm,GA)优化的SVM,将支撑前期、中期、后期,摆动前期、后期5个步态阶段分类,使用MAV 和VAR 作为特征;SVM 平均识别率最高的是支撑前期,达97.1%;最低的是支撑后期,超过95%。Wei 等[21]使用SVM 进行站立中期、站立末期、摆动前期、摆动中期、摆动末期5种步态阶段的识别,分别提取SD 和ZC,MAV 和ZC,MF 和ZC,MPF 和ZC,RMS 和ZC,WL 和ZC,iEMG 和ZC 共7 组特征进行测试,MAV 和ZC 的识别性能优于其他特征集,平均分类精度为89.40%。

LDA、K 均值聚类(k‑means clustering algorithm,K‑Means)、朴素贝叶斯(naïve bayes,NB)、极限学习机(extreme learning machine,ELM)等也经常用于离散运动分类。Barberi 等[22]从sEMG 信号中提取MF,使用LDA 进行标准步行、上坡、下坡、上楼梯、下楼梯5种运动意图识别,训练集的准确率为100%,计算时间为100 ms。郑潇等[20]使用改进K‑Means 将支撑前期、中期、后期,摆动前期、后期5个步态阶段分类,该算法基于样本分布密度和散度,对初始聚类中心的选择进行优化,排除孤立噪声点的干扰,使用Katz算法提取的非线性分形维数作为特征,分类准确率为92.1%。Xie 等[23]使用ELM 进行伸膝、屈膝分类,计算有效PF 的多尺度熵作为分类特征,发现EEG 和EMG双模态特征融合可以提高分类准确率。

也有研究使用XGBoost 和LightGBM 框架进行离散运动分类。Peng 等[16]提取SSC、WL、Willison 幅值(Wamp)、对数方差(Logvar)和DB7 小波分解系数绝对均值(DB7‑MAV)作为特征向量,分别使用基于LDA的简单多数投票融合(SV‑LDA)、基于LDA 的加权多数投票融合(WT‑LDA)、XGBoost、LightGBM 4 种分类方法,对站立前态、站立中间态、站立末端态、前摆、中摆、终摆6 个步态阶段进行分类,结果显示,LightGBM 算法在步态相识别方面优于传统的融合决策算法,平均准确率94.3%,运算时间85 ms。

基于人工神经网络(artificial neural network,ANN)的分类模型通过调整“突触权重”的自由参数学习复杂的非线性模式。典型的浅层ANN 结构由输入层、隐藏层和输出层组成,每层包含权重矩阵、偏置向量和输出向量。输入层的神经元数量由特征数量给出,输出层的神经元数量由需要分类的运动数量给出。Astudillo 等[24]设计一种基于Levenberg‑Marquardt 方法训练的ANN 进行运动意图模式识别,分类准确率94.88%,计算时间(12.6±10) ms。Morbidoni 等[25]使用MLP 分类站立、摆动阶段,使用的特征为EMG 信号的包络,结果发现结构为(512,256,128)的MLP 分类效果最好,训练集准确率94.9%,测试集准确率93.4%。Karantarat 等[26]使用BPNN 识别步行、坐、站立3 种运动意图,使用的神经网络有25 个输入层、10 个隐藏层和3 个输出层,分别测试不同的时域、频域特征组合,结果表明,所有时域特征的组合识别率最高,达99.39%。

一般来说,离散运动分类的运动描述相对简单,没有统一的分类标准。此外,离散运动分类预定义了用于分类的运动类型,当出现未定义的运动类型时,将发生无法分类的情况。相关研究的主要特征总结于表1。

表1 基于传统机器学习的离散运动分类研究特征

2.3 连续运动回归

离散运动分类只能识别少量离散的身体运动,不能用于可穿戴机器人的平滑控制。估计运动信息的连续运动回归成为新的研究热点。与肌肉骨骼模型类似,sEMG 信号与关节角度、角速度、角加速度或关节力矩之间的映射也可以通过传统机器学习来建立。常用的基于传统机器学习的连续运动回归方法为浅层ANN。

对于关节运动学回归,通常建立sEMG 与关节角度之间的映射,将估计的角度输入可穿戴机器人的控制系统,实现精确角度轨迹跟踪。Luh 等[27]使用BPNN 估计肘关节角度,第一层由16 个sEMG 信号特征节点组成,隐藏层由240 个节点构成,第三层有1个角度输出节点,仿真结果表明,该方法能够较好估计弯头角度,具有较高精度。Zhang 等[28]采用BPNN建立sEMG 信号和脚踝、膝盖、臀部关节角度之间的映射,该网络输入层为60 个神经元,隐含层为20 个神经元,输出层为3 个神经元,结果不同腿部运动的平均误差<9°。Xie等[29]采用黄金分割算法优化的回归神经网络(GS‑GRNN)实现对髋、膝、踝关节角度的同时预测,神经网络的输入为sEMG 的RMS、髋关节角度、脚底压力值,与BPNN 的预测结果相比,GRNN处理时间更少,预测精度更高。

对于关节动力学回归,一般建立sEMG 信号与关节力或力矩之间的映射关系。相对于关节运动学回归,动力学回归的研究相对较少。Masayuki 等[4]利用基于sEMG 信号的ANN 预测握力,提出的网络由1 个输入层、4 个隐藏层和1 个输出层组成;将4 个sEMG的RMS 作为输入,以估计的握力作为输出,每个隐藏层分别使用64、32、16 和8 个神经元;结果表明,预测值与观测值之间平均CC 为0.84。Chandrapal等[30]通过ANN,建立5 个sEMG 信号与膝关节扭矩之间的映射,在MLP 隐藏层有3个神经元,在全连接网络有3 个神经元,结果表明,该方法的平均最低估计误差为10.46%。

由于sEMG 信号滤波方法的原因,常出现预测值曲线接近测量值,但存在高频抖动的现象。为消除高频抖动,可以优化sEMG 信号滤波方法或优化输出结果,以提高预测精度。Shi 等[31]利用遗传算法优化BPNN,构造sEMG 与膝关节角度的关系,并对输出结果进行高频滤波以优化输出结果,结果表明预测值的RMSE降低24%。

基于sEMG 信号的关节运动学和动力学回归可用于可穿戴机器人的平滑控制,但与离散运动分类相比,连续运动回归的研究较少。与深度ANN 相比,浅层ANN是基于sEMG信号连续运动回归最常用的方法。基于传统机器学习的连续运动回归仍需要进行特征选择,否则可能出现过拟合现象,降低模型预测精度。目前针对连续运动回归的自动特征选择常被研究人员忽视。相关研究的主要特征总结于表2。

表2 基于传统机器学习的连续运动回归研究特征

3 深度学习

基于传统机器学习方法的运动意图识别需要进行大量的特征选择和提取,选取特征的重要性决定了识别结果的准确性。深度学习方法一般不需要手工选取EMG 信号特征,通过深度学习网络可以学习输入信号的多层次特征,从而进行分类或回归。深度学习提高了模型的非线性和识别的准确性,近年来在人体运动分类中得到广泛应用。基于深度学习的运动意图识别也可分为两种:离散运动分类和连续运动回归。常用的方法为CNN、RNN。典型的CNN 由输入层、卷积层、池化层、全连接层和输出层组成。常用的RNN为长短 期记忆网络(long short‑term memory,LSTM)。时间卷积网络(temporal convolution network,TCN)的出现也为基于sEMG的运动意图识别带来新的机遇。

3.1 离散运动分类

基于深度学习的离散运动分类需要建立sEMG 信号与上下肢离散运动之间的映射关系。

Park 等[32]采用基于CNN 的深度特征学习模型对6种手部运动进行分类,提出的模型由1 个输入层、4个卷积层、4 个池化层和2 个全连接层组成,该方法的分类准确率达90%。Côté‑Allard 等[33]采用基于Con‑vNet的迁移学习策略进行手势识别,结果显示,基于连续小波变换(continuous wavelet transform,CWT)的ConvNet,17 名参与者的7 个手势识别准确率为98.31%;基于原始EMG 的ConvNet,10 名参与者的18 个手势识别准确率为68.98%。Wei 等[34]提出了一种基于CNN 的多视图深度学习框架用于手势识别,通过穷举,找到3种EMG特征作为网络输入,结果表明与单视图深度学习框架和最先进的学习方法相比,提出的网络能获得更高的姿态识别精度。Bu等[35]利用五层递归对数线性化高斯混合网络对6 种手部运动进行分类,包括屈伸、内旋、内旋、外旋、抓取和张开,平均识别正确率为88.4%。

CNN 可以提取sEMG 的空间特征,而sEMG 信号本质上是时间序列。LSTM 是为解决一般RNN 存在的长期依赖问题而设计的,可用来提取sEMG 信号的时间尺度特征。Song 等[36]从日常生活中7 种常见运动中提取sEMG 信号时域和频域特征,构建训练集,建立基于多层感知器和LSTM 的下肢运动模式识别方法,结果表明,采用多层感知器的最佳识别准确率为95.53%,采用LSTM 的最佳识别准确率为96.57%。Cheng 等[37]采用CNN‑LSTM 混合模型识别4 个踝关节运动:背屈、跖屈、足内翻和足外翻,混合模型由2层CNN 和3 层LSTM 组成,识别准确率(97.55±1.93)%,高于单一使用CNN和LSTM模型。

TCN 既有时域上的建模能力,又有低参数量下CNN 的特征提取能力。与CNN‑LSTM 相比,TCN 具有更简单的网络结构和更少的参数。Betthauser等[38]采用TCN识别3个手部运动,网络输入为sEMG的MAV特征,TCN 识别准确性与LSTM 相当,但识别稳定性更高。

相关研究的主要特征总结于表3。

表3 基于深度学习的离散运动分类研究特征

3.2 连续运动回归

sEMG 信号与关节角度、关节力或关节力矩之间的映射也可以通过深度学习来建立。

对于CNN,Bao 等[39]提出一种将sEMG 映射到三自由度腕部关节角度的CNN,在时域和频域上分别构造了两种类型sEMG 特征图作为输入,与6 种传统机器学习方法进行比较,表明CNN 表现最佳,频谱图比时域图效果更好。Rane 等[40]使用CNN 估计骨骼肌力,预测精度良好,计算时间71 ms;而自由体逆动力学与静态优化时间为16 min。Ameri 等[41]采用CNN连续预测2 个腕部关节的自由度,预测误差<10%,小于SVM 的预测误差,且CNN 的处理时间为6 ms,SVM为13 ms。Yang等[42]使用CNN连续预测腕关节自由度,与SVM 模型相比,CNN 模型泛化能力更强,预测速度更快,在多个体训练的基础上,可以直接对新个体进行足够控制,而不需要进一步训练。

Dao[43]采用基于权重转移学习策略的LSTM 预测骨骼肌力,内部和外部验证的RMSE 分别<5%和10%,CC 范围0.95~0.99,所有数据和预测值间波形完美相似。Ma 等[44]利用sEMG 的RMS 及其时间提前特征作为输入,采用LSTM 估计连续膝关节角度,与实际角 度间平 均RMSE 为(3.4726±0.6162)°,高 于BPNN。Ma 等[45]提出一种基于短时连接自动编码器的LSTM 网络(SCA‑LSTM)预测上肢关节角度,sEMG 信号包络作为输入,结果显示实际值间的CC 为(0.957±0.013)。

CNN可以多层次学习输入信号的特征,生成特征图。RNN 擅长处理序列数据,如语音和文本[46],因为它可以利用序列的历史信息。EMG 作为时间序列数据,需要存储历史信息弥补使用时间窗的不足。Xia等[46]用循环卷积神经网络(recurrent convolutional neu‑ral network,RCNN)估计上肢运动轨迹,该RCNN架构由1 个输入层、3 个卷积层、2 个池化层、2 个长短时记忆层和1 个输出层组成,平均CC 为0.903。Xu 等[47]比较CNN、LSTM 和CNN‑LSTM 对上肢力的估计效果,结果表明,三种模型均适用于力的估计,LSTM和CNN‑LSTM 性能较好,平均RMSE 维持在(9.07±1.29)%和(8.67±1.14)%的低水平,CNN 的平均RMSE为(12.13±1.98)%。Gautam等[48]提出一种基于迁移学习的长期递归卷积网络(long‑term recurrent convolution network,LRCN)预测膝关节角度,输入为sEMG 信号CNN 提取特征,LSTM 进行序列学习,健康人和膝关节病患者关节角预测MAE分别为8.1%和9.2%。

与传统机器学习相比,基于深度学习的运动意图预测研究相对较少,而主要集中在上肢。与上肢相比,下肢主动运动意图的识别对安全性和实时性要求更高。未来有望通过深度学习方法进一步提高识别精度,并且在下肢运动意图预测上得到广泛的应用。CNN 与LSTM 结合使用有望实现端到端的连续运动预测,无需进行特征计算,可以节省时间,提高预测效率。TCN 也有望被用于基于sEMG 的连续运动回归,降低模型复杂度和参数量,进一步提高预测效率。

相关研究的主要特征总结于表4。

表4 基于深度学习的连续运动回归研究特征

4 小结

很难找到一种基于sEMG 信号的识别方法能够完全、彻底地估计所有人体运动意图。由于缺乏日常的可重复性和训练过程冗长,基于sEMG 信号的运动意图识别方法仍处于实验室阶段,很少市场化;大多研究识别的是正常人的运动意图,仅适用于特定用户和运动模式;特征提取的计算过程耗费时间,缺乏实时性。

由于有运动障碍的患者与健康人的肌电特征可能有所不同,我们需要进一步研究患者运动意图的识别,提高识别方法的鲁棒性和实用性非常重要。在未来下肢运动意图识别研究中,需要将实时性作为一个重要评价指标。从运动捕捉系统中提取部分数据特征改善算法分类或回归性能,在康复机器人中只集成少量关键传感器,可减少佩戴的传感器数,节省特征计算时间,提高运动意图识别的实时性。基于深度学习的方法对提高识别准确率和实现端到端的运动意图识别有重要作用,会成为未来发展的趋势。开发更加精确和实时的人体运动意图识别方法仍然是未来的挑战。

利益冲突声明:所有作者声明不存在利益冲突。

猜你喜欢
意图准确率分类
原始意图、对抗主义和非解释主义
法律方法(2022年2期)2022-10-20 06:42:20
陆游诗写意图(国画)
分类算一算
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
健康之家(2021年19期)2021-05-23 11:17:39
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
制定法解释与立法意图的反事实检验
法律方法(2021年3期)2021-03-16 05:56:58
分类讨论求坐标
高速公路车牌识别标识站准确率验证法
数据分析中的分类讨论