基于Tsfresh-RF特征提取的人体步态识别算法①

2021-06-28 06:28张晓东孙玉超魏丽璞
计算机系统应用 2021年6期
关键词:分类器步态特征提取

张晓东,陈 炜,孙玉超,魏丽璞

1(天津理工大学 机械工程学院 天津市先进机电一体化系统设计与智能控制重点实验室,天津 300384)

2(天津理工大学 机械工程学院 机电工程国家级实验教学示范中心,天津 300384)

3(天津理工大学 中环信息学院,天津 300350)

4(军事科学院系统工程研究院 卫勤保障技术研究所,天津 300161)

近年来,越来越多的下肢外骨骼机器人被应用在医疗、军事、工业等领域[1].在这些设备的控制中,准确的步态数据检测和识别显得尤为重要.通过深入研究,下肢外骨骼已朝着更智能的人机协作方向发展,许多研究者通过检测穿戴者的运动意图来提高步态识别能力,从而增强人机协调能力[2,3].

以往对不同步态数据检测的研究主要通过肌电(EMG)传感器[4]、惯性(IMU)传感器[5]、足压传感器[6]和电容传感器[7]等实现.例如Kuang 等[8]利用胶水将足底压力传感器粘贴在鞋垫上,将肌电传感器直接粘贴在受试者的小腿皮肤上来采集人体步态数据.但由于粘贴不牢靠和肌肉的特殊性,这些信号是不稳定的,对受试者产生了很大不便.惯性传感器和电容传感器都需要绑带绑在人体身上采集数据,不同的是电容传感器受到了皮肤状况和汗液的影响[9,10].采集到的数据需要特征提取和分类器识别.Li 等[11]使用绝对值和方差积分特征提取,支持向量机作为分类器来识别五种步态,最终证明个体差异和样本大小都会影响步态分类的准确性.Wu 等[12]提出了一种基于简化支持向量机的下肢运动识别多分类算法,成功识别站立、行走和上下楼梯的运动.Antwi-Afari 等[13]研究建筑工人失衡步态检测的最佳分类方法,发现随机森林、K 近邻、支持向量机比其他分类器表现更好.

上述工作主要通过不同传感器采集人体数据、提取特征和选择分类器来提高步态识别准确率.尽管这些方法在一定程度可以有效提高步态识别准确率,但这一领域的研究范围和深度仍不够.Lee 等[14]证明,由于可变环境因素的影响,无法保证步态识别的性能,最常见的可变因素有人体负重、行走速度、传感器的选择等;此外,不同传感器位置和动作幅度也是两个不容忽视的因素.有学者基于肌电图研究了不同传感器位置步态识别的影响.例如Huang 等[15]研究表面肌电在左右大腿、左右小腿对8 种步态识别的影响,结果平均准确率达到92.23%.尽管有这些出色的结果,但这并不意味着基于IMU 的步态识别在不同传感器位置肯定存在同样的结论,基于IMU 的不同转弯角度对步态识别的影响鲜有报道.此外针对时间序列特征提取是一个非常耗时的过程,因为科学家和工程师必须考虑各种信号处理和时间序列分析的算法,来识别和提取有意义的时间特征序列.Chinimilli 等[16]提出包括加速度、角速度在内的平均值、标准差、平均绝对差、平均合成加速度、峰值之间的时间等86 个特征提取算法,但特征提取的过程较为复杂,应用范围局限.

为了提升人体步态识别准确率和实用性,我们采用一种基于Tsfresh 工具和监督机器学习随机森林算法(RF)来完成步态模式获取.Tsfresh 工具用于自动提取过滤步态时间序列特征,监督机器学习随机森林算法(RF)用于判定步态模式.实验环节我们招募4 名健康的志愿者进行实验,两个IMU 传感器分别绑定在受试者的左大腿前面和右小腿后面,让受试者模拟九种步态事件(如站立、坐立、平地行走、上楼梯、下楼梯、转弯30 度、转弯60 度、转弯90 度和转弯180 度)来收集加速度、角速度、角度等数据.然后将采集的步态数据通过无线蓝牙5.0 传到计算机.结果表明:在人体不同传感器位置和不同转弯角度步态下,基于Tsfresh-RF 的算法模型鲁棒性较好,是一种有效的、准确的步态识别方法.

本文的其余部分组织如下.第1 节描述了识别算法包括特征提取和分类算法.第2 节详细介绍了实验的过程和方法.第3 节是实验结果与分析数据,包括不同传感器位置对步态识别影响、3 种算法的比较结果以及转弯角度的变化对算法识别准确率的影响.第4 节得出结论.

1 Tsfresh-RF 算法

本文提出一种基于Tsfresh 时间序列特征提取和RF 的人体步态识别算法模型.步态数据获取采用一种无线多通道传感器装置,通过蓝牙5.0与计算机连接.具体步态识别流程如图1所示.

图1 基于Tsfresh-RF 算法的步态识别流程

1.1 Tsfresh 特征提取

采集人体下肢步态信息时,两个传感器采集到的数据通过蓝牙同时上传到计算机,所以首先需要分割IMU1和IMU2 的数据,其次需要特征提取,特征提取的主要目的是对原始加速度、角速度、角度等信号进行降维,降低模式识别和分类的复杂性,进而提高步态识别和分类的效率[17].因此,提取范围广、复杂度低、效率高的特征至关重要[18].本文提取的原始数据为时间序列,时间序列是在时间上连续进行的观测序列[19].本文采用一种Python 包Tsfresh 工具来提取特征,与传统特征提取方法相比,该算法效率高和范围广,且能自动地计算出大量的时间序列特征[20].时间序列通常包含噪声、冗余或无关信息.为了避免提取不相关的特性,Tsfresh 有一个内置的过滤过程.具体流程如图2所示.

图2 Tsfresh 特征提取基本流程

本文初步提取13 734 个特征,然后将空值和无效值去掉,最后利用Tsfresh 的特征选择功能进一步过滤掉对识别结果影响不明显的特征,得到6993 个特征数量.

1.2 RF 分类算法

随机森林分类器是一种用于分类的集成学习技术,由多个决策树组成.该方法有助于减少模型方差和最小化训练数据集的过拟合[21].由于RF 分类器中的每个节点被分割成有限数量的随机预测变量,因此相对于SVM和ANN 等其他分类器,它被认为是更强大的分类器[22].其算法如算法1.

算法1.RF 分类器T={(xi,yi)■■■xi∈Rd,yi ∈Y} 1≤i≤n输入:训练集,Rd;随机森林的规模l,随机抽取的属性子集的大小m,测试样例x;y∈Y输出:测试样例x 的类别标签;1.for(;;)i=1i≤1i++2.从训练集T 中按一定比例有放回地随机抽取一个子集;3.end for i=1i≤1i++Ti 4.for(;;)5.从d 个属性中,随机地抽取m 个属性;6.用决策树树算法在包含m 个列的样例集 上构建决策树;7.end for RF={DT1,DT2,···,DTl}TiDTi 8.采用投票机制,用决策森林 对测试用样例x 进行分类;9.输出x 的类别y.

为了识别不同类型的步态,机器学习分类器需要从IMU 提取的数据特征学习独特的信号模式.Antwi-Afari 等[13]研究了基于足底压力的建筑工人失衡步态检测的最佳分类方法,发现随机森林、K 近邻、支持向量机比其他分类器表现更好.然而,由于分类器的性能取决于数据类型和特征类型,大多数研究表明,不存在单一的最佳分类器[23].因此有必要测试不同的分类器.本研究还将支持向量机和朴素贝叶斯分类器作为对比.

支持向量机(SVM)是一种基于统计学的机器学习方法.支持向量机通常在许多二分类问题或多分类问题中表现出出色性能.它是在各类之间寻找最优的分离决策超平面,并使每个类的模式[24]之间的距离最大.通过使用核函数将数据集映射到内积空间,从而创建一个非线性结构,它可以受益于转换特征空间中的最大边缘超平面[25].

朴素贝叶斯,它是一种简单但极为强大的预测建模算法.它的基本思想是根据给定的待分类数据,分别求解在该数据属于各个目标类别的概率,概率最大的类别即为最终的类别,如式(1)所示.

其中,y是类别,x是待分类项.

在朴素贝叶斯中,特征属性之间相互独立的,因此p(yi|x)可以通过式(2)进行求解.

其中,α是x的各项特征属性.

1.3 算法评估

为了消除指标之间的量纲和取值范围差异的影响,需要进行标准化处理,将数据按照比例进行缩放,使之落入一个特定的区域,便于进行综合分析.我们采用零-均值规范化即标准差标准化,经过处理的数据的均值为0,标准差为1.公式为:

其中,x为原始数据的均值,σ为原始数据的标准差.

同时为了得到可靠稳定的分类模型,我们利用五五折交叉验证法评估识别准确率.将所选数据随机分成5 份,每一次将其中一份作为测试数据,其余四分作为训练数据,这个过程共进行5 次.

整体识别准确率(RA)的计算方法为:

其中,Ncorr为正确识别测试数据的个数,Ntotal为测试数据的总数.

由于某些步态更容易被错误地识别为其他步态,因此建立混淆矩阵C来量化误差,公式如下:

每个元素计算如下:

其中,nij表示为第i种模式下的测试数据量被识别为第j种模式,ni为模式i中测试的总量.当cij(i≠j)值较大时,表示模态i很容易被误归为模态j.

2 实验

2.1 数据采集

本系统选用了基于ICM42605 的九轴姿态传感器来实现对人体运动状态的测量与跟踪.WT52HB是一种USB 适配器模块,内置nRf52832 蓝牙芯片.该蓝牙适配器传输稳定,最远距离可达50 米.在识别系统开始时,同步采集两个IMU 传感器数据信号.每个IMU生成9 个通道数据,包括角度3 个通道(偏转、横摇、俯仰),加速度3 个通道(AccX、AccY、AccZ),角速度3 个通道(GryoX、GryoY、GryoZ).考虑到传输效率和信息质量,我们将采样频率设为50 Hz,与其他研究者[26]相同.传感器采集到的信号通过蓝牙模块传输到电脑端进行滤波、分割、特征提取和归一化等数据处理.然后将处理好的数据输送给3 个分类器训练分类器模型.最后,从分类器的输出结果评价不同传感器位置和不同步态对识别结果的影响.

在研究中,我们招募了4 名身体健全的男性志愿者.年龄范围:25–26 岁;身高范围:163.0–177.0 cm;体重范围:57–71 kg.实验在温度、湿度和通风条件适宜的环境下进行.这项实验是根据《赫尔辛基宣言》的原则进行的.

为最大限度获得有效人体运动信息,传感器节点的位置应慎重选择.根据人体下肢运动生物力学[27],我们选择人体下肢左大腿和右脚踝靠上部位放置姿态传感器.如图3所示.

图3 IMU1 模块在左大腿(左);IMU2 模块在右脚踝靠上部位(右上);蓝牙模块和传感器绑带(右下)

2.2 具体步骤

实验前,被试者需满足以下要求:首先,熟悉相关实验设备,如IMU、PC、秒表、绑带等;其次,不允许进行体育锻炼,以避免疲劳所引起的并发症;最后,穿轻薄长裤,以有效固定姿态传感器,从而更有效的采集步态数据.

实验研究了站立(ST)、坐立(SI)、上楼梯 (SA)、下楼梯 (SD)、平地正常行走(NW)、转弯30 度(T30)、转弯60 度(T60)、转弯90 度(T90)、转弯180 度(T180) 9 种运动模式.每种步态测试8 次.

在每次试验中,当受试者准备好,他们会向工作人员发送指令来收集信号.实验开始时,受试者要求先直立站5 s 使传感器数据平稳.在站立实验中受试者被要求在每次试验中保持静止5 s;在坐立实验中,受试者被安排坐在42 cm 高的椅子上坐立5 s.在一个宽75 cm,深30 cm,高15.6 cm 的台阶上进行上下楼梯实验,每次实验为3 个步态周期即8 步.平地正常行走要求受试者按照自己习惯速度在平地向前行走18 步.在转弯步态研究中,我们提前设计好30 度、60 度、90 度、180 度的左转弯测试角,受试者从转弯开始到结束约3 个步态周期即9 步.

每次实验结束后,要求受试者休息5 分钟,以消除因运动引起的疲劳,避免对下次实验产生负面影响.

3 结果与讨论

3.1 传感器位置对识别算法影响

从表1可以看出,9 种(ST、SI、NW、SA、SD、T30、T60、T90、T180)步态的测试平均识别准确率差异显著,最高为0.91,最低为0.65.ST、SD 的步态子阶段识别表现最好,在所有子阶段都取得了相对较高的准确率.T180 表现最差,步态识别准确率都在0.74以下.步态T30 出现了0.30、0.25 的特殊情况,这可能和识别分类器有关.

表1 9 种步态识别准确率

为了验证Tsfresh-RF 算法模型识别性能,我们分别使用SVM和NB 算法来对比分析.结果如图4所示,RF 算法性能明显高于其它两个算法,不仅准确率相对较高,而且步态识别稳定性较强.另外两个IMU 同时识别能够有效提高识别准确率.IMU1和IMU2 相比较IMU2 对识别结果影响显著.由此说明传感器位置的放置对步态识别有重要影响.当步态训练数据来自更多位置传感器时,步态识别更加准确.

图4 不同传感器位置平均识别率

图5进一步说明了随机森林算法在每种步态识别中的优越性.其中针对SI、T30 两种步态支持向量机也表现出一定的分类能力.朴素贝叶斯分类器表现相对较差,只有在SA 步态识别时3 个分类器识别率相同.

图5 不同分类器在每种步态下识别率

3.2 转弯角度对识别算法影响

此外,为了进一步研究转弯角度对步态识别的影响,实验分别测试了志愿者在转弯30 度、60 度、90 度和180 度情况下的步态.如图6显示了不同转弯角度的识别率.发现RF 表现出较高的准确率,T60、T90 两种步态普遍比T30、T180 两种步态识别率高.从转弯幅度分析4 种步态准确率从大到小分别是T180、T30、T60、T90.即步态转弯幅度越大步态识别率越低.

图6 不同转弯角度识别准确率

3.3 混淆矩阵

9种步态被3 种分类器训练和测试,总体结果如图7所示.在矩阵中,横坐标表示真实值、纵坐标表示预测值.蓝色越深意味着越高的步态识别精度.主对角线显示的数据是真实值和预测值相同的数据.非主对角线的数据显示的是真实值和预测值不一样的数据.从每个分类器的混淆矩阵中可以看出,不同分类器对步态识别结果有很大影响且RF 准确性更高一些.用于训练和预测的数据来自不同步态的情况下,结果差异明显.这说明不同步态识别对结果具有很大影响.例如NB 用T30 训练和用T30、T60、T90、T180 预测的结果(分别为0.25、0.35、0.10、0.30).在其他分类器SVM和RF 中也发现了类似的结果.在SVM 中用步态SA 的数据进行训练,用SI 数据进行预测(SA-SI:0.25)表现最差.RF 最差结果来自SA-SI(0.25).在NB中,SD-SA和T30-T60 表现最差,分别为0.40和0.35.

图7 3 种分类器下步态识别准确率矩阵

4 结论与展望

本文采用一种蓝牙无线多通道信号采集装置来采集人体下肢的加速度、角速度、角度等信号.传感器分别固定在下肢不同位置,4 名健康的志愿者进行实验,模拟九种步态事件.提出了一种基于Tsfresh-RF 特征提取的人体步态识别算法模型.同时采用支持向量机和朴素贝叶斯进行比较.结果表明:(1)在两个传感器同时识别下,Tsfresh-RF 获得了最佳分类效果,9 种步态平均准确率达到91%;(2)传感器布置位置对步态识别的准确性有显著影响,其中小腿的影响大于大腿且在一定范围内传感器布置越多准确率越高;(3)转弯步态识别率T180>T30>T60>T90,且RF 表现出较好识别率.可以得出结论:在人体不同传感器位置和不同转弯角度步态下,基于Tsfresh-RF 的步态识别算法模型鲁棒性更好,可以实现更精确的人体步态识别.此外步态识别系统训练在单一位置传感采集是不够的且动作幅度大小会影响识别准确率.在未来的研究中,应考虑步态识别系统与外骨骼系统的结合.此外,还需要研究实时步态的识别方法.

猜你喜欢
分类器步态特征提取
同步定位与建图特征提取和匹配算法研究
基于步态参数分析的老年跌倒人群步态特征研究
少样本条件下基于K-最近邻及多分类器协同的样本扩增分类
特别策划《步态分析研究综述》
学贯中西(6):阐述ML分类器的工作流程
步态识人
基于MED—MOMEDA的风电齿轮箱复合故障特征提取研究
基于AdaBoost算法的在线连续极限学习机集成算法
基于曲率局部二值模式的深度图像手势特征提取