基于步态的机器学习模型识别遗忘型轻度认知障碍和阿尔茨海默病

2022-09-28 05:26:04陶帅韩星孔丽文汪祖民谢海群

中国全科医学 2022年31期

陶帅，韩星，孔丽文，汪祖民，谢海群

随着我国老龄化社会的到来，与年龄密切相关的认知障碍，包括痴呆的患病率，近年来呈明显增加的趋势。认知障碍包括几种情况，症状从轻度〔如轻度认知障碍（MCI）〕到重度〔如阿尔茨海默病（AD）和其他痴呆〕[1]。AD被世界卫生组织确认为全球公共卫生重点[2]。MCI是指正常衰老和痴呆之间的过渡阶段。MCI分为遗忘型MCI（aMCI）和非遗忘型MCI，aMCI主要影响短期记忆或长期记忆[3]。最确定的AD前期亚型是aMCI，被认为是AD的前驱症状，年转换率为6%～25%[4]。除了认知障碍外，MCI患者还可能出现运动功能障碍，例如步态障碍[5]。而步态障碍在AD患者中也很常见。先前的研究表明，步态与认知有着密切的关系[6]。例如，ROSSO等[7]发现步态减慢与认知障碍之间的关联得到了共同神经基质的支持，该基质包括较小的右侧海马体。由于步态与认知能力相关，因此具有不同的认知能力的人群所表现的步态状态也不一样，越来越多的研究证明了这一点。BEAUCHET等[8]在采用步态评估痴呆患者时发现，步长的高平均值和变异系数是中度痴呆的特征，而步幅时间变异系数的增加则与MCI状态有关。另外有研究发现MCI组与AD组在单任务和双任务的起立行走测试时，所测的部分步态参数差异有统计学意义[9]。本研究在此基础上通过机器学习建立分类模型，同时以aMCI患者和AD患者为研究对象，目的是确定基于步态的最佳机器学习模型和临床相关的重要步态特征，用于识别aMCI患者和AD患者。

1 对象与方法

1.1 研究对象 2018年12月至2020年12月，从国家康复辅具研究中心附属康复医院、佛山市第一人民医院和大连大学附属中山医院招募了102例受试者，按照纳入与排除标准最终纳入98例受试者，其中55例为aMCI患者，10例为AD患者，33例为健康对照（HC）者。本研究获得了佛山市第一人民医院研究伦理委员会的伦理学批准（审批号：IA-201944），并在入组时获得参与者的书面知情同意书。

aMCI患者的纳入标准：（1）有患者报告的主观认知主诉，并通过访谈确定，最好由知情人确认；（2）单域或多域认知能力下降，并以记忆力损害为典型表现（低于与年龄和受教育程度匹配的HC的1.5个标准差）；（3）经临床医生访谈确认日常生活活动能力保留；（4）临床痴呆评定（Clinical Dementia Rating，CDR）量表评分 =0.5 分[10]。

AD患者的纳入标准：（1）均符合美国国立神经病语言障碍卒中研究所和阿尔茨海默病及相关疾病学会的AD诊断标准[11]。（2）简易精神状态检查（Mini-Mental State Examination，MMSE）量表提示痴呆：评分≤17分（文盲）或评分≤20分（小学毕业）或评分≤24分（初中毕业及以上）[12]。（3）蒙特利尔认知评估（Montreal Cognitive Assessment，MoCA）量表提示认知受损：最佳划界分值为19分（受教育年限≤6年）或22分（受教育年限7～＜12年）或24分（受教育年限≥12年）[13]。（4）CDR量表评分=1分。（5）具有以下特征的早期、显著性的情景记忆损害：①患者本人或知情者报告的持续6个月以上的缓慢进展的记忆功能变化；②显著情景记忆损害的客观证据，包括不能被线索提示、再认测试改善或纠正的回忆困难；③情景记忆损害在起病或疾病进展过程中可以单独存在，或与其他认知功能改变共存。（6）颅脑计算机X线断层扫描（CT）显示无明显异常或仅为脑萎缩。

HC的纳入标准：（1）MMSE量表评分≥25分；（2）认知正常，由知情人确认；（3）CDR量表评分=0分。

所有参与者的排除标准：（1）文盲；（2）存在任何可能导致认知和运动障碍的神经系统疾病和其他系统性疾病（卒中病史、帕金森病、癫痫、脑创伤等）、影响下肢的活动性风湿病和骨科疾病、膝关节病史/髋关节置换术等。

1.2 研究方法在“面对面”访谈时收集参与者的基本情况，包括年龄、身高、体质量和鞋码。采用MMSE量表和MoCA量表评估整体认知功能，使用CDR量表评估认知受损程度。认知域的评估包括记忆力、执行能力、注意力和语言评估，评估方法分别为听觉词语学习测验（AVLT）[14]、Stroop 色词测验（SCWT）[15]、符号数字模式测验（SDMT）[16]、波士顿命名测验（BNT）[17]。使用日常生活活动评估量表（Activities Of Daily Living，ADL）评估患者在日常生活中的自我护理能力[18]。步态测试：所有步态测试均是在佛山市第一人民医院宽敞走廊内使用可穿戴步态采集设备完成。可穿戴步态采集设备常以鞋或鞋垫的形式嵌入传感器模块采集受试者步态信息，配合穿戴于肢体和躯干的整合角度计模块与足部信息可以得出下肢与躯干的运动动态角度信息[19]。所有参与者需要穿戴步态采集设备完成3个步态测验（1个单任务测验，2个双任务测验），行走长度＞10 m。单任务测验，即自由行走，参与者以舒适的速度行走，无任何额外的行为。双任务测验包括倍数7和倒数100测试。倍数7测试：在平整的地面进行测试，参与者开始行走，同时计数7的倍数（如7、14、21......）。倒数100测试：在平整的地面进行测试，参与者开始行走，并开始进行从100倒计数（如100、99、98......）。3个步态测验采集的步态参数一致，包括步幅、步速、步频、支撑相、摆动相、跨步时间、支撑时间、摆动时间、足趾离地角度和足跟着地角度。

1.3 统计学方法使用SPSS 26.0软件进行统计分析。计数资料以相对数表示，组间比较采用χ2检验。计量资料首先使用Shapiro-Wilk检验每组数据的正态性，然后使用Levene's检验每组数据的方差齐性。符合正态分布且方差齐的数据，以（±s）表示，多组间比较采用单因素方差分析，然后使用LSD事后检验进行组间两两比较；非正态分布或方差不齐的数据，以中位数（四分位数间距）〔M（QR）〕表示，多组间比较采用Kruskal-Wallis H检验，然后使用事后多重比较进行组间两两比较。以P＜0.05为差异有统计学意义。

1.4 分类建模使用随机森林算法（RF）和梯度提升决策树算法（GBDT）建立模型，10个步态参数作为预测变量，疾病状态（HC、aMCI、AD）作为响应变量。每种机器学习算法建立了3个模型，分别是HC/aMCI、HC/AD和aMCI/AD。使用10倍交叉验证评估每个模型的性能。

RF是bagging的一种扩展，是由BREIMAN[20]提出的一种分类算法。其计算效率高，可以在大型数据集上快速运行，已被应用于不同领域[21]。RF由一组决策树组成，其中每个树都包含拆分节点和叶节点[22]，然而RF使用每个节点上随机选择的变量中的最佳节点将每个节点拆分为分支，而不是在所有变量中使用最佳分支[23]。实际上RF中的每棵决策树都是一个分类器（假设现在针对的是分类问题），对于一个输入样本，N棵树会有N个分类结果，而随机森林集成了所有的分类投票结果，将投票次数最多的类别指定为最终的输出。该算法具有多个必须由用户设置的超参数，例如节点必须包含的最小样本数和树的数量等[24]。RF的优点包括：在决策树中随机选择样本可以在一定程度上避免过度拟合;随机选择样品可以增强抗噪性;可以处理高尺寸样品，无须因素筛选[25]。

GBDT是FRIEDMAN[26]在1999年提出的一种迭代决策树算法，该算法由多棵决策树组成，所有树的结论累加起来为最终结果，被认为是泛化能力较强的一种算法。GBDT是一种用于回归和分类问题的机器学习技术，基本思想是将一系列弱基分类器组合成一个强基分类器[27]，学习过程是基于特征和响应数据集构建梯度提升树分类或回归模型，然后使用分类和回归模型对新的传入样本进行分类/预测[28]。GBDT模型采用梯度下降法，将决策树法与bagging 和 boosting算法相结合，解决传统决策树的过拟合问题[25]。GBDT和随机森林最本质的区别是GBDT中的每一棵树学习的是之前所有树的结论和残差（残差为真实值减去预测值）。

1.5 特征选择技术本研究在RF和GBDT分类器中使用递归特征消除技术（recursive feature elimination，RFE）进行重要特征选择，减少分类器的输入变量。RFE是一种基于包装器的特征排名算法，通过执行优化算法在空间内搜索最佳特征子集[29]，消除特征之间的冗余。例如，基于GBDT分类器的RFE：（1）将10个步态特征作为初始特征子集输入GBDT分类器，计算每个特征的重要性分数；（2）然后从当前特征子集中移除重要性分数最低的一个特征，得到新的特征子集，再次输入GBDT分类器，计算每个特征的重要性分数；（3）递归地重复步骤2，直至剩余的特征数量达到所需的特征数量，然后利用10倍交叉验证方法得到最佳特征子集的分类精度。本研究使用了Python中scikit-learn库进行建模和重要特征选择。

2 结果

2.1 三组受试者基本情况比较三组受试者年龄、性别、身高、体质量、鞋码比较，差异无统计学意义（P＞0.05）；MMSE量表评分、MoCA量表评分比较，差异有统计学意义（P＜0.05），见表1。

表1 三组受试者基本情况比较Table 1 Comparison of basic information of three groups of subjects

2.2 三组受试者自由行走测试时步态参数比较三组受试者自由行走测试时步幅、步速、足趾离地角度和足跟着地角度比较，差异有统计学意义（P＜0.05）。进一步两两比较结果显示，aMCI组和AD组受试者步幅较HC组短，足跟着地角度较HC组小；AD组步速较HC组和aMCI组受试者慢，足趾离地角度较HC组小（P＜0.05），见表2。

表2 三组受试者自由行走测试时步态参数比较Table 2 Comparison of gait parameters of three groups of subjects during the free walking test

2.3 三组受试者双任务倍数7测试时步态参数比较三组受试者双任务倍数7测试时步速、支撑时间、足趾离地角度和足跟着地角度比较，差异有统计学意义（P＜0.05）。进一步两两比较结果显示，aMCI组和AD组受试者步速较HC组慢，足趾离地角度和足跟着地角度较HC组小；AD组支撑时间较HC组长，足趾离地角度较aMCI组小（P＜0.05），见表3。

表3 三组受试者双任务倍数7测试时步态参数比较Table 3 Comparison of gait parameters of three groups of subjects during performing the dual-task of counting backwards in sevens

2.4 三组受试者双任务倒数100测试时步态参数比较三组受试者双任务倒数100测试时步幅、步速、足趾离地角度和足跟着地角度比较，差异有统计学意义（P＜0.05）。进一步两两比较结果显示，AD组步速较HC组和aMCI组受试者慢，足趾离地角度和足跟着地角度较HC组和aMCI组小，步幅较HC组短；aMCI组足跟着地角度较HC组小（P＜0.05），见表4。

表4 三组受试者双任务倒数100测试时步态参数比较Table 4 Comparison of gait parameters of three groups of subjects during performing the dual-task of counting backwards from 100

2.5 建立模型和特征选择以步态采集设备采集的10个步态特征作为输入特征，参与者的疾病状态作为标签，通过不断训练RF和GBDT进行分类建模。表5总结了基于10个步态特征的RF模型和GBDT模型区分各组的准确度和受试者工作特征曲线下面积（AUC）值。在执行单任务行走和双任务行走时，HC和aMCI患者之间的分类效果均不理想，分类准确度和AUC值均在0.700 0以下。然而，HC和AD患者之间分类效果比较好，在RF模型中分类准确度和AUC值均可达0.800 0以上，甚至在双任务倍数7和倒数100测试时，AUC值达0.900 0以上。在RF模型中，执行自由行走任务的aMCI和AD患者之间分类准确率最高达0.861 5。从总体分类效果来看，GBDT的分类效果不如RF的分类效果。

表5 基于10个步态特征的RF模型和GBDT模型区分各组的准确度和AUC值Table 5 The accuracy and AUC value of RF model and GBDT model in distinguishing healthycontrols，amnestic mild cognitive impairment and Alzheimer's disease patientsbased on 10 gait features

在RF和GBDT分类器中使用RFE求得最佳步态特征组合，使分类准确率达到最高。由于在两个机器学习分类器中，HC组和aMCI组的分类效果不佳，所以只对HC组/AD组、aMCI组/AD组之间进行了重要特征选择。研究发现将RF-RFE选择的特征组合作为分类器的输入特征，得到的结果并不理想。然而，GBDT-RFE选择的前两或者三名特征组合，实现了RF和GBDT的最佳性能。因此，本文展示了GBDT-RFE计算的各个步态特征的重要性（图1、2）。图1识别了HC组和AD组受试者步态特征的重要性。笔者按照图中排名依次将前一名至前五名特征组合训练机器学习模型，通过比较分类准确率发现单任务和双任务选择的最佳特征组合是不同的：执行自由行走任务时，最佳特征组合是步速、足趾离地角度、步频；执行双任务倍数7测试时，最佳特征组合是步速、跨步时间、足趾离地角度；执行双任务倒数100测试时，最佳特征组合是足跟着地角度、支撑相、步速。图2识别了aMCI组和AD组步态特征的重要性。同样，识别aMCI和AD患者的最佳特征组合也是不同的：执行自由行走任务时，最佳特征组合是足趾离地角度、足跟着地角度；执行双任务倍数7时，最佳特征组合是足趾离地角度、步幅；执行双任务倒数100时，最佳特征组合是步幅、足跟着地角度。

图1 不同行走测试时的步态特征识别HC和AD患者的重要性Figure 1 The importance of gait characteristics during performingdifferent walking tests in identifying healthycontrols and Alzheimer's disease patients

图2 不同行走测试时的步态特征识别aMCI患者和AD患者的重要性Figure 2 The importance of gait characteristics during performing different walking tests in identifying amnestic mild cognitive impairment and Alzheimer's disease patients

表6总结了GBDT-RFE选择的特征作为RF和GBDT分类器的输入特征，经过10折交叉验证后的分类准确度和AUC值。HC组和AD组受试者的分类准确率在执行双任务倍数7测试时实现了最高（0.905 6），GBDT也是如此。aMCI患者和AD患者的分类效果不如HC和AD患者，但是准确度最高可达0.876 9。在执行双任务倒数100测试时，RF模型和GBDT模型区分aMCI和AD的准确率均是最低。从整体分类效果来看，输入重要特征模型的性能优于输入10个步态特征模型的性能。相比GBDT模型的性能，RF模型的性能更佳。

表6 基于重要步态特征的RF模型和GBDT模型区分各组的准确度和AUC值Table 6 The accuracy and AUC value of RF model and GBDT model in distinguishing healthy controls，amnestic mild cognitive impairment and Alzheimer's disease patients based on important gait features

3 讨论

本研究旨在使用单、双任务评估的步态数据探索最佳机器学习分类模型，以识别HC、aMCI和AD，并根据验证过的分类模型进行重要特征选择，以找到各组间的最佳特征组合。本研究结果显示，RF模型识别HC、aMCI和AD的整体性能优于GBDT模型。RF模型通过将GBDT-RFE选择的前两名或者三名特征作为输入特征，在本研究中实现了HC组/AD组和aMCI组/AD组的最高分类准确率。HC组/AD组的最高分类准确率为 0.905 6，AUC 值为 0.944 4。aMCI组 /AD 组的最高分类准确率为 0.876 9，AUC 值为 0.933 3。

既往研究显示，有认知障碍者和健康人群的步态周期（支撑相、摆动相、支撑时间、摆动时间）和运动学参数（步幅、步速、步频、跨步时间）比较，差异有统计学意义[30-31]。很少有研究使用时间-空间参数（足趾离地角度、足跟着地角度）作为评估认知障碍的因素，但是有研究发现足趾离地角度和足跟着地角度是区分健康人群和有步态障碍者的重要且灵敏的指标[32-33]。本课题组前期研究发现足趾离地角度和足跟着地角度可能是区分卒中后痴呆和AD的典型步态特征[34]。因此，本研究将单双任务的步态周期、运动学参数和时间-空间参数3个领域的步态参数纳入。研究结果显示，单任务行走和双任务行走的部分步态特征（步幅、步速、支撑时间、足趾离地角度和足跟着地角度）可用来区分HC组与aMCI组、HC组与AD组、aMCI组与AD组受试者。重要的是，足趾离地角度和足跟着地角度不但在各组间有差异，也被机器学习算法选择为重要步态特征。结合之前的研究[34]，得出足趾离地角度和足跟着地角度在未来作为评估有关认知障碍疾病的标志物具有重要临床意义。与自由行走比较，倒数100行走任务已经被证明可能影响MCI患者的步态参数[8，35]，但倍数7行走任务却很少受到关注。本研究在受试者进行步态测试时，尝试将倍数7行走任务加入，结果显示其和倒数100行走任务的步态参数效果基本一致，即只有步幅在各组间差异无统计学意义，但倍数7行走任务时的支撑时间在HC组和AD组之间表现出了统计学差异，与倒数100行走任务时不一致[36]，提示未来可把不同行走任务的支撑时间对AD的影响放入研究中。

在统计学中，根据统计学方法所得到的P值，即概率，是反映某一事件发生的可能性大小，一般将P＜0.05定义为差异有统计学意义。也有一些研究将P＞0.05且P＜0.1的结果定义为具有边际差异，即微弱效应[37-38]。本研究将边际差异纳入，结果显示各组间具有边际差异的步态参数平均值差值较大，如自由行走任务时的足趾离地角度在aMCI组和AD组之间具有边际差异（P=0.076），aMCI组的平均值为（41.05±4.48）°，而AD组的平均值为（38.34±5.20）°。值得注意的是，大部分具有边际差异的步态参数在另外两个行走任务或者另外两个其中的一个行走任务中的相同组别中差异有统计学意义。提示未来应该对具有边际差异的步态参数进行讨论，并且纳入临床研究中，这可能会帮助临床医生更快、更准确地评估患者。本研究也间接证明了这一内容，自由行走的足趾离地角度作为重要步态特征之一，在识别aMCI和AD上产生了最佳准确率。

本研究结果显示，在单任务和双任务时，HC组和aMCI组间均有部分步态参数差异有统计学意义，这与先前研究结果一致[39-41]。但也有研究结果显示，虽然MCI患者的步态参数比HC更差，但是没有一项单任务和双任务的步态参数能够区分二者，双任务损伤则是AD患者特有的[42-43]。本研究中的机器学习部分也证明了这一点，自由行走状态实现的分类准确率为0.623 5，双任务状态实现的分类准确率为0.683 7，二者差别不大。这也充分说明MCI是介于正常老化和痴呆之间的一种过渡状态，患者的步态障碍也在有与没有之间，所以是否可通过步态参数实现HC和aMCI分类仍有待商榷。同时，本研究结果显示单任务和双任务时的步速、足趾离地角度和足跟着地角度在HC组与AD组间差异均有统计学意义，与先前研究一致[44]。单任务行走不具备认知任务，研究结果中却得出单任务的步态参数能够区分HC组和AD组人群，这是可以解释的。有研究表明，步态障碍在痴呆患者中比在生理性衰老人群中常见，且其常见于整个AD病程，患病率随着AD阶段的加重而增加[45]。本研究在试验中加入了机器学习评估HC组和AD组患者，并在文献[46-47]基础上，加入了RFE对区分HC组和AD组的步态参数进行重要特征选择，结果显示步速、足趾离地角度和足跟着地角度作为RF模型的输入特征，对HC组和AD组进行分类的效果最佳，单任务和双任务的分类准确率均为0.850 0以上，与统计分析结果一致。关于aMCI组与AD组，前期研究发现，在双任务测试中，与MCI患者相比，AD患者速度降低、步幅时间增加[48]；在单任务和双任务的起立行走测试时，步速、步态周期、步频和步长差异有统计学意义[9]。这与本研究结果相符，但是本研究结果显示，aMCI组与AD组步频和步长比较，差异无统计学意义，时间-空间参数（足趾离地角度、足跟着地角度）差异有统计学意义。机器学习结合RFE进行重要特征选择是区分aMCI组与AD组的重要环节，本研究结果显示步幅、足趾离地角度和足跟着地角度是区分aMCI患者和AD患者的重要步态标志物，在RF模型中，aMCI组和AD组的分类准确率可达0.876 9。随着疾病的发展，单任务和双任务的步态表现下降，但是aMCI和AD之间具有统计学差异的步态参数并不多，而且总体来看，RF模型对aMCI和AD的分类效果也不如其对HC组和AD组的分类效果。由此来看，步态障碍不仅可在AD患者中被观察到，也是aMCI患者的伴随事件，但是aMCI患者的步态障碍轻于AD患者。近年来，有关aMCI和AD的步态障碍研究越来越多，并且证实了步态障碍的严重程度取决于疾病的类型和认知障碍的严重程度[45]。总体而言，从临床角度来看，机器学习技术建立分类模型的研究可以帮助临床医生将机器学习作为识别aMCI和AD诊断的工具，并为明智的决策提供解释。

本研究仍存在一些局限性：（1）研究仅比较了RF和GBDT模型，虽然分类效果不差，但这远远不够，将来应考虑更多的机器学习模型，比如Lasso回归、长短期记忆网络和XGBoost，以确定早期识别aMCI患者和AD患者的最佳措施；（2）本研究所纳入AD患者的样本量少，可能会降低本研究的统计有效性，并影响机器学习的准确性；（3）本研究仅采集了步态周期、运动学参数和时间-空间参数3类，步态参数涉及的领域不广泛，将来应该考虑加入动力学参数（地反力、力矩和身体重心的加速度），以探索aMCI和AD的最优步态标志物。

综上，本研究发现：（1）使用步态参数评估HC和aMCI具有争议，未来的研究应该进一步探索该研究领域的准确性；（2）可穿戴设备采集的步态参数可以作为识别HC和AD的有用临床工具；（3）步幅、足趾离地角度和足跟着地角度是识别aMCI患者和AD患者的重要步态标志物，未来对预防或延缓AD的发生有重要的临床应用价值。

作者贡献：陶帅负责资金提供、调查开展、概念提出；韩星负责形式分析、方法学、软件、原稿创作；孔丽文负责项目管理、监督、验证；汪祖民负责可视化、审查和写作；谢海群负责数据管理、资源提供。

本文无利益冲突。