一种面向非平衡步态数据的帕金森病诊断方法

2018-05-08 07:52许胜强
计算机工程与应用 2018年9期
关键词:步态分类器帕金森病

吴 玺,张 永,陈 绪,许胜强,王 训

WU Xi1,ZHANG Yong2,CHEN Xu2,XU Shengqiang3,WANG Xun4

1.合肥工业大学 计算机与信息学院,合肥 230009

2.合肥工业大学 工业与装备技术研究院,合肥 230009

3.中国科学院 合肥智能机械研究所,合肥 230031

4.安徽中医药大学 神经病学研究所附属医院,合肥 230061

1.School of Computer and Information,Hefei University of Technology,Hefei 230009,China

2.Institute of Industry&Equipment Technology,Hefei University of Technology,Hefei 230009,China

3.Institute of Intelligent Machines,ChineseAcademy of Sciences,Hefei 230031,China

4.HospitalAffiliated to Institute of Neurology,Anhui University of Chinese Medicine,Hefei 230061,China

1 引言

帕金森病(PD)是一种锥体外系疾病,也称为运动障碍疾病,主要症状表现为运动迟缓、肌僵直、静止性震颤和姿势不稳。帕金森病造成的运动障碍往往会呈现一种特殊的步态特征,如拖步、慌张步态和步态冻结等[1-2]。临床诊断中,医生通常利用上述步态特征作为帕金森病的诊断线索,因此对帕金森病患者的步态信号特征进行分析可以为疾病前期诊断和康复治疗提供有力的依据。

早期帕金森病诊断通常采用量表形式,如帕金森病统一评分量表(UPDRS)和Weber’s分级量表[3],这种量表通过设计针对性的动作和问题对患者的步态等特征进行直接观察,并对各项指标进行主观评分。这种诊断方式主观性强,依赖于医生经验,诊断的准确性和稳定性不高[4]。

近年来机器学习技术的发展,为步态信号定性和定量的分析提供了重要的手段[5-6]。如Begg等人[7]采用支持向量机自动识别年龄与步态特征之间的变化规律,其使用了三种类型的步态变量:基本时空参数、运动属性和动力学属性。当人正常行走时,使用一种同步PEAK运动分析系统和一个平台记录并分析12位年轻人和12位老年人的步态信息。Klucken等人[8]运用一种基于可移动的、嵌入生物传感器的人工智能步态分析(eGaIT)系统对帕金森病患者的患病阶段和运动状态进行自动识别。上述研究中分别选择帕金森病患者和老年人组与具有相似物理特征的对照组作为训练集,并且所选择的正、反两类样本大小基本相同,属于平衡样本数据分析。但是在帕金森病的监测中,帕金森病患者的数量远少于健康人群,因此实际中获得的样本为非平衡数据样本,并且将帕金森病患者判别为健康人的代价和将健康人判别为帕金森病患者的代价不同,前者导致延误治疗的最佳时机甚至危害生命,而后者以再次检查或药物副作用为代价,显然将帕金森病患者判定为健康人群的代价更大,因此使用平衡样本学习到的模型不能解决实际问题。

本文的研究目的是针对由帕金森病患者和正常人群组成的非平衡步态数据集,应用机器学习的方法构建识别模型,然后应用该识别模型来区分帕金森病患者和正常人群,从而为临床医生诊断疾病提供客观依据。研究过程是首先由U型电子步道提取出真实的帕金森病患者和健康人群的各种步态时空参数,并将上述步态时空参数和受试者的物理特征构建出非平衡特征数据样本,然后采用一种代价敏感支持向量机(CS-SVM)的方法来处理非平衡样本数据,建立自动识别帕金森病患者的分类模型。同时利用受试者的身高对相应样本的步态信号时空属性进行去量纲处理来消除身高差异对步态信号时空属性的影响,从而达到进一步提高预测模型识别性能的目的。研究结果表明,本文构建的模型可以对帕金森病进行自动诊断,可以作为临床医生对帕金森病患者诊断的有效辅助工具。

2 材料和方法

2.1 数据获取和特征

本文使用一套由中国科学院合肥智能机械研究所运动与健康信息技术研究中心自主设计研发的电子步道,该电子步道由基于柔性阵列力敏传感器的14块压力垫(大小60 cm×60 cm,4压力点/cm2,采样频率100 Hz)、5块压力台(大小 60 cm×60 cm,采样频率500 Hz)以及1块平衡测试仪组成,如图1所示。图1(a)是该U型电子步道的结构模拟图,图1(b)是U型电子步道的实物图。

图1 (a) U型电子步道模拟图

图1 (b) U型电子步道实物图

所有受试的帕金森病患者是来自安徽中医药大学神经病学研究所附属医院的志愿者。对照测试人员没有未知的影响步态的损伤或异常,受试者24 h内未服用药物。所有受试者签订了知情同意书。35位患者和119位正常人被要求以正常步速行走在电子步道上,同时所有受试者的测试均在两位医生的监督下完成。受试者的物理特征如表1所示。依据由美国加利福尼亚州Rancho LosAmigos(RLA)医学中心提出的步态量化参数以及量表UPDRS-Ⅲ,利用U型电子步道系统提取直行部分的步态特征数据,如表2所示。

表1 测试者物理特征(均值±标准差)

表2 提取的特征变量

2.2 数据预处理

对步态特征数据的预处理过程主要分为两步:消除身高差异对时空参数的影响和特征数据的标准化。

(1)消除身高差异对时空参数的影响

通常人行走时的步长、步幅、步速、周期等步态信号特征和身高都有一定关联。例如身高比较矮的人,其步长和步幅会相对比较短,而其步频会相对比较高。因此为了消除受试者身高差异对于步态时空参数的影响,本文利用下列公式消除身高差异对时空参数的影响。

公式(1)~(4)中,l表示步长和步幅;t表示时间特征,包括站立时间、摆动时间、摆动前期、周期、双支撑时间;f表示步频;v表示步速;l0表示每位受试者的身高;同时引入一个重力加速度常量g=9.81 m/s2来消除身高差异对步速、步频以及时间属性的影响。

(2)标准化

在应用分类器前,将步骤(1)处理后的特征和物理特征利用式(5)将每一特征转化为相同的统计分布。

式(5)中,x表示步骤(1)获得的特征变量和物理特征,μ和σ分别表示每个特征变量的均值和标准差。

2.3 分类方法

支持向量机(SVM)是由Vapnik提出的一种基于统计学理论的用于解决分类和回归问题的机器学习方法[9]。对于二分类问题,SVM分类算法的主要目标是寻找一个最优分类超平面。SVM是通过最大化两类之间的边界距离来寻找最优超平面。假设存在一个两类的训练样本空间Rn,其中包含样例xi∈Rn,i=1,2,…,n,和一个与样例xi一一对应的向量yi∈Rn,yi∈{1,-1}。SVM解决分类问题需要优化下式[10-11]:

式(6)中C是误差的惩罚参数,其取值大于0。此外,还需要选择一个核函数,将原样本中线性不可分的低维空间特征向量映射到一个高维空间中,使样本线性可分。本文选择普遍使用的径向基核函数(RBF):

公式(7)中γ是核函数参数。

上述传统的SVM算法是以分类精度为优化目标,假定每类样本的大小基本相同。但是,在实际中,数据集通常是非平衡数据。例如帕金森病患者的数量是远少于正常人群。例如在100人的测试样本中有99位正常人,仅有1位为帕金森病患者。若分类器把所有样本都划分为正常人,此分类器能够获得99%的分类精度[12]。虽然分类精度很高,但是使用这种分类模型来识别帕金森病患者是没有意义的。在诊断过程中,将帕金森患病者误诊为正常人的代价和将正常人误诊为帕金森病患者的代价是不同的。前者使帕金森病患者失去治疗机会,造成病情恶化甚至危及生命,而后者以再次诊断或药物的副作用为代价。显然,将帕金森病患者判定为正常人的误分类代价要远大于将正常人判定为帕金病患者。因此,传统的SVM算法不适合处理这种非平衡数据。

本文中采集的受试者步态数据集为非平衡数据集。传统SVM对此类非平衡数据集学习的边界会更接近于正例(样本量较少的类),从而导致分类精度倾向于样本量较大的类,因而需要使用一种有偏的支持向量机对步态数据集进行分类,将分类边界“拖离”正例。为了准确区分帕金森病患者和正常人群,本文使用CS-SVM来构建帕金森病患者和正常人群的步态分类模型。采用的CS-SVM算法原理是对传统的SVM的目标函数做出修改,即正例和反例设置不同的惩罚参数,分别表示为C+和C-。CS-SVM的目标函数如下[13-14]:

CS-SVM算法对正例和反例设置不同的惩罚参数来处理非平衡数据集,这样就可以将分类超平面“拖离”正例,然后调整两类的惩罚参数和核函数参数来优化公式(8)从而获得最优的分类超平面。

2.4 评价指标

在二分类问题中,分类器标签分为正例和反例。分类器的结果可以表示为混淆矩阵或一致性表[15],用于评价像支持向量机(SVM)、代价敏感支持向量机(CS-SVM)和k阶近邻(KNN)这样的监督学习算法的性能。表3给出的是帕金森病患者预测的混淆矩阵,其中TP表示真实为帕金森病患者,预测也为帕金森病患者的样例个数;FP表示真实为健康人群,而预测为帕金森病患者的样例个数;FN表示真实为帕金森病患者,而预测为健康人群的样例个数;TN表示真实为健康人群,预测也为健康人群的样例个数。

表3 帕金森病预测的混淆矩阵

为了评估构建的帕金森病预测模型的性能,本文使用下列指标。

(1)准确率(Accuracy):

公式(9)为准确率的计算公式,表示正确分类的整体准确率。由此式本文计算的是正确分类的帕金森病患者和健康人群的样例个数与总样例个数的比值。

(2)召回率(Recall):

式(10)为召回率的计算公式,表示被正确判定的正例占总体正例的比例。由此式本文计算的是正确分类的帕金森病患者样例个数与总的帕金森病患者样例个数的比值。

(3)精确度(Precision):

公式(11)为精确度的计算公式,表示被分类器判定的正例中真正的正例样本所占的比例。由此式本文计算的是正确分类的帕金森病患者样例个数与全部预测为帕金森病患者样例个数的比值。

(4)F-measure值:

式(12)为F-measure值的计算公式,表示召回率和精确度的加权调和平均数。F-measure值表示召回率和精确度的综合评价指标,当F-measure值越高,则说明分类实验方法更加有效。

3 实验评估

3.1 实验设置

本研究实验设置为两部分:步态特征差异性检验和分类实验。在3.2节给出利用T-test检验帕金森病患者和正常人群之间步态特征的差异性及分析;3.3节给出分类实验结果及评价。在分类实验中分为两组实验,实验1:未采用2.2节步骤(1)介绍的方法消除身高差异对时空参数的影响;实验2:采用2.2节步骤(1)介绍的方法来消除身高差异对时空参数影响。对于每组实验使用三折交叉验证来对比验证SVM和CS-SVM两种方法的识别性能,同时对比两组实验的分类效果。步态数据集被分为大小相同的三个子集。其中一个子集用于评估模型,其余子集用于分类器模型的训练和参数优化。然后计算2.4节给出的准确率、召回率、精确度和F-measure四种评估指标的均值和标准差来评价构建的预测模型。

在2.3节分类方法中介绍到本文使用的算法SVM算法需要设置惩罚参数C和核函数参数g,而CS-SVM算法需要设置惩罚参数C+、C-和核函数g。本文中SVM算法的参数为:C=4,g=0.031 3;CS-SVM算法的参数为:C+=13.6、C-=3.4、g=0.25。

3.2 实验结果及评价

表4给出帕金森病患者和正常人群的步态参数之间的统计及差异性检验,图2给出比较两组步态参数均值的对比。

表4 步态特征统计(均值±标准差)

图2 (a) PD和NP组的时间参数均值对比

图2 (b) PD和NP组的长度参数均值对比

从表4中发现帕金森病患者的步态参数:步长、步幅、步速、左脚摆动时间、摆动前期时间以及双支撑时间与正常人群的相应步态时空参数具有显著的差异(pvalue<0.01),并且步频、站立时间、右脚摆动时间、周期也具有显著差异(p-value<0.05)。从图2中也可以看出提取的PD和NP组的长度和时间参数均值均具有明显的差异。因此实验中使用U型电子步道系统采集的帕金森病患者和正常人群的步态特征具有显著性差异,所以提取的步态特征是合理的,能够用于区分帕金森病患者和正常人群。图2(a)中LTST、LTSW、LTPS、RTST、RTSW、RTPS、TGC、TDS分别表示左脚站立时间、左脚摆动时间、左脚摆动前期、右脚摆动时间、右脚站立时间、右脚摆动前期、周期、双支撑时间;图2(b)中LSL、LSTL、RSL、RSTL分别表示左脚步长、左脚步幅、右脚步长、右脚步幅。

表5 对未消除身高差异影响的样本,使用SVM和CS-SVM的预测结果(均值±标准差)%

表6 对消除身高差异影响的样本,使用SVM和CS-SVM的预测结果(均值±标准差) %

3.3 分类及评价

表5和表6给出实验1和实验2的分类结果。

实验1结果分析:从表5中可以看出,针对未消除身高差异对步态特征影响的样本进行识别时,SVM和CSSVM分类器的识别准确率分别达到91.55%和94.16%,相比SVM模型,使用CS-SVM构建分类器的识别准确率更高,提高了约2.61%;召回率也更高,达到85.86%,提高了约17.17%,因此CS-SVM分类器对帕金森病患者的步态特征的识别效果更好。

实验2结果分析:从表6中可以看出,对消除身高差异对步态特征影响的样本,SVM和CS-SVM分类器的识别准确率分别达到92.85%、94.81%。CS-SVM分类器的识别准确率相比于SVM分类器提高了约1.96%;CSSVM的召回率达到了88.89%,比SVM分类器提高了约17.18%,因此相比SVM算法,CS-SVM算法构建的步态模型对帕金森病患者的误分类率降低了17.18%,对帕金森病患者的误判风险降低;同时CS-SVM分类器的F-measure值达到88.66%,明显高于SVM分类器,约提高6.76%。因此,综合考虑识别准确率、召回率和F-measure值,相比于SVM分类算法,CS-SVM分类器对帕金森病患者的步态特征识别性能更好。

对比表5和表6可以看出,当消除受试者身高差异对步态时空特征影响时,SVM和CS-SVM分类器的识别准确率分别为92.85%和94.81%,相比于未消除身高差异对时空属性影响时,SVM和CS-SVM算法对帕金森病患者和正常人群的步态分类准确率分别提高了约1.3%和0.65%;而且相比于未消除身高差异对步态特征影响时,针对消除受试者身高对步态特征影响的样本,SVM算法的召回率达到71.71%,提高了约3.02%,SVM算法对帕金森病患者的误分类率降低了3.02%,SVM分类器对帕金森病患者的误判风险降低;同时F-measure值达到81.90%,提高了约2.92%。CS-SVM算法的召回率达到88.89%,提高了约3.03%,CS-SVM算法对帕金病患者步态特征的误分类率降低了3.03%,CS-SVM分类器对帕金病患者的误判风险降低,而且CS-SVM分类器的F-measure值达到88.66%,提高了约1.58%。因此综合考虑识别准确率、召回率和F-measure值,相比于未消除身高差异对步态特征影响的样本实验,通过消除身高差异对步态特征的影响可以大幅提高帕金森病患者的识别性能。

4 结束语

本文采用自主研发的U型电子步道系统提取帕金森病患者和健康人群的步态信号时空特征,同时结合受试者的物理特征组成非平衡步态数据集,并利用T检验验证PD患者和健康人群步态特征的差异性和合理性,然后采用代价敏感支持向量机(CS-SVM)和传统支持向量机(SVM)分别来构建帕金森病患者和健康人群的步态特征分类模型,最后通过受试者的身高对步态特征进行去量纲处理,来消除身高差异对步态特征的影响,达到了提高预测模型识别性能的目的。实验结果表明,相比于SVM算法,CS-SVM算法对于帕金森病患者的步态特征的识别性能更优且能达到94.16%的全局预测准确率,有效地降低了帕金森病的误判风险。并且消除了身高的差异性对步态特征的影响后,CS-SVM预测模型的全局识别准确率达到94.81%,相比不去量纲的预测模型,预测准确率提高了约0.65%。因此本文基于U型电子步道系统提取的非平衡步态信号数据并采用CS-SVM算法构建的预测模型可以为临床医生诊断帕金森病提供一个可靠的辅助决策工具。

参考文献:

[1]Taktak A F G.Clinical engineering:A handbook for clinical and biomedical engineers[M].[S.l.]:Academic Press,2014.

[2]Santens P,Boon P,Van Roost D,et al.The pathophysiology of motors symptoms in Parkinson’s disease[J].Acta Neurologica Belgica,2003,103(3):129-134.

[3]Morris T R,Cho C,Dilda V,et al.Clinical assessment of freezing of gait in Parkinson’s disease from computergenerated animation[J].Gait&Posture,2013,38(2):326-329.

[4]顾磊,吴慧中,肖亮.一种基于人体轮廓宽度特征的步态识别方法[J].计算机工程与应用,2007,43(24):4-6.

[5]Sosnoff J J ,Klaren R E ,Pilutti L A,et al.Reliability of gait in multiple sclerosis over 6 months[J].Gait&Posture,2015,41(3):860-862.

[6]Bae J,Kong K,Byl N,et al.A mobile gait monitoring system for gait analysis[C]//IEEE International Conference on Rehabilitation Robotics,2009:73-79.

[7]Begg R,Kamruzzaman J.A machine learning approach for automated recognition of movement patterns using basic,kinetic and kinematic gait data[J].Journal of Biomechanics,2005,38(3):401-408.

[8]Klucken J,Barth J,Kugler P,et al.Unbiased and mobile gait analysis detects motor impairment in Parkinson’s disease[J].PloS One,2013,8(2):e56956.

[9]Chang C C,Lin C J.LIBSVM:A library for support vector machines[J].ACM Transactions on Intelligent Systems&Technology,2011,2(3).

[10]Vapnik V.The nature of statistical learning theory[M].[S.l.]:Springer Science&Business Media,2013.

[11]张学工.关于统计学习理论与向量机[J].自动化学报,2000,26(1):32-42.

[12]郑恩辉,李平,宋执环.代价敏感支持向量机[J].控制与决策,2006,21(4):473-476.

[13]Cao P,Zhao D,Zaiane O.An optimized cost-sensitive SVM for imbalanced data learning[M]//Advances in Knowledge Discovery and Data Mining.Berlin Heidelberg:Springer,2013:280-292.

[14]M’hamed Abidine B,Fergani B,Oussalah M,et al.A new classification strategy for human activity recognition using cost sensitive support vector machines for imbalanced data[J].Kybernetes,2014,43(8):1150-1164.

[15]Wang A G,An N,Chen G,et al.Predicting hypertension without measurement:A non-invasive,questionnaire-based approach[J].Expert Systems with Applications,2015,42(21):7601-7609.

猜你喜欢
步态分类器帕金森病
基于步态参数分析的老年跌倒人群步态特征研究
手抖一定是帕金森病吗
帕金森病科普十问
基于面部和步态识别的儿童走失寻回系统
基于Kinect的学步期幼儿自然步态提取
基于差异性测度的遥感自适应分类器选择
基于实例的强分类器快速集成方法
步态研究及其在踝关节不稳中的应用进展
帕金森病的治疗
中西医结合治疗帕金森病98例