姚丽丽,范炤
1.山西医科大学基础医学院,山西太原 030001;2.山西医科大学老年医学研究所,山西太原 030001; *通讯作者 范炤fanzhao316@163.com
阿尔茨海默病(Alzheimer's disease,AD)是常见的老年痴呆症。作为一种不可逆转的退行性大脑疾病,患者具有认知功能下降的特征[1]。患者在患病初期无明显临床表现,致使病情延误,最终发展为AD。目前本病尚无有效治疗方法。因此,在症状前驱阶段尽早发现,以减缓或预防疾病尤为重要。针对这一难题,基于神经影像系统计算机辅助机器学习方法成为大数据时代炙手可热的研究课题[2]。
机器学习算法应用于各领域,尤其在AD 病程的分类和预测方面取得了良好的效果[3],其中随机森林、逻辑回归(Logistic regression,LR)、支持向量机(support vector machine,SVM)、决策树等已在AD病程分类中发挥巨大优势。通过机器学习算法能够早期发现患者,为临床诊断提供辅助工具。LR和SVM在其他领域的分类效果也较为理想[4]。针对算法各自存在的不足,本研究引入L1 范数正则化对模型进行优化,利用AD 的结构磁共振成像(structural magnetic resonance imaging,sMRI)数据获得能够识别早期AD的最优模型,为推进临床辅助诊断系统研制提供参考。
1.1 研究对象 本研究数据来源于美国AD 神经影像计划(Alzheimer's Disease Neuroimaging Initiative,ADNI)数据库。根据ADNI 标准,选取2014年8月—2015年7月受教育水平(或参加工作)≥6年,且符合各组诊断标准的543例研究对象,年龄55~90岁。按照疾病发展病程分为认知功能正常(cognitive normal,CN)组、早期轻度认知功能下降(early mild cognitive impairment,EMCI)组、晚期轻度认知功能下降(late mild cognitive impairment,LMCI)组和AD组。收集各组研究对象的性别、年龄、受教育程度、简易智力状态检查量表(mini-mental state examination,MMSE)评分以及sMRI 数据(表1)。
表1 各组研究对象一般资料比较
1.2 仪器与方法 采用Philips 3.0T 超高场强MRI 扫描仪,采集参数:TR 6.8 ms,TE 3.1 ms,翻转角9°,视野RL 204 mm、AP 240 mm、FH 256 mm,层厚1.2 mm,层数170,体素1 mm×1 mm×1.2 mm。将所得三维图像以Freesurfer 4.3.0 软件进行空间标化、图像平滑、分割等预处理后,获得272项MRI 全脑属性指标。
1.3 特征选择 本研究使用嵌入式选择法进行特征选择,加入惩罚项L1 范数正则化[5]。采用python3.7版本利用优化后构建的L1-LR和L1-SVM模型,对272项sMRI 数据和4项临床资料进行特征选择,筛选获得各自最优的特征子集,发现各分类组别中与之相关的重要特征。
1.4 L1-LR和L1-SVM 分类模型
1.4.1 L1-LR分类模型 依据LASSO回归模型思想,本研究得到L1-LR 分类模型算法为:
其中,w=[w0,w1,w2,…wp]T为回归模型参数,m为训练样本个数,隶属类别Dm={(xi,yi)}m。
1.4.2 L1-SVM 分类模型 传统SVM模型可能对离群值和无关特征缺乏鲁棒性。因此本研究在SVM 中加入L1 正则化项,并得到L1-SVM 的回归模型:
其中,w为最优惩罚系数,w=μ-v(μ≥0,v≥0)。L1-SVM模型能够同时实现研究对象的特征选择和分类,即选择样本的若干特征参与模型的训练进行组合优化,从而在训练过程中通过生成稀疏解消除冗余特征[6]。
1.4.3 模型效能评价 将276项指标进行十折交叉验证划分训练集与测试集并测试算法的准确性,分类各组经过两种机器学习算法特征选择后筛选得到各自最优的特征子集作为训练模型的输入特征。然后基于各指标构建CN、LMCI、EMCI、AD 各组两两组合的分类预测模型,以敏感度、特异度、ROC 曲线下面积(AUC)评价模型性能。
2.1 特征提取结果 本研究基于276项属性提取特征,不同二分类组分别提取出与该组显著相关的特征指标,具体为CN-EMCI组67项、CN-LMCI组42项、CN-AD组11项、EMCI-LMCI组56项、EMCI-AD组21项、LMCI-AD组20项,预测相关性由大到小每组呈现前5位。对于CN-EMCI组,影响最大的依次为左颞横回皮层厚度、右颞横回表面积、MMSE评分、左岛叶表面积、左额上回表面积;对于CN-LMCI组依次为左颞横回皮层厚度、左颞下回表面积、MMSE评分、右海马前下托海马亚区体积和年龄;对于CN-AD组依次为MMSE评分、右海马前下托海马亚区体积、左海马前下托海马亚区体积、性别、左海马下托海马亚区体积;对于EMCI-LMCI组依次为左扣带回后部皮层体积、左侧脑室皮层下体积、左颞下回表面积、左额上回皮层体积、MMSE评分;对于EMCI-AD组依次为左杏仁核皮层厚度、左侧脑室皮层下体积、MMSE评分、左额眶回内侧表面积、右海马前下托体积;对于LMCI-AD组依次为MMSE评分、左额眶回内侧表面积、年龄、左眶回表面积、左颞上回皮层厚度。
2.2 L1-LR和L1-SVM 分类模型结果 结果显示,两种机器学习算法均获得良好的预测效果。但基于最优特征子集对不同分类组的预测效果不同(表2)。
表2 L1-LR和L1-SVM模型分类效果比较
L1-SVM和L1-LR两种预测模型的AUC值在各分类组中稳定在0.9左右,表明分类价值均较高。但L1-SVM的平均准确率为91.49%,高于L1-LR的平均准确率90.81%,提示L1-SVM分类器整体分类效果优于LI-LR。L1-SVM模型的准确率在区分CN-LMCI组、CN-AD组、EMCI-AD组时分别为93.63%、100.00%和99.32%。在区分CN-EMCI组和EMCI-LMCI组时,L1-LR的准确率更高,分别为86.94%和82.93%。除CNEMCI组外,各分类组中L1-SVM表现出更高的敏感度,CN-LMCI组、CN-AD组、EMCI-LMCI组、EMCIAD组和LMCI-AD组中的敏感度分别为81.36%、99.99%、62.91%、97.32%、88.21%,提示使用L1-SVM模型能够比较准确地对早期认知功能下降患者进行转化预测,且漏诊率相对较低。此外,L1-SVM模型的准确率和特异度在区分CN组和AD组时均为100.00%,AUC值为1.00。
正则化逻辑回归作为一种模型选择方法,已广泛应用于AD 分类。有研究基于功能性神经影像数据和结构影像数据的多体素模式进行分析,并表现出优于多数其他特征选择方法的效果[7]。本研究发现,L1-LR和L1-SVM 可较高效地获取对分类模型贡献较大的特征,降低数据维度,极大地提高了分类准确率。这种特征选择的方法较其他研究的主成分分析法、偏最小二乘法等的准确率有较大提升,对于由MCI 向AD的转化进程具有良好的预测效果[8-9]。
对于各组所提取出的特征指标,最有意义的特征主要分布于颞叶和边缘系统,表明该部位是AD 患者的病变敏感区。颞叶内侧是AD 最早发生萎缩的部位;而海马位于颞叶内侧,占据记忆功能中的核心地位[10-11]。Vasta 等[12]研究表明,海马亚区可能是AD 预测更适合的指标。本研究方法进行的特征选择发现,海马前下托海马亚区体积萎缩是区分CN-LMCI组、CN-AD组、EMCI-AD组最敏感的病理指标,表明记忆下降可作为反映疾病病程进展的重要表现。对于CN-EMCI组、CN-LMCI组以及LMCI-AD组,颞横回和颞上回萎缩对区分病程有较大意义,可作为病程转变的预测指标。由此可见,听觉不断减退在临床病程判断中可提供辅助参考。
此外,脑室增宽、侧脑室皮层下体积增大可作为EMCI-LMCI组和EMCI-AD组的鉴别诊断,且集中在左侧脑室。杏仁核附着在海马末端,是识别情绪、产生情绪和调节情绪,控制学习和记忆的重要脑部组织[13]。左侧杏仁核皮层厚度对于识别EMCI和AD组具有重要作用,临床随访中关注受试者的情绪是一项重要内容。综合各种较敏感区域特征,医师可根据受试者的病变部位异常判断疾病分期。
既往研究多数仅基于MRI形态学指标提取特征进行分类,忽略了人口统计学指标对病程分类的影响[14]。本研究结果显示,MMSE评分对于病程各阶段的分辨具有重要作用,尤其在区分CN-AD、LMCI-AD组时占首要地位,在识别CN 和AD 以及很难区分的LMCI向AD 转化上,MMSE评分均是很重要的指标。因此在进行早期识别诊断时,首先考虑MMSE评分可在很大程度上提高诊断准确率。当然,也有研究基于MRI 数据、基线认知测量和年龄综合考虑进行特征选择分类[15];而本研究基于MRI 数据、性别、年龄、受教育程度和MMSE评分共276项数据特征选择后分类。两项研究所用分类模型不同,但均可对各组进行较好的区分,可见综合考虑受试者的各项指标更有利于提高分类的精度。此外,年龄和性别因素也对AD疾病发展具有重要影响。
对于各项评价指标,L1-SVM模型的整体平均准确率高于L1-LR;但L1-LR 分类模型在区分CN 与EMCI组时效果更好。有研究利用SVM 和随机森林对AD 病程进行预测,也达到了一定的预测效果[16]。单从CN-AD组分析,准确率达到96.45%;而本研究构建的L1-LR模型在该组的准确率达到97.66%,其余各组的病程转变中L1-SVM模型的预测效果优于L1-LR,因此可为临床早期诊断和早期干预提供更加便利、准确、客观的工具。
既往研究并未加入正则化,仅基于传统统计学方法得出的分类结果[16]。本研究中,L1-SVM模型预测性能更高,在区分CN-EMCI、CN-LMCI、CN-AD、EMCI-LMCI、EMCI-AD、LMCI-AD 这6组中,预测准确率分别提高了18.65%、19.63%、9.10%、9.88%、12.65%、18.49%。
本研究发现基于MRI 数据提出的机器学习算法可提取到更有利于AD 分类的特征,并能够具体给出不同两组中价值最大的特征,从而针对各阶段病情及时做出干预,遏制病情的发展。本研究尚存在不足,后期会增加样本量继续研究,也可结合多模态影像数据,如功能MRI、扩散张量成像、正电子发射断层显像等进一步构建模型,以提高AD 的预测。