陈小怡 周 静,5 柯鹏飞 孔令茵 吴逢春 吴 凯1,,4,5,6,7,8#
1(华南理工大学材料科学与工程学院,广州 510006)
2(广州医科大学附属脑科医院(广州市惠爱医院),广州 510370)
3(广东省精神疾病转化医学工程技术研究中心,广州 510370)
4(广东省老年痴呆诊断与康复工程技术研究中心,广州 510500)
5(华南理工大学国家人体组织功能重建工程技术研究中心,广州 510006)
6(华南理工大学广东省生物医学工程重点实验室,广州 510006)
7(国家医疗保健器具工程技术研究中心,广州 510500)
8(日本东北大学加龄医学研究所机能画像医学研究室,日本宫城县仙台市980-8575)
人脑是人体中结构最复杂的器官,是控制人体所有神经的神经中枢,通过接受内外界的信息以协调机体各部分的功能。人脑的损伤或病变引起多种神经精神疾病,例如常见的精神分裂症(schizophrenia,SZ)、抑郁症(depression,DP)、阿尔兹海默症(Alzheimer′s disease,AD)和帕金森病(Parkinson′s disease,PD)等。目前,神经精神疾病的发病机制不清、缺乏客观的临床诊断标准,因此其防治工作依然十分艰巨。现今神经精神疾病的诊断主要依赖医生临床经验的主观性判断,缺乏客观的生物标志物,容易导致漏诊和误诊。
神经影像技术是直接或间接对大脑结构和功能等特性进行成像的非侵入式技术[1],能够为神经科学家提供大脑的结构形态和功能连接等信息。基于神经影像技术和统计分析方法,能够发掘潜在的神经精神疾病生物标志物[23]。随着神经影像技术的发展,神经精神疾病的病理机制、诊断和预后的研究越来越得到研究者们的关注。近年来,机器学习在疾病分类和预测中表现优异,研究者正着力于采用神经影像技术采集数据,构建并优化机器学习模型,实现神经精神疾病的自动分类与预测,以期早期、精确诊断神经精神疾病并实现早期干预和治疗。
文中主要分析总结了神经精神疾病自动分类与预测的研究进展,第1 节介绍神经精神疾病自动分类与预测的原理及其基本步骤,第2 节介绍精神分裂症、抑郁症、阿尔兹海默症和帕金森病等4 种主要神经精神疾病自动分类与预测的研究进展,最后总结了该领域研究的不足并展望其发展方向。
目前,常用的神经影像技术有结构磁共振成像(structural magnetic resonance imaging,sMRI)、弥散张量成像(diffusion tensor imaging,DTI)、静息态功能磁共振成像(resting-state functional magnetic resonance imaging,rs-fMRI)、脑电图、脑磁图、近红外脑功能成像等。但传统的单变量分析只能得到群组水平的结果,而临床的实践对象往往是个体,这大大限制了神经影像技术在临床实践中的价值。机器学习的出现打破了这一局面。机器学习被定义为计算机在没有经过显式编程的情况下,获得学习数据模式能力的过程[4-5]。近些年,机器学习被广泛应用于神经影像数据分析,建立针对不同神经精神疾病的智能化、个体化自动分类与预测模型。但该应用目前也存在局限性,一是大脑结构复杂、样本采集困难以及采集成本较高,使得神经影像数据具有高维度、小样本等特点,有效的数据处理是获得高性能机器学习分类模型的关键;二是单一神经影像技术的使用存在局限,单模态特征只能捕捉患者大脑的部分异常,容易忽略其他模态的有效信息以及模态信息之间的关联。相比之下,从多模态神经影像数据中能够提取更全面描述大脑结构及功能异常的特征,提高疾病自动分类及预测的性能[6]。基于神经影像数据,对神经精神疾病进行自动分类与预测的机器学习分析流程如图1所示,主要包括特征提取、特征选择、训练预测模型和泛化性评估等步骤。
图1 基于神经影像数据的机器学习方法流程Fig.1 Flowchart of machine learning methods based on neuroimage data
特征提取是指从神经影像数据中提取出多种结构和功能特征指标,作为机器学习模型的输入。神经影像原始数据包含较多的噪声,在进行模型训练前,需要对数据进行图像预处理及特征计算。数据预处理能够最大限度地去除原始数据中的噪声,将数据标准化,以便计算和提取数据特征,使模型训练达到更好的效果,提高模型在小样本数据集上的表现。从不同模态神经影像数据中提取的特征也不同,比如一般从sMRI 数据中提取出受试者脑部的灰质体积(gray matter volume,GMV)、白质体积(white matter volume,WMV)、 脑脊液体积(cerebrospinal fluid volume,CSFV)、 皮层厚度(cortical thickness,CT)和皮层表面积(surface area,SA)等形态学特征;从DTI 数据中提取分数各向异性(fractional anisotropy,FA)、轴向弥散度(axial diffusivity,AD)、径向弥散度(radial diffusivity,RD)和平均弥散度(mean diffusivity,MD)等特征;从rsfMRI 数据中提取局部一致性(regional homogeneity,ReHo)、 低频振幅( amplitude of low-frequency fluctuation,ALFF)、区域之间的功能连接(functional connectivity,FC)、脑功能网络度中心度(degree centrality,DC)等特征[2]。
神经影像数据具有高维度和小样本的特点,其特征维度甚至远远超过了样本数量。训练数据集中特征维度过大而训练数据过少,会导致训练的模型过度拟合训练数据集,而在新数据集上的分类效果差、泛化能力弱,出现过拟合问题。除此以外,高维数据中存在很多与分类问题无关的数据。因此为了防止模型出现过拟合现象,需要尽量去除冗余的特征,其优点主要有二:一是通过减少计算量来加快学习过程;二是提高模型泛化能力,即测试正确率[7]。常用的特征降维技术有主成分分析法(principal component analysis,PCA)、独立成分分析法(independent component analysis,ICA)和递归特征消除法(recursive feature elimination,RFE)。PCA可以用来提取数据中最重要的特征,Singh 等[7]使用PCA 方法进行特征降维,根据方差从大到小的顺序给主成分排序,这样可以去除排在后面的特征,从而在信息损失最小的情况下降低数据维度。ICA可以用来识别数据中相互独立的成分,Du 等[8]结合PCA 和ICA 方法提出一种新的特征选择方法,包括3 个步骤:两级特征识别法、核主分量分析法和Fisher 线性识别判断法,基于其特征选择方法,实现了高达98%的正确率。RFE 是通过计算每个特征的权重,利用循环算法来逐步去除权重最小的一个特征来得到最优特征,张越等[6]使用RFE 对特征进行降维来获取主要特征,组合4 种多模态特征作为分类特征,实现对SZ 患者94.74%的分类正确率。
模型训练是指利用训练数据集和优化算法来找出最优分类模型的过程。提取神经影像数据的特征并输入分类模型中,模型可在个体水平自动判断出该数据所属受试者的类别。机器学习主要分为监督学习和非监督学习[9]。监督学习方法利用已知标签的数据调整模型参数,以达到最优性能。非监督学习方法不需要数据标签,它是基于数据中的基础隐含特征对未标记的数据进行分类,目前非监督学习方法主要用于特征提取,这有助于降低输入数据的维度。目前,被广泛用于判别神经精神疾病患者与正常对照的分类模型[10-11]有支持向量机(support vector machine,SVM)、线性判别分析(linear discriminative analysis,LDA)、 随机森林(random forest,RF)、K 近邻(k-nearest neighbors,KNN)等。SVM 是最常使用的分类器,它是监督机器学习算法,其基本思想是将特征通过核函数映射到高维空间,在这个高维空间内寻找一个超平面,定义两类数据集中到超平面最近的数据点为支持向量,并最大化支持向量到超平面的距离。当样本数量少,特征数量多时,SVM 能够实现有效的分类,张越等[6]和郑泓等[12]分别使用SVM 实现了94.47%和97%的分类正确率。LDA 是经典的模式识别算法,其基本思想是将样本映射到鉴别效果最好的矢量空间,皇甫浩然等[13]使用LDA 实现了93.88%的分类正确率。RF 是分类回归树(classification and regression trees,CART)的集合或集成,是一种集成学习方法。RF 通过数据的随机性选取和待选特征的随机选取训练多棵决策树,并投票表决得到分类结果[14]。KNN 是最简单的机器学习算法之一,其基本思想是待测样本的类别为训练数据集中离待测样本最近的k个实例所属最多的类别,Lahmiri 等[15]基于KNN 实现了98.91%的正确率。
泛化性评估是指使用新数据评估模型的性能。一般用于度量性能的指标有精度(precision)、正确率(accuracy)、 敏感度(sensitivity)和特异性(specificity)[12]。精度是指被分为阳性的样本中真阳性样本所占的比率,正确率是模型预测正确的样本数占总的样本数的比率,敏感度指所有阳性样本中被正确分为阳性样本的比例,特异性是指所有阴性样本中被正确分为阴性样本所占的比率。根据这些指标,研究者们可以通过修改训练策略、优化模型参数等方式完善分类模型。评估泛化性能时可以采用内部验证法和外部验证法。内部验证法是将从采自单站点的数据集分成训练数据集和测试数据集,使用训练数据集训练模型,使用测试数据集进行泛化性评估。交叉验证法是常用的内部验证法,包括K 折交叉验证(k-fold cross-validation)、留出法交叉验证(holdout cross-validation)和留一法交叉验证(leave-one out cross-validation,LOOCV)。后两种方法本质上是特殊K 值的K 折交叉验证[9]。留出法简单,比较适合于大样本数据;留一法繁琐,比较适合于小样本数据。外部验证法是使用与训练数据集不同源的独立数据集作为测试数据集。内部验证法能够避免获取不同源样本的困难,但容易对一个特定的数据集过拟合,导致泛化性评估过高。所以相对来说,外部验证法的泛化性评估结果更加准确。Cai 等[4]通过内部验证法和外部验证法来分别评估一个性能优异、用于区分精神分裂症患者与正常对照的分类器[8]的泛化性,发现内部验证法获得的中心泛化性明显高于外部验证法获得的跨中心泛化性,同时该团队通过无监督迁移学习算法提升了跨中心泛化性。
近几年,许多研究基于神经影像数据分析,利用机器学习建立了多种神经精神疾病的自动分类与预测模型。文中就精神分裂症、抑郁症、阿尔兹海默症和帕金森病等4 种主要神经精神疾病潜在的生物学标志物、神经影像技术、机器学习方法、分类正确率等进行论述。
精神分裂症(SZ)是一种具体病因和发病机制不明的严重精神疾病,受遗传因素、神经发育危险因素和外界环境不良刺激的影响,患者常有感知觉、情感、思维、行为等多方面的障碍,严重时会有暴力倾向[5,16]。目前SZ 的临床诊断主要依靠对疾病史的回顾和对就诊者的精神状态评估,现阶段尚未有客观可靠的生物标志物能够用于诊断SZ。因此找到客观可靠的量化指标,实现SZ 自动诊断成为了非常有意义的研究方向。近些年,机器学习方法被广泛地应用于SZ 分类诊断及预测研究中,本文归纳总结的SZ 机器学习研究进展如表1所示。
表1 基于神经影像和机器学习的精神分裂症研究汇总Tab.1 Studies of schizophrenia based on neuroimaging and machine learning
在精神分裂症的机器学习研究中,最常用的分类特征有从 sMRI 数据中提取的 GMV、WMV[5,6,12,19-20],从DTI 数据中提取的FA、MD、AD和RD[12],以及从rs-fMRI 数据中提取的ReHo、ALFF 和DC[6,18-20]。
基于单模态sMRI 数据的研究发现,SZ 患者在情绪、记忆和视觉区域存在显著的灰质和白质异常[5]。基于单模态DTI 数据的研究发现,SZ 患者的FA 值普遍显著下降,其中最显著的是全脑平均FA值,其次是前桡侧冠(anterior corona radiata,ACR)、胼胝体(corpus callosum,CC)[26]。基于单模态fMRI 数据的研究发现,SZ 患者的“皮层-纹状体-小脑”神经环路功能异常,贡献度最高的主要特征来自默认网络、突显网络、控制网络等子网络的功能连接[8,17]。最近,Li 等[18]发现FSA 脑网络指标在SZ 患者中存在显著、多中心稳定的个体差异,表明FSA 有望成为辅助SZ 精准诊断与个体化治疗指导的脑影像生物标记物。大量研究结果表明,基于多模态神经影像数据的机器学习研究结果明显优于单模态研究[6,12,19-20,27]。张越[28]基于人类大脑图谱(human brain altas,HBA)计算sMRI、fMRI 和DTI的多模态神经影像特征,发现权重最大的前50 个特征主要分布在颞叶、皮层下核团、额叶以及枕叶等区域,且对预测贡献较大的特征主要是来自于sMRI的WMV、GMV 和来自于fMRI 的ReHo、ALFF、DC。
还有研究基于MRI 特征实现SZ 亚型的分类[27,29]。Gould 等[29]对SZ 认知亚型:“认知缺陷”和“认知幸免”之间的交叉验证达到了71%的正确率。Xie 等[30]研究缺陷型SZ 和非缺陷型SZ 的皮质变薄模式,发现缺陷型SZ 表现更广泛的皮质变薄模式,最显著差异在左侧颞顶连接区。此外,基于MRI 图像特征还可以实现重复性经颅磁刺激(repetitive transfca nial magnetic stimulation)rTMS 治疗SZ 患者的疗效预测。2018年,Koutsouleris 等[31]采用10 Hz 高频rTMS 刺激左前额叶背外侧皮质治疗阴性症状为主的SZ 患者,基于sMRI 图像分析及机器学习方法的研究表明,前额叶、岛叶、颞叶中回、小脑等脑区灰质密度降低以及顶叶、丘脑等脑区灰质密度增加都能有效预测rTMS 的治疗效果,结果表明,脑影像生物标志物可以准确预测个体化rTMS 的疗效。
因为抗精神疾病药物的治疗可能会影响患者的脑结构和功能,而对首发未用药SZ 患者研究可以避免药物的影响[19,20],因此未来需要更多关于首发患者的研究。近几年,许多研究人员致力于开发基于深度学习和MRI 数据对SZ 进行诊断的自动化工具和技术,并获得了不错的结果[21-25]。
抑郁症(DP)[13,32]是一种以持续性情绪低落、兴趣缺失、思维减缓为主要临床症状的严重危害人类心理健康的神经性疾病,严重的DP 患者可能会悲痛欲绝,甚至出现木僵状态,该疾病有着较高的复发率和自杀风险。目前对DP 的诊断主要依靠临床观察和病人的自我陈述,缺乏特异性诊断手段,有着较低的准确率和较高的误诊率[9,13]。DP 的机器学习分类研究如表2所示。
表2 基于神经影像和机器学习的抑郁症研究汇总Tab.2 Studies of depression based on neuroimaging and machine learning
基于单模态sMRI 数据的研究发现,MDD 患者在额叶区域的GMV 显著减少[33-35,38]。Mwangi等[33]发现MDD 患者在背外侧前额叶皮质、内侧额叶皮质、眶额皮质、颞叶、岛叶、小脑和后叶的灰质减少。基于单模态rs-fMRI 数据的研究发现,MDD患者的功能连接存在异常,主要集中在情感和认知脑区域[13,37,42]。皇甫浩然等[13]以动态功能连接和脑网络拓扑特性为特征,发现具有高辨别力的特征主要分布在默认网络、情感网络、视觉皮层区等脑区。Drysdale 等[36]利用rs-fMRI 数据进行聚类分析,发现额纹状体和边缘脑网路功能障碍和异常连接,并以此作为生物标记物定义了四种DP 神经生理学亚型,并且这些生物类型还具有预后作用,可以预测哪些患者对rTMS 有反应。目前,与基于sMRI 的机器学习研究相比,rs-fMRI 研究有相对较高且稳定的分类性能。Fonseka 等[43]总结了使用结构和功能神经影像学检查治疗反应预测因子的研究数据,分析发现额叶区最常影响治疗结果,特别是前额叶皮层、前扣带回皮层、海马体、杏仁核和岛叶,不过不同的治疗可能会有不同的关联方向。
对于基于机器学习的DP 研究,不仅需要单纯的识别DP 患者,还需要学习识别那些不太可能对当前试验药物产生反应的DP 患者。目前抗抑郁药治疗对DP 患者的反应率和缓解率都较低,若想观察到患者明显的症状改善则需要数周的充分抗抑郁实验[9]。因此如果将机器学习应用于临床患者识别,有望改善DP 患者的治疗结果,减轻疾病负担。目前基于深度学习对DP 的研究相对较少,而且主要是使用EEG 数据[39-40]。除了采用神经影像技术,Sadan 等[41]提出AlexNet 模型的迁移学习方法,基于AVEC 数据集,实现83%的正确率。
阿尔兹海默症(AD)是一种以认知功能下降、精神状态和行为障碍、日常生活能力下降为主要症状的神经系统退行性疾病[15,44]。目前这种疾病的发病机制还未被充分了解,临床诊断主要依靠分析MRI 图像和神经量表评分。这种诊断方式具有很强的主观性,存在误诊的风险[44]。AD 的机器学习研究进展如表3所示。
表3 基于神经影像和机器学习的阿尔兹海默症研究汇总Tab.3 Studies of Alzheimer′s Disease based on neuroimaging and machine learning
研究发现,多数AD 研究基于单模态sMRI 数据,多模态MRI 研究相对较少,还有部分研究结合人口统计学信息或基因信息。基于单模态sMRI 数据,范炤等[44]发现杏仁核表面积、海马CA4-DG 区体积、海马前下托体积、海马表面积、颞极皮层厚度等在左右半脑均有明显差异。Beheshti 等[45]发现AD 患者的右/左海马、右顶叶下叶和右前扣带回GMV 有显著的下降。基于单模态rs-fMRI 数据,Bi等[47]发现AD 患者额下回、额上回、中央前回和扣带回皮质脑区异常。Lahmiri 等[15]研究了3 种特征的6 种组合,结果表明结合皮层指标与ADAS 的SVM 算法分类性能最好,正确率达到100%,表明神经解剖学特征与认知测试的结合可能有利于AD 的早期诊断。Liu 等[46]提出一个深度多任务多通道学习(deep multi-task multi-channel learning,DM2L)框架,联合了sMRI 数据和人口统计学信息,用于同时进行脑部疾病分类和临床评分回归,实验结果显示,DM2L 在疾病分类和临床评分回归方面都优于目前的几种先进联合学习算法。
大量研究表明,与临床诊断相比,机器学习方法能够显著提高AD 患者的识别率。尽管如此,由于其他痴呆症(如额颞叶痴呆、血管性痴呆、路易体痴呆等)容易干扰AD 的诊断[52],因此在研究AD 与NCs 分类的同时,也需要研究不同痴呆类型之间的区别。同时,MCI 是AD 的一种广泛的、不明确的、高度异质性的表型,其引起的记忆缺陷相对较少,从MCI 到AD 的年平均转化率约为4%[50]。因此实现对pMCI 和sMCI 的分类也具有很重要的临床意义,且近几年在该领域的研究也获得了较高的正确率[44,46,48,50],其中基于深度学习的分类器性能相比更优[48-50]。Song 等[51]基于GCN 的分类算法,利用图结构的卷积滤波功能抑制噪声,结合结构和功能脑网络实现对AD 早期阶段的诊断研究。
帕金森病(PD)是一种进行性神经退行性疾病,其典型的神经病理学特征为中脑黑质多巴胺神经元变性,导致多巴胺缺乏而发病[53]。PD 的主要临床症状包括进行性运动症状和非运动症状,运动症状包括进行性运动迟缓、静止性震颤、僵直和步态姿势异常等,非运动症状包括感觉和自主神经功能障碍、情绪和情感障碍等[54-57]。PD 临床实践的主要目标是实现个体化判别诊断,以定制最佳的个体治疗方案[58]。PD 的机器学习研究进展如表4所示。
表4 基于神经影像和机器学习的帕金森病研究汇总Tab.4 Studies of Parkinson′s disease based on neuroimaging and machine learning
基于单模态sMRI 研究,杜婷婷等[54]发现与NCs 相比,PD 患者的左侧扣带回、右侧额叶区和左侧颞叶区皮层厚度减少。基于机器学习的PD 诊断,除了区分PD 患者与NCs,还需要能够鉴别诊断PD 和帕金森综合征,如PSP、MSA 等[59]。Salvatore等[58]基于sMRI 数据发现中脑、脑桥、胼胝体和丘脑是区分PD 和PSP 的最佳大脑区域。基于单模态rs-fMRI 研究,Rubbert 等[56]发现感觉运动网络间、背侧视觉网络与听觉网络之间的脑网络连接最具辨别力。与前三种疾病相比,PD 患者的诊断除了使用MRI 模态数据,还使用了SPECT[57,60,63]数据,用于记录纹状体中多巴胺转运体的水平[60]。
除了常见的脑神经图像作为输入外,也有研究是以步态信息作为输入。因为神经退行性疾病(neurodegenerative diseases,NNDs)是一种由大脑和脊髓中神经元或髓鞘的损失导致的疾病,所以不同的NNDs 会对步态产生不同的影响。关于PD 的自动诊断分类研究的正确率在不同的研究中有着较大差距。相对于传统的机器学习方法,基于深度学习的PD 分类器分类性能更优[61,62]。Li 等[64]提出一种基于CNN 和LSTM 的深度学习算法,利用足底压力信息对神经退行性疾病进行诊断和分类,实现了99.5%的最高正确率。
文中重点介绍了针对精神分裂症、抑郁症、阿尔兹海默症、帕金森病等几种主要的神经精神疾病,基于机器学习的自动分类及预测研究进展。除本文介绍的几种神经精神疾病以外,使用机器学习进行神经精神疾病诊断分类的研究范围很广,还包括颞叶癫痫[10]、注意力缺陷障碍[65]等疾病,这些研究都对临床诊断产生很大的帮助。
目前,神经精神疾病自动分类与预测研究所达到的正确率存在较大差异,且其中得到较高正确率的研究也存在局限性,包括小样本量、低可重复性等。这些局限性会降低研究结果的可靠性,同时阻碍研究结果向临床应用的转化。相对于传统的依赖医生临床经验的主观性诊断,机器学习在神经精神疾病的自动分类及预测中的应用已经取得了较好的成果,但仍存在很大的进步空间:
1)目前大部分研究的样本规模较小,且为同源数据集,主要原因是神经精神疾病患者的特殊性导致的取样困难。小样本量和同源数据集都容易导致模型过拟合。同时,在评估模型泛化性能时,缺乏外部验证和重复实验,导致正确率虚高。这也限制了研究结果向临床应用的转化。因此,在大数据、云计算技术飞速发展的今天,实行多站点数据协同分析是增加样本量及其多样性、保证研究可重复性的有效解决方案[66]。不同源样本的扫描参数、数据维度等的差异容易导致数据不一致,从而损害数据应用的效果,增大计算成本,所以需要制定统一的纳入标准和跨站点扫描协议[67]。
2)目前传统的机器学习方法多为浅层学习算法,在模型训练前需要人工提取特征,容易受到研究者先验知识差异的影响。深度学习作为一种新兴的多层神经网络学习算法,可以运用非线性结构拟合数据模型,即数据驱动的自动特征学习[42,68]。一个深度学习网络可以通过将低层特征组合抽象成高层特征,从原始数据中学习最具表征能力的特征,从而在一定程度上增强模型的泛化能力。因此,在基于神经影像数据的神经精神疾病自动分类与预测研究领域,深度学习成为了一个极具吸引力的选择[69]。
3)神经精神疾病的跨疾病诊断是目前的研究热点,也是临床实践面临的挑战。特别是精神障碍,包括SZ、MDD 和双相情感障碍(bipolar disorder,BD),有着共同的临床和神经生物学特征。Xia等[70]研究发现,相比对照组,SZ、MDD 和BD 患者的脑网络短程连接性都显著降低,中程/远程连接性增加,但其增加在前额叶皮质内有差异。Mothi等[71]基于无监督机器学习方法,对三组患者进行聚类分析获得0.517 的轮廓系数。跨疾病诊断的研究对临床的实际应用有着非常重要的意义,目前多数研究主要是分析疾病间的生物学标志物差异,基于机器学习或者深度学习的研究相对较少,因此跨疾病的自动诊断与预测是未来的研究方向之一。
神经精神疾病的临床症状多样,且临床诊断依赖临床医生的经验,具有一定的主观性,容易导致误诊和漏诊。普通的医疗体系难以实现神经精神疾病的精确、快速诊断,但神经影像技术和机器学习方法的结合,能够辅助医生进行更加精确的诊断,减轻医生负担,提高临床诊断水平。