基于神经影像数据的阿尔茨海默病多分类诊断模型的研究进展与挑战

2020-01-08 15:20:53葛晓燕韩红娟罗艳虹余红梅
郑州大学学报(医学版) 2020年1期
关键词:分类器准确率模态

葛晓燕,韩红娟,罗艳虹,范 炤,刘 龙,王 蕾,余红梅

1)山西医科大学公共卫生学院卫生统计学教研室 太原 030001 2)锦州医科大学公共卫生学院卫生统计学教研室 辽宁锦州 121000 3)山西医科大学转化医学研究中心 太原 030001 4)重大疾病风险评估山西省重点实验室 太原030001

全球医疗保健技术的发展在促进寿命延长的同时,也加剧了社会老龄化,从而增加了高龄人群认知衰退和痴呆的风险。痴呆症中阿尔茨海默病(Alzheimer′s disease,AD)是最常见的一种,它是一种严重的进行性中枢神经系统退行性疾病,严重损害患者的认知功能,造成生活自理能力障碍和精神行为异常。AD早期诊断困难,无特效治疗药物,给家庭和社会造成沉重负担。WHO预测2020年老年性痴呆在中国疾病负担中将升至第4位,为未来20 a我国前20项可预防的重大疾病和健康问题[1]。轻度认知障碍(mild cognitive impairments,MCI)通常被认为是正常衰老向AD的中间过渡阶段,是一个超早期预测AD的关键时间窗和治疗关键期。MCI人群已被证实具有高异质性,可进一步分为稳定型MCI(stable MCI,sMCI)和进展型MCI(progressive MCI,pMCI)。近年来随着技术手段的不断创新,对各种影像标记物的研究日益增多,越来越多的研究关注AD风险个体的早期识别,有关AD的早期诊断也在不断地更新和进步,促使其诊断关口不断前移。目前已有大量研究利用人口学特征、神经心理测试、结合单模态或多模态神经影像对AD进行二分类研究,并达到了较高的分类准确率。但在临床实践中,二分类研究存在一定的局限性,所以,仍需要关注AD的多分类诊断研究。

1 国内外现状及发展动态分析

老年人的认知功能监测和筛查是识别早期AD的重要工具,对AD的早期发现和干预至关重要。痴呆自然史纵向研究中通常收集认知功能的重复测量数据(纵向标记物)和痴呆/死亡时间,从成本效益的角度考虑,利用传统的统计模型可以对纵向过程和生存过程建立模型,预测老年人AD的进展轨迹。

神经影像学研究的最新进展[2]表明AD的病理学改变可在出现临床表现前发现。目前应用于AD 的神经影像学技术主要包括结构磁共振成像(structural magnetic resonance imaging,sMRI)、功能磁共振成像(functional magnetic resonance imaging,fMRI)、弥散张量成像(diffusion tensor imaging,DTI)和基于葡萄糖代谢水平的正电子断层成像(fluorodeoxyglucose positron emission tomography,FDG-PET)。因此,利用多种神经成像方法对AD/MCI进行神经成像分类和MCI转化率预测已成为一个重要的研究领域[3]。

1.1基于传统统计分析方法预测AD的进展轨迹痴呆自然史纵向研究数据通常包括认知功能的重复测量和感兴趣的终点事件——痴呆或死亡是否发生及其经历时间,其数据结构具有如下特点:认知功能的不可测性、结局变量的非独立性、观察对象的异质性。

针对纵向过程的混合模型,传统的回归分析通常做法是合并所有个体数据,然后估计一个平均水平的预测模型,但是这种模型反映的仅仅是平均效应,不能捕捉变化轨迹中的个体变异。潜变量增长曲线模型(latent growth curve model,LGCM)属混合效应模型,可估计认知及其他结局的初始水平和变化率[4-5]。但是传统的 LGCM 假定所有个体来自同质性总体,即总体内所有个体具有完全相同或类似的平均增长曲线(即相同的截距和斜率)。然而这一假定并非总能满足,因为并非全部个体遵从相同的增长趋势。合理的增长模型应该考虑到总体的异质性,即需要引入潜类别变量。将传统增长模型与潜类别分析相结合的模型既可以描述增长趋势又可以考虑总体异质性[6]。其中,潜类别增长模型(latent class growth model,LCGM)与增长混合模型(growth mixture model,GMM)是目前两种最常用也是影响最大的处理总体增长异质性的模型。

痴呆自然史纵向研究中通常收集认知功能的重复测量数据(纵向标记物)和痴呆/死亡时间,单独分析纵向过程和生存过程各有标准统计方法,如针对纵向数据的混合模型和针对生存数据的Cox模型。但是单独分析没有考虑两部分数据的相关,从而可能会造成有偏推断,因此需要能够同时估计纵向和生存信息的联合模型[7]。Wulfsohn和Tsiatis提出共享随机效应模型(shared random-effect model,SREM)[8],其中纵向过程的特征被定义为一个随机效应的函数作为协变量纳入生存模型,这个函数可以是捕捉纵向变化轨迹的任何函数[9]。而当总体的异质性不可忽略,并且同时对纵向标记物的变化轨迹和生存结局感兴趣时,联合潜在类别模型(joint latent class model,JLCM)独具优势。我们利用阿尔茨海默病神经成像倡议(Alzheimer′s disease neuroimaging initiative,ADNI)数据,应用JLCM将MCI分为3个类别:低风险(72.65%)、中度风险(20.41%)和高风险(6.94%),结果显示MCI老年人呈现出了3种不同的认知轨迹[10]。

1.2基于机器学习的AD多分类诊断模型机器学习作为基于数据驱动的关联分析的强有力工具,能够充分利用影像标记数据内在的结构信息,基于训练数据构建统计模型,从而使计算机具有对新数据进行自动化诊断的功能,在 AD 及其他神经精神疾病的分类研究中取得了较好的结果[11-12]。国内外运用机器学习方法通过神经影像数据构建 AD计算机辅助诊断模型的研究已初具规模[13-16]。郭秀花团队[17]基于MRI 图像,提取脑部海马区域纹理特征参数建立了NC(normal control)和AD的二分类诊断模型。Ortiz等[15]基于MRI和PET两个模态利用稀疏表示的方法建立分类器,对NC/AD、NC/MCI进行二分类研究,准确率分别达到92%和84%。

在临床实践中,常常需要根据个体的神经影像学检查、认知测评和临床信息等,确定其所处的疾病状态,统计学上属于多分类(multi-class classification)诊断问题。现有的二分类诊断模型无法满足将样本进一步分为 NC、sMCI、pMCI与AD四类的要求。而目前已有一些构建多分类模型的研究,如Jin等[18]将ADNI 数据中的MRI、PET-CT 及两者结合,运用决策树集成模型构建多种神经退行性疾病的识别模型,其中包括NC、sMCI、pMCI和AD各100名,最终模型分类准确率为56.52%;Sørensen等[19]使用线性判别分析方法将 ADNI 数据分为 NC、 MCI与 AD,模型准确率为 67%;Liu等[20]通过构建多个多层神经网络作为初级分类器,用线性加权函数作为次级分类器,运用 stacking 集成方法进行四分类诊断,得到模型准确率为 53.79%;Dimitriadis等[21]基于sMRI利用随机森林对AD进行四分类研究,并利用外部验证的方法进行模型的泛化,得到模型准确率为61.9%。目前的研究表明,多分类诊断模型的准确率仍然较低。因此,对AD进行多分类诊断研究,仍然是一个具有挑战性的任务。

2 基于神经影像数据的AD多分类框架

AD分类框架是用于分析神经影像学数据中的复杂模式,通过学习不同成像方式复杂、微妙的变化,以期对不同阶段的AD进行分类。AD多分类框架主要由以下部分组成:特征提取,特征选择和降维,特征融合,训练分类器和模型验证[3]。在基于机器学习的AD多分类框架中,特征提取和分类算法是构建医疗决策自动化模型必不可少的两个步骤。

基于神经影像数据,使用原始成像数据作为输入特征开发AD多分类诊断模型所涉及的步骤如下。

2.1特征提取特征提取是通过特定的后处理方法对原始医学成像数据加工后获得的更多信息的测量,如区域组织密度、区域皮质厚度[3]。利用机器学习的算法,这些特征可用于分类识别。特征提取通常是从原始图像数据中提取针对特定任务的有意义的测量。这一步骤是医学图像处理及分析中的关键环节,图像特征提取方法的好坏直接影响到后续模型的性能和效率。例如,研究[22-24]表明灰质密度值、皮质厚度、皮质下体积等可作为特征用于不同的分类任务。

常用的特征提取方法分为3类[25]:基于体素的方法(voxel-based approach)、基于感兴趣区域(region of interest,ROI)的方法和基于结构块的方法(patch-based approach)。基于体素的方法最简单、直接,它将体素强度作为分类特征。虽然它在结果的解释上简单直观,但其主要局限性是特征向量的高维性以及对区域信息的忽视。基于ROI的方法主要考虑结构或功能上预定义的大脑区域,并从每个区域提取具有代表性的特征。由于其相对较低的特征维数和全脑覆盖,在文献中得到了广泛的应用[16-26]。然而,从ROI中提取的特征非常粗糙,可能会忽略大脑疾病中涉及的一些微小的异常变化。此外,ROIs是由先验假设产生的,与AD相关的异常脑区可能不太符合预定义的ROIs,从而限制了提取特征的表征能力。为了解决这些局限性,Liu等[27-28]最近提出了一种基于结构块(patch)的方法,该方法首先将大脑区域分割成小的3D 结构块,分别从每个选定的结构块中提取特征,然后在分类器的层次上对这些特征进行组合。

2.2特征选择和降维特征选择最早是统计识别系统中常用的方法。随着机器学习和模式识别领域的发展,特征数量急剧增加。尤其在医学图像分析中,传统算法常常会遭遇维数灾难,降低数据的维数可以有效提高数据分析的效率。特征选择是在所有特征中选择一组对疾病敏感的相关特征子集,能够起到降维的作用,而且能够加快学习过程,提高分类器模型的性能。Lei等[29]利用具有时空约束的正则化熵来减少噪声和离群值的不利影响,挖掘数据特征,提高特征选择的一致性和鲁棒性。Wang 等[30]利用弹性网(elastic net)提取特征对AD进行分类,解决了样本少、变量间相关性高的问题。子空间学习常用来减少高维神经影像学数据的特征数量,以应对高维小样本问题。Zhu等[31]提出利用典型相关分析(canonical correlation analysis,CCA)将原始特征从不同的模式转移到一个公共空间进行特征选择,共同预测临床评分(如ADAS-Cog和MMSE),识别多类疾病状态。

特征选择大致包括3种方法:Filter法、Wrapper法和Embedded法[32]。Filter法先对数据集进行特征选择,然后再训练分类器,特征选择过程与后续分类器无关。它是最简单的特征选择方法。在神经影像学领域,最常用的方法就是Filter方法中的t-检验法,它通过对每个特征的分析来衡量他们的判别性,然后通过排序挑选出最具判别性的特征子集,适合处理小样本数据。Wrapper法是直接将使用的分类器的性能作为特征子集的评价准则,换言之,该方法是为目标分类器选择最有利于其性能的特征子集。从最终的分类器性能来看,Wrapper法比Filter法更胜一筹。与前两种方法不同,Embedded法将特征选择过程与分类器训练过程融为一体,两者在同一个优化过程中完成。另外,近年来,正则化方法在神经影像学分析中得到广泛的应用。正则化模型就是在模型上强加约束或惩罚项,以此来防止过拟合现象,提高模型的泛化性能。

2.3特征融合为了获得更好的分类效果,选择合适的模态和特征用于AD分类比单纯追求高级的分类算法更重要。最新研究[33]认为,联合多模态影像数据比仅利用单个模态能够获取与疾病相关更加综合、全面的信息,对AD的早期诊断具有重要的临床价值,能够获得更高的分类准确率。例如,fMRI的空间精度与脑电图的时间精度结合,从而提供前所未有的时空精度[34];再如,利用基因和fMRI数据相结合比单独使用任何一种方法都能获得更高的分类精度,这表明基因和大脑功能代表着不同但部分互补的方面[35]。因此,联合分析多模态数据的一个关键就是高效地进行数据融合。

目前图像融合分为像素级融合、特征级融合和决策级融合。像素级融合属于最低层次的图像融合方法,该方法对原始数据要求高且处理时间长。特征级融合既保留了参与融合的多特征的有效鉴别信息,又在很大程度上消除了由于主客观因素带来多特征之间相关性的冗余信息,是当前大多数研究采用的融合方法。决策级融合是最高层级的融合,该方法预处理代价较高,图像中的原始信息损失较多。

我们知道融合来自不同成像模态的信息对于更准确地识别大脑状态至关重要,因为不同模态的成像数据可以提供关于脑疾病的复杂性质的互补视角。然而,由于不同模态的异构性,融合不同异构数据仍然是当前AD多模态研究中的一个挑战。现有的模态特征融合方法中,一类方法是独立地从每种模态中提取特征,然后简单地将它们连接到一个长向量中,即对各个模态的特征进行串联,缺点是把所有模态特征信息赋予同等权重,没有考虑从不同模态提取出的特征的不同特性。另一类方法是确保使用到所有技术发现的互补信息,既可以是单个模态中训练的分类准则结果,也可以是在训练前使用特殊的组合规则得到的总和特征。目前有研究利用CCA[36]、多核学习(multiple kernel learning,MKL)、独立成分分析(independent component analysis,ICA)等方法融合不同模态的特征。例如,Zhang等[26]基于MRI、FDG-PET和脑脊液,利用MKL建立了MCI和NC的分类器,并在18个月内对sMCI和pMCI进行了分类,得到的分类准确率为76.4%,而单模态分类器最高仅达72%。

2.4训练分类器经典的机器学习算法仍然是现有研究中使用的主流方法,根据学习方式可以分为监督学习、非监督学习、半监督学习和强化学习等。目前常用的机器学习算法包括支持向量机(support vector machine,SVM)、逻辑回归分类(logistic regression classification,LRC)、人工神经网络(artificial neural networks,ANN)、K均值聚类、模糊聚类、神经网络、决策树、K近邻等[37]。此外,由于神经影像数据的复杂性,有时候还需要利用集成学习的方法,如Bagging、Boosting等组合多种分类方法,MKL为不同的模态选择不同的核函数,可显著提高分类准确率。

随着大数据和深度学习的发展,基于深度学习的算法可以克服传统浅层机器学习在解决复杂分类任务时的局限性,提高判别能力。结合某种形式的降维和SVM等分类器,深度学习改善了MRI作为单模态方法分类的有效性,甚至超过了多模态方法的分类准确率。有几项研究[38-41]报道了基于多核磁共振的方法,可以区分AD和NC受试者,准确率在92%~97%,预测MCI进展为AD的准确率超过80%。

当前常用的深度学习模型与架构包括:递归神经网络(recurrent neural networks,RNN)、限制玻尔兹曼机(restricted Boltzmann machine,RBM)、卷积神经网络(convolutional neural networks,CNN)等。基于深度学习的算法在AD分类方面的应用还较少,还需要进一步的研究[42]。

由于不同模型使用的数据集、图像预处理方法和验证方法等均有差别,因此很难对不同的分类算法进行客观的比较,究竟哪种分类算法最优尚无定论。

2.5模型验证交叉验证(cross validation,CV)是评价和比较分类器的一种统计方法[43]。它的思想是利用数据集的一部分样本训练分类器,剩下的样本作为一个新的数据集来测试分类器的性能。留出法(hold-out)是常用的一种方法,它将数据集随机分成两个独立的训练集和测试集。然而在许多分类器中,有一些参数需要优化,因此,在这样的分类器中,需要第3个子集(验证集)来设置参数。留出法在很大程度上依赖于训练集中样本的分布,在样本量较小时容易导致过拟合。k折交叉验证是改进的分类器评价方法。在k折交叉验证中,通常把样本划分为k个子集,然后用k-1个子集的并集作为训练集,余下的子集作为测试集,在经过k次训练和测试,最终返回的是k个测试结果的均值。留一法(leave-one-out,LOO)是k折交叉验证的极端情况,即训练集与初始数据集相比只少了一个样本。因此,LOO的评估结果往往被认为是比较准确的,但同时,所付出的计算和时间成本是难以接受的。为了避免分类精度方面的过度乐观,建议使用完全交叉验证的结果。目前机器学习领域建立模型和验证模型参数时最常用的是10折交叉验证[44-45]。

为了进一步提高模型的泛化性能,最新研究引入外部验证的方法,即用单独的数据集作为测试集进行模型的评价[46-47]。然而,即使用独立的测试集,也需要使用交叉验证来检验训练模型的准确性。

3 基于神经影像数据的AD多分类诊断模型的应用价值

3.1临床辅助诊断机器学习方法可有效筛选出与疾病高度相关的重要特征,并利用已学习的特征构建一个分类模型,然后提取未知样本(待诊断受试者)相对应的影像特征,并输入分类器得到预测结果(类别),从而实现个体水平的诊断。

我们可以首先充分利用广泛使用且低成本的多维度标准认知测试量表评估个体 AD 风险,然后对高风险个体进行神经影像(MRI 和 PET)的依次检测,提高诊断准确性。该策略有助于区分即将面临认知衰退的个体、迟发性认知衰退的个体和完全不会经历认知衰退的个体,并允许根据经验证据和专家共识对每个阶段进行调整,有助于医疗卫生服务提供者合理安排个体筛查项目的优先顺序,减轻社会服务系统负担,实现医疗资源的有效分配。这样既可以避免治疗不足,又可以防止治疗过度。

3.2AD动态筛检在精准预防层面,主要是高风险人群的确定和重点预防。老年人群是一个具有高异质性的群体,该人群在人口特征、社会经济、健康行为和心理特征方面均有显著差异,健康状况也呈现出不同的变化轨迹。本项目组基于ADNI数据,构建联合潜在类别模型,将MCI向AD转化的人群分成了3类:低危组、中危组和高危组[10]。

认知监测和筛查是识别早期痴呆的重要工具,但准确率高的 AD 诊断模型常常融合了MRI、 PET和脑脊液等多个诊断标记。考虑到准确率提高的获益和诊断标记获取的成本花费,在临床实践中,同时得到多个诊断标记对于患者和医生均很困难。因此,项目组下一步将利用低成本、无创性的诊断标记,进一步融合 MRI 与 PET 神经影像学检查,建立AD多分类辅助诊断模型,以进行更精准的分类(NC、sMCI、pMCI、AD),由此确定干预的重点人群,为实现对社区老年人认知衰退的动态筛检提供统计学支持。

4 当前研究所面临的挑战

机器学习技术和神经影像学诊断技术的不断发展,为建立基于神经影像数据的AD多分类诊断模型提供了前所未有的机会。尽管如此,在融合来自神经影像数据(如MRI和PET等)、遗传数据、神经心理评分和人口学信息等用于AD多分类诊断方面仍面临着以下挑战[48-49]。

首先是多模态数据的异质性。不同模态的数据 (神经影像数据、基因数据和生理行为数据等) 往往是异构的, 通常情况下,它们具有不同的分布、不同的数量特征。因此,如何能够高效地融合不同模态的特征是一个急需解决的关键问题。其次是高维小样本问题。AD神经影像学数据维度极高(一次神经影像扫描通常包含数百万个体素)、结构复杂且具有小样本的特性,处理很多特征会是一个挑战,因为这有可能会导致过度拟合。针对高维小样本这个挑战性的任务,Lasso模型被广泛应用于解决高维变量选择的问题,但是具体到MRI数据本身存在的特点,仍然存在不能有效克服其变量之间的高度相关性(即多重共线性)、假阴性控制差等问题。最后是模态数据缺失问题,即训练集中的所有样本并不都具有所有完整的模态。如果我们只使用具有完整多模态数据的样本进行训练,将会使上述小样本问题更加严重。此外,在训练过程中使用较少的样本也可能降低分类器算法的性能,该算法依赖于大量的训练样本来学习和建立有效的模型,如深度学习[50]。

5 小结

尽管已有大量关于AD早期诊断的研究,但也面临着各种各样的技术壁垒。机器学习技术和神经影像学诊断技术的不断发展,为建立基于神经影像数据的AD多分类诊断模型提供了机会。这一领域的研究涉及医学统计学、医学影像学、计算机科学、老年病学、预防医学等,是多学科领域交叉的共性难题,其解决对AD的超早期诊断具有重要意义,为进一步开展脑疾病的早期精准防治技术研究和更好地促进老龄人口的脑健康提供理论基础。

猜你喜欢
分类器准确率模态
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
健康之家(2021年19期)2021-05-23 11:17:39
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
高速公路车牌识别标识站准确率验证法
BP-GA光照分类器在车道线识别中的应用
电子测试(2018年1期)2018-04-18 11:52:35
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
国内多模态教学研究回顾与展望
基于HHT和Prony算法的电力系统低频振荡模态识别
基于LLE降维和BP_Adaboost分类器的GIS局部放电模式识别