基于sMRI的阿尔茨海默症分类影响因素研究*

2018-10-22 10:46黎建忠曾安潘丹SongXiaowei郭慧王卓薇
生物医学工程研究 2018年2期
关键词:准确率分类样本

黎建忠,曾安,2,潘丹,Song Xiaowei,郭慧,王卓薇

(1.广东工业大学计算机学院,中国 广州 510006;2.广东省大数据分析与处理重点实验室,中国 广州 510006;3.广东建设职业技术学院现代教育技术中心,中国 广州 510440;4.广州市本真网络科技有限公司,中国 广州 510095;5.西蒙弗雷泽大学影像技术实验室,加拿大 温哥华 V6B 5K3;6. 天津医科大学总医院医学影像科,中国 天津 300052)

1 引 言

阿尔茨海默症(alzheimer's disease,AD)是一种不可逆的慢性神经系统退行性疾病[1]。AD现有药物治疗非常有限,但早期准确发现能减缓疾病进程。轻度认知损害(mild cognitive impairment,MCI)是介于健康者(health controllers,HC)和AD之间的过渡阶段。

目前,国内外研究学者基于神经影像学,提出了一些关于AD及其前驱阶段分类的思想和方法。脑组织中的异常蛋白质的沉积和神经原纤维缠结是AD的重要病理学征象[2]。AD的产生同时伴随着颞叶和海马体的萎缩,这些生物标识可以通过结构性磁共振成像(structural magnetic resonance imaging,sMRI)进行测量[3]。在AD的早期诊疗阶段,不少研究者采用sMRI作为依据诊断病情[4]。除此之外,在扣带回和海马体等大脑区域,AD和葡萄糖的低代谢有较强的关系[5];AD患者在整体皮质区域有较高的淀粉样蛋白负荷[6]。低代谢和高淀粉样蛋白负荷可以通过正电子发射断层扫描(positron-emission tomography,PET)测量。而功能性磁共振成像(functional magnetic resonance imaging,fMRI)可用于测量不同脑区域的功能一致性和功能连接的强度[7]。因此,研究者尝试从不同的模态捕获AD疾病信息,得到较好的分类准确率。

近年来相关的研究相对独立,一般文献的结论是其提出的分类框架基于准确率上较优,而很少把实验结果用于比较的目的。滕升华等[8]学者提出了一种两层字典协调工作的复合稀疏表示分类器,在AD VS NC和MCI VS NC的分类实验上,分别获得约92.05%及88.57%的准确率。实际上,关于AD及其前驱阶段的分类研究,会受到研究人群的构成及规模、特征类型、随访期长度和分类算法等因素的影响。所以,对于该领域的研究现状,目前难以做出全面客观的总结。但是,对于该领域上的分类问题,合适的样本、特征及分类算法的选择等因素,对分类准确率的影响程度各有不同。文献[2-3]已经证实,AD与脑萎缩有密切关系,而脑萎缩主要反映在皮层表面积的缩小及厚度降低和灰质体积减少上,因此,灰质体积(gray matter volume,记为GV)、皮层表面积(cortical surface area,记为SA)及其平均厚度(thickness average,记为TA)三类特征,可以作为判断AD患者大脑形态结构变化的证据。因此,本研究提出基于三类解剖特征的支持向量机(support vector machine,SVM)建模方法,对AD、MCI和HC阶段的sMRI进行分类,探索样本、特征与算法选择对分类的影响。

2 相关技术

SVM是建立在统计学习理论基础上的一种数据挖掘方法,能有效处理回归问题和模式识别等诸多问题。其机理是寻找一个满足分类要求的最优分类超平面,使得该超平面在保证分类精度的同时,使超平面两侧的间隔区域最大化。理论上,SVM可实现对线性可分数据的最优分类。

SVM推广到线性不可分情况的核心思想是通过一个核函数将非线性可分的输入空间映射到一个线性可分的空间,在此线性可分的空间中进行训练、学习。目前关于核函数及其参数的选取没有统一的准则,一般依靠经验选择。常用的SVM核包括线性核、径向基核及Sigmoid核等函数。

3 材料和方法

3.1 数据获取

本研究编写过程中使用的数据来自阿尔茨海默病神经成像倡议(ADNI)数据库(adni.loni.usc.edu)。ADNI成立于2003,由首席调查员Michael W. Weiner, MD领导,是一个公私合作伙伴。ADNI的主要目的是检测一系列磁共振成像(MRI)、正电子发射断层扫描(PET)、其他生物标记物以及临床和神经心理学评估是否可以联合应用于度量轻度认知损害(MCI)和早期阿尔茨海默病(AD)的进展。

本研究选取来自88名被试者的297张sMRI组成实验样本。其中,AD阶段55张,MCI阶段130张,HC阶段 112张。在样本的构成上,同一名被试者对应不同时间点上的多张成像。其中AD男性9名,女性9名;MCI男性20名,女性17名;HC男性18名,女性15名。选取的sMRI维度为256×256×170,翻转角为8,磁场强度为3T,层厚为1.2 mm,TR/TE=7.0/3.0。

3.2 数据处理

本研究使用FreeSurfer工具箱实现一系列算法,对人脑神经影像进行预处理,获得不同大脑区域的灰度体积、皮层表面积及平均厚度统计数据,作为训练模型的输入特征。

预处理即是三维重构的过程,主要包括运动校正、去除非脑组织、自动Talairach变换、白质分割、深部灰质体积结构的强度归一化、自动拓扑校正[9]等。

由于预处理算法的复杂性及计算量的庞大,采用实验室环境中的服务器处理sMRI效率较低。因此,本研究使用“天河二号”超级计算机完成预处理,极大缩短了实验周期。

3.3 大脑区域划分

本研究中,经过sMRI三维重构后,获得大脑颞上沟、尾侧前扣带回、额中回后部、楔前叶、嗅区、梭状回、顶下小叶、颞下回、扣带回峡、枕叶外侧、额眶回、舌回、内侧眶回、颞中回、海马旁回、中央旁小叶、岛盖部、眶回、三角区、距状旁回、中央后回、后扣带回、中央前回、楔前叶、喙侧前扣带回、额中回下部、额上回、顶上小叶、颞上回、缘上回、额极、颞极、颞横和岛叶,共34个相关区域,左右脑各三类特征(灰质体积、皮层表面积及平均厚度),共34×2×3=204个特征。

4 实验和结果分析

4.1 SVM实验算法流程

基于三类解剖特征的SVM算法流程见图1。

图1 基于三类解剖特征的SVM算法流程

Fig1SVMalgorithmbasedonthreetypesofanatomicalfeatures

首先,从ANDI数据库获取sMRI;

其次,对88个样本的297张sMRI进行三维重构,提取sMRI中对应左右脑各34个不同大脑区域(参见3.3)的三类解剖特征,即灰质体积(GV)、皮层表面积(SA)及平均厚度(TA),共204个特征作为模型的训练数据。三个分类实验中,把只使用SA、GV或TA其中一类特征训练的情况称为“单类特征”;把同时使用三类特征共同训练的情况简记为SA+GV+TA,称为“组合特征”。

接着,选择不同的核函数及参数值训练SVM模型。当选择RBF核作为核函数时,取γ为特征数量的倒数。即在单类及组合特征实验中,γ分别取值为γ=1/68=0.0147 及γ=1/204=0.0049。为了验证本研究算法的有效性,采用10-折交叉验证来划分训练集与测试集。

最后,对AD、MCI和HC三类人群进行分类识别,并通过准确率等衡量指标,评估模型的性能。

4.2 各组分类准确率及标准差

本研究利用线性核、RBF核及Sigmoid核函数进行分类研究,对AD、MCI及HC三类人群分类的10次10-折交叉验证分类准确率的平均准确率和标准差结果,见表1~表3。

从特征类型的角度,在表1和表2的分类实验中,选择组合特征的平均准确率高于单类特征;在表3的分类实验中,选择TA单类特征的平均准确率高于组合特征及其他两类单类特征。从核函数选择的角度,在表1~表3中,对于使用同一类单类特征或组合特征的情况,不同核函数及参数值对分类准确率的影响不大。表明对提高分类器的预测性能,特征选择比核函数及其参数值的选择更重要。

综合表1~表3,AD组vs HC组的分类效果总体上优于AD组vs MCI组和HC组 vs MCI组。表明AD组与HC组在特征上区别较大,而AD组vs MCI组和HC组 vs MCI组间的区别相对较小。标准差反映10次交叉验证准确率的波动程度。表中标准差基本小于0.02,表明SVM模型的准确率波动范围处于较低水平,模型相对稳定。

4.3 与国内外部分文献结果的对比

为了进一步探索不同样本、特征和算法对AD及其前驱阶段分类问题的影响,分析Heung-Il Suk等[10]基于低层特征(low level features,LLF)和堆栈自动编码器特征(stacked auto-encoder features,SAEF)的深度学习模型方法(见表4第二列)、叶婷婷[11]等基于有效距离特征选择(effective distance based multi-modality feature selection,MMFS_ED)的SVM方法(见表4第三列)的实验结果,并与本研究提出的基于三类解剖特征的SVM方法做比较。表4和图2展示了不同样本、不同特征类型和不同算法模型下的最佳准确率。

表1AD组vsMCI组的平均准确率和标准差

Table1AverageaccuracyandstandarddeviationinADvsMCI

特征集线性核RBF核γ0.0147或0.00490.52.5Sigmoid核γ,r1,0GV0.898±0.0300.899±0.0200.896±0.0160.899±0.0190.892±0.014SA0.875±0.0250.885±0.0190.900±0.0150.893±0.0180.890±0.018TA0.878±0.0110.883±0.0390.888±0.0140.881±0.0290.874±0.024SA+GV+TA0.932±0.0280.933±0.0230.937±0.0170.936±0.0120.955±0.013

表2HC组vsMCI组的平均准确率和标准差

Table2AverageaccuracyandstandarddeviationinHCvsMCI

特征集线性核RBF核γ0.0147或0.00490.52.5Sigmoid核γ,r1,0GV0.911±0.0140.910±0.0110.916±0.0120.916±0.0120.917±0.016SA0.908±0.0130.915±0.0180.910±0.0180.910±0.0110.908±0.011TA0.923±0.0110.921±0.0130.923±0.0100.928±0.0110.923±0.013SA+GV+TA0.964±0.0090.960±0.0120.964±0.0100.960±0.0100.965±0.011

表3AD组vsHC组的平均准确率和标准差

Table3AverageaccuracyandstandarddeviationinADvsHC

特征集线性核RBF核γ0.0147或0.00490.52.5Sigmoid核γ,r1,0GV0.921±0.0080.931±0.0090.935±0.0070.928±0.0100.929±0.008SA0.925±0.0090.920±0.0210.924±0.0150.931±0.0120.930±0.012TA0.967±0.0130.970±0.0060.970±0.0060.970±0.0090.974±0.008SA+GV+TA0.914±0.0160.926±0.0110.924±0.0140.928±0.0110.917±0.025

表4与国内外部分文献结果的对比

Table4Comparisonswiththeresultspublishedinotherpapers

对比组LLF+SAEFMMFS_EDSA+GV+TA或TAAD vs MCI0.837±0.015-0.955±0.013HC vs MCI0.907±0.0120.8150.965±0.011AD vs HC0.988±0.0040.9550.974±0.008

在AD组 vs MCI组和HC组 vs MCI组的实验中,文献与本研究的准确率相差较大,虽然叶婷婷[11]等与本研究同样使用SVM模型作为核心的分类算法,但是由于受到研究人群和特征类型的影响,准确率存在较大差异。而Heung-Il Suk[10]等选择的特征类型较多,但是由于研究人群的差异,即使采用了对复杂函数学习能力更强的深度学习算法训练模型,其准确率仍远低于本研究基于三类解剖特征的SVM算法。表明为了达到更高的分类准确率,选择合适的样本和特征,比选择分类算法更重要。

图2 与国内外部分文献结果的对比

Fig2Comparisonswiththeresultspublishedinotherpapers

5 结语

本研究基于sMRI,以左右脑不同区域的灰质体积、皮层表面积及平均厚度作为特征,建立SVM分类模型,实现AD、MCI和HC 3组人群两两之间的分类。本研究选择的图像样本,对于同一个被试,对应不同时间点上的多张成像。通过选择不同核函数及参数,以及选择单类特征或组合特征,建立SVM模型,与基于不同样本、不同特征及不同算法的文献结果进行比较。实验比较和分析得知,在提升分类器性能上,相对于算法的选择,样本及特征选择更重要。在未来的研究中,探索样本的构成及如何选择特征类型的方法将成为关键工作。

致谢

本项目的数据收集和共享由阿尔茨海默病神经成像倡议(ADNI)(美国国家卫生研究院授权U01AG024904)和DoDADNI(美国国防部奖励编号W81xWH-12-2-0014)供资。ADNI由美国国家老龄化研究所、美国国家生物医学影像和生物工程研究所提供资金,并由下列机构提供慷慨捐助:AbbVie, Alzheimer’s Association; Alzheimer’s Drug Discovery Foundation; Araclon Biotech; BioClinica, Inc.; Biogen; Bristol-Myers Squibb Company; CereSpir, Inc.; Cogstate; Eisai Inc.; Elan Pharmaceuticals, Inc.; Eli Lilly and Company; EuroImmun; F. Hoffmann-La Roche Ltd and its affiliated company Genentech, Inc.; Fujirebio; GE Healthcare; IXICO Ltd.; Janssen Alzheimer Immunotherapy Research & Development, LLC.; Johnson & Johnson Pharmaceutical Research & Development LLC.; Lumosity; Lundbeck; Merck & Co., Inc.; Meso Scale Diagnostics, LLC.; NeuroRx Research; Neurotrack Technologies; Novartis Pharmaceuticals Corporation; Pfizer Inc.; Piramal Imaging; Servier; Takeda Pharmaceutical Company; and Transition Therapeutics. 加拿大卫生研究院正在提供资金,以支持在加拿大境内的ADNI临床站点。美国国家卫生研究院基金会为私营部门的捐助提供了便利(www.fnih.org)。受捐赠机构是北加利福尼亚研究和教育研究所,这项研究由南加州大学的阿尔茨海默症治疗研究所负责协调。ADNI数据由南加州大学神经影像实验室发布。

猜你喜欢
准确率分类样本
分类算一算
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
用样本估计总体复习点拨
分类讨论求坐标
推动医改的“直销样本”
高速公路车牌识别标识站准确率验证法
数据分析中的分类讨论
教你一招:数的分类