融合注意力机制的阿尔茨海默症识别模型*

2021-10-20 09:31曾安高征
生物医学工程研究 2021年3期
关键词:体素脑区分类器

曾安,高征

(广东工业大学计算机学院,广州 510006)

1 引 言

阿尔茨海默病(Alzheimer′s disease,AD)的早期诊断对于研发新型药物和及时采取措施干预治疗、减缓患者病情发展具有重要意义。近年来,神经影像技术在AD早期诊断方面取得了惊人的成绩。其中以机器学习为代表的分析方法在使用MRI图像[1]预测患者所处阶段方面取得了良好的效果。而基于传统的机器学习研究方法中,通常需要人为挑选出AD患者和正常受试者之间变化比较明显的大脑区域,如海马、杏仁核、颞叶等感兴趣区域;然后利用机器学习方法进行分析预测,如支持向量机[2](support vector machine,SVM)、AdaBoost等[3]算法;这种研究AD的方法虽然取得了不错的效果,但仍存在一定的局限性:即从整体特征集中仅提取一部分特征子集,会丢失一些潜在的、至今尚未发现但对AD病情产生影响的特征信息。

以深度学习[4-5]为代表的分析方法可分为基于2D的卷积神经网络(CNN)识别方法和基于3D的CNN识别方法。基于2D CNN的识别模型,如文献[6]中选取一张穿过海马体切片,并对应训练CNN分类模型;以及文献[7]针对三维MRI图像,在三个维度上获得多个二维切片,分别输入到对应的CNN网络模型中训练并集成的方法。上述方法虽然能在AD的早期诊断中取得不错的效果,但对三维MRI图像进行切片处理,削弱了受试者大脑组织结构的空间联系,且训练多个2D CNN模型计算成本也相对较高。而基于3D CNN[8]的识别模型,如文献[9]基于整个三维MRI图像的3D-ResNet[10]的识别方法,以及文献[11]基于感兴趣区域的3D CNN识别方法。基于3D CNN的识别方法虽然充分考虑了受试者脑组织结构的空间联系,但是其训练过程对硬件资源要求较高,且计算成本高。

针对上述方法在AD早期诊断识别中存在的问题,本研究提出了一种融合注意力机制的阿尔茨海默症识别模型。该模型更加适用于AD识别诊断,对硬件资源要求较低,且具有较高的性能优势;引入直映式注意力机制,提高了模型的识别能力和稳定性;利用TSVM优化基分类器的设计,进一步提高了识别精度;模型不依赖领域知识,无需人为挑选受试者大脑变化明显的区域。

1.1 注意力机制

视觉注意力机制是人类视觉所特有的大脑信号处理机制。人类视觉通过快速扫描全局图像,获得需要重点关注的目标区域,而后对该区域投入更多注意力资源,以获取更多的目标细节信息,从而抑制其他无用信息。

近年来,随着深度学习的发展和视觉系统注意力机制的研究。越来越多的科研人员倾向于在深度学习模型中添加注意力机制,用于优化网络模型的整体性能。虽然实现注意力机制的方式各不相同,但大多数研究人员倾向于使用掩码的方式来形成注意力机制。如计算机视觉领域的软注意力机制[12-14],是通过给网络模型中的某些层所提取到的特征,采取一种合理的方式分配掩码权重。在侧枝网络层中通过掩码权重的大小来调节相应主枝网络层的注意力,见图1。文献[13]提出一种压缩-激励注意力机制,其在侧枝网络层中对通道域使用1*1的卷积来对主枝网络层中的权重参数进行调节;文献[14]提出一种基于残差思想的注意力机制,其在侧枝网络中通过下采样和上采样的方式来调整相应主枝网络层的权重参数。本研究受深度学习与计算机视觉注意力机制相关工作的启发,提出一种直映式注意力机制。

图1 深度学习中的注意力机制

1.2 集成学习

集成学习[15]是使用一系列学习器进行学习,并使用某种规则把各个学习结果进行整合,从而获得比单一学习器更好的学习效果的一种机器学习方法。目前常见的集成学习方法可以总结为以下两类:一类是串行集成方法,利用基础模型之间的依赖,通过给错分样本一个较大的权重来提升性能;另一类是并行集成方法,利用基础模型的独立性,通过平均能够较大地降低误差。本研究的集成分类方法属于并行集成,每个基分类器是同质的。

2 融合注意力机制的识别模型

本研究的融合注意力机制的识别模型总体结构,见图2;整体实验流程图,见图3。首先,对经过预处理步骤得到的三维MRI图像使用脑区模板标签(automated anatomical labeling,AAL)划分受试者的大脑区域并对应提取K个脑区的体素数据;然后,将不同受试者之间属于同一脑区的体素数据按照行向量的形式依次排列,对应构造各个脑区的所属基分类器,每个基分类器主要由直映式注意力机制、特征选择和分类算法构成。

图2 融合注意力机制的识别模型总体结构

图3 总体实验流程图

2.1 直映式注意力机制

直映式注意力机制其设计思想为:首先需要探究哪些特征是值得被关注的,然后通过合理的方式获得注意力机制中的掩码权重,最后将掩码权重融合到被关注的特征数据,从而达到特征增强的效果。

本研究通过计算特征与类别标签之间的相关系数来获得注意力机制中值得被关注的重要特征数据。经预处理提取出每个脑区所对应的体素数据,可以采用式(1)所示的Pearson相关系数来计算体素特征与类别标签之间的线性相关程度;也可以采用Kendall等级相关系数来衡量体素特征与标签之间的非线性相关程度。

(1)

其中:Xij表示第i个脑区中的第j列体素向量,Yij表示所对应的类别标签,E(XijYij)表示向量Xij与向量Yij乘积的期望,同理其它与之类似;而Cofij表示第i个脑区中的第j列体素向量对于类别标签的重要程度。使用式(1)计算出脑区中每一列体素数据对于类别标签的重要程度。然后将特征与类别标签之间的相关系数通过激活函数映射为注意力机制中对特征所优化的掩码权重,其所对应的激活函数,见式(2)。

(2)

该激活函数基于sigmoid函数,通过将其进行适当的移动和缩放后得到,绝对值操作则表明负相关性特征在注意力机制中同正相关性特征等价。该激活函数充分考虑了特征与标签之间的正相关性和负相关性对于分类的影响,且能够将注意力机制中对特征所优化的掩码权重的取值范围约束在[0,1)。其中Wij表示注意力机制中第i个脑区、第j列体素数据所对应的掩码权重。

Att_Xij=(1+Wij)Xij

(3)

使用式(2)计算出脑区i中每一列体素数据所对应的掩码权重。然后使用式(3)进行注意力机制的融合。如果单纯的将掩码权重与特征数据做点乘操作,会降低本研究识别模型的性能。但根据文献[14]所提出的一种基于残差学习思想的注意力融合机制,本研究利用其思想进行注意力的融合操作。其中Att_Xij表示融合注意力机制后的第i个脑区、第j列体素向量。

2.2 基分类器

2.2.1特征选择 在预处理过程中,由于没有对三维MRI图像进行灰质、白质的分割,输入到每个基分类器中的特征集将会存在大量的冗余特征。即使在每个基分类器中对输入的特征集融合注意力操作,高维度的数据特征也较易影响识别结果。此外,按照AAL脑区模板来划分受试者的三维MRI图像,则每个脑区所包含的体素数量都不尽相同,如:有的脑区仅包含几百个体素数据,而有的脑区则含有上万个体素数据。为了避免脑区与脑区之间体素特征数量上的差异对分类的影响,在构造基分类器的流程中融合特征选择算法进行特征剔除。通过计算每个脑区中所对应的体素特征数据与类别标签向量的相关系数,比较相关系数绝对值的大小,筛选并保留与标签向量正相关性和负相关性相对较高的体素数据。

2.2.2分类模型 基分类器中的分类模型可以使用随机森林(random forest,RF)、支持向量机(support vector machine,SVM)、K最近邻(K-nearest neighbor,KNN)等分类算法。本研究采用SVM分类算法进行分类。SVM算法通过在训练数据的特征空间上找到一个间隔最大的分类超平面,从而保证分类精度。对于非线性分类问题,SVM可通过核技巧将原始数据映射到新的特征空间,然后在新的特征空间里用线性分类学习方法从训练数据中学习分类模型。常用的核函数有线性核函数、多项式核函数、高斯径向基核函数和Sigmoid核函数等等。SVM算法的预测类别y与训练样本集x之间的关系可以用式(4)表示,其中N为参与训练的数据样本量,wn为SVM算法在训练阶段给第n个样本分配的权重,tn为训练阶段中第n个样本的标签,k(x,xn)为核函数,b是门限参数。

(4)

2.3 集成学习

本研究选择投票法进行基分类器的融合。通过训练集来训练每个脑区所对应的基分类器,通过验证集来挑选出与AD疾病相关性较高的前k个脑区,然后在测试集上使用投票法集成验证集所筛选出的k个脑区,以此来评估本研究识别方法的最终性能。

3 利用TSVM优化基分类器

在早期研究AD的识别诊断方法中,大多基于有监督学习方法,即只使用有标记的数据样本来学习模型。而半监督学习方法能够在学习过程中充分使用未标记数据和标记数据,以提高分类性能。在此,本研究利用直推式支持向量机[16](TSVM)对上述识别模型中的有监督分类器进行优化。TSVM采用局部搜索的策略来进行迭代求解,其核心思想为:为未标记样本找到合适的标记指派,使得超平面划分后的间隔最大化。该优化目标为利用AD和正常对照组(记为HC)来优化具有认知障碍(记为MCI)和AD二分类实验组;以及利用AD和HC来优化MCI和HC二分类实验组。只需将图2中的有监督基分类器替换为基于TSVM的半监督迁移学习分类器,其所对应的流程见图4。

图4 基于TSVM的半监督迁移学习基分类器流程图

4 实验设计与分析

4.1 数据集

本研究的所有数据均来自于阿尔茨海默病神经成像(ADNI)数据库(adni.loni.usc.edu),该数据库免费为全世界的科研人员提供数据。

本研究从ADNI数据库中下载了861名受试者的MRI图像数据,用于划分训练集和测试集。受试者中AD人数为194人,HC人数为277人, MCI人数为390人。但上述MRI图像数据中存在一个受试者不同时刻的多张MRI图像数据,为了避免实验过程中因其所引起的数据泄露,本研究选择剔除同一受试者中不同时刻的多张MRI图像,仅保留其中一张MRI图像。剔除后的AD组101人,HC组172人,MCI组231人。剔除后得到的受试者详细信息见表1。

表1 训练集和测试集被试详细信息

本研究另从ADNI数据库中下载了278名受试者的三维MRI图像数据作为验证集,且验证集中的受试者ID均与上述中他人共享的数据集不同。在每次实验中,验证集中属于AD、HC、MCI的受试者数量分别为100、100、78人。验证集的受试者详细信息见表2。

表2 验证集被试详细信息

4.2 AAL脑区模板

Anatomical Automatic Labeling(AAL),由Montreal Neurological Institute (MNI)机构提供的。其按照大脑某一区域所主导的特定功能进行划分,建立了大脑组织结构和功能之间的关系,详见文献[17]。AAL脑区模板一共有116个区域,其中90个属于大脑,26个属于小脑结构。其划分信息存储在一个三维nii图像中,用0~116之间的灰度值来标识不同的脑区,相同灰度值的体素属于同一脑区,0代表其不在脑区区域中。

4.3 图像预处理

利用SPM12软件的CAT12工具包(http://dbm.neuro.uni-jena.de/cat/)进行图像预处理。预处理主要包括去头骨、配准到MNI标准空间、图像平滑,其处理过程所用的参数均使用CAT12工具包中的默认参数。经过SPM12软件处理后,得到的所有图像大小均为121×145×121,空间分辨率为1.5 mm。随后对每个MRI图像进行灰度归一化,使每个受试者的图像体素值在0~1之间。

对于归一化处理后的MRI图像,使用相同形状且相同空间分辨率的AAL脑区模板来分割每一个受试者的三维MRI图像。其中每一个受试者的三维MRI图像都将被划分为116个感兴趣区域(ROIs),即对应116个脑区。但其中有26个脑区属于小脑,而小脑区域不在研究范围内,故将从每个受试者的三维MRI图像中得到90个ROIs,对应本研究方法中的90个基分类器。通过将不同受试者之间所属同一脑区的体素数据按照行向量的形式依次排列,从而获得本研究方法中的90个基分类器所需的数据。预处理流程见图5。

图5 预处理流程

4.4 对比实验

4.4.1实验环境及参数设置 本研究的图像预处理步骤的实验硬件环境为CentOS7.4,64位操作系统,92 G内存,CPU为E5-2640 2.00 GH。经预处理步骤后,本研究的实验硬件环境为Windows 7,64位操作系统,8 GB内存,CPU为Intel(R) Core(TM) i5-4460 3.20 GHz。本研究将AD的早期识别诊断分为三个不同的二分类问题:AD vs HC、MCI vs HC、MCI vs AD。每个二分类实验都将按照第2节中的算法流程构建本研究识别模型。其中,利用AAL脑区模板提取的脑区数量k为90;在基分类器中保留特征的数量为50;基于高斯径向基的SVM分类算法中的参数gamma设置为1/n(n为训练集的样本数量),惩罚系数C设置为1.0;在TSVM分类器中,折中参数Cl、Cu分别设置为1.5、0.001,惩罚系数C设置为0.5;验证集筛选出与AD疾病相关性较高的脑区数量k为5。每个二分类实验均采用5折交叉验证的方法对表1中提到的数据来划分训练集和测试集,即每个二分类实验都会训练5次,5次实验的平均分类准确率用于评估模型整体的性能。

4.4.2方法对比实验 在方法对比实验中,本研究模型与另外两种AD早期诊断方法进行比较,以此来说明本研究模型的优越性。详细实验结果,见表3。

表3 “方法对比”-准确率对比

表3中2D CNN代表文献[6]所提出的使用单轴切片训练2D CNN并集成的诊断模型;2D CNN+Kendal代表文献[18]中提出的基于体素的两阶段特征提取的阿尔茨海默症识别方法;Kendall+Attention+Ensemble代表本研究识别模型,其在基分类器中融合了非线性直映式注意力机制、使用Kendall筛选并保留50个特征数据、使用基于高斯径向基核技巧的SVM分类算法。Kendall+Attention+TSVM+Ensemble表示利用TSVM优化本研究模型中的基分类器的对照组实验。

本研究模型与文献[6]所提出的2D CNN模型相比:在三个二分类实验中的分类准确率分别比2D CNN的实验结果提高了13%、27%、4%。本研究模型并未人为挑选感兴趣区域,而是利用AAL脑模板对MRI图像进行空间划分。虽然每个基分类器都只利用MRI图像中的部分信息,但90个基分类器组合在一起利用了整个MRI图像的信息;且本研究模型可以通过验证集的准确率挑选出与AD疾病相关性较高的前k个脑区;也可以使用优化算法挑选出差异较大的k个脑区,通过优化脑区之间的组合问题从而摆脱已有经验的束缚。而文献[6]则人为地选取一张经过海马体的切片训练CNN模型,并未充分利用受试者的三维MRI图像信息,从而影响分类效果。

本研究模型与文献[18]所提出的2D CNN+Kendall模型相比,在三个二分类实验中的分类准确率分别提高了11%、11%、4%。文献[18]在第一阶段利用Kendall特征选择算法提取出每个脑区的部分体素数据,并在第二阶段将其重新组织成受试者的脑组织特征图,输入到卷积神经网络中;两阶段特征提取的识别方法在一定程度上削弱了受试者大脑组织结构的空间联系,也增加了训练CNN模型的难度,使得每一折实验均需要人工进行精细化调参。而本研究模型将同一脑区中具有相同属性价值的体素数据组织在一起,考虑了同一脑区体素数据的空间联系以及不同脑区之间体素数据的差异;且相较于文献[18]更加能够降低高维度的数据特征对识别结果的影响。

在利用TSVM优化基分类器的实验中,通过有标签数据AD和HC训练出一个初始化SVM,并使用无标签数据MCI和HC(或MCI和AD)对超平面进行反复迭代微调。最终使得MCI vs HC和MCI vs AD两个二分类实验中的分类准确率分别比之前提高了1%,在提高识别精度的同时也维持了模型稳定性的优势。

4.4.3注意力融合对比实验 在方法对比实验组中,通过对比不同的AD识别模型来体现本研究模型的优越性,但尚未说明直映式注意力机制的作用。在注意力融合对比实验中,通过构造基分类器的过程中是否融合直映式注意力机制来对比,其详细实验结果见表4。

表4 “注意力融合”-准确率对比

表4中Pearson+Attention+SVM表示每个基分类器中融合了线性直映式注意力机制、使用Pearson进行特征选择、使用基于高斯径向基核技巧的SVM分类算法;而Pearson+SVM则表示没有融合线性直映式注意力机制的对比实验。同理,Kendall+Attention+SVM表示每个基分类器中融合了非线性直映式的注意力机制,而Kendall+SVM则表示没有融合非线性直映式注意力机制的对比实验。

由表4可知,在融合线性直映式注意力机制后,使得MCI vs AD二分类的准确率提升了3%,且其它两组二分类实验的标准差均变得略低一些。在融合非线性直映式注意力机制后,使得三组二分类实验的准确率分别提升了1%、1%、4%,且三组二分类实验的标准差分别减少了1/4、1/3、1/2。总体来看,本研究模型在构造基分类器的过程中融合直映式注意力机制后,能够增强脑区中对分类有帮助的相关特征,抑制脑区中对分类没有帮助的无关特征或冗余特征,从而提高识别模型的精度以及稳定性。

5 结论

本研究针对阿尔茨海默症的早期诊断识别问题,提出一种融合注意力机制的识别模型,该模型对硬件资源要求较低且具有较高的性能优势。其在融合本研究所提出的直映式注意力机制后,识别模型在准确率和稳定性方面均有不同程度的提高;在使用TSVM优化基分类器后再次提高了识别精度。对疾病的计算机辅助诊断具有一定的临床应用价值,但仍有不足。在今后的研究中,将继续对构建基分类器和集成学习融合方法进行改进,以期望进一步提高模型分类准确率和稳定性,并尝试寻找与AD疾病相关的生物标志物。

猜你喜欢
体素脑区分类器
瘦体素决定肥瘦
Dividing cubes算法在数控仿真中的应用
脑自发性神经振荡低频振幅表征脑功能网络静息态信息流
基于特征选择的SVM选择性集成学习方法
基于体素格尺度不变特征变换的快速点云配准方法
再不动脑, 真的会傻
基于深度优先随机森林分类器的目标检测
基于差异性测度的遥感自适应分类器选择
止咳药水滥用导致大脑结构异常
基于层次化分类器的遥感图像飞机目标检测