用于阿尔兹海默病辅助诊断的多流卷积神经网络

2022-10-11 03:00贾瑷玮刘芳宇

现代计算机 2022年15期

贾瑷玮，刘芳宇

（1.南华大学计算机学院医学信息工程系，衡阳 421001；2.上海大学计算机工程与科学学院，上海 200444）

关键字：阿尔兹海默病；多流卷积神经网络；特征融合；线性拼接

0 引言

近些年来医学技术不断发展，大脑成为医学研究的对象之一。阿尔兹海默症是一种神经系统退行性疾病，常见的症状主要是认知功能障碍。近些年来病例的数量在持续上升，并且常发生于老年人中。由于医学技术水平的限制，这种病并不能根治，只能通过有效预防来干预。根据国际阿尔兹海默病协会（ADI）最新发布的世界阿尔兹海默病报告显示，现在有超过5500万名阿尔兹海默病患者。预计到2050年，每33秒世界上就会增加一例病例，全世界将会有1.39亿人受到该病影响。随着人口老龄化加剧，能够提前发现并预防阿尔兹海默症具有重要现实意义。检测阿尔兹海默症的常见手段主要是心理学测量和医学影像学辅助，辅助工具有磁共振成像（MRI）、正电子发射层扫描（PET）等。磁共振成像可以提供疾病相关的局部或者区域特征，通过对这些特征的处理分析，我们可以将阿尔兹海默症患者与正常人区别开来。

1 相关工作

1.1 经典的深度模型

随着硬件条件的发展，越来越多的人尝试用整图卷积的方法来提高磁共振图像识别的准确率。卷积网络的卷积层间的堆叠方式、卷积核的大小和数量以及池化层的选择方式都会影响模型的性能。经典的卷积网络VGG13模型使用多个3×3×3的小卷积核的卷积层，能够获得不错的局部信息提取。但是随着普通3D卷积的堆叠，不能很好地把梯度反馈给网络层，模型的分类性能反而越来越弱，还容易产生梯度消失或者梯度爆炸等问题。He等提出了ResNet模型，可以解决梯度消失、爆炸等问题，而且所需要的参数量少。ResNet34模型引入了横跨层的快捷连接（shortcut connections）结构，将输入跨层连接到后面的网络层。在后向传播时使用了残差网络的思想，能够将低层的网络梯度上传给高层。

1.2 基于地标的深度多实例模型

常用的方法是自主预先将MRI图像划分成多个感兴趣区域（regions-of-interest,ROI），提取相关的区域特征后再使用分类器判别，但是在定义ROI和提取相关特征方面存在困难，需要专业的临床知识和大量的时间。Liu等提出的深度多实例模型（LDMIL）是一种多实例学习的学习方法，通过对多个地标定位的图像块捕捉进行建模，形成在整个图像级别表示的大脑结构。先对训练数据中的阿尔兹海默症患者和NC受试者作比较，用来导出AD的识别解剖标志，然后再提取以多个标志位置为中心的图像块。对每一个对应位置的块采用CNN模型进行端到端的分类，将MRI图像的局部和全局特征合并起来，获得受试者的全局表示。这是一种逐层的学习方法，通过对多个地标定位的图像块捕捉进行建模，然后形成在整个图像级别表示大脑的结构。

1.3 基于自注意机制的卷积神经网络

残差注意力网络（ResAttNet）结构可以拓展网络，提升分类性能，利用该模式可以在图像识别上取得更好的效果。Zhang等提出的三维可解释的残差自注意卷积神经网络（3DResAttNet），是使用少量参数增加神经网络深度来获得MRI图像的局部、全局和空间信息。自注意力机制可以专注于主要的区域，忽视非必要的区域，在原始残差模块的尾部添加了自注意力层，可以帮助模型更好地对全局信息进行处理分析。该模型采用3D CNN方法，将三个3×3×3的卷积层堆叠起来，对数据集使用3D过滤器来获得三维的低级特征。通过将这些特征组合起来获得高级特征，这是一种端到端的操作。

2 材料和方法

2.1 受试者和数据处理

本研究采用的数据集是来自100名正常和100名患病受试者的基线MR扫描图像。参照一些临床标准，如简易精神状态检查（MMSE）分数、蒙特利尔认知评价量表（MoCA）和临床痴呆评分（CDR）将这200名受试者分为两类：AD（阿尔茨海默病）和NC（正常对照）。表1是对两百位受试者的人口统计信息报告，呈现性别、年龄、体重和简易精神状态（MMSE）值等信息。

表1 受试者的人口统计学信息（平均值±标准差）

2.2 图像处理

对于受试者的MRI影像，首先对图像进行非均匀组织强度矫正，再对图像重新采样为1.5×1.5×1.5的立体像素。对校订后的图像采用SPM工具中的CAT12工具包完成剥离头骨的操作，并将影像分割成GM、WM、CSF三个部分。最后按照标准脑模版空间MNI（montreal neurological institute）配准，将分割好的图像统一大小为113×137×113。图1是第100例受试者的MRI结构核磁共振图像和GM、WM、CSF分割结果图像。

图1 第100例受试者冠状、矢状和轴向方向图示

2.3 提出的方法

本文采用的模型是针对卷积神经网络（convolutional neural network,CNN）结构模型改进后的多流卷积神经网络（multi-stream convolutional neural network,MSCNN）模型，同时对GM、WM、CSF三个特征进行提取。在提取的过程中，我们引入原MRI图像来防止信息丢失，即同时进行四路特征提取。卷积层由一系列固定尺度的卷积核组成，尺度为3×3×3，以宽度为1的窗口在原始图像上间隔滑动，用于计算不同的特征图。该模型含有9层卷积（即Conv1、Conv2、Conv3、Conv4、Conv5、Conv6、Conv7、Conv8和Conv9）和3个全连接层（即FC10、FC11和FC12）。经过每层卷积后特征图的通道数量为64、64、128、128、256、256、512、512、512。卷积层后紧跟着批量归一化层Batch-Norm3d（）和整流线性单元激活函数ReLU（），能够加快模型的训练过程。其中对Conv2、Conv4、Conv6、Conv7、Conv8和Conv9后进行Max-Pool3D最大池化操作，Conv9后的池化内核大小为2×2×3，其他层的池化内核大小都为2×2×2。通过多个卷积和池化的步骤后，特征图被展平成1×1×1的大小，再送入全连接层。全连接层含有神经单元的数量分别为512、256、2，将FC12的输出送到soft-max层，概率最大的类别即为本次的预测结果。

本文采用了两种融合方法对模型进行改进，分别是特征融合Fusion（）方法和线性拼接Cat（）方法，框架分别如图2和图3所示。特征融合方法是对Conv5的输出进行特征融合操作，我们定义了四个可学习的参数，将四路卷积的不同尺度特征加权汇总在一起作为Conv6的输入，再进行四层单路卷积送入全连接层；而线性拼接Cat（）方法则是对经过九层卷积展平后的特征图沿着通道Channel方向进行矢量拼接后再送入全连接层FC10，然后再输入到FC11。

图2 MSCNN-Fusion架构

图3 MSCNN-Cat架构

3 实验

3.1 实验比较

为了检验本文提出的模型的预测性能，本节设计了三个类型的实验：

实验一：将MSCNN模型与其他现有的处理MRI图像的四种方法进行比较研究。VGG13、ResNet34、ResAttNet34和LDMIL四种模型处理对象为MRI图像，MSCNN则对切割后的GM、WM、CSF和原MRI图像进行验证。所有实验均在Pytorch上构建和实现。

实验二：使用消融实验来检验各部分对预测结果的影响和有效性。我们设计比较了有和没有各个部分（即GM、WM、CSF和MRI）对MSCNN模型实验指标的影响，将缺失某部分模型的预测效果与原MSCNN模型进行比较。

实验三：对采用两种融合方法的模型进行实验比较。我们对MSCNN-Fusion和MSCNNCat两个模型进行实验，比较特征融合方法和线性拼接方法对预测的影响。

所有的实验均采用五折交叉验证的方法，学习率（LR）设置为1×10，将交叉熵（Cross Entropy）设置为损失函数，并且使用优化器Adam优化模型。

3.2 实验设置

该实验是针对AD和NC进行的二分类任务，我们采用七个指标来评判模型的性能，分别是准确性（ACC）、受试者工作特征曲线下面积（AUC）、召回率（Recall）、马修斯相关系数（MCC）、F1分数（F1-Score）、精确率（Precision）和ROC曲线。这些评判指标的定义如下：

其中FP、FN、TP和TN分别表示假阳性、假阴性、真阳性和真阴性。

3.3 实验结果

将所提出的MSCNN模型与其他四种模型进行了比较，对AD和NC分类的比较结果如表2所示。从表2可以看出，MSCNN的Accuracy、Precision等六项指标均高于其他四个模型，进一步表明了该模型的有效性。MSCNN模型对于AD的分类性能是波动的，但是相比于其他四种模型的波动更小。五种模型的ACC、AUC和ROC结果如图4所示。

图4 五种模型的ACC、AUC和ROC结果

表2 五种模型在AD分类任务的六个指标结果（平均值±标准偏差）

本文提出的方法是将整个MRI图像切割成GM、WM、CSF三部分输入，同时使用原MRI图像进行辅助处理。该实验研究了GM、WM、CSF和MRI四个部分对模型的影响，表3报告了这四个部分在分类任务上获得的ACC、Precision、Recall、AUC等指标值。从表3可知，MRI和GM对模型的Accuracy贡献都是29.41%，大于WM和CSF的贡献。MRI对AUC的贡献为35.35%，远远大于GM、WM和CSF的贡献。该实验的各种指标表明，将原MRI图像与切割后的三个部分（GM、WM和CSF）相结合有助于提高模型的预测性能，从而更好地进行AD的分类。不同模式影像对各参数的贡献如图5所示。

图5 不同模式影像对各参数的贡献

表3 五种模型在AD分类任务的六个指标结果（平均值±标准偏差）

表4 两种融合方法在AD分类任务的六个指标结果（平均值±标准偏差）

我们将两种方法对同一个数据集进行交叉验证。从中我们观察到两种方法的各项指标都很接近，但是MSCNN-Cat的四个指标ACC、Recall、F1-Score、MCC均优于MSCNN-Fusion的分数，说明分开独立卷积的模型参数量更大，计算开销也更高。

4 总结

本文根据卷积神经网络进行改进，将多流卷积神经网络与两种融合方法（Fusion和Cat）结合起来，用于AD和NC的分类。我们在五折交叉验证策略下进行了三个实验：①将MSCNN模型与其他现有的处理MRI图像的四种方法进行比较研究；②使用消融实验来检验各部分对预测结果的影响和有效性；③对采用两种融合方法的模型进行实验比较。实验表明，本文提出的模型优于现有的模型（VGG13、ResNet34、ResAttNet34和LDMIL），对于AD的诊断具有良好的性能。在未来，我们会基于该模型开发一个能够实现轻度认知障碍（MCI）和AD分类的模型框架。