基于3D 卷积神经网络的阿尔茨海默症及轻度认知功能障碍诊断

2021-05-28 06:04王聪袁榕澳李川

现代计算机 2021年11期

王聪，袁榕澳，李川

（四川大学计算机学院，成都610065）

1 背景

阿尔茨海默病（AD）是一种起病隐匿的进行性发展的神经系统退行性疾病，主要病理体现为进行性脑细胞死亡和脑体积缩小[1]，目前尚无有效的治疗方法。一旦患病，无法逆转。轻度认知功能障碍（MCI）是介于正常对照组（CN）和AD 之间的一种中间状态，患者存在轻度认知功能减退，但日常能力没有受到明显影响。常常有大量的患者在这个阶段接受一定的干预措施，避免发展成为不可逆的老年痴呆（AD）。因此对于AD 和MCI 的及时准确的诊断具有重要的意义。

目前大量阿尔茨海默病的诊断依赖医师的主观诊断，医师通过与患者的交谈观察等填写一些评估量表，这个过程耗费大量的精力与时间，而且与医师的状态和专业能力具有较大关联程度。神经影像学技术目前已广泛用于AD 和MCI 的生物标志物的寻找，如磁共振成像（MRI）可以扫描人脑图像[2]，以便跟踪大脑结构的变化以及AD 病理学中神经变性方面不可避免的萎缩[3]。因此有大量的研究基于患者的MRI 图像，使用机器学习等算法对患者脑图像进行诊断识别，然而传统机器学习的输入数据常常是需要人为地提取MRI 图像特征，以此减小特征的维度来适应机器学习算法的训练拟合。而目前深度学习在图像识别领域上的成功，给AD 图像等诊断带来有前景的希望。

本文采用患者的全脑MRI 图像，进行一定的预处理后，设计一个3D 卷积神经网络[4]架构来对患者进行诊断。在两个分类实验AD vs.CN 和AD vs.MCI 上获得了较高的识别准确率。有望成为AD 与MCI 自动诊断的有力辅助工具。

2 数据与预处理

2.1 数据集

本文中使用的数据全部来自阿尔茨海默氏症神经影像计划（ADNI）数据库（adni.loni.usc.edu）。ADNI 研究人员收集、验证和利用数据，包括MRI 和正电子发射型计算机断层显像（PET）图像、遗传学、认知测试、脑脊液和血液生物标记物作为疾病的预测因子。在这里，我们倾向于使用非侵入性和广泛可用的数据来作为我们预测模型的输入，因此选择了ADNI 参与者的T1 加权MRI 图像。图像采集系统为GE-Medical Systems，扫描仪的磁场强度为3T。考虑到被试者的纵向检查数据同样具有AD 和MCI 患者的有效和有用的信息。因此，对46 例AD 患者、121 例MRI 患者和58 例正常人（CN）进行纵向时间点采集，分别获得148 例、500例、233 例MRI 图像样本。

2.2 数据预处理

由于原始三维图像的高维性和相对稀疏的医学数据，使得深度学习算法难以训练和收敛。因此需要对所有的图像进行预处理，以便将样本的所有脑图像统一到一个坐标空间中，筛除掉多余的部分，如头骨、眼球、小脑等。在这里，我们设计了一个严格的图像数据预处理流水线，如图1 所示。

MRI 预处理：

（1）使用MRIcron 软件将数字成像和医学通信（DICOM）格式的数据转换为神经成像信息技术倡议（NIfTI）格式，从而生成重定向的图像。

（2）使用大脑提取算法（BET）进行大脑提取。

（3）将大脑图像配准到标准蒙特利尔神经研究所（MNI）大脑模板MNI152_T1_1mm_brain。

（4）去除小脑部位体素。

（5）去除多余黑色体素块，进一步减少维度。

经过以上预处理后，所有MRI 图像具有相同的140×180×150 体素分辨率。以上所有步骤通过使用MRIcron 与FSL 软件库完成的[5]。

图1 MRI数据预处理步骤

3 模型构建

传统手工设计的图像特征往往会损失大量可用的信息，例如较多的研究仅仅基于大脑图像中某些感兴趣区域，如海马体、颞叶、扣带回等区域，抛弃了大量其他脑部信息。因此诊断结果的好坏往往取决于手工选择特征的优劣。而目前深度学习卷积神经网络在图像领域上的应用使得识别等结果大大提升，优点在于无需人为地去提取特征，建立多层卷积模型，直接输入原始图像像素，由网络逐层自动学习最优特征。

目前大多数卷积神经网络都是二维卷积结构，仅仅用于提取图像的二维平面特征，在大多数的图像任务中已经完全足够了，但MRI 脑图像为三维图像，若采用二维卷积，则只能针对某个切片来进行识别。因此基于以上特点，为了保留三维空间的特征，我们设计了适合三维图像的三维卷积结构，不仅提取图像的平面特征，还提取三维空间的立体特征。

3.1 3D卷积块

3D 卷积神经网络同2D 卷积类似，都是逐层提取图像特征，每层减小特征图的尺寸的同时，增加特征图的个数，以此避免信息的损失，而特征也从像素特征转化为语义特征，像素特征往往人眼还能分辨，但语义特征就相对更加地抽象。将低层像素特征转化到高层语义特征的过程极大减少了特征的维度，然后使用分类器对其语义特征分类。因此卷积层的结构极大影响了特征提取的好坏，我们设计针对三维图像的特征提取卷积块作为单元，如图2。它由三个操作组成：3D 卷积、批量正则化、ReLU 激活函数

图2 3D卷积块，K表示该层的卷积核个数

3.2 网络架构

我们的CNN 网络架构如图3 所示。MRI 的输入大小均为140×180×150，然后通过3D 卷积块组成的网络架构实现特征提取。特征提取网络由三个卷积块串联而成，最终输出高层特征图。将MRI 特征图展平后作为全连接层的输入，全连接神经网络有一个隐藏层，结点数为100，最后用sigmoid 函数作为输出层分类。

图3 基于3D卷积神经网络结构图

在我们的实现中，所有卷积核的大小为3×3×3，步长为2×2×2，padding 为SAME，三个卷积层的卷积核数分别设置为16、32、64。所有池层的大小设置为3×3×3，步长大小为2×2×2。全连接层节点数分别为100、2。所有层均采用ReLu 函数作为非线性激活函数。

3.3 网络学习

在深度学习算法的参数学习中，通常使用反向传播（BP）算法，这是一种适合于多层神经网络的学习算法，建立在梯度下降法的基础上。BP 算法的学习过程由正向传播过程和反向传播过程组成。在正向传播过程中，输入信息通过输入层经中间卷积层，逐层计算并传向输出层。如果在输出层得不到期望的输出值，则计算输出与标签的某种误差作为目标函数，在分类问题中，常常使用交叉熵损失函数作为目标函数，在反向传播时，需要逐层求出目标函数对邻近层的梯度，计算出每层的误差，最后更新权重。

4 实验与评估

4.1 实验配置

由于数据量相对较少，为了避免随机因素对预测结果的影响，训练和测试过程采用5 倍交叉验证。并且为了保证每份数据集中的各类别的样本数量具有相同的分布比例，我们采用分层抽样。所提出的算法是用Google 的开源TensorFlow 框架实现的，TensorFlow框架也是世界上使用最广泛的用于深度学习的开源框架。所有的计算都是在一台装有GPU NVIDIA GTX1080 的服务器上进行的。三维卷积核和全连接权值参数用截断正态分布随机数初始化，标准偏差为0.1。Adam 优化算法[6]用于最小化交叉熵损失。学习率为0.001，batchsize 大小为16，迭代次数为300。

4.2 评估标准

为了比较和评估分类器的性能，每次计算出测试集样本的混淆矩阵，如图4，混淆矩阵表示了样本的分类结果和实际测得值之间的误差。通过混淆矩阵可以计算各种评估指标，如医学领域由于正负样本数量分布不均而常用的准确率（ACC）、灵敏度（SEN）、特异性（SPE）等指标。灵敏度即实际正类而被预测为正类的概率，特异度即实际负类而被预测为负类的概率。所以灵敏度高可认为漏诊率低，特异性高可认为误诊率低，理想情况是希望两者都很高。

图4

5 结果与讨论

我们一共进行了两个分类实验，分别为AD vs.CN和AD vs.MCI，结果汇总如表1。AD 与CN 的分类平均准确率达到95%，标准差也在3%以内，说明我们构建的模型有效的分类。而AD 与MCI 的平均准确率为85%，这个任务稍低的原因在于，MCI 作为CN 与AD的过渡状态，在大脑组织变化上已经有了很大的区分，因此相对来说更难将其分开。

表1 提出的CNN 模型对AD vs.CN 和AD vs.MCI 分类的预测结果

通过绘制模型五倍交叉验证的ROC 曲线，显示于图5，计算得到AUC 分别达到0.983 和0.966，ROC 曲线有一个巨大的优势就是，当正负样本的分布发生变化时，其形状能够基本保持不变，而P-R 曲线的形状一般会发生剧烈的变化，因此该评估指标能降低不同测试集带来的干扰，更加客观地衡量模型本身的性能。

图5

6 结语

通过构建适合三维脑图像数据的3D 卷积神经网络模型，对AD 与CN，AD 与MCI 两个分类任务均有不错的诊断性能，经过五倍交叉验证，AD vs CN 模型的平均准确率达到96.8%，模型AUC 值达到0.983。对于AD vs MCI 这个相对较难的分类，使用同样的网络架构仍然有较高的准确率94.7%，AUC 值为0.966。说明该3D 卷积结构具有较好的特征提取能力，有望成为AD、MCI 的自动诊断工具。