骆 文,刘育青,劳钰钞,陆丽明,刘秀峰
阿尔茨海默病(Alzeimer’s disease,AD)是一种神经退行性疾病[1],是临床最常见的痴呆类型[2],有多个病程阶段,包括临床前阿尔茨海默病、早期轻度认知障碍(early mild cognitive impairment,EMCI)、轻度认知障碍(mild cognitive impairment,MCI)、晚期轻度认知障碍(late mild cognitive impairment,LMCI)、阿尔茨海默病相关痴呆。全球老龄化日益加剧,预计到2050 年全球65 岁及以上阿尔茨海默病患者的数量将达到1.52亿[1],给社会及患者家属带来极大的负担。轻度认知障碍以轻度的认知功能障碍和日常生活能力减退为特征,未达到痴呆的症状诊断标准[2]。但有学者对65 岁以上的轻度认知障碍患者进行随访,发现在2 年后发展为阿尔茨海默病的轻度认知障碍患者占15%[3],在5 年后发展为阿尔茨海默病的患者占32%[4]或38%[5]。研究结果显示,轻度认知障碍患者迅速转化为阿尔茨海默病的风险很高,若能通过简单的日常生活能力和日常认知能力初步筛查,发现可能的、存在潜在风险的轻度认知障碍甚至阿尔茨海默病患者,具有较高的临床意义。许多研究者也提出使用机器学习方法预测轻度认知障碍的转化。本文利用阿尔茨海默病相关患者的日常认知自我报告清单,基于BP(back propagation,BP)神经网络模型构建阿尔茨海默病不同病程的预测分类器并对预测分类器的性能进行评估,研究利用阿尔茨海默病患者认知诊断的分类器判断患者处于阿尔兹海默症哪一个阶段,为临床治疗提供依据;同时,尽早发现并诊治也可防止产生更多的阿尔茨海默病患者。若该分类器能普遍应用于市场还可以让老年人进行自测,从而能更早发现阿尔兹海默症,并防止病情恶化。
轻度认知障碍在医学上被认为是痴呆症的早期症状,有些轻度认知障碍患者会转为阿尔茨海默病,但也会有些患者保持稳定甚至出现逆转恢复到正常状态,前者被称为进展型轻度认知功能障碍(progressive mild cognitive impairment,P-MCI),后者被称为稳定型轻度认知功能障碍(stable mild cognitive impairment,S-MCI)。国内外许多研究者也提出使用机器学习方法预测轻度认知障碍的转化,如有学者利用MRI 数据的形态因子方法对49 名轻度认知障碍患者进行预测,其准确率为72.3%[6];有学者提出将多任务学习方法用于阿尔茨海默病的诊断,在43 名进展型轻度认知功能障碍P-MCI 和48 名S-MCI 患者的数据上进行实验,准确率达到73.9%[7];有学者提出用于辅助阿尔茨海默病诊断的增量学习分类方法,其中阿尔茨海默病和认知正常(normal cognition,NC)的分类准确率为82%,P-MCI 与S-MCI 的分类准确率是71%[8];有学者提出一种新的用于阿尔茨海默病分类的判別性稀疏学习方法,通过关系正则化项联合预测阿尔茨海默病的临床评分,并对阿尔茨海默病进行分类,其中轻度认知障碍与认知正常的分类准确率为80.32%,P-MCI 和S-MCI 的分类准确率为74.58%[9]。现有的研究侧重于使用不同的数据及采用不同的分类学习方法对病情阶段进行分类。与一般研究常用的影像数据不同,本文利用阿尔茨海默病相关患者的日常认知自我报告清单,基于BP神经网络模型构建阿尔茨海默病不同病程的预测分类器并评估预测分类器的性能。与其他文献方法比较,该方法准确率更高,诊断性能更好,具有精度高、泛化能力良好、稳定性好、易操作等优势。
阿尔茨海默病神经影像学计划(Alzheimer's Disease Neuroimaging Initiative,ADNI)是综合临床认知功能评价、神经影像学检查、脑脊液和血液分子生物学标志检测等多种方法,以阿尔茨海默病为研究对象,开展的多中心、跨学科纵向研究[10]。从研究计划开展以来,阿尔茨海默病神经影像学计划的参与者跨越了ADNI-1、ADNI-GO、ADNI-2、ADNI-3 等4 个阶段,目前正处于ADNI-3 阶段,每个阶段都会有新的志愿者加入参与调查。由于ADNI-1计划阶段未进行参与者日常认知自我报告清单的评估,因此本文只纳入了ADNI-GO、ADNI-2、ADNI-3 等3 个阶段参与者数据,访视期不限,参与者日常认知自我报告清单和当前诊断数据齐全即可作为有效数据,其中ADNI-GO 计划阶段的有效数据共有468 例,ADNI-2 计划阶段的有效数据共有4 486 例,ADNI-3 计划阶段的有效数据共有1 372 例。ADNI-GO 包含认知正常者、早期轻度认知障碍、轻度认知障碍、阿尔茨海默病4 种病程数据;ADNI-2 包含认知正常者、早期轻度认知障碍、轻度认知障碍、晚期轻度认知障碍、阿尔茨海默病5 种病程数据;ADNI-3 包含认知正常者、轻度认知障碍、阿尔茨海默病3 种病程数据。
参与者日常认知自我报告清单包括记忆、语言、定位、计划、条理、专注6 类,共40 个条目,各条目的计数资料编码赋值结果见表1。
表1 阿尔茨海默病相关参与者日常认知自我报告清单的条目赋值
BP 神经网络是一种按照误差逆向传播算法训练的多层前馈神经网络[11],其基本思想是梯度下降法,利用梯度搜索技术,以期使网络的实际输出值和期望输出值的误差均方差达到最小。如图1所示,BP 神经网络由输入层、隐含层、输出层3层构成,包含信号的正向传播和误差的反向传播2个过程[12]。正向传播时,输入信号通过隐含层作用于输出节点,经过非线性变换,产生输出信号,若实际输出与期望输出不相符,则转入误差的反向传播过程。误差反传是将输出误差通过隐含层向输入层逐层反传,并将误差分摊给各层所有单元,以从各层获得的误差信号作为调整各单元权值的依据。通过调整输入节点与隐含层节点的链接强度和隐含层节点与输出节点的链接强度及阈值,使误差沿梯度方向下降,经过反复学习训练,确定与最小误差相对应的网络参数,训练即告停止[13]。
图1 BP 神经网络
假设1 个BP 神经网络有R个节点,每一层的传递函数均选择Sigmoid 函数。a1i为隐含层节点i的输出;a2k为输出层节点K的输出;w1ij是节点i与节点j之间的权值;w2ki是节点i跟节点k之间的权值;b1i为隐含层节点i的阈值;b2i为输出层节点k的阈值。
BP 神经网络的主要实现步骤如下:
第一步:输入样本的正向传播,计算隐含层和输出层各神经元的输出值。
隐含层的第i个神经元的输出值的计算公式为:
输出层的第k个神经元的输出值的计算公式为:
第二步:输出误差的反向传播。
误差函数的计算公式为:
在输出层,从第i个输入直至第k个输出的权值的计算公式为:
其中,公式(4)中的γ为学习系数。
隐含层权值校正后,从第j个输入到第i个输出的权值的计算公式为:
第三步:循环记忆训练。为了进一步提高网络的精度,在不存在较大输出误差的情况下,对输入到BP 神经网络的样本进行循环记忆训练。
第四步:检验终止。完成循环记忆训练后,检查输出误差的大小,达到标准则终止循环过程,否则持续循环。
为了减少模型训练时间、提高收敛性能,在确定输入样本后,需要对数据进行标准化处理[14]。本文采用最值进行标准化,公式为:
在3 个计划阶段的样本集中,分别随机抽取70%的样本作为训练集(其中ADNI-GO 的数据为328 条、ADNI-2 的数据为3 140 条、ADNI-3 的数据为960 条),剩余的30%样本作为测试集(其中ADNI-GO 的数据为140 条、ADNI-2 的数据为1 346条、ADNI-3 的数据为412 条),可一定程度上评估模型的泛化能力。本文在训练集上使用网格搜索方法,设置十折交叉验证优化参数评估函数,确定最佳模型,将最佳模型应用到测试集上评估泛化能力。
本文运用了双隐含层BP 神经网络,表2 汇总了3 个阶段的训练中双隐含层不同网络节点数组合对应的模型准确率,通过对比分析,确定模型最高准确率对应的最佳节点数组合。ADNI-GO 阶段训练模型准确率最高时隐含层节点数为(98,126),ADNI-2 阶段训练模型准确率最高时隐含层节点数为(224,216),ADNI-GO 阶段训练模型准确率最高时隐含层节点数为(170,36)。
表2 不同隐含层网络结构的部分训练结果
图2 至图7 是3 个获取对应的BP 神经网络模型计算的迭代次数与训练准确率、测试准确率之间的关系,以及迭代次数与训练丢失率、测试丢失率之间的关系。整体上,准确率与迭代次数呈正比关系,丢失率与迭代次数呈反比关系。与ADNI-GO、ADNI-2 阶段相比,ADNI-3 阶段的准确率和丢失率在训练集和测试集之间的差异最大。
图2 ADNI-GO 阶段迭代次数对准确率的影响
图3 ADNI-GO 阶段迭代次数对丢失率的影响
图4 ADNI-2 迭代次数对准确率的影响
图5 ADNI-2 阶段迭代次数对丢失率的影响
图6 ADNI-3 阶段迭代次数对准确率的影响
图7 ADNI-3 阶段迭代次数对丢失率的影响
ADNI-GO 阶段训练模型的准确率最高,ADNI-2阶段的次之,ADNI-3 阶段的最低,而ADNI-GO 阶段的样本量最小。因此,模型的准确率并不是由样本量决定的。ADNI-3 阶段只有认知正常者、轻度认知障碍、阿尔茨海默病3 种类型的参与者,并没有区分早期轻度认知障碍或晚期轻度认知障碍患者,可能由于轻度认知障碍患者划分不够细致,导致ADNI-3 阶段训练模型的预测性能较差。
表2 的对比分析结果显示,模型的准确率并不是严格随着隐含层节点数的增加而提高。理论上来说,隐含层的节点数越多,对信息重构的损失越小;而节点数过少,在训练过程中可能丢失重要的特征信息。但是隐含层节点数过多,会导致模型的过拟合问题。BP 神经网络的学习能力会随着隐含层节点数的增加而增加,但学习能力变强一定程度上会导致模型将数据中的噪声一并训练,噪声可能将某些有效信息湮没,反而降低测试准确率。因此,要综合考量训练模型和测试模型的性能确定BP 神经网络的参数。
图2 至图7 显示,模型准确率会随着迭代次数的增加而提升,但到了一定迭代次数之后模型准确率将停止提升。理论上认为迭代次数越多学习的程度更高,但迭代次数过多会消耗大量的时间和存储空间,反而降低模型性能。相比于ADNI-GO 和ADNI-2 阶段,ADNI-3 阶段的训练集和测试集的准确率和丢失率的差异都较大,即训练准确率最高,而测试准确率最低,说明该模型出现了过拟合及泛化能力低下的问题。ADNI-3 阶段的轻度认知障碍患者并没有区分早期轻度认知障碍或晚期轻度认知障碍患者,由于早期和晚期症状的延续性和存在相似性导致划分不细致,因此可能分类不灵敏。阿尔茨海默病相关患者的病程划分越细致,越能在早期准确地被识别出来。
本文利用阿尔茨海默病相关患者的日常认知自我报告清单,基于BP 神经网络模型构建阿尔茨海默病不同病程的预测分类器。实验结果显示,ADNI-GO和ADNI-2计划阶段的训练模型均能达到90%的分类准确率,且具有精度高、泛化能力良好、稳定性好、易操作等优势。因此,利用患者当前日常认知自我报告清单可以准确预测分类患者的病程阶段,有利于患者尽快进一步检查或治疗,具有一定的临床价值。