林 岚,金 悦,吴水才
(北京工业大学环境与生命学部生物医学工程系智能化生理测量与临床转化北京市国际科研合作基地,北京100124)
老化是一个渐进的、多因素的、有时间依赖性的过程,其表现为随年龄增长而导致的功能丧失及生理和心理损伤。在老化过程中,人的大脑结构会发生改变,包括脑萎缩、皮质变薄、白质连接减少[1]。增龄性的大脑结构和功能的变化会导致记忆和处理速度等认知能力下降[2-3],以及患阿尔茨海默病(Alzheimer’s disease,AD)等神经退行性疾病的风险增加[4]。老化可能受到环境、机械、生物化学和进化等复杂因素相互作用的影响。众所周知,老化会导致脑损伤的发生,但老年人的神经生物学老化轨迹差异较大,在空间和时间上具有异质性。许多神经影像学研究集中在开发潜在的脑老化标记物[5-7],例如利用MRI获得的大脑结构和功能特征,采用机器学习算法预测个体大脑的脑年龄(如图1所示)[8-9]。通过将脑年龄的预测值与生理年龄相减,可获得脑年龄估值差(brain age gap estimation,BrainAGE)。例如,一位75岁的老年人表现出BrainAGE+5岁,则他的大脑衰老程度与一位80岁的老年人相似。BrainAGE的个体差异与一系列认知、生物测量、健康状况和生活习惯等因素有关,包括心血管健康[10-11]、身体素质[12]、运动[13]等。与此同时,BrainAGE的数值也可反映患有AD[14]、艾滋病[15]、唐氏综合征[16]、癫痫[17]、外伤性脑损伤[18]、精神疾病[19]等疾病的患者与健康对照者之间的差异。
精准预测脑年龄能够优化BrainAGE,使其可以作为一种生物标志物。研究人员在研究中使用不同类型的机器学习模型来预测脑年龄,例如支持向量回归[20]、人工神经网络[6]、相关向量回归[8]以及高斯过程回归[18]等。前期课题组也从多模态角度对脑年龄预测模型的构建进行了详细的综述[21]。但是传统的机器学习方法是依靠人工进行特征提取,需要一定的先验知识,具有主观性。面对日益增长的神经影像数据,使用传统机器学习方法提取特征需要花费大量的时间和人力。作为机器学习领域的一个新兴研究方向,深度学习[22]受到人脑工作方式的启发,是一种利用深度神经网络求解特征表达的学习过程。传统机器学习模型在全年龄段进行脑年龄预测的误差一般为4~5 a。但是卷积神经网络(convolutional neural network,CNN)模型和海量神经影像数据的结合,可以大大提高模型预测的准确性,为其潜在的临床应用奠定基础。因此,本文根据CNN模型输入图像的不同,从二维切片、三维图像块与三维全脑图像3个方面概括基于CNN的脑年龄预测模型的一些典型研究成果,并从数据集、模型两方面探讨研究中存在的问题及今后的发展方向。
图1 脑年龄预测模型
CNN是一种基于生物感知机制的深度学习网络。该网络包括输入层、卷积层、池化层、全连接层和输出层,在图像处理领域取得了较好的效果。在神经影像领域中,输入图像基本可划分为二维切片、三维图像块与三维全脑图像。本文重点关注大脑老化方面,但也包括部分婴幼儿时期的脑年龄预测模型,因为在理论设计上,这些模型可以直接推广到更大的年龄范围之后再使用。在没有特别说明的情况下,输入图像中的MRI特指T1加权MRI,MRI图像一般都会采用线性配准与去头皮操作进行简单处理。
典型的CNN模型是一种二维图像处理模型,其在图像的分类、分割和识别方面已取得不少成果[23-24]。但是二维CNN模型一般无法直接应用于三维神经影像,因此,研究者们一般先从三维图像中提取一张或多张二维切片,随后使用二维CNN模型来预测脑年龄。
Lin等[25]以4个开放数据库的594名中老年受试者[年龄范围为50~90岁,平均年龄(67.80±9.19岁)]为研究对象。首先利用AlexNet对二维灰质密度图进行特征提取,然后采用三维特征融合、主成分分析降维和相关向量回归对脑年龄进行预测,五折交叉检验结果表明该模型预测脑年龄的平均绝对误差(mean absolute error,MAE)为4.51 a。该研究仅从横断面运用CNN进行了特征提取,后续的研究中研究者开始考虑从多方向进行特征提取。Rossi等[26]基于图像信息提取(information extraction of images,IXI)数据库中的561名[年龄范围为20~86岁,平均年龄(48.65±16.45)岁,训练集、验证集和测试集分别为447、56和58名]受试者,从横断面、矢状面和冠状面分别提取二维切片,并将3张连续切片转换成1张三通道图像。不同方向的三通道图像会根据其空间位置顺序被输入至3个已经预训练的经典CNN模型,进行相应的特征编码提取。再通过双向长短时记忆网络对特征进行融合,并进一步通过全连接层来进行脑年龄预测。该研究中经典CNN模型分别采用了VGG16、ResNet101和DenseNet121 3种结构,其中VGG16的结果最优,MAE为5.94 a。脑年龄预测的概念也被应用于描述大脑的发育过程。Shi等[27]将659名胎儿(胎龄22~39周)的T2加权MRI图像分为训练集(占70%)、验证集(占10%)和测试集(占20%)3组。基于注意力机制,建立了深度残差模型,模型包含3个不同的注意力模块,每个模块都包含一个主干分支和一个掩码分支。其中主干分支由多个残差瓶颈块组成,掩码分支实现特征增强。在胎儿的脑年龄预测中,以中央切片为输入图像的基于注意力机制的深度残差集成模型预测的MAE为0.767周。
二维切片的CNN模型处理过程中存在一定的空间信息损失,但是基于完整全脑三维影像的CNN模型对计算机显存与计算能力提出了更高的要求。所以基于三维图像块的处理技术成为一种折中选择。基于三维图像块的方法是指根据一定的准则从三维神经影像中提取一个或多个尺寸相同或不同的三维图像块作为网络输入。
Hong等[28]构建了一个基于三维图像块的CNN模型用于婴幼儿的脑年龄预测。试验对象为220名0~5岁的婴幼儿,其中训练集包含176名婴幼儿,其余为测试集。该研究基于12张二维MRI切片提取1个像素为128×116×12的图像块,构建的三维CNN模型与VGG的体系结构相似,包含7个3×3×3的卷积层。该模型预测脑年龄的MAE为67.6 d。当把数据转换为1张十二通道图像,输入层次结构一致的二维切片模型,发现模型脑年龄预测误差增加了约10%。在输入信息相同的情况下,三维图像块模型相对二维切片模型具有更好的性能。Dinsdale等[29]使用英国生物银行(UK biobank,UKB)的MRI数据集进行脑年龄预测,其中训练集包含12 802名受试者,测试集包含6 885名受试者,受试者年龄范围为44.6~80.6岁。为了减少计算量,从横断面等间隔降采样抽取了20张切片组成三维图像块。在VGG结构的设计框架下,三维CNN模型包含5个卷积块、12个3×3×3的卷积层。为了创建最终的网络,将3个CNN合并为一个集成网络。在线性配准时,集成网络模型对男性和女性脑年龄预测的MAE分别为3.09和2.87 a。在非线性配准时,集成网络模型对男性和女性脑年龄预测的MAE分别为2.91和2.71 a。随后对试验对象的BrainAGE和非图像衍生变量之间的关系进行了分析,结果表明,虽然非线性变换后得到的脑年龄预测模型误差较小,但是线性变换后得到的模型BrainAGE具有更好的可解释性。从某种意义上,非线性变换由于受到算法的驱动,会丢失一些与老化相关的细节,限制了其临床应用。
在传统的CNN体系结构中,模型由多个重复的卷积层、池化层组成,其代表分别为AlexNet和VGGNet。把传统的二维CNN模型设计模式推广到三维,是一种常用的设计方法。
Wang等[30]采用来自鹿特丹研究的数据用于脑年龄预测,数据被划分为训练集[3 688名受试者,平均年龄(66.09±10.76岁)]、验证集[1 099名受试者,平均年龄(64.84±9.69)岁]和测试集[550名受试者,平均年龄(64.85±10.82)岁]。该研究中使用的三维模型设计与AlexNet相似,包含8个三维卷积层、4个卷积块。其模型输入为三维灰质密度图,并将性别作为特征引入全连接层,使得模型能够较好地预测不同性别对象的年龄,预测的MAE为4.45 a。Cole等[31]使用14个开放数据库的2 001名对象来构建全年龄段数据集[年龄范围为18~90岁,平均年龄(36.95±18.12)岁]。该研究中使用基于深度学习的预测建模方法,其中三维模型的结构类型与VGG网络一致,包含5个3×3×3的卷积块。其根据灰质密度图、白质密度图、灰质和白质密度图与T1加权MRI图像分别构建4个CNN模型。对200名附加对象的测试结果显示,基于灰质密度图的CNN模型对脑年龄的预测结果最精确,MAE为4.16 a。Feng等[32]整理多个开放数据库(10 158张MRI图像来自6 142名受试者,年龄范围为18~97岁),通过年龄平衡技术构建数据集(2 852张MRI图像来自2 794名受试者,训练集占80%,验证集与测试集各占10%)。随后,训练了一个VGG结构的脑年龄预测模型,其预测的MAE为4.06 a。与此同时,发现三维模型与基于单一切片的二维模型相比,脑年龄预测误差减少了2 a左右。此外,灰质形态学的结构协方差研究表明,不同的结构网络呈现出与年龄有关的变化,但还不清楚这些变化对脑年龄预测的影响。Jiang等[33]基于5个开放数据库的1 454名年龄在18~90岁的健康受试者构建数据集,其中训练集包含1 303名、测试集包含151名。该研究把VGG-13模型从二维直接扩展到三维,并将试验对象的结构网络划分为额顶叶网络、背侧注意网络、默认模式网络等7个网络,输入对应的结构网络,构建了7个模型。其中,额顶叶网络、背侧注意网络、默认模式网络构建的模型脑年龄预测的MAE为5~6 a,其余网络构建的模型脑年龄预测的MAE大于8 a。该研究结果也体现了不同结构网络模型与年龄之间的相关性。
深度学习在利用神经影像学数据准确预测疾病方面具有很大潜力,但预测性能常常受到训练数据集的限制。最近1~2 a,研究人员进一步将神经影像大数据集建设与深度学习结合起来。Levakov等[34]综合15个开放数据集的10 176名受试者(4~94岁)的MRI图像,使用10个CNN模型通过集成训练对脑年龄进行预测。该研究中采用的模型为包含2个卷积块、4个3×3×3的卷积层的VGG结构,在测试集上该模型脑年龄预测的MAE为3.07 a。Peng等[35]设计的三维网络结构类似于VGG,使用MRI数据预测脑年龄。在建模过程中采用了数据扩充、预训练、模型正则化、模型集成和预测偏差校正等多种方法。该网络结构在UKB数据集上[共有14 503名受试者,年龄范围为44~80岁,平均年龄(52.7±7.5)岁,训练集包含12 949名]表现优异,脑年龄预测的MAE为2.14 a。
与传统架构相比,GoogLeNet、ResNet、DenseNet等通过对网络结构的优化获得性能提升。Pardakhti等[36]利用IXI数据集(试验对象为562名健康受试者,训练集包含400名、测试集包含162名),建立了基于ResNet的模型,包含5个卷积层,脑年龄预测的MAE为5.81 a。最近的一项研究[37]将21 382名UKB数据集中的受试者分为4组:训练组(n=3 067)、验证组(n=3 962)、健康测试组(n=2 057)和未选择测试人群(n=12 296),使用ResNet结构的三维CNN模型进行脑年龄预测,MAE为1.71 a。应用该模型对未选择测试人群进行研究,发现BrainAGE与心血管和代谢疾病及其危险因素、认知功能和身体活动之间存在显著的相关性。基于分层体系结构的模型可获得更好的预测性能。Liu等[38]设计了一个两级级联体系的网络结构,其中第一个网络预测离散化年龄范围,第二个网络则对脑年龄作进一步的预测。传统DenseNet连接前一层尺度相同的特征地图,该研究借鉴DenseNet的网络结构,采用比例密集块的结构,通过密集连接路径进行控制,利用池化方法将前几层不同尺度的特征图进行连接。另外,除了使用传统的均方误差外,该网络结构还采用了配对样本和批量样本2种新的等级损失来规范训练过程。与此同时,性别也被作为一种网络的输入特征,从而获得更准确的预测。最终的试验结果表明,多网络集成学习模型在多个开放数据库所组成的大型异构数据集中[6 586名试验对象,年龄范围为17~98岁,平均年龄(54.7±24.44)岁]脑年龄预测的MAE为2.43 a。
CNN和神经影像数据的结合为脑年龄预测领域带来了质的变化,脑年龄预测模型的MAE从2017年的4~5 a下降到2 a左右,使其进一步的临床应用成为可能[31,38]。但脑年龄预测研究中依旧存在一些需要注意的问题,以下将从数据集和模型2个方面对此进行探讨。
数据集是脑年龄预测模型的一个关键要素,这里数据集指模型中使用的训练集。首先,为了使基于CNN的脑年龄预测模型得到广泛应用,训练使用的数据集必须能够反映老化模式的多样性。神经影像数据集的样本数量往往相对较少,这会限制模型有效学习影像特征的能力,导致过度拟合的问题。为发挥深度学习算法的优势,研究者通常会采用2种方式来构造大数据集。一种是建立在多个开放数据源上的数据集[32,34,38],另一种是建立在像UKB这样的大数据集上[29,35,37]。2种方式各有优缺点,前者图像采集序列、设备、场强均存在不同,数据中含有的混杂变量较多,对模型精度和相关BrainAGE研究的有效性有一定影响。但是由于模型是在大量不同数据源的数据基础上训练而成,具有良好的泛化性能。后者采集方法统一,图像同质性高,减少了不必要的干扰,具有较高的模型精度。但该类模型在不同数据集间需要使用迁移学习重新训练。如Ren等[39]发现基于UKB大数据集训练的模型如果不进行迁移学习重新训练,就会表现得较差。
其次,需要考虑训练集中不同年龄段间对象分布的均匀性。算法模型一定程度会学习到训练集中对象的年龄分布,给预测结果带来偏差。Feng等[32]使用过采样和降采样技术平衡训练集的年龄分布,在同一年龄段的参与对象过少时,加入同一年龄段的随访跟踪图像;在同一年龄段的参与对象过多时,随机降采样数据。虽然平衡数据与不平衡数据在模型总体精度上没有显著差异,但是不平衡年龄训练模型的精度因年龄而异,样本数较多的年轻人误差更小,而样本数较少的老年人误差更大。对于年龄跨度较大、样本不均衡性较严重的研究,可能会产生潜在的偏差。
最后,根据科学问题的不同,脑年龄预测模型会使用完全健康的个体(无慢性疾病)或者该年龄段的典型个体(无神经退行性疾病)来构建模型。但这些个体中有可能包含无症状的神经退行性疾病早期患者,对模型预测造成影响。病理对象的排除需要受试者一段时间的跟踪随访数据,这种情况对数据集的质量,特别是多数据集合的质量提出了更高的要求。数据集的构建过程、样本均衡以及入组条件等都会对模型预测结果带来一定影响,构建模型时必须结合所要研究的科学问题来进行综合考虑和设计。
在过去的3 a中,研究者们提出了大量基于CNN的模型用来预测脑年龄。就模型的种类而言,绝大多数模型的设计都是基于VGG体系结构,可能是由多种因素造成的:(1)VGG结构非常简洁,整个网络由3×3×3的卷积层和2×2×2的池化层级联而成,通过多个3×3×3的级联可以有效地扩展感受野;(2)多数研究所使用数据集的数据量较小,难以对更复杂的模型进行有效训练;(3)与VGG相比,结构优化后的三维CNN模型具有更高的工程实现难度。所以优化的三维CNN模型设计和组合将成为今后一段时期内脑年龄预测模型的发展方向。正如集成学习在脑年龄预测中已被大量采用,未来研究人员可以尝试对多种不同网络结构或多种影像模态的网络进行集成学习。
模型精度是模型设计中直接考量的指标,对后续的临床分析起着关键作用。在早期的研究中,模型的MAE一般为4~5 a。但是神经影像数据与CNN的结合,已使模型脑年龄预测的MAE下降到了2 a左右,个性化诊断逐渐成为可能。在脑年龄预测模型误差较大的情况下,BrainAGE中包含大量的噪声信息,仅适用于群体分析。但是当脑年龄预测模型的误差为零时,对于同一年龄的个体,预测年龄相同,不能反映任何个性化的信息。所以当脑年龄预测模型误差较大时,减少模型误差是研究人员的首要任务。而当脑年龄预测模型的误差为1~2 a时,MAE已经不再是模型设计中需要考虑的唯一目标。MAE较小并不一定代表模型性能更优,更要考虑的是如何在减少误差的同时提高BrainAGE的生理可解释性。今后模型损失函数需要与BrainAGE相结合进行设计。
近年来,基于CNN的脑年龄预测模型有了质的进展,但不可否认的是,目前的研究在数据集和模型方面还存在一些有待解决的问题。随着基于CNN的脑年龄预测研究的不断深入,该类模型有望应用于神经退行性疾病的个性化诊断和治疗,具有很大的临床应用价值。