熊 敏,林 岚,金 悦,吴水才
(北京工业大学环境与生命学部生物医学工程系,北京100124)
随着世界人口的老龄化程度和痴呆症发病率的不断上升,异常脑老化须及早发现、预防和治疗。与正常脑老化轨迹的偏离程度被认为是界定病理性大脑老化的一个重要指标。使用机器学习技术,根据神经影像数据,可以推断一个受试者的大脑年龄[1-3]。当预测脑年龄低于受试者的实际年龄时,受试者的大脑会比同龄人更年轻。这就意味着,该受试者的大脑能更好地应对疾病和神经退行带来的脑损伤。如果预测的大脑年龄高于实际年龄,说明大脑处于老化加速状态。因此,研究者们进一步提出了脑年龄估值差(brain age gap estimation,BrainAGE)指标[2]来评价大脑老化的程度。BrainAGE 是预测的大脑年龄和实际年龄之间的差值。通过对疾病情况下的BrainAGE研究,发现多种脑部疾病,如阿尔茨海默病(Alzheimer’s disease,AD)和轻度认知障碍[3]、创伤性脑损伤[4]、癫痫[5]、多发性硬化症[6],以及精神疾病,如精神分裂症[7]、双相情感障碍[8]和主要抑郁障碍[9]都进一步加速大脑老化。
BrainAGE 不仅可以反映神经系统方面的疾病,对于认知能力正常的中老年个体,其整个生命过程中所遭受的慢性疾病侵扰,以及其长期生活习惯等都会在大脑形态与功能中留下痕迹,并对BrainAGE 产生影响[10],如长期高血压会引发脑部结构、功能、代谢等改变,进而导致脑损伤[11]。2 项基于白质连接网络的BraninAGE 研究[12-13]显示,高血压患者的BrainAGE比正常对照组平均高4.1 年和5.6 年。Franke 等[14]基于T1WI 构建的脑年龄预测模型发现,糖尿病患者的大脑年龄比实际生理年龄平均高4.6年,较高水平的BrainAGE 对应较长的糖尿病病程。最近一项基于T1WI 的研究[15]显示,糖尿病会加速大脑衰老过程,糖尿病组的BrainAGE 平均为1.79 年。高血脂对中老年人心脑血管的健康也有一定影响。林岚等[16]研究发现健康受试者的BrainAGE 与体质量、身体质量指数之间有着显著的相关性。除了慢性疾病之外,多项基于英国生物银行(UK Biobank,UKB)的BrainAGE 研究[17-19]也显示,BrainAGE 的增加与较高的烟草使用频率和酒精摄入有关。其中,Linli 等[19]研究发现,吸烟人群的BrainAGE 高于对照组,BrainAGE 平均为0.304 年;吸烟量的增加与BrainAGE 的升高有关,重度吸烟人群的BrainAGE 平均为1.19 年。
上述研究结果表明,身体健康状态和长期生活习惯可能是大脑年龄相关结构差异存在较大个体间差异性的原因之一。在现实生活中,个人可能会同时患有多种慢性疾病,同时具有多种生活方式。例如:相关研究发现[20-21],大约有70%的糖尿病患者同时也患有高血压。Reaven[22]发现不少患者同时患有高血脂、高血压、高血糖这3 种临床疾病,并将高血糖中的胰岛素抵抗、高胰岛素血症、糖耐量异常以及高血脂中的高甘油三酯血症和高血压统称为代谢综合征。大多数BrainAGE 研究只关注单一健康状态或生活方式对BrainAGE 的影响[11-16]。随着UKB 等大型生物数据库的兴起,研究者们也开始采用一元回归分析研究较为广泛的健康状态或生活方式与BrainAGE 间的关系[17]。但这种单一因素的分析方式会导致BrainAGE的定量分析结果可能存在一定偏差。本文采用UKB中27 842 例受试者的6 种不同类型MRI[T1WI、弥散加权成像(diffusion-weighted imaging,DWI)、磁敏感加权成像(susceptibility-weighted imaging,SWI)、T2WI、静息态功能成像(resting-state fMRI,rsfMRI)和任务态功能成像(task fMRI,tfMRI)]数据构建结构和功能特征集,采用相关向量回归(relevance vector regression,RVR)计算大脑年龄,将获得的BrainAGE 与大量的非影像衍生记物(non-imaging derived phenotypes,Non-IDPs)数据结合进行回归分析,以探究这些Non-IDPs 与BrainAGE 间的关系。
UKB 是一项基于人口的前瞻性研究项目,涉及了500 000 多名中年和老年受试者(https://www.ukbiobank.ac.uk)。UKB 项目获得了西北多中心研究伦理委员会的伦理批准,本研究获得了UKB 的认可。根据国际疾病分类第十次修订版(The International Classification of Diseases 10th Revision,ICD-10),对患有神经或精神疾病的患者进行了排除。在剩下的388 721 例受试者中挑选出同时接受过6 种大脑影像采集模态的个体(其中T1WI 包含Freesurfer 处理和FSL 处理的2 个特征集),共有27 842 例受试者被纳入研究。
所选样本按约1∶1 的比例随机分为训练集和测试集。训练集、测试集以及总样本的人口统计学信息见表1。
表1 人口统计学信息
本文采用UKB 基于6 种影像模态所创建的IDPs[23]。表2 提供了关于IDPs 定义的简要总结,来自6 种模态的IDPs 被分为7 个特征集。
表2 IDPs 描述
在数据采集过程中,UKB 项目参与者需要填写1 份触摸屏问卷,参与口头访谈,并接受一系列的身体测试,以提供社会人口、生活方式和健康相关等方面信息。其中,4 种类型的Non-IDPs(招募、触摸屏、口头访谈和身体测量)在研究中被采用,见表3,共包含814 个Non-IDPs。随后,采用UKB 数据清洗软件(https://git.fmrib.ox.ac.uk/fsl/funpack)对UKB 中的Non-IDPs 数据进行数据清洗,如果受访者没有回答特定的问题,或者Non-IDPs 的值异常,则Non-IDPs的值被设定为空。然后,再将部分无序变量重新编码为有序变量,其中25 个具有多种分类的Non-IDPs 无法重新编码为有序变量被去除。所有缺失数据超过20%的Non-IDPs 都被剔除,共保留223 个Non-IDPs。当缺失值少于20%时,采用该变量的平均值进行填充。最后,结合BrainAGE 进行统计分析。
表3 Non-IDPs 描述
RVR 是一种基于贝叶斯推理的一般线性模型[24]。它避免了支持向量机的主要局限性,比如要求核函数为正定核等。因此,RVR 通常会产生更加稀疏的模型,从而使得在测试集上的速度更快,计算成本更低。在脑年龄预测模型中,RVR 受到了研究者们的青睐,已经成为最广为使用的脑年龄预测模型[25-27]。从模型稳健性角度考虑,本研究中采用了线性核的RVR 进行脑年龄预测研究,受试者的实际年龄被四舍五入到最近的整月,将不同特征的集合作为模型的输入,实际年龄作为模型的输出标签。预测的脑年龄和实际年龄之间的差值即为BrainAGE,计算公式如下:
但是,由回归模型得到的脑年龄预测结果必然会受到“均值回归”的影响[28],这导致对大脑年龄的有偏估计,即高估了年轻人的大脑年龄,低估了老年人的大脑年龄。因此,采用年龄偏差校正方法对年龄偏差进行校正[29],具体计算公式如下:
式中,α 和β 为训练集中实际年龄与BrainAGE 之间回归线的斜率和截距。将公式(2)应用于测试集,得到校正后的脑年龄即为预测的脑年龄校正。再将其运用到公式(1)即能得到经偏差校正后的BrainAGE。
为了评估所选Non-IDPs 与经偏差校正后的BrainAGE 之间的关系,采用SPSS 26.0 软件进行统计学分析。首先,将BrainAGE 与223 个Non-IDPs 进行皮尔逊相关分析,并将得到的P值通过控制错误发现率(false discovery rate,FDR)调整其阈值以校正多重比较所致的假阳性率(P<0.05)。随后,通过相关系数r值进一步选择对BrainAGE 具有较高解释性的Non-IDPs(r2≥2.5‰)。最后,将年龄、年龄的平方、性别、身高、体积比例因子和头动距离作为协变量,经偏差校正后的BrainAGE 作为因变量,经FDR 校正后P值以及r值选择后的Non-IDPs 作为自变量,用方差膨胀因子(variance inflation factor,VIF)对这些Non-IDPs 进行多元共线性分析。VIF≥10 表明变量之间具有多重共线性,将VIF<10 的Non-IDPs 保留进行多元线性回归分析。
利用RVR 模型对单模态和多模态脑成像特征进行预测,其中多模态模型是6 种模态共7 种特征的融合模型。采用平均绝对误差(mean absolute error,MAE)进行模型评价。在单模态的预测效果中,以Freesurfer 为基础的特征集表现最好,MAE 达到3.149年;DWI 特征集次之,为3.682 年;基于FSL 的特征集为3.947 年;rsfMRI、T2WI 和tfMRI 的MAE 较大,分别为5.279、5.301 和5.953 年;基于SWI 的特征集表现最差,为6.267 年。多模态的预测结果优于任意一种单模态的预测结果,为2.767 年。经过脑年龄偏差校正后的MAE 为2.476 年,表明脑年龄偏差得到了较好的校正。
采用FDR 校正控制假阳性率(P≤0.05)后,共发现有105 个Non-IDPs 与BrainAGE 间存在显著相关。随后,再采用r值基于相关性强弱(|r|>0.05)对Non-IDPs 进行选择,共保留9 个Non-IDPs。VIF(VIF<10)显示9 个IDPs 间不存在共线性。最后,进行多元线性回归分析,自变量P值显著(P<0.05)的Non-IDPs共有6 个,分别为服用治疗药物的数量、全谷物摄入量、糖尿病诊断、收缩压、心室率以及吸烟状况。被去除的3 个Non-IDPs 分别是过去的吸烟状况、舒张压以及整体的健康评估。结果见表4。
表4 影响大脑老化的Non-IDPs
虽然所有的影像模态都具有预测大脑衰老的能力,但它们的预测效果并不相同。T1WI 和DWI 被认为是预测脑年龄最好的影像模态。本文发现灰质形态和白质微结构的变化,特别是皮质厚度的测量,是最关键的预测大脑老化的成像特征。之所以会出现这种情况,存在2 个方面原因:(1)临床和神经病理学研究表明,老年人的认知障碍通常与脑萎缩和髓磷脂降解有关[30-31]。(2)与其他影像模态相比,T1W(In=1 436)和DW(In=675)有更多的IDPs,具有更丰富的特征表达。其他4 种模态只能解释少量的年龄差异,特别是SWI 和tfMRI。同时,本文的研究也表明,多模态的预测效果要好于任一单模态预测效果。
根据神经认知的种子和土壤模型[32],只有在受到不良的神经环境(土壤)影响时,神经细胞的死亡和神经纤维缠结等病理过程(种子)才会逐渐发展为认知功能障碍。不良的神经环境可能是伴随着正常衰老而出现的各种慢性疾病,如糖尿病、高血压等,也可能是不良的生活习惯,如抽烟、酗酒等。目前大量研究都集中在单一健康状态和生活方式对BrainAGE 的影响上。但是,一种特定的健康状态和生活方式往往只能解释个体大脑老化过程中的一部分差异,它们以多维的方式对脑老化过程产生影响。因此,同时研究不同的健康状态和生活方式对BrainAGE 的影响是非常必要的。本研究运用RVR模型,基于27 842 名受试者的6 种模态7 种特征集共2 218 个IDPs 进行脑年龄预测,并分析了一系列的Non-IDPs 与BrainAGE 间的关联。
研究发现,加速脑老化具有健康状况和生活方式依赖性,健康状态和生活习惯越糟糕,BrainAGE得分越高,大脑也表现得越老。长期的高血压会引起脑部结构、功能和代谢的改变,进而导致脑损伤[11,33]。Cherbuin 等[34]发现收缩压每增加10 mmHg(1 mmHg=133.32 Pa),BrainAGE 就增加51.1 d。本文的研究结果显示,收缩压每增加10 mmHg,BrainAGE 就增加32.9 d。这表明,收缩压的上升会影响脑老化进程。糖尿病慢性脑病变包括形态学、神经电生理和脑血流等方面的改变[35]。年龄和2 型糖尿病对大脑的影响可能都会导致老年2 型糖尿病患者的认知缺陷[36]。根据Franke 等[14]的研究,糖尿病患者具有较高的BrainAGE(4.6 年)。本文的研究结果也表明糖尿病患者的BrainAGE 会比未患糖尿病的中老年个体平均高0.53 年。保持良好的生活习惯可延缓大脑退化[37]。良好的生活习惯包括不吸烟、不酗酒,远离“垃圾”食品,经常运动等[38]。吸烟会减少大脑区域灰质体积[39],改变大脑半球水平动态功能连接密度[40],导致大脑功能网络的异常[41]。Bittner 等[42]发现,男性的包年数(每天吸烟盒数×吸烟年数)每上升1 个单位,其BrainAGE 就会增加0.55 个月,而女性的包年数每上升1 个单位,其BrainAGE 则会增加0.56 个月。本文关于吸烟的结果分析显示,在整个生命周期中都吸烟的人,其BrainAGE 比从不吸烟的人高0.43 年。而以前吸烟现在已经戒烟的人,他们的BrainAGE 比从来不吸烟的人高0.22 年。吸烟与大脑老化之间联系的潜在机制还不明确。吸烟会引起动脉粥样硬化,这可能会加速大脑衰老过程。对于中老年人,在患有慢性疾病的情况下,会服用药物对慢性疾病进行治疗。服用治疗药物数量可以视为一个简单的风险分层工具,对中老年人的健康状态进行度量。本文的研究结果显示,受试者服用药物的数量每增加1 种,BrainAGE 就增加21.2 d。心房颤动是一种常见的心率失常[43],通常表现为不规则且较快的心率。有研究报道,心室率控制是心房颤动的重要治疗方案[44]。本文的研究结果显示,受试者心室每分钟多搏动10 次,BrainAGE 就增加40.2 d。
除了上述加速脑老化的因素外,全谷物摄入量被发现是延缓大脑老化的因素。全谷物食品是指以全谷物等为原料加工而成的各种食品,其能更好地保留谷物中的膳食纤维、蛋白质、B 族维生素、维生素E、抗氧化营养素等,具有潜在的健康益处。根据Kang等[45]的研究,全谷物食物的摄入量与大脑灰质的总体积以及大多数认知功能间均存在正向的联系。此外,Smith 等[46]也发现全谷物摄入量和BrainAGE 之间存在负向关系。本文的研究结果表明,受试者每星期多摄入1 碗全谷物,其BrainAGE 就会下降15.3 d。
从上述结果可以发现,同时研究不同的健康状态和生活方式对BrainAGE 的影响,所发现的影响程度与前人研究[14-15,19,34](见表5)相比一般偏小。造成上述结果的原因有2 个:一是本文中采用了海量的数据和多模态影像,使得预测结果更为准确。BrainAGE中所包含的方差较前期研究小,因此单一因素对BrainAGE 的影响程度会相对较小。二是前期研究中一般仅分析单一健康状态和生活方式对BrainAGE的影响,而忽视了该因素与其他因素之间的关联,从而导致该因素对BrainAGE 的影响存在过估计。本文和前人研究关于6 个Non-IDPs 对BrainAGE 的影响见表5。因此,健康状态和生活方式对BrainAGE的影响的定量分析,应同时研究不同的健康状态和生活方式。
表5 不同研究方法中Non-IDPs 对BrainAGE 的影响程度对比
本文在年龄范围宽泛的大样本数据集上,以多维的方式对BrainAGE 这种脑影像生物标记物进行研究。脑年龄预测模型是BrainAGE 分析的基础。一个优秀的脑年龄预测模型应包含尽可能多的与年龄相关的影像特征,本文的多模态脑年龄预测模型效果好于任一单模态的预测效果。基于多模态影像大数据,RVR 模型的预测效果(MAE=2.767 年)优于近期报道的一些脑年龄预测模型[27,47-49](MAE 范围为3.11~5.77 年)。通过多元线性回归,发现6 个反映个体健康和生活方式的因素与BrainAGE 之间存在显著关联,但影响程度与前期研究相比一般偏小。本文研究表明,在一组认知能力正常的中老年人中,不同的健康状态和生活习惯导致了大脑衰老的差异。本研究为促进大脑成功老化干预提供了重要线索,未来的研究有必要进一步探究其中潜在的生理机制。