面向认知表现预测的时−空共变混合深度学习模型

2022-12-31 02:56李晴徐雪远邬霞
自动化学报 2022年12期
关键词:维度大脑预测

李晴 徐雪远 邬霞

认知表现预测是指对大脑执行认知任务时学习能力、记忆力、注意力等方面能力的预测,在教育发展、疾病诊疗等诸多领域具有重要的应用,一直备受研究人员的关注[1].认知神经科学证据显示,神经影像数据所蕴含的大脑信息能够直接反映出大脑认知表现的处理过程[2].因此,利用神经影像技术对认知表现进行预测已经成为了人们关注的焦点[3−4].其中,同时具有较好的时间分辨率和空间分辨率的功能磁共振成像(Functional magnetic resonance imaging,fMRI)技术已经被广泛应用于构建上述关系.

已有多项基于fMRI 数据的研究探究了脑功能与认知表现之间的关系,并取得了不错的结果[5−6].深度学习作为一种强有力的预测模型,已经被广泛应用于人脸识别、语言处理、物体检测等多个领域[7−8].受到已有工作启发,多种深度学习模型被引入到基于fMRI 数据的研究中,如: 深度置信网络[9]、卷积神经网络[10]、循环神经网络(Recurrent neural network,RNN)[11]等.深度学习具有突出的特征提取能力,使其能够为建立脑功能与认知表现间的关系提供支持,并进一步实现对认知表现的预测[12−13].

研究表明,大脑功能网络具有时−空共变的特性,即不仅在空间上存在脑区协同的脑网络模式,在时间上存在着动态变化的特性,且不同空间网络与时间维度序列存在交互作用[14].受其影响,大脑的认知表现也在空间维度中受到大脑功能网络的系统性影响,在时间维度上受到重复性、衰减性等动态性影响[3].因此,受大脑功能网络时−空共变特性的启发,从时−空共变角度来预测认知表现,将能够更加完善地对其进行信息处理与分析.

目前,有研究者提出一种多任务学习模型,采用最小化奇异值的方式对低秩公共子空间进行表征,从而联合分析神经影像数据和认知行为数据,实现了认知表现预测[15].然而,以上研究依然未能在基于大脑学习机制的同时,利用时−空脑数据对认知表现进行预测[16],从而限制了认知表现预测的能力.因此,将大脑学习机制引入到时−空共变深度认知表现预测模型中非常有必要.最近,一种学习机制启发的深度学习模型被提出,即深度稀疏循环自编码器算法 (Deep sparse recurrent autoencoder,DSRAE).该算法被用来对时−空共变fMRI 特征进行分析,验证了其对时−空共变脑数据的重建能力及对特征的高效分析能力[11, 17].在本研究中,为了更好地预测认知表现能力,本文结合DSRAE 模型和循环全连接网络(Recurrent fully connected net,RFNet)构建了一种时−空共变混合深度学习模型(如图1 所示),称为DSRAE-RFNet.为了验证本文提出的模型,本文采用人类连接组项目数据集(Human connectome project,HCP)[18]中被试执行工作记忆任务的反应时间(Reaction time,RT)和准确率(Accuracy,ACC)作为认知表现预测的目标.

图1 基于大脑学习机制的时−空共变混合DSRAE-RFNet 模型框架Fig.1 The overview of learning mechanism based spatio-temporal co-variant hybrid deep learning framework (DSRAE-RFNet)

本研究的目的是构建基于DSRAE-RFNet 算法的认知表现预测模型.在保证高预测准确率的同时,获取有意义的神经影像预测特征作为神经学标记物.本文的创新点在于:

1)提出了一种新的时−空共变混合深度学习模型,采用混合损失函数,同时利用脑影像数据与认知表现数据对时−空共变混合神经网络模型进行训练.算法面向认知表现预测需求,基于fMRI 数据特点,利用高维度时−空共变神经影像特征对认知表现进行预测.相较单一损失函数算法,DSRAE-RFNet算法以高维度时−空共变脑影像特征为桥梁,建立了神经影像数据与认知表现之间的关系.

2)引入了人类大脑学习机制,能够有效借助大脑变化中的时序依赖关系,利用神经影像高维度时−空共变特征,实现认知表现的精准预测.采用定量分析的方式,证明了DSRAE-RFNet 算法作为一种脑启发算法模型,在认知表现预测方面具有明显优势.从认知神经科学的角度,证明了大脑学习机制对认知表现预测的重要性.

3)在DSRAE 算法的基础上,加入了RFNet模型,构建了新的能够有效提取大脑高维度时−空共变特征的认知表现预测模型.面向fMRI 数据特点,利用长短时记忆(Long short term memory,LSTM)层获取包含数据有利信息的高维度时−空共变特征,并利用全连接层对认知表现进行预测.作为一种受fMRI 数据本身特点驱动的算法模型,DSRAE-RFNet 模型不仅能够鲁棒地预测认知表现,而且可以提取到有意义的神经影像预测特征.该混合学习模型为揭示人类大脑认知机制提供了新思路.

1 DSRAE-RFNet 算法模型

1.1 模型框架

DSRAE-RFNet 模型框架如图1 所示,在进行认知表现预测的同时对相关神经影像特征进行分析.第1.2 节描述了DSRAE 模型,第1.3 节描述了RFNet 模型,第1.4 节详细介绍了时−空共变混合深度学习模型.其中,DSRAE 模型的评价指标为fMRI 数据的重建错误,RFNet 模型的目的则是将回归预测误差最小化.

1.2 DSRAE 模型

为了能够实现时−空共变脑网络的提取,进而进行认知表现预测,DSRAE 模型将LSTM 和自编码器 (Autoencoder,AE)相结合[17],有效利用LSTM能够捕捉时间序列间时序依赖关系的优势和AE 能够有效利用空间维度信息的优势,采用无监督学习的框架对fMRI 数据进行分析.图1(a)展示了DSRAE模型的整体框架,包含编码器和解码器两部分,无需任何时序标签即可学习到任务特异性的时−空共变脑网络特征.其中,编码器包含一层输入层、一层全连接层(可保留大部分空间维度信息) 和两层LSTM 层;解码器包含两层LSTM 层、一层全连接层和一层输出层.编码器经过全连接层(128 个节点)、LSTM 层(64 个节点),将输入数据的空间维度编码为32 维特征,时间序列长度为T,在每一层保持不变,有效提取时−空共变特征.解码器则与编码器完全相反,将32 维特征解码为原始fMRI 的空间维度.DSRAE 部分的输入和输出都是fMRI 时间序列,其隐含层传导特征到RFNet 模型.

1.3 RFNet 模型

图1(b)展示了RFNet 模型,共包含一层LSTM层,一层全连接层.从DSRAE 的隐含层获得的32个时序特征经过一层LSTM 层获得一个唯一的高维特征,该特征包含了每个时间点的全部空间信息,作为高阶时−空共变特征.将神经影像特征与认知行为特征通过全连接层连接,根据神经影像数据特征的时间维度与认知表现数据维度,权重矩阵的维度为405 × 10.下面利用相关分析构建基于时−空共变信息的认知表现预测模型.特别地,本文采用模型在全连接层的权重与任务设计之间的皮尔逊相关系数(Pearson correlation coefficient,PCC)与行为数据进行相关分析,构建预测模型.

1.4 时−空共变混合学习模型

本研究采用如图1 所示的时−空共变混合学习模型,基于神经影像数据,对被试执行不同任务刺激下的认知表现的整体趋势进行预测.

具体来说,DSRAE-RFNet 整体模型在训练阶段的优化公式为:

式中,MSE() 为DSRAE 模型的误差函数,MSE(xf||y)为RFNet 模型的误差函数.二者均基于均方误差(Mean square error,MSE)损失方程构建:

式中,L表示g(f(ρ))与θ之间差异的损失函数.对于DSRAE 模型,θ和ρ均为fMRI 一个时间点上的全脑数据;f(ρ) 为编码阶段输出(编码器第2 层LSTM 的节点输出),g(f(ρ)) 为解码阶段输出(DSRAE 解码器最后一层的输出).对于RFNet 模型,ρ为从DSRAE 模型隐含层获得的时间维度特征,θ为认知表现数据;f(ρ) 为RFNet 的LSTM 层输出,g(f(ρ)) 为全连接层输出.式 (1) 中,O表示模型 的整体输出. Ω1和 Ω2分别为L1和L2正则惩罚项,用以避免整个训练过程过拟合.

基于DSRAE 和RFNet 模型的均方误差损失加权和,时−空共变混合学习模型的损失函数定义为:

式中,Loss1和Loss2分别代表DSRAE 和RFNet模型的均方误差损失,ω为DSRAE 模型的均方误差损失对整个时−空共变混合学习模型的占比权重.

DSRAE-RFNet 算法的主要计算流程如算法1所示.

算法1.基于大脑学习机制的时−空共变混合深度学习模型

输入.数据矩阵H∈Rs×t// 输入的fMRI 数据.

输出.预测矩阵B′∈R// 认知表现预测结果、S ∈Rs×h//基于弹性网络回归获得的空间网络模式、T∈Rh×t// 时间序列.

循环.

1)更新预测矩阵B′.

2)根据输入矩阵H、标准化认知表现数据B、式(1)和式(3)更新网络模型.

3)直到收敛或达到规定重复次数.

2 算法评估

2.1 实验数据

本文使用750 名神经影像数据 (如表1 所示)和行为数据 (如表2 所示)均完备的正常成年被试数据作为训练集、验证集和测试集.所使用的数据来自国际公开数据集HCP (https://db.humanconnectome.org).HCP 数据集采用国际标准的蒙特利尔神经学研究所坐标系统空间对大脑灰质信息进行建模,该坐标系统空间是根据一系列正常人脑的磁共振图像建立的.数据预处理步骤包括: 空间维度平滑、时间维度滤波、回归去除脑脊液等干扰信息、以及头动校正.所有预处理步骤均为HCP 数据集基于FreeSurfer 软件[19]完成的.

表1 工作记忆任务: fMRI 数据信息Table 1 Working memory task: fMRI data information

本研究采用工作记忆任务数据作为认知表现预测数据集,该任务采用N-back 的方式对被试的工作记忆能力进行评测[20],任务刺激包括0-back、2-back 和cue.该任务已被证明在不同被试[20]和不同时间[21]均能够激发出较为稳定的大脑活动模式.任务信息如表1 所示,其中,任务组块表示将相同条件的几个行为实验安排在一起.扫描信息如下: 矩阵大小为90 × 104、切片数为72、脉冲重复时间为0.72 s、回波时间为33.1 ms、面内视野为208 ×180 mm、翻转角为52°,频带宽度为2290 Hz/Px,空间分辨率为2 × 2 × 2 mm3.被试的反应时间和准确率的10 项具体认知表现数据信息如表2 所示.

表2 工作记忆任务: 认知表现数据信息Table 2 Working memory task: Cognitive performance data information

2.2 算法细节

特别地,本文利用Z-值[22]标准化(如式(4))将fMRI 数据标准化为均值为0、标准差为1 的矩阵:

式中,x为原始数据,为原始数据的均值,σ为原始数据的标准差,x∗为标准化后的数据.为了统一认知表现数据的单位,本文将反应时间数值均/1000,准确率数值均/100.

本研究采用HCP 数据集中参与工作记忆任务的750 名被试数据作为实验数据.本文将其随机平均分为3 组,每组包含250 名被试.其中,每组被试中的150 名被试作为训练集,50 名作为验证集,50名作为测试集.第2.3 节所呈现的结果均基于测试集获得.反应时间与准确率的认知表现预测结果作为每个组别对应的验证评价指标.

DSRAE-RFNet 采用Adam 优化器[23]来处理模型中的后向传播过程:

式中,µ和ν为势能因子,gt为梯度.

模型的参数如下: 学习率设置为0.01,批大小为1 (包含1 次回看步数内的全部信息),L1和L2正则化参数 Ω1和 Ω2分别为 1 /107和 1 /104[11].为了比较学习机制对DSRAE-RFNet 模型的影响,LSTM的回看步数根据是否采用学习机制设置为405 (每个被试的重复时间总数量) 和1 (单个重复时间).重复次数设置为10 (若验证集更早收敛,则采用早停机制直接停止,如5~ 6 个重复次数).如图2 所示,无论是对准确率还是反应时间进行预测,在3组数据集上,基于MSE 的验证集损失在10 个重复次数内均能达到收敛状态.DSRAE-RFNet 模型整体损失中,DSRAE 模型的均方误差损失对整个时−空共变混合学习模型的占比权重ω设置为0.5,从而有效平衡DSRAE 模型对神经影像特征的提取精确度和RFNet 对认知表现的预测精度.如图3 所示,当ω=0.5 时(即神经影像数据和认知表现数据的混合学习比重一致),DSRAE-RFNet 模型对RT 和ACC 的预测效果最为稳定.

图2 DSRAE-RFNet 模型在3 组被试上对RT、ACC 分别进行预测时的MSE 损失图Fig.2 The MSE loss when predicting RT and ACC with DSRAE-RFNet model on three groups participants

图3 DSRAE-RFNet 模型在3 组被试上对RT、ACC 的预测结果Fig.3 The predictive results of RT and ACC with DSRAE-RFNet model on three groups participants

为了进一步揭示神经影像数据对认知表现预测的认知神经科学依据,并有效避免噪声对空间网络激活模式生成过程的影响,本文通过弹性网络回归[24−26],基于RFNet 中获得的时序特征生成空间网络:

式中,X为预测矩阵(空间网络),xf1为RFNet 的一维高阶特征(时序特征).λ1和λ2分别是弹性网络回归的L1和L2正则化参数,能够有效避免噪声、奇异值等的影响,本文L1比例设置为0.005.

2.3 结果与分析

本文将DSRAE-RFNet 模型在3 组参与了工作记忆任务的被试上进行了训练、验证和测试,预测被试的反应时间和准确率.结果显示,本文提出的时−空共变混合深度学习模型能够通过fMRI 数据有效预测认知表现能力,并能够同时获得相关的时−空共变脑网络.

2.3.1 学习机制分析

为了对学习机制启发的DSRAE-RFNet 模型进行验证,本文在3 组被试上分别进行了采用学习机制和未采用学习机制的模型测试.研究表明,大脑在学习新信息或处理新任务时,会基于原有时间序列获得时序信息经验,即便是较长时间间隔之前的信息,依然会对当前时刻大脑的信息处理能力产生一定程度的影响[27−29].因此,本文将回看步数设置为完整fMRI 时间序列长度,即405.相反地,回看步数设置为1 代表模型没有基于人脑学习机制.

表3 展示了RT 和ACC 在3 组被试测试集上的预测结果.对于RT 预测,使用了学习机制的预测结果在3 组被试上均比未使用学习机制的模型结果好(采用双样本t检验,p值<0.01).

表3 与未采用学习机制模型比较的认知表现预测结果Table 3 Cognitive performance prediction results compared with the model without learning mechanism

特别地,对于第2 组被试,使用了学习机制的模型在认知表现预测上的性能具有0.41 的优势,甚至超过了未使用学习机制的模型预测结果两倍.对于ACC 预测,采用了学习机制的模型预测结果总体来说高于没有采用学习机制的模型.对于第1 组被试,采用学习机制的模型预测结果没有展现出更多优势,但在统计学上二者没有差异.这可能是由于第1 组被试整体在各个刺激条件下的ACC 变化不明显(详见第2.3.3 节),导致预测模型敏感性较低.

2.3.2 反应时间表现预测

如表3 所示,3 组被试的RT 预测结果分别是0.7、0.74 和0.776.图4 展示了RFNet 中全连接层的权重可视化结果及其与RT 表现之间的关系.对于每一组被试,RFNet 的全连接层建立了该组被试的RT 数据与神经影像数据之间的潜在关系.如图4(a)所示,针对RT 进行预测时,无论是第几组被测试,RFNet 全连接层的10 组权重均与任务设计之间表现出明显的正相关性,表明本文的模型所学习到的连接权重具有神经影像学意义.对于RT 的表现预测包含了10 个预测条目(如表2 所示),图4(b)展示了上述连接权重与任务设计之间的PCC 系数与RT 的认知表现数据间所具有的正相关性,分别为0.862、0.665 和0.767.以上结果表明,预测模型学习到的特征同时具有神经科学意义和认知科学意义,也证明了基于大脑学习机制的时−空共变混合深度学习模型能够有效建立神经影像脑数据与认知表现之间的关系,为基于fMRI 数据对认知表现进行预测提供了有力证据.

图4 反应时间表现预测结果Fig.4 Reaction time performance predicting results

为了更进一步验证基于大脑学习机制的时−空共变混合深度学习模型在预测RT 时能够学习到有意义的神经影像学特征,图5(a)展示了相关的时间维度和空间维度特征.对于时间维度特征,在对被试RT 进行预测时,DSRAE-RFNet 学习到的时间序列与任务设计具有高度相关性,在3 组被试上分别为0.568、0.624 和0.325.这表明,提取到的高维时−空共变特征与工作记忆任务刺激波动具有一致性.对于空间维度特征,在对被试执行工作记忆任务的RT 进行预测时,3 组被试都一致显著地正激活了背侧注意网络和视觉网络.基于广义线性模型(General linear model,GLM)[18]、荟萃分析[30]和深度学习[11,17,31]等研究的结果均表明,两个网络的相关脑区与工作记忆任务具有高度相关性;此外,默认网络显示出了明显的负激活,这与基于GLM 生成的空间网络非常相似[18, 32],也就是说在执行认知任务过程中,DMN 处于负激活状态.结果证明在RT 预测过程中所提取到的时−空共变特征是具有认知神经科学意义的.

图5 反应时间与准确率表现预测过程中习得的大脑时−空共变特征Fig.5 The brain spatio-temporal co-variant features learned from the RT and ACC performance prediction processes

2.3.3 准确率表现预测

如表3 所示,对于3 组被试的ACC 表现预测,基于大脑学习机制的DSRAE-RFNet 模型的预测准确率分别是0.429、0.477 和0.536.在对ACC 表现进行预测时,3 组被试的全部10 个条目(如表2所示) 的全连接层权重均与任务设计具有正相关性(如图6(a)所示),表明模型学习到的权重具有明显的实际意义.此外,模型学习到的权重与任务设计PCC 和ACC 的认知表现数据具有高度正相关性,对于3 组被试分别为0.499、0.439 和0.666 (如图6(b)所示).

图6 准确率表现预测结果Fig.6 Accuracy performance predicting results

为了进一步验证预测过程中所学习到的神经影像特征具有实际意义,本文同样将预测ACC 表现过程中习得的时−空共变网络特征进行了可视化(如图5(b)所示).与RT 预测结果相似,提取到的时序信息特征与工作记忆的任务设计具有高度相关性.同时,空间维度网络激活模式与GLM、荟萃分析及深度学习等算法所获得的空间网络非常相似[11, 17−18,30−31],即背侧注意网络和视觉网络正激活,默认网络负激活.以上结果表明,DSRAE-RFNet模型能够提取到具有认知神经科学意义的时−空脑网络,从而实现对被试认知表现的预测.

2.3.4 算法性能比较

为了证明本文提出的DSRAE-RFNet 算法的性能,本文将DSRAE-RFNet与经典预测模型 (包括线性和非线性模型) 以及前沿算法进行了比较,包括: 独立成分分析(Independent component analysis,ICA)、GLM、RNN、LSTM、AE、深度稀疏循环神经网络(Deep sparse recurrent neural network,DSRNN)[33]、深度变分自编码器 (Deep variational autoencoder,DVAE)[34]、时空注意力自编码器(Spatiotemporal attention autoencoder,STAAE)[35]、深度卷积自编码器(Deep convolutional autoencoder,DCAE)[10].其中,AE与经典线性模型ICA、GLM 相似,提取空间网络模式特征进行认知表现预测;DSRNN[33]与经典非线性模型RNN、LSTM 相似,主要对fMRI 信号中的高维度时序特征进行提取,从而实现认知表现预测;DVAE[34]、STAAE[35]算法分别利用变分生成模块和注意力模块与AE 相结合,提取fMRI 的空间高维度特征;DCAE[10]算法以fMRI 数据中的体素为单位,提取时间维度高维特征作为预测指标.如表4 所示,相较经典和前沿各预测模型,DSRAE-RFNet 在RT和ACC 的预测能力上均表现出较大优势.对于第1、3 组被试,预测能力均达到最优水平,证明了本文算法在预测能力上的有效性和稳定性.

表4 与其他预测模型比较的认知表现预测结果Table 4 Cognitive performance prediction results compared with the other predictive model

为了证明DSRAE-RFNet 算法在认知表现预测上具有优势的同时,在预测效率上同样具有优势,本文在单个图形处理器(Graphics processing unit,GPU) (RTX 2070)上比较了不同算法的运行时间(包括: 在特征提取阶段的单个运行次数内运行时间和在测试阶段的单个被试预测时间).如图7 所示,DSRAE-RFNet 算法的运行时间远低于ICA 方法;相较其他以AE 为基础的前沿算法 (DVAE[34]、STAAE[35]、DCAE[10]),本文所提算法同样具有明显优势;本文算法与GLM、RNN、LSTM、AE、DSRNN[33]算法在单个GPU 上的运行时间基本相似,但对认知表现的预测效果更具优势(如表4所示).因此,基于对各算法运行时间和预测准确率的综合分析,本文所提DSRAE-RFNet 算法是一种高效、鲁棒的新型认知表现预测算法.

图7 DSRAE-RFNet 及比较算法在单个GPU 上单个运行次数的运行时间Fig.7 Running time of DSRAE-RFNet and comparable methods on a single GPU during one epoch

3 结束语

本文提出了一种新型基于大脑学习机制的时−空共变混合深度学习模型DSRAE-RFNet,用来预测认知表现,并同时提取相关的时−空共变神经学特征.本文采用HCP 数据集中的工作记忆任务作为本研究的训练、验证及测试集,获得了非常有意义的结果.

为了证明本文提出的DSRAE-RFNet 模型的鲁棒性,本文将模型扩展到了HCP 数据集中提供了RT 和ACC 认知表现信息的情感任务、语言任务和关系任务上,用于对被试的认知能力进行预测.结果表明,DSRAE-RFNet 模型除了能够对被试执行工作记忆任务时的认知表现进行预测外,还能够稳定地对多种认知任务的认知表现能力进行预测(如表5 所示).其中,相较其他三种认知任务,情感任务的RT 和ACC 预测准确率相对偏低,这可能与被试执行情感任务时对人脸和图形判断的相关认知表现差异并不明显有关[18].

表5 对不同认知任务的认知表现预测结果Table 5 Cognitive performance prediction results for different cognitive tasks

总之,作为一种面向认知表现预测需求的新型时−空共变混合深度学习模型,本文提出的DSRAERFNet 算法能够基于学习机制,受fMRI 数据本身特点驱动,充分利用认知神经科学先验信息.算法模型不仅能够基于fMRI 数据预测认知表现,同时能够获得认知任务有意义的神经影像学特征.通过对3 组被试的验证与测试,证明了本文提出的DSRAERFNet 模型的有效性和鲁棒性.与经典线性、非线性以及前沿算法的比较结果同样证明,本文提出的算法在预测效果和效率上均具有优势.基于本文研究,未来将在以下几方面进行研究: 1)继续尝试其他混合深度学习模型,如多核学习[36−38]方式,采用自适应的损失函数优化方式,以期更加有效地利用神经影像特征来预测认知表现;2)基于神经网络结构搜索框架,针对不同认知表现数据的预测任务,对DSRAE-RFNet 中DSRAE 部分的空间维度特征维度进行优化和搜索[39],以期得到更加具有任务特异性的算法结构;3)本文在对大脑时−空共变特征进行分析时,空间维度特征是基于时间维度特征通过弹性网络回归分析得到的,尚未结合和利用深度学习模型.未来将结合生成模型,对空间特征进行生成;4)由于DSRAE-RFNet 模型并不依赖于认知任务的具体任务刺激,因此有潜力基于静息态fMRI数据对认知表现进行预测.未来将基于静息态fMRI数据,利用DSRAE-RFNet 模型对被试的决策能力等认知行为指标进行预测[40].

猜你喜欢
维度大脑预测
无可预测
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
选修2—2期中考试预测卷(A卷)
理解“第三次理论飞跃”的三个维度
认识党性的五个重要维度
浅论诗中“史”识的四个维度
人生三维度