徐姝悦 周勇杰 李琳玲 张 力 黄 淦 张治国 梁 臻*
①(深圳大学医学部生物医学工程学院 深圳 518071)
②(深圳市康宁医院康复治疗部 深圳 518020)
情绪是人对具有积极或消极意义的内或外部事件的主观感受[1]。情绪反映了人类行为的潜在动机和意识,并且对建立和维持人际关系、提高认知水平和保证工作效率等有着重要作用[2]。情绪的产生不仅会带来心理变化,同时也会引起生理变化。当人产生某种情绪时,身体机能会发生变化,比如心跳加速、手心出汗以及面部表情发生变化等[3]。研究人员可以利用情绪反应产生的生理变化进行情绪测量和情绪识别,其研究成果在临床医学、脑机接口和远程教育领域具有广泛的应用前景。例如,抑郁症患者和双向情感障碍患者存在明显的情绪功能障碍,通过情绪识别系统准确地察觉病患的情绪变化,将有助于医生对患者进行及时有效的诊断与干预[4-8]。在人机交互中,若机器人能够准确识别交互对象的情绪变化,人机交互将变得更加友好和自然[9]。又或是在远程教育和电子教育方面,若能根据学生的情绪状态采用不同的教学手段,可以提高教师的授课效率[10]。因此,开展情绪识别研究是十分有必要的。近年来,测量脑功能活动信号的神经影像技术得到了飞速发展,包括脑电图(ElectroEncephaloGraphy, EEG)和功能磁共振成像技术(functional Magnetic Resonance Imaging,fMRI)等[11-13],情绪识别研究不断向前迈进。当前,情绪解码研究采用较多的是EEG,原因在于:(1)EEG具有非常高的时间分辨率,可以准确地识别情绪刺激的时间;(2)EEG操作简单,采集情绪信息非常方便。近年来,fMRI由于其高空间分辨率的特点,越来越多地被应用在临床医学和认知神经科学的研究中[14-16]。同时,由于fMRI所具备的优点:(1)高空间分辨率能够准确定位情绪信息加工相关的脑区;(2)情绪加工过程与非皮层的脑活动密切相关,相较于EEG,fMRI可以采集到深部脑信号。目前fMRI在情绪识别研究领域中的应用日益增多[17-19]。
基于fMRI的情绪识别研究的主要步骤包括:(1)情绪诱发,(2)数据采集,(3)数据预处理,(4)特征提取,(5)情绪识别模型(如图1所示)。具体来说,基于fMRI的情绪识别研究,首先需要诱发受试者产生不同的情绪体验,并同时采集受试者的fMRI数据。然后,对采集到的fMRI数据进行预处理,并从中提取与情绪相关的特征。最后,使用分类模型进行学习并预测最终的识别结果。下面将围绕fMRI的情绪识别研究的各部分内容进行详细介绍与说明。第2节将介绍情绪的分类以及情绪的量化模型。第3节将介绍fMRI的基本原理、情绪相关的实验设计、情绪相关的公开f M R I 数据集、fMRI数据预处理和fMRI特征提取。第4节将介绍基于传统机器学习和深度学习的情感智能模型。第5节将对基于fMRI的情感智能研究现状和存在问题进行总结与展望。
自19世纪以来,心理学家对情绪的定义提出了许多见解。例如,美国心理学家James认为情绪源于身体变化,情绪伴随着心理活动产生[20]。但是心理学家Cannon否定James的情绪观点,认为下丘脑掌控情绪变化[21]。尽管心理学家对情绪的定义仍然不统一,但是心理学家都认为情绪具有基本情绪集,即情绪具有多种类别。关于基本情绪的种类,心理学家对此也有不同的定义。例如,James认为基本情绪集包括愤怒、恐惧、悲痛和爱等[22];Clynes认为情绪集包括愤怒、憎恨、悲痛、快乐、爱、浪漫、仇恨和无情绪等[22];Ekman认为情绪集包括愤怒、恐惧、伤心、快乐、厌恶、惊讶和轻蔑7种情绪[23]。尽管不同研究者对基本情绪的认识不一致,但多数研究更倾向存在以下6种基本情绪:高兴、悲伤、惊讶、恐惧、愤怒和厌恶[24,25]。随着情绪研究的不断发展,人们发现一些情绪之间存在着一定的关联性,比如愤怒和憎恨有时会同时出现。因此,为了更加准确地描述情绪,研究人员提出情绪量化模型来实现精准情绪表达。
目前广泛使用的情绪量化模型主要包括离散情绪模型和维度情绪模型。下面将详细介绍这两种情绪量化模型。在离散模型中,情绪在大脑中的表征空间由离散而有限的基本情绪集构成;即情感是稀疏的、相对独立的并且跨越更高的维度[26]。目前许多情绪识别研究都采用离散模型,例如:文献[27]使用快乐、愤怒、恐惧、悲伤和中性的图片诱发受试者5种离散情绪;文献[18]采用愤怒、恐惧和厌恶面孔图片来诱发受试者不同的情绪状态;文献[28]使用自我诱发方法让受试者体验9种离散情绪状态(愤怒、厌恶、嫉妒、恐惧、幸福、欲望、骄傲、悲伤和羞耻)。在维度模型中,情绪空间被划分为效价-唤醒度(Valence-Arousal, VA)两个维度或效价-唤醒度-掌控度(Valence-Arousal-Dominance,VAD)3个维度[29]。效价表示情绪是积极或消极的,范围从消极情绪到积极情绪。唤醒度反映情绪活动的激活程度,范围从平静到激动。掌控度表示控制某种情绪的程度,范围从完全不能掌控到完全能掌控。在VA维度模型中,通常以效价为X轴和以唤醒度为Y轴的2维空间来表征情绪[30,31]。VAD模型跨越了3个维度,以效价为X轴、以唤醒度为Y轴和以掌控度为Z轴的3维空间来表征情绪[32]。
图1 基于fMRI情绪识别的主要流程图
常见的情绪诱发方式主要有两种。(1)通过图片、音乐、情感提示词或视频等诱发受试者情绪的外部情绪诱发方法。这是目前情绪识别领域中使用最普遍的刺激手段[33-36]。(2)受试者通过回忆或想象体验不同情绪状态的内部情绪诱发方法。该方法完全由受试者自己控制[37]。这两种情绪诱发方法各有优缺点,在实际实验中,需要根据不同的情况选择合适的方法。例如,当实验采用无刺激设置时,可以采用让受试者自我体验情绪的诱发方式。当实验采用有刺激设置时,可以采用外部诱发方法。通常,外部诱发方法具有更高的情绪诱发效能。
fMRI是一种用于测量与血液动力学相关的神经活动的成像技术。当大脑接受到外界刺激时,大脑的神经活动增加,使得活动脑区的血管耗氧量增加,脑血流速率同时增加。但脑氧增加速率远大于脑氧消耗速率,使得脱氧血红蛋白比例降低。由于含氧血红蛋白是抗磁性的,脱氧血红蛋白是顺磁性的,脱氧血红蛋白比例降低导致磁共振信号在含氧的血液中显示高信号,在脱氧的血液中显示低信号,这种信号称为血氧水平依赖(Blood Oxygenation Level Dependent, BOLD)信号[38,39]。一个短暂的外周刺激(比如情绪刺激)所产生的局部BOLD响应称为血流动力学响应函数(Hemodynamic Response Function, HRF)。HRF模拟BOLD信号在神经活动发生后的4至10s内上升至峰值,然后降至基线[40,41]。因此,BOLD fMRI技术可以通过HRF间接测量大脑在不同情绪状态时的神经元活动特性。目前,该技术已在智能情绪解码研究中得到广泛应用。
为了获得受试者在不同情绪状态下的大脑功能活动信号,需要将BOLD fMRI脑影像技术与合适的情绪任务实验设计相结合。实验设计是指受试者在fMRI实验期间执行的情绪任务的构造、时间组织结构和行为预测。在情绪识别研究中,组块设计和事件相关设计是最常用的范式设计[42]。组块设计是指在一定的时间窗内,连续呈现具有相同性质的刺激。在组块设计中,研究者会根据实验目的将刺激分为不同类型,并将同一类型的刺激组合成一个组块,然后交替呈现试验任务和控制任务。组块设计的最大优点是对简单的任务具有较强的统计效力和较高的检测效力。事件相关设计是指设计中可以控制的最小单元是单个刺激或事件,而不是组块。事件相关设计能够检测血液动力学反应的瞬时变化,从而对BOLD信号的变化进行时间表征。事件相关设计的最大优点是能够随机呈现刺激,且呈现的刺激为单刺激。情绪识别研究中,研究者根据实验目的选择组块设计或事件相关设计。例如,文献[43]在研究厌恶情绪激活的脑区时,由于需要获得受试者强烈的厌恶情绪感受,所以采用了组块设计作为该情绪任务的实验范式。而文献[44]为了研究单个视觉、听觉和视听结合的情绪信号对大脑的影响,采用事件相关设计,针对每个刺激对情绪的影响进行查看、分析和比较。
为了促进情绪识别研究,科研工作者建立了基于情绪任务的fMRI公开数据集,为不同分类算法或模型提供了性能比较的平台。我们对现有的可用的公开数据集做了简要概括,包括PAMD(Postnatal Affective MRI Dataset)数据集[45]、LEMON(Leipzig Study for Mind-Body-Emotion Interactions)数据集[46]和WU-Minn HCP(WU-Minn Human Connectome Project)数据集[47]。其中,PAMD和LEMON数据集可以从openneuro1)openneuro官网网址:https://openneuro.org/官网上进行下载;WU-Minn HCP数据集可以从HCP2)HCP官网网址:http://www.humanconnectome.org/(Human Connectome Project)官网上进行下载。
PAMD数据集由Laurent构建,包括了来自25位母亲在产后3个月的fMRI数据和心理数据。其中,fMRI数据在参与者观看积极或消极情绪的婴儿面孔时采集。因此,PAMD数据集可用于研究母亲的产后抑郁和焦虑[45]。例如,文献[48]将PAMD数据与情感精神病理学进行关联,发现在产后抑郁和焦虑期间,母亲对婴儿情绪的偏见处理在很大程度上是由内化痛苦造成的。
文献[49]采集了227名参与者静息态fMRI数据、EEG数据和外周生理信号数据,构建了LEMON数据集。该数据集包含了两个年龄段(年轻组和老年组)参与者。年轻组年龄在20~35岁,老年组在59~77岁。LEMON数据集是MPILMBB(MPILeipzig MindBrainBody)数据集的一部分。LEMON数据集适合将认知和情绪特征与大脑和身体的生理特征进行综合关联分析,而MPILMBB数据集旨在探索与大脑相关的各种认知、情感和生理表型中的个体差异性问题。文献[50]使用LEMON数据集中的静息态fMRI数据研究白质高信号(White Matter Hyperintensities, WMH)体积和总海马体积(total Hippocampal Relative Volume, tHRV)之间的关系及其对大脑网络的影响。该研究发现WMH的定位能够影响健康受试者的大脑活动,并且证明了深部WMH的体积与tHRV呈负相关。
华盛顿大学、明尼苏达大学和牛津大学所创建的WU-Minn HCP数据集,用以描绘人类大脑回路与健康成年人行为之间的关系。该数据集包含了1200名健康成年人的4种成像模态的MRI数据:结构MRI、弥散张量MRI、静息态和任务态fMRI[47]。文献[51]使用WU-Minn HCP数据集中所有参与者(843名)的静息态和情绪处理任务(观看恐惧和愤怒面孔)的fMRI数据,并对数据进行处理和分析。该研究发现大脑活动和功能连接存在广泛变化,这表明所有内在连接网络都参与了情感处理。
由于fMRI信号在采集过程中容易受到受试者头部运动以及其他噪声(机器噪声和外周生理信号)的干扰,因此需要对采集到的fMRI信号进行预处理。fMRI信号的预处理主要包括时间层校正、头动校正、配准、分割、标准化和空间平滑等。预处理第1步通常是时间层校正。时间层校正是将构成全脑图像的不同时间点的脑切片处理为相同时间点的脑切片的一种技术。由于核磁扫描仪在一个时间点只能扫描一张或多张脑切片,而数据分析是基于全脑图像在相同时间下采集的假设上进行的,所以需要进行时间层校正。预处理第2步一般是头动校正。头动校正是指选定一张参考图像,将其余的图像按照参考图像进行评估和对齐。由于受试者在扫描过程中会有头部运动,导致MRI图像质量差,所以需要进行头动校正。头动校正以时间序列的第1张图像或者时间序列的平均图像作为参考图像,使用傅里叶变换来确定其他图像对比参考图像的相对旋转和平移参数,并根据这些参数对图像进行头动校正[52]。预处理的第3步是将图像进行标准化。标准化通常使用结构像先进行配准。然后,将配准后的结构像放入一个标准空间中,用一个公共的坐标系去描述大脑的具体位置,并将配准到标准空间中的线性变换关系应用到功能像中。标准化的目的是降低个体差异性的影响,使得数据可以在不同的被试间进行合理比较。该缺点是降低了空间分辨率,并可能引入插值误差[48]。预处理的最后一步是进行空间平滑。在统计分析前对采集到的数据进行空间平滑,其目的是提高信噪比,消除伪影[53]。
特征提取是从情绪任务下的fMRI信号中提取出与情绪信息加工相关的代表性特征。在基于fMRI的情绪识别研究中,特征提取是非常重要的环节之一,可以为后续的情绪识别准确度提供保证。已有研究中用到的特征主要包括BOLD时间序列、反应情绪任务激活强度的β值和脑功能网络。
(1) BOLD时间序列
在基于fMRI情绪识别研究中,可以将情绪诱发状态下的BOLD时间序列作为脑功能活动的特征。提取BOLD时间序列方法包括基于全脑和基于ROI(Region of Interest)两种方法。基于全脑提取BOLD时间序列方法是指提取全脑中每个体素的BOLD时间序列。基于ROI提取BOLD时间序列方法通常选择一个合适的大脑结构分割模板,或依据先验知识选择特定的结构区ROI,然后提取所选取脑区内所有体素的平均BOLD信号[54,55]。例如,基于先验知识,文献[54]提取了24个ROI脑区的BOLD信号,作为分类器的输入。文献[55]的研究,同样是将基于先验知识的脑区BOLD信号作为情绪特征。基于fMRI情绪识别研究中一般采用基于ROI提取BOLD时间序列方法。因为基于全脑的体素数量多达5万个,容易造成维度灾难问题。
(2) 任务态激活强度β值
对于情绪任务态fMRI信号,可以先采用通用线性模型(General Linear Models, GLM)进行功能激活分析,然后将反映激活强度的β值作为特征。GLM模型是一种基于先验的单变量方法,并假设每个体素之间是相互独立的。文献[56]对GLM的定义为
其中,矩阵Y是包含全脑体素的BOLD信号的数据。矩阵X称为设计矩阵,包含与实验条件相关的解释变量。β是参数矩阵,包含每个体素在该模型下的估计参数。e是一个正态分布误差项的矩阵。GLM的目标是找到最优的一组β值。使用最小二乘估计得到其最优解为
其中,β∗是所求得的最优参数矩阵,是每个体素在先验知识的条件下得到的估计参数。XT是X转置矩阵。通过GLM得到的β值可以作为情绪特征,输入到分类模型中。例如,文献[57]使用GLM方法得到全脑体素的β值作为情绪特征,并基于唤醒度、效价和掌控度3种情绪维度进行情绪回归,分别获得52%,51%和51%的情绪识别准确率。文献[58]同样基于GLM方法得到先验ROI的β值作为情绪特征,对愤怒、悲伤、中性、遗憾和愉悦5种情绪进行分类,获得5种情绪的分类准确识别度为31.8%。
(3) 脑功能网络
大脑是一个有机统一的整体,不同脑区之间相互协调和相互配合构成了脑功能网络。脑功能网络分析通常用于静息态fMRI。静息态下的脑功能网络反映了大脑固有的、自发的神经活动时的脑功能活动模式。脑功能网络主要包括功能连接和有效连接两种描述。在基于fMRI的情绪识别领域中,功能连接是最常用的脑功能网络描述。
功能连接是指空间上分离的神经单元,其神经活动在时间上的关联性或统计依赖关系。主要的度量方法分为线性和非线性[59]。线性方法包括皮尔逊相关和偏相关,非线性方法包括极大信息系数等。其中,皮尔逊相关系数是用来度量两个脑区之间线性关联的最常见的方法。计算皮尔逊相关系数的公式为
x,y表示两组脑区数据。n表示数据量。x¯表示样本数据x的平均值。y¯表示样本数据y的平均值。rxy表示两两变量之间的相关性,计算结果介于-1和1之间。结果为正值,表示变量之间呈正相关。越趋近于1,正相关性越强。反之,呈负相关。越趋近于-1,负相关性越强。
偏相关系数是排除其他脑区信号的影响后,计算目标脑区之间关联性的一种算法。与皮尔逊相关系数相比,能更准确地分析到所有变量之间的相关程度。偏相关系数的计算公式为
目前情绪识别领域中应用最为广泛的相关系数是皮尔逊相关系数,在此基础上可以得到基于功能连接的脑功能网络特征。例如,文献[60]采用小波变换的功能连接作为情绪特征,来探究积极和消极情绪对后续静息状态的影响。文献[61]采集受试者静息态下的fMRI数据,将杏仁核细分下的ROI之间的功能连接作为情绪特征。
有效连接是另一种脑功能网络的描述方法。它描述了一个神经系统施加在另一个神经系统上的因果效应。与功能连接不同,有效连接强调脑区之间的相互影响和相互作用的强度与方向性[62],需要模型支持。有效连接的主要计算方法包括结构方程模型(Structural Equation Modeling, SEM)、格兰杰因果模型(Granger CausalityModeling,GEM)和动态因果模型(Dynamic Causal Modeling, DCM)等。SEM是一种依赖线性统计的建模分析方法。该方法通过计算协方差相关矩阵表示变量之间的关系[63]。GEM最初是分析两个脑区的因果关系的一种方法,后来发展为同时分析多个脑区之间的因果关系[64]。相比于SEM,GEM的优点在于把时间对实验结果的影响考虑在内,并且不需要先验知识。DCM结合SEM和GEM模型,即将神经动力学模型和血液动力学模型相结合,构建一个动态的、非线性的模型,能更加真实地模拟大脑功能机制原理[65]。DCM是目前研究脑功能有效连接最常用的方法,已应用在探索脑功能网络研究中[66-68]。DCM同样广泛应用于fMRI情绪识别领域。例如,文献[69]使用杏仁核-眶额叶皮层的DCM作为情绪特征,达到识别社交障碍患者和健康人的目的。文献[70]使用右外侧前额叶皮层、杏仁核和Broca脑区的DCM作为情绪特征,用以识别中性和负性情绪标签。
目前,机器学习不仅广泛应用于自然语言理解和机器视觉等领域中,而且在基于fMRI情绪识别领域中同样得到广泛应用。在情绪识别中,通常将不同情绪状态下的脑功能活动信号作为特征,刺激类型或受试者对刺激的评分作为标签,大脑对情绪刺激的反应是分类的对象[71]。研究者通常使用机器学习算法训练模型来完成情绪识别任务,因为机器学习算法能够有效地学习到不同情绪状态与fMRI特征之间的关系。目前常用的fMRI情绪识别模型包括传统机器学习模型和深度学习模型。常见的传统机器学习模型包括支持向量机、高斯朴素贝叶斯、K均值和高斯混合模型;常见的深度学习模型包括线性神经网络、深度神经网络和卷积神经网络。不同分类器具有不同的优势和局限性(如表1所示)。下面将介绍每种机器学习方法的原理和在fMRI情绪识别中的应用。
表1 不同分类模型的优劣势
传统机器学习模型首先对样本数据的特征进行选择,然后将选择后的特征运用到分类器上,最终得到输出结果。
(1) 支持向量机(Support Vector Machine, SVM)
SVM是传统机器学习模型中最常见的一种模型,也是目前情绪识别领域中使用最为广泛的一种模型。SVM的核心思想是通过寻找最能将向量空间划分为不同类别(即决策边界)的超平面,即“最大间隔”超平面达到分类目的[72]。通过控制核函数可以实现决策边界的线性或非线性。非线性核函数相对线性核函数复杂程度较高,往往可以更好地拟合不同类别的决策边界。常见的核函数包括线性核、多项式核和径向基核函数等。SVM具有较强的鲁棒性和泛化能力,对小样本高维度训练集的分类性能表现良好[73]。文献[54]使用在线SVM,对12名受试者的两种情绪状态(快乐和厌恶)和4名受试者的3种情绪状态(快乐、厌恶和悲伤)进行识别。该实验结果显示SVM在二分类中的平均准确率为65%,在多分类中的平均准确率为60%。文献[74]采集了38名受试者观看恐惧和中性面孔图片时的fMRI数据,并使用脑功能连接和SVM作为情绪特征和情绪识别分类器。该结果显示SVM模型的分类准确率高达90%。文献[75]采集了20名受试者在5种情绪(愤怒、快乐、悲伤、惊奇和中性)声音刺激下的fMRI数据,使用先验ROI下的BOLD信号和线性SVM作为情绪特征和分类器。该结果显示SVM对不同ROI的解码精度范围为25.3%~28.5%。
(2) 高斯朴素贝叶斯(Gaussian Naive Bayes, GNB)
GNB是一种基于贝叶斯定理与特征条件独立假设的分类方法[76]。与SVM不同,GNB无须训练过程。GNB在给定观测条件X下,假设样本Xj是条件独立的,通过评估情绪状态Ci的概率P(Ci|X),来实现情绪分类功能。GNB对小规模的数据表现良好,能处理多分类任务和高维数据分析[77]。fMRI数据通常都是高维数据,因此GNB在基于fMRI情绪识别领域得到了广泛应用。例如,文献[28]使用GNB对9种情绪状态(愤怒、厌恶、嫉妒、恐惧、快乐、性欲、骄傲、悲伤和羞愧)进行分类。实验结果显示GNB对每种情绪状态的识别准确率都高于75%。文献[78]使用GNB分类器对5种情绪状态(厌恶、愤怒、恐惧、悲伤和快乐)进行分类。结果显示GNB的平均分类准确率为66%(浮动范围43%~86%)。
(3) K均值(K-means)
与SVM和GNB模型不同,K-means算法属于聚类算法。聚类算法是按照某个特定的标准把一个数据集分割成不同的类或簇,使得同一个簇内的数据相似性尽可能大,同时不同簇间的数据差异性尽可能大。K-means的主要思想是将样本划分为K个簇,使得距离相近的样本尽可能被分到同一个簇中,同时不同簇之间的距离尽可能大[79]。K-means算法的优点是简单和通俗易懂;缺点是需要事先确定K的值,并且计算量大。K-means聚类在fMRI情绪识别领域中得到广泛应用。例如,文献[80]采集了5名受试者在观看2181个情绪视频(34个情绪类别和14个情绪维度标签)时的fMRI数据,并使用Kmeans模型进行情绪聚类。结果显示聚类出27个簇,该结果与文献[81]使用相同的视频所引发的情绪体验的结果一致。这些结果表明由情感视频引起的大脑活动模式具有类簇分布,并且存在重叠分布现象。
(4) 高斯混合模型(Gaussian Mixture Model,GMM)
与K-means聚类方法不同,GMM是基于分布而不是基于距离的一种聚类方法。GMM采用了高斯分布作为参数模型,并使用最大期望算法进行参数学习[82]。与传统的聚类方法相比,GMM可以获得更优秀的聚类表现。GMM也广泛应用于基于fMRI的情绪识别中。例如,文献[83]采集了16名受试者在听到恐惧、悲伤和幸福听觉刺激下的fMRI数据。文献[84]使用文献[83]采集的数据,将BOLD信号作为特征输入到GMM中,获得40%的分类准确率。
如今,越来越多的深度学习模型被用于分类应用。随着样本数据的增加,深度学习模型往往可以获得优于传统机器学习模型的性能。
(1) 线性神经网络(Linear Neural Network, LNN)
神经网络是具有输入层、输出层和多个隐藏层的网络。神经网络的基础模型是感知机,因此神经网络也称为多层感知机。通常,具有1~2个隐藏层的神经网络称为浅层神经网络,具有超过5个隐藏层的神经网络称为深度学习模型。相较于传统机器学习模型,深度学习模型更适用于大样本数据。LNN是深度学习模型中的一种,是由多个线性神经元组成的神经网络。每个神经元的传递函数都是线性函数[85]。LNN以fMRI特征作为输入,通过LNN分类器得到不同情绪的分类结果。文献[55]采集了21名受试者在观看5种情绪电影(厌恶、恐惧、幸福、悲伤和中立)和观看6种情绪(愤怒、恐惧、幸福、悲伤、惊喜和厌恶)单词图片时的fMRI数据,并使用LNN作为情绪分类器。结果显示,LNN对5种情绪状态的平均情绪分类准确率为47%,对6种情绪状态的平均情绪分类准确率为55%。
(2) 深度神经网络(Deep Neural Networks, DNN)
与LNN不同,DNN是一种非线性分类方法。它是由输入层、多个隐藏层和输出层构成的人工神经网络。DNN已在计算机视觉、语音处理和fMRI等多个应用领域中展示了较好的性能[86-89]。DNN在基于fMRI的情绪识别分类中也得到较为广泛的应用。文献[57]对3种情绪维度(效价、唤醒度和掌控度)进行情绪识别,将全脑β值作为SVM和DNN的输入,受试者在情绪刺激下的情绪评分作为输出,最后使用皮尔逊相关系数评估SVM和DNN分类器的性能。实验结果显示,DNN对3种情绪维度识别的错误率(唤醒度31.2%±1.3%、掌控度29.0%±1.7%和效价28.6%±3.0%)显著低于SVM的错误率(唤醒度44.7%±2.0%、掌控度50.7%±1.7%和效价分别为47.4%±1.9%)。
(3) 卷积神经网络(Convolutional Neural Networks, CNN)
CNN是DNN的一种类型,是由输入层、卷积层、池化层、全连接层和输出层构成的人工神经网络[90]。C N N 比较著名的网络有L e N e t[91],AlexNet[92], ZFNet[93], VGGNet[94]和ResNets[95]。近年来,随着CNN网络的不断发展,其在基于fMRI的情绪识别领域得到广泛应用。例如,文献[96]采集了抑郁症患者和正常受试者在听正性音乐和负性音乐的fMRI数据,然后使用SVM、逻辑回归、K近邻、DNN和CNN进行分类比较。结果显示,听正性音乐比听负性音乐的分类准确度高,并且CNN在5种分类器中表现最佳(正性音乐分类准确率93.61%,负性音乐分类准确率89.36%)。
在上述提到的模型中,SVM模型由于在fMRI数据中的良好的分类性能,在基于fMRI情绪识别研究中应用最为广泛。例如,文献[97]使用SVM和内核规范相关分析(Kernel Canonical Correlation Analysis, KCCA)来区分积极和消极的fMRI数据。该结果显示,SVM分类性能(91%)优于KCCA的分类性能(87%)。文献[98]使用SVM模型来区分愤怒和中性两种情绪状态,SVM模型展现了69%~92.3%的分类准确性能。
我们将上述提到的文献中使用的分类模型和基于分类模型得到的结果进行汇总(如表2和表3所示)。表2显示了文献中提出的实验设计,使用的情绪诱发方法,提取的fMRI特征,采用的分类模型以及不同情绪的识别准确率。可以看出,在基于fMRI情绪识别领域中,传统机器学习模型SVM是最为常用的分类方法。原因在于SVM具有较好的鲁棒性,能够较好地识别不同的情绪状态。表3显示了基于这些分类模型得到的与情绪相关的脑区和对这些脑区的讨论与解释。结果显示,参与情绪的脑区主要分布于内侧前额叶皮质(Medial Prefrontal Cortex, MPFC)、前扣带皮层(Anterior Cingulate Cortex, ACC)、额下回(Inferior Frontal Gyrus,IFG)、后扣带皮层(Posterior Cingulate Cortex,PCC)、丘脑、脑岛和杏仁核等脑区。值得注意的是,多个文献中提出杏仁核有助于情绪的加工处理。
虽然近年来有很多基于fMRI的情绪识别研究,但大多数研究都处于实验室阶段,距离临床应用还有很长的路要走。从实验室阶段走到临床应用阶段,主要有下列问题需要解决。
(1) 情绪诱发的有效性。由于现有的情绪识别研究中呈现的刺激时间普遍很短,通常在几秒到十几秒的范围。而情绪的诱发往往需要较长时间,尤其是悲伤情绪状态的诱发,需要更长时间。短时间的刺激使得受试者的情绪并没有被有效激活,导致后续分析或分类的效果不佳。例如,许多情绪识别研究对悲伤情绪的分类准确率较低,可能原因是悲伤情绪没有被有效诱发[53,71]。针对无法有效激活情绪问题,可以尽量选取故事性完整、刺激效果好的情绪刺激材料,并延长刺激呈现时间。
表2 基于fMRI情绪识别的情绪模型及其识别准确率(%)
表3 基于fMRI情绪识别研究中的情绪相关脑区及其解释
(2) 个体差异。目前大多数情绪识别研究都基本处在实验室阶段,通过刺激材料引发受试者的情绪状态。然而,不同受试者对同一刺激材料的情绪主观感受与脑功能活动之间的关系存在个体差异,这是目前基于fMRI的情绪识别亟需解决的一个非常具有挑战性的问题,可能的解决方法是采用静息态fMRI,通过计算大脑功能网络区别患者与健康人。近些年来,静息态fMRI已经成为fMRI个体差异研究的“主力军”,可能原因是静息态fMRI不需要情绪刺激材料诱发受试者情绪,避免了不同受试者的情绪主观感受差异。
(3) 情绪标签的主观性。不同受试者对同一刺激材料的主观感受不同,导致受试者对于同一情绪刺激材料的情绪标签不一致。例如,对于同一段悲伤标签的视频,一些受试者将该视频标签为悲伤情绪,而另一些受试者则可能将该视频标签为中性情绪。针对情绪标签的主观性问题,可能的解决方法是让多名观众观看情绪刺激材料后进行情绪评分,选取评分一致性高的刺激材料,并将多名观众的情绪评分取平均作为该刺激材料的情绪标签。已有研究使用这种方法来克服情绪标签的主观性问题。例如,文献[99]让资深专家和另外两名成年男性对每张图片刺激评分(正性、负性和中性),并采用该评分标签作为每张图片的情绪标签。
情绪识别研究有着十分重要的理论意义和现实意义,在临床领域有着广泛的应用前景,尤其对抑郁症和双向情感障碍患者有着非常重要的作用。在临床实际应用中,医生可以通过神经反馈训练,实现调控抑郁症患者和双向情感障碍患者情绪的目的。或通过分析离线状态下患者与健康人的fMRI数据,实现精神疾病早筛的目标。例如,文献[100]采集了重度抑郁症(Major Depressive Disorder,MDD)患者在休息状态、回忆快乐状态和计数状态下的fMRI数据,进行离线分析和在线分析。该结果表明,fMRI神经反馈训练显著降低了抑郁症患者的抑郁症状。文献[8]采集了55名精神分裂症患者、54名双向情感障碍患者和50名健康参与者的静息态fMRI数据与情绪感知测试数据。结果分析显示,精神分裂症患者比双向情感障碍患者具有更低的情绪感知,而情绪感知能力的中断可能与额-颞-枕脑回路的功能连接中断有关。另外,相较于健康被试,双向情感障碍患者和精神分裂症患者的情绪感知都呈现明显下降,并且精神分裂症患者下降得更为显著。同时,研究还发现精神分裂症患者较少使用额叶皮层,双向情感障碍患者则使用顶叶作为面部情绪识别代偿。随着近年来fMRI技术和机器学习分析算法的快速发展,基于fMRI的情绪识别研究已经成为一个重要的研究课题,受到越来越多的研究者的关注。在已有心理学和认知科学研究成果的基础上,不断开发和优化情绪识别方法、找出与情绪最相关的脑区、找到情绪的共同模式和实现更精确识别情绪障碍患者,都是将基于fMRI的情绪识别技术真正用于临床实际中的下一步工作。