基于图神经网络和注意力的双模态情感识别方法

2023-03-24 13:24李路宝陈田任福继罗蓓蓓
计算机应用 2023年3期
关键词:分类器注意力准确率

李路宝,陈田,任福继,罗蓓蓓

(1.合肥工业大学 计算机与信息学院,合肥 230601;2.情感计算与先进智能机器安徽省重点实验室(合肥工业大学),合肥 230601;3.德岛大学 理工学部,德岛 770-8506,日本)

0 引言

近年来,随着人机交互技术的发展和人工智能的兴起,情感计算逐渐成为人工智能领域的研究热点。在高级别人机交互过程中,人们希望赋予机器更多的情感,而情感识别是实现高级人机交互的关键技术。另外,如抑郁症、自闭症等精神疾病[1-2]都与情感有一定程度的关联。所以,对于情感识别的研究有很多重要的现实意义。

生理信号和非生理信号在情感识别中应用广泛。因为人类无法主观控制生理信号的变化,无法隐藏自己的外在行为和举止,从而表现出更高的可靠性,所以生理信号更适用于情感识别。而大脑是中枢神经系统的主要组成部分,与情感的产生密切相关,大脑皮层的不同区域对情感的贡献程度不同[3]。因此如何有效地利用脑电(ElectroEncephaloGram,EEG)信号包含的情感信息,是本文需要解决的问题。

虽然EEG 信号可以更真实、准确地反映人的情感信息,但是脑电信号是非稳态随机信号,不同人的EEG 信号存在较大的差异,同一个人的EEG 信号在不同时间也存在较大的差异,因此利用单一模态信号的模型仍然很难应用于实际生活。不同的生理信号可以反映情感的不同方面,为了获得更好的情感识别率和更稳定的模型,科研人员探索了将EEG信号与其他生理信号融合的方法[4],如心电(ElectroCardioGram,ECG)、眼电(ElectroOculoGram,EOG)、皮肤电(Galvanic Skin Response,GSR)等。而ECG 作为常用生理信号之一,包含了丰富的情感信息,也是情感计算领域研究的热点。EEG 和ECG 都包含了丰富的情感信息,从不同维度反映了人的情感状态,综合利用这些信息可以准确地检测人的当前状态。Koelstra等[5]利用音乐视频片段激发参与者的情感,收集了32 名参与者的EEG、外周生理信号和面部表情等信息,然后对EEG 和外周生理信号分别构建分类器,融合每个分类器的结果获得最终的输出。实验结果表明,基于多模态的情感识别准确率比单模态的情感识别更高。但是模型的识别率仍然难以满足实际应用需要,提高情感模型识别的准确率仍然充满挑战。

针对以上问题,本文提出一种基于图神经网络(Graph Neural Network,GNN)和注意力的多模态情感识别方法。本文的主要工作包括:1)受神经科学启发,利用EEG 通道的空间拓扑关系构建GNN,充分挖掘EEG 信息与情感之间的关联,提升脑电情感的识别率;2)设计了一种多模态融合方法,利用EEG 和ECG 信号的互补性,同时在模型中融入注意力机制,在一定程度上提升了情感识别的准确率。

1 相关工作

自情感计算理论提出以来,相关的理论都得到了快速发展。神经科学研究表明,大脑结构功能与情感密切相关[6-7],情感类别与大脑皮层和皮层下的神经系统活动有特殊的关系[8],因此可以将EEG 信号应用于情感识别。而EEG 信号是放置在头皮上的多个电极记录的大脑皮层的电势变化,原始信号无法直接进行情感识别,因此需要对采集的原始EEG信号进行相应处理,然后根据相关领域的知识设计并提取特征,并根据不同的算法构建模型对这些特征进行分类。

目前,使用生理信号中不同的特征和分类方法进行情感识别已经取得了很多成果。Pereira等[9]从EEG 信号中提取高阶交叉熵(Higher Order Crossing,HOC),利用支持向量机(Support Vector Machine,SVM)作为分类器,研究不同情绪刺激时间对情感识别率的影响。Krisnandhika等[10]使用相对小波能量作为特征值,利用改进后的神经网络作为分类器,取得了较好的识别效果。Chen等[11]使用Lempel-Ziv 复杂度、小波细节系数、协整关系度以及经过经验模态分解之后的近似熵作为特征值,然后使用LibSVM 分类器进行分类,最后使用模糊积分融合每个通道的分类结果,对于arousal 和valence的平均识别率分别为74.88%、82.63%。

大脑中多个功能器官或区域共同发挥作用,而GNN 可以很好地表示这种拓扑结构之间的关系,更好地模拟大脑的机制,为探索EGG 情感识别提供一种潜在的途径。Song等[12]将图卷积神经网络用于EGG 情感识别,提出了动态图卷积神经网络(Dynamical Graph Convolutional Neural Network,DGCNN),通过训练神经网络来动态学习不同EGG通道之间的内在关系,模型在SEED 数据集(SJTU Emotion EEG Dataset)上取得了较好的识别效果。Zhong等[13]提出用于EGG 情感识别的正则图神经网络(Regularized Graph Neural Network,RGNN),RGNN 考虑了不同大脑区域之间的生物拓扑结构,以捕获不同EEG 通道之间的局部和全局关系;同时提出了两种正则化方法节点域对抗训练和情感感知分布学习,提高了模型的鲁棒性。

人类通过快速扫描全局图像,获得需要重点关注的目标区域,然后对这一区域投入更多注意力以获得关注目标更多的细节信息。深度学习中的注意力机制与人类的视觉注意力机制类似,可以从众多信息中选择与当前目标更相关的信息。本文将注意力机制应用于模型中,使模型关注对分类结果影响更大的特征,以提高情感识别的准确率。

情感与生理信号变化有密切的联系,不同生理信号反映不同的情感信息,所以多模态融合的方法能充分利用各种信息的互补性,提高模型的准确率和鲁棒性。Katsigiannis等[14]利用视频刺激受试者,获取EEG 和ECG 信号,再从EEG 信号中提取功率谱密度(Power Spectral Density,PSD)特征,然后融合ECG 信号的心率变异度(Heart Rate Variability,HRV)和心率(Heart Rate,HR)特征。实验结果表明,该方法在arousal 维度上的识别准确率优于单模态EEG 和ECG 方法。

2 本文方法

2.1 整体结构

本文方法的总体流程如图1 所示。首先对EEG 信号进行预处理,提取信号的特征;然后利用EEG 通道的空间拓扑关系构建邻接矩阵;最后将数据送入GNN,对模型进行训练。由于ECG 数据通常是单通道或者双通道,无法构建有效的图模型,所以本文根据ECG 信号的特点,使用基于注意力的双向长短期记忆(Bi-directional Long Short-Term Memory,Bi-LSTM)网络进行分类,提取了时域特征HR 和频域特征HRV;然后利用基于注意力的Bi-LSTM 对数据进行分类;最后利用Dempster-Shafer 证据理论对EEG 和ECG 信号分类的结果进行融合,获得情感识别的结果。

图1 本文方法的总体流程Fig.1 Overall flow of proposed method

2.2 脑电情感识别

本文提取了脑电信号在5 个频段Delta(1~3 Hz)、Theta(4~7 Hz)、Alpha(8~13 Hz)、Beta(14~30 Hz)、Gamma(31~43 Hz)上的微分熵(Differential Entropy,DE)特征。DE 是香农熵的扩展,通常用于测量连续随机变量的复杂性,文献[15]的研究表明DE 能够准确和稳定地反映脑电信号的情感信息。DE 的计算如式(1)所示:

其中:p(x)为连续信息的概率密度函数;[a,b]为信息取值区间。

对于一段特定长度近似服从高斯分布x~N(μ,σ2)的单通道EEG 信号,它的DE 如下:

图2 为广泛采用的国际10-20 系统电极位置分布图[16]:图2(a)、(b)是以颅骨为参照的电极空间位置分布图;图2(c)为电极的平面分布图。之前的研究大部分都是建立在图2(c)上,但是这样会忽略脑电信号的空间信息。

图2 国际10-20系统电极位置分布Fig.2 Electrode placement of international 10-20 system

本文利用图的邻接矩阵A∈Rn×n表示EEG 通道的空间拓扑关系,n为EEG 信号中的通道,图中的一个节点表示EEG 信号的一个通道,图的边Aij表示两个EEG 通道i和j之间的关系。根据国际10-20 系统电极位置分布初始化邻接矩阵,存在连接的电极之间边的权重为1,然后根据式(3)给邻接矩阵重新赋值权重。文献[17]中的研究表明,大脑不同区域之间的强度连接通常和两个区域之间的距离成平方反比关系。

其中:dij表示两个通道之间的空间距离;α是正则化常数。

图卷积部分采用切比雪夫卷积核[18]。切比雪夫多项式代替谱域卷积核后,由于不需要对拉普拉斯矩阵作特征分解,大幅降低了参数的复杂度。卷积核具有严格的空间局部性,取当前节点邻近K个距离的邻居节点作为邻域。给定一个图G=(V,E,A),其中:V为图的所有节点;E为图的所有边。GNN 学习输入数据X的特征,并输出Z∈Rn×d,d为输出特征的维度。在GNN 的相邻层之间的特征变换表示为:

其中:i=0,1,…,L-1;L为图卷积的层数;f为学习的函数。Kipf等[19]进一步优化得到了标准的图卷积网络。

其中:D是A的对角矩阵;W是每一层可训练的参数矩阵;σ是激活函数。

模型每一层中参数设置如下:EEG 通道数为32;卷积核数量为32,卷积核为二阶切比雪夫多项式。二阶切比雪夫多项式可以使模型保持较好的准确率和局部性,同时加快模型训练的速度。特征使用脑电所有5 个频道的微分熵。在训练过程中,使用Adam 优化器,BReLU(Bipolar Rectified Linear Unit)作为激活函数。BReLU 将输入空间划分为更多的线性区域以充分捕捉输入信息,很好地逼近了非线性函数[20]。学习率设置为0.001,Dropout rate 设置为0.3,GNN layers 设置为2,整个模型在Pytorch 上实现。

2.3 心电情感识别

为进一步提高情感识别的准确率,本文同时使用ECG信号作为情感识别的另一个维度。ECG 信号是典型的时间序列信号,一个完整周期的ECG 信号通常由P 波、Q 波、R 波、S 波、T 波组成。首先,对采集到的ECG 信号使用15 s 的滑动窗口进行切片,获取4 200 个样本;然后,根据汤普金斯QRS检测算法[21]从预处理的样本中提取ECG 信号的5 个波形;最后,提取ECG 信号的HR 和HRV 特征。

由于ECG 信号前后之间存在一定的联系,而GNN 不善于处理信号的前后联系,因此在处理ECG 信号时并不高效。而长短期记忆(Long Short-Term Memory,LSTM)可以有效地解决这个问题。LSTM 是一种特殊类型的循环神经网络(Recurrent Neural Network,RNN),通过门控机制集合短期记忆与长期记忆,能够有效地处理时间序列并提取随时间变化的特征。图3 为LSTM 单元结构图,h(t)代表短期记忆,c(t)代表长期记忆。LSTM 单元根据前一个时刻的短期记忆h(t-1)、长期记忆c(t-1)和当前时刻的信息x(t)来计算本单元输出的短期记忆h(t)、长期记忆c(t)和输出结果y(t)。每个单位时间步长后,由输入门i(t)、输出门o(t)和遗忘门g(t)控制信息的流向。采用σ(·)作为激活函数,输出范围为[0,1]。

图3 LSTM单元结构Fig.3 LSTM cell structure

遗忘门由f(t)控制,前一时刻的短期记忆和当前时刻的输入信息通过遗忘门决定长期记忆有多少信息被遗忘:

其中:W代表每个输入的权重向量;b是偏置向量;σ是激活函数。

输入门由i(t)控制,它由两部分组成,第一部分通过σ(·)确定要更新的值,第二部分通过g(t)确定哪些可以被添加到长期记忆。

输出门由o(t)控制,前一时刻的短期记忆、长期记忆和输入状态共同决定输出的短期记忆和本单元的输出。

LSTM 可以根据前一个时间段的信息预测下一个时间段的信息。有时信号当前的输出不仅与之前的状态有关,还与之后的状态有关。而Bi-LSTM 结合前向和后向LSTM,前向LSTM 以正序输入序列,后向LSTM 以逆序输入序列,从而提取了历史特征和未来特征,具有提取全局特征的能力。本文将基于注意力机制的Bi-LSTM[22]应用到情感分类,并且利用注意力关注对分类影响更重要的特征。

基于注意力的Bi-LSTM 网络结构如图4 所示。输入数据是从ECG 信号提取的特征HR 和HRV,网络中LSTM 层包含10 个隐藏神经元,使用Softmax 作为激活函数,Adam 作为优化器,学习率为0.01,注意力层位于Bi-LSTM 层之后,可以产生一个权重向量,与输入特征结合产生新的特征向量。

图4 基于注意力的Bi-LSTM网络结构Fig.4 Network structure of attention-based Bi-LSTM

其中:β表示注意力层后的加权向量;H∈Rd×T为LSTM 的隐藏神经元。

2.4 决策融合

为进一步提高情感识别率,并充分利用不同生理信号包含的情感信息,本文利用Dempster-Shafer 证据理论对EEG 和ECG 信号分类的结果进行决策融合。Dempster-Shafer 证据理论是一种对不确定信息作智能处理和数据融合的方法,在可信度分配的理论框架下,将证据之间的冲突性问题纳入考虑和计算范围,对多源和不确定性信息的处理效果较好。

本文分别在arousal 和valance 维度进行分类,每个维度有两类:低/高效价(m1(A)/m1(B))和 低/高唤醒 度(m2(A)/m2(B))。根据Dempster-Shafer 证据理论,一个分类器所有可能识别的结果用集合表示P={p1,p2,…,pn},n个分类组合共有2n个子集。Dempster-Shafer证据理论对识别框架中的每一个假设类别都分配了一个基本概率分配值(Basic Probability Assignment,BPA)。m(·)是子集上对应的概率分配函数。

本文对脑电信号和心电信号分别使用类不同的模型进行识别,m1(·)和m2(·)分别代表每个分类器的置信水平,每个类别的BPA 值是分类器的分类结果。根据Dempster-Shafer 计算法则,每个类别的最终BPA 函数计算过程如式(14)~(15)所示,分别代表所有分类器累加产生相同结果的BPA 函数。

当两个分类器融合的值存在冲突时,根据图神经网络分类的情况作为最终分类的结果,因为基于EEG 的情感识别模型在证据方面优于基于ECG 的情感识别模型。

3 实验与结果分析

3.1 实验材料和设置

为了获取本文所需的可靠数据,邀请了20 名受试者参与本次生理信号采集实验,其中,男性13 名、女性7 名。参与者均为在校大学生,无任何神经损伤和精神疾病,且实验前未饮用刺激性酒水,睡眠质量较好。实验设备主要为Emotiv Epoc Flex 脑波仪和心电信号采集器。Emotiv Epoc Flex 脑波仪采样频率为128 Hz,可以同时采集多通道脑电信号;心电信号采集器通过两个贴在左右手腕脉搏上的电极贴片采集人的心电信号。实验人员精心选择了25 个视频片段来激发5 种情感:轻松、快乐、愤怒、厌恶和悲伤,每种情感共5 个视频。

图5 为参与者需要进行的情感激发实验整体流程。在进行所有实验前,每位参与者都要填写问卷调查表,并佩戴实验器材。正式播放每个视频前,每位参与者有5 s 保持专注,5 s 后播放视频。播放视频时,参与者需要尽量减少身体移动。播放完每个视频后,每位参与者有60 s 根据自己的感受对该视频激发的效果打分。参与者被要求在valence 和arousal 两个维度上打分,其中:valence 的范围为1~9,代表参与者感到幸福程度,即从悲伤到高兴;arousal 的范围为1~9,代表情感的强弱程度,即从消极到积极[23]。

图5 情感激发实验流程Fig.5 Emotion elicitation experimental procedure

对于数据的标签,本文根据参与者在valence 和arousal维度上的分数,以5 分作为中点,将每个维度分为两类,即低/高效价(沮丧/快乐)和低/高唤醒(平静/唤醒)。本文采用准确率和方差作为模型性能的评价指标。在对情绪识别模型的评估中,将实验数据划分为K折交叉验证,其中每个折中包含的每个类别数据的百分比与整个数据集的百分比大致相同。本文数据量不大,K折较小时,可能导致建模的数据量太小。本文实验了多种情况,当K=10 时,模型的方差和准确率达到相对稳定;当K继续增大时,方差增大,模型的泛化能力下降。因此最后K的取值为10。

3.2 性能分析

图6 为使用GNN 模型在基于EEG 的情感识别中arousal维度和valence 维度训练准确率和损失率的变化。关于GNN模型设置,Batch size 为100,最大迭代次数为100。从图6 可以看出,arousal 在迭代30 次后趋于稳定,valence 在50 次迭代后准确率和损失率趋于稳定。最终在arousal、valence 维度的准确率为87.89%、89.45%。

图6 在arousal和valence维度的准确率和损失率Fig.6 Accuracy and loss in arousal and valence dimensions

表1 为单模态EGG、ECG 方法与本文多模态融合方法的情感识别准确率结果。相较于单模态情感识别方法,本文方法的平均准确率更高。本文根据不同生理信号的特点使用了不同的分类器,最后融合GNN 和基于注意力的Bi-LSTM 的分类结果,在valence 和arousal 维度上的准确率分别达到了91.82% 和88.24%,相较于单模态EEG 方法分别提高了2.65% 和0.40%,相较于单模态ECG 方法分别提高了19.79%和24.90%,从而验证基于融合策略的多模态情感识别可以提高单模态情感识别的准确率。

表1 不同方法的准确率对比 单位:%Tab.1 Comparison of accuracy of different models unit:%

为了进一步验证本文方法的有效性,在两个公开数据集SEED[24]、SEED-IV[25]上进行对比实验。表2 为本文方法与DGCNN[12]、深度信念网络(Deep Belief Network,DBN)[24]分类的准确率和标准差。可以看出,本文方法均优于对比方法。原因是基于空间拓扑关系的邻接矩阵可以更好地建模大脑皮层与情感之间的关系,提高情感分类的准确率。

表2 不同数据集上分类的平均准确率和标准差 单位:%Tab.2 Average accuracy and standard deviation of classification on different datasets unit:%

由于注意力机制主要应用在ECG 分类中,为了验证注意力机制对方法的提升效果,本文进行了消融实验。将Bi-LSTM 和基于注意力的Bi-LSTM 在相同的数据集上对比,方法其他参数设置同上文。实验结果如表3 所示。可以看出,添加注意力机制后,方法在valence 和arousal 维度上分类的准确率都有一定提高。原因是注意力机制可以调整不同特征的权重,使方法更加关注对结果影响更大的特征。

表3 消融实验准确率对比 单位:%Tab.3 Comparison of accuracy in ablation experiment unit:%

3.3 与其他方法的比较

表4 为本文方法与其他多模态融合分类方法的比较。因为本文使用的是自建数据集,所以与对比方法中使用的数据集并不相同。当使用一种类型的信号时,即EEG、ECG 或者单个分类器时获取的信息有限。文献[26]中提出了一种堆叠情感分类方法,其中集成了XGBoost、LightGBM 和随机森林等不同的分类模型来学习特征。文献[27]方法融合EEG 信号和GSR 信号以提高情感分类的性能。文献[28]中提出了一种基于ECG 的自动情感识别算法,将从时域和频域中提取的生理ECG 特征以及ECG 信号的非线性分析用于寻找与情绪相关的特征并将它们与情绪状态相关联。文献[29]中使用了多种EGG 相关的特征,使用LIBSVM 和Bi-LSTM 作为分类器。相较于对比方法,本文方法在valence和arousal 维度上的准确率取得了最优,至少提高了7.54%和13.83%。

表4 不同多模态方法的准确率对比 单位:%Tab.4 Comparison of accuracy of different multimodal methods unit:%

本文方法优于其他方法的原因在于:1)GNN 可以更好地模拟大脑的机制,提高脑电情感识别的准确率,同时融入了注意力机制,可以在分类过程中更好地关注对于结果影响更重要的特征;2)不同生理信号之间具有互补性,可以提高情感识别的准确率。

4 结语

本文提出一种基于GNN 和注意力的方法,首先,利用EEG 电极之间的空间拓扑结构构建邻接矩阵,在GNN 中融入注意力机制,关注对于结果影响更大的区域;然后,对于ECG 信号使用基于注意力的Bi-LSTM 方法进行情感识别;最后,通过Dempster-Shafer 证据理论融合不同生理信号分类的结果,并获得最终的情感识别结果,提高了情感识别的性能。实验结果表明,多模态生理信号的融合可以提高情感识别的准确率,优于单模态识别的准确率,体现了多模态融合的优越性。在未来的研究中,可以考虑如何利用异构GNN 对多模态生理信号进行统一建模,研究不同生理信号之间对模型识别率的影响。

猜你喜欢
分类器注意力准确率
让注意力“飞”回来
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
高速公路车牌识别标识站准确率验证法
BP-GA光照分类器在车道线识别中的应用
“扬眼”APP:让注意力“变现”
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
A Beautiful Way Of Looking At Things