基于脑电时频空多域特征融合的情感识别研究

2023-02-28 09:19梁明晶石慧宇
计算机工程与应用 2023年4期
关键词:脑电电信号时域

王 璐,梁明晶,石慧宇,温 昕,曹 锐

太原理工大学 软件学院,太原 030024

情感是人类在某种特定环境下基于主观经验对事物的一种生理和心理反应,也是大脑高级认知功能之一。情感识别作为情感研究中的核心内容,现已成为计算机科学、心理学以及认知科学等交叉学科的研究热点。目前,大多数情感识别研究主要依靠人类面部表情、语音以及身体姿势等非生理信号特征[1-2]。脑电信号作为中枢神经生理信号能够客观反映不同情感状态时大脑的活动情况[3],近年来逐渐被引入到情感识别研究中。

常用的EEG 特征分析方法包括时域分析、频域分析、空域分析等[4]。在时域分析方面,陈景霞等人[5]将原始时域特征按通道进行归一化处理,得到一种归一化的时域特征NORM,在愉悦度和唤醒度上识别率分别达到65.51%和61.76%。Petrantonakis等人[6]提取了一种基于信号过零点统计的时间序列分析特征,在六种情绪(即高兴、惊奇、愤怒、恐惧、厌恶和悲伤)识别中实现了单通道识别准确率62.3%和多通道识别准确率83.33%。随着研究深入,研究人员发现EEG 信号具有较为突出的频域特征,功率谱密度(power spectral density,PSD)是脑电信号研究领域应用最广泛的特征之一[7]。Liu等人[8]提取脑电PSD 特征并使用支持向量机(support vector machine,SVM)进行情感五分类(即高兴、中立、厌恶、悲伤、紧张)研究,分类结果达到93.31%。在空域分析方面,闫梦梦等人[9]提出了一种基于共同空间模式(common spatial pattern,CSP)的空域滤波算法,结果表明基于CSP的空域特征提取方法在三分类情感(即积极、中性、消极)识别中平均识别准确率达到了87.54%。综上,在目前的研究中,传统脑电的情感识别研究主要关注的是时域、频域和空域方面单一特征提取,而在多特征融合方面的研究较少。

近年来,深度学习在情感识别方面被广泛地应用。例如,Yang等人[10]在EEG不同频段上计算微分熵(differential entropy,DE)构成三维特征向量,使用卷积神经网络(convolutional neural network,CNN)在DEAP 数据集对愉悦度和唤醒度两个维度进行情感识别,平均识别准确率分别达到89.45%和90.24%。阚威等人[11]提出一种基于长短时记忆网络(long short-term memory,LSTM)的情感识别模型,该模型在DEAP 数据上进行唤醒度、愉悦度和喜欢度三个情绪维度的二分类,分类准确率分别得到73.87%、73.50%和72.80%。Zheng等人[12]利用深度置信网络(deep belief network,DBN),基于SEED 数据集从多通道EEG数据中提取DE特征进行训练,得到了86.08%的平均分类准确率。Li 等人[13]基于DEAP 数据集从多通道EEG中提取PSD特征并构建了EEG多维特征图像,采用CNN、LSTM 和循环神经网络(recurrent neural network,RNN)构建混合神经网络模型CLRNN进行脑电情感识别,对每个受试者的平均情感分类准确率达到75.21%。

传统情感研究提取单一特征不足以描述EEG蕴含的丰富信息,简单的特征组合可能会使特征空间存在冗余特征,从而影响模型精度并增加模型复杂度[14]。因此本文提出一种多域特征融合的脑电情感识别新方法,提取EEG的时域、频域和空域特征,将三域特征融合作为情感识别模型的输入。首先计算EEG 不同时间窗在alpha、beta、gamma三个频段的功率谱密度,并根据脑电电极空间信息构成EEG 图片,将其作为CNN-BLSTM模型的输入,其中CNN负责提取EEG频域和空域特征,BLSTM 负责提取EEG 时域特征,最后以融合后的三域特征训练模型,提高情感识别精度。本文提出的多域特征融合的脑电情感识别方法旨在充分利用脑电信号的时域、频域、空域特征,有望为情感识别提供合理有效的思路和方法。

1 脑电信号数据集和特征提取

1.1 SEED数据集与数据预处理

本文使用的是上海交大相关研究团队公开的SEED数据集[15]。该数据集使用15 个电影剪辑片段作为情感诱发素材,电影剪辑片段分为积极、中性、消极三种情感类别,每个电影片段时长为3~4 min。每次实验向被试放映这15 个电影剪辑片段,每个片段放映前提示时间为5 s,放映完毕反馈时间为45 s,休息时间为15 s,详细实验流程如图1所示。

图1 实验流程图Fig.1 Flowchart of experiment

实验共有15 名被试(7 男,8 女,平均年龄23.27 岁,标准差2.37),每名被试每隔约1周进行一次实验,共进行3 次。当被试观看电影剪辑片段时,使用62 电极的NeuroScan设备记录被试脑电数据,采样频率为1 000 Hz(预处理后降采样至200 Hz),并采用0~75 Hz的带通滤波器进行滤波。为保持数据格式统一,本研究将每个被试的3~4 min脑电数据截取前180 s,并将其划分为10个18 s 片段。因此,每名被试共有450 样本(15 个电影剪辑×10 个片段×3 次实验),且在三分类的情感识别任务中每种情感类别样本数目相等。

1.2 功率谱密度

功率谱密度能够较好地表征脑电信号功率与频率的关系,在EEG 情感识别中被广泛使用。较为常见的计算功率谱密度方法有周期图法、自相关函数法和Welch法。周期图法直接利用时间序列的离散傅里叶变换系数幅值平方计算功率谱密度。自相关函数首先估算出信号x(n)的自相关函数,然后经过傅里叶变换求得信号的功率谱密度。Welch法使用信号重叠分段、加窗函数和FFT(fast Fourier transformation)算法计算信号序列的功率谱密度[16],可以有效地改善谱失真等现象[17]。本文为了减少功率谱估计偏差选用Welch 法计算功率谱密度。把脑电信号x(n)的N点观察数据xN(n)视为有限信号,并将xN(n)划分成交叠的L段,每段包含M个数据,第i段信号的功率谱记为pi(w),计算如式(1)所示:

1.3 特征提取

本研究将三维电极坐标信息投影到二维平面并结合计算所得的脑电特征生成三通道EEG图片作为情感识别模型输入。首先采用等距方位投影方法将电极三维空间信息投影到二维平面上,该方法可以保留投影到二维平面上的点到中心点距离,防止电极坐标内部信息的丢失。具体的投影过程如下,某电极的三维空间坐标为(x,y,z),根据位置信息由式(3)、(4)、(5)可得电极的球坐标参数:

其中,r表示球坐标半径,e表示极角,a表示方位角。由式(6)、(7),根据球坐标的参数计算确定该电极的二维笛卡尔坐标:

按照上述方法将62 个电极分别投影到二维平面,投影结果如图2所示。

图2 等距方位投影电极位置图Fig.2 Azimuthal equidistant projection electrode location

获得电极位置在二维平面的投影后,使用双三次插值法根据各电极计算所得特征填充电极间空白区域特征。对于某一待插值像素点(x,y),通过式(8)计算待插值像素点数值:

其中,f(x,y)表示待插值像素点(x,y)的数据值,f(xi,yj)、W(x-xi)、W(y-yj)分别表示与位置(x,y)的像素点距离最近的16个像素点的数据值以及横纵坐标权值。根据BiCubic函数计算权值,如式(9)所示:

其中,a为常系数,取值-0.5。

大量研究表明,脑电信号alpha(8~13 Hz)、beta(14~30 Hz)以及gamma(31~75 Hz)频段与情绪心理活动密切相关[18-19]。本文将18 s 预处理脑电数据以3 s 为时间窗划分为6个子序列,并在3个频段上分别计算62个电极功率谱密度值,利用双三次插值法构建三通道彩色图片。具体流程如图3所示。

图3 脑电信号特征提取和转化过程Fig.3 Feature extraction and transformation of EEG

2 情感识别模型建立

2.1 CNN模型构建

本文首先构造一个卷积神经网络模型,由卷积层、池化层、全连接层和Softmax 分类层构成。卷积神经网络具有稀疏连接和权值共享等特性,可以有效降低网络的复杂度,减少网络参数,有利于网络优化和训练。EEG情感识别实验中模型参数设置与识别精度密切相关,但目前参数设置只能通过人工多次实验来确定。本文为防止神经网络学习过程出现过拟合问题,引入Dropout技术提高参数泛化能力,防止网络参数对训练数据的重度依赖[20]。

本文评估不同的VGG 风格的卷积神经网络配置,如表1所示,设置卷积核的大小为3×3,步长为1,激活函数为ReLU,参数设置学习速率为0.001,迭代次数为10次,Dropout值为0.5,采用池化窗口为2×2、步长为1的最大池化法进行池化。在5 个模型中,模型A 将2 个卷积层叠加;模型B相对A增加了2个卷积层(Conv3-64);模型C在B的基础上增加了1个卷积层(Conv3-128);模型D相较C在第一个最大池化层前提供了4层卷积(Conv3-32);模型E在D的基础上在最后一个最大池化层前增加1个卷积层(Conv3-128)。最后的Softmax 层前是具有512个隐藏神经单元的全连接层。本文还选用了Adam 算法训练神经网络。Adam算法将Momentum和RMSProp算法进行结合,提供解决稀疏梯度和噪声问题的优化方法[21]。一阶矩估计指数衰减率和二阶矩估计指数衰减率分别设置为0.9和0.999。

表1 不同CNN模型的配置信息Table 1 Configuration information for different CNN models

2.2 CNN-LSTM和CNN-BLSTM模型构建

针对传统递归神经网络存在序列过长时梯度消失、爆炸等问题,LSTM既能保证较长时间序列的关键特征能够输入到下一时刻,又能选择性地让信息通过,防止过载。LSTM 包含有遗忘门、输入门、输出门和记忆单元,可以控制之前信息和当前信息的记忆和遗忘程度,从而具备长期记忆功能。LSTM 模型运算如式(10)、(11)、(12)、(13)、(14)所示:

式中,ft代表遗忘门;it代表输入门;ot代表输出门;ct代表记忆单元;ct-1代表前一时刻记忆单元;σ代表sigmoid激活函数;W代表权重矩阵;X代表输入向量;b代表偏置数值;tanh 为双曲正切函数;ht为输出状态。

BLSTM由两层LSTM构成,按时间方向分为前LSTM和后LSTM。经CNN提取的深层特征进入BLSTM独立进行学习,将学习的特征统一送到输出层,计算如式(15)所示:

其中,h1代表前向LSTM输出状态;h2代表后向LSTM输出状态;W1代表前向LSTM权重矩阵;W2代表后向LSTM权重矩阵。

本文所使用的CNN-LSTM(图4(a))模型与CNNBLSTM(图4(b))模型构建步骤如下:将6 个子序列的EEG三通道脑电图片分别输入到CNN中获取频域和空域特征,再将CNN 网络提取的深层特征向量输入到LSTM 或BLSTM 中进一步处理获取时域特征。前后LSTM层的隐藏层单元数量均设置为128,学习率为0.001。将时、频、空三域特征融合输入全连接层,经过Softmax分类器,得到情感识别结果。

图4 融合模型示意图Fig.4 Schematic diagram of fusion model

3 实验结果与分析

本文使用“留一法”评价模型的识别精度,即每次测试都将当前被试数据作为测试集,从剩余数据中选取与测试集同等规模的数据作为验证集,最后剩余的数据作为训练集。共有15 名被试,每名被试的样本数为450,因此实验中测试集、验证集和训练集样本数分别为450、450和5 850,共进行15次测试,最终取所有测试的平均值作为模型的识别精度。

3.1 各类模型识别精度

一般来说,卷积神经网络的识别精度随着网络结构深度的增加而提高,但过深的网络结构由于过拟合,导致无法取得较好的识别效果。图5展示了5种不同CNN模型的识别准确率。模型A深度最浅,识别准确率最差仅为73.31%(±9.10);模型B的识别准确率达到了81.24%(±7.25);模型C 的识别准确率达到了83.23%(±6.93);模型E 相较D 网络深度更深,识别准确率为76.94%(±7.36),低于模型D的识别准确率88.55%(±6.48)。这是由于随着网络深度增加,网络参数数量显著增多,网络训练和优化的难度增加,而本实验中的训练集样本数仅有5 850个,容易出现过拟合现象,从而导致识别精度降低。

图5 各类模型识别精度Fig.5 Recognition accuracy of various models

本文选用以上最优的CNN模型D分别与LSTM和BLSTM 进行融合构建CNN-LSTM 和CNN-BLSTM 模型。图5 表明CNN-LSTM 与CNN-BLSTM 相对于单一的CNN 模型识别精度均有提高,可能是由于单一的CNN 模型只提取了脑电信号的频域和空域特征,忽视了EEG 的时域特征,而CNN-LSTM 与CNN-BLSTM 模型均考虑了EEG 信号的时域特征,表明充分提取EEG信号的时域特征能有效地提高情感识别精度,证明了本文构建的模型的有效性,能够充分学习EEG时域、频域和空域特征。同时发现CNN-BLSTM 的识别准确率为96.25%(±5.39),高于CNN-LSTM 的91.27%(±6.03),这是由于LSTM只能顺序处理序列,而EEG具有双向信息依赖特性,BLSTM将前向LSTM与后向LSTM结合,有利于脑电数据的处理。

3.2 同类相关研究对比

将本文方法与其他相关使用情感数据集的分类研究进行对比,结果如表2 所示。文献[22]首先从脑电信号中提取18 种线性与非线性特征,再使用自动特征选取方法选取与情感最相关的特征信息,利用SVM 进行情感识别,在SEED 数据集上达到83.33%的识别率,在DEAP数据集上达到59.06%的平均识别准确率。文献[23]应用加窗、预处理和归一化操作后,使用原始EEG数据直接输入预训练的CNN 模型,在SEED 数据集上达到78.34%的平均识别准确率,在DEAP 数据集上达到72.81%的平均识别准确率,在LUMED 数据集上达到81.80%的平均识别准确率。文献[24]基于SEED数据集利用小波包变化(wavelet packets transform,WPT)提取节点能量特征,并构建6个不同深度的CNN 模型,采用加权平均法构造集成模型达到93.12%的识别准确率。文献[25]在SEED数据集上提取被试脑电信号DE特征,通过DBN 的权重选择关键电极,最终取得86.65%的识别准确率。与上述基于脑电信号的情感识别方法相比,本文构建的CNN-BLSTM 模型在积极、中性、消极的三分类情感识别上获得最优平均识别准确率达96.25%。

表2 同类研究对比Table 2 Comparison with similar studies

4 结束语

本文使用SEED数据集中的脑电数据进行研究,将每个被试的3~4 min脑电数据截取前180 s,并划分为10个18 s片段,按照图3所示的方法,将18 s预处理脑电数据以3 s 为时间窗划分为6 个子序列,并在alpha、beta、gamma 频段上分别计算62 个电极功率谱密度,利用双三次插值法构建32×32 EEG图片进行情感识别。

实验结果表明,在SEED 数据集进行情感识别实验,利用CNN 提取EEG 的频域和空域特征,然后利用BLSTM 提取EEG 的时域特征,采用的基于时、频、空三域特征融合的CNN-BLSTM 识别模型相比传统单一的特征分析方法和神经网络识别模型,在识别准确率上有所提高,平均识别准确率达96.25%。

此外,本文提出的多域特征融合模型可以为其他脑电信号的分类研究提供参考与帮助,值得后续深入研究。

猜你喜欢
脑电电信号时域
基于联合聚类分析的单通道腹部心电信号的胎心率提取
基于Code Composer Studio3.3完成对心电信号的去噪
基于时域信号的三电平逆变器复合故障诊断
山区钢桁梁斜拉桥施工期抖振时域分析
基于随机森林的航天器电信号多分类识别方法
基于极大似然准则与滚动时域估计的自适应UKF算法
现代实用脑电地形图学(续)
现代实用脑电地形图学(续)
现代实用脑电地形图学(续) 第五章 脑电地形图的临床中的应用
基于时域逆滤波的宽带脉冲声生成技术