基于混合神经网络的脑电时空特征情感分类*

2021-02-25 12:16:12陈景霞张鹏伟闵重丹李玥辰

软件学报 2021年12期

陈景霞,郝为,张鹏伟,闵重丹,李玥辰

(陕西科技大学电子信息与人工智能学院,陕西西安 710021)

近年来,随着深度学习、人工智能技术的发展,情感识别已经成为人机交互和情感计算领域一个备受关注的研究热点.情感识别是理解一个人所表达的情感类型的过程,开发高效、鲁棒的人类情感识别算法,将对人机交互方式产生重大影响[1].在人机交互应用程序中引入自动情感识别技术,可以显著提高用户体验的质量,带来更多感知情感的计算机交互界面,并且可以实现许多基于情绪感知、情绪调节的控制功能.脑电图(electroencephalogram,简称EEG)是一种非侵入性脑成像技术,依赖于头皮的电极来测量大脑的电生理活动,其中包含了大量的生理、心理与病理信息.神经生理学、心理学大量研究发现:人类情感的产生及活动与大脑皮层的活动相关度很大,人类不同的认知和情感活动能够诱发产生不同的EEG 信号,对其进行有效的特征提取与分类,可以达到情感脑-机接口控制的目的[2,3].与人类的面部表情、语音、心电、核磁等生理信号相比,EEG 信号由于其客观性强、不易伪造、采集设备便携、易于操作、成本低等优点,正越来越多地被应用到人类情感的识别中[4].

脑电图信号的处理与识别具有极大的挑战性.首先,EEG 信号具有很低的信噪比,容易受到多种噪声的干扰.例如:敏感的记录设备很容易受到周围环境的干扰,而且肌肉活动、眼球运动或眨眼都可能带来其他不必要的噪音;其次,人们往往只对特定大脑活动相关的EEG 信号感兴趣,但是却很难从背景中将这个信号分离出来.虽然EEG 信号在头皮上空间分辨率较低,但它较高的时间分辨率(毫秒级)可以记录缓慢或快速变化的大脑活动动态[5].因此,为了确定和提取EEG 信号中与特定大脑活动或情感相关的部分,需要复杂的EEG 信号分析与处理技术,既要考虑EEG 信号空间的相关性,也要考虑时间上的相关性.

近年来,深度学习技术由于具有很强的端对端自学习复杂特征表示的能力,避免了大量手工特征提取,在计算机视觉、自动语音识别、自然语言处理和生物信息学等领域的识别任务中取得了巨大的成功[6-8].卷积神经网络(convolutional neural network,简称CNN)是当前识别图像和视频数据的最佳架构的核心,这主要是因为它们能够学习并提取对输入数据的部分平移和变形具有鲁棒性的特征表示[9].而循环神经网络(recurrent neural network,简称RNN)和长短时记忆网络(LongShortTerm memory,简称LSTM)在许多涉及时间序列动力学的应用中表现出了最先进的性能,如文本和语音识别[7]、信息抽取与语义分析[10]等.此外,文献[11]中,Ng 等人将这两种类型的网络相结合用于视频分类,并且取得了较好的效果.

随着便携式脑电采集技术和设备的出现,大规模脑电数据变得更易获取,CNN,RNN 和LSTM 等深度学习技术也越来越多地应用于脑电图时间序列的分类与识别中.Bashivan 等人[12]针对认知和精神负荷分类实验中采集的EEG 数据,提出了一种深度递归卷积神经网络R-CNN,从EEG 序列中学习那些对于时、空、频这3 个维度的变化都不敏感的鲁棒性特征,其分类错误率比他们之前采用的支持向量机和随机森林的错误率降低了50%以上.Ryan 等人[13]采用基于LSTM 的深度循环神经网络来解释认知相关脑电信号在时间上依赖性,从而显著提高了跨天采集的EEG 特征的稳定性,其被试内的平均分类准确率达到93%.Dalin 等人[14]提出了一种深度卷积循环神经网络模型,通过有效地学习原始EEG 数据流时空相关特征表示,来准确地识别人类运动意图,在MI-EEG 数据集上取得了98.3%的被试依赖的分类准确率,其性能均高于其他简单分类器和别的基于深度学习的EEG 分类模型.Lawhern 等人[15]提出了一种没有完全连接层的多层纯卷积神经网络的应用,该方法在基于P300 的oddball 识别任务、手指运动任务中运动相关皮层电位识别和运动想象中感官运动节律识别等范式中都取得了目前为止最好的性能.上述方法都为基于EEG 的情感识别提供了有益的参考.

Alhagry 等人[16]提出了一种基于LSTM 长短时记忆结构的深度循环神经网络,在DEAP 公开数据集上,唤醒/效价/喜欢这3 个情感维度上依赖于被试的平均分类准确率分别达到85.65%,85.45%和87.99%,与传统方法相比,该方法具有较高的平均精度.Soleymani 等人[17]提出利用LSTM-RNN 和连续条件随机场(CCRF)算法,从被试的脑电信号和面部表情即时检测被试观看视频时情感状态的方法,取得了较好的效果.Salama 等人[18]采用一种三维卷积神经网络(3D-CNN),针对多通道脑电图数据进行情绪识别,在效价和唤醒上的识别准确率分别为87.44%和88.49%.本文作者也曾采用深度CNN 模型[19],基于DEAP 数据集EEG 信号时域、频域及其组合特征,端对端自学习这些特征的高层抽象表示,在效价和唤醒度上的分别取得了88.5%和86.7%的识别准确率.在文献[20]中,我们还采用了一种基于注意力机制的多层双向GRU(gated recurrent unit)模型对DEAP 数据集中连续的EEG 序列信号进行情感识别.实验证明,该模型能够有效降低EEG 序列长时非稳定性对情感识别的影响.上述这些方法都在一定程度上提高了EEG 情感分类的性能,但是还没有一种模型能够有效地在空间、时间和频域上同步学习脑电信号情感相关的判别性特征,进一步提高基于EEG 的情感识别的准确率和鲁棒性仍然面临较大的挑战.

本文提出一种新的脑电图数据表示方法,将一维链式EEG 序列转换成二维网状矩阵序列,使矩阵结构与EEG 电极位置的脑区分布相对应,以此来表示EEG 信号物理上多个相邻电极之间的空间特征.再应用滑动窗采样的方法将二维矩阵序列分成一个个等长的时间片段,作为新的融合了EEG 时空相关性的数据表示.本文还提出了级联卷积-循环神经网络(CASC_CNN_LSTM)与级联卷积-卷积神经网络(CASC_CNN_CNN)这两种深度学习模型,二者都通过CNN 卷积神经网络从转换的二维网状EEG 数据表示中捕获物理上相邻脑电信号之间的空间相关性,而前者通过LSTM 循环神经网络学习EEG 数据流在时序上的依赖关系,后者则通过CNN 卷积神经网络挖掘局部时间与空间更深层的相关判别性特征,从而精确识别脑电信号中包含的情感类别.

1 本文提出的方法

1.1 二维EEG网状特征转换

基于EEG 的情感脑-机接口系统通常使用便携式可穿戴的多通道电极帽采集EEG 信号,当被试者观看刺激视频时,电极帽上的传感器捕获被试大脑头皮电流的波动情况.本文提出的EEG 信号采集与特征转换的总体流程如图1 所示,其中,EEG 电极地图显示了一种BCI 常用电极帽上的电极位置分布.不同BCI 系统的脑电记录通道数量不同,其电极的分布也有所不同.

Fig.1 EEG data acquisition and pre-processing process图1 脑电数据采集和预处理流程

EEG 采集系统获取的传感器读数表示一定采样频率下的脑电信号时间序列.通常,时间点t采集的原始 EEG 信号用一个一维数据向量表示,其中,n表示采集系统的通道总数,表示第n个电极通道在第t个时间点的读数.对于观测时间段[t,t+N-1],共有N个一维这样的数据向量,每一个向量都包含n个元素,对应电极帽上第n个电极的读数.

从EEG 头皮电极分布图可以看出:每个电极在物理上都与多个电极相邻,用于测量大脑某一区域的EEG 信号,而且不同的大脑区域对应于不同的大脑活动.上述一维链式EEG 数据向量仅能表示两个相邻电极位置的相关性,因此,本文根据EEG 采集系统的电极空间位置关系,将获取的一维原始脑电序列转换为二维网状矩阵序列.本文将32 通道一维EEG 数据向量Xt转换成如下所示的二维网状矩阵Yt:

其中,t表示某一具体的时间点,没有使用的电极位置被置为0,在神经网络中不起作用.通过转换,观测时间段[t,t+N-1]内的一维EEG 向量序列[Xt,Xt+1,…,Xt+N-1]被转换成二维矩阵序列[Yt,Yt+1,…,Yt+N-1],其中,二维网状矩阵的数量仍然是N.再通过Z-score 算法对该二维矩阵中的非零数据进行归一化处理,这样产生的二维网状矩阵序列既包含了时间信息,又包含了该时间点相关大脑活动的空间信息.然后,如图1 的最后一步所示,应用滑动窗将二维网状矩阵序列划分为一个个单独的片段Pj,作为融合了时空特征的一个EEG 样本,每个片段具有固定长度(窗口大小),而且相邻两个片段之间不重叠,具体表示为Pj=[Yt,Yt+1,…,Yt+s-1].其中,s表示窗口的大小,即采样点的个数;j=1,2,…,q,q是观测时间段被划分成EEG 样本片段的个数.本文将进一步提出一种有效的混合深度学习模型,同时学习每个样本的矩阵序列Pj在时间和空间上的相关性特征,并预测每个样本片段被试对应的情感类别.

1.2 Casc-CNN-LSTM级联卷积循环神经网络模型

本文首先提出用来学习捕获EEG 序列的空间和时间特征的Casc-CNN-LSTM 的模型结构,如图2 所示.模型的输入是经过上述预处理的二维网状矩阵序列(如样本Pj),它是一个包含了空间和时间信息的三维数据结构.首先,采用CNN 网络从每一个二维网状矩阵中提取EEG 数据的空域特征;然后,将提取的空间特征序列输入到LSTM 网络,进一步提取EEG 数据的时域特征;最后,通过一个全连接层接收LSTM 网络最后一个时间点的输出,得到的特征向量再输入到一个softmax层进行最后的情感类别预测.

为了提取每一个二维网状矩阵的空间特征,我们采用如图2 所示的一个深度二维CNN 网络进行空间特征学习.如上所述,输入模型的第j个EEG 片段用二维网状矩阵序列Pj=[Yt,Yt+1,…,Yt+s-1]∈Rs×h×w表示,其中包含s个Yk(k=t,t+1,…,t+s-1)表示的二维网状矩阵元素,其大小是h×w,h和w分别表示电极位置网状矩阵的高和宽.将每一个网状矩阵分别输入到一个2D-CNN 网络,经学习得到对应的空间特征表示Zk(k=t,t+1,…,t+s-1):Zk=CNN2D(Yk),Zk∈Rl.Zk是一个包含l 个元素的一维特征向量.由此,输入的EEG 矩阵序列被转换成空间特征向量的序列:Cas-CNN:Pj→Qj,whereQj=[Zt,Zt+1,…,Zt+s-1]∈Rs×l.该2D-CNN 模型包含4 个卷积层,每层分别采用16,32,64,128 个大小都是3×3 的卷积核进行非填充的卷积操作,每一层都采用ReLu激活函数和Adam 优化器,学习率取0.0005.经过学习,第1 个卷积层得到16 个7×7 的特征图,第2 个卷积层得到32 个5×5 的特征图,第3 个卷积层得到64 个3×3 的特征图,第4 个卷积层得到128 个1×1 的特征图.之后,应用一个包含128 个神经元的全连接层将128 个特征映射转换成最终的空间特征表示Zk∈R128.在将2D-CNN 的输出结果输入RNN 网络之前,这个全连接层是可选的.但是实验发现:添加这个全连接层,对于帮助模型收敛、提高整个框架的性能起着重要的作用.

通过对模型的精准性和时效性的双重筛选,本文最终使用如图2 所示的LSTM 单元构建一个单层双向RNN 模型,将空间特征表示序列Qj输入到该RNN 模型,进一步计算EEG 片段时域的相关性特征.LSTM 是一种为了解决梯度消失和梯度爆炸问题而提出对RNN 隐含层改进后的神经元结构.在双向LSTM 中,顺逆序传播可以分别提取某一节点EEG 与其前后片段的关系,从而使该模型提取的特征更加客观和准确.

Fig.2 Combination model Casc_CNN_LSTM图2 Casc_CNN_LSTM 组合模型

该模型的每个传播方向上都包含s个LSTM 单元,LSTM 单元在当前时间点t处的隐状态用ht表示,则ht-1表示前一个时间点t-1 处的隐状态.同一层前一个时间点的信息被传到当前时间点,以此类推影响到最后的输出.本文使用LSTM 单元的隐状态作为其输出,正向LSTM 单元输出的隐状态序列为[ht,ht+1,…,ht+s-1],逆向LSTM 单元输出的隐状态序列为.由于我们感兴趣的是大脑在整个样本时间段内的情感类别,所以分别从两个方向上取LSTM 学习完整个窗口内所有时间点后提取的最后一个时间点的输出ht+s-1和.将ht+s-1和在描述特征向量大小的维度上进行拼接,记为Hj.而Hj作为整个RNN 网络学习到的时序特征送入下一个全连接层,如图2 的最后阶段所示.EEG 网状矩阵序列Pj的时域特征Hj表示为

其中,i表示一个LSTM 单元的隐状态的大小.最后,在全连接层之后,采用一个Softmax层产生最终每一类情感的概率预测值:Softmax:Cj=SoftMax(Hj),Cj∈Rk,其中,k表示模型最终要识别的情感类别数.

总的来说,我们的框架首先将观测时间段内的EEG 数据流转换、切分成二维的网状矩阵序列片段,然后对每一个片段进行k类情感分类.每一个片段Pj包含s个已经被转换的二维网状矩阵[Yt,Yt+1,…,Yt+s-1].在每一个片段内部,应用一个3 层2D-CNN 网络对其中每一个网状矩阵提取其空间特征,得到空间特征序列[zt,…,zt+s-1];随后,应用RNN 网络对整个空间特征序列进行学习,进而提取时域特征Hj;最后,使用Softmax分类器计算每一个片段k种情感的分类概率.原始EEG 记录经由Cas-CNN-RNN 模型处理的过程可以描述为Input(s×n)-Trans(s×h×w)-Conv(s×h×w×16)-Conv(s×h×w×32)-Conv(s×h×w×64)-Conv(s×h×w×128)-FC(l)-LSTM(s×2i)-FC(l)-Softmax(k).其中:Input(s×n)表示分段大小为s且包含n个通道数据的一维原始EEG 记录序列,Trans(s×h×w)表示将一维EEG 记录序列转换为长度为s大小为h×w的网状矩阵序列,Conv(s×h×w×m)表示一个卷积层从一个网状矩阵学习得到m个特征映射,FC(l)表示具有l个神经元的全连接层,LSTM(s×2i)表示顺逆两个传播方向分别具有s个LSTM 单元的隐含层学习得到大小为i的隐状态,Softmax(k)表示用于预测k个情感类别的Softmax层.

在级联结构的2D-CNN 模型中,卷积层后面都没有使用池化操作.虽然在CNN 体系结构中,一个卷积层通常与一个池化层成对使用,但池化操作并不一定是必须的,池化操作是以牺牲一部分信息为代价来进行数据降维.然而在EEG 数据分析问题中,数据的维度比计算机视觉研究中使用的数据维度要小得多,为了不丢失有用的EEG 信息,本文没有使用池化操作,而是直接将4 个卷积层进行了连接.

1.3 Casc-CNN-CNN级联双卷积神经网络模型

本文提出的用来挖掘更深层局部时空特征的Casc-CNN-CNN 模型结构如图3 所示.

Fig.3 Combination model Casc_CNN_CNN图3 Casc_CNN_CNN 组合模型

模型的输入同Casc-CNN-RNN 的输入一样,都是包含了空间和时间信息的三维数据结构.模型采用CNN 网络从每一个二维网状矩阵中提取EEG 数据的空域特征,然后将提取的空间特征按照时间顺序重新排列,再次输入一个CNN 网络,继续提取EEG 数据深层局部时空特征,最后通过一个全连接层接收CNN 网络的输出,得到的特征向量再输入到一个softmax层进行最后的情感类别预测.

Casc_CNN_CNN 与级联模型Casc_CNN_LSTM 中的CNN 部分相同,将二维网状矩阵序列Pj输入进一个由4 个卷积层与一个全连接层组成的CNN 网络中,并转换成具有空间特征向量的序列Qj,whereQj=[Zt,Zt+1,…,Zt+s-1]∈Rs×l.其中,Zk(k=t,t+1,…,t+s-1):Zk=CNN2D(Yk),Zk∈Rl是一个包含l 个元素的经过CNN 学习后的一维空间特征向量.将Qj整合成形如s×l的矩阵后,再次使用CNN(为区别于前文CNN,下将该网络称作CNNII)网络提取原始EEG 的进阶空间特征.式中s表示向量序列的长度,l表示每个序列所包含的元素个数.CNNII 由两个卷积层、两个池化层、一个全连接层组成,两个池化层分别连接在两个卷积层后,将经过第2 个池化层池化过的数据进行向量化处理后,接入一个神经元数为512的全连接层,最终在全连接后接入Softmax层,产生最终每一类情感的概率预测值.两个卷积层分别采用32 和64 个3×3 大小的卷积核进行有填充的卷积操作.两个池化层都采用2×2 大小且步长为2 的Maxpooling 过滤器对卷积结果进行下采样处理.卷积层和全连接层采用ReLu激活函数以及Adam 优化器,学习率取0.000 1.

原始EEG 记录经由Cas-CNN-RNN 模型处理的过程可以描述为Input(s×n)-Trans(s×h×w)-Conv(s×h×w× 16)-Conv(s×h×w×32)-Conv(s×h×w×64)-Conv(s×h×w×128)-FC(l)-Cat(b)-Trans(s×h×w)-Conv(s×h×w×32)-Pooling(max,2)-Conv(s×h×w×64)-Pooling(max,2)-FC(l)-softmax(k).其中,Input(s×n)表示分段大小为s且包含n个通道数据的一维原始EEG 记录序列,Trans(s×h×w)表示将一维EEG 记录序列转换为长度为s大小为h×w的网状矩阵序列,Conv(s×h×w×m)表示一个卷积层从一个网状矩阵学习得到m个特征映射,Cat(b)表示将b个向量按时间顺序连接,Pool(max,2)表示使用步长为2,核为2×2 的最大池化层,FC(l)表示具有l个神经元的全连接层,Softmax(k)表示用于预测k个情感类别的softmax层.

2 实验及结果分析

首先介绍实验采用的DEAP 数据集及EEG 数据预处理与特征提取的方法,然后在效价维度上进行被试内两类情感的分类实验,以BT,SVM 浅层分类器以及深度CNN 模型在1 秒EEG 片段上的分类性能为基准,同Cas- CNN-RNN 和Cas-CNN-CNN 模型的分类性能进行比较与分析.同时,通过对比实验研究了时空信息对EEG 情感分类性能的影响.

2.1 数据集

本文基于公开的大规模EEG 情感数据集DEAP[21]验证所提出的级联和并行深度卷积循环神经网络模型的有效性.该数据集是由伦敦玛丽皇后大学的相关研究团队开发的包含EEG 等多种生理信号的大规模开源数据集,它记录了32 个被试者观看40 个时长约为1 分钟的、带有不同情感倾向的音乐视频所诱发的脑电、心电、肌电等生理信号,之后,被试对所观看的视频在唤醒度、效价、喜好、优势度和熟悉度方面,使用1~9 的连续数值进行评价,评价值由小到大分别表示各项指标由负到正或由弱到强.40 个刺激视频中包含20 个高效价/唤醒度刺激和20 个低效价/唤醒度刺激.本文取其中32 通道的EEG 信号,采样频率降至128Hz.为了消除直流噪声、电源噪声和其他伪迹,使用4Hz~45Hz 的带通滤波器进行数据过滤,再采用盲源分离技术去除了眼电干扰,得到总时长为63s 的EEG 信号,包括观看视频的60s 和观看前静息态的3s.

2.2 数据预处理与特征提取

本文提取了每个视频诱发的60s 的EEG 序列做进一步分析.为了校正与刺激无关的信号随时间的变化,将观看视频之前3s 的EEG 信号作为基线,从60s 实验信号中去除基线,得到刺激相关的序列变化.以1s 为窗长对每个序列进行不重叠分段,每次实验得到60 个片段,则每个被试40 次实验的EEG 片段(也称样本)总数为40×60=2400 个,每个片段包含128 个采样点(即窗口大小为128),每个采样点包含32 个EEG 通道的数据,简称RAW 特征,其维度大小表示为2400×128×32.实验观察发现,使用大于或小于128 的窗口分段都会降低组合模型的性能,这也许与人类大脑情感活动的周期长度有关.再对分段以后的EEG 数据按通道进行归一化,得到每个被试时域上的NORM 特征.

神经科学和心理学的研究表明,EEG 信号在delta(1Hz~4Hz),theta(4Hz~8Hz),alpha(8Hz~13Hz),beta(13Hz~ 30Hz)和gamma(30Hz 以上)这5 个频段上包含大量与情绪等心理活动密切相关的节律信息[22].作者之前的研究[19]也发现,EEG 信号在4Hz~45Hz 频带上的功率谱密度(power spectral density,简称PSD)特征在2D-CNN 网络上的分类性能明显优于时域上的RAW 特征和NORM 特征.这也许是因为PSD 频域特征的提取需要在较大连续采样周期内进行,而情感脑电任务也是一种相对长时的大脑活动,所以频域特征能够捕获更多情感相关的大脑动态.因此,本文在NORM 特征基础上,在4Hz~45Hz 频带上,利用快速傅立叶算法,在1s 的EEG 片段的每个通道上使用0.5s 的Hamming 窗无重叠地滑动提取64 个PSD 特征,每个被试40 次实验,共提取PSD 特征的维度是2400×64×32.

接下来处理每个EEG 样本的标签,基于被试对每个视频在1~9 范围内的评价值,以中位数5 作为阈值,将效价和唤醒度上的评价值划分为两类:在某个维度上解决2 分类问题时,大于5 代表高类或正性指标,用1 表示;小于或等于5 代表低类或负性指标,用0 表示.再对数据和标签做均衡化处理,使两类中每一类EEG 数据和标签数量相同.

接着,根据DEAP 数据集的脑电电极分布,按照公式(1)将每个EEG 样本的一维链式向量序列转换成大小为9×9 的二维网状矩阵序列.转换以后,EEG 样本包含了丰富的空间、时间与频域上的信息,数据和标签的维度见表1.然后,使用每个被试的所有EEG 样本构建被试内交叉验证集,即:每次随机从2 类各取80%的EEG 数据和标签来训练模型,其余20%的样本来验证训练模型,以此方法为每个被试构建40 重交叉验证数据集.

Table 1 Formats of segmented 1D and 2D EEG data and labelsof each subject表1 每个被试分段以后1D 与2D 的EEG 数据及标签格式

2.3 基准模型

接下来简要介绍EEG 情感识别方面目前比较先进的方法和基准模型,所有这些模型都基于与本文相同的数据集DEAP.

• Alhagry 等人[16]采用一种基于LSTM 长短时记忆结构的深度循环神经网络,在DEAP 数据集的唤醒/效价/喜欢这个维度上进行了被试内两类情感分类,3 个维度上二分类的平均分类准确率分别达到了85.65%,85.45%和87.99%;

• 本文作者在文献[19]中提出的使用浅层机器学习模型BT(BaggingTree)对DEAP 数据集EEG 信号的PSD 特征在效价上和唤醒度上进行被试内两类情感分类的准确率分别达到了86.31%和86.18%;

• Salama 等人[18]采用一种三维卷积神经网络(3D-CNN),针对多通道脑电图数据进行情感识别,在效价和唤醒度上的被试内两类情感识别准确率分别为87.44%和88.49%;

• 本文作者也曾采用深度2D-CNN 模型,基于DEAP 数据集EEG 的时域与频域组合特征,端对端自学习这些特征的高层抽象表示,在效价和唤醒度上进行被试内两类情感识别的准确率分别达到了88.53%和86.67%[19].

除了上述最新的方法外,为了增加实验结果的可信度,本文作者对文献[17]中提出的2D-CNN 模型加以改进,输入将时频组合特征变为分段的链式PSD 特征,深度学习网络的结构以及超参数配置则同Casc_CNN_CNN中的第2 个CNN 一致,都是两组卷积池化层后接一个具有512 个神经元的全连接层和一个Softmax输出层.其中,两个卷积层分别采用3×3 大小的32 和64 个卷积核进行有填充的卷积操作,池化层依然采用步长为2 的2×2大小的过滤器对卷积结果进行降维处理.

为了深入探究混合模型与单一模型在分类性能上的优劣,本文还设计了用于对比实验的BiLSTM(64)模型.该模型也采用分段的链式PSD 特征作为输入,网络结构同Casc_CNN_LSTM 中的LSTM 网络一致,采用双向LSTM 单元进行时域特征提取.其中,正向(顺序)、逆向(倒序)LSTM 单元的隐单元个数(隐状态长度)均为64.将双向网络各自传播尽头的两个单元的隐状态在特征个数维度上进行连接后,接入一个具有128 个神经元的全连接神经网络,最终接入Softmax层产生预测值.

本文研究的神经网络均采用TensorFlow 框架,并基于NvidiaTitanXPascalGPU,以完全监督的方式从头开始训练实现.采用基于Adam 更新规则的随机梯度下降法,最小化模型的交叉熵损失函数.

2.4 实验结果

本节展示本文所提出的级联组合模型的总体性能,并系统分析EEG 空间和时间上下文信息对实验结果的影响.并通过NORM 特征和PSD 特征在效价和唤醒度两个维度上二分类计算的精度,对本文提出的模型以及特征表示方法进行深入的探究.

2.4.1 效价维度上的实验结果与分析

本文提出的级联组合模型以及各种基准模型的整体实验性能见表2.观察发现:以二维网状PSD 特征为输入的Casc_CNN_LSTM 和Casc_CNN_CNN 分别取得了93.15%和92.37%的准确率,两种组合模型均优于几种基准模型和最新方法的分类性能.这表明上下文空间和时间信息对于提升EEG 情感分类识别性能非常关键.实验中,我们还尝试使用了较大或较小的滑动窗进行EEG 数据分段,结果都会导致组合模型性能明显下降.在不同范围内通过改变滑动窗口大小,可以使模型适应不同类型的EEG 信号分类,体现该方法具有较好的灵活性.而且与以往的研究相比,该模型对原始数据的预处理较少,更适合于BCI 等实时应用.

Table 2 Comparison of the accuracy of two types of emotion classification in the valence dimension between the benchmark model and the cascade hybrid model表2 基准模型与级联混合模型在效价上进行两类情感分类准确率的比较

除此以外,我们发现:基于文献[19]中2D-CNN 模型改进的2D-CNN-V2 模型,分类准确率相较之前高出了1.63%.原因一方面是输入特征的变化,正如第2.2 节中所述,由于频域特征能够捕获更多情感相关的大脑动态,PSD 特征相较于NORM 特征在情感分类任务中的准确率更高,而PSD 与NORM 的混合特征虽然扩充了数据量,并在一定程度上提升了模型的泛化能力,但对于情感分类任务而言,混合特征的准确率低于单一的PSD 特征;另一方面是由于改进后的卷积神经网络更加复杂,卷积层中卷积核的个数由4 个上升为32 个,提取了更多的空间信息,从而提升了模型的性能.

以PSD 特征为输入的BILSTM(64)模型的分类准确率达到了89.81%,低出2D-CNN-V2 模型仅有0.35%的差距.这说明无论是在时域还是空域上,针对DEAP 数据集,单一模型在不同维度上的情感分类任务精度相差不大.而2D-CNN-V2 模型相较于Casc-CNN-CNN 模型准确率降低了2.21%,BiLSTM(64)模型相较于Casc-CNN- LSTM 模型准确率降低了3.34%,这说明单一模型在不同维度上的表现都不如混合模型.

与文献[16,18,19]中最新的方法相比,本文提出的Casc-CNN-CNN 模型比Alhagr 等人[16]提出的LSTM 模型的性能高出6.92%,比Chen 等人[19]提出的BT 浅层分类器的性能高出6.06%,比Salama 等人[18]提出的3D-CNN模型和Chen 等人[19]提出2D-CNN 模型的性能分别高出4.93%和3.84%.Casc-CNN-LSTM 模型也比Alhagr 等人[16]提出的LSTM 模型的性能高出7.7%,比Chen 等人[19]提出的BT 浅层分类器的性能高出了6.84%,比Salama等人[18]提出的3D-CNN 模型和Chen 等人[19]提出2D-CNN 模型的性能分别高出5.71%和4.62%,性能提升都比较显著.这表明本文提出的二维网状PSD 特征相较于一维链式特征包含了更多的时空上下文信息,而且本文提出的两种混合深度神经网络相较浅层机器学习算法和单一神经网络模型在深层时空特征联合学习上具有明显的优越性.

本文提出的以二维网状PSD 特征为输入Casc_CNN_CNN 模型的测试集平均分类准确率达到了92.37%,32名被试者详细的预测精度如图4 所示.

Fig.4 Statistics chart of Casc_CNN_CNN model test set classification accuracy results图4 Casc_CNN_CNN 模型测试集分类精度结果统计图

第18 名被试者的分类准确率达到了97.19%,为所有被试者中最高.图5 为其训练过程曲线,下方曲线表示训练平均误差loss,上方曲线表示训练准确率acc.

Fig.5 Casc_CNN_CNN model sub18 training process diagram图5 Casc_CNN_CNN 模型sub18 训练过程示意图

通过观察图5 可以得知:训练过程中,随着迭代次数iteration 的增加,平均误差loss 虽然出现过3 次骤然上升后又急速下降的情况,但整体依然呈现下降并不断向零趋近的态势;训练准确率acc 整体上向1 趋近,最终在0.99 附近达到收敛.Iteration 从0 增至3500 期间,loss 初始值从0.7 附近开始,随着iteration 的变大而以螺旋梯度下降的方式不断向0 逼近.而acc 以将近每iteration 增加1.86×10-4的速度,以螺旋梯度上升的方式,从0.3 升至0.95.在这一过程中,acc 的增速在iteration 等于1800~2500 左右出现过3 次幅度较大的减小.随着acc 曲线斜率的降低,loss 值虽然不断减小,但其下降趋势也逐步放缓.本文作者分析认为,该现象的出现有两个原因:一是由于超参数batch_size 设置偏小,在模型较为复杂的情况下,每轮迭代需要更新的参数较多,如果输入数据不足,则会导致loss 函数震荡而不收敛的情况;二是由于超参数learning rate 设置的偏大,虽然在训练开始时模型的性能得到了快速的提升,但随着iteration 的增加,模型难以快速找到最优解,从而导致了loss 震荡而不收敛情况的出现.而当迭代至3600、4200、5500 轮左右时,模型都出现了loss 突然增大和acc 突然减小的情况,但作者认为,这是由于学习过程中的梯度并不是目标函数最优方向所导致的正常现象.而随着iteration 的继续增加,两条曲线都趋于平稳,斜率也逐渐收敛至0.最终,作者以acc 在4000 轮内无增长作为模型终止训练的条件.训练终止后,将测试集数据放进该模型中进行分类预测,记录预测结果并绘制成如图4 所示柱状图.

本文提出的以二维网状PSD 特征为输入的Casc_CNN_LSTM 模型的测试集平均分类准确率达到了93.15%,32 名被试者详细的预测精度如图6 所示.

Fig.6 Statistics chart of Casc_CNN_LSTM model test set classification accuracy results图6 Casc_CNN_LSTM 模型测试集分类精度结果统计图

观察图4 和图6 不难发现:在Casc_CNN_CNN 和Casc_CNN_LSTM 两种模型上,效价情感分类精度的前三名是相同的第18、第22、第27 这3 名被试.可见:两种混合模型性能总体上具有一致性和稳定性,也表明该3个被试的二维网状PSD 特征中被挖掘到的情感相关的空间、时间判别性信息较少.第27 名被试者的分类准确率达到了97.28%,为所有被试者中最高.图7 为其训练过程曲线,下方曲线表示训练平均误差loss,上方曲线表示训练准确率acc.

Fig.7 Casc_CNN_LSTM model sub27 training process diagram图7 Casc_CNN_LSTM 模型sub27 训练过程示意图

通过观察上图可以得知:训练过程中,平均误差loss 在逐步降低并收敛的同时,训练准确率acc 也逐步收敛于1.迭代次数iteration 从0 至3500 期间,loss 呈现螺旋梯度下降的态势,该时期内的acc 以螺旋梯度上升的态势从0.32 提升至0.94 附近.而当iteration 从3500 增至7000 期间,loss 和acc 均在一定幅度内发生震荡.但在迭代7000 次之后,acc 和loss 虽依然有所波动,但相较之前震幅明显变小.最终,loss 曲线逐渐收敛于0,acc曲线逐渐收敛于1.iteration 从0 增至3500 期间,acc 增幅为0.62,增速约为每iteration 增长1.774×10-4;而iteration 从 3500 增至7000 的震荡期,acc 增幅为仅为0.05,增速约为每iteration 增长1.429×10-5,衰减达到了91.945%.这也是由于超参数learningrate 设置偏大,模型的梯度难以按照预想的方式下降,而最终表现为loss 曲线的震荡.训练终止后,将测试集数据放进该模型中进行分类预测,预测结果如图6 所示.

为了进一步探究二维网状EEG 时空特征表示方法的普适性以及CASC_CNN_CNN 和CASC_CNN_LSTM模型的通用性,作者以变换特征类别、变换EEG 维度为实验方法,以模型进行二分类计算的准确率为衡量标准,对本文所提出的特征表示方法以及模型的性能进行研究.为了保证对比实验的客观性和有效性,除PSD 特征之外,作者还选择了应用范围广泛算法原理清晰的NORM 特征(提取方法如第2.2 节中所述,数据格式见表1)在效价和唤醒度两个维度上进行二分类计算.每个特征在每个维度上分别使用 2D-CNN-V2,BILSTM(64),CASC-CNN-CNN,CASC-CNN-LSTM 这4 种模型进行情感分类计算.效价维度上的计算结果见表3.

Table 3 Comparison of the accuracy of NORM features between two types of emotion classification in the valence dimension表3 效价维度上NORM 和PSD 特征两类情感分类准确率的比较

在效价维度上,以2D-NORM 特征作为输入的CASC-CNN-CNN,CASC-CNN-LSTM 模型的分类精度为62.39%,55.21%,比以链式 NORM 特征作为输入的 2D-CNN-V2,BILSTM(64)模型的 55.2%,50.7%分别高出7.19%和4.51%.效价维度上的NORM 特征经过维度转换后,分类精度平均提高了5.85%.而当两个级联模型以2D-PSD 特征作为输入时,分类准确率分别达到了92.37%和93.15%,比以链式PSD 特征作为输入的2D-CNN- V2,BILSTM(64)模型的90.16%,89.81%分别高出2.21%和3.34%.效价维度上的PSD 特征经过维度转换后,分类精度平均提高了2.775%.效价维度上的NORM 特征在两类情感计算任务中4 种模型的平均分类精度仅有55.875%,而PSD 特征4 种模型的平均分类精度则达到了91.37%.

就平均分类精度而言,PSD 特征相较NORM 特征高出了35.495%.但就特征结构的改变对特征可分性的影响而言,NORM 特征则比PSD 特征高出3.075%.该组实验可以证明:级联模型比单一模型的分类能力更强,二维网状特征比一维链式特征的可分性更高.并且就特征的维度转换对于特征数据可分性的提升而言,NORM 特征相较于PSD 特征的提升幅度更大.

2.4.2 唤醒度维度上的实验结果与分析

为了更加全面地探究二维网状EEG 时空特征表示方法的普适性,同时为了增强实验间的可对比性,结合DEAP 数据集的特点,作者选择在唤醒度维度(arousal)上同样对NORM 和PSD 特征进行4 种模型的脑电分类计算.特征提取、特征结构转换方法及分类所用模型和模型结构同上文所述完全相同,具体实验结果见表4.

Table 4 Comparison of the accuracy of NORM &PSD features between two types of emotion classification in the arousal dimension表4 唤醒度维度上NORM 和PSD 特征两类情感分类准确率的比较

在唤醒度维度上,以2D-NORM 特征作为输入的CASC-CNN-CNN,CASC-CNN-LSTM 模型的分类精度为57.64%,56.63%,比以链式NORM 特征作为输入的2D-CNN-V2,BILSTM(64)模型的53.95%,49.57%分别高出3.69%和7.06%.唤醒度维度上的NORM 特征经过维度转换后,分类精度平均提高了5.375%.而当两个级联模型以2D-PSD 特征作为输入时,分类准确率分别达到了91.02%和92.84%,比以链式PSD 特征作为输入的2D-CNN- V2,BILSTM(64)模型的88.51%,88.89%分别高出2.51%和3.95%.唤醒度维度上的PSD 特征经过维度转换后,分类精度平均提高了3.23%.就特征结构的改变对特征可分性的影响而言,唤醒度维度下,NORM 特征依然比PSD特征高出2.145%.

结合表3、表4 可以发现:效价维度上NORM 特征经过结构转换后,其分类精度提升了5.85%;而在唤醒度维度上,NORM 特征经过转换后提升的精度值为5.375%.二者仅相差0.475%.而效价和唤醒度维度上的PSD 特征经过转换后提升的分类精度分别为2.775%和3.23%,两者的差值也仅为0.455%.

以上实验说明:在效价和唤醒度维度上,NORM 特征和PSD 特征数据由一维链式结构转变为二维网状结构后,特征的可分性都会得到提升;并且特征结构的转换对于只包含时域信息的NORM 特征的影响大于包含时频信息的PSD 特征的影响;同时,对于NORM 特征和PSD 特征而言,当其分别处于效价和唤醒度维度上时,一维到二维的特征结构变化为其分类精度带来的提高大致相同.

2.5 时间与空间信息对模型性能的影响

我们还比较了两种级联组合神经网络与其他几种基准神经网络的性能,来研究分析空间与时间信息对EEG 情感识别的影响.通过比较Casc-CNN-CNN 与2D-CNN 发现,Casc-CNN-CNN 的总体性能优于2D-CNN.这表明提取二维网状物理相邻传感器上的脑电信号比简单的一维链式脑电信号能更有效地捕获EEG 的空间相关性,这更有助于识别人类大脑的情感模式.从表2 可见:Casc-CNN-CNN 模型的性能又明显优于3D-CNN 与LSTM 模型的性能,比3D-CNN 模型在效价上的分类性能提高了4.63%,比LSTM 模型的性能提高了6.92%,表现出了显著的持续提升趋势.

而我们的Casc-CNN-LSTM 级联组合模型在对每一个采样点的二维网状数据进行空间特征学习后,利用LSTM 提取进一步学习一个EEG 样本内连续采样点之间的全局时间动态,因此在效价上的分类性能进一步提高.然而,当使用单纯的LSTM 模型只考虑时间相关性时,其识别率下降到85.45%,与组合模型的93.15%相差7.7%,这说明时空特征的结合对脑电信号的准确分析是至关重要的.我们提出的级联卷积递归组合模型的识别率达到93%以上,表明这种特征融合方法具有很强的时空表示能力,时空融合特征明显增强了脑电信号情感识别的准确性.

3 总结

本文首先提出一种新的基于网状序列的EEG 时空特征表示方法,将每一个采样点上原始的一维链式通道信息转换成二维网状空间信息,该网状结构与EEG 电极位置的脑区分布相对应,以此更好地表示EEG 信号物理上多个相邻电极之间的空间相关性.再应用滑动窗将二维网状序列切分成一个个等长的时间片段,作为新的融合了EEG 时空相关性的数据表示.本文还提出两种用于EEG 情感识别的端对端、可训练的混合深度神经网络模型:通过CNN 网络,从转换的EEG 时空数据表示中捕获物理上相邻电极之间数据的空间相关性;通过LSTM网络,学习EEG 数据流在时序上的依赖关系.采用大规模数据集DEAP 中32 名被试在效价和唤醒度上两类EEG数据,来评估我们提出的EEG 时空特征表示方法及混合深度学习模型的性能.实验结果表明:两种级联混合深度学习模型在效价上两类情感的识别的平均准确率分别达到了93.15%和92.37%,均明显优于目前最先进的方法,表明本文提出的方法能够利用混合神经网络有效地联合学习脑电信号在空间与时间上的相关性,进一步提高EEG 情感识别的准确率和鲁棒性,可以有效地应用到基于EEG 的情感分类与识别相关应用当中.