集成胶囊网络的脑电情绪识别

2022-04-21 05:18陈兰岚江润强
计算机工程与应用 2022年8期
关键词:频带导联电信号

谌 鈫,陈兰岚,江润强

华东理工大学 化工过程先进控制和优化技术教育部重点实验室,上海 200237

情绪是心理与生理共同作用而使机体产生的主观意识状态,自Affective Computing首次阐述“情感计算”这一概念后[1],情绪识别逐渐成为情感计算领域的重要研究方向。目前研究个体情绪识别的方式主要有以下两种:一种是检测人的情绪行为如语音识别[2]、面部表情识别[3]和姿态识别[4],通过外在行为能较容易地识别个体的情绪状态,但是外在行为可能存在伪装欺骗性而导致情感识别不准确;另一种是检测生理信号如呼吸、皮肤电阻、体温、心律和脑电信号(electroencephalogram,EEG)等,通过生理信号可以获取人体特定情感唤醒水平的信息,从而识别情感状态。研究发现中枢神经系统各个皮层下的结构对情绪产生的机制具有关键的作用,脑电信号作为中枢神经生理信号,相比情绪行为更具有客观准确性和不可主观操纵性,因此近年研究者开始更多地使用脑电信号进行情绪识别。

目前,研究者应用机器学习方法在脑电信号情绪识别领域已取得了较大的进展。例如,文献[5]基于相关向量机(RVM)稀疏特性设计了复合分类结构(OAAOAO)对EEG进行情绪分类,四分类平均精度达到83.91%;文献[6]利用核密度估计(kernel density estimation,KDE)提取脑电信号特征,然后将输入特征通过人工神经网络(ANN)分类器进行分类,最终唤醒度(Arousal)和效价值(Valence)的二分类精度分别达到83.53%和82.68%;文献[7]通过多元经验模式(multivariate empirical mode decomposition,MEMD)进行脑电信号特征提取,然后采用ANN和KNN分类器进行情绪分类,基于效价和唤醒度的识别精度达到了77.55%、82.48%;文献[8]首先采用ReliefF算法选取对情绪信息敏感的导联,然后利用SVM对优势导联的相应特征进行训练,最终四分类识别精度达到70.13%。

计算机性能的快速提升为深度学习能够更深层次地挖掘数据信息奠定了硬件基础。近年来,利用深度学习算法对脑电数据进行情绪识别研究也逐渐成为热点,如深度信念网络(deep belief network,DBN)[9]、循环神经网络(recurrent neural network,RNN)[10]、卷积神经网络(convolutional neural network,CNN)[11-12]、长短时记忆网络(long short-term memory,LSTM)[13]等多种深度神经网络均在脑电情绪领域取得较好的成果。如文献[14]使用DBN对EEG信号的微分熵特征进行训练,二分类情绪识别精度能够达到86.08%;文献[15]采用CNN对DEAP数据集的脑电信号提取特征并应用softmax函数进行分类,最终二分类识别精度分别达到75.58%和73.28%;文献[16]通过CNN提取EEG和GSR的融合特征,采用softmax进行分类预测,最终识别精度达到73.4%;文献[17]应用栈式自编码神经网络(stacked auto-encoder neural network,SAE)和LSTM-RNN的复合算法对包含EEG的多模态特征进行训练,最终识别精度达到79.26%。

目前大部分基于脑电信号的情绪研究未充分利用好导联空间信息,一般仅保留了脑电导联的维度信息,较少涉及到导联空间位置的具体分布。针对这一问题,本文旨在将脑电导联的空间分布和时频域特性有效结合起来,获取到对情绪影响更为敏感的特征。深度学习相较于浅层机器学习主要的特点在于前者能够通过训练数据自动提取特征,替代了传统依赖人工经验的特征工程环节。目前CNN是深度学习应用领域中的主流结构之一,并在图像识别领域上取得突出的成果,但由于CNN采用的池化层操作是以标量的形式存储特征,无法完整保留特征间的空间关系从而影响识别效果。相较于CNN,胶囊网络(CapsNet)采用动态路由机制替代池化层结构,在胶囊中以多维向量的形式保留实例化特征,能够获取脑电信号中不明显的情绪特征,使数据特征能够被完整保留,弥补了CNN在特征提取时忽略细微特征的缺陷。同时,胶囊网络通过动态路由机制能够自动更新胶囊间的连接权重,从而识别特征间关系的紧密程度以及挖掘脑电信号频带与导联空间位置的组合式信息。在处理脑电空间信息中已有相关的研究成果,如文献[18]提出了一种基于三维卷积网络的脑电情绪识别,将电极的空间位置映射为一个二维矩阵,矩阵中的元素为熵特征,最终在效价和唤醒度上的平均准确率为94.14%和94.44%;文献[19]提出了一种基于肌电信号空间注意力机制的二维离散特征情绪识别,将空间注意力机制与胶囊网络相结合,最终能达到84.77%的测试精度。本文提出了一个基于胶囊网络的情绪识别模型,在此基础上通过集成学习(ensemble learning,EL)的方法建立集成模型,并与其他分类算法进行比较。

1 情感识别总体框架

本文采用的是包含脑电、眼电、肌电、皮肤电等多种生理信号的DEAP数据集,基于CapsNet构建情绪识别模型,结构设计如图1所示。

图1 基于脑电信号的情绪识别模型总体框图Fig.1 Overall block diagram of EEG-based emotion recognition algorithm

首先对原始脑电信号进行滤波和降采样的预处理,并采用小波包变换(wavelet packet transform,WPT)对处理过的EEG进行特征提取,然后将不同频带的脑电特征拼接构成可供CapsNet模型训练的多频带特征矩阵,并基于不同的频带生成多个胶囊网络模型,最后通过投票法(Voting)和加权平均法(Weighted average)两种不同的集成学习策略构建集成模型进一步提升识别效果。

2 实验数据

2.1 DEAP数据集及预处理

DEAP-Dataset[20]是来自Queen Mary University of London所在的研究团队通过多个被试实验开发的多模态情绪数据集,包含有情绪维度数据和生理信号数据,情绪维度数据是被测试者根据Arousal、Valence和Dominance三个属性对120个音乐视频片段的在线评分,生理信号数据则是32个被测试者观看40个1 min时长的音乐片段时所触发40个导联的信号,其中32个导联记录了512 Hz的脑电数据。每个被试采集数据的总时长为63 s,前3 s为baseline信号(未对被试者加任何刺激),后60 s为音频时长,一般利用baseline信号进行校正以降低个体差异性对情绪识别的影响,具体做法是保留60 s的情感诱发数据并依次减去baseline信号的相关特征值。原始数据的格式为40×32×8 064,40表示总共有40个音乐片段,32表示脑电信号所用的导联数,每个视频片段共采集到63×128=8 084个数据点,将原始数据拆分成诱发数据和基线数据,数据格式分别为40×32×7 680和40×32×384,然后将诱发数据的尺寸变换为2 400×32×128,单个被试的样本总数为2 400。图2为国际10-20系统,红色圆圈代表该数据集中脑电数据所使用到的导联。

图2 国际10-20系统Fig.2 International 10-20 system

2.2 情绪划分模型

DEAP数据集的情绪标签是基于被试者对音乐视频分别从唤醒度(Arousal)、效价值(Valence)、支配度(Domaince)进行1~9分的评价,其中Arousal表现为情绪状态的强弱性,值越高表示情绪越强烈;情绪的正负性可以用Valence表示,值越高代表情绪越积极,值越低则表示情绪较为消极。因为V-A维度构成的二维情绪空间模型可以描述情绪的正负性和强弱性,基于这两个维度生成情绪标签并分别研究二分类和四分类的情绪识别模型。二分类标签是分别对单个维度进行情绪类别划分,将设定为5的分值作为阈值[21],划分Low、High两类,标签分别为LV(Low Valence)、HV(High Valence)和LA(Low Arousal)、HA(High Arousal),如表1所示为二分类的标签数量分布。四类情绪是由Valence和Arousal坐标生成的四个象限构成,采用K-means聚类方法将情绪维度数据分为LVLA、LVHA、HVLA、HVHA四种情绪标签,如图3所示为通过K-means聚类方法生成的四种情绪分布,其中红色实心圆点是每个类别中间值,也是各类别的质心。

表1 二分类标签分布Table 1 Distribution of binary labels

图3 K-means四分类情绪分布Fig.3 Four categories of emotion distribution K-means clustering

2.3 基于小波包变换的特征提取

特征提取是从脑电信号中获取与情绪状态相关信息的有效方式之一,本文采用小波包变换(WPT)将降采样和过滤后的脑电信号分解成各个频段,然后将相应频带区段的小波系数能量值作为特征。脑电信号属于非平稳信号,WPT适用于非平稳信号的分解并且能对低频、高频区段提取更深层的成分,得到更精细的时频带,在生成的小波包分解树中能准确地看到脑电信号分布在各个频段的详细信息。

首先对预处理后的脑电信号进行4级WPT分解,生成16个小波包系数节点,每个节点的带宽是64/16=4 Hz,其中64 Hz为采样频率的1/2,然后采用各个节点的系数值根据式(1)计算出系数能量值作为输入特征。

其中,pn(j,i)和E(j,i)分别是第j层第i个节点的第n个小波包系数值以及该节点的系数能量值。

图4以2层的WPT为例展示了小波包分解树的示意图,其中L代表树的深度,通过小波包分解的成分树选取合适的节点作为输入特征,表2示出了不同频带的脑电信号所对应的树节点,如Gamma波的频带范围在32~48 Hz,对应树的节点为A22,表示L=2层的第三个节点。

图4 小波包变换分解树Fig.4 Tree of wavelet packet transform decomposition

表2 不同频带的小波包分解成分Table 2 Components of different frequency bands in WPT

2.4 多频带特征矩阵

脑电信号是由各个相应导联的电极所采集的电信号构成,因此脑电情绪识别与导联空间位置具有一定的相关性,将脑电信号所使用的32个导联按照国际10-20系统的导联分布位置映射在一个9×9的矩阵中,如图5所示为导联空间信息矩阵,其中每个元素的位置代表导联相应的位置,元素的值是从各个频带波抽取的特征值,0代表该导联未被使用。鉴于脑电信号频段对情绪状态的影响性,将小波包提取的4个频段的特征根据导联分布的位置拼接构成多频带特征矩阵(multiband feature matrix,MFM),如图6所示,即由Theta、Alpha、Beta、Gamma四个不同频带的特征矩阵拼接成18×18的多频带特征矩阵,多频带矩阵融合了四个关键频带,不仅包含了各个频带的时频信息而且蕴含了导联空间信息。

图5 9×9导联空间信息矩阵Fig.5 9×9 matrix of channel spatial information

图6 多频带特征矩阵Fig.6 Multiband feature matrix

3 集成胶囊网络的情绪识别模型

3.1 胶囊网络的架构

CapsNet是一种与CNN结构相似的新型深度学习模型。CNN主要由卷积层和池化层构成,卷积层是根据局部关联和空间信息的参数共享提取局部特征,池化层的作用是有对特征进行有效的压缩,简化计算复杂度,但池化层也会丢失大量有价值的空间信息。胶囊网络的主要特点是使用胶囊(多个神经元组成一个基本模块)代替了神经元,胶囊的矢量性能将细微的特征信息完整保存,并且输入和输出是具有等变性(输入细微的变化会导致输出也发生改变)。在保证特征完整性以及处理空间信息等方面比CNN更具优势,同时由于胶囊具有出色的空间特征提取能力,不仅可以对位姿变化(如平移、旋转、缩放)后的同一对象正确识别,还能从不同角度(如颜色、大小)识别同一物体,因此CapsNet在小规模数据集上也能够充分挖掘数据的特征信息。

CapsNet是由多个基本单元构成,本文采用的网络架构总共分为3层,第一层是卷积层,第二层是主胶囊层(Primary Caps),第三层为情绪胶囊层(Emotion Caps),如图7所示为本文的胶囊网络模型,表3为各胶囊网络的结构参数,由于单频带输入数据的格式是9×9,在参数选择上与多频带略有区别。

图7 胶囊网络模型结构图Fig.7 Diagram of CapsNet’s structure

表3 设计的CapsNet结构参数Table 3 Designed structural parameters of each CapsNet

卷积层能够多层次提取数据的基本特征,为主胶囊层提供局部感知信息。首先从18×18的特征矩阵进行第一次卷积操作,采用了32个步长为1的3×3的filter,得到一个16×16×32的输出,这一步主要作用是对输入数据进行局部特征检测以及抽取脑电信息的低级特征,且采用ReLU函数对结果进行非线性映射以加快模型训练速度。

主胶囊层作为CapsNet的准备层,不仅接收了卷积层提取到的所有基本特征,同时存储了脑电数据不同形态的空间特征,并将获取的特征属性调整成适用于情绪胶囊层的输入。该层采用了256个步长为2的3×3×32的filter,得到了一个7×7×256的输出,将其表示为向量形式,则主胶囊层的格式转换为7×7×8×32,表示有7×7×32=1 568个胶囊,每个胶囊是一个深度为8的向量存储了空间形态特征。

情绪胶囊层存储高级特征的向量,首先将接收到的低层胶囊特征转换为1 568×4×8×1的张量(Tensor)作为该层输入,然后将输入与1 568×4×16×8权重矩阵相乘得到属性长度为16的输出胶囊,特征维度的扩展能够保留更丰富的情绪信息,扩维后格式为1 568×4×16×1。其次将各扩维后的情绪胶囊乘以权值后相加得到总输入格式为16×4,最后通过softmax函数输出分类结果。

3.2 囊间动态路由算法

动态路由算法是胶囊网络的重要机制,其作用是确定低层胶囊向高层胶囊传播的方向。如图8所示为胶囊间的信息传递与路由过程,从卷积层获取的低层特征通过动态迭代、权值更新、反向传播等步骤后,在主胶囊层获取高层输出向量v j。

图8 胶囊间的信息传递与路由过程Fig.8 Information transfer between capsules and routing process

将低层胶囊的特征属性(如长度和方向)封装成一个预测向量u^j|i,该向量是由第i个卷积层的输出向量u i与权重矩阵Wij相乘得到,将各个预测向量u^j|i乘以相应权重cij后累加构成高层胶囊的输入s j,而低层预测向量向高层胶囊的传送方向则是由权重c调整确定,其数值通过动态路由算法迭代更新,式(2)和式(3)分别是计算预测向量和高层输入的公式:

其中,cij表示每一个低层胶囊与其相对应的高层胶囊之间的权重,为非负标量,且高层胶囊输入对应的各个权重cij之和为1。权重cij由动态路由算法中的式(4)所示:

bij是一个临时变量,设定的初始值为0,在前向传播求s j的过程中,将W ij设计成随机值,通过bij初始化值可以求得cij,进而求得下一层胶囊网络的输入向量,最后通过压缩函数生成新的输出向量v j。

3.3 squash函数

胶囊网络为了表征当前高层输入的概率,采用向量形式的新型非线性激活函数对接收到的胶囊进行压缩处理,与归一化处理类似,将高层胶囊接收到的输入向量进行一定比例的缩放,其压缩后的长度约为1,向量中的每个元素表征某个特定属性的概率,其公式如下:

式中,s j为第j个胶囊的总输入,v j为第j个高层胶囊经过squash压缩后的总输出。

3.4 胶囊损失评估

本文采用交叉熵损失函数,主要原因有两个,其一是交叉熵能稳定地将各个情感类别所对应的梯度进行回传,有效解决了在进行误差传播时梯度消失的问题;其二,交叉熵损失函数能够有效扩大类间差距,从而提升模型的分类能力,并且加入了L2正则化项以降低过拟合的程度,式(7)为本文胶囊网络所采用的损失函数:

式中,yi为真实值,y^i为通过胶囊网络模型得到的预测值,等号右侧第一项为损失项,第二项‖RF‖2为L2正则化项。

3.5 多频带脑电信号的集成模型

集成学习(Ensemble learning)是利用现有的基分类器进行组合以得到更全面的分类模型,能够使分类结果更加稳定。考虑到脑电频带区段的不同会对情绪分类结果有较显著的影响,本文以不同的脑电频带作为情感识别集成模型的基准,将Theta、Alpha、Beta、Gamma波以及多频带特征矩阵(MFM)作为训练数据通过CapsNet分别生成5个胶囊网络模型,然后分别采用投票策略(Voting)、加权平均策略(Weighted averaging)这两种集成学习方法得到最终的测试结果,集成模型的整体结构如图9所示,随机抽取每个被试者样本总数中的80%作训练集,剩余20%为测试集,超参数通过验证集设定,随机抽取训练集中的10%作为验证集。

图9 集成胶囊网络的结构Fig.9 Framework of ensemble model

投票法。统计各基分类器分类结果,并将票数最多的某一类别作为最终的预测值。

加权平均法。将各个基分类器的输出结果进行加权求和,最终的输出Y(x)可通过式(8)计算得到:

权重λi为:

式中,ki值代表各个基分类器按照在验证集上的分类精度所得的排序顺序,如i=5,表示该基分类器的分类精度最高;i=1,则精度最低。

4 实验及结果分析

CapsNet模型在Tensorflow框架下通过Python实现。实验环境为Inter®CoreTMI5-7400HQ CPU@2.50 GHz,12 GB内存,NVIDIA GeForce GTX940M显卡,64位Windows10系统。设定每个CapsNet模型最大迭代次数均为800,为了避免训练时间过长,当损失函数连续10次迭代都没有发生优化时停止训练。

4.1 情感识别结果

首先各被试按照设定的规则划分数据,通过本文提出的方法分别进行二分类和四分类的测试,被试1的测试结果如图10所示。可以看出不同频带的信号对情绪状态的敏感度不同,例如Gamma波的识别精度达到85.63%,而Theta波的识别精度仅有69.38%,被试1在基于CapsNet训练多频带矩阵时,得到识别精度为91.25%,说明融合了频带信息和导联空间信息的特征能够提升情绪识别的精度,验证了文献加入空间信息能够提高识别精度的结论[18]。采用投票法和加权平均策略的识别精度分别能达到92.25%和93.13%,加入集成学习对基于多频带胶囊网络的识别精度有进一步的提升。

图10 各模型的分类混淆矩阵(被试1)Fig.10 Confusion matrix of different classifiers for Subject No.1

表4是16个被试二分类和四分类测试精度的平均值,从该表可以得出,Gamma波相对其他三种波识别精度更高,印证了文献中提到的高频波比低频段对情绪反应更加明显[22],并且在四分类情绪识别中高频段对情绪的作用更加明显,如基于Gamma波的四分类识别精度可达86.24%。使用MFM进行情绪分类时,相比单个频带的识别精度有较明显的提升,其中使用MFM进行Arousal二分类的测试精度相比Gamma波的二分类测试精度提升了8.08个百分点。此外使用两种集成学习策略均能进一步提升识别精度。

表4 二分类和四分类的平均精度Table 4 Average accuracy of two and four classifications %

4.2 不同算法的对比

选用一种较常用的非深度学习分类器SVM和一种深度学习分类器2D-CNN与本文方法分别进行二分类和四分类的对比实验。设定惩罚因子C=2,核函数选用线性核,SVM在验证集的分类精度较高;CNN参数选用两个3×3的卷积核,最大池化层尺寸为2×2,并采用随机梯度下降法(Stochastic Gradient Descent)进行优化,最后Softmax输出分类结果。图11~13分别为各个分类器在Arousal、Valence、A-V的个体测试精度。

图11、12所示,对于二分类的情绪识别,无论是基于Arousal还是Valence,使用CapsNet对多频带特征矩阵进行分类测试,识别效果更好且结果更加稳定。四分类的测试精度如图13所示,SVM分类的效果并不理想,2D-CNN测试结果较为平稳但精度相较二分类略有下降,同时也能验证CapsNet相比CNN在处理具有导联空间位置信息的脑电信号上更有优势。

图11 Arousal二分类结果对比Fig.11 ComparisonofArousaltwoclassificationresults

图13 A-V四分类的结果对比Fig.13 ComparisonofA-Vfourclassificationresults

图12 Valence二分类结果对比Fig.12 ComparisonofValencetwoclassificationresults

因为胶囊网络结构比CNN和SVM复杂,网络参数也多,整体计算时间会有所提升。如表5所示胶囊网络与其他模型的运算成本,包括模型训练所需时间、测试运行所需时间以及相应精度,其中每种模型的输入均有单频带和多频带两种情况,单频带以Gamma为例。从表中可以看出,SVM计算时间成本最少但获取的精度也最低;胶囊网络模型相比CNN需要更长的训练时间,但是同等条件下精度有较为明显的提升,且测试所需的时间与CNN相比增幅不大;集成胶囊网络模型精度最高,但时间成本最高,在特别注重识别精度的条件下可以采用这种模型。

表5 各模型运算时间对比Table5 Comparisonoftrainingandtestingtimeofeachmodel

4.3 同类研究的对比

将本文方法与同类研究进行比较,二分类和四分类的对比情况如表6所示。文献[23]中将近似熵、样本熵、排列熵进行组合作为特征,利用KNN进行分类,分类精度达到77.8%;文献[24]中利用了卷积神经网络和循环神经网络的方式对DEAP数据进行了情绪分类,整体识别率为73.09%;文献[25]通过自编码机制,编码阶段将脑电数据与眼电数据分开建模,解码阶段再组合到一起,最后使用SVM作为分类器,最终二分类测试精度达到82.25%;文献[26]采用新型动态图卷积神经网络(dynamicalgraphconvolutionalneuralnetworks,DGCNN)对脑电信号进行分类,平均分类精度达到90.04%。

表6 同类研究对比Table6 Comparisonofsimilarstudies

文献[27]提出了一种针对脑电信号在HRI领域中使用的实时情绪估计方法获取与内在EEG模式相关的有意义的特征,使用高斯过程分类器最终分类的识别精度为91.20%;文献[28]基于多通道脑电信号的频带和空间特性,采用连续小波变换生成时频域波谱,最后通过GoogleNet模型训练得到83.59%的识别精度;文献[29]首先应用WPT将脑电信号分解成一组窄带时域序列,然后采用希尔伯特-黄变换(HHT)得到窄带序列的Hilbert能量谱,求出平均瞬时能量作为最终特征,最后利用CNN、RNN、SVM复合模型进行情绪分类,四分类平均识别精度达到86.22%。

5 总结与展望

本文提出了一种基于多频带集成的胶囊网络情绪识别模型。该算法融合了脑电的多频带信息和导联空间位置信息,能够充分挖掘脑电的时空信息,克服了传统卷积神经网络因最大池化导致局部信息缺失的问题,然后借助集成学习的优势,通过多频带特征矩阵生成5个不同胶囊网络模型的基分类器加以集成,最后二分类平均测试精度可达95.11%,四分类平均测试精度92.43%,并且对比了一些同类研究结果,实验结果表明本文方法在情绪识别的计算精度上有比较好的结果。本文所设计的集成胶囊网络模型结构相对复杂,参数较多而导致运算成本偏大,下一步工作是研究利用注意力机制优化导联,并采用模型迁移的方式降低参数的训练量以提高学习效率。

猜你喜欢
频带导联电信号
基于小波变换的输电线路故障类型识别方法研究
回旋支闭塞引起孤立Ⅰ、aVL导联ST段抬高型心肌梗死2例并文献复习
基于联合聚类分析的单通道腹部心电信号的胎心率提取
Wi-Fi网络中5G和2.4G是什么?有何区别?
基于Bark域的电子耳蜗频带划分分析和拟合研究
基于Code Composer Studio3.3完成对心电信号的去噪
单音及部分频带干扰下DSSS系统性能分析
基于随机森林的航天器电信号多分类识别方法
心电图aVR导联ST段改变对急性心肌梗死的预测价值分析
多类运动想象脑—机接口导联选择方法