刘 鹏,乔晓艳
(山西大学 物理电子工程学院,山西 太原 030006)
机器情感识别因其在人机交互中的潜在应用而受到越来越多的关注.目前,情感识别可通过多种信息来实现,如面部表情,语音语调及生理信号等.相比较而言,皮层脑电做为中枢神经生理信号,调节与情绪相关的递质分泌和大脑的边缘系统,能够客观反映人的情绪状态变化,从脑电信号中提取有效特征并进行情感识别,在人机交互中具有重要意义,国内外研究者对此进行了较多探索.Koelstra等[1]在DEAP数据集上提取脑电(EEG)信号δ,θ,α,β节律功率谱特征,使用朴素贝叶斯分类器在效价、唤醒度上进行分类,正确率分别达到57.6%和62.0%;Luo等[2]在DEAP数据集上提取脑电(EEG)信号差分熵特征,使用生成对抗网络(GAN)进行情感分类,在效价、唤醒度上正确率分别达到67.9%和66.9%;Mert等[3]采用经验模态分解的特征提取方法,利用人工神经网络分类,在效价、唤醒度上正确率分别达到72.9%和75.0%;Lu等[4]提出了一种将多导联EEG信号封装到灰度图像中的全局特征提取方法,利用支持向量机(SVM)进行情感分类,在DEAP数据集上,效价和唤醒度的分类正确率分别为70.2%和71.9%.由于情感的复杂性和连续性,维度情感模型更接近情感状态的真实表现,提高维度情感模型的识别正确率是目前研究中需要解决的关键问题.维度情感模型的识别正确率不高,其原因主要在于两个方面:一是脑电信号情感特征挖掘不够充分,维度情感模型下生理特征不能有效反映复杂精细的情感状态.二是机器学习情感分类算法没有考虑到脑电信号所具有的时间序列特性.此外,个体差异性对情感识别也有较大影响,会导致情感识别模型泛化能力和普适性较差.
针对脑电蕴含的情感特征比较模糊,现有的机器分类算法情感识别正确率较低,提出了一种基于维度情感模型的脑电信号情感识别模型,使用深度栈式自编码并借鉴神经元激活和抑制特性提取脑电情感特征,利用脑电信号时间特性生成时序特征序列,使用长短时记忆循环神经网络对生成的特征序列进行学习并输出分类结果.在DEAP数据集上,仿真验证了算法的有效性,分类评价指标表明,该方法在维度情感模型中具有较好的识别性能.
本文的脑电信号情感识别模型由3部分组成,分别为多导联脑电数据和情感标签处理;深度栈式自编码脑电特征提取;长短时记忆循环神经网络情感分类.
1.1.1 深度栈式自编码
深度栈式自编码网络(Deep-SAE)由多个稀疏自编码器堆叠组成,稀疏自编码器借鉴大脑神经元兴奋性机制,编码后可对原始数据进行最大化的解码,同时还具有收敛速度快、训练不易陷入局部极小等优点[5].图1 为两个稀疏自编码器构成的两层栈式自编码网络示意图.
图1 栈式自编码结构图
栈式自编码器采用逐层贪婪学习的方法,将训练好的第1个稀疏自编码器的隐藏层作为第2个稀疏自编码器的输入,将第2个稀疏自编码器的隐藏层作为下一个稀疏自编码的输入,依次训练稀疏自编码器,将最后一个稀疏自编码器的隐藏层数据作为整个栈式自编码网络的输出.综合而言,每个稀疏自编码器的隐藏层数据可看作原始训练数据的潜在特征,通过此特征可以让原始数据蕴含的特征信息得到最大程度的解码,所以多个稀疏自编码器组成的深度栈式自编码网络可以看作一个提取原始数据高维潜在特征的过程.
稀疏自编码器通过优化权值和隐藏层神经元的平均激活度控制模型复杂度,减少网络过拟合[5].可在其代价函数中添加L2正则化项和稀疏项来实现,如式(1)所示.
β·Ωsparsity,
(1)
L2正则化实质是对权值向量的惩罚,可以抑制权重中较大的值,使网络偏向于学习比较小的权重,如式(2)所示.
(2)
(3)
(4)
综上所述,稀疏自编码的代价函数可表示为
(5)
最后,整个网络通过反向传播算法,得到优化后的权值w和偏置b.
1.1.2 深度特征序列生成
如图2 所示,利用一个时间窗将原始EEG信号划分为n个时间段,分别对每段脑电信号利用栈式自编码网络解码提取情感脑电高维特征,将所得到的特征依照时间顺序组合,生成情感特征序列,用于后续的分类识别中.
图2 特征序列生成过程
脑电信号是一种复杂的时间序列,在脑电信号情感分类中,情感状态判定是由脑电序列特征所决定的,一些有用的情感信息虽然间隔较长,但仍然需要被保留,所以分类算法选取必须要考虑时间序列对特征的影响.长短时记忆循环神经网络的神经元具有长时记忆的优势,可以保留脑电信号中的长时和短时情感信息,因而有利于情感识别.
1.2.1 长短时记忆循环网络
长短时记忆循环神经网络(LSTM-RNN)是传统循环神经网络的一种变体,由于循环神经网络是通过时间序列梯度下降进行训练的,序列越长反馈调节时网络可能会出现梯度消失或梯度爆炸的问题.为了克服这一问题,Hochreiter & Schmidhuber[7]提出利用LSTM门控单元来取代RNN单元,使得网络具有防止梯度消失(和爆炸)的功能,适合对长的时间序列进行训练和分类.
图3 为基本的LSTM单元结构,LSTM的关键是细胞(cell)的状态Ct,为了增加或删除cell中的信息,LSTM中使用3个门(gate)来控制,分别是遗忘门、输入门和输出门,门决定了信息通过的方式,保护和控制cell状态.
图3 LSTM单元基本结构
遗忘门使用一个sigmod层来决定cell状态中需要删除的信息.按式(6)计算,对于输入xt和ht-1,遗忘门会输出一个值域为[0,1]的数字,放入cell状态Ct-1中.当为0时,全部删除;当为1时,全部保留.
ft=σ(Wf·[ht-1,xt]+bf),
(6)
it=σ(Wi·[ht-1,xt]+bi),
(7)
(8)
在遗忘门和输入门的基础上,即可按照式(9)把细胞状态Ct-1更新为Ct.
(9)
输出门决定了LSTM的输出内容,计算如式(10),式(11)所示,先用sigmod函数决定将要输出的cell内容,再用tanh函数把cell状态值转化到-1和1之间,并通过sigmod函数的非线性作用,由此得到最终输出
ot=σ(Wo·[ht-1,xt]+bo),
(10)
ht=ot·tanh(Ct).
(11)
前向传播结束后,将LSTM的输出连接全连接层,利用Softmax分类器进行情绪分类.其中,关于LSTM反向传播中的损失计算具体可参考文献[7].
1.2.2 基于LSTM的情感分类
本文的脑电信号情感分类模型如图4 所示.首先对原始脑电信号进行预处理,获得情感诱发脑电信号,对脑电数据归一化处理消除个体差异;之后利用深度栈式自编码网络,从诱发脑电序列中提取深度情感特征,生成情感脑电特征序列;最后利用长短时记忆循环网络训练模型,在效价和唤醒度上分别输出分类结果.具体可分为3个步骤:
图4 情感分类模型框架
1)诱发脑电信号生成及分段:使用观看情感音乐视频时采集到的EEG信号减去自然状态下的EEG信号得到情感诱发脑电信号,将此新的脑电信号通过时间窗口滑动,截取为若干段时间序列,并进行归一化处理和对应情感标签处理.
2)深度特征提取及情感特征序列生成:将各段EEG时间序列分别输入Deep-SAE网络中,对情感脑电信息进行解码,输出对应时间段的情感特征信息,并将栈式自编码器隐藏层数据按照时间顺序生成新的情感脑电特征序列.
3)长短时记忆神经网络情感分类:将生成的情感脑电特征序列输入到长短时记忆循环网络中,进行有监督学习的模型训练、交叉验证和测试.在效价、唤醒度两个情感维度上分别输出分类识别结果.
本文基于生理信号情感数据集DEAP进行模型算法验证,DEAP数据集由多导生理信号和对应的维度情感标签两部分构成.数据集记录了32 b 健康被试在观看情感音乐视频(MV)时的多导联生理信号及观看视频后对每个MV的多维度情感评分.多导联生理信号包括32导联脑电信号(EEG)和8导联外周生理信号.实验实时记录了被试在观看 40个 1 min MV时的生理信号,同时还采集了3 s自然状态下的生理信号,共63 s的数据.经过去除眼动伪迹、工频干扰、滤波及下采样等一系列预处理,数据采样率为128Hz,频率范围为1 Hz~50 Hz.在观看MV后,被试在效价(Valence),唤醒度(Arousal),喜欢度(Liking)和支配程度(Dominance)4个维度上对每个视频诱发的情感分别在1~9范围进行打分,获得对应音乐视频的情感标签.DEAP数据集的内容如表1 所示.
表1 DEAP数据集内容
区别于通常的离散情感模型,DEAP数据集采用了连续维度情感模型来划分情感状态.本文在其中效价和唤醒度两个连续情感维度上分别进行情感分类,在效价维度上,使用4.5和5.5 两个情感阈值将情感状态划分为两类——低效价(LV,评分≤4.5)和高效价(HV,评分≥5.5).在唤醒度上,采用相同的阈值将情感划分为低唤醒度(LA,评分≤4.5)和高唤醒度(HV,评分≥5.5).在该情感阈值划分下,DEAP数据集中高低效价样本数量分别为587和472,唤醒度上,高低唤醒度样本数量分别为622和464.后续处理中,本文对数据进行了均衡化处理,即随机抽取样本扩充到少样本一类,使得两类样本数量接近,保证深度学习模型训练数据样本的平衡,提高模型泛化能力.
本文情感识别模型算法主要由两部分组成.利用深度栈式自编码算法提取情感特征时,构建了3个稀疏自编码器,组成深度栈式自编码网络,网络输入序列长度为384(128 Hz×3 s)的脑电时间序列,3个稀疏自编码器隐藏层单元数分别为128, 64, 16,保留最后一个稀疏自编码器的隐藏层数据作为自编码网络的输出.
利用LSTM算法进行情感分类时,网络输入的时间序列长度为320(16×20).经过仿真调试后,最终隐藏层单元数为64,学习率设为0.01,迭代次数为800,可实现算法收敛.
本文使用正确率(Accuracy)、精确度(Precision)、召回率(Recall)和F1-Score 4个参数评价分类结果.正确率(Acc)是衡量分类模型的整体有效性,即正确分类的样本数量与总样本数量的比率.精确度指被分类器判定为正例中真正的正例样本所占比重,召回率指被预测为正例样本占总正例样本的比重,F1-Score为精确度和召回率的调和平均值.计算公式分别为
(12)
(13)
(14)
(15)
式中:TP,TN分别表示被正确分为正类或负类的样本个数;FP,FN表示被错误分为正类或负类的样本个数.
图5 所示为按照2.3中所设置和选择的模型参数进行训练得到的学习曲线,其中锯齿状曲线表示单次学习曲线,平缓曲线为经过平滑处理后的学习曲线.从图5 中可以看出,当迭代次数达到700次时,训练正确率接近100%,目标函数误差接近于0,网络参数训练达到最佳状态,将训练好的网络利用测试集样本进行分类测试,获得情感分类结果.
图5 LSTM算法训练正确率与损失曲线
表2 所示为模型经过5折交叉验证后,所得到的平均分类结果,本文选取机器学习中多个评价指标评价模型性能.在效价维度上,对HV和LV分类的平均正确率、精确度和召回率分别达到77.4%,77.1%,84.1%,F1-Score为80.4%.在唤醒度上,HA和LA分类的正确率、精确度和召回率分别达到73.7%,78.7%,76.3%,F1-Score为77.5%.以上结果表明,该方法在连续维度模型的脑电情感识别中具有良好的性能,分类正确率和F1-Score均较高,而且召回率和精确度无论在情感的效价维度还是唤醒度上,分类结果均比较接近,没有出现较大差别,表明算法具有较好的鲁棒性和泛化能力.
表2 DEAP数据集上识别结果(%)
表3 所示为本文分类结果与近年来在相同数据集下采用不同方法进行脑电信号情感识别的结果对比.相比较而言,在效价维度上,本文取得了比其他几种方法更好的结果;在唤醒度上,本文分类正确率比文献[8]低0.7%,但在F1-Score上,本文方法比文献[8]高10.8%,表明深度自编码网络可以有效提取脑电信号的高维深度特征信息,长短时记忆神经网络可以对此特征序列进行有效分类,该模型具有较高的情感识别准确性和泛化能力.
表3 DEAP数据集上不同脑电信号情感识别方法结果对比
本文提出了一种新的脑电信号情感识别模型.首先,使用深度栈式自动编码器提取脑电信号深度情感特征;之后将所得到的特征生成时间序列,利用LSTM循环网络实现连续维度情感分类;最后在DEAP数据集上仿真验证了该方法的有效性和优越性,并且与其他方法相比得到了较高的情感识别正确率和较好的识别性能,该方法可以应用于情感计算和人机情感交互.