刘 爽 仝晶晶 郭冬月 柯余锋 孟佳圆 陈 龙 许敏鹏 綦宏志 明 东
(天津大学精密仪器与光电子工程学院生物医学工程系,天津 300072)
脑电时间效应对情绪识别模型的影响及解决措施研究
刘 爽 仝晶晶 郭冬月 柯余锋 孟佳圆 陈 龙 许敏鹏 綦宏志 明 东#*
(天津大学精密仪器与光电子工程学院生物医学工程系,天津 300072)
近年来,越来越多的研究者投入到基于脑电的情绪识别研究中。然而在实际应用中,建立高精确度的情绪识别模型仍面临巨大的挑战,其中一个难点就是如何剔除或降低脑电信号的时间效应,进而提高情绪识别模型的时间鲁棒性。拟通过增加情绪模型中训练样本的天数,降低时间效应对识别模型的影响。利用视频诱发被试的正性、中性、负性3种情绪状态,共9名被试参与实验,每名被试需在1个月内进行5次数据采集,每次采集的时间间隔分别是1天、3天、1周和2周。采集被试60导联的脑电信号,并提取6个频段的功率谱特征。在模式识别阶段,分类器的训练样本分别来自N天的样本(N=1,2,3,4),剩余(5-N)天的数据则作为测试样本,得到不同训练天数下的分类正确率。结果表明:脑电时间效应的确会影响情绪识别的正确率,当训练集与测试集中的样本来源于不同的两天时,识别率显著下降(P<0.01);随着训练集样本天数的增加,正确率提高,正确率与训练样本的天数呈正相关;当训练集中样本来源于2~4天时,相比于1天的情况,平均正确率的提高率分别为6.45%(P=0.006)、10.48%(P=0.000)、14.40%(P=0.000),即增加训练集中样本的来源天数,能显著降低时间效应对分类效果的影响。结果证实,脑电时间效应能显著降低情绪识别模型的识别正确率,增加训练样本的天数可降低时间效应对识别模型的影响,并提高情绪识别模型的时间鲁棒性,从而为情绪模型从理论研究走向应用提供技术支持与研究思路。
脑电;情绪识别;时间效应;鲁棒性; 支持向量机
情绪(emotion)是人对客观事物是否满足自身需要而产生的综合状态。它作为人脑的高级功能,保证着有机体的生存和适应,不同程度上影响着人的学习、记忆与决策[1]。在人们的日常工作和生活中,情绪的作用无处不在。负性情绪会影响人的身心健康,降低工作质量与效率,严重者会引发心理疾病,造成工作失误。研究证明,负性情绪的长期积累,会损害免疫系统的功能,使人们更容易受到周围病毒的感染[2]。所以,适时地发现负性情绪并给予适当的干预与调控十分必要,尤其是对司机、航天员等一些特殊工作者[3]。另外,在人机交互系统里,如果能够捕捉到人的情绪状态[4],那么人机交互就会变得更加友好、自然与高效。因此,情绪的分析与识别已经成为神经科学、心理学、认知科学、计算机科学和人工智能等领域学科交叉的一项重要的研究课题。
随着神经生理学的发展和脑成像技术的兴起,脑电信号(electroencephalography, EEG)因其时间分辨率高、不受人为因素控制、能够客观真实地反映人的情绪状态而受到研究人员的重视,并被引入到情绪识别领域[5-7]。而且,新式理论方法的提出,在一定程度上提高了基于脑电的情绪识别准确率。然而,一旦走向实际应用,识别率大幅度下降,很难满足应用的需求,建立高精确度的情绪识别模型仍面临巨大的挑战。其中一个难点就是如何剔除或降低脑电信号的时间效应,进而提高情绪识别模型的时间普适性。众所周知,激素水平、外部环境(如温度与湿度)以及饮食与睡眠都能引起生理信号的差异[4],所以在不同的时间里即使在同一种情绪状态下,脑电信号也是有差异性的。而且在实际应用中,情绪识别模型的建立与情绪状态的识别势必会存在一定的时间间隔,特别是在一些特殊的应用场景里。比如,航天员情绪状态的识别,其识别模型的建立是在地面上的准备阶段,而情绪状态的识别是在太空里的工作阶段,当天建立识别模型然后马上进入应用是不切实际的。
综上所述,剔除或降低脑电信号的时间效应影响,进而提高情绪识别模型的时间普适性,是十分必要的。在现有研究中,有关情绪分类器的时间普适性研究寥寥无几。2001年,Picard 尝试了多种算法试图去除时间效应,采用了其他情绪状态减去平静状态的方法,但无法识别中性情绪,以致情绪类型减少,而中性情绪状态的识别在情绪识别场景中仍尤为重要[2]。2012年,Chueh等利用多元方差分析的方法去除时间效应的影响,提高了分类器的性能。但是,依然存在着一个问题,就是测试集中的数据不是独立的,与其他时间的数据混合在一起构建分类器[4],这在应用中是不切实际的。
本研究提出了一种新的能够满足实际应用的情绪识别方法,即通过增加情绪模型中训练样本的天数来降低时间效应对识别模型的影响。利用视频诱发被试正性、中性、负性3种情绪状态,每名被试需在1个月内进行5次数据采集。首先,证实了时间效应确实会显著影响情绪分类器的性能;接着,利用提出的新方法来剔除或者降低时间效应的影响,提高分类器的时间普适性。
1.1 实验对象
实验被试共9人(男3人,女6人),均为在校大学生,年龄20~27周岁;身心健康,视觉、听觉正常,无过往精神及神经性疾病史,自愿参与实验,并签署知情同意书。实验前 4 h内未参与剧烈运动,实验前1周内未使用任何药品。实验开始之前,被试均充分了解实验过程。
1.2 实验安排
本研究利用视频诱发被试正性、中性、负性3种情绪状态,每名被试需在1个月内进行5次数据采集,每一次采集之间的时间间隔分别是1 d、3 d、1周和2周,表1是被试实验时间安排表。每名被试在该天的同一时间来到实验室进行数据采集,观看6段视频、两段中性内容、两段正性内容以及两段消极内容。为了避免增加变量(对实验内容熟悉与否),每天的视频内容都不一样。每段视频观看之后,被试需要对自己观看视频过程中的主观感受进行评分。
表1 被试实验时间安排
图1给出了实验中每一试次的流程。首先白圆提示后有5 s的静息,需要被试静坐放松,然后黑圆提示视频即将开始,随后播放一段情绪诱发视频。每一试次的视频观看过后,均有一段休息时间供被试调整和恢复情绪。由于对外界情绪刺激的反应具有个体差异性,所以被试的主观反馈和主观评分作为后续数据处理的真实标签。
图1 每一试次流程Fig.1 The procedure of a trial
1.3 数据采集
脑电采集采用Neuroscan公司的68导联放大器和Scan 4.5采集系统,电极遵照国际脑电协会规定的10-20标准放置,去除眼电和参考电极外的60导电极的导联分布如图2所示。采集时以右侧乳突作为参考电极,脑部前额顶侧中央处接地,所有电极的阻抗均保持在5 kΩ以下,采样频率为1 000 Hz。
图2 60导联电极分布Fig.2 EEG cap layout of 60 channels
1.4 数据处理
1.4.1 预处理
数据预处理过程包括变参考到双耳平均、1~100 Hz带通滤波、去除眼电干扰、降采样到500 Hz和截取有效数据段5个步骤。实验中,被试的眨眼和眼动是不可避免的,导致采集的原始脑电信号中混杂了较多的眼电干扰。独立分量分析(independent component analysis, ICA)[8-9]属于盲信源分离方法,可以避免信号主要成分的丢失,对信号的去噪效果较为理想,本研究采用这种方法去除眼电干扰。由于对情绪的感受具有较大的个体差异性,在截取有效数据时,根据量表中被试反馈的目标情绪强烈的时间段,截取脑电中对应的信号供后续分析。
1.4.2 特征提取
采用参数模型法中常用的自回归(auto-regressive,AR)模型[10]提取脑电信号的功率谱特征,其运算简单,能用较少的参数提供较多的谱信息,在混杂噪声信号的分析上具有鲁棒性,可以较好地描述脑电特征。
AR模型属于线性预测模型,也称自回归模型。这种谱估计具有递推特性,因此在处理瞬态的短数据信号时,也具有较高的频率分辨率,而且谱图连续光滑。基于以上优势,AR模型在信号处理领域颇受研究者的重视。假定所研究的随机信号是输入的白噪声序列w(n)经过一个线性系统后产生的输出,p阶的AR模型如下:
(1)
式中,w(n)表示均值为0、方差为δ的白噪声序列,p代表模型的阶数,ap(k)(k=1,2,3,…,p-1)是AR模型的系数。
本研究选用伯格(Burg)算法估计AR模型的系数。在递归约束下,根据观测的数据,利用线性预测器的前向和后向预测的总均方误差(功率)之和为最小的准则来估计反射系数,之后由Levinson-Durbin算法的递推公式求出AR模型的参数。模型的阶数定为8阶,5s作为一个样本,分别计算60 导脑电每一导6个频段的功率谱密度。6个频段定义如下:δ(1~4Hz),θ( 4~ 8Hz),α( 8~13Hz),β( 13~ 30Hz),γ1( 30~45Hz),γ2( 45~100Hz)。然后,将每个频段内的各个频率点对应的幅值相加,得到每一导联对应频段的功率谱能量值(功率谱和),能量特征维数为60×6=360维。
1.4.3 模式识别
支持向量机(supportvectormachine,SVM)[11]是建立在统计学习VC维理论和结构风险最小化原理基础上的一种机器学习方法,在解决小样本、非线性和高维度模式识别问题中表现出突出优势,目前在生物电信号识别、医学图像分割等领域都获得了广泛应用。SVM的基本思想是在特征空间寻找一个最优超平面,可以把两类样本正确分开,而且要求距离超平面最近的不同类样本集之间的间隔最大,这样才能达到最大的泛化能力。SVM输出为
(2)
式中,xi是输入样本,wi是拉格朗日乘子,w=∑kakykxk,b=〈yk-wxk〉,K(x,xi)是核函数(这里使用的是径向基核函数)。
本研究的模式识别是在LibSVM平台上实现的[12],运用“一对一”(one-versus-one)的多分类策略。
1.4.4 配对样本t检验
配对样本t检验用于检验两个有联系的正态总体的平均值是否具有显著差异[13],常见的配对设计有4种情况:
1)同一受试对象处理前后的数据;
2)同一受试对象两个部位的数据;
3)同一受试对象或者样品用两种方法(仪器等)处理的结果;
4)配对的两个受试对象分别接受两种处理后的数据。
情况1)的目的是推断其处理有无作用,情况2)~4)的目的是推断两种处理(方法等)的结果有无差别。配对t检验是最常用的配对设计分析方法。
本研究采用K-S检验来检验数据是否服从正态分布,然后利用配对t检验分别检验两种方法(传统法vs严格法,2 vs 1,3 vs 1,4 vs 1)得到的正确率是否具有显著性差异,见表2、3。当P<0.05时,可认为两种方法得到的正确率具有显著性差异。
表2 不同方法的识别正确率
表3 不同条件下得到的正确率统计学分析
Tab.3 Statistical results of the accuracies in different conditions
对比条件正确率提高百分比(均值±标准差)P值2vs1645%±520%00063vs11048%±558%00004vs11440%±658%0000
注:2 vs 1代表训练集中有2 d数据的情况与训练集中有1 d数据的情况对比,依此类推。
Note: 2 vs 1 is the contrast between training set built by data from 2 days and 1 day,and so on.
2.1 时间效应对识别正确率的影响
现有的分类识别方法通常将同一天的数据随机分成N份,其中1份做测试,其余N-1份做训练。然而,在实际应用中,训练集和测试集中样本的采集时间不同,时间效应可能会造成情绪识别率的下降。为证明这个问题,计算了严格条件下的分类正确率,在此称为“严格法”,即训练集和测试集中的数据分别来源于不同的两天,其中一天的样本作为训练集,剩余的样本作为测试集。表2呈现了分别利用传统法和严格法得到的9个被试的情绪识别正确率。传统法是指每一天的数据分别各自做4折交叉验证,得到平均正确率。从结果可以看出,所有被试在严格法下的识别正确率均低于传统法。传统法三分类的平均正确率为97.88%,而严格法只得到了64.54%的平均正确率。利用配对t检验,对两种方法下的正确率进行统计学分析,得到P=0.000,说明两种方法在统计学上具有显著性差异。由此可以得出,当训练集和测试集中的样本来源于不同的时间时,正确率会显著下降,即时间效应会显著影响情绪识别正确率。
探究时间效应会造成识别率显著下降的原因,可能是由于在不同的时间里,情绪特征会发生一定的变化。图3列出了两个典型特征(P2导联在gamma2频段以及F7导联在delta频段的功率谱特征)在第1~5 d不同情绪状态下的特征分布。可以看出,P2-Gamma2特征具有较好的时间鲁棒性,并没有随时间的变化而变化,功率谱均保持着正性>负性>中性;而F7-Delta特征在不同的时间下分布不同,甚至出现了完全相反的分布趋势,比如第2、3 d,这必会干扰情绪模型的性能。
图3 不同时间下的典型功率谱特征分布(每行从左至右分别为第1~5 d)。(a)gamma频段P2导联;(b)delta频段F7导联Fig.3 PSD features distribution in different days(From left to right in a row: the first day to the fifth day). (a) P2 channel in gamma band; (b) F7 channel in delta band
2.2 不同训练天数下的识别正确率
为了降低时间效应对情绪识别模型的影响,本研究提出了一种新的方法,即通过增加训练集中的样本天数来提高识别模型的时间鲁棒性。图4给出了9名被试不同训练样本天数下的识别正确率,横轴是训练集中样本的天数N(N=1,2,3,4),即N天的样本做训练,剩余的(5-N)d的样本做测试,纵轴是相应条件下的平均识别正确率。可以看出,随着训练集中天数的增加,正确率提高,正确率与训练样本的天数呈正相关。同时,分别计算并对比了训练集中的样本分别来自于2~4 d时得到的正确率相对于训练集中的样本只来自于1 d时的提高率,利用配对t检验得到了各条件下的P值,见表3。从结果来看,当训练集中样本来源于2~4 d时,相比于1 d的情况,平均正确率的提高率分别为6.45%(P=0.006)、10.48%(P=0.000)、14.40%(P=0.000),即增加训练集中样本的来源天数,能显著降低时间效应对分类效果的影响。
图4 不同训练天数下的识别正确率Fig.4 Recognition rates with different number of days in the training set
本研究首先采用现在常用的方法[11,14-15]进行情绪识别,即训练集与测试集中的样本均来源于同一天的数据,得到了较高的识别正确率(见表1中的传统法)。但是,当训练集和测试集中的数据来自于不同的两天时,正确率急剧下降(见表1中的严格法),也就是说,时间效应会显著影响情绪识别模型的正确率。究其原因,主要有两个:一是EEG信号具有很高的时变敏感性,激素水平、心境以及饮食睡眠都能影响到EEG信号,使其产生不同的节律,所以即使在同一种情绪状态下,由于在不同时间下EEG信号的基线不同,EEG的情绪节律也是不同的;二是EEG信号具有敏感性和易被污染性,外界环境、肌电干扰以及电极的安放位置都会对EEG信号产生影响,使其呈现出不同的节律,这也是当训练集与测试集中的样本来源于不同的两天时识别正确率显著下降的主要原因。
然而在现实生活中,用来训练分类器和用来预测的数据势必会来自于不同的时间,用某一天的数据建立的分类器去预测相同时间内的数据在现实生活中少之又少。为了解决这个问题,提高情绪分类器的时间鲁棒性,本研究提出了一个新的方法,即通过增加训练集中样本的天数来提高分类器的时间普适性,从而得到了比较理想的结果(见图4)。9名被试的识别正确率均与训练样本的天数呈正相关。究其原因,可能是由于训练样本天数的增加,导致在建立分类器时弱化了具有时间特异性的特征,从而有利于提取只与情绪相关的特征。
在现有的研究中,有关情绪分类器的时间鲁棒性的研究很少,仅有的两种方法主要存在两个缺陷:一是会减少情绪类型,二是测试集的数据不够独立,测试集的数据用于构建分类器后,其测试结果相对不够可靠,因为在现实应用中,测试集无法参与分类器的构建。而本研究提出的新方法克服了这两个问题,为情绪识别走向实际应用提供了理论依据和技术支持。
时间效应对分类器的影响不只存在于情绪识别的领域,在其他认知领域(如脑力负荷、注意力分级等领域)同样存在。本研究中新方法的提出,也可为其他领域的研究提供参考。
本研究通过视频诱发了被试正性、中性、负性等3种情绪状态,每名被试需在1个月内进行5次数据采集。结果证实,脑电时间效应会显著降低情绪识别模型的识别正确率,通过增加训练集中样本的天数可降低脑电时间效应的影响,同时也能提高情绪识别模型的时间鲁棒性,这是情绪识别从理论研究走向实际应用重要且必要的一步。
(致谢:感谢参与本实验所有的志愿者被试。)
[1] Blanchette I, Richards A. The influence of affect on higher level cognition: A review of research on interpretation, judgement, decision making and reasoning [J]. Cognition & Emotion, 2010, 24(4): 561-595.
[2] Picard RW, Vyzas E, Healey J. Toward machine emotional intelligence: Analysis of affective physiological state [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2001, 23(10): 1175-1191.
[3] Liu S, Zhang D, Xu M, et al. Randomly dividing homologous samples leads to overinflated accuracies for emotion recognition [J]. International Journal of Psychophysiology, 2015, 96(1): 29-37.
[4] Chueh TH, Chen TB, Lu HHS, et al. Statistical prediction of emotional states by physiological signals with Manova and machine learning [J]. International Journal of Pattern Recognition and Artificial Intelligence, 2012, 26(4): 1025-1035.
[5] Verma GK, Tiwary US. Multimodal fusion framework: A multiresolution approach for emotion classification and recognition from physiological signals [J]. NeuroImage, 2014, 102:162-172.
[6] Wang XW, Nie D, Lu BL. Emotional state classification from EEG data using machine learning approach [J]. Neurocomputing, 2014, 129:94-106.
[7] Khalili, Z, Moradi, M.H. Emotion detection using brain and peripheral signals[C]// Biomedical Engineering Conference. Piscataway: IEEE, 2009:737-738.
[8] Cohen B, Bravo-Fernandez E, Sances Jr A. Automated electroencephalographic analysis as a prognostic indicator in stroke [J]. Medical and Biological Engineering and Computing, 1977, 15(4): 431-437.
[9] 万柏坤, 朱欣, 杨春梅, 等. ICA去除EEG中眼动伪差和工频干扰方法研究 [J]. 电子学报, 2003, 31(10): 1571-1574.
[10] 陈海英. AR模型功率谱估计常用算法的性能比较 [J]. 漳州师范学院学报(自然科学版), 2009, 22(1): 48-52.
[11] Hidalgo-Mu Oz AR, L Pez MM, Santos IM, et al. Application of SVM-RFE on EEG signals for detecting the most relevant scalp regions linked to affective valence processing [J]. Expert Systems with Applications, 2013, 40(6): 2102-2108.
[12] Chang CC, Lin CJ. LIBSVM: a Library for Support Vector Machines [J]. Acm Transactions on Intelligent Systems & Technology, 2006, 2(3): 389-396.
[13] 张文彤. SPSS统计分析基础教程 [M]. 北京:高等教育出版社, 2011.
[14] Brown L, Grundlehner B, Penders J. Towards wireless emotional valence detection from EEG.[C]// International Conference of the IEEE Engineering in Medicine & Biology Society.Piscataway: IEEE, 2011:2188-2191.
[15] Shuang L, Di Z, Minpeng X, et al. Randomly dividing homologous samples leads to overinflated accuracies for emotion recognition [J]. International Journal of Psychophysiology, 2015, 96(1): 29-37.
Study on Time-Effect on EEG-Based Emotion RecognitionModel and Countermeasures
Liu Shuang Tong Jingjing Guo Dongyue Ke Yufeng Meng JiayuanChen Long Xu Minpeng Qi Hongzhi Ming Dong#*
(DepartmentofBiomedicalEngineering,CollegeofPrecisionInstrumentsandOptoelectronicsEngineering,TianjinUniversity,Tianjin300072,China)
There are numerous studies measuring the brain emotional status by analyzing EEGs under the emotional stimuli that have occurred, however, in practical application, an important but unresolved question is the extent to which the emotion model may generalize over time, since people could have a different expression of the same physiological signal on different days even when he experiences the same emotion. This paper attempted to add multiple days to the training set in purpose to weaken the impact of day-effect, and then to improve the generalization of the classifier. Eight subjects participated in this experiment, in which movie clips were presented to evoke the subjects’ three emotional states of neutral, positive and negative. Moreover, EEG was recorded 5 times within one month for each subjects. Support vector machine (SVM) was used to obtain the 3-class classification rates in all the collecting conditions including1-day collection, 2-day collection, 3-day collectionand 4-day collection.N-daycollection represented the case in which data from N days were sent to train the SVM and the remaining (5-N) days were used to form the testing set. Results showed that the accuracy was increased with the number of days in the training set for most of the subjects. Compared with 1-day collection, the increasing rates of the accuracies were 6.45%(P=0.006), 10.48%(P=0.000), and 14.40%(P=0.000)in 2-day, 3-day and 4-day collections. These results suggested that adding data from more days to the training set could improve the performance and generalization of an emotion classifier. Though it is still a big challenge in EEG-based emotion recognition, these results provided a promising solution and take EEG-based model one step closer to being able to discriminate emotions in practical application.
electroencephalography (EEG); emotion recognition; day-effect; time robustness; support vector machine (SVM)
10.3969/j.issn.0258-8021. 2017. 01.005
2016-04-27, 录用日期:2016-10-02
国家自然科学基金重大研究计划(91520205);国家自然科学基金(81571762, 31500865)
R318
A
0258-8021(2017) 01-0039-07
# 中国生物医学工程学会高级会员(Senior member, Chinese Society of Biomedical Engineering)
*通信作者(Corresponding author), E-mail: richardming@tju.edu.cn