李琳,考希宾,万红
(兵器工业卫生研究所 中国兵器工业集团人-机-环境重点实验室,西安 710065)
在医疗机构里,看护机器人能够代替护士对病人进行体贴的照顾,还能时刻陪伴病人[2]。这些应用对类人机器人的交流能力提出了更高的要求。在人与人的交流过程中,正确辨别对方的情绪是使得交谈更加顺利有效的重要前提[3]。为了实现机器人与人类的自主情感交互,我们需要机器人能够自动正确识别人类的各种情绪。
情绪是人们表达对外界事物看法最直观的方式,它与人的思想和行为有紧密的联系,是对多种感受、思想和行为的综合而产生的心理和生理状态,在人与人的交流过程中能够传递重要的信息[3]。情绪识别在智能人机交互、机器人领域是十分值得探究的前沿热点方向。目前,情绪识别研究多数基于人的面部表情[4-5]、语音[6-8]和生理信号[9-12]来进行。本研究着重于基于语音和生理信号的情绪识别,旨在同时应用语音和EEG信号,利用两种信号的互补特性,从外在表现和生理反应两方面进行情绪识别研究。
本研究的意义在于:
(1)分析语音和EEG两类数据源的情绪识别结果,从数据源固有特性方面探究其对情绪识别研究的重要意义。(2)使用多核学习算法进行语音和EEG信号数据融合的情绪识别研究,探究异构数据融合进行情绪识别的新方法和新途径。
目前对情绪的描述方法主要有两种,分别为离散法和连续法。这两个模型的示意图见图1和图2。
图2 三维情绪描述模型
基于语音的情绪识别研究最早可追溯到1983年,人们开始使用一些声学方面的统计特征来对不同情感进行分类[15-16]。
语音信号特征包含了不同情绪类型信息。常见的用于语音情绪识别的特征可分为三类,分别为韵律特征、音质特征和谱特征。韵律特征有能量[7-8]、幅值[6]、音调[3,6-8]等;音质特征包括共振峰、声门系数等;谱特征有Mel倒谱系数(MFCC)[3,7]、线性预测系数(LPC)、线性预测倒谱系数(LPCC)[3]和功率谱[6]等。
冷,还是冷,这彻骨的寒冷真是让易非怕了。她睁开眼睛盯着黑乎乎的屋顶,想着田有园的话,他让她原谅陈留,都已经结束了,我的人生,他的那一页都已经翻过去了,还谈什么原谅不原谅呢?都结束了,就意味着没有交集了,没有交集了,爱与恨、原谅不原谅又有什么关系呢?那就像是对待电影里的一个人物,恨与爱已没有任何意义,易非都懒得去想。
最常用的基于语音进行情绪识别的分类器包括:SVM[3],高斯混合模型(GMM)[8,13]、隐马尔可夫模型(HMM)[13],多层感知器(MLP),随机森林(RF),堆叠上下文和投票法[14]等。常用的回归算法有局部线性重构(LLR),鲁棒回归(RR)[7]和支持向量回归机(SVR)[7]等。
基于EEG的情绪识别研究较语音情绪识别起步晚,但得到了快速的发展。EEG信号的特征主要有三类,分别为时域、频域以及时频域的特征。时域特征有事件相关电位、统计特征、Hjorth参数、非平稳性指标、分形维数和高阶交叉等;频域特征有各频带功率和高阶谱等;时频域特征包括Hilber-Huang谱和离散小波变换等[9]。
EEG情绪识别常用的分类算法有SVM、反向传播算法(BP算法)、k-NN等。与语音情绪识别相同,使用SVM进行EEG情绪识别的分类精度较高。Y.P.Lin等人通过对人在听到四种不同类型音乐时(高兴、生气、悲伤和满意)的脑电波进行采集,使用多层感知器和SVM分别对其进行分类。结果显示,使用SVM的分类精度较高,最高分类精度为82.29%[17]。
本研究内容与目标有以下两个方面:
(1)对已有纯净语音信号和EEG信号的情绪识别结果进行分析;尝试从不同数据的固有特性方面分析原因,理解不同数据类型对情绪识别研究的重要意义。
(2)对语音信号和EEG信号特征进行直接组合,另外,使用多核学习算法对两类数据进行融合,对使用两种方法进行融合的数据分别进行情绪识别分类,探索多源数据融合在情绪识别研究中的新方法。
所用数据为18名中国大学生(9男9女)的语音与EEG数据。18位被试平均年龄为22岁。
3.2.1 SVM
支持向量机(Support Vector Machine,SVM)最初由Vapnik[18]于1995年提出,其主要思想是建立一个超平面作为决策曲面,使两类数据之间的隔离边缘被最大化。其示意图如图3所示。本研究使用SVM进行情绪识别的分类。
图3 SVM线性二分类问题
3.2.2 多核学习
多核学习方法(Multi-Kernel Learning)是核机器学习领域的一个前沿热点研究方向。对于非线性数据的分类,核方法被广泛应用。但在一些复杂情况下(比如数据异构或不规则,样本量过大或者分布不平坦),单个核函数的核机器不能有效解决这些问题,无法满足其应用,因此,对于多源数据采取不同核函数,把多个核函数组合起来并训练每个核的权重,这便是多核学习方法。
线性合成核是对多个核函数进行线性组合而得到的,其具体流程如图4所示。
图4 多核线性组合合成核流程图
分类结果如表1所示。从表中能够得到,自然语音的识别精度低于纯净语音;纯净语音的识别精度最高可达74.68%,EEG的识别精度最高可达89.87%。均值来看,使用纯净语音和EEG融合的识别精度最高,为74.75%。
表1 情绪识别分类结果表
虽然数据结果具有个体差异性,但整体的规律是EEG信号的情绪识别精度普遍高于语音信号,尤其是使用SVM-RBF算法。以上结果说明, EEG信号能够更好地进行情绪识别。EEG信号能够真实反应外界环境发生变化时人类生理状态的变化,特别是当人们接受某种有效刺激后,其EEG信号会快速发生变化,这一变化很难人为进行改变控制,且人们不能对EEG信号进行伪装,只要刺激有效,就能检测到信号的差异。而语音信号则不同,一方面,人们能够对语音中的情绪进行人为伪装,即人们使用语音所表达的情绪不一定是其真实情绪;另一方面,有些人不善于表达情绪,则使用其语音进行情绪识别结果并不会很好。
研究中对纯净语音信号和EEG信号分别进行了情绪识别,由于这两类信号在对情绪的表征方面各有优缺点而又相互互补,我们将这两类信号的特征值进行融合并对其进行了情绪分类。
表1表明,进行特征融合后的分类精度均比两类数据各自的分类精度高,平均最高能够达到20%以上。
以上结果表明,多源数据特征融合进行情绪识别的分类效果好于对单一数据进行分类。说明单一数据源在进行情绪识别分析中由于数据的固有特性会影响分类效果,而多源数据融合进行识别则将能够对不同数据的缺陷进行互补,更加全面且精确地反映各类情绪变化。
EEG信号的情绪识别效果整体较语音信号好。由于EEG信号能够反映外界环境发生变化时人类生理状态的变化,特别是当人们接受某种有效刺激后,其EEG信号会快速发生变化,这一变化很难人为进行改变控制。而语音信号则不同,一方面,人们可以人为伪装语音中的情绪表达,另一方面,有些人不善于表达情绪状态,其语音中的情绪信息不够精确。
多源数据特征融合进行情绪识别的分类效果好于使用单一数据的分类效果。在数据融合方法中,多核学习算法的分类效果较单核分类器好。多核学习算法对不同种类的数据使用不同的核函数,可以有选择地使用适合各个数据类型的核函数,因此多核学习算法有较强的多源数据分类性能。
在未来的研究中,我们组将实现机器人与人的情感交互。针对本论文的研究结论,在进行人机情感交互研究中,首先需要对噪声进行处理,获得尽量纯净的语音信号;其次是选择最佳的多核学习算法进行多种数据的融合,以达到更加精准的情绪识别结果,进行更加有效的人机情感交互。