张雪英,孙 颖,张 卫,畅 江
(太原理工大学 信息工程学院,太原 030024)
语音情感识别的关键技术
张雪英,孙 颖,张 卫,畅 江
(太原理工大学 信息工程学院,太原 030024)
语音信号中的情感信息是一种很重要的信息资源,仅靠单纯的数学模型搭建和计算来进行语音情感识别就显现出不足。情感是由外部刺激引发人的生理、心理变化,从而表现出来的一种对人或事物的感知状态,因此,将认知心理学与语音信号处理相结合有益于更好地处理情感语音。首先介绍了语音情感与人类认知的关联性,总结了该领域的最新进展和研究成果,主要包括情感数据库的建立、情感特征的提取以及情感识别网络等。其次介绍了基于认知心理学构建的模糊认知图网络在情感语音识别中的应用。接着,探讨了人脑对情感语音的认知机理,并试图把事件相关电位融合到语音情感识别中,从而提高情感语音识别的准确率,为今后情感语音识别与认知心理学交叉融合发展提出了构思与展望。
语音情感识别;语音自然度;声学特征;认知机理;模糊认知图;事件相关电位
情感能力是人类智能的重要标志,情感在人与人的交流中必不可少。人类在有能力制造和研制机器以后,希望机器可以听懂人的语言,判断人的情感,从而实现更自然和谐的人机交互。情感语音识别(Emotion Speech Recognition)的出现,使得人类的这一设想得以实现。目前,人机交互的方式大部分局限在使用键盘、鼠标或触摸屏。随着社会的发展,人类希望机器能够更人性化、更智能化、更便于操作。这一要求,必然需要计算机实现与人类相似的思维、感知以及行为功能。
研究计算机的情感识别技术,可以从两大方面进行。一是面部表情,面部表情和手势向来是情感识别系统中的基本方式;二是语音,在沟通过程中想要得知对方的动机和情绪,语音是最有利和最直接的方式。语音信号中的情感信息是一种很重要的信息资源,它是人与人交流中必然存在的信息。同样的一句话,由于说话人的情感不同,在听者的感知上就可能会有较大的差别。目前,关于情感信息处理的研究正在逐步深入;而其中语音的情感识别因涉及到不同语种之间的差异,进展也不尽相同。英语、日语、德语、西班牙语的语音情感分析处理研究较多,汉语语音的情感分析也逐渐成为研究热点。随着科技的发展,情感语音识别会越来越贴近人们的生活,开展这方面研究对于人类社会的进步与发展具有重要的意义。目前,国内外对语音情感识别的研究主要集中在以下几个方面。
情感语音数据库是情感语音识别的基础。情感语音数据库的质量对情感语音识别研究起着决定性的作用。情感语音数据库按照应用目的可以分为识别型和合成型;按照语种差异可以分为英语、德语、中文等类别;按照情感描述模型可以分为离散型情感语音数据库和连续型情感语音数据库;按照获取途径可分为表演型、激励型、启发型和摘引型;按照语音的自然度可以分为模仿型、诱发型和自然型[1]。本文从自然度的角度对3种类型的情感语音数据库进行描述分析。
模仿型语音库一般由专业演员朗读的有情感要求的语音组成。这种语音库的优点是文本、性别、情感可以满足研究要求。但因该库由专业演员表演获得,语音情感表现具有一定的夸张度,不同于生活中的真实情感,不利于将所得研究结果运用到现实生活中。
诱发型语音库是对被录音人员进行启发、引导等获得研究所需要的情感语音。它相对于自然型来说较为容易实现。但是这种方式的录音效果是由激励的情感程度决定。建立诱发型语音库不仅要选取合适的激励源,而且要克服人对激励源的个体差异性,确定情感诱发的有效性。
自然型语音库就是采集正常生活中的对话片段,在被录音者不知道的情况下进行语音的录制,或者在广播、电视等多媒体材料中剪辑研究所需要的情感语音片段。这种方法的优点是情感真实度较高,情感表达直接由心理状态出发,并且有上下文的关联信息,有利于以后的研究。但是数据的来源可能会涉及到隐私等问题,并且获得自然型语音需要较大的工作量。
近年来,国内外研究者已经建立了多种情感语音数据库[2-7]。这些数据库涉及到多个语种,如瑞士语、英语、葡萄牙语、西班牙语、德语、汉语等。随着对情感语音研究的关注度的提高,国内高校、研究机构也根据自己的研究需求建立了情感语音数据库[8]。然而,由于情感语音数据库的建立标准、研究任务不同,并且没有公开共享的情感语音数据库,因此不同情感语音数据库之间无法共享研究成果。
我们参照国内外语音库的制作规范建立了TYUT1.0情感语音数据库[9]。该数据库属于模仿型情感语音数据库,选择高兴、生气、中立等3种最基本的情感状态,6句中文、5句英文进行语音的录制。录制结束后对语音进行有效性分析,通过两次主观辨听筛选出四种情感语音。
为了研究自然情感语音,我们又建立了TYUT2.0自然型情感语音库。该数据库是通过剪辑多媒体材料获得包括高兴、生气、悲伤、惊奇等4种情感的语音库。第一阶段为初选阶段的语音库,从广播剧中截取4种情感的语音片段获得。第二阶段为情感语音数据库的有效性评价阶段,建立改进的模糊综合评价模型,利用该模型对初选阶段语音库从情感准确度、自然度、背景噪声等5个方面进行评价筛选,得到最终的情感语音数据库。
提取情感关联度高的特征是语音情感识别的又一关键。如果提取的特征不能很好地代表情感差异度,将导致之后的识别网络处理结果难以令人满意。近年来,情感语音特征种类虽然没有一个统一的划分,但是大致上可分为声学特征和语言特征[10]。这两类特征提取方法和对语音情感识别的贡献也因选取的语音库不同而截然不同。如果选取的语音库是基于文本的数据库,语言特征就可以忽略不计。如果选取的语音库是贴近现实生活的真实语料,语言特征将发挥极大的作用。以往的学者大多数关注的是对声学特征的研究。目前,常用的语音情感识别的声学特征主要包括韵律学特征、基于谱的特征和音质特征等[11]。这些特征向量一般以全局统计的方式进行构造,作为语音情感识别网络的输入。常用的统计参数主要有方差、均值和中值等。
2.1 韵律特征
韵律体现了语音信号强度和语调的变化,可以使得语言结构更加自然,同时增强语音流动性。此外,韵律还可以被看作是音节、单词、短语和句子相关的语音特征,表征了语音信号中的非言语特性[12]。因此,韵律特征也被称为“超音段特征”。韵律已经作为语音情感识别的特征取得了显著结果,且常用的韵律特征主要包括能量、语速、基频、时长等。
IIiou和Anagnostopoulos[13]提取了柏林语音库35维韵律特征(基频、能量和时长),采用神经网络对其中情感进行判别,获得了51%的识别结果。Rao et al[14]选用Telugu情感语音库(IITKGP-SESC)和德国柏林语音库(EMO-DB)作为实验室语料库来源[15],提取韵律特征时长(duration)、基频(pitch)和能量(energy);并在此基础上分别提取对应的全局特征和局部特征。采用支持向量机(Support Vector Machine,SVM)对提取的特征向量进行分类,并对7种情感进行识别,得到了64.38%的平均识别结果。Kao和Lee[16]分别从帧、音节和词语的水平上对韵律特征进行研究,对4种情感的判别获得了90%的识别结果。
2.2 基于谱的特征
基于谱的特征体现了语音信号频谱特性,主要分为频谱特征和倒谱特征。常用于语音情感识别的谱特征有梅尔倒谱系数(Mel-Frequency Cepstrum Coefficients,MFCC),线性预测倒谱系数(Linear Prediction Cepstrum Coefficients,LPCC);对数频率功率系数(Log Frequency Power Coefficients,LFPC),感知线性预测(Perceptual Linear Predictive,PLP),线性预测系数(Linear Prediction Coefficients,LPC)。目前,用于语音情感识别中的基于谱的特征,MFCC表现出的性能最优,并得到了广泛使用[17]。
台湾学者选用MFCC[18]、LPCC等作为特征向量,分别使用SVM[19]和人工神经网络(Artifical Neural Network,ANN)对普通话5种情感进行分类,分别获得84.2%和80.8%的识别结果,并总结出SVM对愤怒情感的识别优于ANN,但是没有将高兴与其他3种情感(悲伤,厌烦,中性)更好地区分开来[20]。
2.3 音质特征
音质特征描述了声门激励信号的性质,包括发声者的语态、呼吸喘息,可以通过脉冲逆滤波补偿声道影响。此外,音质特征的表现因情感不同而有所差异。通过对音质特征的评价,可以获得说话人的生理、心理信息并区分情感状态。音质特征主要包括谐波噪声比(Harmonics-to-noise Ratio,HNR)、抖动(jitter)和闪光(shimmer)。
Lugger et al针对音质特征在噪声环境下的鲁棒性进行研究,分析了影响音质特征的5个参数并验证参数对情感判别的性能[21]。此外,Lugger et al分别提取了65维MFCC统计特征、201维韵律统计特征和67维音质统计特征对柏林语音库6种情感进行训练和测试。经验证,针对说话人独立的语音情感识别中,音质特征性能优于MFCC[22]。
2.4 融合特征
单独使用某一方面的声学特征存在一定的局限性,于是研究者相继将以上3种特征融合起来进行语音情感识别。赵力等在对实用语音情感的特征分析中,提取了针对烦躁、喜悦和平静等实用情感的74个全局统计特征,其中前36个特征为韵律特征,后38个特征为音质特征,平均识别率达到75%[23]。Amol et al选用MFCC,过零率(Zero-crossings Rate,ZCR)、能量等特征对柏林语音库6种情感进行实验,获得了98.31%的优异结果[24]。此外,研究者使用上述3种声学特征及其统计特征,在一定程度上容易造成特征向量维度过高,冗余量过大。特征维度过高对识别网络的训练产生很大的干扰。因此,采用不同的算法来实现特征筛选也逐渐成了特征提取的另一研究热点。赵力等分析了Fisher判别准则(Fisher Discrimination Ratio,FDR)和线性降维分析算法(Linear Discrimination Analysis,LDA)的性能优劣。此外,尤鸣宇对常用的情感特征筛选算法进行了分析与研究[25]。
2.5 基于人耳听觉特性的特征
过零峰值幅度特征(Zero Crossings with Peak Amplitudes,ZCPA)是一种基于人耳听觉特性模型的特征。这种特征将信号的频率及幅度信息用过零率和峰值的非线性压缩来表示,并将两种信息有机结合。ZCPA在孤立词识别中具有较高的抗噪性,我们将其引入到语音情感识别后,获得了较好的识别效果[26,27]。我们从语音信号短时平稳理论的角度详细分析了分帧长短对ZCPA特征的影响,并将Teager 能量算子(Teager Energy Operator,TEO)与ZCPA特征相结合,提出了一种新的基于人耳听觉特性模型的过零最大Teager 能量算子(Zero-Crossings with Maximal Teager Energy Operator,ZCMT)特征。该特征既保留了人耳的听觉特性,又将最能表征情感状态的特征融入了系统。实验取得了较好的识别结果。
识别网络模型是情感语音识别系统的核心部分,网络的有效性对识别结果的高低有很大的影响。识别网络模型的目的是实现模式匹配,在识别过程中,当语音信号的特征输入到识别网络中时,计算机通过相应的算法得到识别结果。显然,识别网络的选择与识别结果有着直接的关系。
现有的统计模型与识别算法大致有以下几种:动态时间规整模型(Dynamic Time Warping,DTW)、隐马尔可夫模型(Hidden Markov Models,HMM)、高斯混合模型(Gaussian Mixture Model,GMM)、支持向量机(SVM)和人工神经网络(ANN)等。其中,DTW利用模板匹配法进行识别,HMM和GMM利用概率统计原理进行识别,ANN和SVM是基于判别模型的方法进行识别。
DTW是一种较早的模型训练和模式匹配技术,该模型以整个单词作为一个识别单元,模板库中存入了词汇表中所有词的特征矢量序列模板。识别时分别将待识别语音的特征矢量序列与库中的各个模板进行比较,并将最相似的模板作为识别结果输出。DTW 应用动态规整方法成功解决了语音信号特征参数序列时长不等的难题,在小词汇量、孤立词语音识别中有良好的性能。但因其不适合连续语音、大词汇量语音识别系统,目前已逐渐被HMM和ANN模型取代。
HMM是语音信号时变特征的有参表示法[28]。该模型通过两个相互关联的随机过程共同描述语音信号的统计参数特性。一个是不可观测的、具有有限状态的马尔可夫链,另一个是与该马尔可夫链的各个状态相关联的观察矢量的随机过程,它是可观测的。HMM的应用为语音识别带来重大突破,尤其是在连续、大词汇量语音识别方面。文献[29]中指出,在连续语音句子中的每个单词发音没有明显的界限,分割比较困难,典型的技术解决方案就是使用基于HMM的连续语音识别系统。Nwe et al[30]利用HMM识别系统识别6种情感,通过一个缅甸语语音库和一个汉语普通话语音库训练和测试HMM,系统识别率最高可以达到78.5%和75.5%。HMM很好地模拟了人类的语言过程,HMM模型的训练和识别都已研究出有效的算法,并被不断完善以增强模型的鲁棒性,目前该模型应用十分广泛。很多研究者提出了HMM改进算法,例如加入遗传算法、神经网络技术等,提高了HMM的训练速率和识别准确率。但是训练HMM需要大量的训练样本,时间成本比较高。
GMM是一种用于密度估计的概率模型[31],主要优点是拟合能力很强,在理论上可以拟合所有的概率分布函数。文献[32]在GMM模型中使用了boosting算法进行类条件分布估计,相比传统使用EM(Expectation Maximization)方法进行估计的GMM模型,该方法获得了更优的性能。GMM成功地应用在语种识别和说话人识别研究中,在2009年召开的语音领域著名国际会议Interspeech中,GMM的识别系统在总体性能上效果最佳。但是GMM的主要缺点是对数据的依赖性过强,因此在采用GMM的情感语音识别系统中,训练数据的选择会对系统识别结果产生很大的影响。
SVM是以统计学习理论为基础的识别算法,它通过一个核函数将特征向量由低维空间映射到高维空间中,完成线性不可分到线性可分的转化,从而在新的高维空间中实现最优分类[33]。SVM适用于小样本分类,在多分类问题中存在不足。很多研究者在情感语音识别系统中采用SVM,并且得到了很好的识别效果。文献[34]中,Tato et al使用SVM作为识别模型对喜、怒、悲、平常4类情感进行识别研究,最终平均识别率达到73%。
我们也一直在研究利用SVM建立识别网络,例如,将传统的AdaBoost.M2与SVM结合以实现多类分类,采用Geesepso算法对弱分类器的权值全局寻优,这样得到的弱分类器具有更高的准确率。实验表明,在低信噪比语音识别中,改进的AdaBoost.M2-SVM相比传统的SVM有更好的泛化能力和较高的识别准确率[35]。
ANN是当前语音识别研究的一大热点。ANN是由节点互连组成的计算网络,通过训练可以使其不断学习知识从而获得解决问题的能力,本质上是一个自适应非线性动力学系统。它模拟了人类大脑神经细胞活动,具有记忆、联想、推理、总结和快速并行实现的特点,同时还具备自适应、自组织的功能。在一些环境因素复杂、背景信息模糊、推理规则不明确的情况下,ANN比HMM有更大的优势,ANN因此为噪声环境下非特定人的语音识别提供了很好的解决方法。目前利用ANN的语音识别系统大部分采用BP神经网络,并取得了很好的识别效果[36]。在文献[37]中,研究者采用时间规整网络级联BP神经网络分类器构成了语音识别系统,在对小词表中文孤立词语音识别中得到了98.25%的正确识别率。
此外,研究者经常把以上模型相互结合,取长补短,形成混合模型,应用在不同的识别系统中,取得了较好的效果。文献[38]提出了基于ANN/HMM混合模型的语音识别方法;该方法利用二者各自的优势,将ANN强大的分类能力以及HMM较好的时域建模能力相结合。实验结果表明,与传统的HMM和ANN识别结果对比,该混合模型语音识别方式改善了系统识别性能,提高了识别率,并在抗干扰性和鲁棒性方面也得到加强。
目前我们主要侧重选用模糊认知图(Fuzzy Cognitive Map,FCM)来构建识别网络,其基本思路阐述如下。FCM是在认知图(Cognitive Map,CM)中加入模糊推理机制得来的一种有向图,是一种用于研究认知系统组织、相互关系以及行为特征的工具;情感维度理论是基于心理学提出的,语音情感识别与人类情感认知过程有很大的关系;现拟将情感维度理论和FCM结合,构建基于FCM和情感维度理论的语音情感识别模型,将复杂的认知过程与信号处理手段相结合,对提高系统整体性能会有积极作用。并且在原有学习方法的基础上,应用人工蜂群算法训练FCM网络,从而实现了维度空间理论与人工蜂群算法的结合,以共同优化FCM参数。
认知网络研究面对的主要问题是理论上没有实现突破。虽然现在一直提出各种修正方法,但其优缺点各异,没有普遍适用性。纵观近几年的文献来看,尽管有很多算法成功地运用到了语音情感识别中,但大多数研究者只是使用这些算法在某些特定的数据库上进行了测试,对实验数据依赖性强。在不同的情感数据库上和测试环境中,各种识别算法均有自己的优劣势,没有普遍性。
常见的语音情感识别方法都是基于语音信号本身的情感特征进行研究,但是不论这些情感识别方法有多么精确,它都无法与人脑相媲美。因此,研究人脑对语音情感的认知机理,是研究语音情感识别的另一个领域。
行为学数据表明,人们对不同情感语音进行识别,其识别速度和识别正确率都会有所不同,而且不同年龄和不同性别的人对情感的识别也会存在不同[39]。对于语音情感识别的认知研究,目前主要采用功能核磁共振成像(Function Magnetic Resonance Imaging,FMRI)[40]及脑电(Electroencephalography,EEG)[41]等脑科学的研究方法。由于功能核磁共振的设备体积庞大、价格昂贵,不适用于实验室,因此目前人们更多地采用 EEG信号来进行情感识别。EEG技术是近几年兴起的研究人脑加工机制的主要技术手段。它含有丰富的有用信息,若把特定事件刺激下引发的脑电波形按照一定规则叠加,就会产生关于该事件的脑电波形图,也就是事件相关电位(Event-Related Potentials,ERP)[42]。ERP技术[43]可以对不同的刺激进行分类,从而分辨不同的情绪状态。采用ERP的方法探讨情感语音对神经的脑加工机制[44]、精神疾病的诊断[45]、治疗选择[46]及预后判断具有潜在应用价值[47]。
情感ERP研究始于20世纪60年代后期,早期的这类研究主要是基于两个方面。一方面,通过某种情感诱发方式,使被试产生某种需要的情感以后,再对被试进行脑电活动研究;这类研究主要是对被试的脑电EEG信号进行分析,观察其脑电的节律变化。Ray et al[48]较早发现情感的认知过程主要集中在β节律上;之后,他们又发现脑电中的γ节律与人的紧张和焦虑状态有关[49]。上海交通大学聂聃[50]采用支持向量机SVM对脑电的节律特征进行分类,并通过流形学习模型拟合出了被试在整个实验过程中的情感变化轨迹。另一方面,让被试对一些基本的情感进行辨别,研究某种特定情感事件出现时的ERP波形。通常这类研究都是通过视觉诱发的方式进行,并采用国际情绪图片系统(International Affective Picture System,IAPS)作为刺激材料。如Carretié et al[51]的研究结果显示,负性图片诱发出的ERP正性波波幅增大,而这个效应发生在额部。Briggs和Martin[52]的研究结果显示,与中性图片相比,唤醒度高的情绪图片能诱发更大的P300波幅。Yuan et al[53]、Meng et al[54]研究团队发现人脑对不同效价的负性情感具有敏感性,而对不同效价的正性情感却不敏感。这些关于脑电的情感研究都是基于视觉的,但它们为听觉情感的研究提供了理论支持。
近年来,随着脑认知机理研究的深入,关于语音情感识别的ERP研究也受到越来越多的关注。这类研究主要集中在以下几个方面。
1) 情感语义的研究。主要针对语义文本的研究,即字音、字形、字义及句法的研究[55]。Kutas和Hillyard[56]研究发现,当人们阅读无意义语句时,会产生N400事件相关电位。Hagoort[57]发现语义违反与句法违反相关联的事件相关电位N400和P600。Niznikiewicz et al[58]对字形和语义分别进行研究,设计了同音、同形、语义相关和无关4种词对,要求被试进行语义相关判断。我国浙江师范大学的曹晓华等[59]、郅菲菲[60]以及王魁[61]对汉语字词认知的N170成分进行了研究,发现了汉语字词认知的敏感性和偏侧化。但是关于情感语义的研究多数都是基于单个字词的,对于整句的研究却不多,而且这些研究大多也是基于视觉。虽然已有学者[62]从听觉角度对其进行研究,但是也都是基于单个字词的。
2) 情感韵律的研究[63]。情感语音的研究表明,语音情感信息[64]主要体现在韵律特征的变化上[65]。韵律是言语的整体特性,包括语调、重读位置、停顿、速度和持续长短等[66]。有的进一步指出,基本情感的声学特征差异,主要反映在基频的高低、能量的增减和语速的快慢[67-68]上。在停顿加工上,Besson et al[69]发现言语理解中,延长词与词之间的停顿会引起在头皮前中部分布,200 ms达到峰值的负波。Honbolygó et al[70]对单词的重音部分进行了研究。钟毅平等[71]采用情感韵律不同的句子诱发了右单侧化的ERP正波效应,而语义-情感韵律都诱发了早期双侧化分布的ERP负波效应。此外,郑志伟等[72]还对情绪韵律调节情绪词识别的 ERP进行研究,发现情绪韵律能够调节情绪词识别。
3) 情感时长的研究。尽管语音情绪变化加工机制的研究还不多见,但听觉刺激变化加工的研究却颇为丰富。听觉刺激在时间维度延伸,导致预期式加工是听觉加工的重要特征[73],即听者会根据已听到的刺激对即将出现的刺激形成预期,并将后来的刺激与预期相对比。大量研究发现,人脑能够迅速检测这种听觉刺激的变化,在自动加工时偏差刺激诱发 MMN,主动加工时诱发 N2/P3 复合成分[74]。有研究者[75]认为情感语音加工是多阶段的,它主要由情感显著感知、相关意义处理及情感识别这三个阶段构成。同时文献[72]指出了汉语情绪言语加工的三个基本过程:在100 ms左右,首先对韵律和词汇的声学特征进行早期的感觉加工;在200 ms 左右,再对情绪词的语音特征进行加工;在250 ms 左右,情绪韵律还对情绪词的语义加工产生影响。此外,文献[76]发现不同语境中声调的早期加工及时间进程。
我们在基于听觉条件下,对不同语句的情感声音及非言语情感声音进行了初步研究[77]。主要从两个方面进行分析和比较:一是比较不同语种在相同情感下的 ERP 成分;二是对言语和非言语的ERP 成分进行比较。研究结果发现,在 200 ms 左右出现的ERP成分,其潜伏期可能受到语义理解的影响,其峰值可能受到语音情感强烈程度的影响,由此可以推测人脑对熟悉的情感语言更具有敏感性,且对非言语情感声音处理的时间进程相对较快[77]。
对于语音情感的研究已取得了部分成果,但是大多数都是基于信号处理角度的研究。情感与人脑的认知机理密切相关,因此今后的研究工作在情感的认知模型及事件相关电位研究等方面有较大的发展空间。情感的认知模型在语音情感识别中的应用刚刚开始,诸多认知概念与模型可以与信号处理算法相结合,以提出更为符合人类行为的识别算法。同时,之前的事件相关电位研究中多数都是从单个字词或短语或从视觉角度出发来研究的,基于听觉条件的情感语音语句的事件相关电位研究却不多。由于听觉的呈现方式与视觉的呈现方式不同,如果用完全相同的方法进行研究,就很难得到理想的效果。因此,可以从信号处理的角度与心理认知实验相结合,设计出符合听觉事件相关电位研究的实验,并分析其与不同情感的关系,这也是今后研究的方向。
[1] 赵力,黄程韦.实用语音情感识别中的若干关键技术[J].数据采集与处理,2014,29(2):157-170.
[2] Ververidis D,Kotropoulos C.A state of the art review on emotional speech databases[C]∥Proc 1st Richmedia Conference.Lausanne,Switzerland,2003:109-119.
[3] Ambrus D C.Collecting and Recording of an Emotional Speech Database[D].Maribor,Slovenia:Faculty of Electrical Engineering and Computer Science,Institute of Electronics,University of Maribor,2000.
[4] Burkhardt F,Paeschke A,Rolfes M,et al.A database of German emotional speech[C]∥Interspeech-200.Lisbon,Portugal,2005:1-4.
[5] Oflazoglu C,Yildirim S.Recognizing emotion from Turkish speech using acoustic features[J].EURASIP Journal on Audio,Speech,and Music Processing,2013,2013:26.
[6] Grimm M,Kroschel K.The Vera am mittag German audio-visual emotional speech database[C]∥Proc of the 2008 IEEE International Conference on Multimedia and Expo(ICME).Hannover,Germany,2008:865-868.
[7] Pan Y,Xu M,Liu L,et al.Emotion-detecting based model selection for emotional speech recognition[C]∥Proc IMACS Multiconference on Computational Engineering in Systems Applications.Beijing,China,2006:2169-2172.
[8] 徐露,徐明星.面向情感变化检测的汉语情感语音数据库[C]∥第十届全国人机语音通讯学术会议论文集.2009:135-140.
[9] Sun Ying,Werner V,Zhang Xueying.A robust feature extraction approach based on an auditory model for classification of speech and expressiveness[J].Journal of Central South University of Technology (English Edition),2012,19(2):504-510.
[10] Bjorn S,Anton B,Stefan S,et al.Recognising realistic emotions and affect in speech:State of the art and lessons learnt from the first challenge[J].Speech Communication,2011,53(9):1062-1087.
[11] 韩文静,李海峰,阮华斌,等.语音情感识别研究进展综述[J].软件学报,2014,25(1):37-50.
[12] Rainer B,Klaus R.Acoustic profiles in vocal emotion expression[J].Journal of Personality and Social Psychology,1996,70(3):614-636.
[13] Kao Y H,Lee L S.Feature analysis for emotion recognition from Mandarin speech considering the special characteristics of Chinese language[C]∥Proceedings of 9th International Conference on Spoken Language Processing.Pittsburgh,Pennsylvania,2006:1814-1817.
[14] Rao K S,Shashidhar G K,Ramu R V.Emotion recognition from speech using global and local prosodic features[J].International Journal of Speech Technology,2013,16(2):143-160.
[15] Shashidhar G K,Rao K S.Emotion recognition from speech using source,system and prosodic features[J].International Journal of Speech Technology,2012,15(2):265-289.
[16] Iliou T.Statistical evaluation of speech features for emotion recognition[C]∥Proceedings of Fourth International Conference on Digital Telecommunications.Colmar,France,2009:121-126.
[17] Wang Y T,Yang X H,Zou J.Research of emotion recognition based on speech and facial expression[J].Indonesian Journal of Electrical Engineering,2013,11(1):83-90.
[18] 韩一,王国胤,杨勇.基于MFCC的语音情感识别[J].重庆邮电大学学报:自然科学版,2008,20(5):597-602.
[19] Milton A,Roy S S,Selvi S T.SVM scheme for speech emotion recognition using MFCC Feature[J].International Journal of Computer Applications,2013,69(9):34-39.
[20] Pao T L,Chen Y T,Yeh J H,et al.Mandarin emotional speech recognition based on SVM and NN[C]∥Proceedings of 18th International Conference on Pattern Recognition.Hong Kong,China,2006:1096-1100.
[21] Lugger M,Yang B,Wokurek W.Robust estimation of voice quality parameters under realworld disturbances[C]∥Proc of 2006 International Conference on Acoustics,Speech and Signal Processing.Toulouse,France,2006:1097-1100.
[22] Lugger M,Yang B.Cascaded emotion classification via psychological emotion dimensions using a large set of voice quality parameters [C]∥Proc of International Conference on Acoustics,Speech and Signal Processing.Las Vegas,NY,2008:4945-4948.
[23] 黄程韦,赵力.实用语音情感的特征分析与识别的研究[J].电子与信息学报,2011,33(1):112-116.
[24] Amol T K,Guddeti R M R.Multiclass svm-based language independent emotion recognition using selective speech features[C]∥Proc of 2014 International Conference on Advances in Computing,Communications and Informatics.New Delhi,India,2014:1069-1073.
[25] 尤鸣宇.语音情感识别的关键技术研究[D].杭州:浙江大学,2007.
[26] Sun Y,Zhang X.A study of zero-crossings with peak-amplitudes in speech emotion classification[C]∥Proc of 2010 1st International Conference on Pervasive Computing,Signal Processing and Applications.2010:328-331.
[27] Sun Y,Zhang X Y.Study for classification of emotional speech by using optimized frame zero crossing with peak amplitudes feature extraction algorithm[J].Journal of Computational Information Systems,2011,7(10):3508-3515.
[28] 刘豫军,夏聪.连续语音识别技术及其应用前景分析[J].网络安全技术与应用,2014(8):15-16.
[29] 崔文迪,黄关维.语音识别综述[J].福建电脑,2008(1):28-29.
[30] Nwe T L,Foo S W,De S L C.Speech emotion recognition using hidden Markov models[J].Speech Communication,2003,41(4):603-623.
[31] Vlassis N,Likas A.A greedy em algorithm for gaussian mixture learning[J].Neural Processing Letters,2002,15(1):77-87.
[32] Tang H,Chu S M,Hasegawa J M,et al.Emotion recognition from speech via boosted gaussian mixture models[C]∥Proc of the 2009 IEEE International Conference on Multimedia and Expo.New York,2009:294-297.
[33] Hassan A,Damper R I.Multi-class and hierarchical SVMs for emotion recognition[C]∥Proc of International Speech Communication Association.Chiba,Japan,2010:2354-2357.
[34] Tato R,Santos R,Kompe R,et al.Emotion space improves emotion recognition[C]∥Proc of CSLP.Denver,Colorado,2002:2029-2032.
[35] 刘红芬,刘晓峰,张雪英,等.改进的AdaBoost.M2-SVM在低信噪比语音识别中的应用[J].微电子学与计算机,2015,32(2):88-91.
[36] 邢铭生,朱浩,王宏斌.语音识别技术综述[J].科协论坛,2010(3):62-63.
[37] 孙光民,董笑盈.基于神经网络的汉语孤立词语音识别[J].北京工业大学学报,2002,28(3):289-292.
[38] 高维深.基于HMM/ANN混合模型的非特定人语音识别研究[D].成都:电子科技大学,2013.
[39] Paulmann S,Pell M D,Kotz S A.How aging affects the recognition of emotional speech[J].Brain and Language,2008,104(3):262-269.
[40] Nummenmaa L,Saarimäki H,Glerean E,et al.Emotional speech synchronizes brains across listeners and engages large-scale dynamic brain networks[J].NeuroImage,2014,102:498-509.
[41] Liu Y,Sourina O,Nguyen M K.Real-time EEG-based emotion recognition and its applications [M]∥Transactions on computational science XII.Berlin,Heidelberg:Springer,2011:256-277.
[42] 赵仑.ERPs实验教程[M].南京:东南大学出版社,2010.
[43] 魏景汉,罗跃嘉.事件相关电位原理与技术[M].北京:科学出版社,2010.
[44] Rohaut B,Faugeras F,Chausson N,et al.Probing ERP correlates of verbal semantic processing in patients with impaired consciousness[J].Neuropsychologia,2015,66:279-292.
[45] UedaK.A psychophysiological approach towards understanding emotions[M]∥Emotional Engineering:Vol.3.Springer International Publishing,2015:105-116.
[46] 刘光雄,杨征,叶明,等.首发精神分裂症执行功能异常的心理生理机制[J].神经疾病与精神卫生,2013,13(3):247-249.
[47] Cason N,Astésano C,Schön D.Bridging music and speech rhythm:Rhythmic priming and audio-motor training affect speech perception [J].Acta Psychologica,2015,155:43-50.
[48] Ray W J,Cole H W.EEG alpha activity reflects attentional demands,and beta activity reflects emotional and cognitive processes[J].Science,1985,228(4700):750-752.
[49] Oathes D J,Ray W J,Yamasaki A S,et al.Worry,generalized anxiety disorder,and emotion:Evidence from the EEG gamma band[J].Biological Psychology,2008,79(2):165-170.
[50] 聂聃.基于脑电的情感识别[D].上海:上海交通大学,2012.
[51] Carretié L,Iglesias J,Garcia T,et al.N300,P300 and the emotional processing of visual stimuli[J].Electroencephalography and Clinical Neurophysiology,1997,103(2):298-303.
[52] Briggs K E,Martin F H.Affective picture processing and motivational relevance:arousal and valence effects on ERPs in an oddball task[J].International Journal of Psychophysiology,2009,72(3):299-306.
[53] Yuan J,Zhang Q,Chen A,et al.Are we sensitive to valence differences in emotionally negative stimuli? Electrophysiological evidence from an ERP study[J].Neuropsychologia,2007,45(12):2764-2771.
[54] Meng X,Yuan J,Li H.Automatic processing of valence differences in emotionally negative stimuli:Evidence from an ERP study[J].Neuroscience Letters,2009,464(3):228-232.
[55] 刘燕妮,舒华.ERP与语言研究[J].心理科学进展,2003,11(3):296-302.
[56] Kutas M,Hillyard S A.Reading senseless sentences:Brain potentials reflect semantic incongruity[J].Science,1980,207(4427):203-205.
[57] Hagoort P.Interplay between syntax and semantics during sentence comprehension:ERP effects of combining syntactic and semantic violations[J].Cognitive Neuroscience,2003,15(6):883-899.
[58] Niznikiewicz M,Squires N.Phonological processing and the role of strategy in silent reading:behavioral and electrophysiological evidence[J].Brain and Language,1996,52:342-364.
[59] 曹晓华,李超,张焕婷,等.字词认知N170成分及其发展[J].心理科学进展,2013,21(7):1162-1172.
[60] 郅菲菲.字词认知N170成分发展的人工语言训练研究[D].金华:浙江师范大学,2013.
[61] 王魁.汉字视知觉左侧化N170——反映字形加工还是语音编码[D].重庆:西南大学,2012.
[62] Hagoort P,Brown C M.ERP effects of listening to speech:Semantic ERP effects[J].Neuropsychologia,2000,38(11):1518-1530.
[63] Sobin C,Alpert M.Emotion in speech:The acoustic attributes of fear,anger,sadness,and joy[J].Journal of Psycholinguistic Research,1999,28(4):347-365.
[64] Vergyri D,Stolcke A,Gadde V R R,et al.Prosodic knowledge sources for automatic speech recognition[C]∥Acoustics,Speech,and Signal Processing:2003 IEEE International Conference on IEEE,2003,1:I-208-I-211.
[65] 蒋丹宁,蔡莲红.基于语音声学特征的情感信息识别[J].清华大学学报:自然科学版,2006,46(1):86-89.
[66] 杨洁,舒华.言语韵律加工的 ERP 研究[J].心理学探新,2009(2):43-47.
[67] 曹剑芬.普通话节奏的声学语音学特性[C]∥中国科学院声学研究所.第四届全国现代语音学学术会议论文集.1999.
[68] 刘红芬,张雪英,刘晓峰,等.基于特征加权的FSVM在低信噪比语音识别中的应用[J].太原理工大学学报,2014,45(6):764-768.
[69] Besson M,Faita F,Czternasty C,et al.What’s in a pause:event-related potential analysis of temporal disruptions in written and spoken sentences[J].Biological Psychology,1997,46:3-23.
[70] Honbolygó F,Csépe V.Saliencyor template? ERP evidence for long-term representation of word stress[J].International Journal of Psychophysiology,2013,87(2):165-172.
[71] 钟毅平,范伟,赵科,等.情感韵律在真假句子加工上的差异:来自ERPs的证据[J].心理科学,2011,34(2):312-316.
[72] 郑志伟,黄贤军,张钦,等.情绪韵律调节情绪词识别的 ERP研究[J].心理学报,2013,45(4):428-437.
[73] 陈煦海,杨晓虹,杨玉芳.语音情绪变化内隐加工的神经生理机制[J].心理学报,2013,45(4):416-426.
[74] 常翼,庞小梅,许晶.情绪语音信息自动加工的失匹配负波研究[J].医学与哲学,2013,34(6):41-44.
[75] Paulmann S,Ott D V M,Kotz S A.Emotional speech perception unfolding in time:the role of the basal ganglia[J].PLoS One,2011,6(3):e17694.
[76] 齐佳凝,任桂琴,任延涛,等.不同语境中声调早期加工的作用及时间进程[J].社会心理科学,2014,29(2):221-225.
[77] 畅江,张雪英,张奇萍,等.不同语种及非言语情感声音的 ERP 研究[J].清华大学学报:自然科学版,2016.
(编辑:张红霞)
Key Technologies in Speech Emotion Recognition
ZHANG Xueying,SUN Ying,ZHANG Wei,CHANG Jiang
(CollegeofInformationEngineering,TaiyuanUniversityofTechnology,Taiyuan030024,China)
Emotional information in speech signal is an important information resource.When verbal expression is combined with human emotion,emotional speech processing is no longer a simple mathematical model or pure calculation.Fluctuations of the mood are controlled by the brain perception; speech signal processing based on cognitive psychology can capture emotion better.In this paper the relevance analysis between speech emotion and human cognition is introduced firstly.The recent progress in speech emotion recognition is summarized,including the review of speech emotion databases,feature extraction and emotion recognition networks.Secondly a fuzzy cognitive map network based on cognitive psychology is introduced into emotional speech recognition.In addition,the mechanism of the human brain for cognitive emotional speech is explored.To improve the recognition accuracy,this report also tries to integrate event-related potentials to speech emotion recognition.This idea is the conception and prospect of speech emotion recognition integrated with cognitive psychology in the future.
emotional speech recognition;speech naturalness;acoustic features;cognitive mechanism;fuzzy cognitive map;event related potential
1007-9432(2015)06-0629-08
2015-09-01
国家自然科学基金资助项目(61376693);山西省青年科技研究基金资助项目(2013021016-2);山西省研究生教育创新项目(2015-24)
张雪英(1964-),女,河北行唐人,博士,教授,博导,主要从事语音信号处理和情感识别研究,(E-mail)zhangxy@tyut.edu.cn
TN912.34
A
10.16355/j.cnki.issn1007-9432tyut.2015.06.001