摘要:随着情感计算成为人工智能的一个重要发展方向,语音情感识别作为情感计算的一个重要组成部分,受到了广泛关注。从情感描述模型、语音情感特征、语音情感库、语音情感挑战赛这4个方面对语音情感研究现状进行总结,并给出目前语音情感识别技术存在的挑战,以及相应的研究方法。
关键词:语音情感识别;情感描述模型;情感特征;语音情感库;域适应
DOIDOI:10.11907/rjdk.161498
中图分类号:TP391
文献标识码:A文章编号文章编号:16727800(2016)009014303
作者简介作者简介:薛文韬(1991-),男,江苏常熟人,江苏大学计算机科学与通信工程学院硕士研究生,研究方向为语音情感识别。
0引言
1997年,美国麻省理工学院的Picard教授提出了情感计算(Affective Computing)的概念。情感计算作为计算机科学、神经科学、心理学等多学科交叉的新兴研究领域,已成为人工智能的重要发展方向之一。而语音情感识别作为情感计算的一个重要分支,亦引起了广泛关注。
许多国内外知名大学和科研机构也开始语音情感识别研究,国外如美国麻省理工学院Picard教授领导的情感计算研究小组,德国慕尼黑工业大学Schuller教授领导的人机语音交互小组等;国内如清华大学的人机交互与媒体集成研究所、西北工业大学音频、语音与语言处理组等。
1语音情感识别
语音情感识别系统主要由前端和后端两部分组成。前端用于提取特征,后端基于这些特征设计分类器。在语音相关应用中,运用比较多的分类器是支持向量机和隐马尔科夫模型。目前,语音情感识别的重点主要集中于特征提取。在传统的语音情感识别中,如何提取具有判别性的特征已成为研究的重点。随着数据的大规模增长,传统语音情感识别的前提(训练数据和测试数据具有相同的数据分布)已不能够被满足,研究者提出了迁移学习的概念,利用域适应方法来解决跨库的语音情感识别。
本文将从情感描述模型、语音情感特征、语音情感库、语音情感挑战赛这4个方面对语音情感研究现状进行总结,并给出现存语音情感识别的技术挑战及相应的研究方法。
2情感描述模型
目前主要从离散情感和维度情感两个方面来描述情感状态。
离散情感描述,主要把情感描述成离散的形式,是人们日常生活中广泛使用的几种情感,也称为基本情感。在当前情感相关研究领域使用最广泛的六大基本情感是生气、厌恶、恐惧、高兴、悲伤和惊讶。
相对于离散情感描述,维度情感描述使用连续的数值来描述情感状态,因此也称作连续情感描述。它把情感状态视作多维情感空间中的点,每个维度都对应情感的不同心理学属性。常用的维度情感模型是二维的激活度-效价(Arousal-Valence)模型,其二维空间如图1所示。其中横轴表示效价属性(Valence),用于衡量情感的正负面程度;而纵轴表示激活程度(Arousal),用于描述情感状态的唤醒程度。通过不同的效价度和激活程度,就能区分出不同的情感,比如悲伤与生气两种负面情绪虽然效价相差无异,但两者的激活度却有很大差异。
3语音情感特征
传统的语音情感特征可粗略地分为基于声学的情感特征和基于语义的情感特征。基于声学的情感特征又分为3类:韵律学特征、音质特征以及频谱特征[1]。音高、能量、基频和时长等是最为常用的韵律学特征,由于韵律学特征具有较强的情感辨别能力,已经得到了研究者们的广泛认同。音质特征主要有呼吸声、明亮度特征和共振峰等,语音中所表达的情感状态被认为与音质有着很大的相关性。频谱特征主要包括线性谱特征和倒谱特征,线性谱特征包括Linear predictor cofficient(LPC)、log-frequency power cofficient(LFPC)等,倒谱特征包括mel-frequency cepstral cofficient(MFCC)、linear predictor cepstral cofficient(LPCC)等。此外,基于这3类语音特征的不同语段长度的统计特征是目前使用最为普遍的特征参数之一,如特征的平均值、变化率、变化范围等。然而到底什么特征才最能体现语音情感之间的差异,目前还没有统一的说法。
在2009年首次举办的国际语音情感挑战INTERSPEECH 2009 Emotion Challenge(EC)的分类器子挑战中,组织者为参赛者提供了一个基本特征集,选择了在韵律学特征、音质特征和频谱特征中广泛使用的特征和函数,包括16个低层描述子(Low-Level Descriptors,LLDs)和12个函数,构建了一个384维的特征向量[2]。具体的16个低层描述子和12个函数如表1所示。
4语音情感库
语音情感库作为语音情感识别的前提条件,影响着最终语音情感识别系统的性能。目前,在语音情感库的建立方面还没有统一的标准,已构建的情感语音库多种多样,在语言、情感表现方式(表演型(acted)、引导型(elicited),自发型(naturalistic))、情感标记方案(离散情感或者维度情感)、声学信号条件、内容等方面具有很大差异。从情感表现方式而言,表演型情感一般是让职业演员以模仿的方式表现出相应的情感状态,虽然说话人被要求尽量表达出自然的情感,但刻意模仿的情感还是显得更加夸大,使得不同情感类别之间的差异性比较明显,这方面的语音情感库有Berlin Emotional Speech Database(Emo-DB)、Airplane Behavior Corpus(ABC)等[34]。早期对语音情感识别的研究都是基于表演型语料库,随着人们意识到引导型情感具有更加自然的情感表达之后,研究者们开始基于引导型情感库进行研究,比如eNTERFACE[5]。随着研究的深入,迫切需要一些自发的语音情感数据,目前出现了FAU Aibo Emotion Corpus(FAU AEC)、TUM Aduio-Visual Interest Corpus(TUM AVIC)、Speech Under Simulated and Actual Stress(SUSAS)和Vera am Mittag(VAM)[2,68]。常用的几个语音情感库如表2所示,描述了他们在年龄、语言、情感、样本个数、记录环境和采样率之间的差异。
5语音情感挑战赛
虽然已经有很多研究致力于语音情感识别,但是相对于其它语音任务(如自动语音识别和说话人识别)而言,语音情感识别中还不存在标准的语音情感库和统一的测试条件用于在相同条件下进行性能比较。同时,为了处理更加现实的场景,需要获得自然的语音情感数据。国际语音情感挑战INTERSPEECH 2009 EC旨在弥补出色的语音情感识别研究和结果可比性之间的缺陷,它提供了自然的语音情感库FAU AEC,以及开源工具包openEAR来提取基本的384维特征集,保证了特征的透明性,从而使得结果具有重现性和可比性[9]。FAU AEC库包括了德国两个学校(Ohm和Mont)10~13岁的孩子与索尼公司的机器狗Aibo进行交互的语音数据。为了实现说话人独立的语音情感识别,通常学校Ohm记录的数据用于训练,而Mont记录的数据用于测试。INTERSPEECH 2009 EC的情感分类任务主要包括2类情感(负面情感、所有其它情感)分类和5类情感(生气、同情、积极、中立和其它)分类,目前已有很多研究基于FAU AEC库进行情感分类。除了在FAU AEC库上进行传统的语音情感识别外,随着跨库语音情感识别研究的深入,很多研究者也将FAU AEC作为目标域数据库进行域适应的研究。
6语音情感识别的主要挑战
6.1语音情感特征
在传统语音情感识别中,提取具有判别性的特征已经成为一个重要的研究方向。在情感特征提取过程中,通常存在一些与情感无关的因素,如说话内容、说话人、环境等,这些不相关的因素将会使得提取到的特征包含这些因素方面的变化,从而影响情感分类性能。
目前已有部分研究开始考虑这些与情感无关因素的影响。同时,随着深度学习的提出与发展,越来越多的研究者开始使用深度神经网络进行特征提取。Chao等[10]利用无监督预训练去噪自动编码器,减少了情感特征中说话人的影响。Mao等[11]提出了半监督卷积神经网络模型,提取情感相关特征,通过实验证明其对说话人的变化、环境的滋扰以及语言变化都有很强的鲁棒性。Mariooryad 等[12]对特征构建音素层次的弹道模型,从声学特征中分解出说话人的特性,从而弥补说话人对语音情感识别的影响。
6.2跨库的语音情感识别
在传统的语音情感识别中,训练数据和测试数据一般来自同一个语料库或者具有相同的数据分布。随着数据的爆炸式增长,从不同设备和环境下获得的语音数据通常在语言、情感表现方式、情感标记方案、声学信号条件、内容等方面存在很大差异,这就造成了训练数据和测试数据分布的不同,传统的语音情感识别方法就不再适用。
近年来,迁移学习(Transfer Learning)的概念被提出,指从一个或多个源域中将有用的信息迁移到相关的目标域,以帮助改善目标域的分类性能[13]。域适应(Domain Adaptation)作为一种特殊的迁移学习,已成功应用于跨库的语音情感识别。Deng等[14]提出一种共享隐藏层自动编码器(shared-hidden-layer autoencoder,SHLA)模型,相较于传统的自动编码器,SHLA的输入数据包含了源域和目标域两类数据,让两个域的数据共用编码部分而解码部分不同,目的是诱使两个域的数据在隐藏层空间具有相似的数据分布。Huang等[15]利用PCANet沿着从源域到目标域的路径提取特征,并用目标域空间来调整路径上的特征,以此弥补域之间的差异。
参考文献参考文献:
[1]EL AYADI M,KAMEL M S,KARRAY F.Survey on speech emotion recognition:features,classification schemes and databases[J].Pattern Recognition,2011,44(3): 572587.
[2]SCHULLER B,STEIDL S,BATLINER A.The interspeech 2009 emotion challenge[C].Proceedings INTERSPEECH 2009,10th Annual Conference of the International Speech Communication Association,2009:312315.
[3]BURKHARDT F,PAESCHKE A,ROLFES M,et al.A database of German emotional speech[J].Interspeech,2005(5):15171520.
[4]SCHULLER B,ARSIC D,RIGOLL G,et al.Audiovisual behavior modeling by combined feature spaces[C].IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP),2007:733736.
[5]MARTIN O,KOTSIA I,MACQ B,et al.The eNTERFACE05 audiovisual emotion database[C].22nd International Conference on Data Engineering Workshops,2006.
[6]SCHULLER B,MULLER R,EYBEN F,et al.Being bored recognising natural interest by extensive audiovisual integration for reallife application[J].Image and Vision Computing,2009,27(12): 17601774.
[7]HANSEN J H L,BOUGHAZALE S E,SARIKAYA R,et al.Getting started with SUSAS:a speech under simulated and actual stress database[C].Eurospeech,1997,97(4): 174346.
[8]GRIMM M,KROSCHEL K,NARAYANAN S.The vera am mittag german audiovisual emotional speech database[C].2008 IEEE International Conference on Multimedia and Expo,2008:865868.
[9]EYBEN F,WOLLMER M,SCHULLER B.OpenEAR—introducing the Munich opensource emotion and affect recognition toolkit[C].3rd International Conference on Affective Computing and Intelligent Interaction and Workshops,2009: 16.
[10]CHAO L,TAO J,YANG M,et al. Improving generation performance of speech emotion recognition by denoising autoencoders[C].2014 9th International Symposium on Chinese Spoken Language Processing (ISCSLP),2014: 341344.
[11]MAO Q,DONG M,HUANG Z,et al.Learning salient features for speech emotion recognition using convolutional neural networks[J].IEEE Transactions on Multimedia,2014,16(8):22032213.
[12]MARIOORYAD S,BUSSO C.Compensating for speaker or lexical variabilities in speech for emotion recognition[J].Speech Communication,2014,57(1): 112.
[13]PAN S J,YANG Q.A survey on transfer learning[J].IEEE Transactions on Knowledge & Data Engineering,2010,22(10):13451359.
[14]DENG J,XIA R,ZHANG Z,et al.Introducing sharedhiddenlayer autoencoders for transfer learning and their application in acoustic emotion recognition[C].2014 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),2014: 48184822.
[15]HUANG Z,XUE W,MAO Q,et al.Unsupervised domain adaptation for speech emotion recognition using PCANet[J].Multimedia Tools & Applications,2016(2):115.
责任编辑(责任编辑:孙娟)