何 凌,黄 华,刘肖珩
(1.四川大学 电气信息学院,四川 成都610065;2.四川大学 基础医学与法医学院,四川 成都610041)
随着人机交互技术的迅速发展,人们期盼实现更为自然的人机交流,使计算机不仅能实现更为准确的言语交流,也能理解人们的情感信息。语音信号作为人们最常用最便捷的信息传输媒体,不仅包含了大量的言语信息,还包含着非言语信息,如说话人的情感状态。语音情感识别技术就是通过提取代表情感信息的语音特征参数,并进行模式识别,以此判断说话人的情感状态。语音情感识别在计算机科学的基础上,还涉及到心理学、生理学、语言学、信号处理、模式识别等多学科的知识。这项技术可应用于刑侦、驾驶、教育、医学、安检、服务、娱乐等众多方面,是当今多媒体时代非常活跃的一个研究方向[1-4]。
1990年,美国MIT多媒体实验室的 “情感编辑器”实现了对人类语音情感信号进行采样和识别的功能[5]。至此,语音情感识别技术作为一个新的研究领域迅速发展。随着信息技术与数字语音技术的融合,涌现了多种语音情感特征参数算法[6-8]。大多数的特征参数采用基音频率、共振峰参数、语速、Mel倒谱系数等参数。该类参数通过对语音信号的直接计算而得到。由人类的发音机理可知,由声门产生的激励信号通过声道响应及嘴唇辐射,得到语音信号。近年来研究表明,声门信号作为语音激励信号,同样包含了丰富的说话人情感信息。Moore等人[9]应用声门开闭时间及声门闪动信号 (glottal timing and glottal shimmer),实现说话人情感状态的识别。实验结果表明,采用声门信号特征参数,其判别结果优于传统的基音频率及共振峰参数。Iliev等人[10]采用声门特征参数对高兴、生气和悲伤三类情感进行判别。对声门信号情感特征的分析,更加完整了情感语音的研究。
本文基于语音信号生成的激励系统、声道及嘴唇辐射模型,通过逆滤波器及线性预测分析,实现声门信号估计,并提出了一种基于声门信号特征参数和高斯混合模型的语音情感识别算法。提出的算法与传统的基音频率及共振峰参数进行比较。并讨论了情感信息在声门激励处的产生。
人的发声过程一般可分为,首先由肺部的收缩送出一段气流,经气管到喉头声门处 (即声带开口处),对声带产生一个冲击,使声带振动,然后通过声道响应及嘴唇辐射而形成语音[11]。由于发出不同声音时声道的形状有所不同,所以产生不同的语音。根据语音产生机理,语音信号生成系统由3个部分组成:声门激励系统、声道系统和嘴唇辐射系统。语音信号可以表述为声门信号 (glottal signal)通过声道滤波器 (vocal tract filter)和嘴唇辐射滤波器 (lip radiation fitler)卷积得到,如图1所示。
图1 语音信号生成系统
其中g(t)为声门信号,s(t)为语音信号。通过Z变换,语音信号S(Z)可以表达为
其中嘴唇辐射滤波器R(Z)可以数学建模为
声道滤波器V (Z)可以数学建模为全极点模型
其中系数ci可由线性预测分析 (linear prediction analysis)得到[12]。
声门信号是一段伪随机信号,其中一段周期信号可以分为两个阶段:声门打开阶段和声门闭合阶段,如图2所示。其中to表示声门打开的时刻,tc为声门闭合的时刻。声门打开阶段 (open phase)持续时间为to至tc,声门闭合阶段 (closed phase)持续时间为tc至to。T为一段声门信号的周期
图2 声门信号
当人类处于不同情感状态时,其发声过程也相应发生变化,与安静状态下有所不同。图3和图4所示为元音/a/在 “自然” (图3)和 “生气” (图4)状态下的一段声门信号。
由图3和图4可以看出,当说话人处于 “生气”状态时,其语音的表达通常音量增加 (激励幅度增大),同时音调升高 (声门振动频率增加)且语速加快。由此可见,声门激励信号中包含着人类情感信息。通过对声门信号某些特征参数的提取,结合模式识别分类器,能够判别出不同的情感状态。
本文采用的声门信号特征参数如下:
(1)tmax:声门信号幅值最大值时对应的时刻。
(2)tmin:声门信号幅值最小值时对应的时刻。
(3)tc:声门关闭时刻。
(4)to:声门打开时刻。
(5)OQ:声门打开时段与声门信号伪周期的比率
(6)CQ:声门闭合时段与声门信号伪周期的比率
声带的开启和闭合形成振动,声带的开启和闭合活动循环往复的进行,就形成了一串周期性脉冲并将其气流送入声道。声带每开启闭合一次的时间称为基音周期T。本文采用自相关函数法求取语音的基音周期[13]。
由于语音信号为非平稳随机信号,但在一定时间内(1532毫秒)可以看做短时平稳信号,因此,对输入的数字语音信号s[n]进行分帧处理,得到分帧信号xm[n],每帧信号长度为N,1秒内帧个数为m。语音信号的自相关函数的定义为
短时自相关函数具有以下性质,当时域信号为周期信号时,自相关函数也是周期性函数,两者具有同样的周期。浊音是一个准周期信号,在一帧语音内基音周期近似恒定,因此,短时平均幅度差函数在浊音语音的基音周期上出现极小值。根据式 (7),计算自相关函数的周期,即可以得到语音信号的基音周期。寻找Rm(k)峰值Rm_peak,两个峰值Rm_peak之间的距离即为基音频率。
当声门激励通过声道时,和声道发生谐振和反谐振,从而使激励的某一些频谱的能量获得增强,而另一些被减弱,从而得到新的语音包络,这个包络的的能量集中的峰处为共振峰。
本文采用LPC线性预测法计算共振峰参数[13]。LPC分析是用全极点滤波器模拟声道传输函数,通过求解一组线性预测系数,获得这个全极点滤波器模型。而这个模型的共轭极点对就对应相应的共振峰,利用极点,可以得到共振峰频率,共振峰带宽,及共振峰幅度。
声道传输函数的全极点模型表达式为
式中:阶的线性预测器,ai——预测器系数,G——线性系统增益。
对式 (8)求解极点,每一个极点对应一个共振峰,极点和共振峰之间的关系有
式中:θ——极点相位角,r——极点半径,T——采样周期。
通过式 (9)和式 (10)可以求解出相应共振峰频率F及带宽B。
实验采用高斯混合模型作为判别器[14],对七种不同类型的情感进行识别。
混合高斯模型的概率密度函数由M个高斯概率密度函数加权求和得到
其中x为一D维随机向量,pii=1,2…M为混合加权,bii=1,2…M为子分布密度。
实验给定GMM模型一组训练数据,根据最大似然估计 (maximum likelihood,ML)法确定模型参数,建立模型。
实验采用公开的 BES (berlin emotion speech database)情感语料库[15]。该情感语料库由 Technical University Berlin大学录制而成,语言为德语,说话人包括5名男性和5名女性。受试者在自然状态下模拟7种不同情感的表达:自然、生气、无聊、厌恶、害怕、高兴和悲伤。语料库共包括了535句语音信号。其语音库的结构见表1。
表1 BES情感数据库结构
情感语音识别系统分为两个部分:特征参数提取模块和模式识别模块。其中模式识别模块包含了两个部分:首先是应用训练语音信号实现模型的建立,然后采用测试语音信号实现对情感类别的判别。
实验从情感语料库中随机选取80%语音信号作为训练数据,对输入的语音信号提取特征参数 (基音频率、共振峰参数、声门信号时域特征参数),将提取后的特征参数组作为识别器的输入信号,实现对高斯混合模型的参数估计。将剩下的20%语音信号作为测试数据,提取相同的特征参数作为识别器的输入,最后通过识别器得到判别结果。实验流程如图5所示。该实验流程重复10次后,得到平均识别率为实验结果。
图5 语音情感识别系统流程
实验首先对语音信号进行去噪预处理,预处理后的语音信号进行分帧处理,帧长为32ms,对每帧信号计算其基音周期和共振峰参数。其流程如图6所示。
图6 基音频率及共振峰参数计算
表2所示为应用基音频率及共振峰参数所得7种不同情感的识别正确率。
表2 情感识别正确率 (基频和共振峰参数)
图7所示为提出的声门信号时域特征参数的计算流程图。实验首先对语音信号进行去噪预处理,去噪后的语音信号应用逆滤波器和LP分析估计其声门信号。对声门信号进行分帧处理,帧长为32ms,对每帧信号计算其时域特征参数组。
图7 声门参数计算
表3所示为应用声门信号时域特征参数所得7种不同情感的识别正确率。
表3 情感识别正确率 (声门信号特征参数)
由表2和表3可以看出,基于提出的特征提取算法的自动情感识别率高于传统的基音频率和共振峰特征参数。
表4所示为应用声门信号时域特征参数组得到的对BES语料库中七种不同情感类别的正确识别率。
表4 7种情感的正确识别率 (%)
由表4可以看出,自动识别系统对于情感类别 “生气”的识别正确率最高,这是因为人类在表达这类情感时,其情感因素表达强度最为强烈,其特征参数的表征度较大。同时可以看出,系统对于 “厌恶”这类情感的识别率较低,这是因为该类情感的表达较其他情感较弱,其特征参数的表征不明显。系统对于情感 “高兴”易判别为类别 “生气”,这是因为情感类别 “高兴”与 “生气”相比,其人类的表达有一定的相似度,如音量变大,语速变快等,使得其特征参数的表征相似度较大。
实验结果表明,本文提出的基于声门信号时域特征参数的情感语音识别系统,对7种不同类型的情感识别率较高,其识别正确率到达了61.9%,优于采用传统的基音频率及共振峰的特征提取算法 (其识别正确率分别为50.6%和54.4%)。
同时,实验结果表明,与语音信号相似,声门信号作为语音的激励信号,同样包含着丰富的人类情感特征。通过对声门信号特征参数的分析,可以得到有效的语音情感识别系统。
Technical University Berlin大学在对BES情感语料库进行录制的同时,组织了受试者对该语料库的7种不同类型的情感进行了人工判别,其人类判别的正确率为73.5%。可见,基于提出的特征参数提取算法的自动语音情感识别系统获得了较高的情感类别识别率,其正确率接近于人类的识别正确率。
:
[1]Becker Asano C,Kanda T,Ishi C.How about laughter perceived naturalness of two laughing humanoid robots [C]//ACII,Amsterdam,2009.
[2]Truong K P,David A,Franciska M G.Speech-based recognition of self-reported and observed emotion in a dimensional space[J].Speech Communication,2012,54 (9):1049-1063.
[3]Susie M D,Marianne J U,Chris F,et al.Emotion recognition in huntingtons disease:A systematic review [J].Neuroscience&Biobehavioral Reviews,2012,36 (1):237-253.
[4]Voran S.Listener detection of talker stress in low-rate coded speech[C]//Proceedings of International Conference on A-coustics,Speech,and Signal Processing,2008:4813-4816.
[5]Picard R W.Affective computing [M].London,England:MIT Press,1997.
[6]Ayadi M,Kamel M,Karray F.Survey on speech emotion recognition:Features,classification schemes and databases[J].Pattern Recognition,2011,44 (3):572-587.
[7]Korba M C A,Messadeg D,Djemili R,et al.Robust speech recognition using perceptual wavelet denoising and mel-frequency product spectrum cepstral coefficient features[J].Informatica(Ljubljana),,2008,32 (3):283-288.
[8]Dimitrios V,Constantine K.Emotional speech recognition:Resources,features and methods [J].Speech Communication,2006,48 (9):1162-1181.
[9]Moore E,Clements M A,Peifer J W,et al.Critical analysis of the impact of glottal features in the classification of clinical depression in speech[J].Biomedical Engineering,IEEE Transactions on,2008.55 (1):96-107.
[10]Iliev A I,Scordilis M S.Emotion recognition in speech using inter-sentence glottal statistics[C]//Proceedings of 15th International Conference on in Systems,Signals and Image Processing,2008:465-468.
[11]ZHANG Xueying.Digital speech signal processing and MATLAB simulation[M].Beijing:Publishing House of Electronics Industry,2011:10-22 (in Chinese). [张雪英.数字语音处理及MATLAB仿真 [M].北京:电子工业出版社,2011:10-22.]
[12]Drugman T,Bozkurt B,Dutoit T,Causal-anticausal decomposition of speech using complex cepstrum for glottal source estimation[C]//Speech Communication,2011:855-866.
[13]ZHAO Li.Speech signal processing[M].Beijing:China Machine Press,2009 (in Chinese).[赵力.语音信号处理 [M].北京:机械工业出版社,2009.]
[14]YUN S,Yoo Chang D.Loss-scaled large-margin gaussian mixture models for speech emotion classification[J].IEEE Transactions on Audio Speech and Language Processing,2012,20 (2):585-598.
[15]WU S,Falk T,CHAN W.Automatic speech emotion recognition using modulation spectral features[J].Speech Communication,2011,53 (5):768-785.