孙 颖,姚 慧,张雪英,张奇萍,
(1. 太原理工大学信息工程学院,太原030024;2. 长岛大学图书馆管理学院,纽约11548)
基于混沌特性的情感语音特征提取
孙 颖1,姚 慧1,张雪英1,张奇萍1,2
(1. 太原理工大学信息工程学院,太原030024;2. 长岛大学图书馆管理学院,纽约11548)
根据语音发声过程中的混沌特性,应用非线性动力学模型分析情感语音信号,提取了该模型下情感语音信号的非线性特征以及常用的声学特征(韵律特征和MFCC).设计情感语音识别对比实验,将非线性特征与不同声学特征融合并验证了该组合下的情感识别性能,研究了语音信号混沌特性对情感语音识别性能的影响.实验选用德国柏林语音库4种情感(高兴、愤怒、悲伤和中性)作为语料来源,支持向量机网络用于情感识别.结果表明,非线性特征有效表征了情感语音信号的混沌特性,与传统声学特征结合后,情感语音识别性能得到了显著提高.
情感语音识别;混沌特性;支持向量机;非线性特征
语言是人类进行沟通最有效的工具.语言中不仅包含了文字信息,而且还包含了大量的反映说话人情感变化的副语言信息.情感语音识别是计算机自动对个人讲话时情感状态进行认知理解并做出情感判断,在客服服务、远程教育、情感障碍治疗等方面都发挥了重要的作用.提取情感关联的特征是情感语音识别的关键之一.常用于语音情感识别的特征大致分为韵律特征、基于谱的相关特征和音质特征等声学特征[1].目前大多数研究者的研究主要集中在寻找上述3类特征融合后的最优特征子集[2-4],从而提高识别网络性能.近些年,随着语音非线性动力学特性研究的深入以及非线性动力学理论的进一步发展,研究学者发现并验证了语音信号在产生和传播过程中都是一个时变的非线性系统,发声过程中存在混沌特性[5].基于语音信号混沌特性的研究已经取得一些进展[6-9].闫润强[5]对语音音素信号的分析验证了语音非线性特性,并对非平稳语音信号的分析技术和特征参数的提取进行初步的研究和阐述;李响等[8]利用语音混沌特性提取司机应答语句中的非线性特征来检测驾驶疲劳;Zbancioc[9]将Lyapunov指数应用于MFCC、LPCC特征的频谱系数提取过程中并获得了75%,的识别率.虽然对基于语音信号混沌特性进行了较多的研究,针对情感语音信号的研究还不多见.因此,笔者从语音混沌特性出发,将混沌动力学模型应用于情感语音特征提取阶段,提取基于情感语音信号混沌特性的非线性新特征,并与情感语音声学特征相结合,验证非线性特征识别性能,以便提高情感识别准确性.
非线性动力学模型是研究语音信号混沌特性的一种有效分析方法.语音信号非线性特征是在该模型下将情感语音信号看作一维时间序列处理得到的.Taken’s嵌入定理指出:选取合适的最小延迟时间τ和嵌入维数m两个参数就可以将一维情感语音信号映射到高维空间实现相空间重构,且重构后高维空间与原始空间等价[10].重构后的情感语音信号变为在高维空间里分析情感语音信号,进一步提取情感语音动力学模型下的非线性特征参数,获取代表情感差异度的有效非线性特征是本文的关键.本文采用的情感语音识别系统如图1所示.
图1 情感语音识别系统Fig.1 System of emotional speech recognition
1.1 最小延迟时间
1.2 最大Lyapunov指数
Lyapunov指数反映了相空间中相邻轨道的局部收敛或发散的平均变化率.而最大Lyapunov 指数1λ表示轨道收敛或发散的快慢程度.当10λ>时,1λ值越大表示轨道发散的速率也越大且混沌程度也越大.本文采用小数据量方法[11]求得最大Lyapunov指数.计算方法如下:
(2)通过C-C法计算最小延迟时间τ和嵌入维数m;
(3)对序列[x(1),x(2),…,x( N)]相空间重构变为
Xi=[x( i), x( i+1),…,x( i+(m-1)τ)],i=1,2,…,N -(m-1)τ.寻求相空间中每个点Xi的最近邻点Xi'并限制短暂分离.定义di(0)为第i点到其邻近轨道中最近点Xi'的距离
(4)找相空间中每个点iX,计算该相邻点对的n个单位时间后的距离
(5)若邻域最近点的轨道以1λ的指数速率发散,则有
式中sT为采样周期.等式两边取对数,得
对所有相邻点点间距离的对数差取平均值,即
其中q是非零dj( i)的数目.最小二乘法拟合得
1.3 关联维数和Kolmogorov熵
关联维数和Kolmogorov熵都是非线性动力学模型下的非线性表征量.关联维数描述了系统自相似结构.Kolmogorov熵精确化描述时间序列的分布概率的混乱程度.本文采用Grassberger和Procaccia提出的G-P算法[12]同时计算关联维数和Kolmogorov熵.算法如下.
(1)计算关联积分C( r, m)获取C( r, m)- r曲线.m维相空间重构后,给定一个临界距离r,查找相空间中任意(Xi,Xj)之间的距离小于r的相点对占所有相点对之比,得到关联积分函数为式中:m为嵌入维数;M为总相点数,M=N-(m-1)τ;θ为Heaviside函数,满足
(2)G-P算法推导出关联维数D( m)计算式为
做lnC( r, m)-lnr曲线图,取近似直线部分的斜率就是关联维数D.
(3)G-P算法同时推导出Kolmogorov熵计算式为
1.4 Hurst指数
Hurst 指数(H)衡量了时间序列的长期记忆性.它量化了一个时间序列演化趋势是否向一个方向聚集.H值的范围为0~1.如果H>0.5表示时间序列具有长期自相关性,时间序列前后关联性较大;H<0.5表示时间序列无自相关性.数字化的情感语音信号情感不同相应的变化规律也不相同,比如愤怒情感的语句前后情感变化相较于其他情感的随机性要高,而中性、高兴类型的语音前后情感较稳定,关联性较高.提取情感语音的Hurst指数特征可以体现情感变化的前后关联性高低,所以本文选取Hurst指数作为非线性特征之一.Hurst在提出该指数同时也引入重标极差分析方法[13]计算H值.重标极差法(the rescaled-range)分析是一种非参数统计方法,不受时间序列分布的影响.
2.1 数据库
情感语音识别的研究离不开高质量的情感语音数据库的支持.德国柏林情感语音库在情感语音识别研究领域具有一定的代表性,因此,本文选用柏林语音库.
德国柏林语音库[14]是由10位演员(5男5女)对7种情感(中性、生气、害怕、高兴、悲伤、厌恶、无聊)进行模拟得到的,包含800句语料,采样率为16,kHz.由于柏林语音库中的录制语句长短不同,为避免该因素的影响,本文选用语音长度近似相同的情感语句.经过筛选得到中性(79)、愤怒(82)、高兴(71)、悲伤(62)4种情感语句,共294句.
2.2 预处理
语音信号是一种非平稳的时变信号.对语音信号进行分析、提取特征参数时,都要先进行预处理.预处理主要包括端点检测、预加重、加窗分帧处理.本文端点检测采用基于过零率和能量双门限方法.预加重采用一阶FIR高通滤波器来实现,其中预加重系数∂取0.97.经过数字滤波之后,对语音进行加窗分帧处理,设置帧长256,帧移128.
2.3 特征提取
语音信号经过预处理之后,分别对每一帧语音信号依次提取最小延迟时间τ、关联维数、K熵、最大Lyapunov 指数和Hurst指数5个非线性特征和声学特征.声学特征包括韵律特征(语速、过零率、能量、基频、共振峰)和MFCC.特征提取之后,对上述特征计算统计函数.这些统计函数主要包括最大值、最小值、均值和方差等.表1是本文采用的情感统计特征.
表1 情感语音统计特征Tab.1 Statistical features of emotional speech
2.4 实验结果与结论
设计情感语音识别实验,采用上述统计特征的不同组合分别作为支持向量机的输入,设计6种实验(实验编号为1~6),从而验证非线性特征性能.实验训练语句占样本语句70%,,测试语句占样本语句30%,.支持向量机识别网络的参数最优值采用10倍交叉验证的方法获取.表2为不同特征组合情况下的4种情感识别结果.
表2 不同特征组合的识别率对比Tab.2 Comparison of recognition rates of different combinations of features %
从表2中可以得到以下结论.
(1)从单独采用韵律特征、MFCC和非线性特征的识别结果来看,非线性特征的平均识别率高出韵律特征平均识别率3.00%,,但是低于MFCC的平均识别率.虽然识别网络单独使用非线性特征的性能不是最优,但是也可以说明非线性特征用来作情感语音区分也是有效的.这也间接说明了非线性特征只是弥补了以往研究中忽略语音混沌特性的不足,并不能将情感语音的特性完全体现出来.
(2)从韵律特征、MFCC和非线性特征相互融合后作为支持向量机输入的3组实验中,可以得出:实验1和实验4识别结果相比较,平均识别率由69.00%,提升到82.50%,,识别率提高了13.50%,;实验2和实验5的平均识别率为80.88%,和84.50%,,MFCC和非线性特征相结合后,平均识别率提高了3.62%,.
(3)从平均识别结果来看,实验3和实验4、5、6平均识别率分别为72.00%,、82.50%,、84.50%,和87.62%,,识别网络的性能在不断提高.除此之外,针对单一的4种情感的识别结果来看,随着融合的特征种类增加,单一情感的识别性能也在不断提高.由此可以看出:在上述的6个实验中,将3类特征融合识别性能的网络可以达到最优.此外,也可以说明单独使用非线性特征来代表情感语音的差异性是较为片面的,这与非线性特征的性质有关系.这些非线性特征是将语音信号看作一维时间序列进行数学处理得到的,忽略了情感语音信号中的声学特性.所以,当非线性特征与声学特征结合后,才能更好地描述情感语音信号中的有效信息.
(4)图2描述了3类特征不同组合时的情感语音识别结果.从图2可以看出,3类特征在不同组合时的识别结果趋势是基本相同的.说明随着不同类型特征个数的增加,识别网络可以更好地区分情感语音信号.但是针对单一的“高兴”情感和“愤怒”情感识别,实验6与实验5的识别率都是相同的,由此可以推测,纯粹的特征维数累加不一定对识别率有积极的影响.在今后的研究中,笔者会对这一问题继续进行研究.
图2 3种实验的识别率比较Fig.2Comparison of recognition rates of three experiments
综上可得,非线性特征不仅可以有效区分情感语音,而且与韵律特征和MFCC相结合后,融合特征表现出的性能最优.由此证明,本文提取的非线性特征结合声学特征可以更好地诠释情感语音信号的特性.
本文从语音信号发声过程中的混沌特性出发,将非线性动力学模型应用到情感语音特征的提取阶段,提取情感语音信号的非线性特征.设计情感语音识别实验,将非线性特征与声学特征相结合,验证识别网络的性能是否得到改善.从实验结果来看,单独使用非线性特征表现出的性能虽然也是较为理想的,但是识别率还是低于特征融合后的结果.针对本文设计的实验而言,非线性特征与声学特征结合后的识别网络可以得到相对最优的结果.由此可以说明,非线性特征可以很好地弥补情感语音信号中的混沌特性,但是单独用来代表情感语音的差异性也是较为片面的.在今后的研究中,将非线性特征与情感语音声学特征相融合,寻找最强的特征组合仍是主要的研究方向.此外,针对非线性特征的跨数据库研究也是另一研究方向.
[1] 韩文静,李海峰,阮华斌,等. 语音情感识别研究进展综述[J]. 软件学报,2014,25(1):37-50.
Han Wenjing,Li Haifeng,Ruan Huabin,et al. Review on speech emotion recognition [J]. Journal of Software,2014,25(1):37-50(in Chinese).
[2] Anagnostopoulos C N,Iliou T,Giannoukos I. Features and classifiers for emotion recognition from speech:A survey from 2000 to 2011 [J]. Artificial Intelligence Review,2012,43(2):155-157.
[3] Screenivasa R K,Shashidhar G K. Robust Emotion Recognition Using Spectral and Prosodic Features [M]. New York:Springer,2013.
[4] 赵 力,黄程韦. 实用语音情感识别中的若干关键技术[J]. 数据采集与处理,2014,29(2):157-170. Zhao Li,Huang Chengwei. Key technologies in practical speech emotion recognition [J]. Journal of Data Acquisition and Processing,2014,29(2):157-170(in Chinese).
[5] 闫润强. 语音信号动力学特性递归研究[D]. 上海:上海交通大学生命科学技术学院,2006.
Yan Runqiang. Recurrence Analysis of Dynamical Characteristics for Speech Signals [D]. Shanghai:School of Life Science and Biotechnology,Shanghai Jiao Tong University,2006(in Chinese).
[6] Patricia H,Jesus B A,Miguel A F,et al. Global selection of features for nonlinear dynamics characterization of emotional speech [J]. Cognitive Computation,2013,5(4):517-525.
[7] Patricia H,Jesus B A,Miguel A F,et al. Nonlinear dynamics characterization to emotional speech [J]. Neurocomputing,2014(132):126-135.
[8] 李 响,谭南林,李国正,等. 一种应用语音多特征检测驾驶疲劳的方法[J]. 仪器仪表学报,2013,34(10):2231-2237.
Li Xiang,Tan Nanlin,Li Guozheng,et al. Method of applying speech multi-features to detect driver fatigue [J]. Chinese Journal of Scientific Instrument,2013,34(10):2231-2237(in Chinese).
[9] Zbancioc M D. Using the Lyapunov exponent from cepstral coefficients for automatic emotion recognition [C]//Proceedings of the 2014 International Conference and Exposition on Electrical and Power Engineering. Iasi:IEEE,2014:110-113.
[10] Takens F. Detecting strange attractors in turbulence [C]// Lecture Notes in Math. New York:Springer,1981:366-381.
[11] 吕金虎,陆安君,陈士华. 混沌时间序列分析及其应用[M]. 武汉:武汉大学出版社,2002.
Lü Jinhu,Lu Anjun,Chen Shihua. Chaotic Time Series Analysis and Its Application [M]. Wuhan:Wuhan University Press,2002(in Chinese).
[12] 赵贵兵,石炎福. 从混沌时间序列同时计算关联维和Kolmogorov熵[J]. 计算物理,1999,16(3):310-315.
Zhao Guibing,Shi Yanfu. Computing fractal dimension and the Kolmogorov entropy from chaotic time series [J]. Chinese Journal of Computational Physics,1999,16(3):310-315(in Chinese).
[13] Hurst H E. Long-term storage:An experimental study [J]. Journal of the Royal Statistical Society,1965,129(4):591-593.
[14] Burkhardt F,Paeschke A,Rolfes M,et al. A database of German emotional speech [C]// Proceedings of the 2005,Interspeech. Lisbon:ISCA,2005:1517-1520.
(责任编辑:田 军)
Feature Extraction of Emotional Speech Based on Chaotic Characteristics
Sun Ying1,Yao Hui1,Zhang Xueying1,Zhang Qiping1,2
(1.College of Information Engineering,Taiyuan University of Technology,Taiyuan 030024,China;2.Palmer School of Library and Information Science,Long Island University,New York 11548,USA)
Based on the chaotic characteristics of emotional speech,nonlinear features and frequently used acoustic features were extracted to effectively differentiate emotions by applying a nonlinear dynamic model to analyze the emotional speech signals.The effectiveness of nonlinear features was verified by comparison with the integrated model of nonlinear features with different acoustic features(prosodic features and MFCC)on the recognition rates of emotional speech.It also studied the influences of chaotic characteristics of speech signals on the recognition rates of emotional speech.Four types of emotion(happiness,anger,sadness,and neutrality)from Berlin database were selected and support vector machine was used for emotion recognition.The results show the nonlinear features effectively represent the chaotic characteristics of emotional speech signals.The recognition rates of emotional speech can be significantly improved when nonlinear features are combined with traditional acoustic features.
emotional speech recognition;chaotic characteristic;support vector machine;nonlinear feature
TN912.34
A
0493-2137(2015)08-0681-05
10.11784/tdxbz201507039
2015-03-15;
2015-07-09.
国家自然科学基金资助项目(61371193);山西省青年科技研究基金资助项目(2013021016-2);山西省回国留学人员科研资助项目(2013-034).
孙 颖(1981— ),女,博士,讲师,tyutsy@163.com.
张雪英,tyzhangxy@163.com.
时间:2015-07-13.
http://www.cnki.net/kcms/detail/12.1127.N.20150713.1007.002.html.