马承泽,王 薇
(1.长春工业大学 基础科学学院,长春 130012;2.长春大学 计算机科学技术学院,长春 130022)
人类的语言除了包含文字信息以外,还含有人类的情感和情绪等信息。即便是相同的一句话,由于说话人的情感不同,其语义以及给听者的印象就会截然不同。所以,我们可以依据语音去识别说话者的情感特征,典型的语音情感识别主要包含情感特征的提取及识别,其中情感特征提取方法的好坏直接关系到情感识别的准确率,优秀的情感特征提取算法应该能实时、高效地反映情感状态特征。
近年来,国内外的学者对语音情感识别领域进行了广泛深入的研究,但其识别的准确率和实用性都有待进一步的提高,为了提高识别率和实用性,作者利用汉明窗辅助提取语音信号中的情感特征参数,采用自相关法分析计算出情感特征参数的基频值。
语音资料库是依照一定的语言学原则,采用随机抽样的方法,收集自然的连续语言文本或话语片段,而建成的具有一定容量的大型电子文库。语音情感特征参数的提取必须依靠一个高质量的情感语音数据库来提供大量的实验和测试,本文采用的情感语音数据库来源于北京航空航天大学电子信息工程学院毛峡教授课程组所建立的情感语音数据库。
在语音情感识别中主要使用的特征值有基频(pitch)、共振峰频率(formant)、能量(energy)、语速(speech rate)、单个音节的持续时间(duration)等,以及特征值的各种变化形式,如最大值、最小值、均值、变化率等。
本文主要是利用相关提取算法对愤怒、悲伤、高兴、平静四种感情进行分类,提取的情感特征值为基频、共振峰频率和能量。
情感语音特征值的提取过程,包含数字化预处理、加窗分帧以及情感特征值计算三个方面。
语音信号数字化是数字处理的前提,把输入的语音信号做低通滤波,然后进行A/D转换。使用的低通滤波器的技术指标是:通带内的波动绝对值要小于1dB,通带的带宽3400Hz,在4000Hz处衰减14dB,4600Hz以上衰减32dB。
取样之后对其信号进行量化,然后计算量化误差(量化后的信号值与原信号之间的差值),使用10bit量化。
语音信号的分析帧是利用一个长度有限的窗函数来截取形成的,因此,对分析帧的处理就等同于对固定特征的持续语音的处理。窗函数把处理区域之外的点置零,这样就获得了当前的语音帧。本文采用汉明窗对语音信息进行加工处理,汉明窗函数即
其中,n为当前帧序号,N为帧长(窗宽)。
汉明窗函数采用的窗长为23.22ms(256点),窗移10ms。即从当前语音信号开始每23.22ms做为一个分析帧,同时每相隔10ms取一个分析帧。这样,原有的语音信号就被分成一帧一帧并且加过窗函数的短时信号,再把每一个短时信号看成平稳的随机信号。
经过研究发现,基频是语音情感识别中最重要的特征,其次是语音的能量、共振峰频率等值。
2.3.1 基于自相关法(ACF)的基音频率的提取
人类发浊音时声带震动所引起的周期运动的时间间隔称为基音周期。它是基因频率F0的倒数。因为周期性信号的自相关函数均会呈现出周期性一致的峰值,所以通过检测自相关函数其峰值就能够得到周期性信号的周期。得到基因周期后,求其倒数就是基因频率。
由于共振峰对基因周期的影响,进行自相关处理前,对语音信号进行三电平中心削波处理,就可以简化特定目标自相关函数的计算,同时又不降低音调检测性能。
中心削波语音信号其实质上是对语音信号作非线性处理:
为了音调周期的峰值在简化过程中不被削掉,电平cL选定68%。
利用自相关函数提取基音周期最重要的参数是时间,即为自相关函数峰值出现的位置,峰值本身的大小并不重要。所以,将削波后的波形无论其大小,均定义为±1,同时定义被削去的部分均为零,那么+1,-1,0这3个电平进行自相关运算就可以简单又快捷。削波函数如图1所示,三电平削波过程如图2所示。
图1 三电平削波函数
图2 三电平削波工作过程
三电平中心削波后,自相关函数的计算就比较简单了,如果以y(n)表示三电平中心削波后的输出,那么其自相关函数即为
计算后,得到基音周期曲线,分析其基音周期轨迹,可以获得基频的方差、均值、动态范围以及最值等特征值,根据基频曲线来计算其特征值,发现基音频率对愤怒和平静有比较明显示的区分效果。
2.3.2 共振峰特征值提取
共振峰是反映声道特性的主要参数。本文采用线性预测法(LPC)来提取共振峰特征值。线性预测所提供的优良的语音信号模型参数,可以比较准确地表达语音信号的幅度谱。通过对语音信号的LPC分析可以得到声道响应的全极模型H(z)的分量,既而获得此分量的谱峰,就可以求出共振峰。第n帧语音信号xn(m)的p阶线性预测值为:
图3即是利用LPC方法提取共振峰特征时的对比图。
图3 语音信息线性预测前后对比图
2.3.3 能量
语音信号的能量参数与情感的表达具有较强的相关性,因此对短时能量进行分析,可以较好地区分语音清浊音的变化情况,从而可以达到区分不同语音情感的目的。短时能量定义为:
其中,汉明窗函数w(n)2的含义是一个冲激响应为w(n)2的滤波器。本实验采用的窗长保证了短时能量的明显变化。利用短时能量进行语音信息的分析,得到结果如图4所示。
图4 短时能量分析结果图
本文语音资料库是来源于北京航空航天大学电子信息工程学院毛峡教授课程组所建立的情感语音数据库,仿真实验环境为MATLAB7.0。选取的情感特征值为基音频率、共振峰和能量特征。通过对整个语句基频的均值、动态范围、最大值以及方差和均值的统计,发现基频对愤怒和平静有很好的区分效果。分析大量情感语音的能量信息得知,能量特征可有效地区分愤怒、高兴与悲伤情感。同时,对大量情感语音信号的共振峰数据的统计分析得知,高兴和愤怒的第一共振峰值比平静情感值偏高,悲伤情感的第一共振峰值与平静情感值相比有明显的下降趋势。
[1]王薇.MATLAB的循环向量化编程方法研究[J].长春大学学报,2010(2):57-59.
[2]芦涛,王成儒,韩笑蕾.基于SVM的汉语语音情感识别研究[J].电子测量技术,2007,30(3):20-21,56.
[3]林奕琳,韦岗,杨康才.语音情感识别的研究进展[J].电路与系统学报,2007,12(1):90-98.
[4]赵力.语音信号处理[M].北京:机械工业出版社,2008.
[5]边肇祺,张学工.模式识别[M].2版.北京:清华大学出版社,2000.
[6]顾鸿虹.基于高斯混合模型的语音情感识别研究与实现[D].天津:天津师范大学,2009.
[7]詹永照,曹鹏.语音情感特征提取和识别的研究与实现[J].江苏大学学报,2005,26(1):72-75.