周 慧,魏霖静
(甘肃农业大学 信息科学技术学院,甘肃 兰州 730070)
随着计算机技术的发展,传统的计算机已不能满足人们日益增长的需求,如何让计算机和人的交流不仅能体现基本的信息,还能识别人类丰富的情感是是当前国内外众多领域研究的热点问题。
目前,很多的方法被使用到情感语音的识别中。如文献[1]利用神经网络,文献[2]利用特征空间分解方法,文献[3]实现了利用KNN方法的情感语音的识别。文中利用LS-SVM分类,实现了对4种基本情感的分类识别。
LS-SVM最小二乘支持向量机是标准SVM的一种推广形式,它具有SVM的优点,也具有自身的特点。其基本理论如下[4-5]:
假设训练样本集为(xi,yi),i=1,2,3,…,n,xi∈Rn为训练样本的输入,yi∈R为训练样本的输出。利用一非线性映射将样本从原空间映射 φ(·)到高维特征空间 φ(xi),在高维特征空间中构造最优决策函数:
利用结构风险最小化原则,寻找(1)式中的最优 ω和b值:
上式中:‖ω‖2为控制模型的复杂度,C为正规化参数,Remp为损失函数ε,也称为经验风险。损失函数ε的不同,支持向量机模型就不同。在最小二乘支持向量机中损失函数ε,即Remp=。
基于结构风险最小化原则来确定决策函数最优ω和b值可转换为求解以下最优解:
利用拉格朗日方法求解这个优化问题:
根据优化条件:
得到函数的估计为:
其中核函数K(xi,xj)=φ(xi)·φ(xj),从而优化问题转变为线性方程组的解:
得到非线性决策函数:
人类的情感是一个复杂且不容易准确描述的问题,至今也没有一种统一的定义。文中作为初步探索,将情感种类按常见的4种分类愤怒,高兴,中性,悲伤划分,并邀请4名学生在诱惑情感的情况下录制了20句实验语音。
情感语音信号的特征参数涉及到时域、频域、倒谱域及统计等方面,文中选取了短时能量,基频相关参数,语速,共振峰作为特征[6-7]。
语音信号的能量是随时间的变化而变化的,在语音信号中的清音和浊音之间能量差别是显著的。根据语音信号自身非平稳,准周期等特点,对语音信号分帧加窗后来计算10~30 ms时间内的能量。
设初始的语音信号为x(l),进行分帧后得到第n帧的语音信号为xn(m),则第n帧的语音信号的短时能量En可以表示为:
上式中的N为窗长。
文中得到的不同情感的平均短时能量关系为:愤怒(0.16)>高兴(0.08)>悲伤(0.04)>中性(0.01)。
发出的声音可分为清音和浊音。当发出浊音的时候由于声带振动而引起的振动频率称为基频,语音中的基频直接决定了语音中音调的高低。不同情感下语音的基频差异也很大。对于基频的获取,可以采用多种方法。如自相关法,小波变换法,线性预测残差倒谱法等等,不同的方法有缺点也不同。文中选取了比较典型的自相关方法提取相关语音的基频。
语速,指发音的速度。无外界因素时,每一个人的语速是基本恒定的。当有外界因素的影响时,语速就会变的不稳定,加快或者放慢。根本上来讲,语速的变化实际上是不同情感的一种体现。愤怒时语速加快,悲伤时语速就会自然的变慢。在实验中,可用下列公式来描述语速:
在语音学中,可以用来描述人类声道共振现象。当元音激励进入声道时会引起共振特性,产生一组共振频率,这就是共振峰,一般包括共振峰频率位置和频带宽度。同一个说话人携带不同情感说话时的共振峰差异也是明显的,因此语音信号的前3~4个共振峰也经常用作情感识别的特征参数。
在最小二乘支持向量机分类时,要对核函数进行选取。文中采用了径向基函数(RBF)核函数,利用交叉验证的方法确定其中的两个参数。
图1 情感语音识别原理图Fig.1 Schematic diagram of emotional speech recognition
文中将录制的情感语音数据进行了预处理,然后提取出了相应的情感特征参数,并将特征参数实现数据的归一化处理。随机抽取80%的数据样本,建立基于LS-SVM的分类识别模型,并进行了集内测试和集外测试。
表1 情感语音识别结果Tab.1 Results of emotional speech recognition
文中利用LS-SVM实现了4种基本情感分类的情感语音识别,从识别率来看,基本情感在集内测试中识别率高。但在整个的实验过程中还是存在着不足,比如训练和测试中高兴和愤怒的情感特征区分度相对其他情感较低,因此增加情感的分类和特征的表示还是今后需要研究的重点。
[1]石瑛,胡学钢.基于神经网络的语音情感识别[J].计算机工程与应用,2008,44(24):191-193.
SHIYing,HU Xue-gang.Research ofspeech emotion recognition based on acoustic features and ann[J].Computer Engineeringand Applications,2008,44(24):191-193.
[2]黄程韦,金赟,王青云,等.基于特征空间分解与融合的语音情感识别[J].信号处理,2010,26(6):835-839.
HUANG Cheng-wei,JIN Yun,WANG Qing-yun,et al.Speech emotion recognition based on decomposition[J].Signal Proce-ssing,2010,26(6):835-839.
[3]Lee C M.Classifying emotions in human-machine spoken dialogs [C]//Multimedia and Expro Proceeding.2002 IEEE International Conference,2002:737-740.
[4]YANG Hong,LOU Fei,XU Yu-ge,et al.GA Based LS-SVM Classifier for Waste Water Treatment Process[C]//Proc.of the 27th Chinese Control Conference,2008(7):436-439.
[5]Adankon M M,Cheriet M.Model Selection for the LS-SVM.Application to Handwriting Recognition[J].Pattern Recognition,2009(42):3264-3270.
[6]杨行峻,迟惠生.语音信号数字处理[M].北京:电子工业出版社,1995.
[7]余伶俐,蔡自兴,陈明义.语音信号的情感特征分析与识别研究综述[J].电路与系统学报,2007,12(4):76-82.
YU Ling-li,CAI Zi-xing,CHEN Ming-yi.Study on emotion feature analysis and recognition in speech signal:an overview[J].Journal of Circuits and Systems, 2007,12(4):76-82.
[8]李锋,袁军社.BP神经网络在结构边界参数识别中的应用[J].火箭推进,2009(4):30-33.
LI Feng,YUAN Jun-she.Application of BP neural network in characteristics identification of frame structure[J].Journal of Rocket Propulsion,2009(4):30-33.