王 颖
(东北石油大学计算机与信息技术学院 大庆 163000)
基于改进Elman神经网络的语音情感识别技术研究∗
王 颖
(东北石油大学计算机与信息技术学院 大庆 163000)
语音情感特征从时间粒度的角度可分为全局统计特征和瞬时特征。针对语音情感的动态特性,提出一种改进Elman神经网络模型实现语音情感识别。网络模型将全局特征信号与时序信号作为输入,并根据输入信号特征自动修改网络结构,不仅实现全局特征信号与时序信号的融合,还提供系统整体识别率。
语音情感特征;改进Elman神经网络;全局特征信号;时序特征信号
语音情感识别研究的开展距今已有30余年的历史,在此期间,它得到了世界范围内相关研究者们的广泛关注,也取得了一些令人瞩目的成绩,如其在远程网络教学、医疗辅助、反恐侦测和客户服务等领域的应用得到广泛认可。尤其将人工智能应用于语音情感识别领域后,更是取得了不俗的成绩[1]。在此期间也针对语音情感识别提出了许多新型的神经网络模型,如韩文静等提出的GCElman和何亮提出的IN-GABP在语音情感识别方面都取得了较好的成绩[2~6]。
在取得以上成绩的同时也面临着诸多问题的考验与挑战,如网络模型训练时间和训练样本的选取。尤其对于作为输入的语音情感特征信号的选取将直接决定识别的成功几率[7]。在此之前一些网络模型均只单独针对短时时序特征信号进行识别或语段特征信号进行识别,本文在前人的基础上进行学习和研究,并对传统的Elman神经网络进行优化,提出一种优化的Elman神经网络模型,可根据输入特征信号自动修改网络模型结构,一方面能够将全局统计特征和时序特征进行有效的融合,另一方面能够有效的提高系统的整体识别率[8~12]。
2.1 改进Elman神经网络模型
Elman神经网络较传统动态神经网络除包含输入、输出和隐含层外还包含一个连接层,负责记忆前一时刻的输出,基于此特性,Elman神经网络被应用在在语音情感识别领域[13]。
当以语句情感征作为输入时,基于Elman神经网络的结构特点,根据连接层记录的前一时刻的输出,结合当前时刻的输出语音情感识别和分析取得较好的成绩。但当输入为语段情感特征时,传统Elman神经网络退化为MLP网络,失去其连接层的延时算子特性。因此有学者提出了基于全局特征的Elman神经网络模型,如OHF Elman神经网络模型[14]和GCElman神经网络模型等[15]。但大多数适用于全局时序特征的网络模型均增加了网络模型结构复杂度,以时间为代价来换取识别准确度,但当识别信号为基于语句的时序信号时,此类网络模型虽增加了网络训练时间却并没有换来识别精度的显著提高,比较浪费资源甚至容易陷入局部极小值导致无法收敛[16]。
针对以上问题,本文提出一种新的改进Elman神经网络模型。改进Elman神经网络模型包括输入层、隐含层、输出层以及两个连接层。网络模型结构如图1所示。其中输入层包括两部分:全局控制信号和时序信号。两个连接层:连接层1为隐含层的延时算子,负责记忆隐含层前一时刻的输出;承接层2为输出层的延时算子,负责记忆输出层前一时刻的输出。两个连接层分别构造了各自的自反馈回路,并通过各自的自反馈增益因子实现系统动态回溯系统当前状态前一时刻的信息甚至更为先前时刻的信息。改进Elman神经网络模型较传统Elman网络模型在输入层增加了特征信号的输入,当特征信号为全局特征信号时,网络的连接层1负责记忆隐含层的前一时刻输出,连接层2负责记忆输出层的前一时刻输出,并与当前时刻的输入一起反馈到网络模型中,能够有效提高基于语段的全局特征信号的识别。当特征信号为时序信号特征时,根据特征信号系数网络模型将自动删除连接层2,仅依靠前一时刻隐含层的输出与当前时刻输出对基于语句的特征信号进行识别,以减少网络运行时间。
图1 改进Elman神经网络
2.2 改进Elman神经网络数学模型
改进Elman网络数据模型:
其中W1、W2、W3、W4、W5分别为输入层至隐含层,连接层1至隐含层,隐含层至输出层,连接层2至隐含层,连接层2至输出层的连接权值;x1(k)和x2(k)分别为连接层1和连接层2的输出;α(0≤α≤1)和 β(0≤β≤1)为连接层1和连接层2的子反馈增益因子;θ(θ∈{0,1})为输入信号特征系数,当输入信号为全局统计特征时为1,当输入为时序特征信号时为0;f(·)为隐含层神经元的传递函数,本文采用Sigmoid函数,g(·)为输出层神经元的激活函数,本文采用线性函数。
2.3 改进Elman神经网络算法
改进Elman网络采用动态BP算法对权值进行修正,设第k步系统的实际输出为 y(k),定义误差函数为
分别计算E(k)对连接权限值的偏导数,并使其等于0,可得到改进后的Elman网络学习算法
上式中:
其中 δ1、δ2、δ3、δ4、δ5分别为W1、W2、W3、W4、W5的学习步长;m、n、r分别为输入层、输出层、隐含层神经元的个数。式(10)和式(11)构成了梯度的动态递推关系,因而可以实现对高阶系统的有效辨识。
语音情感特征从时间粒度的角度可分为全局统计特征和瞬时特征。全局统计特征用来描述语音在语句时长内的韵律学变化,它表征的是语音超音段方面的信息,一般认为全局统计特征对情感区分度较大。瞬时时序特征,即语音特征,主要用来描述语音的频谱特性,它在语音的内容识别领域被广法运用,对语义的区分度较大。
本文提出Elman网络模型可根据输入信号类型在后台自动修改网络结构,以适应不同类型信号的语音情感分析。与传统Elman神经网络输入信号不同,改进Elman神经网络输入层中包含全局控制信号和时序特征信号两部分内容。训练过程中当某一样本的输入为全局统计特征信号时,网络模型可自动过滤掉基于语句的时序特征,只接受该样本中基于语段的特征,并自动调整该样本的网络输出向量,保证其为本样本所属的情感类别向量。
3.1 基于时序特征的语音情感识别
本文从基音频率参数、共振峰参数和短时能量参数中选取了24个特征参数。其中1~8为基音频率参数,包括:基频最大值、基频最小值、基频变化范围、基频局部最小值分布、基频的均值、基频方差、基频变化率的均值、基频变化率的方差;9~14为共振峰参数,包括:第一、二、三共振峰均值及其对应共振峰方差。15~24为短时能量参数,包括:短时能量及其差分的均值、最大值、最小值、中值、方差。
表1 前10最佳特征
本文使用fisher准则对所选取的特征参数进行特征评价,并选出了前10个最佳特征。
识别结果如表2所示。
表2 最佳特征组合识别结果
3.2 基于语段特征的语音情感识别
为验证时序特性对情感识别率的影响,本文分别选取24种情况的语段长度。从10帧/段开始至240帧/段,以10帧的步长增长。为了保证实验过程中所使用的测试样本的语段长度与训练样本的语段长度相同,便于对测试结果进行交叉验证,根据语段的长度的情况,对应的选取了24组训练样本。
24组训练样本全部训练完成后输入测试样本进行验证。通过测试样本得出的验证结果如图2所示。通过图2可以看出,不同的语段长度情感识别的结果也不相同,当识别率到160帧/段时识别的准确度最高,可达到68.7%,由此可得出160帧/段为识别的最佳语段长度。
图2 基于语段情感识别结果
上一节通过对网络模型训练及验证得出图3~图6所示各类情感识别结果。如图3所示,生气情感的最佳识别语段长度为60帧/段,在该语段长度下,情感识别率可达到92.6%;如图4所示,当语段长度为180帧/段时高兴情感的识别率为最高,在该语段长度下,语音情感识别的识别率为58.3%;图5中所示悲伤情感在语段长度为160帧/段时识别率达到最高,最高识别率为98.8%;图6中所示惊奇的情感在语段长度为110帧/段时识别为75.7%,已达到该情感识别率的最高值。
图3 生气情感识别结果
图4 高兴情感识别结果
图5 悲伤情感识别结果
图6 惊讶情感识别结果
图2 和图3到图6所示的实验结果表明:语段的长度对情感识别率有较大的影响。而全局统计特征在一定程度能够使某类情感的识别率达到最高,但并不能保证使系统的平均识别率达到最优。平均识别率在语段长度小于160帧/段时整体呈现上升趋势,当语段长度等于160帧/段时达到最高,语段长度大于160帧/段时开始呈现下降趋势。并且每种情感的最佳识别语段长度各不相同,高兴和悲伤的最佳语段相对较长,生气和惊奇相对较短,据此推测人耳对不同类别情感的敏感段长也不同。另外通过比较4类情感的识别率,发现在目前使用的情感特征和识别模型基础上,悲伤类情感最容易被识别,相反对高兴类情感的识别性能差强人意。
本文提出一种改进的Elman神经网络结构,并将其应用于语音情感识别领域,通过仿真实验取得了较好的识别效果。实验证明改进的Elman神经网络模型能够有效地对全局统计特征和时序特征进行融合,在保证网络训练不陷入局部极小值而导致无法收敛的情况下能有效提高系统的整体识别率。
[1]Kennedy J,Eberhart R C.Particle swarms optimization[C]//Proceedings of IEEE International Conference on Neural Networks,USA,1995:1942-1948.
[2]Ammar W,Nirod C,Tan K.Solving shortest path problem usingparticle swarm optimization[J].Soft Computing,2008,8(4):1643-1653.
[3] Marcio S,Evaristo C.Nonlinear parameter estimation through particle swarm optimization[J].Chemical Engineering Science,2008,63(6):1542-1552.
[4]C.J.Lin,S.J.Hong.The Design of Neuro-fuzzy Networks Using Particle Swarm Optimization and Recursive Singular Value Decomposition[J].Neurocomputing,2007,71(1-3):297-310.
[5]T.Souda,A.Silva,A.Neves.Particle Swarm based Data Mining Algorithms for classification task[J].Parallel Computing,2004,(30):767-783.
[6]F.Sahin,M.Ç.Yavuz,Z.Arnavut,Ö.Uluyol.Fault Diagnosis for Airplane Engines Using Bayesian Networks and Distributed Particle Swarm Optimization[J].Parallel Computing,2007,33(2):124-143.
[7]Hyun K,Kim J H.Quantum-inspired evolutionary algorithm fora class of combinational optimization[J].IEEE Transactions on Evolutionary Computing,2002,6(6):580-593.
[8]Shi Yuhui,Eberhart R.A Modified Particle Swarm Optimizer[C]//Proc.of IEEE International Conference on Evolutionary omputation.Anchorage,Alaska,USA:[s.n.],2007.
[8]黄程韦,赵艳等.实用语音情感的特征分析与识别的研究[M].电子与信息学报,2011,33(1):312-317.HUANG Chengwei,ZHAO Yan,et al.Research on feature analysis and recognition of practical speech emotion[M].Journal of electronics and information,2011,33(1):312-317.
[9]林奕琳,韦岗,杨康才.语音情感识别的研究进展[J].电路与系统学报,2007,12(1):90-98.LIU Yilin,WEI Gang,YANG Kangcai.Research Progress of Speech Emotion Recognition[J].Journal of Cirouits and Systems,2007,12(1):90-98.
[10]郭鹏娟,蒋冬梅.基于基频特征的情感语音识别研究[M].计算机应用研究,2007,24(10):2056-2058.LIN Yilin,WEI Gang,YANG Kangcai.Advances in speech emotion recognition[M].Journal of circuits and systems,2007,12(1):569-574.
[11]姜晓庆,田岚,崔国辉.多语种情感语音的韵律特征分析和情感识别研究[J].声学学报,2006,3(13):569-574.JIANG Xiaoqing,TIAN LAN,CUI Guohui.Prosodic feature analysis and emotion recognition of multilingual emotional speech[J].Journal of acoustics,2006,3(13):569-574.
[12]赵力,钱向民等.语音信号中的情感识别研究[J].软件学报,2001,12(7):1036-1038.ZHAO Li,QIAN Xiangming,et al.Research on emotion recognition of speech signal[J].Journal of software,2001,12(7):1036-1038.
[13]余伶俐,周开军,邱爱兵.基于Elman神经网络的语音情感识别应用研究[J].计算机应用研究,2012,29(5):56-58.YU Lingli,ZHOU Kaijun,QIU Hong.Application Research of speech emotion recognition based on Elman neural network[J].Computer application research,2012,29(5):56-58.
[14]韩文静.基于神经网络的语音情感识别技术研究[D].哈尔滨工业大学,2007:339-345.HAN Wenjing.Research on speech emotion recognition technology based on neural network[D].Harbin Institute of Technology,2007:339-345.
[15]时小虎.Elman神经网络与进化算法的若干理论研究及应用[D].长春:吉林大学,2006:789-794.SHI Xiaohu.Theoretical research and application of Elman neural network and evolutionary algorithm[D].Changchun:Jilin University,2006:789-794.
[16]赵志刚,常成.带变异算子的自适应粒子群优化算法[J].计算机工程与应用,2011,47(17):42-44.ZHAO Zhigang,CHENG Chang.Adaptive particle swarm optimization with mutation operator[J].Computer engineering and applications,2011,47(17):42-44.
Study of Speech Emotion Recognition Based on Improved Elman Neural Network
WANG Ying
(College of Computer and Information Technology,Northeast Petrolem University,Daqing 163000)
Speech emotion features can be divided into the global statistical feature and instantaneous characteristics on the time granularity.According to the dynamic characteristics of speech emotion,this paper presents a realization of speech emotion recognition improved Elman neural network model.The improved Elman network receive global feature signal and the time sequence signal as input,and modify the network structure automatically according to the input signal characteristics.This new Elman network fuses the global feature of signal and the time sequence signal successfully,and enhances the discrimination of the whole system.
speech emotion features,improved Elman neural network,global feature signal,time sequence signal
TP389.1
10.3969/j.issn.1672-9722.2017.11.011
Class Number TP389.1
2017年5月6日,
2017年6月24日
王颖,女,硕士研究生,讲师,研究方向:人工智能、情感计算。