雷沛之 傅洪亮
摘要:為了更加准确地进行语音情感识别,提出了一种基于去噪自编码器的语音情感识别模型。该模型用Open SMILE提取了语音中的声学特征,利用构建好的去噪自编码器获得更高阶的特征,用SVM分类器对语音中的情感进行识别分类。在EmoDB情感语料库上进行了实验,结果表明,与直接使用SVM进行分类相比,该模型对语音情感的识别准确率至少提高了2%。
关键词:情感识别;语音特征;SVM;去噪自编码器
中图分类号:TP391.41文献标志码:A文章编号:1008-1739(2018)18-67-2
Speech Emotion Recognition Based on Denoising Autoencoder
LEI Peizhi1, FU Hongliang2
(College of Information Science and Engineering, He爷nan University of Technology, Zhengzhou, He爷nan 450001, China)
0引言
语音是人们相互交流情感和信息的最直接方式,语音情感识别就是机器根据语音信号分辨出这些语音所表达的各种情感[1]。随着各种电子产品的更新换代,人们在使用这些电子产品时都希望它能具有更好的人机交互功能、更加智能化,所以语音情感识别逐渐成为了具有广泛前景的研究方向。科学家对于语音情感识别的研究,可以追溯到20世纪80年代左右,那时科学家的研究重点是语音中的声学统计特征,例如麻省理工学院设计的可以采集各种情感信息的“情感编辑器”[2],由于实验条件及语音样本较少等条件的限制,并没有在该领域产生较大的突破。
近些年来,随着人们逐渐意识到研究语音情感识别对计算机科学、信息科学及心理学等诸多学科的推动作用,以及人工智能和深度学习等领域的发展,情感识别取得了长足的进步[3]。如今,利用语音特征进行分类仍然是情感识别的主流,然而随着提取的特征维数不断增加,特征中的冗余信息也逐渐增加,不利于机器进行情感识别分类。去噪自编码器可以把提取好的特征进行特征变换,去除其中的无用冗余信息,并抽象出更高阶的特征。
1去噪自编码器
机器学习能够顺利完成的关键在于能够输入好的特征数据,自编码器本质上是一种神经网络[4],它有2个特点:①输入输出层单元数一致:就是具有相同的维数;②能够保留数据中更有效的信息。在实践中,噪声和一些特征差异性都会影响到分类器的性能,需要更深层次的特征,因此研究出了去噪自编码器(Denoising Autoencoder,DAE),即人为的在输入信息中加入干扰信息,一般为高斯噪声,在这种条件下重构出输入信息并力求最小化误差[5]。因此,更深层次的表达性的特征就被提取了出来,结构框图如图1所示。
去噪自编码器的任务就是让尽可能的小[6],若原始数据为,重构后的数据为,则误差函数则可以表示为:
2语音情感识别的流程
情感识别具体流程如图2所示,分为4个步骤。
2.1特征提取
EmoDB是由柏林工业大学录制的情感语音库,语言为德语,由10名演员对7种情感进行录音。本文用OpenSMILE软件提取特征,根据2009年首次举办的国际语音情感识别挑战赛所创建的特征集,提取出的特征有384维,然后将其输入去噪自编码器中。
2.2特征重构
构建的去噪自编码器如图3所示,其中各项参数如表1所示。
3实验结果及分析
本文将EmoDB数据库提取出特征并重构后,将特征集按8:2分为训练集和测试集,在Tensor flow上进行实验,其中SVM中的核函数选线性核函数,C值取为1~5,对于每个C值,都进行10次实验最后取平均值,实验结果如图4所示。
从图4中可以看出,与传统的SVM分类器相比,本文涉及的情感识别系统对于语音情感的识别正确率最低提升2.01%,最高提升3.02%,因此本文设计的分类系统具有更好的分类性能。
4结束语
针对传统SVM对语音情感识别的正确率不高的问题,本文构建了去噪自编码器重构出了更高阶的语音特征用于分类,并在EmoDB数据库上进行了实验,结果表明了该方法具有更好的分类性能,提升了SVM对语音情感分类的正确率。
参考文献
[1] Haytham M. F,Margaret L,Lawrence C. Evaluating deep learning architectures for Speech Emotion Recognition[J]. Neural Networks,2017(92):60-68.
[2] Liu Pan,Rigoulot S,Pell M D. Cultural Immersion Alters Emotion Perception: Neurophysiological Evidence fom Chinese Immigrants to Canada.[J]. Social Neuroscience, 2017,12(6):685-700.
[3] Revathi A,Venkataramani Y. Text Independent Speaker and Emotion Independent Speech Recognition in Emotional Environment[M].Springer India:2015.
[4] Yihui Xiong,Renguang Zuo. Recognition of Geochemical AnomaliesUsinga Deep Autoencoder Network[J]. Computers and Geosciences,2016(86):75-82.
[5] Chandra B, Sharma R K.Adaptive Noise Schedule for Denoising Autoencoder[M].Springer International Publishing: 2014.
[6] Zhang Ying, Liu Rui,Zhang Saizheng,et al.Occlusion-Robust Face Recognition Using Iterative Stacked Denoising Autoencoder[M].Springer Berlin Heidelberg,2013.