[摘 要] 情感声学特征在语音情感识别过程中扮演非常重要的角色,本文拟定的研究普通话的语音情感识别方式分为以下几个步骤:优先选择、序列前向、序列后向以及逐步判别分析。由此针对说话人与文本无关人、说话人两组呈现出的普通话情感语音做出特征性的选择,并将实际效果进行分析与对比。
[关键词] 普通话;语音情感;识别;特征选择;情感声学特征
一、普通话的语音情感特征及选取
在本文研究过程中需要结合普通话情感语料内容,首先普通话语音情感特征的选择与提取应从收集与录制普通话语料中获取;其次将普通话的情感语料分为两组,分别为说话人与文本无关、说话人;之后分别从两组中对比得出语音中质量与韵律特征。下文中将采用不同的方式对普通话的语音情感特征进行逐一选择与分析,力图通过实验结果的分析得出普通话语音情感识别的最有效措施。
1、普通话的语音情感语料收集
普通话语音情感语料收集的方式分为剪辑与录音两种,在收集的过程中比较注重高兴、悲伤、愤怒、害怕以及中性这五种基础情感类别,本文将选择1185句普通话形式的语音情感语料。在实验过程中采用490句由电影与广播剪辑中获取的定向语音情感语料,其中包括高兴、害怕、愤怒以及悲伤这四个类型,并将这一组普通话的语音情感语料数据命名为说话人与文本无关,其余696句普通话的语言情感语料是通过专业级别录制的有效情感语音语料,并将这一组普通话的语音情感语料命名为说话人相关组。
2、普通话的语音情感特征获取
普通话语音情感中韵律特征可以通过基频、能量、对数能量以及时间长短进行对比试验,而语音质量可以通过共振峰得出情感声学特征。在实验过程中可以将短时过零率以及短时能量幅度两种方式作为普通话语音情感识别的端点检测依据,同时截取有效的普通话语音情感语料,并确定从中获取的语音帧长为5ms。最后将获取的每一帧语音中基频(F0)、能量(Eng)、共振峰(F1/F2/F3)以及宽带进行数值统计。
3、普通话的语音情感特征选择
普通话的语音情感特征识别要通过系列的特定预料选取以及对比,普通话的语音情感特征选择方法分为经典与多元统计两种,其中经典方法中包括PFS,SFS和SBS;多元统计中比较常用的方式为SDA。
PFS:利用这种方式选择语音情感特征,首先要将语音中各个情感的原是特征进行逐一对比与评价,同时将对比评价得到的结果按照错误率的升序进行有效排列。其次将按照序列升降顺序将单独语音情感特征归纳到目标特征组,并将选入的特征进行逐一对比与评价,待对所有语音中特征都在目标特征组进行比较之后选择出最有特征组。
SFS:利用这种方式选择语音情感特征,首先要講这一系列中目标特征组设为空白,之后将普通话语音语料原是特征组中内容选择并增加到目标特征组,并使其与目标特征组中特征组合之后能够保证其对比与评价过程中是本轮错误率最低的,按照这种形式逐一将原是特征组与目标特征组进行组合与对比。最后选择出原始特征组作为新特征增加到目标特征组时,评价与对比结果最优的一组特征。SBS与SFS在普通话的语音情感特征选择过程中措施方式是相反的。
二、普通话的语音情感识别措施分析
本文就说话人与文本无关人一组进行实验比较,普通话语音情感语料特征从1逐渐增加到10,这一过程中语音情感特征增长率占特征总数的30%,同时增涨的是特征组合的准确率,已从40%升至70%,上升了三个百分点;实验过程中继续增加语音特征到28,此时得出的平均准确率由70%上升到74%,这一递增过程中仅上升0.4个百分点。另一组实验将说话人普通话的语音情感特征作为主要参考对象,这一实验需要特定人的语音情感语料作为对比内容,同时选取特定语音的基频平均值、共振峰(F1)平均值、对数能量平均值等9-12个基础特征,实验结果以各项特征平均准确率的最大值为有效参考数据。通过实验结果可以看出所选择的十个说话人分别持有的十个最优特征中是涵盖二十四个不同特征的,也就是占有原是特征比例的77.4%,这一数据说明十个特定人的最优语音情感特征也是存在差异的。所以实验过程中要获取最高的准确性,必不可少的是将语音特征进行对比,以此来获取这十个特定人的语音情感最优特征组合。
三、结论
综上所诉,本文采用PFS,SFS,SBS以及SDA等方式对普通话的情感语音特征进行的比较与实验,在说话人与文本无关一组中所选择的特征对比结果可以表明,在情感识别过程中主要的影响因素是第一共振峰、基频基础范围、对数能量以及语速;而在说话人相关这一组实验过程中,普通话的语音情感特征影响因素主要由基频平均值、对数能量平均值、第一共振峰平均值以及语速等组成,与此同时特定说话人的不同也将影响语音情感特征的最终对比结果。在采用LDA和SVM进行情感语音识别实验过程中,注重考虑了平均值的准确性问题,由此能够看出SDA相教育其他三种方式是具有一定优势的,针对普通话的语音情感识别也是非常重要的。
参考文献:
[1]蒋丹宁,蔡莲红.基于韵律特征的汉语情感语音分类.第一界中国情感计算及智能交互学术会议论文集,217-220, 2013.
[2]王治平,赵力,邹采荣.利用模糊嫡进行参数有效性分析的语音情感识别.电路与系统学报,Vol. 8, 109-112, 2013.
[3]袁志发,周静芋.多元统计分析.科学出版社,2012.
作者简介:赵轲(1982—)女,民族:土家,籍贯:湖北武汉,学历:硕士,职称:讲师,职位:教师,研究方向:艺术表演、播音主持。