一种语言情绪识别方法的研究∗

2019-07-31 09:54高成吉
计算机与数字工程 2019年7期
关键词:效价语料库语音

高成吉

(西安航空职业技术学院 西安 710089)

1 引言

由于语音情绪识别在众多存在交互需求领域具有广泛应用,语音情绪识别技术越来越受到研究者的关注[1]。语音情绪识别应用于客服电话服务中心实现对用户情绪的实时识别,如果发现出用户存在激烈的负面情绪,则及时转接人工客服,达到提高服务质量的目的。将语音情绪识别应用于对在线学习系统的用户在学习过程中的情感状态进行监控,为教师及时调整授课重点或者进度提高数据支持。将语音情绪识别应用于对抑郁症患者的情感变化进行跟踪,从而作为疾病诊断和治疗的依据[2~3]。

情绪是一种心理过程,是对环境中内部/外部变量的反应。情绪模型通常是从心理学的角度出发采用的。目前主流的两种突出的情绪分类方法是[4~5]:离散方法和基于维度的连续方法。离散(或分类)方法将情感描述为离散的、形容词标签的形式,如高兴、愤怒等[6]。情绪维度是将使用多维情绪空间的概念对情绪状态进行描述。情绪空间的每一维对应着情绪的一个心理学属性(如表示情绪激烈程度的激活度属性以及表明情绪正负面程度的效价属性)。基于情感空间的情绪描述能够涵盖所有的情绪状态[7]。

语音情绪识别算法的开发一般基于情感语料库、情感空间的描述、不同的语音情绪特征集集合以及多种模式情感识别方法[8]。典型的语音情绪分类模型有HMM(Hidden Markov Model,隐马尔科夫模型)、GMM(Gaussian Mixture Model,混合高斯模型)、ANN(Artificial Neural Network,人工神经网络)和 SVM(Support Vector Machine,支持向量机)。文献[9]采用HMM 模型应用于6 类语音情绪的识别,并在为每个语音输出者的每类情感搭建一个四维状态和全向连接的HMM的基础上实现了高达78.5%的识别准确率。文献[10]将GMM 模型应用于婴儿的情绪分类,使用峰值策略对高斯分布的音素进行优化选择,经语音频率和语音强度的特征训练得到78.8%的最优GMM 模型分类性能。文献[11]为每类情绪搭建一个二分类的SVM,然后将每个SVM 的输出作为一个三层MLP(multi-layer perceptron,多层感知机)的输入,通过MLP的计算实现情感分类的识别。

本文基于对识别英语学生进行语言情绪识别的目的,开发基于GMM 和SVM 的分阶段的英语语言情绪识别方法。该方法在二维情感空间上建模情绪,通过GMM/SVM 构建两阶段情绪识别模型,分别基于情绪效价和情绪激活度对语音情绪进行分类识别。最后通过实验分析证明,该方法具有较好的情绪识别效果。

2 情绪描述模型

所有的情绪可以分为两个不同的类别:基本情绪和派生情绪。基本的情绪一般都有特定的模式。根据相关文献研究,基本情绪有六种:喜悦、悲伤、惊奇、恐惧、愤怒和厌恶[12]。次要的或派生的情绪来源于数量有限的普遍和固有的基本情绪,每种情绪都与生物学情景有关[13]。然而,在情绪维度的分类方法中,情感不是彼此独立的,相反它们是混合和重叠的。在这种方法中,最常用于测量情绪的两个变量是:效价和激活度[14]。效价(也称为评价或愉悦)是指情绪类别的正面或负面。激活度(也被称为强度或活动)是指情绪如何升高或不升高。例如,恐惧是一种高度活跃的情绪状态,而无私则是一种低激活的情绪状态。在效价-激活度空间的中心是与情绪中立相对应的点。基于效价-激活度的情绪空间如图1所示[15]。

图1 基于效价-激活度的情绪空间

如图1 所示,可以通过情绪的效价和激活度描述每种情绪,并且可以在二维空间上的不同位置处绘制不同的情绪。效价-激活度模型是一种描述情绪的非常有效的方式,因此是实现情绪相关系统的较为常见的选择。

3 情绪识别方法

3.1 基于GMM的语音情感识别

本文采用GMM 模型对情绪进行分类。如果x是任意分布的维向量。则x 的密度分布由下式给出:

式(1)中 bi( x )表示高斯密度;Pi为密度分布的权重。高斯密度bi( x )表示为

式(2)中 μi表示各维度向量;Σi表示协方差矩阵。

3.2 基于SVM的语音情感识别

SVM 是最有效的语音情绪识别分类器之一。SVM 是一个二元分类器,可以最大化类之间的差值。核函数K(x,y)是一个指向更高的维度的映射。

式(3)中 yi表示情绪分类的输出;d 为算法常量;xi为支持向量。式(4)中Φ 为从输入语音特征空间到高维度空间的映射函数。

3.3 用于语音情感识别的GMM超向量核函数

首先从包含所有情感的输入语音中使用EM算法(Expectation Maximization Algorithm)训练了通用的语音情绪模型。其次基于语音情绪模型中MAP(Maximum A Posteriori,最大后验)判断出每个情绪。在上述情绪分类过程中,均值向量的调整是由语音模型参数和相关因子决定的,也决定了初始模型对情绪分类的影响。

从CMF的角度结合共享经济的特殊性围绕共享头盔进行分析研究。本文则从美观性、安全性、可用性出发,通过材料、颜色、工艺对本产品进行合适的设计分析;从使用感受与情感体验的角度出发,基于用户和设计师的角度对产品的CMF进行有价值的探索,综上,为日后产品成型提供有价值的参考。

从情绪分类中,通过连接GMM均值向量,构造GMM 的超向量。从不同语音文件中采用EM 算法训练出的通用情绪模型,并利用这些通用情绪模型构造出的GMM模型为

式(5)中 p( x )为 GMM 模型,λi、μi和 Σi为相关的混合权重、均值方差和协方差。

两个 GMM 模型(px(x)、py(x))是由 MAP 训练式(5)所示的GMM 模型p(x)的两个示例得出。其中p(x)允许将先验分布纳入最终情绪的估计过程。

px(x)和 py(x)之间的 KL(Kullback-Leibler)散度是:

4 分阶段情感语音识别器的框架

采用混合GMM/SVM 的分阶段情绪识别方法。 这种混合方法被用于每个情绪激活度级别,以准确评估情绪状态。具体来说,情绪可以在第一阶段被粗糙地划分为较为广泛的不同情绪类别。在第一阶段构建了三种不同配置的情绪分类系统,并根据激活维度将语音情绪分为3 种激活状态:高激活水平状态、低激活水平状态和中性激活水平状态。高激活情绪包括愤怒、快乐、恐惧和厌恶,而低激活情绪包括无聊和悲伤。第一阶段的情绪分类框架如图2所示。

图2 基于激活度的情绪分类框架

在第二阶段,每个广泛的情感类可以进一步分类为最终的离散状态。根据效价维度,情绪分为3个状态:正价态,负价态和中性态,如图3 所示。然后,在第二个阶段,负价态情绪分为5 种情绪类别:愤怒、无聊、厌恶、恐惧和悲伤。

图3 基于效价维度的情绪分类框架

5 实验分析

5.1 语料库的选择

本研究中选择的英语语言句子进行实验分析主要来自两个方面。首先,所选择的陈述不能包含情感倾向的特定方面;其次,所选择的陈述必须包含高度的情绪自由,因为同样的陈述可以发挥各种各样的情绪。而且,在声音的长度、辅音和辅助成分的组成方面,应考虑男女之间的所有差异。根据上述原则,选择了60 个情感分析句子。愤怒、无聊、厌恶、恐惧、喜悦、伤心和中性被认为是计算机情感分析研究的合理分类,本研究把所有语音情感尽可能归入这七类情绪。为了获得原始的语音数据,来自5 位男学生和5 为女学生用愤怒、无聊、厌恶、恐惧、喜悦、伤心和中性情绪读出60 条实验语句。同时要求学生尽可能平静地、不带有任何附加情感地重复5 次读出每一个句子。通过上述过程收集3000 个语言句子进行实验。为了检验收集的情绪实验语音数据的有效性,研究人员进行了试听实验。要求与上述10 位不同的5 位老师坐在电脑终端前,随机地收集各种情绪的陈述。然后老师通过主观评价来判断语音的情感类型。经过反复的聆听和比较,具有不明显的情感特征的语句被删除和重录。形成的实验语料库特性如表1所示。表1中N、L分别表示语句的数量和长度(以s为单位)。

表1 实验用语料库的特性

语音情绪识别系统的采样率为16 kHz,分辨率为16 位。在分类实验的3000 个语句中,2000 个句子进行训练,1000个句子进行识别实验。

5.2 结合GMM/SVM的多阶段分类结果

第一阶段基于激活度的分类结果如表2 所示。在激活度分类中,算法区分了3 种激活度水平,基于实验语料库的平均识别准确率为85.82%。

表2 激活度水平分类

由表2 中数据可得出结论,高激活度的言语的识别正确率比低激活度和中性激活度的言语更高。基于激活度的情绪分类结果如表3所示。

表3 基于激活度的情绪分类

第二阶段基于效价的语句中正面、负面和中性水平分类的结果如表4所示。

表4 效价分类结果

由表4 可知,效价分类的平均准确率为74.42%。基于实验语料库的第二阶段的基于效价分类的情绪识别结果如表5所示。

表5 基于效价分类的情绪分类

对比两个阶段的情绪识别的结果和基于人工的情绪识别结果如表6所示。

表6 不同情绪识别方法的对比

由表6 的数据可知,混合GMM 和SVM 的分阶段的情绪分类整体识别准确率为81.21%。通过对表6 的数据进行比较表明,在实验语料库中,愤怒、厌恶和悲伤情绪的识别准确率较高。其中,基于GMM/SVM的厌恶和悲伤的情绪识别能力甚至比基于人工的识别准确性更好。

6 结语

本文提出一种基于GMM 和SVM 的多阶段的英语语言情绪识别算法。该算法通过定义了两个阶段的识别算法对英语语言的情绪效价和激活度的识别分类进行研究。通过实验表明,该算法具有较好的情绪整体识别正确率,且激活度的识别正确率要比情绪效价的要好。

在本文的研究中存在以下问题。首先基于激活度和效价两个维度的情绪空间模型并未获得一致性的认可,因此需要对情感空间的维度分布进行深入研究,利用更加合理的数学模型对情感空间中各种情绪之间关系加以描述。其次实验用的语料库的所覆盖的情绪有限,因此需要未来通过更多的情绪语料库对实验算法进行验证。

猜你喜欢
效价语料库语音
O型血孕妇血清IgG抗A(B)抗体效价预测新生儿溶血病价值
词汇具体性对情绪名词效价加工影响的ERP研究*
基于语料库的清末民初日源外来词汉化研究
深圳地区10~40周岁健康人群血清抗A(B)IgG抗体效价参考区间的建立与应用分析
《语料库翻译文体学》评介
魔力语音
基于MATLAB的语音信号处理
基于MQ3与MP3的价廉物美的酒驾语音提醒器
对方正在输入……
语篇元功能的语料库支撑范式介入