基于模糊认知图的语音情感识别研究

2017-09-04 14:09张卫张雪英孙颖
现代电子技术 2017年15期

张卫+张雪英+孙颖

摘 要: 利用模糊认知图构建一种新的情感语音识别网络,该网络将权值矩阵分为两部分:一部分是特征与情感类别之间的权值,使用实数编码遗传算法学习;另一部分是情感类别与类别之间的权值,使用PAD三维情感模型学习。从数学和心理学两方面对模糊认知图的权值进行学习。针对国际公认的柏林情感语音库(EMO?DB)以及本实验室录制的情感语音库(TYUT)进行仿真实验,验证了方法的有效性,并与BP神经网络进行对比,实验结果表明该方法有较高的识别率。

关键词: 模糊认知图; 实数编码遗传算法; PAD; 语音情感识别

中图分类号: TN911.7?34; TP391.4 文献标识码: A 文章编号: 1004?373X(2017)15?0025?04

Abstract: The fuzzy cognitive maps (FCM) is used to construct a new speech emotion recognition network. The weight matrix is divided into two parts in the network. One is the weight between the characteristic and emotional classification, and learned with real?coded genetic algorithm (RCGA). The other is the weight between the emotional categories, and learned with the PAD three?dimensional emotion model. The weights of FCM are learned in the aspects of mathematics and psychology. The simulation experiments were carried out for the internationally recognized Berlin Emotional Speech Database (EMO?DB) and emotional speech database TYUT recorded in this laboratory to verify the effectiveness of the method. The effectiveness is compared with that of the BP neural network. The experimental results show that the method has high recognition rate.

Keywords: fuzzy cognitive map; real?coded genetic algorithm; PAD; speech emotion recognition

0 引 言

语音情感识别是从采集到的语音信号中提取表达情感的声学特征,并找出这些声学特征与人类情感的映射关系[1]。计算机的语音情感识别方法是计算机情感智能的重要部分,是实现自然人机交互的关键前提,具有很高的研究价值。用于语音情感识别的方法很多,比如,人工神经网络方法(ANN)[2]以及支持向量机(SVM)[3]等。这些模型都是基于数学和物理建模的分类方法,基本未涉及人类的认知过程。情感辨识作为一种认知过程,具有模糊性和复杂性,仅用信号处理的方法建模是不完善的。1986年,Kosko提出了模糊认知图(Fuzzy Cognitive Maps,FCM)[4],这种网络建立方便,表现问题直观,且通过有限次循环可终止于一个固定点或极限环,从而使网络达到稳定状态,并且在因果关系的描述上引入了模糊测度,使得FCM能够更自然、更直接地表达人类习惯的逻辑含义。FCM是通过更新概念节点状态值和概念间的因果关系来模拟系统动态行为。概念间的权值的学习算法尤为重要。PAD三维情感模型[5]是由Mehrabian提出用来测量情感的一个工具,它可以从心理学角度很好地反映人类情感的相互关系。本文利用FCM构建了一种新的语音情感识别网络,结合遗传算法和PAD情感模型提出一种新的权值学习方法。

1 模糊认知图

1.1 基本原理

FCM是模糊逻辑和神经网络相结合的产物。它使用概念描述系统的不同方面和它们的行为,通过相互作用的概念表示系统的动态性。由于它直观的表达能力和强大的推理能力以及与神经网络、图论等领域的密切联系,使得它的应用极为广泛,目前FCM已被用于心理学实验的情感预测[6]、软件发展项目建模[7]、图像肤色检测[8]、医学[9?10]等方面。

FCM是在认知图(Cognitive Maps,CM)中加入模糊推理机制得来的,是一种有向图。如图1所示。

图1描述了一个带有5个节点和9条带权弧的FCM。其中节点是概念,它可为系统的事件、目标、感情以及趋势等,用来反映系统的属性、特征、质量和状态。具有一定的状态值,状态值是[-1,1]区间上的模糊值,表示概念状态存在的程度。概念和之间的因果关系由值表示(即权值),有三种类型的因果关系:

模糊认知图概念之间的权的集合由矩阵表示,如图1所示的FCM的权矩阵为:

1.2 推理机制

FCM概念节点状态值的计算是通过式(3)得到的:

式中:为第次迭代;为概念节点在时刻的状态值;为概念节点在时刻的状态值;为在时刻对的关联权值;为激活函数,它可以是sigmoid函数,双曲正切函数或是线性阈值函数;为特征序列长度。

在系统中,最初由初始条件决定FCM中节点的类型、数量和权重。概念的值表示相应的物理值,分配好概念的值和权,FCM就能通过学习算法到达三种基本状态:固定平衡点、有限环和混沌状态。当模糊认知图到达一个固定平衡点或有限环时,系统达到稳定或平衡状态。

2 模糊认知图情感语音识别网络构造

2.1 网络结构

FCM是一个动态系统,通过更新节点间的状态值和节点间的因果关系即权值来模拟系统的动态行为。

FCM情感语音识别系统的流程图如图2所示,首先对情感语音信号预处理并提取特征;其次将情感语音信号分为训练样本和测试样本,训练样本通过一定的学习算法获得FCM分类模型的权值矩阵再将测试样本输入到FCM分类模型中,得到其所属类别。

构建的FCM情感语音识别网络模型见图3。与传统的FCM网络不同,FCM情感语音识别网络把节点分为输入节点和输出节点两类。情感语音特征对应输入节点,用表示。情感类别对应的是输出节点,用表示。FCM情感识别网络将充分考虑类节点之间、类节点与特征之间的因果关系及相互影响,形成一个权矩阵来模拟其分类动态行为。

图3描述的网络权值矩阵结构如下所示:

由图3及式(3)可知,基于FCM情感语音识别网络,在时刻的输出为:

即特征项的节点值不变,只是更新类别项的节点值。

根据构造的FCM情感语音识别网络,权值矩阵可分为两部分:特征与类别间的关系权值记为类别与类别间的权值记为。

则权值矩阵可简化为:

下面具体介绍关系权值的计算方法。

2.2 学习算法

2.2.1 关系权值的学习算法

获得FCM权值的学习方法分为两类:一类是由领域专家给出的经验值;另一类则是依据系统的历史数据自动学习得到。由于完全凭专家的经验值构建FCM模型存在诸多缺陷。所以近年来学者们开始研究如何从历史数据中学习FCM权值的方法。由于遗传算法的简单性和强大的搜索能力,2005年Pedrycz等人提出了一种实数编码遗传算法(Real?coded Genetic Algorithm,RCGA)学习FCM权值的方法[11]。在进行FCM权值学习之前首先需要由专家指出FCM系统中的初始值及概念节点数量和因果关系。

假定语音情感特征的维度为本文所选情感类别为三类,由式(4)的权值矩阵可定义RCGA中每一条染色体为:

式中表示到的关联权值。

FCM模型的误差计算公式为:

式中:是第条训练样例的节点在第次迭代后FCM模型的输出值;是第条训练样例的节点在第次迭代前FCM模型的输入值;是输入样本数;是迭代次数;是FCM模型的节点数。

式中参数是事先设定的正整数。该适应函数将数值标准化到(0,1]区间,适应性函数值越接近于1,表示系统模拟值与实际值误差越小。

2.2.2 关系权值的学习算法

从心理学角度来看,人类的情感是可以相互转变的,情感和情感之间存在一定的相互关系。由Mehrabian提出的PAD三维情感模型[4]是测量情感的一个工具。该模型认为情感具有愉悦度、激活度和优势度三个维度,其中P代表愉悦度(Pleasure?displeasure),表示个体情感状态的正负特性;A代表激活度(Arousal?nonarousal),表示个体的神经生理激活水平;D代表优势度(Dominance?submissiveness),表示个体对情景和他人的控制状态。研究表明,利用P,A,D三个维度可有效地解释人类的情感及其相互关系。

情感类别间的关系权值根据PAD三维模型中情感的值[12]来计算得到。以P,A,D作为情感空间的坐标轴,建立三维空间,如图4所示。利用空间距离的远近来映射类间的关系以确定情感类之间的权值。

利用欧式距离计算两两情感之间的距离:

式中:表示两点的空间距离;分别表示点在PAD三维空间的坐标。

这里两两情感间的关系权值通过式(11)确定,情感类别的距离越大,其相互影响关系越小。

3 情感识别实验及结果分析

3.1 语音情感数据库

本文所用的情感语音库包括两种:一是由本实验室录制的TYUT情感语音库;二是来源于柏林实验室的德语情感语音库EMO?DB[13]。

3.1.1 TYUT情感语音库

TYUT情感语音库由本实验室采用 CoolEdit Pro 2.0录制,采样率为11.025 kHz,单声道,量化精度为16 b,文件保存为标准wav格式,并使用不同的文件名对情感种类进行标识。包括高兴、生气和中立3种情感状态。该语音库由实验室中年龄在22岁~24岁之间的27名同学通过表演的方式录制完成,其中包括男生14名,女生13名,该语音库中的语音样本共11句,包括6句汉语和5句英文。采用主觀辨听实验对所有录制语句进行选择。最终选出883句语句,组成了TYUT情感语音库。

3.1.2 EMO?DB情感语音库

EMO?DB情感语音库由男、女专业演员各5名用德语发音录制得到。其中语句内容包含日常生活用语的5个短句和5个长句,共包括悲伤、厌恶、讨厌、害怕、高兴、生气、中立7种情感状态。具有较高的情感自由度,并且没有任何特定的情感倾向。录音完成后同样采用主观辨听实验对所有录制语句进行选择,最后经过辨听测试一共保留了535句。所有语句均采用16 kHz采样率,6 b量化精度,并以wav格式保存文件。

3.2 语音情感识别及结果分析

本文所选情感语音特征是前期工作中所提取的一种新语音情感特征[14]。TYUT情感语音库包含汉语和英语两种语种,各语种包含3种情感(高兴、生气、中立)。为了与TYUT语音库一致,同样从德语语音库中选取3种情感(高兴、生气、中立)。利用以上两个语音库验证本文所构建的FCM情感语音识别网络的可行性。各语音库中情感的识别结果如表1所示。

从表1可以看出,基于FCM情感分类模型对2个数据库语音情感都具有很好的区分性,3种不同语种的情感数据库的平均识别率都达到了70%以上,而且德语情感语音库的识别率为84.06%,由此可以证明此情感分类模型的可行性和有效性。

不同分类模型对情感语音库各情感的识别率如表2~表4所示。

从表2~表4中可以看到,所构建的FCM分类模型对于不同语种的情感数据库的各类情感的平均识别率都比BP网络的平均识别率有所提高,对于中文库来说,FCM平均识别率比BP提高了4.44%。英文语音库,平均识别率提高了5.55%。德语语音库识别结果最好,比BP网络提高18.84%。不同分类器对各情感语音库的平均识别率见图5。实验结果证明本文所构建的FCM分类模型可以用于情感语音分类并且得到了较高的识别率。

4 结 语

本文利用FCM构造了一个新情感语音识别网络,并用实数编码遗传算法和PAD情感理论学习FCM权值。选用TYUT和EMO?DB两种情感语音库,包括中文,英文,德语三种语言,将前期工作中提取的语音情感特征输入到FCM情感分类模型中进行验证,得到了很好的识别结果,与BP网络相比,平均识别率都有较大的提高,证明本文所构造的FCM情感语音识别模型能够很好地对情感进行分类。下一步工作就是尝试多类情感的识别,并进一步完善FCM情感语音识别网络。

参考文献

[1] VERVERIDIS D, KOTROPOULOS C. Emotional speech recognition: resources, features, and methods [J]. Speech communication, 2006, 48(9): 1162?1181.

[2] 石瑛,胡学钢.基于神经网络的语音情感识别[J].计算机工程与应用,2008,44(24):191?193.

[3] 张石清,赵知劲.支持向量机应用于语音情感识别的研究[J].声学技术,2008,27(1):87?95.

[4] KOSKO B. Fuzzy cognitive maps [J]. International journal of man?machine studies, 1986, 24(1): 65?75.

[5] MEHRABIAN A, RUSSELL J A. An approach to environmental psychology [M]. Cambridge: APA, 1974.

[6] SALMERON J L. Fuzzy cognitive maps for artificial emotions forecasting [J]. Applied soft computing, 2012, 12(12): 3704?3710.

[7] STACH W, KURGAN L. Modeling software development project using fuzzy cognitive maps [C]// Proceedings of the 4th ASERC Workshop on Quantitative and Soft Software Engineering. Banff: ASERC, 2004: 55?61.

[8] 熊霞,桑庆兵.基于模糊认知图的图像压缩域肤色检测方法[J].计算机工程,2012,38(5):208?210.

[9] DOUALI N, CSABA H, DE ROO J, et al. Diagnosis support system based on clinical guidelines: comparison between case?based fuzzy cognitive maps and Bayesian networks [J]. Computer methods and programs in biomedicine, 2014, 113(1): 133?143.

[10] N?POLES G, GRAU I, BELLO R, et al. Two?steps learning of fuzzy cognitive maps for prediction and knowledge discovery on the HIV?1 drug resistance [J]. Expert systems with applications, 2014, 41(3): 821?830.

[11] STACH W, KURGAN L, PEDRYCZ W, et a1. Genetic lear?ning of fuzzy cognitive maps [J]. Fuzzy sets and systems, 2005, 153(3): 371?401.

[12] 刘烨,陶霖密,傅小兰.基于情绪图片的PAD情感状态模型分析[J].中国图象图形学报2009,14(5):753?758.

[13] KGW. Berlin database of emotional speech [EB/OL]. [2012?05?01]. http://pascal.kgw.tu?berlin.de/emodb/index?1280.html.

[14] 张卫,张雪英,孙颖.基于HHT边际Teager能量谱的语音情感识别[C]//第十二届全国人机语音通讯学术会议(NCMMSC2013)论文集.贵阳:中国中文信息学会语音信息专业委员会,2013:187?191.