基于核主分量分析和典型相关分析的语音情感识别

2014-07-25 04:29卞金洪王吉林余威风
数据采集与处理 2014年2期
关键词:识别率矢量语音

卞金洪 王吉林 余威风 赵 力

(1.盐城工学院信息工程学院,盐城,224051;2.东南大学信息科学与工程学院,南京,210096)

引 言

通过语音传递信息是人类最重要的信息交换的方式。语音信号不仅有传递语义的作用,而且承载着说话人个性特征以及态度、情感等诸多信息。包含在语音信号中的情感是一种很重要的信息资源,随着计算机多媒体技术的发展,拟人的人机交互越来越受到人们的重视,因此,语音情感识别引起了广泛的关注[1-6],通过计算机处理分析判断说话人的情感也成为一个重要的研究课题。然而由于情感信息的社会性、文化性,以及语音信号自身的复杂性,语音情感识别尚有许多问题有待解决,如情感建模、特征的分析和选择、识别方法的改进等[1-3]。

虽然关于语音情感的研究已经越来越被重视,但相关的研究成果还是比较少,且主要集中在语音情感特征分析和情感语音合成等方面。在情感特征的识别方面,利用重回归分析、主元素分析等多变量解析方法取得了87.1%以上的平均识别率[2-3],利用神经网络技术进行情感识别的研究也在进行,但由于情感特征学习收敛性存在问题,并没有得到好的结果[4]。近年来,又出现了许多语音情感识别方面的成果和方法,如主元分析法、最大似然Bayes分类器和K最近邻分类器、人工神经元 网 络[4-5]、隐 马 尔 科 夫 模 型[6-7]、支 持 向 量 机[8-9]等。

核主分量分析(Kernel principal component analysis,KPCA)是一种利用核方法将主分量分析(PCA)推广后的学习方法,它能够使得输入空间线性不可分的样本在特征空间有更好的可分性。典型相关分析(Canonical correlation analysis,CCA)等价于最优化的Fisher鉴别分析,它是分析两组随机变量之间相关性的一种较好的统计方法。本文针对生气、欢快、中性和悲伤4种情感的语音信号,提取111个全局统计特征参数,提出了基于KPCA和KPCA+CCA的语音情感的识别方法。通过对实验结果进行比较分析,结果表明基于KPCA及KPCA+CCA的语音情感识别具有较好的识别效果。

1 语音情感特征的提取

1.1 语音情感数据库的选取

情感语音数据库的选取是进行语音识别研究的前提,根据数据获取途径,目前国际上语音情感研究人员所用的数据按照获取途径大致可分为4类[9-10]:表演数据、激励数据、启发数据和摘引数据。本文选取的语音库为免费的柏林情感语音库,其采样频率为16kHz,16bit量化。该语音库共有500句情感语音信号,分别由10名专业演员(5男,5女)在不同情感状态下(高兴、愤怒、平静、悲伤、害怕、厌烦、憎恨)朗读10句不同文本的德语组成。本实验选取其中的部分情感(生气、欢快、中性和悲伤)进行实验。

1.2 语音情感特征提取

选取语音的特征对语音识别有着很大的影响,在过去的几十年里,针对语音信号中的何种特征能有效地体现情感,研究者从心理学、声学、语言学和语义等角度出发,作了大量的研究。目前主要分为韵律特征,情感识别所采用的特征大多是韵律特征,如基音、强度、持续时间;音质特征,如共振峰、MFCC、LPCC等,韵律特征和音质特征并不是相互孤立的[11]。根据情感的三维模型:“激励维(A-rousal)- 效价维(Valence)—控制维(Power)”,Tato等人指出[12],情感特征的提取不仅要考虑韵律特征参数,而且要考虑语音的音质特征参数。本文综合采用语音的韵律和音质特征,用于识别和建模的特征向量一般有两种构造方法,全局统计特征和动态特征。由于动态特征对音位信息的依赖性太强[10],不利于建立与文本无关的情感识别系统,因此在本文中使用了111个全局统计特征,如下所示:

特征1~30:短时能量、短时幅度、短时过零率以及它们一阶差分的均值、最大值、最小值、中值、方差。

特征31~46:基音及其一阶、二阶差分的均值、最大值、最小值、中值、方差,基音范围。

特征47~61:第一共振峰及其一阶差分,第二共振峰的均值、最大值、最小值、中值、方差。

特征62~111:MFCC倒谱系数,差量倒谱系数的均值和方差。

2 基于核子空间分析的语音情感识别

2.1 核主分量分析

核方法由统计理论中得来,提供了一种从线性学习获得相应非线性学习算法的途径。该算法的思想为利用一非线性映射,把原空间语音信号的特征数据Rd映射到一隐特征空间F中:Φ:Rd→F,x→Φ(x)在核的特征空间进行通常的线性分析,在计算上,不需要知道具体的非线性变换函数Φ,核方法的特点就是利用核函数取代特征空间的内积运算。

常用的核函数有多项式核函数、径向基核函数、Sigmoid核函数和复合核函数等,多项式核函数的形式为

本文选择了2阶的多项式核函数,一是因为多项式核函数比较简单,容易实现;二是与其他核函数相比识别效果相差不大。根据主分量分析的原理,求解在隐特征空间F的主元,等于求解如下特征值与特征向量的问题

式中SΦ为非线性映射后的协方差矩阵。最后,原空间的数据x在wΦ上的投影为

与PCA类似,基于KPCA的情感识别同样是将语音情感在特征向量进行投影,根据投影矢量间的距离进行分类。

2.2 典型相关分析(CCA)及KPCA+CCA方法

Fisher线性鉴别分析(Fisher linear discriminant analysis,FLDA)求解最佳鉴别矢量,使得降维后样本特征类间散度最大且类内散度最小,设有C个类,第i个类有ni个样本,第i个类的第m个样本记为xim,类间散度阵Sb,类内散度阵Sw和总散度阵St定义为

定义Fisher准则

求解最佳鉴别矢量a的问题等价于求解如下广义特征方程的特征值问题

将所有的鉴别矢量ak构成变换矩阵W=[a1,a2,…,aC-1],对原样本变换可得到低维的特征矢量y,y=WTx。但当Sw为奇异阵时,无法求解式(9),可以考虑用典型相关分析转换问题。

典型相关分析是分析两组随机变量的统计分析方法,其目的是寻找两组随机变量使得各自的线性组合,现实组合使得两个随机变量的相关性最大。设有两组均值为零的随机变量x=(c1,c2,…,ck)T和y=(d1,d2,…,dl)T,CCA 寻求矢量a1和b1使得u1=xTa1和v1=yTb1的相关系数r(u1,v1)最大,并满足var(u1)=var(v1)=1;寻找所有的矢量ai和bi使得r(ui,vi)最大,并满足条件var(ui)=var(vi)=1和cov(ui,uj)=cov(vi,vj)=0,i≠j,利用矢量对和相关系数可分析一组变量中的某些随机变量和另一组变量的某些随机关系。求解矢量a和b相当于如下

式(12)为构造的编码矩阵Y与样本矩阵X,利用该矩阵估计协方差矩阵Sx,Sy,Sxy

(1)对n个情感特征的训练样本进行KPCA,得到核主分量特征;

(2)利用核主分量特征和式(12)构成矩阵XKPCA和Y;

(3)利用式(13)估计协方差矩阵Sx,Sy,Sxy;

(5)对待识别的样本y得到yKPCA,并抽取最佳鉴别特征得到yCCA=yKPCAA,利用最近邻作为归类,用2范数作为距离测度。

3 语音情感识别实验与分析

本文将用基于以下的三种分类器训练方法用于语音情感识别:(1)PCA (2)KPCA (3)KPCA+CCA。针对生气、欢快、中性和悲伤4种情感,所有的识别方法用矢量的2范数作为距离测度,Fisher鉴别信息定义如式(14),其中μk,i和σ2k,i分别是第i类样本在第k个分量上的均值和方差,本文提出一个改进方法是在计算距离时可以用该公式按重要性加入加权系数,用K-近邻法作为归类的标准。

图1 语音情感识别结果Fig.1 Results of speech emotion recognition

由图1可以得到以下结论:(1)KPCA方法比PCA的效果要好,这是因为核方法能够使低维空间的不可分的特征映射到高维空间后变得可分;(2)KPCA+CCA方法测试结果效果较好,主要原因是因为主分量分析的思想是使得重构后样本的误差最小,而KPCA+CCA主要是实现分类最佳;(3)在样本较少的情况下,KPCA+CCA并没有优势,在样本较多的情况下,KPCA+CCA效果较好,主要原因还是由于样本数少分类不够准确;(4)以上的所有算法中,最高的识别率也不超过80%,这与情感特征的选取有很大的关系,要想获得更佳的识别效果,还需要改进。4种情感的最高识别率如表1所示。

表1 平均识别率达到最高时4种情感的识别率Table 1 The highest average recognition rate of four emotions

从表1可以看出,3种方法对不同的情感的识别率还是有差别的,总体上来说“悲”的识别率较高,最多能够达到100%,而其他的情感的识别率不太高,主要可能还是由于情感特征的选取存在不足,从表1依然可以看出KPCA+CCA方法相比于其他的方法有较好的效果。

图2为3种方法对相同的5类每类15个语音训练样本,抽取两个最佳鉴别特征的散度图,最佳鉴别特征按照式(4)计算,记为特征1和特征2,图中不同符号代表不同的情感类别。由图2可以看出,KPCA的最佳二维特征可分性比PCA效果要好,达到较好的聚类效果,并且经过CCA变换后,训练样本的特征变得更好区分。可以看到经过KPCA+CCA变换后,样本的特征都集中到同一个点,类与类之间分离,同类完全重合于一点,达到了最理想的效果,然而在识别阶段,待识别的样本的二维特征并不是全部集中在这些点上,所以其识别率并不能达到100%。

图2 每类训练样本数为15时最佳二维特征的分布Fig.2 Distribution of the best two-dimensional feature when the number of training samples in each class is 15

4 结束语

本文利用3种子空间分析方法对4种语音情感进行了识别。通过对比实验,表明了基于核空间的识别具有更好的识别效果,证明了本文所提出的KPCA+CCA方法的有效性。对3种方法的对比实验同时表明,训练样本多少与识别结果有很大的关系。另一方面,本文的识别率还不够高,一是情感特征的选取问题,二是训练样本的特征矢量个数的选取问题;而且本文识别的样本数也偏少,对中性情感还没有比较好的识别结果。在今后的研究中,要寻找更好的语音特征参数和选择更恰当的识别方法,进行样本更加丰富的语音情感识别实验。

[1]Cowie R,Douglas-Cowie E,Tsapatsoulis N,et al.Emotion recognition in human-computer interaction[J].IEEE Signal Processing Magazine,2001,18(1):32-80.

[2]Scherer K R.Vocal communication of emotion:A review of research paradigms[J].Speech Communication,2003,40:227-256.

[3]金学成.基于语音信号的情感识别研究[D].合肥:中国科学技术大学,2007.

[4]Li Wu ,Zhang Yanhui,Fu Yingzi.Speech emotion recognition in e-learning system based on affective computing[C]∥ Proc of the 3rd International Conference on Natural Computation.Washington DC :IEEE Computer Society,2007:809-813.

[5]Stibbard R M.Vocal expression of emotions in nonlaboratory speech:An investigation of the reading/leeds emotion in speech porject annotation data[D].UK:University of the Reading,2001.

[6]Nwe T L,Foo S W ,Silva L C D.Speech emotion recognition using hidden Markov models[J].Speech Communication,2003,41(4):603-623.

[7]张石清,赵知劲,戴育良,等.支持向量机应用于语音情感识别的研究[J].声学学报,2008,27(1):87-90.

Zhang Shiqing,Zhao Zhijin,Dai Yuliang,et al.A study of support vector machine for speech emotion recognition[J].Technical Acoustics,2008,27(1):87-90.

[8]Picard R W.Toward computers that recognize and respond to user emotion[J].IBM Technical Journal,2000,38(2):705-719.

[9]Zhiping Wang,Li Zhao,Cairong Zou.Support vec-tor machines for emotion recognition in Chinese speech[J].Journal of Southeast University,2003,19(4):307-310.

[10]赵力,将春辉,邹采荣,等.语音信号中的情感特征分析和识别的研究[J].电子学报,2004,32(4):606-609.

Zhao Li,Jiang Chunhui,Zou Cairong,et al.A study on emotional feature analysis and recognition in speech[J].Acta Electronica Sinica,2004,32(4):606-609.

[11]Ohala J J.Ethological theory and the expression of emotion in the voice[C]∥International Conference on Spoken Language Processing.Philadelphia,USA:[s.n.],1996:1812-1815.

[12]Tato R,Santos R,Kompe R,et al.Emotion space improves emotion recognition[C]∥ Proc IC SLP 2002.Denver,Colorado:[s.n.],2002:2029-2032.

猜你喜欢
识别率矢量语音
矢量三角形法的应用
基于类图像处理与向量化的大数据脚本攻击智能检测
魔力语音
基于MATLAB的语音信号处理
基于真耳分析的助听器配戴者言语可懂度指数与言语识别率的关系
基于MQ3与MP3的价廉物美的酒驾语音提醒器
对方正在输入……
提升高速公路MTC二次抓拍车牌识别率方案研究
高速公路机电日常维护中车牌识别率分析系统的应用
基于矢量最优估计的稳健测向方法