基于模糊K近邻的语音情感识别

2016-12-27 16:13吕志浩马赫鲁润南
科技传播 2016年19期
关键词:特征提取

吕志浩+马赫+鲁润南

摘 要 随着计算机技术的不断发展,语音情感识别成为人工智能领域的研究热点。语音情感识别包括语音信号预处理、特征参数提取和情感识别分类器等。本文着重对语音情感的特征提取方法与特征计算的分类进行研究,采用对情感语音进行预处理,包括抗混叠滤波、预加重、加窗以及端点检测等,对高兴、愤怒和悲伤3种语音情感提取短时能量、过零率、短时幅度以及MFCC等参数,根据柏林情感语音库中的90句情感语音,使用模糊K近邻算法对语音的3种情感进行识别。

关键词 语音情感;特征提取;模糊K近邻算法

中图分类号 TP3 文献标识码 A 文章编号 1674-6708(2016)172-0279-02

K近邻算法运用统计学的方式,即“物以类聚”的简便方式将待测样本与训练样本中K个距离权重最近的类别分为一种类别[ 1 ]。这种方式简单快捷,易于实施,但也存在相应不足之处,譬如,需要计算所有待测样本进入决策,存在一定决策风险与冗余度大的缺点,为突破以往的K近邻算法的瓶颈,下面提出一种基于模糊集理论K近邻算法进行整改,并通过Matlab 2014软件进行实验仿真的方式验证其在语音情感特征提取的作用。

1 K近邻分类算法以及模糊集理论

1.1 K近邻分类算法

K近邻(K-Nearest Neighbor, KNN)算法基本原理较为简便[ 2 ],即在一个多维度空间内Rn内,计算待测样本中的矩阵数据x,依次与该空间内的其他已训练好的样本数据求距离,而后选取数值K个样本点,各不同训练样本比较距离值的大小,则待测样本的类别就被分类在距离值最多的那一类中来。

5)然后再利用FKNN进行识别分类。

2 基于FKNN 的语音情感识别实验

首先介绍一下实验环境:笔记本电脑4G/2G,Windows7系统/Matlab2014,所选语音数据库为柏林语音情感库(16kHz 16Bit量化的单声道wav格式)。各分为3类语句:高兴、悲伤、愤怒各30段不同语句的语音段。实验选取3种情感分类(高兴、悲伤、愤怒),分别对3种感情进行短时特征参数的提取。

2.1 实验过程

该实验的特征参数提取大致流为:读取语音文件,通过加汉明窗分帧,计算短时能量、幅度、过零率。使用Matlab 2014对样本语音进行特征提取并记录相关统计结果进行分析,而后对每一样本进行训练,提取其参数结果。

2.2 实验结果分析

实验对比了未改进的KNN算法与改进后的FKNN算法分别采用两种实验,其中K的取值不同。具体结果如图1所示。

3 结论

通过图表分析可得通过改进后的算法对语音情感的提取更为准确,可以提到2个百分点。随着k值得增大,识别的效果越好,当然所需时间也增加。整个识别过程中不管是KNN还是FKNN对愤怒识别率都较其他情感高。总体来说,模糊K近邻算法在考虑到各参数对语音情感提取的权重不同进行合理了的“协调”使得实验结果更加令人满意。

参考文献

[1]王吉林,夏菽兰,赵力.基于模糊K近邻的模糊支持向量机的语音情感识别[J].微电子学与计算机,2014(4).

[2]Hui Wang.Nearest neighbors by neighborhood counting. Pattern Analysis and Machine Intelligence, IEEE Transactions on .2006.

[3]韩文静,李海峰,阮华斌,等.语音情感识别研究进展综述[J].软件学报,2014,25(1):37-50.

[4]金鑫.浅谈情感模型及建模方法研究[J].科技创新与生产力,2015(11):55-56.

猜你喜欢
特征提取
基于Gazebo仿真环境的ORB特征提取与比对的研究
基于Daubechies(dbN)的飞行器音频特征提取
Bagging RCSP脑电特征提取算法
一种基于LBP 特征提取和稀疏表示的肝病识别算法
基于DSP的直线特征提取算法
基于改进WLD的纹理特征提取方法
噪声环境下滚动轴承故障特征提取
浅析零件图像的特征提取和识别方法
基于CATIA的橡皮囊成形零件的特征提取
基于MED和循环域解调的多故障特征提取