胡明 崔冉 郭健鹏 吴静然 翟晓东
摘要:语音信号包含了人类丰富的情感信息,本文从离散情感模型出发,选择了高兴、悲伤、愤怒和害怕4种基本情感作为研究对象,利用萤火虫算法实现了支持向量机参数自动寻优,从而提高了识别的效率。为了使测试数据更据代表性,选取了中文和德文数两种据库,400个样本进行训练和测试。实验表明,对SVM分類器进行优化在一定程度上提高了情感识别率。
关键词:语音信号;萤火虫算法;改进的支持向量机;情感识别
中图分类号:TP18 文献标识码:A 文章编号:1007-9416(2019)06-0109-02
0 前言
机器情感这一研究领域从提出概念伊始,就伴随着伦理道德的疑虑。而随着人工智能技术的发展,如何设计并实现一个具有情感识别的智能机器人显得尤为重要了。而其关键技术就是研究情感识别核心算法,不断提高识别的速度和准确率。
目前情感识别研究领域中,最主要的途径就是通过对人的生理信息,例如声音信号、脉搏信号、脑电信号、面部表情、身体形态等一种信号分析或多种信号的多模分析,利用识别技术进行训练学习和类型识别判断。本文主要通过对语音信号的拾取、预处理、特征提取和类型识别,达到情感识别的目的,这一过程的核心是类型识别,也是近几年研究最多、成果最丰富的环节。本文利用改进的支持向量开展语音信号情感识别的研究,研究思路如图1所示。
1 语音情感的分类
人类的情感是一个复杂的系统,属于心理学范畴,目前尚无一个统一的、标准的定义。人类的情感是人类对不同物理、事件体现出的反映,再通过人的语音、表情、动作、生理信号等各种外在的方式表达出来。各个国家心理专家、情感识别专家对情感有不同的分类依据和方法,主要有离散情感模型和纬度情感模型。离散情感模型,将人类的情感分为基本情感和复杂情感,且复杂情感是有基本情感的有机组合产生的,因此研究基本情感就显得尤为重要了。不同的心理学家将人类的基本情感进行了不同的分类,有的分为高兴和悲伤两种,而其它各种情感均是这两种情感的不同比例组合而成。而有的专家则将人的基本情感分为3-9种更加细腻的情感。纬度情感模型,则认为人的感情是连续的,不是离散的,主要有二纬度情感模型和三维度情感模型,每个纬度分为正向积极方向和反向消极方向。本文主要从离散情感模型出发,重点研究公认的几种基本情感:高兴、悲伤、愤怒和害怕。
2 语音情感的数据库样本选取
语音情感的数据库是分析识别语音情感的前提。因为语言、方言、性别等因素不同,目前尚无公认的、统一的、标准语音数据库库。为了验证改进型支持向量机的准确率,本文选取两种语言的语音情感数据库:EMO-DB数据库和CASIA数据库[1]。
2.1 CASIA数据库
CASIA数据库是一个中文情感数据库,该数据库由中国科学院录制,分别录制了4名人员在6类不同情感(快乐、中性、愤怒、悲伤、害怕、惊讶)下的声音,采样频率16KHz,16位AD采集量化,每种感情保留200句。根据本文设计需要,选取其中高兴(原数据库中的快乐)、悲伤、愤怒和害怕4类数据进行训练和测试,每类选取50句,如表1所示。
2.2 EMO-DB数据库
EMO-DB数据库是一个德语情感数据库,该数据库由柏林工业大学建立,是目前国际上相对标准和认可的数据库,分别录制了10名专业演员在7类不同情感(快乐、中性、愤怒、悲伤、恐惧、无聊、厌恶),共计录制800句,最终保留535句。根据本文设计需要,选取其中高兴(原数据库中的快乐)、悲伤、愤怒和害怕(原数据库中的恐惧)4类数据进行训练和测试,每类选取50句,如表2所示。
3 语音信号的预处理
语音信号具有随着时间变化而变化的特性,而且是不稳定的,因此需要对语音信号进行预处理,从而去除干扰,获得高质量的信号[2]。语音信号的预处理过程如图2所示。
考虑到小波变换处理语音信号时存在一定的局限性,本文采取了近期较为常用、不需要事先选定基函数的EMD算法对语音信号进行预处理,取得了较好的效果。
4 语音信号情感特征参数的提取
语音信号中的情感特征参数是其能表达感情的关键,包含了韵律特征、音质特征、基于谱的相关特征[2]。其中,韵律特征参数主要有语速、基因频率及短时能量,而音质特征参数主要有共振峰、声门参数,基于谱的相关特征参数主要有线性谱特征和倒谱特征。我们主要研究了梅尔频率倒谱系数(MFCC),基音周期,共振峰参数,短时过零率,短时能量,能量抖动参数,时域及频域能量,平均功率,语速等参数,并通过对这些参数的分析,分别计算了它们的统计学特征,包括平均值、中位值、标准差、最小值、最大值、方差、变化率、一阶差分等。
5 改进的支持向量机算法对语音信号情感的分类识别
5.1 萤火虫算法优化支持向量机参数
萤火虫算法(Firefly Algorithm,FA)是由Xin-she Yang教授于2008年提出的一种十分新颖的生物群智能优化算法,算法的灵感来源于对萤火虫群体行为的简化和模拟,一经提出就吸引了国内外大量学者的关注,是优化算法研究领域的热点之一[3]。本文选取FA算法对SVM的关键参数进行优化,建立FA-SVM模型[4],主要流程如图3所示。
5.2 情感分类结果分析
本文将从EMO-DB数据库和CASIA数据库中选取关于高兴、愤怒、悲伤、害怕等四类情感各50个,合计400个数据分别在SVM和FA-SVM模型中训练和测试,识别结果统计如表3所示。
通过对表3的横向和纵向进行分析,可以得出,经过改进的支持向量机FA-SVM针对语音信号的情感识别率,比未经过优化的支持向量机的识别率有明显的改善,尤其是愤怒的识别最高,提高了11.1%,而高兴、 悲伤、害怕分别有4.1%、7.6%、5.6%的效果改善。
参考文献
[1] 王艳,胡维平.基于BP特征选择的语音情感识别[J].微电子学与计算机,2019,36(5):14-18.
[2] 李晓琴.基于支持向量机的语音情感识别[D].吉林:哈尔滨理工大学,2018.
[3] 臧睿,李晶.基于维度加权的改进萤火虫算法[J].计算机科学,2017,44(6A):123-125.
[4] 曾建梅.改进的支持向量机用于脉搏信号的情感识别研究[D].吉林:重庆理工大学,2016.