基于改进型支持向量机的语音信号情感识别研究

2019-09-25 13:22胡明崔冉郭健鹏吴静然翟晓东

数字技术与应用 2019年6期

胡明　崔冉　郭健鹏　吴静然　翟晓东

摘要：语音信号包含了人类丰富的情感信息，本文从离散情感模型出发，选择了高兴、悲伤、愤怒和害怕4种基本情感作为研究对象，利用萤火虫算法实现了支持向量机参数自动寻优，从而提高了识别的效率。为了使测试数据更据代表性，选取了中文和德文数两种据库，400个样本进行训练和测试。实验表明，对SVM分類器进行优化在一定程度上提高了情感识别率。

关键词：语音信号;萤火虫算法;改进的支持向量机;情感识别

中图分类号：TP18 文献标识码：A 文章编号：1007-9416（2019）06-0109-02

0 前言

机器情感这一研究领域从提出概念伊始，就伴随着伦理道德的疑虑。而随着人工智能技术的发展，如何设计并实现一个具有情感识别的智能机器人显得尤为重要了。而其关键技术就是研究情感识别核心算法，不断提高识别的速度和准确率。

目前情感识别研究领域中，最主要的途径就是通过对人的生理信息，例如声音信号、脉搏信号、脑电信号、面部表情、身体形态等一种信号分析或多种信号的多模分析，利用识别技术进行训练学习和类型识别判断。本文主要通过对语音信号的拾取、预处理、特征提取和类型识别，达到情感识别的目的，这一过程的核心是类型识别，也是近几年研究最多、成果最丰富的环节。本文利用改进的支持向量开展语音信号情感识别的研究，研究思路如图1所示。

1 语音情感的分类

人类的情感是一个复杂的系统，属于心理学范畴，目前尚无一个统一的、标准的定义。人类的情感是人类对不同物理、事件体现出的反映，再通过人的语音、表情、动作、生理信号等各种外在的方式表达出来。各个国家心理专家、情感识别专家对情感有不同的分类依据和方法，主要有离散情感模型和纬度情感模型。离散情感模型，将人类的情感分为基本情感和复杂情感，且复杂情感是有基本情感的有机组合产生的，因此研究基本情感就显得尤为重要了。不同的心理学家将人类的基本情感进行了不同的分类，有的分为高兴和悲伤两种，而其它各种情感均是这两种情感的不同比例组合而成。而有的专家则将人的基本情感分为3-9种更加细腻的情感。纬度情感模型，则认为人的感情是连续的，不是离散的，主要有二纬度情感模型和三维度情感模型，每个纬度分为正向积极方向和反向消极方向。本文主要从离散情感模型出发，重点研究公认的几种基本情感：高兴、悲伤、愤怒和害怕。

2 语音情感的数据库样本选取

语音情感的数据库是分析识别语音情感的前提。因为语言、方言、性别等因素不同，目前尚无公认的、统一的、标准语音数据库库。为了验证改进型支持向量机的准确率，本文选取两种语言的语音情感数据库：EMO-DB数据库和CASIA数据库[1]。

2.1 CASIA数据库

CASIA数据库是一个中文情感数据库，该数据库由中国科学院录制，分别录制了4名人员在6类不同情感（快乐、中性、愤怒、悲伤、害怕、惊讶）下的声音，采样频率16KHz，16位AD采集量化，每种感情保留200句。根据本文设计需要，选取其中高兴（原数据库中的快乐）、悲伤、愤怒和害怕4类数据进行训练和测试，每类选取50句，如表1所示。

2.2 EMO-DB数据库

EMO-DB数据库是一个德语情感数据库，该数据库由柏林工业大学建立，是目前国际上相对标准和认可的数据库，分别录制了10名专业演员在7类不同情感（快乐、中性、愤怒、悲伤、恐惧、无聊、厌恶），共计录制800句，最终保留535句。根据本文设计需要，选取其中高兴（原数据库中的快乐）、悲伤、愤怒和害怕（原数据库中的恐惧）4类数据进行训练和测试，每类选取50句，如表2所示。

3 语音信号的预处理

语音信号具有随着时间变化而变化的特性，而且是不稳定的，因此需要对语音信号进行预处理，从而去除干扰，获得高质量的信号[2]。语音信号的预处理过程如图2所示。

考虑到小波变换处理语音信号时存在一定的局限性，本文采取了近期较为常用、不需要事先选定基函数的EMD算法对语音信号进行预处理，取得了较好的效果。

4 语音信号情感特征参数的提取

语音信号中的情感特征参数是其能表达感情的关键，包含了韵律特征、音质特征、基于谱的相关特征[2]。其中，韵律特征参数主要有语速、基因频率及短时能量，而音质特征参数主要有共振峰、声门参数，基于谱的相关特征参数主要有线性谱特征和倒谱特征。我们主要研究了梅尔频率倒谱系数（MFCC），基音周期，共振峰参数，短时过零率，短时能量，能量抖动参数，时域及频域能量，平均功率，语速等参数，并通过对这些参数的分析，分别计算了它们的统计学特征，包括平均值、中位值、标准差、最小值、最大值、方差、变化率、一阶差分等。

5 改进的支持向量机算法对语音信号情感的分类识别

5.1 萤火虫算法优化支持向量机参数

萤火虫算法（Firefly Algorithm，FA）是由Xin-she Yang教授于2008年提出的一种十分新颖的生物群智能优化算法，算法的灵感来源于对萤火虫群体行为的简化和模拟，一经提出就吸引了国内外大量学者的关注，是优化算法研究领域的热点之一[3]。本文选取FA算法对SVM的关键参数进行优化，建立FA-SVM模型[4]，主要流程如图3所示。

5.2 情感分类结果分析

本文将从EMO-DB数据库和CASIA数据库中选取关于高兴、愤怒、悲伤、害怕等四类情感各50个，合计400个数据分别在SVM和FA-SVM模型中训练和测试，识别结果统计如表3所示。

通过对表3的横向和纵向进行分析，可以得出，经过改进的支持向量机FA-SVM针对语音信号的情感识别率，比未经过优化的支持向量机的识别率有明显的改善，尤其是愤怒的识别最高，提高了11.1%，而高兴、悲伤、害怕分别有4.1%、7.6%、5.6%的效果改善。

参考文献

[1] 王艳，胡维平.基于BP特征选择的语音情感识别[J].微电子学与计算机，2019，36（5）：14-18.

[2] 李晓琴.基于支持向量机的语音情感识别[D].吉林：哈尔滨理工大学，2018.

[3] 臧睿，李晶.基于维度加权的改进萤火虫算法[J].计算机科学，2017，44（6A）：123-125.

[4] 曾建梅.改进的支持向量机用于脉搏信号的情感识别研究[D].吉林：重庆理工大学，2016.

数字技术与应用2019年6期

数字技术与应用的其它文章: 工业传感器智能检测设备; 无人直升机着陆过程边界保护控制技术研究; 基于V2V通信的列车控制系统研究; 工厂电气自动控制中智能化技术的应用; 基于机器人的新型机床上下料设备; Superpave旋转压实仪的控制设计及稳压控制策略研究