基于深度学习网络的语音情感识别方法研究*

2022-09-28 01:40董炳辰
计算机与数字工程 2022年8期
关键词:特征提取卷积准确率

董炳辰 汤 鲲

(1.武汉邮电科学研究院 武汉 430074)(2.南京烽火天地通信科技有限公司 南京 210019)

1 引言

近些年来,随着科技的不断进步、发展,人工智能成为了人们日常生活中至关重要的技术手段之一。语音方面,诸如阿里巴巴集团基于语音语义识别的客服系统等系统已经展现出语音人工智能的硬实力。为了促使人机交互和人工智能更好的发展,情感分析已经成为目前人工智能研究不可忽视的研究方向之一,而含有较多情感特征的语音情感方面的研究就显得尤为重要。

语音情感识别的过程一般分为语音信号预处理,语音情感特提取和情感分类三个部分,其中对于情感特征提取和情感分类方面的研究是在语音情感识别研究方向中主要提升准确率的技术手段,研究人员在此领域不断地探索尝试,取得了一定的进展。特征提取方面,文献[1]利用PCANet沿着从源域到目标域的路径提取特征;文献[2]提出相空间重构的情感语音特征提取;文献[3]也已经从特征融合角度尝试提升情感识别准确率。情感分类方面,深度学习网络表现较为优秀。文献[4]利用改进遗传算法优化BP 神经网络进行语音情感识别;文献[5]通过改进Elman 神经网络也对识别率的提升产生了积极作用;文献[6]则是通过SincNet的改进取得了较好的效果。

在取得较好效果的同时,也存在着一些问题:识别系统的鲁棒性不足是现阶段研究中的难点[7];在一些网络中准确率不高[8]等。针对上述准确率问题,结合一些网络的突出点,本文提出一种应用于语音情感识别的含有注意力机制的双向GRU 的CNN-RNN 网络,以提升深度学习网络在语音情感分类方面的准确率。通过对CASIA 中文语音情感数据集进行梅尔频率倒谱系数提取,再将所得结果在同等条件下,较CNN 网络提升11.84%,较CNN-GRU 网络提升7.2%,较无注意力机制的CNN-BiGRU 网络提升了3.84%。在一定程度上证明了BiGRU 是可以运用于语音情感识别并对提升准确率具有一定程度的积极作用。

2 特征提取和情感识别网络

2.1 特征提取

语音信号的特征提取是语音情感识别的重要一环,其作用是通过一定的技术手段从原始的语音音频信号提取出目标信息的特征数据,用以送入相应模型进行模型训练和语音情感分类。

图1 语音情感识别流程图

用于语音情感识别的声学特征大致可归纳为韵律学特征、基于谱的相关特征和音质特征三种[9]。韵律学特征是指诸如时长、基频、能量等的语音结构性表达特征;基于谱的相关特征是指诸如线性谱特征和倒谱特征等一系谱特征,此两类特征在现阶段的语音情感识别领域中被较为广泛的认可;音质特征是指用于衡量语音信号是否纯净以及辨识度等的特征的统称。目前,音质特征在语音情感识别过程中作为主要特征进行识别的情况下效果相较与其余两类特征较差。故目前常见的语音情感特征的提取种类主要围绕韵律学特征和谱相关特征。本文在结合当前研究现状和效果优劣后,选择梅尔倒谱系数作为所提取的特征。

2.2 梅尔倒谱系数

MFCC[10]是一种准确描述声道的形状在语音短时功率谱的包络的一种特征。一般提取MFCC 的流程如下。

1)预加重

预加重的实质是将语音信号通过高通滤波器,其主要目的是提升语音信号的高频部分,使整个频谱变得平坦,突出高频共振峰。

2)分帧、加窗

预加重结果中的若干采样点(假设有N 个采样点)的集合称作帧,分帧的作用是为了利用语音信号的短时平稳性。

加窗的目的是通过汉明窗使首尾连续性欠佳的分帧信号具有较好周期性以进行FFT(快速傅里叶变化)。

3)FFT

FFT 的目的是将语音信号由时域转化为特征较为明显的频域,其函数表达式为

4)Mel滤波

由于人耳对语音信号的低频部分较为敏感,故在提取特征时需要在低频部分较为密集,高频部分相对稀疏。Mel 滤波[11]就是通过三角滤波器实现这一过程。三角滤波器函数表达式如下:

5)对数能量和DCT(离散傅里叶变换)

Mel 频率经过下列对数运算可以求得对数能量:

再经DFT得到MFCC系数:

其中L为MFCC阶数,M为三角滤波器个数。

2.3 神经网络

2.3.1 CNN网络

CNN(卷积神经网络)是一种利用卷积计算且具有深度学习网络结构的前馈神经网络,是深度学习算法的代表之一。其主要结构分为输入层、隐含层和输出层。其中输入层负责承接张量形式的多维特征数据,而输出层的上层网络通常是由全连接层构成,以进行相关分类工作,因此其工作原理与传统前馈神经网络的输出层相同;其主要功能层集中在隐藏层,隐藏层一般包括以下方面。

1)卷集层

卷集层是CNN 的核心层,其功能是对数据张量的特征进一步提取。在卷积层中具有网络构建者指定的卷积核,其中包括但不限于卷积核大小和步长等的相关参数,卷积核类似于前馈神经网络的神经元,核中的每个元素都有对应的权重系数和偏差量,以此完成相关计算。

2)池化层

数据张量在经过卷积层特征提取后,通常会经过池化层进行信息进一步的筛选。数据张量通过池化函数以使用单个点的值代替相邻区域的特征统计量,以达到减少整个网络参数计算的庞大计算量的作用。其中,最常见的池化有最大池化和均值池化。

3)全连接层

全连接层一般位于CNN 隐含层的最后层,通过相应的激活函数得到相应需要得到的输出。

此外,卷积层后常有批标准化层和Dropout层,设置批标准化层的原因是激活函数对零附近的数据更为敏感;设置Dropout 层则是使一部分神经元不参与训练,以达到抑制过拟合的作用。

2.3.2 LSTM和GRU

1)LSTM

LSTM[12](长短时记忆网络)是一种为了解决RNN(循环神经网络)长时间依赖问题的特殊RNN。

LSTM 主要由遗忘门、输入门和输出门组成。遗忘门的作用,顾名思义,是用来决定是否信息丢弃,通过ht-1和xt共同决定Ct-1中的信息是否保留,其中:

随后,ht-1和xt通过输入门sigmoid 层决定更新信息内容,并且通过tanh(图2 中为T)层获取新候选细胞信息并将Ct-1更新为Ct,其中:

图2 LSTM结构示意图

最后,ht-1和xt输出门sigmoid 层得到判断条件与Ct状态经tanh 函数得到值的乘积即为LSTM单元的最终输出,其中:

2)GRU

GRU 是LSTM 的一种效果良好的变体,具有结构简单、训练速度快等优点[13]。

GRU 相较于LSTM 的三个门而言仅有两个门,分别是更新门和重置门。在图3 中zt=σ(Wz·[ht-1,xt])为更新门,重置门则为rt=σ(Wr·[ht-1,xt]),其中Wz和Wr为待训练参数。

图3 GRU结构示意图

GRU 作为LSTM 的变种结构,相对LSTM 门函数较少,故其训练速度较LSTM 快,在一定应用场景下效果也较LSTM好。

2.3.3 注意力机制

注意力(Attention)机制是为了模仿人类注意力行为,进而提出的一种为了解决RNN 类网络模型输入序列较长时较难获得合理结果问题的解决方案。其核心目的是快速地从大量信息中筛选出有利信息。简言之,即为对重要部分分配较大权重[14]。

目前多数的注意力模型都是基于Encoder-Decoder 框架,但这并不意味着Attention 机制仅可以在该框架下使用[15]。注意力机制严格意义上讲是一种思想,而不是某种模型的实现,因而其实现方式可以完全不同[16]。本文中采取的是自注意力(self-attention)模型。

3 实验设置

3.1 数据集选择

本文中的语音情感识别选用的是中科院CASIA 汉语情感数据集进行的相关实验,数据集包含生气(angry)、害怕(fear)、高兴(happy)、中立(neutral)、悲伤(sad)和吃惊(surprise)共6种情绪。

3.2 情感识别网络

为了在一定程度上提高语音情感识别的准确率,本文提出一种应用于语音情感识别的含有注意力机制的CNN-BiGRU 网络。网络结构图如图4。首先,本文将利用上文所提到的MFCC 作为神经网络的输入特征数据,将原始数据集进行MFCC 特征提取并储存。然后进行网络搭建,先利用CNN 进行特征提取,CNN网络如图4中CNN部分所示。

图4 网络结构图

随后,将提取后的特征送入含有自注意力机制双向GRU 再次训练。最后通过全连接层并展开后送入softmax 函数进行情感识别,进而得到情感分类,完成情感识别过程。

在实验中,在CNN 中添加标准化层于卷集层和激活函数之间;此外训练过程中发现过拟合现象,故在每层CNN 后添加Dropout 层。对于数据,数据集中验证集占总数据集比例20%,共计训练200轮次。其中CNN的参数如表1所示。

表1 CNN参数

3.3 实验结果及分析

本文将上述注意力机制CNN-BiGRU 网络和传统CNN 网络、CNN-BiLSTM 网络、CNN-GRU 网络以及CNN-BiGRU 网络分别在CASIA 汉语情感数据集上进行实验,其结果对比如表2。

表2 准确率对比

从表中可以看出,注意力机制下的CNN-BiGRU网络相较此前的CNN-BiLSTM 等网络准确率的确存在提升,证明了注意力机制以及双向GRU 在语音情感识别方面是存在应用空间和准确率提升空间的,或在语音情感识别领域结合其余优秀网络会有更佳的效果和更大的提升空间。

4 结语

情感是在一种客观存在而情感的表达却又是一个较为复杂的过程。即使现阶段在各领域能对情感识别都有着不同进度的研究,但这仍是一个具有相当挑战性的课题。本文将双向GRU 和注意力机制引入CNN 网络,通过实验证明在情感识别的准确率提升方面是有积极作用的。但是由于数据集的限制,情感识别网络的鲁棒性不佳成为了新的难题,这个问题也同样出现在本文所提到的网络当中。解决这一难题将对利用深度学习网络进行情感识别产生非凡意义。

猜你喜欢
特征提取卷积准确率
同步定位与建图特征提取和匹配算法研究
基于全卷积神经网络的猪背膘厚快速准确测定
基于图像处理与卷积神经网络的零件识别
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
多层螺旋CT技术诊断急性阑尾炎的效果及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
颈椎病患者使用X线平片和CT影像诊断的临床准确率比照观察
基于深度卷积网络与空洞卷积融合的人群计数
基于MED—MOMEDA的风电齿轮箱复合故障特征提取研究
卷积神经网络概述