基于CNN_LSTM的语音情感识别系统设计

2020-06-18 08:50梁晓鸽赵风海

电声技术 2020年3期

梁晓鸽，赵风海

(南开大学电子信息与光学工程学院，天津 300350)

近年来，人工智能技术不断发展，为人类的工作和生活做了很大贡献。为了让机器更好的理解人类，让人机交互更加和谐，情感分析成为我们实验室研究的重要方向之一。而语音作为人们日常交流的主要方式之一，蕴含了丰富的情感信息，因此，语音情感分析至关重要[1]。但其需要大量的训练样本以及训练网络参数难度较大，在语音情感识别(SER)领域还需进行深入研究。

我院设计采用的语谱图作为输入，克服了传统算法在提取情感特征向量时造成的误差，并提出了基于卷积神经网络(CNN)改进的深度学习框架，采用中科院汉语情感数据集CASIA语料库和柏林情感语音库，将语谱图输入到三通道CNN中，每通道设置不同的卷积核，进行多维特征提取，初步训练后，将得到的三组特征组合成新的情感特征向量，通过LSTM再次进行训练，最终得到情感分类。实验结果表明，本文结构在识别多分类情感时，表现良好，在六分类问题上可达到平均92%的识别率。

1 基于语谱图的语音情感特征提取

语音情感特征工程的构建是语音情感识别系统最为关键的一步。传统方法在提取情感特征向量时，主要通过人们手动获取，比如常见的梅尔倒谱系数(MFCC)，基因频率，短时能量等等。但在这个过程中，难免丢失部分有效的情感信息，造成识别率的下降；或者提取了多余的无用信息，造成数据的冗余，进而影响模型的性能。

在本文中，为了避免人工提取情感过程中造成的误差，采用语谱图作为输入。语谱图通过语音信号(.wav)经傅里叶变换得到，它几乎完整地保留了语音信号中蕴含的情感信息。

2 卷积神经网络

卷积神经网络(简称CNN)，可以直接输入原始图像，它不需要任何输入和输出之间的数学关系，就能够学习到输入与输出之间的映射关系，减少了前期预处理输入图像的工作量。因此，它已成为模式分类领域的研究热点之一。典型CNN结构通常由卷子层、池化层和全连接层组成。

3 长短时记忆网络

长短时记忆网络(简称LSTM)是一种特殊的循环神经网络，可以有效处理和预测在时间上前后相关的序列数据。在许多方面，如语音识别领域，LSTM识别率都优于传统的循环神经网络。

LSTM标准结构是将多个单元像细胞一样进行连接，每个单元内包括遗忘门、输入门和输出门。

4 基于CNN_LSTM的神经网络结构设计

为了更充分地训练从语谱图中提取到的情感信息，本文提出了基于CNN_LSTM的多卷积核神经网络结构—TCNN_LSTM。首先将语谱图输入到三通道CNN中，每个CNN通道设置不同的卷积核，每通道设置不同的卷积核，进行多维特征提取，初步训练后，将得到的三组特征组合成新的情感特征向量。然后通过LSTM再次进行训练。最后，输入到全连接层得到全部特征，通过softmax函数进行情感识别，得到最后的情感分类。基于TCNN_LSTM的神经网络结构设计如图1所示，CNN层网络参数如表1所示。

在LSTM层，网络采用双向LSTM结构，可以提高系统鲁棒性，并设置抓包率为0.2%，可以加快系统收敛速度。

表1 CNN层网络结构参数

5 SER实验及结果分析

5.1 SER语料库

本文选用中科院CASIA汉语情感数据库和柏林Emo-DB情感数据库进行实验。

5.2 数据预处理

语音信号预处理：语音信号→分帧加窗→傅里叶变换→语谱图。

其中，语音信号(.wav)帧长为30毫秒，帧移15毫秒，窗函数为汉明窗。

5.3 评价指标

SER实际上是一个多分类问题，基于此，本文采用混淆矩阵来衡量网络的性能。混淆矩阵的行代表样本的真实结果，列代表预测结果，正对角线上的值代表正确预测的样本数目[2]。

5.4 结果分析

使用相同数量的情感语句进行训练时，TCNN_LSTM在Emo-DB和CASIA两种数据库下四分类的情感混淆矩阵如表2和表3所示。结果表明，在不同数据库下，四分类的平均情感识别率分别为92.5%和93.1%，结果相差为0.6%，说明本文结构对不同语言发出的声音信号进行情感特征提取时，有较好的适应性。除此之外，本文训练网络时，数据库较小，但该模型对“生气”的识别率均达到95%以上，说明该网络在提取和训练“生气”的情感特征时效果较好；而“害怕”的识别率有所下降，说明网络没有充分学习到该情感的特征，需要更多的训练数据，但在本文实验条件下，该结果符合预期。

表2 TCNN_LSTM在Emo-DB下四分类情感的混淆矩阵

生气高兴害怕中性精准率生气23916495.60%高兴223611194.40%害怕1152211388.40%悲伤414322991.60%平均识别率92.5%

表3 TCNN_LSTM在CASIA下四分类情感的混淆矩阵

生气高兴害怕中性精准率生气24205396.80%高兴42335893.20%害怕810223989.20%悲伤131123594.00%平均识别率93.1%

其次，本文还验证了在使用单核(3×3)，双核(3×3，5×5)以及本文提出的三核TCNN_LSTM网络结构下，在CASIA数据库下的情感识别率，如表4所示。实验结果表明，TCNN-LSTM情感平均识别率高于其他两种模型，尤其是在识别相似情感时，有良好的表现。例如在识别“悲伤”时，较单核和双核结构提高了约7%。

表4 不同网络结构在CASIA数据库下的情感识别率

结构生气高兴害怕悲伤中性惊讶单卷积核87.25%93.01%87.18%85.94%86.21%83.77%双卷积核88.10%94.18%87.98%85.01%87.71%85.64%TCNN_LSTM91.71%94.29%90.28%92.28%91.14%92.14%

6 结语

本文将CNN和LSTM进行网络融合，并利用多个卷积核进行多个通道的图像信息提取，可以有效地提取到语谱图中蕴含的情感信息，使网络结构在识别多分类情感识有较好的表现。但后续还需要改进的问题是如何在数据库有限的情况下充分训练网络，得到更优的模型参数，以及识别更加复杂和相似的情感时，如何优化网络结构。