融合音频、文本、表情动作的多模态情感识别

2023-03-29 12:31郑纯军

应用科学学报 2023年1期

贾宁，郑纯军

大连东软信息学院软件学院，辽宁大连 116023

情感识别是指计算机对传感器采集的信号进行分析和处理，得出待识别对象情感状态的过程。随着人机交互的日益密切，机器只有能识别人类的情感，甚至能回复人类的情感，才能更好地与人类进行分工和合作。人类的情感可以通过面部表情、动作姿态、语音、生理信号等多个模态表现出来。面部表情和动作姿态都是可视的，被称为表情模态和动作模态；语音信息可以从听觉获得，也称为听觉模态。

听觉模态是可用于情感识别的一个重要模态，因为声音信号中既有明确的语言信息又有非语言的声学信息[1]。很多学者已从音频中提取情感特征并训练模型，从而设计语音的情感预测方案[2]。常见的语音情感特征主要包括基于频谱的特征[3]、韵律的特征[4-5]、音质的特征等。文献[6]指出基音频率在效价较高的情感中体现相似的特性；文献[7]利用物理波动系统的概念模拟循环神经网络，实现元音的高精度识别。目前，这种基于物理学的动力系统被证明针对语音识别任务是有效的，但是尚未应用于语音情感识别（speech emotion recognition,SER）任务。本文在特征提取和物理波动模型设计的基础上，通过实验证明了以物理波动模型解决语音情感识别问题的有效性。

文本情感分析是指利用自然语言处理和文本挖掘技术，对带有情感色彩的主观性文本进行分析、处理和抽取的过程。文献[8]提出了一种多分类情感分析任务的解决方案；文献[9]提出了一种非时态情感分析机制，通过加强建模依赖关系来解决情绪分析问题。此外，基于Bert 与长短期记忆（long short-term memory,LSTM）网络的舆情情感识别也是目前的主流文本识别方式。

面部表情是人们日常交流中理解对方情感的主要线索之一。早期的情感识别主要集中于运用面部表情进行基本情感的识别[10-11]。文献[12]提出了时间关系网络（temporal relational network,TRN）模型，用于识别学生面部的情绪变化。此外，动作姿态也能为情感预测提供更多的信息。文献[13]提出了一个端到端的深度学习方法对基于动作姿势的情绪进行分类，然后提取关键帧作为3D 卷积神经网络（3D convolutional neural network,3D-CNN）的输入，从3D-CNN 中学习长期有效的特征，并基于时域映射提高分类精度。

本文使用了流行的交互式情感二元运动捕捉语料库IEMOCAP[14]，它包含多种模态的表达。例如：使用运动捕获设备记录对话方的面部表情、头部姿势和手部运动数据，同时记录对话双方的视频和音频数据。

单个模态存在信息不全面、容易受噪声干扰等固有缺陷，造成依赖单个模态的情感预测系统在鲁棒性、精确性等方面都不能满足使用要求，这在很大程度上限制了它的应用。因此，多模态情感预测越来越受到研究人员的青睐[15-16]。多模态情感预测模型[17]由特征提取、预测模型的设计和选择、信息融合等阶段构成。文献[18]使用来自语音、文本以及面部表情、旋转和手部运动捕捉数据，在IEMOCAP 语料库上执行多模态情感识别。文献[19]提出了一种新的多模态相关网络用于情感识别，融合来自音频和视频通道的信息，实现更为鲁棒和准确的检测。

模型之间的相关性与模态融合的效果是成反比的，模型之间的差异性越高，多个模态之间互相借鉴、互为补偿的效果越好。因此，本文提出了一种具有差异化特色的多模态情感识别模型，其中融合了音频、文本和表情动作等3 个模态的信息。针对每种模型分别设计不同的特征提取方案与匹配的模型结构，搭载局部特征提取、注意力机制等加强有效信息，通过自定义的多性能指标的决策方案来实现高精度、强泛化能力的情感识别。

1 多模态情感识别模型

构建一个多模态情感预测模型一般包括多模态情感特征的提取、情感识别模型的设计和选择、信息融合方案等方面。如何确定有效的模态组合方案，实现有效的融合是本文需要重点研究的问题，于是提出了针对语音、文本与动作的3 种模态的情感自动识别方法。为每个模态分别设计了一个情感识别模型，然后将各个模态的结果以自定义规则融合在一起，最终实现有效的多模态情感信息的融合和判定。整体结构如图1所示。

图1 模型整体结构Figure 1 Overall structure of the model

每个模态的设计思路如下：

针对语音模态，设计一种基于深度波场延拓和改进波动物理模型（depth wavefield extrapolation-improved wave physics model,DWE-WPM）。该模型可模拟LSTM 的循环过程，将有效的情感表达区域延拓到整个语音，实现局部信息的加重，实现高精度的SER。

针对文本模态，使用话语嵌入提取有效的特征，然后应用含有注意力模块的Transformer模型，实现高效的文本情感识别（text emotion recognition,TER）。

针对动作识别模态，分别提取眼睛与眉毛、鼻子与嘴、左手、右手等4 路特征，让每组特征均提取表达最强烈的区域信息，再设计一个含有4 个通道的联合模型。结合注意力机制和有效的微调机制不断修正每个通道的参数，从而增强动作情感识别（motion emotion recognition,MER）的判别性能。

1.1 类似LSTM 的物理波动模型语音情感识别

声学信号往往具有海量的特征，这给情感识别带来了很大的困难。在本节中，提出了一种新型的语音情感识别方法DWE-WPM，可以解决特征提取过程中的精度损失和特征爆炸问题。

图2描述了应用于语音情感识别任务的DWE-WPM 模型的实现过程。首先使用固定步长深度递推声波场延拓方法，得到声波中包含有效情感信息的区域；然后设计了DWE-WPM，用波动的动力学模拟声音的传播，从而得到局部情感特征表达；最后使用双向多层长短期记忆网络（bi-directional long short-term memory,BiLSTM）自动挖掘特征的规律，完成高精度的SER。

图2 基于DWE-WPM 模型的整体工作流程Figure 2 Overall workflow based on DWE-WPM model

1.1.1 固定步长深度递推声波场延拓方法

基于情感语音识别任务的声波数据有较高的维度和散度，使语音表达的情感在时间和空间上难以衡量，计算精度和计算效率均受到影响。本节提出一种基于深度算子的快速计算延拓声波的方法，称为固定步长深度递推声波场延拓方法。此方法的目的是利用变换后的语音解释情感表达随着时间变化的规律，有效地保留声波中的情感信息。下文将详细介绍此方法的具体实现流程。

本节可用于确定声波场的延拓标准。将整条语音的原始音频信号转化为声波，假设水平方向坐标为(x,y)，深度方向坐标为z，圆频率为w，其中，w=2πf，f为频率，则在深度z处的声波场可以表示为W(x,y,z,w)，在深度域声波延拓的方程可表示为

式中：i 为虚数单位，S为亥姆霍兹（Helmholtz）函数的单平方根算子。为了利用每段区域的∂zW(x,y,z,w)，寻求用于情感表达的模板区域，此处采用固定步长递推声波场延拓方法进行处理。

固定步长深度递推声波场延拓方法由2 个阶段构成：固定步长和声波递推。

1）固定步长

从一个深度的声波场中寻求一个前进固定步长深度的声波子集，可以表示为式中：∆z为深度波场的距离；s ∈[0,l −d]，表示当前步长的起始位置；l为当前音频的宽度；d为步长，表示最佳连续语音帧区间，它是一个超参数。窗口从左到右依次滑动，直到经过整段音频区间为止。式(2) 的目标是寻求Wb作为当前音频的所有区间中深度累计最大的区间，b为该区间的起始位置。

2）声波递推

声波递推的目标是实现快速的目标区域声波场延拓，将式(2) 中的Wb(xs,y,z,w) 拓展至音频的全部区间，可得到延拓后的声波An(x,y) 如式(3) 和(4) 所示：

式中：t ∈[0,l/d]，它用于表示固定步长切分的子集数目。W′(x,y,z=0,w) 表示当前区域与Wb(xs,y,z,w) 的相似度，T为自定义的相似度阈值，它是一个超参数，可由研究人员通过多组实验采集获得。

由式(3) 和(4) 可以看出：固定步长平移由滑动窗口的平移距离决定，校正由自定义的阈值确定。当滑动至最后一个窗口时，直接采用校正的方法。此时获得了延拓后的声波，可作为输入用于后续的DWE-WPM 模型。

1.1.2 DWE-WPM 模型

本节设计了基于波动的动力学模型，并证明了它与LSTM 存在映射关系。DWE-WPM模型将式(3) 中的An(x,y) 作为输入，通过DWE-WPM 获得特定介质下指定观测点的输出信息，此信息可作为当前音频在物理系统中的特征表达。DWE-WPM 结构如图3所示。

图3 DWE-WPM 结构Figure 3 Structure of DWE-WPM

DWE-WPM 模型由3 个阶段构成，分别为正向扩展阶段、探测点观察阶段和材料物理设置阶段。

1.1.2.1 正向扩展阶段

正向扩展的区域是在X-Y平面上的二维区域。声波由域的左侧输入，经正向扩展区域传播成为波速分布和介质参数可训练的波形。判定声波场分布的动力学波动方程，可以使用步长为∆t的中心有限差分进行时间离散化，其计算公式为

式中：u(x,y,z) 为声波信号；c=c(x,y,z) 表示波速的空间分布，非线性材料的波速取决于波幅；∇2是拉普拉斯算子；f(t) 为源项。变换后可以得到式(6) 和(7)

式中：ht=[ut,ut−1]−1，b为阻尼系数，zo(t) 为输出门。设置ct=ht ∗(zo(t))−1，则可得

可以发现式(8) 将输入序列转化为具有时序关系的输出序列，它的更新形式与LSTM 的形式一致，由此认为此时的DWE-WPM 与LSTM 是等价的。之前的每一步操作都被编码成隐藏状态，在每一步中都得到了更新。

1.1.2.2 探测点观察阶段

本阶段利用二维区域上指定位置的探测点进行计算，当声波传输至某个探测点时，记录输出信息。探测点的数量须与分类数量相同，但不同的探测点提取的声波信息不同，因此将所有观测点的输出值拼接为一个非负向量作为当前音频在物理系统中的特征表达。

1.1.2.3 材料物理设置阶段

考虑到传输声波的材质和波速对DWE-WPM 模型产生较大的作用，该模型进行反向传播，并通过不断的微调对一阶矩阵和二阶矩阵进行校正，以减少偏置的影响，然后开始执行随机梯度下降，最终使模型的结果收敛。

1.1.3 BiLSTM

将波动方程中提取的特征送到图2的模型中。由于情感表达是基于时间序列的信息的，其上下文之间存在着一定的关联，因此本文设计一个具有短期记忆能力的三层双向LSTM 网络。图2中的最后一个阶段列出了此模型的基本结构，输出信息是语音情感识别的结果。此结果将用于最终的多模态融合。

1.2 文本情感识别

在文本情感识别研究中，Transformer 是流行的识别模型。Transformer 基于自我注意力学习单词之间的依赖关系，不需要任何递归或卷积层，可以解决循环神经网络及其变体存在的长距离依赖问题，其本质就是注意力机制有更好的记忆力，能够记住更长距离的信息。本节在单词特征提取的基础上，使用第3 方库librosa 对语音提取梅尔滤波后的特征。分别对两类特征使用Transformer，结合注意力减少机制实现融合能量特征的文本情感识别。该模型主要包含以下几方面。

1.2.1 话语嵌入特征提取

在语句中，根据训练集构建词汇表删除了特殊字符和标点符号，并使用全局词向量GloVe将每个单词嵌入300 维的向量。GloVe 通过构建共现矩阵、构建词向量与共现矩阵的关系，实现了词向量的表达。如果来自验证或测试集的单词不在默认的词汇表中，可将其替换为未知标记。每个句子都是通过一个单向的单层LSTM 来运行的。每条语音信息的尺寸为[T,C]，其中T是句子中的单词数目。

1.2.2 Transformer

Transformer 由相同的块组成，它们独立训练参数。每个块有两个子层，在两个子层周围各有一个残差连接。每个子层OL的输出可以描述为

式中：S(x) 为Transformer 的子层。在传统的Transformer 中，这两个子层分别为一个多头自注意力机制和一个简单的多层感知器。注意力机制由关键字K和查询Q组成，通过交互输出K和Q将向量应用到注意力映射中。

1.2.3 模块注意力Transformer

在给定编码语言特征y的情况下，本文使用模块融合对声学特征进行转化。在声学Transformer 中融合两种模态，获得输出结果。这种模块化设计可以通过多头注意力或层归一化来实现。模块化的注意力Transformer 如图4所示。

图4 含有自注意力的TransformerFigure 4 Transformer with self-attention mechanism

以上实现了基于文本的Transformer 模型，可以更好地了解话语嵌入和话语语境信息。此外，在模型中使用了多头注意力机制以获取更多层面的语义信息。本文将文本和语音注意力机制获取的结果进行拼接组合作为TER 模型的结果，这种机制能够更好地理解对话中的情感表达。此结果将用于最终的多模态融合。

1.3 基于脸部表情和手部动作的动作情感识别

在IEMOCAP 语料库中演员佩戴运动捕捉摄像机，以便从多个维度记录演员的面部表情、头部和手部运动信息。运动捕捉数据包含多组列元组，如面部表情元组包含165 维，手部位置信息包含18 维，头部旋转数据包含6 维。由于运动捕捉数据非常广泛，因此使用面部表情和手部这2 种数据模式构成多模态情感识别模型的动作模型基础。

1.3.1 面部表情特征提取

设计人脸表情的情感识别模型时，在帧级情感特征提取的基础上进行二次设计。考虑到在五官周围肌肉产生的形变是最大的，可以将这种形变认为是一种情感发生时的特殊表达，由此推断出在五官周围的情感特征是最有效的，而其他的特征点可以忽略。此外，五官产生的形变往往是有关联的，例如眼睛与眉毛的组合、鼻子和嘴巴的组合等，它们之间往往配合产生变化。然而，有些组合的动作并不是成对出现的，例如眼睛和嘴巴的组合等。因此，需要将非相关点滤除后进行新的特征的组合，从而表达更加丰富的情感信息。

在使用IEMOCAP 语料库进行人脸表情检测时，主要检测的是人脸的55 个关键点信息，这些关键点主要包含眼睛、眉毛、鼻子、嘴和脸部轮廓等信息。对关键点进行检测，得到每一个关键点的坐标信息用于情感特征的提取。将这些采集点的信息提取后，获得165 维的面部特征信息。面部表情采集点位置如图5所示。

图5 面部表情采集点位置Figure 5 Location of facial expression collection points

面部特征的采集以帧作为基本单位，因此在单个样本中，面部特征的数据量远远高于其他模态的数据量，此时对面部特征进行数据预处理操作，主要步骤如下：

步骤1将特征分组。

步骤2将眼睛和眉毛及其周围特征合并为第1 组特征，共包含15 个关键点；将鼻子和嘴巴周围的关键点合并为第2 组特征，共包含13 个关键点；忽略其余关键点的信息。

步骤3每组关键点均有x、y、z轴坐标，删除坐标轴中包含空值点的行记录。

步骤4针对单组关键点，分别计算并提取滑动窗口内方差最大的子空间信息。

步骤5设置尺寸为d′的滑动窗口，d′是一个超参数。让窗口从样本起始位置开始向右移动，计算在滑动窗口内部的连续数据的方差之和。当方差之和最大时，记录当前的窗口起始点，取出该处窗口内部数据的绝对差分值，并以此数据作为模型的输入。

1.3.2 手部动作特征提取

手部数据共包含20 维数据，由2 维索引和6 个关键点的三维数据构成，这些三维数据分别对应关键点的x、y、z轴的旋转数据。手部动作数据的特点主要体现在以下两方面，1）不同样本的数据量差异较大。2）左手和右手的动作不一致，它们的数据是可以分离的。基于上述特性对手部动作数据进行处理，具体步骤如下：

步骤1将特征分组。分割左手和右手的数据，使每只手的数据包含3 个关键点，则每只手各有9 维数据。

步骤2每组关键点均有x、y、z轴坐标，删除坐标轴中包含空值点的行记录。若部分样本的关键点存在大量的空值，则可清除该列的信息而保留大量帧的信息。

步骤3针对单组关键点，寻找滑动窗口内方差最大的子空间。此处的操作方法与面部表情特征提取方法类似，故不再赘述。经上述操作后，每只手各获得18 维特征。

1.3.3 动作情感识别

为了让模型吸收全范围表情和手部数据的情感表达，可设计4 个通道的动作情感识别模型MER，如图6所示。

图6 MER 模型Figure 6 MER model

4 组特征集合从不同的角度描述了情感的状态，而且它们之间存在互补关系。将上述4 组特征分别输入三层双向的LSTM 网络，则每层LSTM 的隐藏节点具有256 个单元。由于4 组特征形成4 条主线，因此将4 组特征的第3 层LSTM 输出结果连接在一起，再融合进入注意力层，这样注意力层可以聚焦情感表达的重点区域，加强此类区域的贡献度；接下来将注意力层的输出注入全连接层和Softmax，输出预测情感分类结果。该模型具有将4 组通道映射到同一空间中的特点，可以利用微调机制不断修正每个通道的参数，逐渐增强情感的判别性能。

以上便完成了MER 模型的设计，由此可见该模型既考虑了面部表情的联动特性，又综合了左右手动作的差异性特征，其中每个通道分别突出了长时间信息的有效性，且结合注意力机制加强了有效的信息。MER 模型的输出信息是表情和动作情感识别的结果，此结果将用于多模态融合。

1.4 音频、文本、表情动作的多模态融合

在实现音频、文本、表情动作的情感识别模型的基础上，将其进行决策级别的融合，即可得到最终的情感识别结果，整体流程可参考图1。假设音频、文本、表情动作的情感识别模型输出结果分别是oS,oT,oM，每个输出结果均含4 维信息。每个模型精度的计算方法如下：

式中：Uij为第i种模态第j种情感的识别精度，Tij为对应模态的每类的真正例数量，Fij为对应模态的每类的假正例数量，N为情感种类数量，则整体性能下的多模态情感识别结果CU可表示为

在平均精度下的多模态情感识别结果CW为

将两个不同性能指标的结果合并，得到最终的情感表达结果r为

式中：λ1和λ2为权重系数，也是超参数，由研究人员根据多组实验和风险经验进行动态调整，以获取最佳的系数。以上便完成了全部模态的融合，将不同级别的评价指标以不同的权重整合在一起，可以在最大程度上屏蔽单个模态的精度误差。

2 实验结果

2.1 数据集

本文中采用的IEMOCAP 语料库由南加利福尼亚大学录制，包括9 种情感（angry,happy,excitement,sad,frustration,fear,surprise,other,neural）数据及标签。该数据集使用动作捕捉和音频/视频录制数据，它是从10 个主题的5 个二元会话中收集的。每个会话由一个不同的对话组成，其中1 名男性和1 名女性演员执行脚本，并参与通过情感场景提示引发的自发的即兴对话。此语料库共有10 039 个音频，总时长将近12 h，每个音频还包含视频、人脸的变动捕捉和文本信息。本文只考虑至少有2/3 的评估者给出相同情感标签的音频信息，采用对IEMOCAP 语料库的通用处理方案，仅涉及其中的4 类情感数据：happy 类（与excited类合并）、sad 类、angry 类和neutral 类。其中，angry 类数据1 103 条，happy 类数据1 636条，neutral 类数据1 708 条，sad 类数据1 084 条。

2.2 网络参数与评价标准

在训练过程中，利用多组实验进行微调以不断优化参数，其中涉及的部分超参数可参考表1。

表1 超参数列表Table 1 Hyper-parameters list

在SER 中，使用Pytorch 框架进行网络模型结构的搭建。在DWE-WPM 中，设置传输介质的波速为1.0，波速强度为1，边界点中含有的网格单元为2。在TER 中，使用Tensorflow框架进行网络模型结构的搭建，在Transformer 中，LSTM 的尺寸为512，层数为4，多头注意力的头数为8，对每个块迭代的输出应用比例0.1 的衰减，对投影层的输入应用比例0.5 的衰减。在MER 中，使用Tensorflow 框架进行网络模型结构的搭建，最大周期数设置为10 000；同时采用ReLU 作为激活函数，Adam 作为优化器，使用交叉熵损失函数。

采用加权精度（weighted accuracy,WA）和未加权精度（unweighted accuracy,UA）作为识别精度的评价指标。WA 用于监测模型的整体性能，它是预测正确与样本总数之商，其结果完全依赖于正例的计算，并未考虑数据倾斜时带来的负面影响。为了解决样本分布不均衡的问题，引入UA 综合判定各个类别的语音情感识别精度，UA 是全部类别识别精度的均值。因此，对于不平衡的数据集而言，UA 是一个相关性更强的特征。

2.3 实验设计

针对音频、文本、表情动作等3 种不同的模态，基于IEMOCAP 语料库分别设计实验，实现单个模态模型的训练和测试，通过与经典模型的对比来证明当前模态的有效性。针对多模态模型，设计实验进行训练和测试，并与其他经典多模态实验结果进行对比。最后针对模型中的超参数，设计实验验证参数的有效性。

2.3.1 SER 的有效性实验

为了验证第1.1 节中提出的SER 模型的有效性，将本文模型与文献[20,7]中的经典模型进行实验对比，得到不同语音情感识别模型的精度如表2所示。

表2 语音情感识别的测试结果Table 2 Test results of speech emotion recognition%

表2中的基线和对比模型分别采用了不同的特征提取方案。其中：基线使用深度学习模型实现情感识别，模型1 和2 均将波动方程直接应用于情感识别，模型2 只是模型3 的局部模型。可以发现：模型2 中使用了DWE-WPM 方法，其识别效果优于模型1；模型3 拥有最优的WA 和UA，其UA 比模型2 改善了9.4%；不仅如此，模型3 的精度甚至超过了基线的精度，这说明DWE-WPM 模型和最佳的特征集合可以提升SER 的精度。

2.3.2 文本情感识别模型TER 的有效性实验

此实验用于验证第2 节中提出的TER 模型的有效性，使用文献[21]中文本模态的实验结果作为基线，得到不同表情识别模型的精度如表3所示。

表3 文本情感识别的测试结果Table 3 Test results of text emotion recognition%

表3中的基线模型[21]采用的文本情感识别方法是结合注意力机制的Bert 模型，而本文方法融合了Transformer、注意力机制与自定义能量特征，其识别精度最高。与基线模型[21]相比，模型4 具有13.7% 的精度改善。对比实验结果可以发现，模型1～4 的主要区别在于头数。模型1 中不包含注意力机制，其识别精度不高；模型2～4 的头数不同，当头数为8 时，其识别精度最高。

2.3.3 动作情感识别模型MER 的有效性实验

此实验用于验证第1.2 节中提出的MER 模型的有效性，使用文献[18]中的hand 实验结果作为基线，得到不同情感识别模型的精度如表4所示。

表4 动作情感识别的测试结果Table 4 Test results of motion emotion recognition%

从表4中可以看出基线、模型1 和2 的识别结果。模型3 仅使用hand 部分，其精度较高；模型4 仅使用face 部分，其识别精度不高；模型5 将全部特征融合进行识别，其精度介于模型3 和4 之间，证明模型4 中的部分face 特征存在着负面影响。因此，需要对于motion 的特征进行二次分组和提取。模型6 是优化后的模型，对比模型3 和6，可知左右手分组后的效果更好；对比模型4 和6，可以看出将眼睛与眉毛、鼻子与嘴分组后的识别精度更高。与文献[18]相比，模型6 具有26% 的精度改善。

2.3.4 多模态情感识别模型的有效性实验

此实验用于验证第1.3 节中提出的多模态模型的有效性，使用表2中SER 的实验结果作为基线，得到不同情感识别模型的精度如表5所示。

表5 多模态情感识别的测试结果Table 5 Test results of multi-modal emotion recognition%

本实验对比不同模态的融合效果，可以看出：模型1～3 分别是2 个模态的融合，其识别精度均比单个模态有了显著的提升；模型4 使用自定义决策方案进行SER、TER、MER模态的融合，融合后的模型识别精度最佳；本文提出的多模态模型比单个模态的精度提升了16.4%。

图7是针对多模态情感识别时，使用当前模型进行情感识别的混淆矩阵。可以看出，angry、happy 和sad 类别的识别精度较高，neutral 类别的识别精度较低。

图7 情感类别的混淆矩阵Figure 7 Confusion matrix of emotional classes

基于IEMOCAP 语料库，将本文与其他常见情感识别模型进行对比，结果如表6所示。可以发现：本文提出的多模态的识别方案具有最佳的识别精度，均高于表6文献中模型的识别精度，平均精度改善为10.5%。

表6 多模型对比结果Table 6 Results of comparison with other models%

上述实验充分证明了本文提出的单个模态的有效性与多模态融合方案的有效性。

2.4 结果分析

通过上述实验可以发现本文提出的多模态模型具有最佳的识别精度，主要体现在以下两方面：

1）多模态的决策级别融合的有效性较高。分析实验结果可知，angry、happy 和sad 类别的识别精度较高，neutral 类别的识别精度较低。此外还可以发现，neutral 类别的SER 和FER 模型的精度都不高，这直接导致了多模态的结果不佳。主要原因是neutral 类别的语音双重谱图和面部表情的图像特征不够明显，且本文在语音和视频中将没有显著特征的视频和声音归纳为neutral 类别。

2）分析表2～6 可以发现并非模态越多识别精度越高，只有当前模态提取的特征与识别模型实现有效的匹配才能获得最佳的精度。

3 结语

本文提出了一种融合音频、文本和动作的多模态情感识别模型，其中包含3 个模态的模型，分别为SER、TER 和MER。针对每种模型，分别设计特征提取方案与匹配的模型结构。在音频模态中，设计DWE-WPM，突出语音模态的局部信息。在文本模态中对说话者表达的内容进行文本特征的提取和情感分类，可以结合多头注意力机制和Transformer 模型捕捉潜在的情感表达。在动作模态中提取有效的手部和面部表情等动作的序列特征，基于多通道模型设计了4 组3 层双向LSTM 模型，有选择性地保存长短期记忆，结合注意力机制加重有效的信息。最后将3 个模态在决策级别有效融合，以实现高精度的、强泛化能力的情感识别。采用IEMOCAP 语料库进行实验，验证了本文所提方法在单个模态和多个模态的平均精度改善可达15.8% 和10.5%。

然而，本文模型对于neutral 类别的识别效果欠佳，这与当前情感识别模型中未使用突出neutral 类别的特征有关。在未来的研究过程中，将进一步完善SER 模型，新增视频模态的特征提取方案和设计模型，寻求一种更为通用的多模态网络结构供研究人员按需挑选一部分模态，实现高效的多模态情感识别。