多模态在情感识别中的研究与应用

2024-02-25 14:11文培煜聂国豪王兴梅吴沛然

应用科技 2024年1期

文培煜，聂国豪，王兴梅,2，吴沛然

1. 哈尔滨工程大学计算机科学与技术学院，黑龙江哈尔滨 150001

2. 哈尔滨工程大学水声技术全国重点实验室，黑龙江哈尔滨 150001

情感识别技术的研究开始于20 世纪80 年代，但直到近年来才得到广泛关注和应用。情感识别技术对于了解社会舆情、预测用户需求、改善服务质量等方面具有重要意义。目前，情感识别已经应用到社交网络、舆情分析等领域中，并取得了显著的成果。例如，在舆情分析方面，情感识别技术可以帮助政府和媒体准确了解公众对某一事件或政策的态度和情绪，为舆论引导和政策制定提供参考。

情感识别存在不同粒度级别，包括篇章、词、句子。本文着重于句子级别的情感识别。张悦[1]基于时延神经网络和双向编码器表示提出ECAPA-TDNN-LSTM(emphasized-channel-attention,propagation and aggregation in TDNN，LSTM)，并将其应用于语音情感识别；郑艳等[2]提出了一种结合一维卷积以及门控循环单元模型(convolution gated recurrent unit, CGRU)，缓解了模型过拟合问题；Wang 等[3]提出了一种断开的递归神经网络(recursive neural network，RNN)，将信息流限制在固定的步长；Lin 等[4]在句子建模过程中运用了自注意机制；Wang 等[5]采用了基于胶囊网络的方法，利用一个积极和一个消极的胶囊来捕捉相应的情感特征，许多外部资源，包括词性标注工具、情感词典、句法等，通常可以为情感分类提供补充信息。由于情感词汇包含情感词的一般和准确的情感得分，Teng 等[6]将它们与上下文敏感权重相结合，以确定最终的情感得分。与此不同的是，Tay 等[7]将情感词汇作为词级先验，利用对积极词汇和消极词汇的注意机制来改进情感特征提取；Socher 等[8]在解析树上应用递归自编码器和递归神经张量网络；Tai 等[9]和Zhu 等[10]用树形拓扑对基本长短期记忆网络(long short-term memory,LSTM)进行了扩展。

然而，越来越多的网络网站允许用户上传视频和图片来表达自己，这使得只关注文本的方法是不够的。因此，人们提出和进行了大量的研究工作来理解多模态数据中的情感。这些工作不仅为使用多模态数据可以获得更好的性能提供了证据，而且还探索了如何有效地利用多模态数据，这仍然是多模态情感分析中需要解决的关键问题。

如何有效地融合多模态特征以充分利用多模态数据是目前研究的热点。Chen 等[11]提出了带时间注意的门控多模态嵌入长短期记忆网络(gated multimodal embedded long and short-term memory networks with temporal attention, GMELSTM(A))，解决了话语级特征的融合会使词级特征中包含的大量局部信息丢失这个问题。GMELSTM(A)采用门机制对多模态特征进行细化，并在词级上进行融合。Zadeh 等[12]设计了记忆融合网络(memory fusion network, MFN），该网络捕获了跨越不同模式和时间的相互作用。范习健等[13]提出一种融合听觉模态和视觉模态信息的两模态情感识别方法。 Xu 等[14]提出了包含2 个交互记忆网络的多交互记忆网络(multi-interaction memory network containing 2 interaction memory networks, MIMN)来监督给定目标的文本和视觉信息。这些工作都表明有效地融合图像信息可以帮助模型获得更好的性能。林子杰等[15]为了通过辅助任务学习更多情感倾向的视频和语音表征，提高多模态融合的效果，提出了一种基于多任务学习的多模态情感识别方法。

上述方法存在计算量较大、仅限于时序数据的问题以及没有考虑使用更多的模态数据，为了解决以上问题且同时利用文本、视频、音频3 种模态解决噪声干扰，提升情感识别的精确度与鲁棒性，本文提出一种基于模态融合的情感识别方法，融合文本、视频、音频3 种模态数据并挖掘其中的互补信息，然后利用双向循环神经网络以及注意力机制捕捉融合特征的上下文信息得到丰富的新的特征表示，解决单模态情感识别信息不全面、容易受噪声干扰等问题，从而提高情感识别的精确度。

1 基于模态融合的情感识别网络模型

本文提出了基于模态融合的情感识别网络，其网络结构分为特征提取模块、特征融合模块、特征增强模块和下游任务模块4 个部分。特征提取模块用于提取模态特征；特征融合模块可以得到多模态融合特征；随后，搭建了特征增强模块获得信息更加丰富的新的特征表示；最后，搭建了下游任务模块，接受新的特征表示并输出情感分类结果。

基于模态融合的情感识别网络结构如图1所示。

图1 基于模态融合的情感识别网络结构

1.1 特征提取模块

特征提取模块分为3 个部分，分别是提取文本、视频、音频3 个不同模态的单模态特征。提取特征时，分别将单一模态数据输入模型进行提取。因为文本、音频与视频均是连续不断的序列模态，所以本实验中采取的是双向门控网络(bidirectional gated recurrent unit, BiGRU)来分别提取单模态特征。BiGRU 和LSTM 或双向长短期记忆网络(bi-directiona long short-term memory, BiLSTM)是常见的深度学习模型。BiGRU 和LSTM/BiLSTM在情感识别方面的共同之处是它们能够处理序列数据并捕捉上下文信息。它们具备记忆能力，能够在输入序列中保留并利用先前的信息。LSTM 是一种经典的循环神经网络，通过遗忘门、输入门和输出门的机制来控制信息的传播和遗忘，从而更好地处理长期依赖关系。在情感识别任务中，LSTM 能够捕捉文本中的上下文信息，有助于对情感进行分类。BiLSTM 是LSTM 的变种，它通过在模型中引入反向传播来获取更全面的上下文信息。BiLSTM 能够同时利用过去和未来的信息，对文本语境进行更好的建模。BiGRU 是另一种循环神经网络结构，与BiLSTM类似，能够在模型中同时利用过去和未来的信息。与LSTM/BiLSTM 相比，BiGRU 具有更简化的门控机制，使其计算效率更高，BiGRU 通常能够提供更全面的上下文信息，有助于提高情感识别的性能。

由于文本、音频与视频均可看作是序列模态，所以模型主体仍采用BiGRU 网络。BiGRU 是一种特殊的循环神经网络(recurrent neural network,RNN)。具体来说，BiGRU 解决了传统RNN 的梯度消失问题，同时对远程依赖关系进行建模。目前的研究表明，在分类过程中使用这种网络来整合上下文信息是有好处的。BiGRU 的优点在于其具有较强的建模能力，能够捕捉到长距离依赖关系，同时也比传统的RNN 模型有更快的训练速度和更好的鲁棒性。BiGRU 是由2 个方向不同的门控循环单元(gated recurrent unit, GRU)层组成的神经网络，其中一个从前向后读取输入序列，另一个从后向前读取输入序列。每个GRU 层包含了1 个重置门、1 个更新门和1 个隐藏状态。重置门为网络提供了从历史信息中遗忘不重要信息的能力，而更新门则提供了从新信息中选择需要保留的信息的能力。BiGRU 将正向和反向的输出拼接在一起，形成最终的输出向量表示，该表示捕获了整个序列的上下文信息。BiGRU 中的每个时间步可以用如下公式计算:

前向GRU 单元：

后向GRU 单元计算公式与前向一致。

式中： σ为sigmoid函数，tanh为双曲正切激活函数， ⊙为对应位置相乘，xt为输入序列的第t个时间步的向量表示，W和b为输入的权重矩阵和偏置向量，U为隐藏状态的权重矩阵。在BiGRU 中，前向和后向GRU 单元的参数是独立的，所以它们各自拥有一组W、U和b。

进行单模态特征提取时，首先分别将文本、音频、视频3 种单模态可训练数据输入BiGRU 网络；然后将BiGRU 网络最终输出的向量表示经过一个大小为100 的全连接层；之后经过tanh激活层，再乘以一个掩码矩阵；最后将所得结果以一定概率进行选择性丢弃(dropout)，得到的结果作为文本、音频、视频的单模态特征。

经过特征提取的3 种单模态特征的维度全部被调整一致。

1.2 特征融合模块

特征融合模块的作用是将特征提取模块所提取的3 种单模态特征进行多模态融合操作，将3 种单一模态特征转换为一种比任何单一模态具有更加丰富信息的多模态融合特征。文中为了体现注意力融合的效果，采取2 种融合方法，分别是直接拼接与基于注意力的多模态融合。

对于输入的3 种模态的特征数据，若采用直接拼接的融合方式，则是直接将3 种模态特征数据按列拼接在一起；若采用基于注意力的多模态融合方式，则是利用注意力机制进行融合。首先将3 种模态按列拼接在一起，然后循环处理每一句话语的3 种模态特征（此时每句话语的3 种模态特征已被拼接在一起），将每句话语的拼接特征经过一个大小为100 的全连接层，然后经过一个tanh层激活，将激活值与一个服从标准差为0.01、正态分布的维度为（100，1）的矩阵进行矩阵相乘，将相乘结果经过softmax层得到注意力权重向量，将注意力权重向量与拼接特征进行矩阵相乘得到的就是每句话语的多模态融合特征。

注意权重向量 α和融合后的多模态特征向量F的计算方法如下：

式中：B为3 种单模态特征按列拼接在一起得到的多模态特征，WF∈Rd×d为全连接层的权重矩阵,ωF∈Rd为服从正态分布的矩阵，α ∈R3，F∈Rd。

1.3 特征增强模块

所有周围的话语在目标话语的情感分类中并不是具有相同相关性的。为了放大上下文丰富话语的贡献，本模块使用了注意力机制与双向循环神经网络BiGRU。

本文将M个话语级特征序列（由上一模块得到的融合特征F或单模态特征）输入BiGRU。设x∈Rd×M输入到BiGRU 网络，其中M为视频中的话语数。矩阵x可以表示为x=[x1,x2,···,xM]，其中xt∈Rd，t∈[1,M]，xt是每条话语的多模态融合特征。

该BiGRU 网络的输出表示为H∈R2d×M，即根据多模态融合特征得到语境感知的话语表示特征H，其中H=[h1,h2,···,hM]，ht∈R2d，ht是每条话语的融合特征经过BiGRU 网络得到的新的特征表示。

图2 中第2、5 行的圆圈表示经由BiGRU 网络得到的话语表示特征ht，第4 行的圆圈表示注意权重向量 αt，第3 行的圆圈表示加权隐藏表示rt。rt是由话语表示特征H与注意权重向量 αt进行对应位置相乘操作所得到的，其目的是将计算得到的注意力权重赋予话语表示ht，得到的rt是结合了经过注意力机制放大后的上下文信息的表示特征，上下文的相关性在rt上得到充分体现。为了不损失原本话语表示特征ht中包含的话语特征信息，将ht与rt分别乘以权重矩阵后进行矩阵相加得到网络最终的输出h∗t，h∗t包含了原本话语的特征信息，同时又综合了整个视频中所有M条话语的上下文信息。具体网络结构如图2 所示。

图2 基于注意力的双向网络结构

设At表示以ht表示的话语的注意力网络。At的注意力机制产生一个注意权重向量 αt和一个加权隐藏表示rt，其表达式如下：

式中：Pt∈R2d×M，αt∈RM,rt∈R2d。其中，Wh∈RM×2d×2d、ω ∈RM×2d是权重矩阵，Wh[t]和ω[t]被第t个注意力模型使用，t∈[1,M]。

最后，将该话语的BiGRU 表示ht修改为

式中：∈R2d和Wp，Wx∈RM×2d×2d为训练时需要学习的权重矩阵；t∈[1,M]。

1.4 下游任务模块

下游任务模块接收特征增强模块中的每个输出，进行情感分类。分类网络主体由3 个大小为200 的全连接层和1 个大小与数据集情感种类数相同的全连接层构成，最后连接1 个Softmax层进行分类，输出预测结果。

1.5 损失函数

本文损失函数设计分为2 步。Softmax Cross Entropy 是一种常用的损失函数，用于多类别分类任务，Softmax Cross Entropy 损失函数适用于具有多个类别的分类问题。它通过将模型输出的原始分数转换为概率分布，并计算模型预测值与真实标签之间的差异，从而对分类任务进行优化和训练。它对于模型参数的优化提供了可导的梯度信息，这使得可以使用基于梯度的优化算法（例如梯度下降）来迭代地调整参数值，逐渐减小损失函数的值，从而提高模型的性能。Softmax Cross Entropy 损失函数在优化的过程中，通过最小化不同类别的预测概率与真实标签之间的差异，鼓励模型在概率输出上更好地区分不同的类别。这帮助模型更好地学习到类别之间的边界和特征差异，提高分类的准确度。此外，在计算损失时，Softmax Cross Entropy 损失函数自动考虑了多个类别之间的关系。通过Softmax 函数将原始分数转换为概率分布，确保所有类别的概率之和为1。这有助于解决分类问题中的多义性和不确定性，使模型输出更加合理和可解释。因此本实验采用Softmax Cross Entropy 方法为主体，计算损失。

将网络最后一个全连接层的softmax 操作单独提取出来，可得到针对一个batch 的预测值 (而非预测概率值)的Softmax Loss 为

式中 |C|为标签数量。

其次，利用L2范数计算每个可训练参数的误差，防止过拟合，计算公式如下：

式中：t为张量，sum为求和函数，Aoutput为结果。

总的损失函数公式为

式中： λ为超参数，M为一个batch 内的话语总数，K为可训练参数（张量）的总数。可以通过调整λ来防止过拟合。

2 实验结果分析

2.1 情感识别实验设置

2.1.1 实验数据集

本文所用到的数据集是3 个多模态公开数据集，分别是CMU-MOSI、CMU-MOSEI、IEMOCAP。

3 个数据集划分如表1。

表1 实验数据集划分

2.1.2 实验性能评价指标

本文使用了3 个评估指标，分别是分类精确度（accuracy）、F1 得分和损失收敛速度，从这3 个方面衡量实验效果的指标。由于精确度仅取决于分类结果是否与标签一致，因此如果样本分布不均衡，正确率不能很好地反映分类效果以及网络的性能。

在样本不均衡的情形下，精确度过高的意义是不大的，因此精确度指标的参考意义可能会下降，因此，本文采用平均类型为macro 的F1 分数，这是一种用于多分类问题的性能评价指标，它综合了对每个类别的预测准确率和召回率，计算出一个在各个类别上的平均得分且更注重各个类别之间的平衡性。

2.2 情感识别实验结果与分析

2.2.1 消融实验

本文对文本、音频、视频3 个不同的单模态以及不同的多个模态组合在3 个数据集上进行实验。首先分别在3 个数据集的测试集上对3 个不同单模态和多模态组合进行实验并记录50 轮次的精确度，本文绘制了3 个单模态和多模态组合的每次实验的精确度曲线图，如图3 所示。

图3 CMU-MOSI 数据集上精确度曲线

图3 中，文本模态特征的精确度最终收敛约为75%，在各种模态之间，文本模态的表现优于其他2 种模态，文本加其他模态的表现也较为突出，因此可以认为文本模态为主要模态，同时视频加音频模态的表现不如文本模态，可能是特征提取的方式出现问题，需要改进音频和视频模态的特征提取方法。多模态组合的精确度均优于3 个单一模态的精确度。其中3 种模态的组合精确度最高，精确度最终收敛约为80%。

图4 为IEMOCAP 数据集上精确度曲线图，多模态组合的精确度均优于3 个单一模态的精确度。文本模态特征的精确度约62.8%，音频模态的精确度约55%，视频模态的精确度约36.0%，而2 种多模态组合均可达到约63%的精确度，其中3 种模态的组合精确度最终收敛约为65%。

图4 IEMOCAP 数据集上精确度曲线

图5 中，多模态组合的精确度均优于3 个单一模态的精确度。文本模态特征的精确度约69.0%，音频模态的精确度约66.9%，视频模态的精确度约65.3%，而多模态组合平均可达到约70%的精确度，其中3 种模态的组合精确度最终收敛约为76%。

图5 CMU-MOSEI 数据集上精确度曲线

本文还以F1 得分为判断标准，对比每组实验结果，来证明在本文的情感分析任务中使用多模态的效果优于单模态（T 为文本、A 为音频、V 为视频）。表2～4 为3 个数据集上的F1 得分。

表2 CMU-MOSI 上拼接融合的F1 得分 %

表3 IEMOCAP 上拼接融合的F1 得分 %

由表2～4 可知，多个模态组合的F1 得分均优于单一模态，其中3 种模态组合的得分最高。

综上，结合精确度与F1 得分，本文利用实验证明了多个模态的表现比单一模态表现更好，识别的效果更高。同时也注意到采用了3 种模态融合方法后比采用单一文本模态识别的F1 得分高了约2 个百分点，在此给出分析。首先，模型的训练数据量和质量对于融合模态的效果影响很大。如果融合模态的数据集规模较小，或者其中某些模态的数据质量不高，可能限制了整体的效能提升。其次，3 种模态的信息是否互补也是影响融合效果的关键因素。如果音频、视频和文本中的信息存在大量冗余或相似性较高，那么融合的效果可能会受到限制。此外，文本模态更易于处理和分析、更具有可解释性、更易于获取和标注，可能导致文本模态表现较好，成为主导模态。最后，融合多种模态的模型相对于单一文本模式的模型更为复杂。对于这个任务，参数配置对于效果提升较为重要，后续继续调整参数可能对性能有一定提升。

2.2.2 融合方法对比实验

由于在上面的实验中的多个模态的融合方式都是直接拼接，因此本文将注意力机制加入模态融合，利用注意力机制的优势放大3 个模态中重要的信息，获取具有更加丰富信息的融合特征，提升识别效果。

首先分别在3 个数据集的测试集上对3 个模态的不同融合方式进行实验并记录50 轮次的精确度，本文绘制了3 个模态2 种融合方式的每次实验的精确度曲线图，如图6～8 所示。

图6 CMU-MOSI 数据集上拼接与注意力融合精确度曲线

图7 IEMOCAP 数据集上拼接与注意力融合精确度曲线

图8 CMU-MOSEI 数据集上拼接与注意力融合精确度曲线

由图6～8 可以看出，将注意力机制应用于融合，在一定程度上可以提高识别精确度，并且能够缩短收敛时间。计算二者的F1 得分指标，比较识别性能。表5～7 为模型在3 个数据集上的F1 得分。

表5 CMU-MOSI 上的F1 得分%

表6 IEMOCAP 上的F1 得分%

表7 CMU-MOSEI 上的F1 得分%

如表5～7 所示，通过计算得到的F1 得分也可以看出基于注意力融合相较拼接融合而言F1 得分指标在3 个数据集上分别提升了0.9%、0.4%和0.8%，即情感识别效果优于拼接融合特征。

本文继续对2 种融合方式进行实验，以loss 收敛速度作为评价指标。当训练模型的损失曲线收敛的越快，代表模型学习到了数据中更多的信息，从而在相同数量的迭代次数下，使模型的训练误差更小。这也意味着模型可以更好地泛化到未见过的数据上，因为模型已经学会了数据中的共性特征，而不是只学习了数据集本身的特定属性。实验绘制了在拼接融合和基于注意力融合在训练学习时的loss 损失函数的前50 轮的损失函数曲线。图9～11 为训练损失曲线。

图9 CMU-MOSI 数据集上训练损失曲线

图10 IEMOCAP 数据集上训练损失曲线

图11 CMU-MOSEI 数据集上训练损失曲线

由图9～11 可见，训练学习时本文所使用的方法都可以使模型收敛，然而，基于注意力融合的特征进行训练的损失更小，且其收敛点出现的更早，说明对于同一个模型而言，基于注意力融合特征比直接拼接的特征有着更快的收敛速度，效果更好。

2.2.3 模型对比实验

本文还在CMU-MOSI 数据集上与支持向量机(support vector machines, SVM)、LSTM 进行了对比实验。F1 得分结果如表8 所示。

LSTM 在对比实验中的表现均优于SVM 的表现，这是因为SVM 在对话语进行分类时无法掌握话语的上下文信息，无法感知话语存在的语境信息。从表8 可以看出，基于注意力的BiGRU 在单模态与拼接模态的实验中总体优于LSTM。这再次证实，尽管2 个网络都可以访问上下文信息，但基于注意力的BiGRU 较LSTM 能力更强，能够捕获上下文中的关键信息。表8 中还证明了不同融合方式对结果也存在影响，在同一模型下，基于注意力融合的表现强于拼接融合，可以得到更有效的融合特征。

表8 的数据还体现了多模态的表现是优于单一模态的，不同模态通过互补信息，能够得到效果更好的融合特征。

3 结论

本文对多模态在情感识别中的应用进行了研究，提出了一个基于模态融合的情感识别网络模型，通过多模态融合构建融合特征，从而获得更好的分类效果。对模型进行实验并得出结论如下：

1）将多模态学习应用在情感识别邻域，多模态效果均好于单一模态，其中同时利用3 个模态的效果最优。

2）本文提出了一种基于模态融合的情感识别网络框架。特征融合模块中基于注意力融合能够得到表现良好的多模态融合特征。在特征增强模块中，将注意力机制与双向循环网络BiGRU 结合，充分地捕捉多模态融合特征的上下文信息，得到信息更加丰富且全面的新表示。

3）本文提出的网络模型的F1 得分均高于SVM 和LSTM，达到了81.0%。

本文提出的基于模态融合的情感识别网络在识别性能上有较好的表现，有一定的应用价值。