基于注意力机制的特征融合-双向门控循环单元多模态情感分析

2021-07-02 00:35赖雪梅陈虹羽李珊珊
计算机应用 2021年5期
关键词:集上模态话语

赖雪梅,唐 宏,陈虹羽,李珊珊

(1.重庆邮电大学通信与信息工程学院,重庆 400065;2.移动通信技术重庆市重点实验室(重庆邮电大学),重庆 400065)

(*通信作者电子邮箱798193875@qq.com)

0 引言

随着互联网的普及和科学技术的发展,大量用户通过社交媒体(如微博、抖音、快手等)以文本、图像、音频或视频等多种方式来发表自己的观点,海量社交媒体数据的形态不再局限于单一的文本模式[1]。面对如此庞大的多模态信息,虽然单模态数据的情感分析近年来在客户满意度分析、衡量投票意向等方面取得了成功,但由于信息的多样性,它不能有效处理多模态数据,多模态情感分析(Multimodal Sentiment Analysis)应运而生[2]。

多模态情感分析是在单模态情感分析的基础上,从文本、图像或音频组成的数据甚至视频数据中对观点、情感状态等进行的计算研究[3]。社交媒体是各种产品和用户服务意见的巨大来源,文本、图像、音频和视频等多个模态信息的有效结合可以更好地指导分析,减少分类错误,提高情感分类器的准确性。对视频进行情感分析可以弥补文本情感分析中声音和视觉的不足,语音和面部表情为更好地识别意见持有者的情感状态提供了重要线索,这对于舆情监控、商品推荐和研究用户反馈等实际应用具有重大的现实意义[4-5]。

近年来,深度学习方法在情感分析领域取得了广泛的应用,显示出巨大的潜力[6]。一般的深度学习模型有:卷积神经网 络(Convolutional Neural Network,CNN)[7]、长短时记忆(Long Short-Term Memory,LSTM)网络[8]和门控循环单元(Gated Recurrent Unit,GRU)[9]等。大多数研究者将深度学习模型与多模态情感分析相结合以解决多模态特征融合问题,文献[10]中使用LSTM 模型进行图文融合。虽然研究者对多模态情感分析模型提出了许多改进方法,也在一定程度上解决了相关问题并改善了性能,但仍存在不足之处。由于视频中的每一句话都是在不同时间以特定顺序说出的,所以视频可以视为一系列具有序列关系的话语。以前的方法大都忽略了视频中的话语顺序,没有考虑每个话语的上下文信息。因为情感的表达通常通过语言、声音和视觉等多种行为之间的相互作用完成,所以如何准确捕捉这些信息之间的联系至关重要。而且人们在进行情感表达时,每个模态对情感分类的贡献度不同,这会对最后的情感分类结果产生直接的影响。

本文针对以上问题,提出一种基于注意力机制的特征融合-双向门控循环单元多模态情感分析模型(Feature fusion based on Attention Mechanism-Bidirectional Gated Recurrent Unit,AMF-BiGRU)。首先,采用双向门控循环单元(Bidirectional Gated Recurrent Unit,BiGRU)对文本、语音和图像特征进行预处理,得到具有上下文信息的各模态特征表示;然后,通过跨模态注意力交互网络对各模态与模态之间的交互作用进行建模;最后通过注意力机制考虑各模态贡献程度,将视频中的多模态特征有效融合,从而进行情感分类。为验证本文模型的有效性,在CMU-MOSI(CMU Multimodal Opinion-level Sentiment Intensity)[11]和 CMU-MOSEI(CMU Multimodal Opinion Sentiment and Emotion Intensity)[12]数据集上进行测试,该模型在准确率和F1值上均表现出较好的分类效果。

1 相关工作

在视频多模态情感分析中,首先从视频中提取文本、语音和图像特征,然后使用早融合[13]或晚融合[14]的方法将其融合分类。目前多模态情感分析方法主要分为两类:1)独立学习各模态特征并将其融合输出[15-16];2)共同学习两种或三种模态之间的交互作用[17-22]。

在将多模态特征融合之前,提取相邻话语间的上下文关系是多模态情感分析领域中一个重要的研究课题。文献[15]中提出了BC-LSTM(Bi-directional Contextual Long Short-Term Memory)模型,该模型在提取每个样本特征时采用双向LSTM结构捕捉上下文信息。文献[16]提出了GME-LSTM(A)(Gated Multimodal Embedding Long Short-Term Memory with temporal Attention)模型,将LSTM 嵌入门控机制并结合时间注意力进行单词级别的融合。但是这两种方法都忽略了各模态内部信息与模态之间交互作用的结合。

如何对模态内部信息与模态之间的交互作用进行建模是一个问题,文献[17]中提出了张量融合网络(Tensor Fusion Network,TFN),通过创建多维张量来模拟单个模态和交叉模态特征,将单模态、双模态和三模态之间的相互作用结合起来,但其空间复杂度较高。随着注意力机制(Attention Mechanism,AM)[18]的流行,越来越多的研究者将AM 应用于多模态情感分析中:文献[19]中提出了多注意力循环网络(Multi-Attention Recurrent Network,MARN),通过分配多个注意分数来模拟模态内部和跨模态之间的交互作用;文献[20]中则提出了一种基于注意网络和门控记忆的多视图顺序学习的神经网络结构,对模态之间的交互作用进行建模,称之为记忆力融合网络(Memory Fusion Network,MFN);文献[12]中利用动态融合图代替MFN 中的注意网络来学习模态动力学,得到了Graph-MFN(Graph Memory Fusion Network)模型;文献[21]和文献[22]则利用多头注意力机制进行多模态情感分析研究。虽然上述文献在精度度量方面取得了成功,但未对融合过程中的各个模态是如何参与交互创造新的见解,而且也没有考虑各个模态的贡献程度对最后情感分类结果的影响。

2 基于AMF-BiGRU多模态情感分析模型

图1 为本文提出的基于注意力机制的特征融合-双向门控循环单元多模态情感分析(AMF-BiGRU)模型框架。

图1 AMF-BiGRU模型框架Fig.1 Framework of AMF-BiGRU model

AMF-BiGRU模型主要包括以下4个部分:

1)上下文话语特征表示,称之为Level1。该部分主要是将提取出的文本、语音和图像特征分别输入BiGRU 网络中,得到各自具有上下文信息的特征表示。

2)跨模态注意力交互(Cross-Modality Attention Interaction,CMAI),称之为Level2。这一部分主要是将模态内部信息和模态之间的交互作用相结合,得到具有交互作用的各模态特征表示。

3)多模态注意力融合,称之为Level3。该层主要使用注意力机制来考虑各模态的贡献程度,并将多模态信息融合。

4)情感分类:将融合的多模态信息进行情感分类。

2.1 上下文话语特征表示

每段视频可以看作是由一系列具有上下文关系的话语组成。假设共有N段视频,其中任意视频i的最大话语长度为Li,则视频i的全部话语为:ui=ui1,ui2,…,。对于视频i中的任意话语j,采用由卡内基梅隆大学提供的多模态数据SDK工具分别获取文本、语音和图像特征,可以得到视频i中话语j的文本特征表示语音特征表示、图像特征表示。假设各单模态特征有km维,对于模态m的每个话语特征可以表示为,将一段视频中所有话语的特征存放于矩阵中得到:

其中:m代表哪个模态,且m∈{T,A,V},T 代表文本、A 代表语音、V代表图像。

GRU 模型由更新门zt和重置门rt构成,结构简洁,能够有效缓解梯度爆炸或弥散问题。GRU可表示为:

其中:xit为视频i中第t个话语的输入特征为话语t的候选隐藏状态,ht为话语t的隐藏层状态;U、W和b分别为权重和偏置;δ函数为Sigmoid 激活函数,*表示矩阵对应元素相乘。虽然GRU 能够解决话语的长期依赖问题,但并未利用话语之间的上下文信息。BiGRU不仅参数少,而且训练快,能够记住话语中上下文的长期依赖关系,输出更紧凑的表达信息。因此本文采用BiGRU 模型去捕捉各模态中所有话语的上下文信息,其表达式如下:

2.2 跨模态注意力交互

多模态情感分析的一个挑战在于如何有效地将模态内部信息与模态之间的交互作用相结合,而各个模态之间是如何参与交互的是一个令人深思的问题。在AMF-BiGRU 模型中,模态内部信息由Level1 中得到的具有上下文信息的特征表示;受文献[23]的启发,将具有上下文信息的特征通过CMAI网络层,从而获得模态之间的交互作用。此处CMAI 网络层主要由三部分组成:

1)CMAI_TA(Cross-Modality Attention Interaction_Text Audio):将具有上下文信息的文本、语音特征输入到CMAI_TA 网络层中,获得文本和语音之间的跨模态交互作用表示

2)CMAI_TV(Cross-Modality Attention Interaction_Text Visual):将具有上下文信息的文本、图像特征输入到CMAI_TV 网络层中,获得文本和图像之间的跨模态交互作用表示

3)CMAI_AV(Cross-Modality Attention Interaction_Audio Visual):将具有上下文信息的语音、图像特征输入到CMAI_AV 网络层中,获得语音和图像之间的跨模态交互作用表示

假设由CMAI_EQ(Cross-Modality Attention Interaction_EQ)网络层获得视频i中模态E和模态Q之间的跨模态交互作用表示。其中,将Ei和Qi作为CMAI_EQ 网络层的输入特征。可得到具有交互作用的模态E 特征表示为,其计算公式如下:

2.3 多模态注意力融合

人们在进行情感表达时,并非所有的模态对情感分类都同等重要。有些人喜欢用浮夸的表情来表达自己的喜好,而有些人更倾向用音调的高低来进行情感的表达,所以各模态情感特征的贡献程度对最后的情感分类会产生直接的影响。本文根据AM 确定各模态的贡献程度,将在Level2 得到的模态m的特征输入到注意力网络,且模态m所占的注意力权重为βm,通过加权累加得到最后用于分类的融合总特征,计算的表达式为:

其中:Pm为隐藏单元状态,分别是权重和偏置,βm是经归一化后的权重向量。

2.4 情感分类

使用全连接层和softmax 函数对融合总特征进行情感分类,分类结果为:

式中:Wt、bt为全连接层的权重和偏置,Wsoft、bsoft为softmax 层的权重和偏置,yi为最终的情感分类结果。

2.5 优化策略

在训练过程中,本文采用交叉熵作为损失函数,公式如下:

3 实验结果与分析

3.1 实验数据集

本文采用CMU-MOSI 和CMU-MOSEI 数据集进行仿真实验。

1)CMU-MOSI(CMU Multimodal Opinion-level Sentiment Intensity)数据集:包括93段视频、2 199个话语,每个话语都有一个与之相应的情感标签。在本文中,获取的文本、语音和图像特征中每个话语的特征维度分别为100 维、73 维和100 维,每个话语的情感极性被标注为积极或消极。采用62 段视频(1 447 个话语)作为训练集、31 段视频(752 个话语)作为测试集,并从训练集中选取20%数据作为验证集。

2)CMU-MOSEI(CMU Multimodal Opinion Sentiment and Emotion Intensity)数据集:是目前最大的视频多模态情感分析数据集。包括3 229 段视频、22 676 个话语,每个话语都有一个与之相应的情感标签,其情感标签范围为[-3,+3]。在本文中,获取的文本、语音和图像特征中每个话语的特征维度分别为300 维、74 维和35 维,将情感极性大于等于0 的记为积极、小于0 的记为消极。采用2 250 段视频(16 216 个话语)作为训练集、679 段视频(4 625 个话语)作为测试集、300 段视频(1 835 个话语)作为验证集。实验数据集的统计信息如表1所示。

表1 实验数据集的统计信息Tab.1 Statistics of experimental datasets

3.2 参数设置及评价指标

实验代码采用基于Tensorflow后端的Keras深度学习框架编写。在模型的训练过程中,参数设置十分重要,本文所提方法的参数设置如表2所示。

表2 实验参数设置Tab.2 Experiment parameters setting

本文通过准确率(Accuracy)和F1 值(F1-Score)对情感分类的性能进行评估,F1 值是综合考虑了精确率和召回率的指标。

3.3 实验分析

为了验证本文所提模型的有效性,对比实验采用两种形式:一是同AMF-BiGRU 模型的变体进行对比,二是同经典的多模态情感分析模型进行对比。

AMF-BiGRU 模型的变体有3 种:1)NM(No Model):不使用任何模型,直接将文本、语音和图像特征拼接,然后送入softmax 分类器进行分类输出。2)BiGRU:将各单模态特征分别输入上下文BiGRU 层,并进行拼接分类输出。3)CMAIBiGRU(Cross-Modality Attention Interaction Bidirectional Gated Recurrent Unit):在BiGRU 的基础上,加入跨模态注意力交互网络层,然后再分类输出。

经典的多模态情感分析模型有以下6种方法:

1)BC-LSTM[15]。在提取各单模态特征时采用双向LSTM网络结构捕捉上下文信息。

2)GME-LSTM(A)[16]。将LSTM 嵌入门控机制并结合时间注意力进行单词级别的融合。

3)TFN[17]。通过创建多维张量来模拟单个模态和交叉模态特征,将单模态、双模态和三模态之间的相互作用结合起来。

4)MFN[20]。基于注意网络和门控记忆的多视图顺序学习的神经网络结构,很好地建模了模态间交互作用。

5)MARN[19]。通过分配多个注意分数来模拟模态内部和跨模态之间的交互作用。

6)Graph-MFN[12]。利用动态融合图代替记忆力融合网络中的注意网络来学习模态动力学。

在以下表格中,各符号代表含义为:文本(Text,T)、图像(Visual,V)、语音(Audio,A),T+V 表示文本与图像融合,T+A表示文本与语音融合,V+A 表示图像与语音融合,T+V+A 表示文本、图像与语音融合。

表3和表4分别显示了本文所提AMF-BiGRU 模型及其变体在CMU-MOSI、CMU-MOSEI 数据集上的准确率和F1 值对比。就单模态特征、双模态融合特征以及三模态融合特征而言,本文将AMF-BiGRU 模型同其变体进行对比分析。对比BiGRU 与NM 模型,在CMU-MOSI 数据集上,BiGRU 比NM 在分类准确率上提升了2.52%~10.94%,在F1 值上提升了2.14%~10.65%;在CMU-MOSEI数据集上,BiGRU 比NM 在分类准确率上提升了0.61%~3.52%,在F1 值上提升了1.37%~4.07%。由此可见,加入BiGRU 来考虑话语中上下文的依赖关系是有效的。

由于跨模态交互作用需要在两个模态及以上进行,由表3 和表4 可以看出,在CMU-MOSI 数据集上,CMAI-BiGRU 比BiGRU 在分类准确率上提升了0.29%~4.94%,在F1 值上提升了0.14%~4.16%;在CMU-MOSEI 数据集上,CMAI-BiGRU比BiGRU 在分类准确率上提升了0.21%~0.64%,在F1 值上提升了1.10%~1.49%。实验结果表明,考虑跨模态交互作用能提高情感分类性能。

表3 AMF-BiGRU模型及其变体在CMU-MOSI数据集上的准确率和F1值对比 单位:%Tab.3 Comparison of accuracy and F1-Score among AMF-BiGRU model and its variants on CMU-MOSI dataset unit:%

表4 AMF-BiGRU模型及其变体在CMU-MOSEI数据集上的准确率和F1值对比 单位:%Tab.4 Comparison of accuracy and F1-Score among AMF-BiGRU model and its variants on CMU-MOSEI dataset unit:%

对比AMF-BiGRU 与CMAI-BiGRU 模型:在CMU-MOSI 数据集上,AMF-BiGRU 比CMAI-BiGRU 在分类准确率上提升了1.08%~4.03%,在F1 值上提升了1.20%~3.48%;在CMUMOSEI 数据集上,AMF-BiGRU 比CMAI-BiGRU 在分类准确率上提升了0.52%~1.96%,在F1 值上提升了0.77%~2.13%。由此可见,各模态的贡献程度会对最后的情感分类结果产生影响,而本文提出的AMF-BiGRU模型情感分类效果最好。

由表3 和表4 可以看出,在两个数据集上,对于任一种模型,利用单模态特征进行分类时,文本特征的分类准确率和F1 值最高,那是因为文本中通常包含更丰富的信息;利用双模态融合特征进行分类时,文本-图像、文本-语音的分类性能相当,但双模态融合特征的分类性能都比其单模态特征好;利用三模态融合特征进行分类时的效果最好。所以,将文本、语音和图像这三种特征进行有效融合有助于提高情感分类的性能。而本文提出的AMF-BiGRU 模型在三模态融合特征中的分类效果最好,其在CMU-MOSI 数据集上的准确率和F1 值分别达到了82.05%、82.02%;在CMU-MOSEI 数据集上的准确率和F1值分别达到了78.48%、78.16%。

就三模态融合特征而言,表5 显示了AMF-BiGRU 模型与经典的多模态情感分析方法在CMU-MOSI 和CMU-MOSEI 数据集上的准确率和F1 值对比。对于CMU-MOSI 数据集,本文所提模型在准确率上比BC-LSTM、GME-LSTM(A)、TFN、MARN 方法分别提升了2.18%、7.25%、6.42%、6.01%,在F1值上比BC-LSTM、GME-LSTM(A)、TFN、MARN 方法分别提升了2.40%、11.74%、5.29%、6.52%。

表5 不同方法在CMU-MOSI和CMU-MOSEI数据集上的准确率和F1值对比 单位:%Tab.5 Comparison of accuracy and F1-Score among different methods on CMU-MOSI and CMU-MOSEI datasets unit:%

对于CMU-MOSEI 数据集,本文所提模型在准确率上比BC-LSTM、MFN、MARN、Graph-MFN 方法分别提升了1.13%、3.26%、2.72%、2.05%,在F1 值上比BC-LSTM、MFN、MARN、Graph-MFN方法分别提升了1.11%、2.84%、2.30%、1.51%。

实验结果表明,提出的AMF-BiGRU 模型的准确率和F1值在CMU-MOSI 和CMU-MOSEI 数据集上均优于对比方法。分析结果产生的原因,AMF-BiGRU 模型的优越性在于:首先使用BiGRU 充分利用了上下文话语间的互补信息;其次使用CMAI网络层将两个模态之间的交互作用进行了很好的结合,考虑了模态间的动态联系;最后使用注意力机制为每个模态分配一个权重,使权重较大的模态更有助于情感分类。

3.4 耗时分析

在常用的计算机处理器上对每个话语进行情感预测,具体实验环境为:Intel Core i5-7500 CPU 3.40 GHz,8.00 GB RAM,Windows 10,Python 3.6.5。AMF-BiGRU 模型在CMUMOSI 和CMU-MOSEI 数据集上的实际处理速度如表6 所示。从表6 可以看出,对于CMU-MOSI 数据集,每个话语的平均预测耗时为3.067 ms,远小于每个话语的平均时长4.536 s;对于CMU-MOSEI 数据集,每个话语的平均预测耗时为1.544 ms,远小于每个话语的平均时长7.158 s,所以能够满足实时性要求。之所以这两个数据集的平均预测耗时不同,是因为这两个数据集的特征提取方式不同,导致每个话语中各模态的特征向量维度不同,计算机的处理速度会有所差异。

表6 不同数据集中每个话语的耗时情况Tab.6 Time consumption of each utterance in different datasets

此外,本文还对不同方法在CMU-MOSI和CMU-MOSEI数据集上预测每个话语的耗时情况进行了对比,如表7所示。

表7 不同方法在CMU-MOSI和CMU-MOSEI数据集上预测每个话语的耗时对比Tab.7 Time consumption comparison of different methods to predict each utterance on CMU-MOSI and CMU-MOSEI datasets

从表7 可以看出,将这些模型应用于视频话语情感预测时,每个话语的平均预测耗时均远小于平均时长,实时性都比较高。对于CMU-MOSI数据集,BC-LSTM 模型比较简单,所以其预测耗时最小;GME-LSTM(A)模型加入了门控和短时注意力,所以其结构较BC-LSTM 复杂,预测耗时相应增加;TFN 模型使用了张量网络,MARN 模型运用多模注意力块,涉及大量的张量运算,这两个预测耗时是最多的;AMF-BiGRU 模型引入了跨模态注意力交互和多模态注意力融合层,其预测耗时位列第三,但和对比模型都相差不大。对于CMU-MOSEI数据集,BC-LSTM 模型预测耗时最小;MFN 模型使用记忆注意网络学习多视图之间的交互,其预测耗时增加;Graph-MFN 模型使用动态融合图替代MFN 模型中的记忆注意网络,增加了更复杂的张量运算,所以其预测耗时最多;从整体来看,AMFBiGRU模型与对比模型在每个话语的平均预测耗时方面都相差不大,都能很好地满足实时性需求。

3.5 例子分析

为了更好地体现本文所提方法的泛化性,采用一些实际数据在AMF-BiGRU 模型上进行测试,如表8 所示。表8 中所列话语为一段视频中的连续几个话语片段,表中列出了每个话语的文本(T)、图像(V)、语音(A)的实际表示,以及真实情感与预测情感的情感极性。

表8 多模态情感分析的例子Tab.8 Examples of multimodal sentiment analysis

图2 视频图片Fig.2 Pictures of a video

可以看出,从文本、图像、语音任意单模态信息中,话语1和话语3都可以明显地表示出消极的情感,话语5可以明显地表示出积极的情感,所以情感预测正确。虽然话语2 中的文本表示比较含蓄,而且带有微笑的表情,但是其音调低、语速偏慢,它的下文(即话语3)情感极性是消极的,所以可以正确地预测出话语2 表示的是消极的情感。话语4 中图像和语音表现出中性情感,但其文本很明显地表示出积极,所以可以正确预测出其情感极性为积极。通过这个多模态情感分析的例子,可以表明AMF-BiGRU 模型能将文本、图像、语音这三种模态信息有效融合,正确预测出每个话语的情感极性。

4 结语

为了有效地将视频中所包含的情感进行分类,提出了一种AMF-BiGRU 模型进行视频多模态情感分析研究。首先,使用BiGRU 获取视频中话语之间的上下文信息;然后,使用跨模态注意力交互网络获取两个模态之间的交互作用;最后,引入注意力机制来考虑各个模态的贡献程度。在公开的CMUMOSI 和CMU-MOSEI 数据集上进行验证分析,实验结果表明本文提出的AMF-BiGRU 模型可以很好地将多模态特征融合,提高多模态情感分类性能。在整体上,本文所提出的方法在准确率以及F1 值上均优于其他方法。如何提高多模态情感分析模型的鲁棒性是下一步的主要研究内容。

猜你喜欢
集上模态话语
画与理
联合仿真在某车型LGF/PP尾门模态仿真上的应用
关于短文本匹配的泛化性和迁移性的研究分析
基于老年驾驶人的多模态集成式交互设计研究
《漫漫圣诞归家路》中的叙述者与叙述话语
模态可精确化方向的含糊性研究
雷人话语
雷人话语
师如明灯,清凉温润
日版《午夜凶铃》多模态隐喻的认知研究