陈诗汉, 马洪江, 王 婷, 何松泽
(成都信息工程大学计算机学院,四川 成都 610200)
近年来随着社交媒体的快速发展以及智能手机的普及,多模态数据呈爆炸式增长,如图像、视频等。多模态数据是用户交流和记录生活的媒介,通常蕴涵着丰富的个人情感。从多模态数据中挖掘和理解情感信息,即多模态情感分析(multimodal sentiment analysis,MSA),已经成为一个热门的研究课题。相较于传统的文本情感信息提取,对于视频这类的多模态数据提取会存在很多困难,因为其包含了语音、文本以及图像信息。而且传统的基于单模态情感分析的机器学习方法在多模态情感分析这类任务上存在较大的局限性[1]。
鉴于人可以用不同的方式表达情感,包括使用不同的声调或面部表情,对于这些多模态数据,同一数据段中的不同模态会相互补充[2],为语义和情感消歧提供额外帮助。因此可以使用多模态融合相关技术来识别人类的情感[3]。多模态融合技术是一种从海量多模态数据中提取整合信息并可用于提高信息处理效率的技术[4],现已被广泛用于处理结构化数据和文本数据[5]。目前该领域的大部分工作都集中在早期或晚期融合上。早期的融合模型采用简单的网络架构,Zadeh等[6]提出了一个张量融合网络,在更深层融合了不同的模态表征。薛其威等[7]通过多模态特征融合对无人驾驶系统车辆进行检测,在KITTI数据集上其平均检测精度为84.71%。另外,Sun等[8]优化了模态表征之间的相关性以进行融合,然后将融合结果传递给下游任务。
受深度学习的影响,各类相关研究层出不穷,其中注意力机制获得广泛关注,LSTM(long short-term memory)被用于随时间捕获模态之间的交互。颜增显等[9]利用多模态通道注意力网络来融合不同模态的特征进行人脸反欺骗算法研究,在CASIA-SURF数据集上获得良好的效果。王旭阳等[10]利用注意力机制与时域卷积网络建立多模态融合的模型,在CMU-MOSI数据集上相较于基线有了较大的提升。Tsai等[11]提出一种可以动态调整模态之间的权重,为多模态融合提供可解释性的方案。受模态分离领域进步的推动,Hazarika等[12]将模态特征投影到专有和公共特征空间中,以捕捉不同模态的独有和共享特征以方便后期进行融合。虽然这些研究中能达到的效果比较有限,但也为后续相关研究做好了相应的铺垫。Makiuchi等[13]提出了一种基于Transformer的模型将语音和文本数据进行融合,在IEMOCAP数据集上得到73.0%的准确率。Byun等[14]也提出了一种利用深度学习融合语音和文本数据进行情感识别的模型,在自行构建的韩语数据集上达到了95.97%的准确率。还有黄欢等[15]设计了一个AV-MSA模型,利用交叉投票机制将视觉与音频信息融合进行情感分析,在IEMOCAP和WB-AV数据集上取得了较好的效果,这些研究表明情感识别任务可以从多模态中受益。
在MSA任务中进行信息抽取以及信息融合的时候可能会丢失实际信息并额外引入每种模态携带的噪声。为减少这个问题带来的影响,一种互信息(mutual information,MI)方法被用于评估成对的多维变量(即各个模态)之间的依赖关系,并且可有效去除与下游任务无关的冗余信息[16]。由于互信息在处理时,会存在信息丢失的问题[17]。本文基本互信息方法提出了一种多模态融合最大化模型(multi-modal fusion max,MMFM),其核心是在多模态融合中分层最大化互信息。
本文提出一种基于多模态融合的分层MI最大化模型,用于多模态情感分析。其中多模态融合最大化发生在输入和融合模块,可以减少有价值任务相关信息的丢失。在公开的情感数据集上进行的实验,获得较好的效果。
在多模态情感分析任务中,模型的输入是从视频片段中提取的单模态原始序列Xm,其中m表示向量维数。文中,m∈{t,v,a},其中t,v,a分别表示3种不同类型的模态——文本、视觉和声音。目标是从这些输入向量中提取和整合关于任务相关的情感信息,形成统一的表示,并将其用于对反映情感强度的真值y进行准确预测。
整体框架结构如图1所示,输入的信息包括视频、文本和语音3种。首先,模型使用特征提取器和编码器分别将3种原始输入处理为数字序列向量Xv,Xa,Xt。然后,编码后的数据主要经过融合网络和MI最大化两部分进行处理,分别对应着图1中的实线和虚线标记。其中,在融合部分融合网络将不同模态信息两两交互,将单模表示转换为融合结果K,再通过回归多层感知器(multi-layer perception,MLP)进行最终的预测。在互信息部分,MI最大化是为了估计和提升输入层和融合层的MI下界。这两个部分同时工作用于产生后续识别任务以及互信息相关的损失,通过模型学习将任务相关信息融入融合结果,并提高主任务中预测的准确性。
图1 模型总体结构
模态编码负责将多模态顺序输入Xm编码为单位长度表示为 Hm具体来说,对于文本信息,使用BERT[18](bidirectional encoder representation from transformers)对输入句子进行编码,并从最后一层的输出中提取头部嵌入作为Ht。对于视觉和声学的内容,采用两种特定于模态的单向LSTM[19]捕捉这些模态的时间特征。
互信息是信息论中的一个概念,用于估计变量对之间的关系[20],定义为
其中x与y为不同的随机变量。
Alemi等[21]首先将与MI相关的优化结合到深度学习模型中。另外在其他研究中也有证明MI最大化的优势[22]。然而,由于在高维空间中直接进行MI几乎是不可能的,所以很多工作都是直接优化MI的下界。文中,是在输入级别和融合级别应用MI下界,并根据要估计的项的数据特征和数学属性制定这些界限的估计方法。
MI可以评估视频中不同模态间的依赖程度,通过将MI最大化可以实现多模态间更好的融合。对于视频V,将来自单个视频剪辑的模态表示对标记为X和Y(它们之间通常存在相关性),在先验分布已知时,可以将X和Y的先验分布化为P(X)=∫VP(X,Y|V)P(V),P(Y)=∫VP(Y|V)P(V),联合分布为P(X,Y)=∫VP(X,Y|V)P(V)。因存在相关性,可以利用MI过滤掉与任务无关的噪声来提高性能。基于以上分析,为实现多模态更大程度的融合并且保持模态内容不变,本文利用一个易于处理的MI下限,而不是直接计算MI,并参照Baber等[23]采用的较为准确且直接的MI下限,其近似于真值条件分布p(y|x),如式(2)所示。
其中q(y|x)是预测的概率分布,KL是用于度量两个概率分布相似度的指标,H(Y)是Y的微分熵,IB为Baber等使用的MI下界。当q(y|x)=p(y|x)时,界值和真值之间没有差距。在每一对模态(X,Y)中,其中一个模态视为X,则另外一个模态视为Y。然后训练一个预测器q(y|x)来逼近p(y|x)。本文在实验过程中优化了不同模态对的边界—文本与视觉、文本与声学、视觉与声学。另外,在消融研究部分检查了设计的有效性。将q(y|x)公式化为多元高斯分布qθ(y|x)=N(y|μθ1(x),(x)I),两个神经网络由 θ1和 θ2参数化为分别预测均值和方差。损失函数为:
其中n是训练中的批量大小,tv,ta,va表示3个预测变量的可能性之和。
本文采用情感极性(非负/负)作为分类标准,它是数据集中的一个自然属性,可以平衡估计精度和计算成本。对于熵项H(Y),使用高斯混合模型(Gaussian mixed model,GMM)来求解计算,这是一种常用的未知分布近似方法。GMM为不同的属性类别建立了多个高斯分布。多元正态分布的熵为:
式中k是GMM中向量的维数,det(∑)是协方差矩阵∑的行列式。基于数据集中两个极性类别的频率几乎相等,本文采用来自Huber等[24]使用的GMM熵的下界和上界,公式如下:
其中hc是c类的子分布的熵,wc为c类子分布的先验概率。取下界作为近似值,得到MI下界的熵项:
另外,在训练时,根据统计理论,应该增加批量大小以减少估计误差,可以通过包含最近历史的数据来间接扩大采样批次。在实验过程中将这些数据存储在历史数据存储器中,MI下限最大化的损失函数由式(7)给出:
为捕获模态之间的模态不变线索,在融合结果和输入模态之间重复MI最大化。目标是产生融合结果K=F(Xt,Xv,Xa)的融合网络F。由于已经有了从Xm到K的生成路径,考虑一条相反的路径,即从K构造Xm,m∈{t,v,a}。可以使用分数函数作用于归一化的预测和真值向量来衡量它们的相关性:
其中Gφ是参数φ的神经网络,它从K生成Hm的预测,通过将同一批次中该模态的所有其他表示视为负样本,将这个分数函数合并到噪声对比估计框架[25]中,即
等式(9)实际上视为二分类交叉熵损失,H是一组样本,公式中分数上下两部分可以视为正负样本对,当正样本对之间的互信息更大,负样本对之间的互信息更小时,符合互信息最大化要求,因此通过优化该损失,可以让互信息最大化。由于对比预测编码(contrastive predictive coding,CPC)可以学习更多的全局结构,在模型中,融合结果K反向预测跨模态的表示,以便可以将更多模态固有信息传递给K。此外,通过将每个模态的预测对齐,使模型能够决定它应该从每种模态中接收到多少信息。损失函数为
训练过程包括两个阶段:在第一阶段,近似p(y|x)与q(y|x)通过最小化多模态预测变量的负对数似然。在第二阶段,将之前的MI下界作为辅助损失添加到主要损失中。在获得最终预测及真值y后得到任务损失:
其中MAE(mean absolute error)代表平均绝对误差损失。最后来计算所有这些损失的加权和以获得该阶段的主要损失:
其中α、β是控制 MI最大化影响的超参数。
采用数据集为关于多模态情感分析研究的公开数据集,即 CMU-MOSEI[26],它包含来自 YouTube的23454个电影视频剪辑。
本文分别采用P2FA[27]和COVAREP[28]工具包对于图像和音频内容进行特征提取。而对于文本内容,使用预训练好的BERT模型来获得词向量,最后在GPU上训练模型。评测指标如下:平均绝对误差(MAE),它是预测值和真值之间的平均绝对差值,衡量预测偏斜程度的皮尔逊相关性(pearson correlation,Corr),七分类准确度(seven-classclassification accuracy,Acc-7),二分类准确度(binary classification accuracy,Acc-2)和F1分数。
为了解本文模型的相对性能,将模型与许多具有较好效果的基线进行比较,如 TFN[14]、LMF[29]、MFM[16]、MULT[11]、ICCN[30]和 MISA[13]。
实验结果见表1所示,对于Acc-2和F1值有两组评估结果,左边值为积极情绪结果,右边值为消极情绪结果,可以发现MMFM与许多基线方法相比具有更优的结果。具体来说,本文模型在 CMU-MOSEI上的Acc-7、Acc2、F1得分都优于其他模型。对于其他指标,MMFM的性能也非常好。这些结果初步证明了本文的方法在多模态情感分析任务中的有效性。
表1 CMU-MOSEI数据集上的运行结果
为体现模型中提出的损失函数和相应估计方法的优势,本文在CMU-MOSEI上进行了一系列消融实验,表2为不同消融设置下的结果。首先,消除了一个或几个MI损失项,包括模态间的MI下限(IB)和CPC损失。从表2中可以注意到去除部分MI损失后明显的性能下降,它显示了多模态融合最大化模型的效果。此外,通过将多模态MI中的当前优化目标对替换为单个对或其他对组合,无法获得更好的结果,也验证设计的合理性。然后测试熵估计,当停用历史记忆并仅使用当前批次评估中的μ和∑时,出现“NaN”值,表示训练过程崩溃。因此,基于历史的估计具有保证训练稳定性的优点。最后,将GMM替换为统一的高斯分布,其中μ和∑在所有样本上进行估计,不管它们的极性类别如何,结果发现所有指标都有明显下降,这意味着基于自然分类的GMM可以更准确地估计熵项。
表2 模型消融研究结果
从模型在数据集上的表现来看,本文提出的多模态最大化融合框架在针对多模态情感识别的问题上取得一定的效果。且进一步的消融研究结果验证了模型的有效性。在未来,将多模态应用于情感分析会有较好的发展潜力以及较高的应用价值,相信这项工作可以更多激发多模态情感分析的创造力。