基于音视频特征融合的情感识别方法研究

2022-02-18 08:30程慧杰李小兵

重庆理工大学学报(自然科学) 2022年1期

帖云，程慧杰，靳聪，李小兵，齐林

(1.郑州大学信息工程学院, 郑州 450001；2.中国传媒大学信息与通信工程学院, 北京 100024；3.中央音乐学院, 北京 100031)

情感计算的概念最早由Picard教授在《情感计算》[1]一书中提出，其被定义为一切和情感有关的计算。视频情感识别作为情感计算的一个重要分支，吸引了越来越多研究者的关注。目前，大多数视频情感识别研究主要集中于分析视频中人脸的面部表情所表达的情感[2-3]，而不以人为中心的视频情感计算的研究[4-7]的共同点是直接处理整幅视频帧，忽略了视频中复杂的视觉关系，这就会造成缺乏足够的视觉特征表示，也会导致信息冗余。另外，现有的多模态情感分析中的融合方法多采用简单神经网络[8]和拼接[4]，这容易造成模态间的隐藏信息丢失，从而导致较差的模型性能。

因此，本文提出了一种基于对象交互和跨模态交互融合的多模态情感识别方法，仅考虑包含对象的视频帧区域之间的情感关联，利用跨模态交互模块学习模态间的隐藏信息，实现情感预测的任务。具体地，对于视觉信息流，首先采用Mask R-CNN提取出视频帧中包含对象的区域及对应的特征序列；然后通过在特征空间衡量节点特征的相似性构造情感关系图，去探索视频帧中不同对象之间的情感关联；最后采用图注意力网络对视频帧中复杂的视觉关系进行推理，与传统的图卷积神经网络不同，引入注意力机制为不同的节点特征分配不同的权重系数，找到对视频情感贡献较大的区域。对于音频流，先利用多头自注意力机制学习不同频谱特征空间的声学信息，然后利用双向长短时记忆网络(Bi-LSTM)提取对数梅尔频谱片段的上下文信息，提取的声学特征用于跨模态信息学习，对视觉信息进行补充；对于音视频特征融合，利用跨模态注意力机制学习模态之间的关联，该模块将标准的Transformer层与跨模态注意力机制结合起来，通过学习音频/视频信息得到最终的视觉/声学特征表示。

本文的贡献主要包括3个方面：

1) 对象间的情感关系推理：通过在特征空间衡量节点特征的相似性，构建由对象和视觉关系组成的场景图，利用图注意力网络对包含对象的不同区域之间的情感关系进行推理，找到视频的关键区域;

2) 声学特征提取：利用多头自注意力机制和双向长短时记忆网络捕获序列中的长期依赖关系，利用帧级上下文信息对视觉信息进行补充;

3) 模态融合：跨模态注意力机制被应用到特征融合网络中来学习音视频之间的隐藏信息，并得到具有音/视频感知的视/音频特征表示，然后利用自适应门控融合将更新后的音视频特征进行融合。

1 相关工作

传统的情感识别主要集中在语音[9]、文本[10]等单一模态，虽然这些研究在各自领域已经取得了很大的进展，但是由于人脑接收信息的多样性使得单模态情感识别的准确率得不到保证，而多模态情感识别是通过学习不同模态数据之间的关联，捕获数据之间的互补信息[4,7]，而提高情感识别的精确率，多模态情感计算逐渐成为研究趋势。

随着深度学习的快速发展，长短时记忆网络[5]、卷积神经网络[11]等深度学习模型逐渐应用到视频情感识别研究当中。Poria等[5]提出了一个基于双向长短时记忆网络(Bi-LSTM)的模型，捕获视频中的上下文信息，从而帮助分类过程。Gao等[11]提出了一个FT-EC-net网络用于缓解视频情感表达的稀疏性。但是情感通常由特定场景下多个对象执行特定事件而触发，这就需要对对象间的关系进行推理，而这些方法通常直接处理整幅视频帧而忽略了对象间的情感关联，导致模型性能没有显著提升。近年来，图推理已成功应用于计算机视觉领域[12-14]，其核心思想是使视频帧的不同区域之间能够交互，生成这些区域的上下文表示。在本文中，我们将图推理扩展到视频情感识别领域，利用GCN网络对视觉场景图进行推理。

在多模态情感计算中，如何将多模态信息进行有效融合是提升多模态情感识别精度的关键。传统的多模态融合主要分为数据层融合、特征层融合和决策层融合。就具体方法而言，主要分为基于简单操作[4]、基于普通神经网络[8]和基于注意力机制[6-7,15]的模态融合策略。Zhao等[4]提出了一个基于音视频特征融合的端到端的视频情感识别网络，提升了情感识别的精度，但是他们在特征融合阶段将音视频特征进行简单地concatenate，这会导致模态间的信息不能充分利用；Lian等[7]提出了基于注意力机制的多模态情感识别模型，为不同模态的信息分配不同的权重，虽然基于注意力机制的融合相比concatenate而言，模型性能有所提升，但是这种方法忽略了模态间信息的学习。因此，提出采用跨模态注意力机制进行跨模态隐藏信息的学习，更好地将音视频特征进行融合。其中，Yu等[15]提出的模型与本文方法相关，他们提出了一个跨模态交互模块用于为每个词生成图像感知的词表示和文字感知的视觉表示，与其不同的是本文将跨模态交互模块用于音视频之间的跨模态信息学习。

2 方法模型

提出一个基于音频和视频2种模态数据进行跨模态信息学习的情感识别模型，该模型通过视觉关系推理的方式探索视频场景和对象中包含的情感线索，找到视频的关键帧；同时提取梅尔频谱片段的上下文信息作为声学特征对视觉信息进行补充，然后利用跨模态交互模块学习不同模态数据间的隐藏信息，从而实现对用户生成视频的情感预测任务，模型框架如图1所示。

图1 模型的总体框架

2.1 视觉关系推理

视频中的场景和对象包含大量的情感线索，比如画面的鲜血通常代表恐惧，而鲜花和阳光通常传递着开心，因此我们提出了一个基于对象交互的视觉关系编码网络对视觉信息进行编码，找到对视频情感贡献较多的区域即视频关键帧。直接将视频帧表示成场景图会导致图推理过程复杂，因此应用Mask R-CNN[16]网络提取出视频帧中包含物体的区域以及对应的特征序列。为了更好地对时空特征进行建模，通过在特征空间衡量不同区域特征之间的相似性构造了一个similarity graph，该similarity graph不仅可以学习同一帧中不同区域之间的情感关联，还可以捕获同一区域在不同帧中的情感关联。

具体地，把包含物体的特征序列看作情感关系图中的节点，邻接矩阵A的非零元素表示节点i(i∈[1,N])的所有相邻节点，它用来衡量2个节点表达相同情感的概率。但是并非所有的节点对情感分析的贡献都是相同的，因此引入注意力机制为连接到节点i每条边分配一个权重系数，权重系数是利用单层的前馈神经网络(FNN)得到。2个节点的特征相似性可以表示为：

Sij=φ(vi)Tφ′(vj)

(1)

式中：φ(v)=W1v和φ′(v)=W2v表示节点特征的变换；W1和W2是通过反向传播学习得到的权重系数。

利用Softmax函数对矩阵的每一行进行归一化，使连接到同一个节点的所有边的权重系数和为1：

(2)

G=A⊙Gij

(3)

式中：⊙表示Hadamard product矩阵上相应位置元素相乘；G表示加权后的邻接矩阵。

为了对视觉场景图进行推理，引入GCN网络[7]，图卷积层可以定义为：

V=GvW

(4)

式中：v为节点特征；W为权重系数。

如图2所示，图卷积神经网络由多层图卷积层堆叠而成。

图2 图注意力网络框架

2.2 声学特征提取

为使一维的语音信号能够像图像一样方便地被卷积神经网络处理，使用64个Mel滤波器提取语音信号的静态频谱片段特征及它的第一次求导系数和第二次求导系数，将它们进行拼接之后就可得到类似于RGB图像的梅尔频谱片段。然后利用ResNet-18网络作为特征提取器提取频谱的特征a=(a1,a2,…,an)。为了捕获语音信号长期的语义相关性，采用多头自注意力机制[17]聚集来自不同子空间的信息。多头注意力由H层平行的缩放点积注意力层堆叠而成，其可通过下式计算得到：

(5)

式中：Q、K、V是计算多头注意力机制的查询、键、值矩阵。

为计算多头注意力机制，需要先把Q、K、V映射到不同的子空间中：

(6)

多头注意力计算公式如下：

MultiHead(Q,K,V)=WConcat(head1,…,headH)

(7)

(8)

式中的Q、K、V被设置成相同的声学特征矩阵a=(a1,a2,…,an)，此时多头注意力机制就变成了自注意机制。基于此，得到基于自注意力机制的声学特征表示A=[A1,A2,…,An]。

但是时间建模对于音频信号语义理解至关重要，不能只依赖于自注意力机制去学习不同子空间的信息而忽略了上下文学习，因此采用双向长短时记忆网络整合声学特征的上下文信息。然后将得到的声学特征序列输入到Bi-LSTM网络中，得到声学特征的上下文表示h=[h1,h2,…,hn]。

3 跨模态交互融合

将不同模态特征进行concatenate会导致模态间信息丢失，为了更好地将音视频特征进行融合，引入跨模态交互融合模块[14]学习模态之间的隐藏关联，该模块分为两部分：跨模态交互模块和自适应门控融合模块。

跨模态交互模块如图3所示，以生成具有音频感知的视觉特征表示为例，首先采用了一个p头的跨模态注意力机制，使视觉模态可以接收音频信息，其计算过程如下：

(9)

MH-CMA(V,h)=W′[CMA1(V,h),…,CMAp(V,h)]T

(10)

式中：Wqi、Wki、Wvi、W′分别表示Q、K、V和多头注意力机制的权重矩阵。

图3 跨模态交互模块

跨模态交互模块的最终输出计算如下：

O=LayerNorm(V+MH-CMA(V,h))

(11)

S=LayerNorm(O+FNN(O))

(12)

式中：LayerNorm是指Layer Normalization层，FNN是前馈神经网络。

所以最终的具有音频信息感知的视觉特征表示为S=[S1,S2,…,Sm],同理可得，具有视觉感知的声学特征表示为Z=[Z1,Z2,…,Zn]。

为更好地融合音视频特征，采用基于门控神经网络的融合模型[18]用于特征融合，该模型可以很容易地与其他神经网络体系结构结合，其目标是为不同模态的数据找到中间表示。

使用以下公式来计算音视频特征的中间表示，即用于情感预测的最终表示：

tS=tanh(WS·S+bS)

(13)

tZ=tanh(WZ·Z+bZ)

(14)

G=σ(W3[S,Z]+b)

(15)

x=G*tS+(1-G)*tZ

(16)

式中：WS、WZ、W3是可学习的参数；bS、bZ、b为偏置向量。

4 实验结果

4.1 数据集

Video Emotion-8[19]：该数据库共包括1 101个视频片段，这些视频是从Youtube和 Flickr网站下载得到，所有视频的平均持续时间为107 s。根据 Plutchik的情感划分标准，将视频类型人工标注为8种基本情感类型：生气、期待、厌恶、恐惧、悲伤、高兴、吃惊、信任。表1 显示了每个情感标签中的视频数量。

Ekman-6 Dataset：该数据集也是从Youtube和Flickr网站收集的，总的视频数量是1 637，每个视频的持续时间约为112 s，这些情感被分为6类：生气、厌恶、恐惧、悲伤、高兴、吃惊。

4.2 相关参数及设置

实验平台：在Amax服务器上进行消融研究和对比实验，显卡是8块Titan V显卡，每块显存为12 GB；CPU型号是40核的Intel(R) Xeon(R) CPU E5-2640 v4，主频为2.40 GHz；开发环境为Python 3.6。

参数设置：为评估所提出的模型，在数据集Video Emotion-8和Ekman-6数据集上进行训练和测试。对于Video Emotion-8数据集，任意选择2/3的数据进行训练，其余的视频用于测试。而对于Ekman-6数据集，选择819个视频作为训练集，选择818个视频作为测试集。每一模块的超参数设置如下：

1) 对于视频流中包含物体区域的选取：发现在每帧中选取10个proposals足够用于情感识别任务；

2) 在利用图卷积神经网络进行推理时，将GCN的层数设置为3，卷积运算的参数用标准差为0.01的高斯分布初始化；

3) 实验结果表明：当LSTM隐藏层维度为200～300时，模型表现良好，因此本文将隐藏层的维度被设置为256；

4) 跨模态注意头的数量m=12。最后，训练采用Adam优化算法自动调整学习率，初始的学习率为0.000 1，训练最大迭代次数为200次。

4.3 消融研究

为了探究不同模态的信息对模型结果的影响，在基准数据集Video Emotion-8和Ekman-6上进行了消融研究，实验结果如表1-3所示，其中CMI是跨模态交互模块(cross modal interaction module)的缩写。

表1 Video Emotion-8数据集中每个情感类别的数量

表2 所提模型在Video Emotion-8数据集上的实验结果

表3 所提模型在Ekman-6数据集上的实验结果

由表2和表3可知：

1)当单独使用音频或者视频模态的特征进行视频情感预测时，提取的局部对象特征在本文模型上的性能表现较好，这是因为提出的视觉关系推理网络考虑了不同对象之间的交互，提取到丰富的视觉特征；

2)虽然单一模态的分类精度不高，但是当加入跨模态注意力机制学习不同模态间的信息后，模型性能有较为明显地提升，这是因为模态间的信息是互补的，基于帧级上下文的声学特征对视觉信息进行了很好地补充；

3)不论是利用单一模态进行情感分析还是融合多种模态对视频情感进行预测，模型在数据集Ekman-6上的分类精度普遍高于数据集Video Emotion-8，因为Video Emotion-8的另外2种情感Anticipation和Trust较难判别。

4.4 对比实验

所提出的模型与以下基准模型进行了对比实验：

1) SentiBank:Borth等[20]构建了一个大型的视觉情感本体,该本体由1 200个概念和成为SentiBank的相关分类器组成；

2) E-MDBM[8]：以DBM为基础提出了一个多模态输入空间的联合密度模型；

3) Image Transfer Encoding(ITE)[21]:提出借用以情感为中心的字典和辅助图像对视频进行编码；

4) Context Fusion Network(CFN)：利用预先训练好的CNNs模型检测视频中的事件、场景和对象，并利用CFN网络将提取到的深层语义特征融合到一起。

为了评估所提模型，在数据集Video Emotion-8和Ekman-6上比较了本文模型与基线模型的性能。实验结果如表4和表5所示，发现所有的方法都考虑了视觉特征，这是合理且可行的，因为结构化的视频对象中包含着丰富的情感线索。而以前的方法大多直接提取整幅视频帧的特征，忽略了对象之间的情感关联。与SentiBank和E-MDBM相比，本文所提模型的分类准确率分别提高了17.6%和12.7%，这是因为SentiBank和E-MDBM方法直接处理整幅视频帧的特征，忽略了对象之间的交互。另外，虽然ITE模型分类精度有所提升，但是这种方法需要额外的辅助数据训练分类器，导致了模型的复杂度增加。这里CFN利用简单的神经网络去检测视频中的场景、事件所包含的情感线索，但是它并未挖掘场景和对象中的深层语义信息。与之相比，本文的模型采用了图注意力网络对视觉关系进行推理，分类精确度提升了2.5%。图4展示了本文模型的一些分类结果。

表4 不同模型在数据集Video Emotion-8上的实验结果

表5 不同模型在数据集Ekman-6上的实验结果

图4 视频情感预测的定性结果

5 结论

提出了一种有效的基于音视频特征融合的情感识别框架，实现了对视频情感进行预测的任务。与现有方法不同，通过对视频帧的不同区域之间的视觉关系进行推理找到视频帧中对情感贡献比较大的区域，在推理过程中不仅可以捕获不同视频帧之间的联系，而且可以学习同一帧中不同区域之间的情感关系。另外，使用跨模态交互模块学习音视频模态之间的联合嵌入空间，将音视频特征进行有效融合。实验结果表明：本文模型具有较高的精度。