多模态数据融合综述

2021-09-26 10:42任泽裕王振超柯尊旺吾守尔斯拉木

计算机工程与应用 2021年18期

任泽裕，王振超，柯尊旺，李哲，吾守尔·斯拉木

1.新疆多语种信息技术实验室，新疆多语种信息技术研究中心，乌鲁木齐830046

2.新疆大学信息科学与工程学院，乌鲁木齐830046

3.新疆大学软件学院，乌鲁木齐830046

在数据领域，多模态用来表示不同形态的数据形式，或者同种形态不同的格式，一般表示文本、图片、音频、视频、混合数据[1]。多模态数据是指对于同一个描述对象，通过不同领域或视角获取到的数据，并且把描述这些数据的每一个领域或视角叫做一个模态[2]。而多模态数据融合，主要是指利用计算机进行多模态数据的综合处理[3]，负责融合各个模态的信息来执行目标预测。数据融合是一项具有挑战性的任务。首先，数据是由非常复杂的系统生成的；其次，由于数据多样性的增多，可以提出的新的可以进行研究的类型、数量以及规模都变得越来越大；第三，为使得各个数据集自身的优势得以最大程度的利用，使用异构数据集，使得缺点得到一定程度的抑制并不是一项简单的任务[4]。常见的机器学习算法等均可尝试应用于多模态数据融合中。

1 多模态融合分类法

关于多模态的融合方法，大致可分为模型无关的融合方法和基于模型的融合方法两大类。其中，模型无关的方法较简单但实用性低，融合过程容易产生损失；基于模型的融合方法较复杂但准确率高、实用性强，也是目前运用的主流方法。

1.1 模型无关的融合方法

在多模态融合的过程中，融合发生的时间是一个重要的考虑因素。针对不同的融合时期或融合水平，模型无关的融合方法共有三种，每种融合方法都有各自的特点。在不同的实验中，可以尝试使用不同的融合方法去得到更好的结果[5]。模态的一些特性，如不同的数据采集速率，对如何同步整个融合过程提出了新的挑战。以下对三种融合方法做详细的概述。表1对三种融合方法进行比较。

表1 三种模型无关融合方法性能比较Table 1 Performance comparison of threemodel-independent fusion methods

1.1.1 早期融合

早期融合，又称为特征融合，是指对模态进行特征提取之后立刻进行的一种融合方式。特征融合的优势在于可以在早期利用来自不同模态的多个特征之间的相关性，适用于模态之间高度相关的情况。例如，在结合语音识别的音频和视频特征时采用早期融合[6]。但对于特征的提取难度较大[7]，并不是最理想的融合方法。

这种方法很难表示多模态特征之间的时间同步[8]。由于各种模态的表征、分布和密度可能有所不同，只进行简单的属性之间的连接可能会忽视各个模态独有的属性和相关性，并可能会产生数据之间的冗余和数据依赖[9]。并要求需要融合的特征在融合之前以相同的格式进行表示。随着特征数量的增加，很难获得这些特征之间的交叉相关性。图1所示为早期融合方法。

图1 早期融合方法Fig.1 Early fusion methods

1.1.2 后期融合

后期融合，也称为决策层融合，指的是在每种模态都做出决策（分类或回归）之后才进行的融合。进行后期融合，需要使用相应的模型对不相同的模态进行训练，再对这些模型输出的结果进行融合。与之前的早期融合作比较，该融合方式可以处理简单的数据异步性。另一个优势是允许使用最适合分析每种单一模态的方法，如音频使用隐马尔可夫模型（Hidden Markov Model，HMM）、图像使用可支持向量机（Support Vector Machines，SVM）。

但后期融合忽视了多个模态之间的低水平的相互作用，并且融合起来难度较高。由于不同的分类器需要不同的决策，学习过程变得既耗时又费力。图2所示为后期融合方法的结构。

图2 后期融合方法Fig.2 Post fusion method

1.1.3 混合融合

混合融合综合了早期融合与后期融合的优点，但也使得模型的结构变得复杂并加大了训练的难度。由于深度学习模型所具有的灵活性和多样性的结构特点，比较适合使用混合融合方法。例如，Ni等人[10]将混合融合方式应用于多媒体分析任务中，提出基于多重BP（Back Propagation）网络的图像融合方法，充分利用了各网络的精度。图3所示为混合融合方法的结构。

图3 混合融合方法Fig.3 Hybrid fusion method

综上所述，三种融合方法各有优势和劣势。早期融合可以较容易地找到各个特征之间的关系，却容易造成过拟合；后期融合可以解决过拟合问题，但不允许分类器同时训练所有数据[11]；混合融合方法较前两者方法灵活，但是需要针对具体体系结构，根据具体问题与研究内容去选择较适宜的融合方法。

1.2 基于模型的融合方法

基于模型的融合方法较模型无关的方法应用范围更广且效果更好，现在的研究更倾向于此类方法。常用方法包括多核学习方法、图像模型方法、神经网络方法等。

1.2.1 多核学习方法

多核学习（Multi-Kernel Learning，MKL）方法是内核支持向量机（SVM）方法的扩展，是深度学习之前最常用的方法，其允许使用不同的核对应数据的不同视图[12-13]。由于核可以看作各数据点之间的相似函数，因此该方法能更好地融合异构数据且使用灵活[14]。McFee等人[15]使用MKL从声学、语义和艺术家的社会观三方面进行音乐艺术家相似性排序，提出的新的多内核学习（MKL）算法，它可以学习相似的空间项目来产生相似的空间，以最佳方式将所有特征空间组合到一个统一的嵌入空间中。图4为多核学习的过程。

图4 多核学习过程Fig.4 Multi-kernel learning process

在某些应用中，可能有来自不同的模态或对应于不同实验方法的结果的不同信息源，而且每个信息源都有自己的一个或多个内核[16]。该方法的优点是核选择灵活，损失函数为凸函数（极小值即为最小值），可使用全局最优解训练模型，提升模型性能。可以设计更好的MKL算法提高精度，减少复杂性和训练时间。

由于在许多应用中，人们提出许多可能的核函数，不是选其中一个而是将它们结合使用，导致在多核学习方法中存在大量的工作。较高的时间复杂度和空间复杂度是导致多核学习方法不能广泛应用的主要原因。另一个缺点是占用内存大，对训练数据有一点的依赖性。

1.2.2 图像模型方法

图像模型方法也是一种常见的融合方法，主要通过对图像进行分割、拼接、预测的操作将浅层或深度图形进行融合，从而得到最终的融合结果[14]。

常见的图像模型分为生成式（联合概率）模型和判别式（条件概率）模型。许多研究中使用图像模型，尤其是在统计自然语言处理方面，集中在生成模型上，这些模型试图对输入和输出的联合概率分布进行建模[17]。早期主要使用生成模型，如动态贝叶斯网络（Dynamic Bayesian Networks）[18]、隐马尔可夫模型。后来的研究中，判别模型更受欢迎，比生成模型更简单、更容易学习。常见的判别模型如条件随机场（Conditional Random Field，CRF）[19]，对图像的组成成分进行分类标记[20]。表2对生成模型和判别模型进行比较。

表2 生成模型与判别模型比较Table 2 Comparison of generation model and discrimination model

图像模型的优势主要是它们容易发掘数据中的空间结构和时间结构，通过将专家知识嵌入到模型中，使得模型的可解释性增强。缺点是特征之间具有复杂的依赖关系，并且模型的泛化性不强。

1.2.3 神经网络方法

神经网络方法是目前应用最广泛的方法之一[21]。常使用长短期记忆网络（Long Short-Term Memory，LSTM）和循环神经网络（Recurrent Neural Network，RNN）来融合多模态信息。例如利用双向长短期记忆网络进行多模态情感识别[22]；利用多模态循环神经网络（multimodal Recurrent Neural Networks，m-RNN），直接将图像表示和词向量以及隐向量作为多模判断的输入，在图像字幕处理等任务中表现出良好的效果[23]。

一些研究者通过模型拼凑达到了比多核学习和图像模型更好的效果。将神经网络方法应用于多模态融合中具有较强的学习能力、较好的可扩展性。缺陷是随模态数量的增加，深度学习可解释性变差，并需要依赖大量的训练数据。表3对三种基于模型的融合方法进行比较[24-26]。

表3 基于模型的融合方法比较Table 3 Comparison of model-based fusion methods

基于遗传算法（Genetic algorithm，GA）的神经网络结构优化是最早用于神经网络结构搜索和优化的元启发式搜索算法之一[27]。在21世纪初，一种称为增强拓扑的神经进化（NEIT）[28]的算法也使用GAs来进化越来越复杂的神经网络结构，受到了广泛关注。Shinozaki等人[29]应用GAs和协方差矩阵进化策略来优化DNN的结构，将DNN的结构参数化为基于有向无环图表示的简单二进制向量。由于遗传算法搜索空间可能非常大，并且搜索空间中的每个模型评估都很昂贵，所以使用大型GPU集群的并行搜索来加速该过程。如果设计了网络体系结构的合适表示，并且在搜索过程中训练和测试多个体系结构的成本不是非常昂贵，那么这些神经网络结构搜索和优化技术可以容易地扩展到多模态设置[30]。

贝叶斯优化（Bayesian Optimization，BO）[31]是超参数优化的一种流行选择，常被用于多模态融合优化[32]。

2 背景知识

2.1 单一模态表示

2.1.1 图片特征提取

Dalal等人提出的方向梯度直方图（Histogram of Oriented Gradient，HOG）特征提取算法[33]主要是通过计算图像局部区域梯度，并将每个局部区域中各像素点梯度的方向直方图级联。HOG特征提取算法的基本流程图如图5所示。

图5 HOG特征提取算法的基本流程图Fig.5 Basic flow chart of HOG feature extraction algorithm

具体步骤如下[34]：

（1）对图像进行灰度化操作和γ标准化处理。

（2）用中心对称算子k=[-1,0,1]及转置计算横纵坐标的方向梯度。

（3）将图片分割为多个小方块，并且每个小方块由4个单元所组成，每个单元由8×8像素组成。方块的滑动步长为1个单元。θ(x,y)把[0,π]分为9个小区间。单元中的每一个像素点都为直方图通道进行权重为g(x,y)的加权投票，从而得到每个单元内9个方向的梯度直方图。

（4）按照顺序级联9个单元的梯度直方图，得到图像的HOG特征μHOG。

2.1.2 文本特征提取

林敏鸿等人[35]采用双向门控循环网络（Bidirectional Gate Recurrent Unit，Bi-GRU）构建文本特征提取网络，并对Bi-GRU层的输出进行加权以突出关键部分，从而获得更精确的文本特征表达。该网络结构如图6所示。

图6 文本特征提取网络结构Fig.6 Text feature extraction network structure

在Bi-GRU神经网络中，将词向量{ωi1,ωi2,…,ωit}按正向输入方式得到相应的前向隐藏层输出{hi1,hi2,…,hit}。hit的计算如式（1）：同理，得到相应的后向隐藏层输出{gi1,gi2,…,git}。

将hit和git拼接得到第t个单词上下文信息的表示如式（2）：

将hit输入一层隐藏层，用tanh激活得到yit，接而得到标准注意力权重，如式（3）、（4）：

文本特征表示Ti，计算公式如式（5）：

2.1.3 语音特征提取

语音特征提取是以帧为单位进行提取的。在语音特征提取任务中，一般采用openSMILE工具[36]对语音数据进行特征提取。还有一种就是采用梅尔频率倒谱系数（Mel Frequency Cepstral Coefficient，MFCC），基于人类听觉感知（不能感知超过1 kHz的频率）进行特征提取[37]。MFCC的整个过程如图7所示。

图7 MFCC特征提取过程Fig.7 MFCC feature extraction process

在Mel滤波器组处理阶段，通过式（6）将普通频率转化到Mel频率：

在动态特征阶段，需要增加与倒频谱特征随时间变化相关的特征。从时间样本t1到时间样本t2的窗口中的信号X在帧中的能量由式（7）表示：

分帧提取的特征信息只反应了本帧语音的特性，为了使特征更能体现时域连续性，可以在特征维度增加前后帧信息的维度。常采用一阶差分和二阶差分。c()t表示第t帧的MFCC特征。一阶差分的计算方法如式（8）所示：

2.2 多模态信息表示

利用多模态信息进行自然语言处理，要明确语音信息、文本信息和视觉模态信息如何进行融合。尤其是利用同源多模态信息或异源多模态信息时的语义融合范式是否相同。

根据具体融合操作不同，可以大致划分为三种主要的方法：基于拼接和线性组合等简单融合操作的方法、基于注意力机制的融合方法和基于双线性池化的融合方法。这三种方法均是通过对特征向量进行相关操作达到多模态信息的融合及表达。

2.2.1 简单融合操作的方法

深度学习可以通过简单的操作将来自不同信息源的向量化特征进行融合，如连接或加权求和。这些操作通常有很少或没有关联参数，因为深度模型的联合训练可以调整高层的特征提取层次以适应相应的操作。方法如下：

（1）连接可以组合低级输入特征[38-40]或由预先训练的模型[41-42]提取的高级特征。

（2）对于具有权重的加权求和，利用一种迭代方法实现，该方法要求预先训练的向量表示具有相同数量的元素，并按照适合元素相加的顺序排列[43]。这可以通过训练一个全连接层来进行维度控制并为每个模态重新排序来实现。

研究表明[44]可以利用渐进探索的神经结构搜索[45]来寻找一些融合功能的合适设置。并且每个融合功能都可以根据需要融合的层以及使用连接或加权和作为融合操作进行配置。

2.2.2 基于注意力机制的方法

目前注意力机制被广泛用于融合操作。注意力机制指的是由小型“注意力”模型在每个时间步长动态生成的一组标量权重向量的加权和[46-47]。通常使用多个输出来生成多组动态权重以进行求和。这组注意力的多个输出可以动态产生求和时要用到的权重，因此最终在拼接时候可以保存额外的权重信息。在将注意力机制应用于图像时，对不同区域的图像特征向量进行不同的加权，得到一个最终整体的图像向量。

（1）图注意力机制

将用于文本问题处理的LSTM模型进行扩展，得到了一个以LSTM隐藏状态为条件的图像注意力模型，该模型的输入是当前嵌入单词和参与的图像特征的拼接[48]。最终利用LSTM的隐藏状态进行多模态融合的表征，进而可以被应用于视觉问答任务之中。这种基于RNN的编码-解码器模型的注意力模型可以用来帮助图像字幕问题分配注意力权重[49]，并且可以通过文本查询来找到图像对应的位置。堆叠注意力网络（Stacked Attention Networks，SANs）同样也可以使用多层注意力模型对图像进行多次查询，逐步推断出答案，模拟多步骤的推理过程[50]。在每一层中，通过将前一层根据图像特征和文本特征生成的查询向量添加到当前注意力模型生成的图像向量中，生成一个细化的查询向量并发送到下一层。将这一过程多次迭代，从而得到问题的答案。图8为视觉问答的堆叠注意力网络模型图。

图8 视觉问答的堆叠注意力网络Fig.8 Stacked attention network for visual question answers

（2）图和文本的对称注意力机制

与图像注意力机制不同。共同注意力机制使用对称的注意力结构来生成注意力图像特征向量和注意力语言向量[51]。平行共注意力机制是利用一种联合表征方法，推导出图像和语言的注意力分布。交替共注意力机制则具有级联结构，首先利用语言特征生成含有注意力的图像向量，然后利用含有注意力的图像向量生成出含注意力的语言向量。平行注意力机制和交替注意力机制模型图如图9、图10所示。

图9 平行共注意力机制Fig.9 Parallel co-attention mechanism

图10 交替共注意力机制Fig.10 Alternating co-attention mechanism

与平行共注意力网络类似，双重注意力网络（Dual Attention Network，DAN）同时估计图像和语言的注意力分布，从而获得注意力特征向量[52]。这种注意力模型以特征和相关的记忆向量为条件。与共同注意力相比，这是一个关键的区别，因为使用重复的DAN结构，记忆向量可以在每个推理步骤中迭代更新。

为了模拟模态之间的高阶交互作用，两个数据模态之间的高阶相关性可以表示为两个特征向量的内积，并用于导出两个模态的参与特征向量[53]。

（3）其他类似注意力机制

门控多模态单元是一种基于门控，为图像和文本分配注意力权重的方法[54]。该方法基于门控机制动态生成的维度特定标量权重，计算视觉特征向量和文本特征向量的加权和。

2.2.3 基于双线性池化的融合方法

双线性池化通过计算外积的方式将视觉特征向量与文本特征向量进行融合，从而创建联合表示空间，这种方法可以充分利用向量元素间的交互作用。这种方法也被称为二阶池化[55]。与简单的向量组合操作（假设每个特征向量为n维）不一样的是，简单的向量组合操作（如连接、逐位相乘和加权求和）都会生成一个n或2n维的表征向量，而双线性池化则会产生一个n2维的表征向量。这意味着这种方法更有表现力。

双线性池化方法同样可以与注意力机制相结合。通过双线性池化相关方法，如多模态低秩双线性池，可以将融合的双模态表示作为注意力模型的输入特征，进而得到含有注意力的图像特征向量，再次使用该方法与文本特征向量融合，得到最终的联合表示[56]。

3 多模态深度学习模型

3.1 深层结构化语义模型

深度结构化语义模型[57]（Deep Structured Semantic Model，DSSM）在2013年由Huang等人提出，是搜索领域的模型，属于后期融合。通过使用深度神经网络（DNN）把两种不同的模态数据表示为低维度的语义向量，并通过cosine距离计算两个语义向量之间的距离，最终训练出语义相似度模型。该模型既可以用来预测语义相似度，又可以获得某个模态的低维语义向量表达。该模型由输入层、表示层、匹配层三层结构构成，详细流程图如图11所示，模型图如图12所示。

图11 DSSM模型流程图Fig.11 Flow chart of DSSM

图12 DSSM模型图Fig.12 Illustration of DSSM

3.1.1 输入层

输入层的任务是将句子映射到一个向量空间里并将它输入到DNN中。

英文的输入层需要借助单词哈希表来实现，此类方法[57]旨在减少BOW向量的维数。它以字母n-gram为基础进行单词的切分，是专门为该任务开发的一种新方法。给定一个单词（如good），首先给该单词添加单词开始和结束标记（如#good#），将单词分解成字母n-grams，例如字母三元组：#go，goo，ood，od#。最后用字母ngrams的向量来表示这个单词。采用这种方法可以压缩空间，较为实用。

3.1.2 表示层

这层主要通过使用DNN将高维稀疏文本特征映射到语义空间中的低维密集特征，最终得到一个128维的低维语义向量。

将特征向量X映射到对应的语义概念向量y，如式（9）~（11）：

用tanh作为隐藏层和输出层的激活函数。

3.1.3 匹配层

查询和文档的语义相似性可以用两个语义向量的余弦相似度来表示。计算余弦相似度的方法如式（12）所示：

其中yQ和yD分别是查询和文档的概念向量。给定查询，文档按照它们的语义相关性分数排序。

通过softmax函数，根据文档之间的语义相关性得分，式（13）用来计算给定查询的文档的后验概率：

其中γ是softmax函数中的平滑因子，D为要排序的候选文档集，在理想条件下包含所有可能的文档。

此模型[57]的主要贡献是对之前提出的潜在语义模型在三方面进行了重大拓展。第一，通过直接针对文档排名的目标来优化所有版本模型的参数；其次，受最近在语音识别方面非常成功的深度学习框架的启发，使用多个隐藏表示层将线性语义模型扩展到它们对应的非线性模型。所采用的深层架构进一步增强了建模能力，从而可以捕获和表示查询和文档中更复杂的语义结构；第三，使用了一种基于字母n-gram的单词散列技术，这种技术被证明有助于扩大深度模型的训练，从而可以在实际的网络搜索中使用大量的词汇。DSSM对文档排序任务的性能提升较为显著。

在大规模的真实世界数据集（验证数据集）上对该模型进行评估，评估的所有排名模型的表现均通过NDCG[58]进行比较，表4中的结果表明，深度结构化语义模型表现最佳，以显著的优势击败了其他方法。其中，表4给出了DSSM在不同环境中的结果。

表4 DSSM与其他模型以及在不同环境下的比较结果Table 4 Comparative results with other models and in different environments of DSSM

3.2 记忆融合网络

对于多模态序列学习而言，模态往往存在两种形式的交互：模态内关联与模态间关联。Zadeh等人提出的记忆融合网络模型（Memory Fusion Network，MFN）[61]用来处理多模态序列建模，对模态内与模态间进行不同的处理。

记忆融合网络由三部分组成，分别是：长短期记忆系统、增量记忆注意力网络和多模态门控存储器。模型图[61]如图13所示，σ代表sigmoid激活函数，τ代表tanh激活函数，⊙代表哈达玛积，⊕代表元素加法。每个LSTM从一个方面对信息进行编码，如语言。记忆融合网络输入的是一个多模态序列，其中包含N个T维的模态。

3.2.1 长短期记忆系统LSTMs

在每一个模态序列中，一个LSTM随着时间对特定模态的交互进行编码。在每个时间点，各个模态的信息被输入到特定的LSTM中。对于第n个模态，cn表示分配给该模态的LSTM的内存，并用hn表示各个LSTM的输出，其中dcn为LSTM内存cn的维度。不同序列的输入、内存和输出的规模有所不同。

式（14）~（19）为LSTM定义的更新规则[62]：

in、fn、on分别表示第n个LSTM的输入门、遗忘门和输出门，mn为第n个LSTM在时间t下的内存更新。⊙代表哈达玛积，即元素乘积；σ为sigmoid激活函数。

3.2.2 增量记忆注意力网络DMAN

3.2.3 多模态门控存储器

上一层的输出值直接传入该组件，用来标识长短期记忆系统的内存中哪些维度构成了跨模态交互。并将ĉ[t-1,t]输入神经网络Du:R2×dc↦Rdmem来产生多模态门控存储器的跨模态更新规则ût，如式（22）所示。dmem为多模态门控存储器的维度。

这个更新公式是在对t时刻跨模态交互的观察的基础上对多模态门控存储器进行修改的。

多模态储器分别由两组门电路构成，分别为维持门γ1和更新门γ2，并分别由不同的神经网络控制。γ1负责记录多模态门控存储器当前有多少种状态；γ2负责基于跨模态更新规则ût对多模态门控的内存进行更新。使用ĉ[]t-1,t作为输入的多视角门控存储器门控机制的Dγ1,Dγ2:R2×dc↦Rdmem的控制部分，式（23）为γt1的计算公式：

在MFN递归的每一个时间点上，u利用维持门、更新门和当前的跨模态更新规则ût进行更新，公式（24）如下：

通过用tanh函数来激活ut，用以提高模型的稳定性。多模态门控存储器较LSTM存储器有两个优点：第一，多模态门控存储器具有更复杂的门控机制，两个门电路均由神经网络控制，所以性能更优。第二，多模态门控存储器的值在每次迭代中不会经历sigmoid激活，这样有利于加快收敛。

3.2.4 MFN的输出

MFN的输出包括多模态门控存储器的最终状态和每个长短期记忆系统的输出，计算方法如式（25）：

其中，hT表示单个序列信息，⊕表示向量的连接。

通过广泛的实验，将MFN与多个公开的基准数据集上提出的多模态序列学习的各种方法进行了比较。MFN优于所有多模态方法，优于所有目前最前沿的模型。

3.3 多模态循环融合模型

Wu等人[63]提出的多模态循环融合模型（Multi-modal Circulant Fusion，MCF），是一种同时使用特征和矩阵的融合方法，通过此模型来发现多模态特征之间的相互作用。MCF的模型图如图14（a）、图14（b）所示。

图14 多模态循环融合模型Fig.14 Flowchart of multimodal circulant fusion

给定两个不相同模态的特征向量：视觉特征x∈Ro和文本特征y∈Rn，式（26）、（27）是对投影向量的表示：

其中，W1∈Rd×o和W2∈Rd×n为投影矩阵，负责将两个输入要素投影到低维空间。

用投影向量V∈Rd、C∈Rd构造循环矩阵A∈Rd×d和B∈Rd×d，如式（28）、（29）：

为了让投影向量和循环矩阵中的元素充分发挥作用，有以下两种不同的乘法运算：

第一种选择使用循环矩阵和投影向量相乘，如式（30）、（31）：

第二种是让循环矩阵的投影向量与每个行向量作哈达玛积，如式（32）、（33）：

其中，ai∈Rd和bi∈Rd为循环矩阵A和B的行向量。

最后，通过一个投影矩阵W3∈Rd×k，将F∈Rd和G∈Rd的元素和向量转化为目标向量M∈Rk。

在MSVD数据集上，将MCF模型与其他同类模型进行比较，得到表5所示结果。

表5 与其他模型在MSVD数据集上比较Table 5 Comparison with other models on MSVD

4 多模态融合架构

多模态网络架构主要分为三种，即协同架构、联合架构和编解码器架构。

4.1 协同架构

协同架构的目标是查找协同子空间中各个模态之间的关联性。多模态协同架构是将各种单一模态在约束条件的作用下实现相互协同[69]。由于各个模态中所包含的信息有所差异，所以多模态协同架构有助于保留每个模态独特的特征。

此类架构[70]在跨模态学习中拥有较为广泛的应用，主流的协同方法是基于跨模态相似性方法，该方法旨在通过直接测量向量与不同模态的距离来学习公共子空间。基于跨模态相关性的方法[71]旨在学习一个共享子空间，从而使不同模态表示集的相关性最大化。图15为协同融合架构示意图。

图15 协同融合架构示意图Fig.15 Schematic diagram of collaborative integration architecture

跨模态相似性方法在相似性度量的约束下保持模态间和模态内的相似性结构，使得相同语义或相关对象的跨模态相似距离尽可能小，不同语义的距离尽可能大[14]。

Kiros等人提出的模态间排名方法[72]用来解决图像-文本融合任务，其中x为图像嵌入向量，v为文本嵌入向量，xk、vk分别为用于文本嵌入的对比图像和用于图像嵌入的对比句子。定义分数函数s(x,v)=xv，等价于余弦相似度。对排名的损失函数表示如公式（34）所示：

此类方法较好地保存了各个模态之间的相似性结构。协同架构的优点是每个独立的模态都可以运行，这个优点有助于跨模式的迁移学习，目的是在各个模态之间传递信息。但此类架构的缺点是模态融合难度比较大，同时模型很难在多种（两种以上）模态之间实现迁移学习。

4.2 联合架构

联合模态是指将多模态空间映射到共享语义子空间中，从而融合多个模态特征[69]。每个独立模态通过各自单独的编码之后，就会被映射到共享子空间中，依据这样的方法，在情感分析、语音识别等多模态的分类和回归任务中都表现优异。图16为联合融合架构示意图。

图16 联合融合架构示意图Fig.16 Schematic diagram of joint fusion architecture

联合架构的核心是实现特征“融合”，直接相加是一种最简单的方法。此方法在不同的隐藏层之间形成共享语义子空间，将经过转换的每个单模态特征向量的语义进行组合，从而完成多模态间的融合，方法如式（35）：

其中，W为权重，x代表每个单模态，f将单个模态的语义映射到共享语义子空间上，g为最终的结果。

以上方法虽然实现简单，但容易造成语义丢失，“乘”方法优化了它的这一缺点，让特征语义得到充分的融合。表达式如式（36）：

其中，v表示各个模态，⊗表示外积（即两个向量的向量积）。

此类架构对单个模态的语义的完整性有着比较高的要求，对于数据的不完整在后期的融合之中会被解决。文献[73]通过各个模态的特征之间的相关性，来找出多个模态之间的关联，并对这些特征进行分类后使用，在视频分类任务中的使用效果显著。

联合架构较其他架构而言，具有融合方式简单的优点，其共享子空间拥有语义不变性，这有利于模型中将一种模态转化为另一种模态。缺点是每个单独的模态在早期较难处理和发现。

4.3 编解码器架构

此类架构一般在需要将一种模态映射到另一种模态的多模态转换时使用，由解码器与编码器两个部分组成。编码器将初始模态映射到向量中，解码器基于之前的向量生成一个新模态。编解码器架构在视频解码、图像标注、图像合成等研究领域具有十分广泛的应用。

此类架构的优点是可以在初始模态的基础上生成一个新的模态。缺点是每一个编码器和解码器只能唯一的编码一种模态。图17为编码器融合架构示意图。

图17 编解码器融合架构示意图Fig.17 Schematic diagram of codec fusion architecture

5 多模态融合的应用

多模态融合技术，它融合了听觉、视觉、嗅觉、触觉等多种交互方式，使得表达信息的效率和表达信息的完整度更高。多模态以其描述对象的完全性，在多个领域有广泛的应用。以下列举几个比较常见的应用。

5.1 多模态视频片段检索

从不确定目标中检索特定时刻。以2D形式来表示不同的时间片段，为每个时间片段赋予预训练视频特征和语言特征的融合。关注的任务为时序动作检测，即需要在给定的长视频中，检测出其存在的动作片段类别，并定位出动作开始和结束的时间点。

Zhang等人提出了一种新的2D时间邻接网络[74]，核心思想是在二维时间图上检索一个时刻，该时刻将相邻的候选时刻视为时间上下文，该模型可以扩展到其他时间定位任务，如时间动作定位、视频重定位等。图18为2D时间邻接网络。

图18 2D时间邻接网络框架图Fig.18 2D time adjacency network frame diagram

提出的2D时间相邻网络的框架。它由用于语言表示的文本编码器、用于视频表示的2D时间特征映射提取器和用于矩定位的时间邻近网络组成。在模型中，给定一个未剪辑的视频和一句话做实验，来检索最佳匹配的临时段。2D时间特征图部分主要负责提取输入的视频中的特征，并将这些特征编码成二维时间特征图。在该部分首先对将视频分割为多个视频剪辑，二维时间特征图由三个维数组成，前两维表示开始和结束片段索引，最后一维表示特征维度(A∈RN×N×Dv)在文本编辑器中，对于句子中的每一个单词通过GloVe word2ve模型生成其嵌入向量；再将嵌入向量输入一个三层双向LSTM网络[62]，并使用其最后一层隐藏层作为输入句子的特征表示。提取出的语言和视频特征表示之后，从所有候选中预测句子所查询的最佳匹配时刻。它主要包括三个连续的过程：多模态融合、上下文建模和分数预测。(B,C∈RN×N×DH)

5.2 综合多模态信息生成内容摘要

此类应用是指在输入两种或多种模态信息（通常包括文本、视频、图像、语音等信息）之后，输出一段对多种模态信息综合之后的总结概括。如何使用相关文本、音频和视频信息生成文本摘要。

Li等人提出了一种提取多模态摘要的方法[75]，可以自动生成一个文本摘要给定的一组文件、图像、音频和视频有关的一个特定的主题。关键思想是缩小多模态内容之间的语义差距。对于音频来使用图像作为对齐来指出文档中的重要句子。对于文本信息，设计了一种选择性使用其转录的方法。对于视觉信息，使用神经网络学习文本和图像的联合表示。最后，考虑所有的多模态方面，通过预算优化子模态函数，最大化显著性、非冗余性、可读性和图像覆盖范围，生成文本摘要。多模态模型的框架图如图19。

图19 多模态摘要模型框架图Fig.19 Schematic diagram of multimodal abstract model

5.3 多模态情感分析

情感分析作为近几年研究的一个热点问题，受到广大研究者的青眯。之前的情感分析大多指文本情感分析，是指利用自然语言处理和文本挖掘技术，对带有情感色彩的主观性文本进行分析、处理和抽取的过程[76]。

近一段时间研究者们开始探索视觉方面情感分析的新思路，并取得了一些进展，并将研究方向转向了多模态中的图像。

Truong等人提出了一种利用视觉信息进行情感分析的新方法[77]，称为视觉方面注意力网络。该模型有一个分层的三层架构，将表示从单词聚合到句子，然后聚合到特定于图像的文档表示，最后聚合到最终的文档表示。基于这样的观察，即一个句子倾向于集中在特定的东西上，就像每个图像一样，设计了一个模型。该模型的最底层是一个单词编码器，负责把单词转化成句子表示。中间层是句子编码层，借助于视觉方面的注意力，将句子表示转化为文档表示。顶层为分类层，负责为文档添加情感标签。模型图如图20所示。

图20 视觉注意力网络Fig.20 Visual attention network

5.4 多模态人机对话系统

对人机对话系统的研究一直以来都是人工智能研究领域中的一个重要的研究方向。人们希望能够与机器进行类似于人与人之间的自然的交流，然而由于自然语言本身的复杂性远高于人造语言，因此对自然语言的处理到目前仍十分具有挑战性，也是人工智能领域最为困难的问题之一。难点主要包括：内容的有效界定、语言的歧义性和瑕疵输入的处理。其中最难以处理的问题是如何消除在对话过程中广泛存在的歧义性。

尽管此前在许多研究中提出了不同的解决方法并取得了不错的处理效果，但大多数是基于单一模态信息提出的解决方案，例如：文本处理和语音识别等。而在交流的过程中，信息的传递通常是通过多种形式进行的，如语音、肢体语言和面部表情等。而不同的模态信息在信息的表达性上具有不同层次的效果，因此在许多情况下难以通过某种单一模态的信息了解到信息传递者所要表达的完整意图。

而多模态人机对话系统则是充分利用了多模态信息之间的互补性，综合来自同一实例的音频、视频、图像、语义等信息进行识别工作，以获得更完整、更好的表达特征，对解决语言理解的歧义性具有很好的效果，如图21所示。例如，当用户询问“这本书的价格”时，对话系统需要通过视频根据用户的肢体动作来判断出用户所询问的书目信息进而做出相应反馈。

图21 基于视觉-音频的多模态识别模型图Fig.21 Visual-audio multimodal recognition model diagram

Le等人[78]开发了一个基于视频的对话系统，在该系统中是基于给定视频的视觉和听觉方面进行对话，比传统的基于图像或文本的对话系统更具挑战性，因为视频的特征空间跨越多个图像帧，使得难以获得语义信息；以及对话代理必须感知和处理来自不同模态（音频、视频、字幕等）的信息来获得全面的了解。而大多数现有的工作都是基于RNNs和序列到序列的架构，这对于捕获复杂的长期依赖关系（如在视频中）不是很有效。为了克服这一点，提出了多模态变压器网络（MTN，一个基于多头注意力的神经网络，可以在多模态环境下产生良好的会话应答）来编码视频和合并来自不同模态的信息。模型的整体框架如图22所示。

图22 多模态转换网络架构Fig.22 Multi-modal conversion network architecture

Cui等人[79]提出了用户注意力指导的多模态对话系统。模型的整体框架图如图23所示，该框架的任务是生成回复文本和选择回复图像，希望通过利用多模态对话的形式，结合不同模态信息，以给用户更加直观的印象，同时能够更加清晰地了解用户的表达。从高层的角度来看，双向RNN模型被用于编码用户和聊天机器人之间的话语级交互。对于低层视角，多模态编码器和解码器能够分别编码多模态话语和生成多模态响应。多模态编码器在分类-属性组合树的帮助下学习图像的视觉呈现，然后视觉特征通过注意机制与文本特征交互；而多模式解码器根据对话历史选择所需的可视图像并生成文本响应。为了评估提出的模型，该文作者在零售领域的公共多模态对话数据集上进行了大量实验。实验结果表明，通过整合多模态话语和基于用户属性级注意力的视觉特征编码，模型效果优于现有的先进方法。

图23 用户注意力指导的多模态对话系统模型Fig.23 User attention guided multimodal dialog system model

6 多模态融合有助于深度学习可解释

深度学习技术以数据驱动学习的特点，在自然语言处理、图像处理、语音识别等领域取得了巨大成就[80]。由于深度学习模型具有数据量大、神经网络层数较深、结构复杂等特点，使得可解释性变差，是人工智能领域中的一大挑战。因为在数据通过神经网络并得出相关预测结果时，人们往往难以解释其产生的原因，这样就会导致在很多时候研究人员不清楚如何修正和优化神经网络，进而提高其效率或避免其在应用过程中产生难以挽回的错误。

多模态融合技术通过充分利用多模态信息之间的互补性，能够获得更完整、更好的特征表达。使得在保证模型效果的情况下，在学习的过程中对不同的特征获得不同程度的强化，这对深度学习的可解释性有一定的帮助。在此基础之上可以进一步引入注意力机制，这种方法在保证模型效果的前提下，通过引入注意力向量，对信息特征及多模态深度学习网络中的隐藏层特征赋予不同的权重，并在训练过程中对该权重进行学习，进一步加强了其学习效果。通过利用各个特征对于模型学习的重要性程度对模型进行理解，进而达到解释模型的效果。

7 总结与展望

本文总结了多模态数据融合的研究现状，总结分析多模态融合方法、单一模态的表示、融合完成后信息的表示、多模态深度学习模型、融合架构。多模态融合方法分为模型无关的融合方法和模型相关方法两种。模型无关方法有早期、晚期、混合融合三种；模型相关方法包括多核学习方法、图像模型方法和神经网络方法三种。单一模态的表示、融合完成后信息的表示是融合过程的基础，确保特征提取及融合过程中信息的完整性是融合成功的关键。

由于单一模态缺乏多样性，现如今的研究者已经开始着手进行多模态的输入与输出，当输出信息包含多种模态时，可以尽可能达到研究者的期望。例如当给出一段外文视频，对其中的语言并不熟悉时，可以通过图片和视频大致领会重要内容。在未来的研究中，跨模态学习将会变成一个热点问题，在各个研究领域都会有广泛的应用。人工智能的最终目的是设计出完全与人类智能相媲美的智能计算机系统[81]。而单一的自然语言处理、计算机视觉和语音识别技术从一种模态对信息的理解与人类的行为之间有着较为明显的差异。所以多模态的应用比单一模态更接近人类的行为。作为一种能让机器更加贴近人类行为的技术，跨模态学习有望在未来获得全面的发展。

下一步可利用多模态交互在空间上可以更快、效率更高、交互识别准确率更高的优势，而且对于关键的任务完成率更高的特点，针对多模态人机交互融合进行研究。单一的交互模式有时候在交互过程当中会有一定的局限性，并且交互效率较低，而采用多模态融合交互模式会解决这些问题。并对模态间的语义冲突、多模态融合程度评价标准等研究不充分的问题进一步研究，推动该技术在机器学习的一些新的领域中的发展。