王 红 白云清 卢林燕
(中国民航大学计算机科学与技术学院 天津 300300)
随着全媒体时代的到来,多模态数据融合方法的研究成为业界关注的热点。图文关联的本质是跨模态信息匹配[1],通过分析隐含语义信息,把具有相同或者相似含义的图像与文本模态进行关联。图像与文本的研究主要集中在单向关联,如图像识别[2-3]、图像描述[4-6]、文本生成图像[7-8]等。近年来,图文关联从分类网络[9]发展为不同模态特征的融合,主要包含特征提取、特征嵌入、目标函数三个部分。
在特征提取方面,出现了将RNN、LSTM和VQA等深度学习算法应用到图文关联上的算法[10-12]。HGLMM+GMM模型是一种高斯-拉普拉斯混合模型(Hybrid Gaussian-Laplacian Mixture Model)和高斯混合模型(Gaussian Mixture Model)的组合[13],用于文本信息的特征提取,主要结合了两个分布模型的优势,能够根据不同组件的不同维度进行混合分布建模。完全卷积网络[14]是一种通过提取高维的图像特征获得更多细节信息的方法,主要用于图像分割。本文使用了它的特征提取部分。
在特征嵌入方面,主要有深度卷积网络(VGGNet)和残差网络(Residual Network,ResNet)[15]。根据ResNet,Liu等[16]提出了一种特征嵌入模型RRF-NET,该模型是一个双分支网络,每个分支上连接了四个完全连接层(Fully Connected,FC)。在第三个FC层上构建循环残差融合模块,引入正向的残差连接与反向的循环连接,并对循环中的每一次输出融合,获得更深入的更具有代表性的特征。此外,该模块还附加有批量归一化层(BN)[17]和整流线性单元(ReLU)层用于批规范化和缓解梯度弥散。
在目标函数方面,一个好的损失函数可以使处理过的特征得到充分的计算,如欧几里得函数[18]。本文采用的是基于余弦距离的双向排序函数,可得到分离模态的相似度。
在航空安全事件信息管理与应用领域,目前的研究方法主要以针对文本模态的数据处理为主[19-20],而面向多模态数据特别是图文关联的分析研究甚少。为此,本文提出了HG-RRF(HGLMM+GMM+RRF)模型,将HGLMM+GMM与RRF相结合,在分别提取文本与图像特征的基础上,通过RRF嵌入进行图文关联。该模型旨在利用混合分布特征提取的灵活性和深度特征嵌入的表现力,实现航空安全事件图文关联的方法研究。
航空安全事件中图文关联的研究思路如图1所示,其中:1)特征提取。考虑到图像与文本作为两种不同的模态拥有完全不同的特征,所以针对两种模态先分别采用HGLMM+GMM与FCN方法进行特征向量的提取。2)特征嵌入。将特征提取获得的图像特征向量和文本特征向量分别输入到对应的特征嵌入网络中,进行参数更新、非线性激活、RRF特征嵌入与批规范化,从而得到更深、更具有代表性的特征向量。3)特征融合。将已经获得的文本与图像特征向量通过内积计算映射到同一空间中,在这个空间内通过基于余弦距离的双向排序结果损失函数计算模态间的相似度。
图1 研究思路
由于文本与图像是两种表征不同的模态,故分别对其使用相应的特征提取方式。
2.1.1文本特征提取
对于文本信息,采用HGLMM与GMM的组合模型提取特征。令x为随机变量,单变量情况下的HGLMM为:
h(x;μ,σ,m,s,b)=l(x;m,s)b·g(x;μ,σ)1-b
(1)
式中:l(x;m,s)是参数化的拉普拉斯分布,m为拉普拉斯分布的位置参数,s为尺度参数,g(x;μ,σ)是参数化的高斯分布,μ为平均差,σ为标准差,b为控制这两个分布之间的加权几何平均。将HGLMM与GMM组合,表示如下:
hg(x;μ,σ,m,s,b)=h(x;μ,σ,m,s,b)+g(x;μ,σ)
(2)
2.1.2图像特征提取
对于图像信息,采用FCN对其进行特征提取。FCN是将像素级分类用于语义级别的图像分割,可以接收任意大小的输入图像。FCN通过端到端训练,输出融合了精细层与粗略层的全局结构的局部预测。它的网络层通常由三维数组表示:
slayer=h×w×d
(3)
式中:h和w是空间维度;d是特征或通道维数。卷积网络的层是平行层,令x为网络中的某一特定层,y为其后继层,则y层在坐标(i,j)的数据向量yij计算公式如下:
yij=fks({xsi+δi,sj+δj}0≤δi,δj≤k)
(4)
式中:k为卷积核尺寸;s为步长;fks决定层的类型(例如卷积或者池化);δ为步长内的偏移量。该卷积网络的损失函数为最后一层空间维度的总和,梯度也是每层空间梯度的总和。
2.2.1循环连接
首先,在网络每个分支的第三个FC层上添加一个循环连接,使网络展开为多层。然后,将通过该FC层处理的特征返回输入,进行循环的特征处理,从而提取出更深层次的特征向量。特征模块上的循环连接如图2(a)和图2(b)所示,T为循环次数。由经验值得知,T取3时,可提取出最具有表现力的特征。
(a)循环连接层
2.2.2残差连接
为这个特征嵌入模块的输入向量增添一个残差连接,也称一致性连接。该连接是由ResNet启发得到的,其优点是可以减小过拟合的风险。残差学习的计算方式如下:
H(x)=F(x)+x
(5)
在ResNet中,F(x)是经过一系列层级联而成的学习模块,再将它与原始的输入特征x相加。同理,一致性连接将输入的特征向量与经过一次FC层、BN层和ReLU层计算得到的特征向量相加,得到新的特征向量。新的特征向量再通过循环连接返回到输入,继续重复这一步骤,直到循环次数结束。一致性连接与循环连接方向相反,前者用于加强特征,后者用于加深特征。残差连接的学习方式如下:
h(x)=σ(f(x))+x
(6)
h(xt)=σ(f(xt))+xt
(7)
式中:f(x)表示FC层的输出;σ(f(x))表示施加给FC层的ReLU函数。将残差连接与之前的循环连接结合,循环第t次。图3(a)是ResNet的示意图,图3(b)是本文使用的一致性连接。
(a)ResNet层图示
2.2.3中间特征融合
一般情况下,特征流入部署在FC层的特征嵌入模块后,经过其中的一致性映射以及循环,将输出一个最终的特征。为了增加中间输出特征对最后输出特征的影响,需要对循环中每一步输出的特征向量通过卷积融合的方式整合到一起,该过程的计算公式如下:
Sconv=wf×S+bf
(8)
式中:wf和bf分别为权重和偏移量。
融合模块如图4所示。
图4 嵌入模块的特征融合
2.2.4嵌入分支
由于图像和文本表征不同,因此采用不同的特征提取方式提取特征,所提出的特征在维度与其他特性上也有所差异。所以特征嵌入分别为它们布置了相同功能以用来处理不同特性特征的分支。分支示意图如图5所示,输入可以是文本或者图像的提取特征。
图5 RRF特征嵌入分支图
该分支有4个FC层。FC1的Dropout函数用于对输入特征进行参数更新,ReLU函数可以缓解梯度弥散和运算效率的问题。FC2附带的BN层则用于规范化数据,提高网络泛化能力。FC3用作RRF特征嵌入。FC4对RRF的输出特征再次进行批规范化与归一化。
将文本特征与图像特征映射到同一空间,其目的是衡量二者的相似性。将图像x与文本y映射在同一空间的特征分别表示为f(x)与f(y),使用余弦距离度量相似性,距离数值与相似性呈负相关,其公式如下:
(9)
式中:s(x,y)表示余弦距离度量的计算结果。通过这种方式进行计算,可以使s(x,y)与相似度呈正相关。该损失函数由图像到文本的排序损失与文本到图像的排序损失构成。
2.3.1图像到文本的排序损失
(10)
式中:N为参与加权的单向损失数量总和;α1和α2表示权重;m为边界参数。
2.3.2文本到图像的排序损失
(11)
2.3.3双向排序损失
本文在分析两种模态间的单向等级损失之后,将2个损失函数整合到一起,同时考虑更为丰富的因素,生成双向的等级损失函数。公式如下:
(12)
式中:β1、β2分别为衡量图像-文本、文本-图像2个单向等级损失的权重。
分别在公共数据集Flickr30K和航空安全事件数据集上进行实验。公共数据集Flickr30K[21]共有31 783幅图像,每一幅图片都相应地标注有5个句子描述,参考Karpathy等的实验数据分布,令其中29 783幅图像作为训练集,1 000幅作为验证集(验证与训练一同进行),1 000幅作为测试集。民航领域数据集是根据世界民航事故调查跟踪信息手工组织得到的民航安全事件数据集。该数据集共有1 432幅图像,参考公共数据集Flickr30K的形式,对每一幅图片标注了3个自然语言句子描述,选取了1 232幅图像作为训练集与验证集的合集,200幅作为测试集。
模型训练在目前流行的深度学习工具Caffe上进行。模型的输入是针对文本与图像分别进行特征提取过的特征向量,输入后根据维度的不同区分其特征,进入各自分支进行训练。FC1输出的特征通道为2 048,此后均缩小为512以精简计算量。对于Flickr30K的训练验证集中的30 783个训练样本,数据分1 000批次输入训练(在民航安全事件数据集上的训练批次则按比例缩小),将基础学习率置为0.1,权重变化次数置为5 000,权重衰减项设为0.000 5,测试间隔为1 000。对于民航安全事件数据集的训练验证集中的1 232个训练样本,数据分40批次输入训练,学习率与权重衰减项仍为0.1和0.000 5,权重变化次数为200,测试间隔为200。
本文采用R@K作为对于所研究算法模型效率的评估指标。R@K中R即召回率Recall,K是所取的排名个数。该指标用来反映排名结果的前K个内容中是与另一模态相匹配结果的召回率。
首先对特征提取算法的效果进行分析。本文使用了HGLMM+GMM作为图像特征的提取算法。在文献[13]所提出的2种改进方法中,HGLMM的效果较好,根据Benjamin等所进行的实验结果,使用HGLMM+GMM方法的特征提取效果优于仅使用HGLMM方法进行特征提取,R@K指标在图像到文本的检索与文本到图像的检索下均有1%左右的提升。
此外,对于将RRF-NET的2个分支进行融合这一部分,本文同样选取了一种将两种模态映射到同一隐藏空间方式计算相似度的融合方法——典型相关分析[22](Canonical Correlation Analysis,CCA),K分别取1、3和5。
图6中的R@K结果表明,基于相同的特征提取算法HGLMM+GMM,由于RRF-NET中结合一致性连接和循环连接对特征作出了深度嵌入,以及该网络使用的双向排序损失函数相对于传统CCA,相似度计算精度更高,并且表现出在K取值增长时效果的优越性,所以使用RRF-NET模型的跨模态融合结果明显优于传统的CCA方法。
(a)从文本到图像检索的R@K结果
与RRF-NET网络模型对比的基线模型(Baseline)通过如下方式设置:双分支,但将RRF-NET模型中的RRF模块替换为普通FC层,即在每条分支上部署4个FC层。使用上述的基线模型与将第三层部署为RRF模块的RRF-NET网络进行比较。
另外,将本文方法与其他一些典型的面向图像和文本双模态的特征嵌入方法进行对比,实验均在公共数据集Flickr30K上进行,K取1和5,实验结果如表1所示。
表1 Flickr30K数据集下的各方法实验结果比较 %
由Baseline与RRF-NET的对比证实,在网络架构上使用RRF模块进行特征嵌入的效果显著优于没有使用RRF模块的基线模型。此外本文提出的HG-RRF模型与以往的一些方法相比,都具有表现力足够强的结果。在K取比较大的数值时,相应的召回率会有很大幅度的提高。由于特征提取方面做出的对HGLMM结合GMM这一改进,实验效果相对于仅使用HGLMM提取特征的RRF-NET模型有接近1%的提升。
民航安全事件数据集上的图文关联结果如图7所示,在检索出的相应结果中寻找对应的事件表示。对于图像到文字的检索,用加粗的字体来表示正确的关联结果。对于文字到图像的检索,使用一个笑脸图例来表示正确关联的结果。
(a)由文本检索图像的结果
将本文提出的HG-RRF模型应用在航空安全事件数据集上,反映实验效果的实验指标R@K如表2所示。这里同样使用了Baseline模型与HG-RRF模型比较,K取1和3。
表2 航空安全事件数据集下的实验结果比较
可以看出,在航空安全事件数据集上,将HGLMM+GMM特征提取与部署了RRF模块的特征嵌入结合,比在不设置RRF模块的Baseline网络上进行,前K个排名结果反映的召回率均得到了显著的提高。
本文提出一种跨模态图文关联模型HG-RRF,并将它应用在航空安全事件的数据管理上,对图像与文本进行关联,实验表明该图文关联方法有较好的效果,为构建大规模、多模态、多来源的航空安全事件信息库提供方法支撑,同时也能使急需聚焦的安全事件相关信息实现半自动化关联,提高了知识构建的效率。如何将更多的跨模态信息(如视频、音频等)纳入航空安全事件知识图谱的构建中,还有待进一步研究。