基于高阶模式间关系的跨模态关联学习

2020-02-08 06:59汪传建
计算机工程与设计 2020年1期
关键词:高阶权值术语

康 娟,汪传建

(石河子大学 信息科学与技术学院,新疆 石河子 832000)

0 引 言

随着多媒体数据的爆炸式增长,其检索已经成为诸如视频、图像、文章等信息检索中的重要问题。跨模态学习作为一种方法,尽管来自于认知科学和神经科学[1,2],但已经广泛应用于多模态数据检索。

文献[3]提出了一种基于概念的视频检索方法;为了提高多模态检索中相似性匹配的准确度,同时保持检索结果的可解释性,文献[4]构建了一种双层的多模态语义网络;文献[5]研究了一种用于包括广播新视频的文本和图像的多模态检索方法;文献[6]从信息抽取与表示、跨模态系统建模两个维度评述了基于表示学习的跨模态检索与特征抽取方面的研究。然后从基于共享层建立各模态间的关联、表示空间中各模态间的关联、以深度学习为基础的跨模态建模算法等3方面归纳了跨模态系统建模研究的现状,总结了跨模态检索的评价指标,并指出已有检索研究对于单模态信息检索较为丰富、查询和候选集的内容均属于同一模态;文献[7]从跨模态关联学习出发,提出了一种基于深度双向特征学习的图像-文本跨模态检索方法;文献[8,9]提出了一种基于跨模态关联因子分析方法作为潜在语义索引(latent semantic indexing,LSI)和典型相关分析(canonical correlation analysis,CCA)的替代方法;文献[10]表明,将视觉特征和基于概念的特征与关联性反馈相结合,可以提高跨模态图像检索的质量;文献[11]通过利用分层的潜在Dirichlet分配模型对图像中的未标记图像和对象进行自动注释;另外,人机交互(human-computer interaction,HCI)也是一种以跨模态学习为基本要素的研究,包括演讲和手势等多种模式的研究。文献[12]从手势和演讲的角度研究了多模态人类的演说;文献[13]提出了多模态数据的协同训练方法,以构建多模态接口。

以上这些传统的多模态数据检索方法通常是基于模式的低阶共现而不是高阶关系,如标记-图像共现和典型相关分析。然而,由于文本特征和图像特征的粒度不同,所以基于模式之间低阶关系的方法可能存在局限性。因此本文提出了一种基于高阶模式间关系的跨模态学习模型。

作为高阶跨模态关联的学习,本文提出了一种超网络(super-networks,SNs)模型-分层超网络(layered super-networks,LSNs),它执行跨模态关联学习和推理,包括图像到文本和文本到图像来进行多模态信息检索;SNs是一种高阶概率图形模型[14],它具有包括地理位置性、组分性、自组装性和回忆-记忆性等特性[15];一个LSN是一个具有两层超网络层次结构的超网络模型。第一层由模式相关超网络构成,有两个以上的模式相关超网络,而第二层中只有一个超网络,它代表文本模式与图像模式之间的关系,即一个模式集成超网络。与传统的超网络相比,这种层次结构使得LSNs具有更高的分析效率。经过训练的LSNs可以通过跨模态关联推理和多模态查询同时生成文本和图像关键字。此外,还将它们与文档中的文本术语和文章图像中的视觉词(借助于视觉技术从中寻找信息或意义的词汇)进行比较,采用生成的视觉和文本关键字来进行查询;采用关于女性时尚和生活风格带有867幅图像的198篇文章的数据集进行实验,实验结果表明,本文提出的高阶跨模态关联学习模型不仅可以提高生成关键字的相似性,而且还能够生成文本术语,并成功检索出具有小部分信息的文章。

1 分层超网络模型的构建

1.1 超网络模型

超网络是一种基于超图模型的生物启发式概率图形模型。超网络模型的特性可以概括为3个方面:基于随机性和回忆性的地理位置性、组分性和自关联性。

(1)地理位置性:一个超网络由具有不同阶的超边构成,低阶超边可以表示一般信息,高阶超边包括更具体的和局部的信息;

(2)组分性:一个超网络代表一个巨大的结构化组合空间。通过基于学习的进化策略,超网络对组合问题空间进行探索;

(3)自关联性:超网络的结构是通过基于随机选择的进化计算自组织的。自关联性使超网络就像回忆记忆一样。

在形式上,一个超网络H定义为H=(V,E,W),其中V、E和W分别为一组顶点、一组超边和一组权值;在超网络中,一个顶点表示属性的一个值,一个超边表示两个以上具有各自权值的顶点的组合。一个超边中的顶点数目称为一个超边的基数或阶数,k-超边表示具有k个顶点的一个超边。当全部超边的阶数都是k时,我们就称之为k-超网络。因此,超网络可以代表大量属性之间的高阶关系。

(1)

(2)

(3)

(4)

式中:Z(W) 是一个配分函数,计算如下

(5)

也就是说,当将数据中的属性视为随机变量时,一个超网络就可以用以权值作为参数的变量组合的概率分布来表示。考虑到超网络的学习是选择具有高权值的超边,故学习可以看作是最大化对数似然的过程。从数据中学习被视为是对给定数据的一个超网络的权值参数的概率最大化。在给定数据下,一个超边权值集合的概率P(W|D) 定义如下

(6)

根据式(4)和式(6),则似然定义为

(7)

忽略P(W),使指数函数的幅角最大化就获得最大似然,于是对式(7)两边取对数,并代入式(1)、式(4)和式(5)得到

(8)

因此,通过减小给定数据集的超边差,就可以使得超网络的对数似然最大化。

1.2 分层超网络模型的构建

(9)

式中:m1和m2是构成第n个数据样本x(n)的每个模式变量的向量,与式(4)一样,采用两个模式生成第n个数据的概率P(x(n)|W) 定义为

(10)

假设m1和m2分别为文本和图像模式,则由分层超网络生成的数据的概率定义为

P(D|W)=P(T,I|W)=P(T|I,W)P(I|W)=
P(I|T,W)P(T|W)

(11)

式(11)表示文本和图像之间的跨模态推理是通过学习超网络的参数来进行的。图1所示为本文提出的分层超网络模型的体系结构。

图1 分层超网络模型的体系结构

2 基于分层超网络的高阶跨模态关联学习和推理

2.1 第一层超网络的学习

第一层超网络的学习与传统超网络的学习类似,但每种模式都要构建一个超网络。首先,把多模态数据按模式进行分离。在本文中,把一篇具有唯一id的文章数据划分为文档中的TF-IDF值向量和所包含图像的直方图值向量;在第二层超网络的学习中,使用唯一的id来组合每种模式的超边,通过从每种模式生成超边来构建一个超网络;对于每种模式来说,超边是通过选择和组合具有非负值和随机性的属性来生成的。选择具有非负值属性的理由是,由于数据的稀疏性,全部顶点的值为零的超边可能会以很高的概率生成,因为大多数属性的值为零。正如在前文中所阐述,超网络的学习是对数据集差异较小的超边进行采样。随着学习的继续,超网络的结构就更适合给定数据的分布。超边的构建即超网络的结构是由超边的权值决定的,这些权值通过训练数据集揭示了超边的适应度。在本文中,我们定义一个超边的权值w为

(12)

式中:k表示超边的阶数,D是任意常数,由超边属性决定。根据式(12),具有唯一信息的超边通过定义得到更高的权值,同时删除权值较低的超边,并从训练集中重新生成删除的超边数量。

2.2 第二层超网络的学习

第二层超网络的学习是从第一层超网络生成表示模式之间高阶关系的超边。第二层超网络的超边是通过将第一层超网络中的超边进行组合而生成的。在组合中,具有相同id的不同模式的超边合并成一个新的超边,通过与训练集的比较,得到生成的超边的权值,与第一层学习一样,也从超网络中删除低权值的超边,然后用训练数据集对生成的超网络进行评估。图2所示为构建和学习一个分层超网的过程,算法1为构建和学习第二层超网络的算法伪代码。

图2 构建和学习一个分层超网络过程

算法1: 构建和学习一个分层超网络的算法伪代码

HT: 来自于文本数据的超网络

HI: 来自于图像数据的超网络

HL: 分层超网络

R: 替换具有低权值的超边率

CR: 将HI的超边率和HT的超边率进行合并

HT←生成超网络(T);HI←生成超网络(I)

在事业单位的运营和发展实践中,人事档案管理具有非常关键的作用。科学的人事档案管理,能够优化事业单位人力资源配置,提升事业单位的发展水平。事业单位在人事档案管理过程中,应该加强认识、完善制度、优化素质,综合性提升人事档案管理的整体水平。

fori←1until

HT←学习超网络(T);HI←学习超网络(I);

HT←消除低权值超边(R);HI←消除低权值超边(R);HL←{};

forj←1 to |HT|

ET←HT的第j个超边

fork←1 toCR

EI←从HI中随机选择具有相同id的超边ET;

EL←ET∪EI;HL←HL∪EL

endfor

endfor

HL←消除低权值超边(R);HL←学习超网络(T,I);

评估(HL,I,T)

HT=重新采样(T,R);HI=重新采样(I,R);

endfor

2.3 图像和文本关键字生成的跨模态推理

经过训练的LSNs可以通过跨模态关联推理生成具有给定多模态查询的文本术语和视觉词。跨模态关联生成分为两种类型:从文本到图像即生成给定文本术语的一组视觉词,以及从图像到文本即用视觉词构建一组文本术语的生成。在图像到文本中,生成的文本术语集是由第二层超网络的超边中的文本术语构成的,其顶点包括给定的视觉词集中的至少一个视觉词。为了选择文本术语,我们定义一个基于文本术语和视觉词共现的得分。对于一个视觉词集Q,第二层超网络的第n个超边En中的第i个文本术语的得分SIdx(i),En定义为

(13)

式中:xIdx(i)为指标为Idx(i) 的文本术语属性的值,Idx(i) 表示超边En的第i个文本术语的向量表示中的指标,wn表示En的权值,|Q-En| 为相对补集的大小,C为惩罚常数,根据文本术语属性选取,一般在0.5~1之间。因此,SIdx(i)是通过对全部超边求和得到的,即

(14)

式中: |E| 表示第二层超网络中的超边数目。根据式(13),如果一个超边包括一个给定视觉词集中的视觉词越多,则在该超边中的文本术语的得分就越高,这样,具有较高得分的文本术语包含在生成的文本关键字的候选项中。

与图像到文本一样,用经过训练的分层超网络和给定的文本术语就可生成一组视觉词。

3 算法实验结果及分析

3.1 实验数据和设置

我们采用从《丽人坊》、《女人坊》和《时尚健康·女士》3本杂志关于女性时尚和生活风格带有867幅图像的198篇文章作为训练数据集。作为建模预处理,将文章中的文档转换为500个文本术语的TF-IDF值向量,这些文本术语是根据在提取词干后的文档中出现的频率选择的,将提取的402个视觉词的直方图向量来表示图像。然后,由于超网络模型可以处理离散数据,因此将每个模式的值转换为从0到2的3级值。把数据分为包含88个文档和755幅图像的训练集以及由10个文档和84幅图像构成的测试集,用于文章检索。表1所示为用于训练分层超网的参数设置。

表1 用于实验的参数设置

3.2 实验结果及分析

我们通过将生成的文本术语和视觉词与给定查询中的文本和图像关键字进行比较来评价高阶跨模态关联学习生成的相似性。为了评价这种相似性,定义两个度量指标。第一个度量指标为正确率(ratio of correctness,RC)。将构成文章中的文档和图像的文本术语和视觉词作为其元素的集合引用到原始集合中,生成与原始集合大小相同数量的文本术语和视觉词。然后,当给定部分文本术语和视觉词时,将生成的文本或视觉集与原始集进行比较,于是RC定义为

(15)

根据式(15),RC的值在0到1之间;第二个度量指标是背景评分(context score,CS),它基于在文章数据的文档和图像中具有非负值的全部文本术语和视觉词的成对共现结果。为了得到CS,我们定义第i个和第j个关键字的成对共现度量如下

(16)

式中:xi和xj是第n个数据样本x(n)中指标为i和j的样本值,N是数据集的大小,于是,CS定义为

(17)

式中: |G| 为生成的文本术语或视觉词集的大小。CS与RC的不同之处在于CS反映的是生成关键字之间关系的背景。即使两个生成集的RC是相同的,但两个生成集的CS可能是彼此不同的,这取决于因错误生成的关键字的共现频率。

图3和图4所示为当给定一些文本术语和视觉词作为查询时,对于全部训练集的文本到图像生成的视觉词和图像到文本生成的文本术语的RC和CS结果。图3给出了通过图像到文本生成的88个文档的文本术语的平均RC和CS。从图3可以看到,与仅采用文本查询相比,本文提出的跨模态学习查询可以提高与给定查询相关的文本术语生成正确率40%以上;从图3还可看到,当给定相同数量的文本术语时,生成的文本术语的相似性随着给定图像信息的增加而增加;图4给出了由文本到图像生成的755幅图像的视觉词的平均RC和CS。与图3一样,与仅采用输入图像查询相比,本文提出的跨模态学习提高了视觉词的RC和CS。从图4(a)还可看到,不同于图像到文本的生成,当给定两个以上的文本术语时,RC会达到饱和。此外,从图4(b)也可看到,CS也显示出与图像到文本生成不同的趋势。这是由于一篇文章是由1个文档和多个图像构成的,以至于图像信息比文本信息更重要。

图3 通过图像到文本生成的文本术语的平均RC和CS

由于图像数据的大小约为文档的10倍,图像的直方图向量中的非零变量数远大于文档的TF-IDF向量中的非零变量数,因此文本到图像生成的背景得分比图像到文本生成的背景得分要高得多,这从图3(b)和图4(b)可以明显看出。

图4 通过文本到图像生成的视觉词的平均RC和CS

图5所示为当给定文章中的1个文本术语和20%的视觉词作为查询时,RC为1的文章的4组文本术语和1个图像。可见,通过本文的高阶跨模态关联学习,可以生成与图像相似度极高的文本术语,并且能够检索出具有小部分信息的文章,文章包含了给定文本术语和视觉词时所得到的正确信息。

图5 采用给定文本术语和20%的视觉词生成的文章

图6所示为对于测试数据集采用经过训练的分层超网络,当给定部分文本术语时,文章成功检索的比例。在本文中,当候选对象包括测试文章(其文本术语和视觉词被作为查询给定)时,我们就认为文章检索是成功的。从图6可见,给定两个以上的文本术语和一半的图像,当候选对象的大小为20时,用户想要的文章可以包含90%以上。

图6 测试数据集成功检索比例与给定文本术语数量的关系

4 结束语

本文针对给定的多模态查询,提出了一种用于跨模态关联学习的LSNs,以及一种采用LSNs的基于文本到图像和图像到文本的高阶跨模态推理的视觉和文本关键字生成方法;实验结果表明,基于模式间的高阶跨模态关联生成关键字是可行的,而且与单模态查询相比,多模态查询提高了生成的关键字的相似性;另外,本文提出的模型和方法也可以应用于单一的文章检索系统中;在未来的研究工作中,我们将把跨模态高阶关联关键字生成方法应用于诸如未标注图像的自动标注以及多模态信息的检索中。

猜你喜欢
高阶权值术语
一种融合时间权值和用户行为序列的电影推荐模型
有限图上高阶Yamabe型方程的非平凡解
CONTENTS
高阶各向异性Cahn-Hilliard-Navier-Stokes系统的弱解
滚动轴承寿命高阶计算与应用
基于MATLAB的LTE智能天线广播波束仿真与权值优化
基于权值动量的RBM加速学习算法研究
基于高阶奇异值分解的LPV鲁棒控制器设计
有感于几个术语的定名与应用
从术语学基本模型的演变看术语学的发展趋势