适用于网络新闻数据的未配对跨模态哈希方法

2024-04-29 02:42武昭盟张成刚
计算机与现代化 2024年3期
关键词:网络新闻哈希检索

武昭盟,张成刚

(1.长春大学网络空间安全学院,吉林 长春 130012;2.内蒙古民族大学计算机科学与技术学院,内蒙古 通辽 028000)

0 引 言

网络数据的存在形式包罗万象,诸如声音、文本、图片、视频、传感器数据等。跨模态检索是人们面向这些多媒体数据开发的一种新型检索方式。区别于传统的单一模态检索,跨模态检索是指用一种模态的数据(如图片)去查找与它有关的其它模态的数据(如文本),它所利用的条件是不同模态之间的语义关联。近些年关于跨模态检索的研究有很多[1],其中基于哈希技术的跨模态检索[2-3]因计算资源小、检索速度快的优势而更受研究人员的欢迎。基于哈希的跨模态检索又可以分为有监督和无监督的检索方式。无监督的跨模态哈希检索[4-6]不使用标签,节省人力成本,但检索精度往往不高。有监督的跨模态哈希检索通常将类别标签作为监督信息,在标签语义的引导下,能够获得更好的检索精度。

最近的一些有监督的跨模态哈希方法,如Zhang等人[7]提出的深度语义交叉模态哈希对齐(Deep Semantic Cross Modal Hashing with Correlation Alignment,DSCA)方法,提取图像和文本的深层表示,并通过构建多标签数据相似度来利用更多的语义相关性。Xie等人[8]提出的多任务一致性保持对抗性哈希(Multi-Task Consistency-Preserving Adversarial Hashing,CPAH),把每个模态表示划分为模态公共表示和模态私有表示,并对抗性地学习不同模态的公共表示,以有效地捕获不同模态之间的语义一致性。Zhang等人[9]提出了基于聚合的图卷积哈希(Aggregationbased Graph Convolutional Hashing,AGCH)方法,首先聚合来自多模态数据的不同角度的信息,生成联合相似矩阵。然后在哈希码的生成过程中,利用图卷积网络挖掘数据的语义结构。这些方法都在一定程度上取得了先进的效果,但应用到实际中仍有多处掣肘。一方面,真实的互联网数据没有精确的标签注释,往往只有简单的归类,而表现相对更好的方法(如DSCA 等)都使用了多标签注释。另一方面,大多数方法都是基于成对的数据(语义匹配的图片和文本)进行训练,而现实世界中的数据很少有成对样本可以利用。尽管基于深度网络的技术应用火热,但现有的跨模态检索实际应用还是依赖于“文本”关联“文本”。

考虑到以上问题,本文提出一种适用于网络新闻数据的未配对跨模态哈希方法。该方法不局限于成对的样本,其整体架构可见图1。首先,模型输入图像和文本数据的特征向量,成对的数据直接进行不同模态的特征拼接,非成对的数据与O矩阵特征拼接。拼接后的特征分别经过相应的全连接层得到成对融合特征、文本融合特征和图像融合特征,并生成相应的二进制编码。其次,成对融合特征得到的二进制码分别重构文本融合特征和图像融合特征,并使用2 个分类网络作为鉴别模型,判断收到的特征是否为原融合特征。最后,构造成对数据的模态间亲和矩阵和非成对数据的模态内亲和矩阵,并将矩阵结构作用于高维表示和待学习的二进制码,从而约束汉明空间。此外,模型进一步预测融合特征的类别,以增强编码的判别能力。在哈希学习过程中,采用梯度下降的优化策略,不断更新模型中需要的参数,进而获得高质量的二进制码。

图1 本文方法的框架

1 相关基础

本文方法主要使用特征融合和生成式对抗网络,下面对二者分别进行简单的介绍。

1.1 特征融合

特征融合方法的思想源于早期的信息融合(Information Fusion)[10],类似于人类在大脑中融合来自视觉、听觉等多种感官的数据,以更好地理解多模态数据的过程,计算机通过融合多个角度的空间特征、全局和局部多个层次的特征,能够实现更智能的信息处理。特征融合根据融合与预测的顺序可分为早期融合和晚期融合。早期融合是指在预测任务之前就融合特征(包括特征拼接和特征相加),并在融合后的特征上训练得到结果。晚期融合是指先得到不同层的预测结果(包括多尺度特征预测和金字塔特征融合),再将多个预测结果进行融合得到最终预测。本文用到的是早期融合中的特征拼接方法。

假设数据X的p维特征为,数据Y的q维特征为,则拼接后的特征为:

显然,p+q即为拼接后的特征维度。这种方式实现简单,即使存在语义差距的不同特征也能互相融合、互为补充,能够减少在跨模态检索中只有单一特征时固有缺陷的影响。Srivastava 等人[11]提出基于玻尔兹曼机的多模态学习(Multimodal Learning with Deep Boltzmann Machines),用于将多种数据模态融合为一个统一的表示。该工作将跨模态学习应用于图像和文本2 种模态,并且能够补全缺失的模态。通过生成多种数据模态的融合表示,可以使用此表示进行多模态或单模态信息的查询检索。Hu等人[12]搭建了一个三元组融合哈希网络框架(Triplet Fusion Network Hashing,TFNH)用于不成对的跨模态检索,在特征输入阶段,引入零填充运算来分别对图像和文本的特征进行填充补齐,并进一步通过3 层融合网络同时处理配对和非配对的数据。

1.2 生成式对抗网络

生成式对抗网络(GAN)[13]是基于博弈论场景互相竞争,包括2个主干网络——生成器D和鉴别器G。GAN 最初也是最著名的应用是图像生成。生成器G接收随机噪声z并生成图像G(z),鉴别器D判别一副图像x是否是真实的。在训练过程中,生成器G的目标是不断生成看起来更逼真的图像,然后把它生成的图像送给鉴别器D,鉴别器D的目标则是判断它接收到的图像是真实的还是生成器生成的。理想状态下,生成器和鉴别器“教学相长、互相促进”,并将趋于一个纳什均衡。

一般地,GAN的损失函数被定义为:

式中,V(G,D)是价值函数。x~pdata(x)是指在真实数据中采样,pdata(x)表示真实数据样本的分布。x~pz(Z)是指在随机噪声中采样,pz(Z)通常是一个简单的噪声分布。D(·)是一个概率值,范围是0~1,指示鉴别器对接收数据的判断值,概率值D(·)越接近1,数据越接近真实的分布。2017 年,Wang 等人[14]第一次将生成式对抗网络用于跨模态检索,使得图像和文本特征的分布趋于一致,这为此后GAN 在跨模态检索中的应用提供了灵感;Zhang等人[15]提出了HashGAN训练注意力生成模块和哈希判别模块,以保存不同模态的相似性。引入GAN 的大多数跨模态检索算法的建模过程致力于使用生成对抗网络以学习不同模态的共同表示,使相似的多模态数据的共同表示在统计上不可分。

2 方法概述

本章介绍本文提出的方法的具体实现过程。为不失一般性,仅选取图像和文本2 种模态的检索任务进行介绍,该方法也可扩展至其它或更多模态。给定训练集其中表示配对的图像-文本数据,即Xi=表示无配对文本的图像数据,同样表示无配对图像的文本数据。

2.1 融合配对和未配对数据特征

对于跨模态匹配任务,首先要提取数据的特征。将得到的图像模态的特征表示为FI∈Rq×d1,d1 是图像特征维数;文本模态的特征表示为FT∈R(n-q+p)×d2,d2 是文本特征维数。对于成对的样本,算法对2 个不同模态的特征进行拼接操作,得到融合后的新特征FIT,其具体表示为:

式中,拼接后的特征(Ii,Ti)的维度为d1+d2,故融合特征FIT∈Rp×(d1+d2)。然而,这种方式只能解决数据样本配对时的情况。为了处理输入的未配对数据,借鉴文献[12]的思想,算法将特征FI和FT分别和矩阵O进行拼接以获得与配对特征FIT相同的维度。因此,无配对图像和文本的融合特征定义如下:

式中,F10∈Rq×(d1+d2),FOT∈R(n-q+p)×(d1+d2)。算法将融合后的特征分别送入共享权重的2 层全连接网络,以更好地对齐高层语义,并学习模态之间互补的信息。

2.2 生成待学习二进制码

将实值表示转化为二进制编码是减少存储、提升跨模态检索效率的关键步骤。根据前面的介绍,算法对拼接后的特征进行融合卷积生成了更丰富的表示HIT,HIO和HOT,通过使用sgn(·)函数,可以直接得到它们对应的二进制码,制定二进制码生成的公式为:

式中,r是二进制码的长度,θF是生成融合表示所需的参数。

2.3 生成式对抗学习鉴别融合特征

算法对生成的Brr进行重构,重构的模态包括融合后的文本特征H′OT和融合后图像特征H′10,并作为GAN中的生成器,定义为:

式中,θG是共享的参数。算法将继续为重构后的特征定义2 个分类器D1和D2,相当于GAN 中的鉴别器。对于任意图像-文本对的重构特征,鉴别器D1区分特征是否为仅图像融合特征。定义来自H10的特征为真,得到的对抗性损失为:

式中,θD1是鉴别器D1的网络参数。同样,鉴别器D2区分特征是否为仅文本融合特征。定义来自HOT的特征为真,得到的对抗性损失为:

式中,θD2是鉴别器D2的网络参数。算法的目标是尽可能使得相同语义的配对数据的分布与未配对数据的分布相同,具体表示为优化以下整体对抗性损失:

2.4 构建模态内和模态间亲和矩阵

算法为成对的数据构建模态间亲和矩阵,为所有数据构建模态内亲和矩阵。具体来说,给定来自不同模态的2 个数据样本Ii和Tj,引入标签构造它们的模态间邻居矩阵,矩阵元素Sij定义为:

已知来自图像模态的2个数据样本Ii和Ij,引入阈值threshold=max(cos(Ii,Ij))构造模态内相似性矩阵,元素定义为:

类似地,已知文本模态2个数据样本Ti和Tj,有相似的阈值定义threshold=max(cos(Ti,Tj))来构造模态内邻居矩阵并且元素的定义如下:

2.5 分布结构反向回归特征和指导二进制码

在本文算法中,利用矩阵结构来减小原融合特征与具有分布信息的融合特征之间的差距,使得特征呈现的语义信息更为明确。因此算法将不同的矩阵作用于不同的融合特征,过程的具体公式为:

其中,κ表示权衡参数。

本文算法还尝试利用亲和矩阵增强学习的二进制码的质量,在汉明空间中,同一类别的二进制码之间的距离应该尽可能小,反之亦然。通过将亲和矩阵包含的语义信息施加到二进制码,学习的编码能够更多保持原始特征空间中的分类信息,从而提高跨模态哈希性能。具体表示如下:

2.6 类别预测损失

为了得到有区分性的二进制码,模型进一步预测每一个样本的标签。对于融合后特征,设计简单的类别预测损失为:

式中,h是指单实例的融合特征,θ1是分类参数。

最终,结合生成式对抗学习项、分布结构反向回归特征项、相似关系指导二进制码和类别预测损失,整体目标函数为:

3 算法优化

为了优化整体目标函数,需要求解参数θF、θG、θD1、θD2、θ1。由于这是一个多变量优化问题,算法通过对传递的参数逐一求偏导寻求最优解。具体步骤如算法1所示。

算法1 适用于网络新闻的未配对跨模态哈希算法

4 实验分析

4.1 实验设置

将本文方法分别在配对实例场景和未配对实例场景中进行实验。在配对实例的场景中,将本方方法与DCMH[16]、AGAH[17]、SCH-GAN[18]、TFNH[12]这4个方法进行“图像检索文本”和“文本检索图像”进行跨模态哈希任务的性能比较,验证本文方法在2 个典型跨模态数据集和1 个现实新闻数据集上的先进性。在未配对实例场景中,对Wiki 和网络新闻数据集进行不同比例数据的保留处理,验证本文方法处理非配对数据的出众能力。实验主要使用平均精度均值(MAP)作为评价指标来评估各个方法的检索效果,还对采用本文方法学习之前和学习之后的特征表示进行了可视化分析。

MAP 是衡量哈希模型的常用度量方式。为了计算MAP,首先要计算查询样本的平均精确率(Average Precision,AP),AP 表示在设置的检索结果数量下,模型返回的相关结果数量。

取所有查询项AP的平均值就可以计算出MAP:

MAP 值越大表明检索准确率越高。另外,各数据集的详细信息如下:

1)Wiki数据集。

Wiki 数据集[19]收集来自Wikipedia 的“专栏文章”,共有10 个类别的2866 篇文章及配图。Wiki 数据集的许多文字和图片关联较弱,不具有强烈的对象一一对应关系,这与现实新闻数据集的特点类似。其中2173个图像-文本对作为训练集,693个图像-文本对作为测试集。

2)Pascal VOC数据集。

Pascal VOC 数据集[20]由20 个类别的9963 个图像-文本对组成,本文按照文献[21]的方式,只保留单标签的实例,划分为2808 个训练集,2841 个测试集。文字和图片的关联较强。

3)网络新闻数据集。

网络新闻数据集从光明日报等多个新闻网站上下载,相对真实可靠。本文实验一共收集了2200 张图片,每张图片配有相应的新闻文本,涉及政治、经济、文化、体育、国防、生态、民生、教育、科技、国际10个主要栏目。本文按照Wiki 数据集的格式进行存放,如图2 所示,images 文件夹里存放已分类的10 个栏目的图像。texts 文件夹里存放全部文本。categories.list 文本里存放标签列表。trainset_txt_img_cat.list 文档里存放训练集图文对和对应的标签。testset_txt_img_cat.list 文档里存放测试集图文对和对应的标签。随机选取1700个图像-文本对作为训练集,剩余500个图像-文本对作为测试集。

所有进行实验的数据集图像特征为4096 维,由预训练的VGG16[22]提取,文本特征由300 维的doc2vec 向量[23]表示。对于中文新闻文本来说,本文首先进行jieba 分词,然后去掉符号和少量停用词,最后同样提取300维的文本向量。实验在PyCharm 集成开发环境(IDE)、tensorflow 1.13.0 框架中进行。设置初始参数λ=2,μ=0.2,β=0.1,κ=1.5,并使用随机梯度下降策略和Adam 优化器,图像和文本特征的初始学习率都设置为0.01,epoach设置为20。对于相比较的算法,除特征提取方式保持一致外,其它参数严格遵照原论文中给出的设置。

4.2 实验结果

本节进行2 个场景的实验检验方法效果:第1 个是传统配对实例场景中的跨模态哈希实验;第2 个是未配对实例场景中的跨模态哈希实验。

4.2.1 配对实例场景中的实验结果

本文方法及其比较的方法DCMH[16]、AGAH[17]、SCH-GAN[18]、TFNH[12]在Wiki 数据集、Pascal VOC数据集和网络新闻数据集上的MAP结果如表1所示。本文设置了二进制编码的长度分别为16 bits、32 bits、64 bits和128 bits。从表1中可以得知:

表1 各方法在Wiki、Pascal VOC、网络新闻数据集上的MAP结果

1)本文方法在所有设置的比特位上都获得了最佳的性能,表明本文方法的确是先进的。本文方法的良好表现主要是由于它能够将不同模态的数据特征加以融合,获得充分的互补信息,加强了同一语义不同模态的相关性。

2)本文方法及其比较方法在Wiki 和网络新闻数据集上的表现效果明显不如在Pascal VOC 数据集上的实验结果,这是因为Wiki 和网络新闻数据集都是图像-文本弱相关的数据集,类别信息比较笼统且容易混淆,比如Wiki 数据集中“艺术”这一类别中的数据很容易和“历史”中的数据混淆,新闻数据集中“经济”这一大类中的数据很可能和“民生”中的数据类似。而Pascal VOC数据集中的文本和图像则具有强烈的语义对应关系并且类别清晰,图像当中的物体和句子中的单词大多数呈现一一对应的关系。对于新闻来说,显然Wiki数据集上的实验结果更具有参考意义。

3)Text-to-Image 的实验结果一般比Image-to-Text 要高,表明提取的文本特征的语义信息更强,可能的原因是文本提取的是以单词划分的细粒度特征,而图像提取的是整体建模的粗粒度特征,尽管图像也可以事先使用一些自下而上的目标检测方式来提取出以对象为单位的细粒度特征[24-27],但面向实际应用的网络文章时,并非存在很多对象-单词级的对应关系,细粒度的建模未必见得其优势,反而大大增加计算的复杂度。

为了更直观地验证本文方法的有效性,本节在网络新闻数据集上对图像特征和文本特征进行了相关的可视化呈现。本文使用的工具是t-SNE,它可以对高维特征降维并在二维空间中进行展示。另外,将哈希编码长度设置为64 位,其结果如图3 所示。其中,“^”表示图像样本的特征表示,“o”表示文本样本的特征表示。相同颜色的样本表示属于相同的语义类别。分析可知:

图3 网络新闻数据原始特征和学习后特征的t-SNE可视化

1)从图3(a)和图3(b)中可以看出,原始的图像分布和原始的文本分布杂乱而且难以分离。相比较来说,对于原始文本特征的表示,相同颜色的样本之间的距离还比较接近,这也反映了文本特征本身就含有一些语义信息。

2)从图3(c)和图3(d)中可以看出,对比原始的图像和文本特征表示,学习后的特征表示能够明显聚类,属于同一类别的示例基本上分布在同一个簇中,表明图像和文本模态都学习到了各自语义表示的分布。

3)从图3(e)中可以看出,混合后的图像和文本特征表示能够落在公共语义空间的相同位置,并且难以区分,这验证了本文方法可以很好地拟合不同模态之间的语义鸿沟,在高层空间实现图像和文本的相互匹配。

4.2.2 非配对实例场景中的实验结果

1)平均精度精值结果。

为了验证本文方法处理非配对数据的能力,对Wiki 数据集和网络新闻数据集进行处理,使它们只保留部分图像-文本对,得到2 种不同情况的非配对数据集:①固定所有文本样本,将图像样本按原数据的100%~10%进行保留;②固定所有图像样本,将文本样本按原数据的100%~10%进行保留,本文将二进制编码分别设置为:16 bits、32 bits和64 bits。情况1的MAP 结果如表2 所示,情况2 的MAP 结果如表3 所示,从表2和表3观察可得:①即使丢弃了一定的成对数据,本文方法依然取得了较好的性能,表明了算法处理非配对数据时的有效性;②保持文本数据不变,按比例保留图像数据的情况下,图像检索文本的性能明显随图像数据的减少而降低,而文本检索图像的性能下降趋势相对平缓,保持图像数据不变,按比例保留文本数据的情况则与之相反;③通过在2 个任务上设置3 种不同的比特位可以看出,当成对数据越来越少,算法的性能也逐渐降低,表明成对数据的语义信息对于模型训练的重要性。但是本文方法不局限于一一对应的训练样本,更能使用于真实的互联网数据集。

表3 在Wiki和网络新闻数据集上,固定图像数据,按比例保留文本数据的MAP结果

图4 和图5 绘制了方法在Wiki 和网络新闻数据集上,对应不同编码长度的MAP 曲线,从这2 幅图中可以看出,当固定文本数据,不断减少图像数据时,图像检索文本的曲线比文本检索图像的曲线下降得更快,而固定图像数据,不断减少文本数据时的曲线恰恰相反,这与表2和表3中的结果一致。

图4 FeFH在非配对Wiki数据集上的MAP曲线

图5 FeFH在非配对网络新闻数据集上的MAP曲线

5 结束语

本文提出了一种适用于网络新闻数据的未配对跨模态哈希方法,用于解决现实世界中存在大量不成对跨模态数据的训练问题。通过融合配对的不同模态特征和融合非配对的同一模态特征学习模态之间的互补信息,并假设所有语义一致的融合特征应呈现相同的分布,引入了生成式对抗学习来探索二进制码重构的特征和原融合特征之间的关系,弥合特征分布之间的差距,处理输入的未配对数据。通过在配对和未配对的场景中进行的丰富实验,验证了算法的优异性能。同时,在新闻数据集上的结果也表明本算法能够有效地处理实际跨模态检索任务。

猜你喜欢
网络新闻哈希检索
网络新闻在公共管理中的作用及影响
2019年第4-6期便捷检索目录
专利检索中“语义”的表现
基于OpenCV与均值哈希算法的人脸相似识别系统
采写网络新闻要成为“多面手”
网络新闻的交互性应用
如何写好网络新闻
基于维度分解的哈希多维快速流分类算法
基于同态哈希函数的云数据完整性验证算法
一种基于Bigram二级哈希的中文索引结构