融合多头自注意力机制和共同注意的图像问答模型*

2023-09-29 05:51
计算机与数字工程 2023年6期
关键词:注意力准确率机制

官 巍 张 晗 马 力

(西安邮电大学计算机学院 西安 710121)

1 引言

近年来,基于计算机视觉和自然语言处理技术的多模态学习发展迅猛,大量的研究工作聚集在二者的交叉领域,例如图像问答[1]、图像描述[2]和图像文本匹配[3]等。图像问答任务的通用框架为:使用任意的图像(I)和相应的问题(Q)作为输入,图像问答模型输出以自然语言为形式的答案(A)。为实现这一目标,图像问答模型不仅需要对图像相关的问题进行正确的理解,还需要推断出正确的答案。因此,更好地提高图像问答模型的有效性,是迈向人工智能的重要一步[4]。

在早期图像问答任务的研究中,许多模型是通过元素逐乘的方法对图像特征和文本特征进行融合[5],其中,图像特征是通过使用预训练的卷积神经网络(CNNs)对目标分类进行获取的[6~7],文本特征是通过递归神经网路(RNNs)所获得[8~9],然后通过分类器预测出最佳答案。Ren 等将提取的图像特征作为第一个单词,并将其与问题中的单词一起输入到递归神经网络中用于预测答案[10]。Geman等提出了从标注过的图像中训练出的自动化问题产生器,这个产生器能够根据所提供的测试图像产生一系列的二元组问题[11]。尽管这些方法对图像问答模型有很大作用,但是对于较为复杂的场景,图像中的全局特征信息,往往会发生丢失。注意力机制成为改进图像问答模型一个更好的选择。

注意力机制属于深度神经网络研究的最新进展[12],已成功应用于图像、文本等单模态任务以及多模态任务中[13]。从图像问答系统的输入图像中提取图像区域中的特征注意力[14],已经成为所有图像问答模型实现的组成部分。除了图像特征注意力机制,通过对文本信息使用注意力机制学习文本中的关键单词或者短语也尤为重要。近期的研究表明,使用同时学习图像和文本的共同注意,可以有利于图像和问题的细粒度表示,从而提高模型的准确率[15]。

在图像问答任务中,对于更加复杂的图像场景,单一的注意力机制不能精确地关注图像中的重要特征,导致图像关键信息丢失。在此基础上,本文采用一个融合多头自注意力机制的图像特征模型,来获取图像特征中的全局信息,对于不同的图像特征生成多个注意权重,然后使用增强图像特征和问题文本特征之间信息关联性的共同注意网络,最后将获取到不同模态的特征,进行多模态特征融合后,进行答案预测,提高模型的准确率。本文所提出融合多头自注意力机制和共同注意的图像问答模型在VQA1.0 数据集以及VQA2.0 数据集[16]表现出较好的准确率。

2 模型描述

2.1 问题描述及处理思想

为了在提取图像特征时关注图像中的关键信息,更好地获得图像特征表示,并且对于更加复杂的图像场景,也可以精确地关注到图像中的重要特征信息,本文基于ResNet-152 网络使用多头自注意力机制,捕捉图像中的全局关键信息,获取图像特征表示。针对输入的问题,首先对每个单词进行词向量编码,然后使用Bi-LSTM模型生成问题特征表示。在获取到图像特征和问题特征之后,使用共同注意网络,增强问题特征信息与图像特征信息之间的关联性。最后进行多模态特征融合并使用分类器对融合特征进行答案预测,模型整体框架如图1所示。下面将详细介绍模型算法流程。

2.2 图像特征提取

融合多头自注意机制的图像特征提取模型,可以更好的获取图像特征表示。多头自注意力机制的优点是,所获取的图像特征信息保留了使用单头注意力机制可能被遗漏的重要信息,进而捕获了整个图像场景中的全局重要信息,如图2所示。

图2 融合多头自注意力机制的图像特征提取网络

本文模型使用ImageNet 分类任务上预先训练好的ResNet-152 来提取图像中的视觉特征,去掉了所有的全连接层和全局池化层,只使用卷积层来导出保持图像空间结构的三维特征图,并在之后添加一个1×1 的卷积层用来进行线性适应,从而提高网络的表达能力。给定输入图像X,使用改进后的ResNet-152 网络提取图像特征信息记为Vf=[V1,V2,…,Vk]∊Rk×di,其中Vk∊Rdi表示第k个物体特征,k为图像中物体的数量,di为期望维度。然后将通过Flatten 层后的二维特征图通过一个多层感知机(MLP),在多层感知机输出的第二个维度信息上使用softmax 函数,用来保证各注意力权重之和为1。所得到的注意力权重矩阵的每一行对应图像中不同的部分,计算出的注意力权重矩阵为

其中,∊Rdi×k,Wa∊Rr×da,Wb∊Rda×di,T∊(0,1)r×k,da为隐藏状态维度,r表示注意力权重数。将权重矩阵T与通过Flatten 层的二维特征图进行线性组合,获取到最终的图像特征输入矩阵:

2.3 文本特征提取

双向的长短期记忆网络(Bi-LSTM)由前向LSTM 网络和后向LSTM 网络堆叠而成,以便更好的捕捉双向的语义依赖。在使用Bi-LSTM 对问题文本进行编码之前,通过标记器将每个句子分割成一个单词单元,并且将输入句子的长度限制在14个单词以内,超过的部分会被丢弃。问题长度不足14个单词,均使用0向量补充。将获取的当前时刻的输入词向量xt,输入到双向长短期记忆网络中:

2.4 共同注意模型

通过基于问题特征的自注意力机制引导的图像注意特征,组成的共同注意网络,可以促进不同模态信息之间的相互作用。首先对问题特征使用自注意力机制,以整个Bi-LSTM 隐藏状态序列Y作为输入,对问题中的多个相关单词或短语,使用自我注意机制,输出注意力权重向量C,将问题特征由向量C加权后求和为向量Q,该向量Q代表带有注意的问题特征表示:

其中Wq1ϵRr×dc和Wq2ϵRdc×2dq表示学习权重参数,r和dc表示超参数,Q为突出问题关注重点的特征表示。

图像注意利用问题特征表示来关注图像信息中与问题信息最相关的对象区域。将问题注意Q通过均值函数变成q,首先使用逐元素乘法将使用自注意力机制后问题特征和输入的图像特征进行融合,对融合特征通过线性层,以及使用softmax 函数计算每个图像特征ik的归一化注意力权重λk。最后,利用获取的注意力权值对图像特征进行加权,并将其求和为向量u来表示图像注意特征。计算公式如下:

其中woϵR1×2dq,WqϵRdq1×2dq,和WiϵRdi×2dq表示学习权重参数,dq1和di为超参数,⊙表示矩阵相乘。

2.5 多模态融合与分类

将最终得到的图像特征表示u和问题特征表示q输入到分别通过一个非线性全连接层,然后使用逐元素相乘进行融合,得到融合后的特征:

其中,z表示问题和图像最终输出的融合特征,fu和fq表示非线性层,符号◦表示向量之间进行逐元素相乘。

将z输入分类器预测答案。将融合之后的特征z通过一个非线性层fo,然后通过一个线性映射wo来预测N个候选分数记为̂,并使用sigmoid 激活函数将最终的分数归一化为( 0,1) ,之后使用一个二进制交叉熵(BCE)作为损失函数。可以将最终的这一阶段看作是一个逻辑回归,对候选答案的准确性进行预测。目标函数计算如下:

其中M,N分别表示训练问题和候选答案的数量,s和ŝ分别表示真实答案的分数以及模型预测出候选答案的分数。

3 实验

3.1 实验数据集

VQA1.0 数据集,通过MSCOCO 数据集的图像进行构建。由真实图像和抽象图像组成,本文训练数据集来自真实图像数据,其中包括训练图像,验证图像和测试图像分别包括82783 张、40504 张和81434 张,问题数据包括训练问题,验证问题和测试问题分别包括248349 个、121512 个和244302个。VQA1.0 中的基本问题类型包括:是/否、数字和其他。每张图片对应三个问题,每个问题都给出的10个基本真实答案。

VQA2.0 数据集,包括82783 张训练集图像,有40504 张验证集图像和有81434 张测试集图像,以及443757 个训练问题,214354 个验证问题,447793个测试问题。在该数据集中,针对同一个问题,对应两张不同的图像,所以问题所对应的答案也是不相同的。与VQA 1.0 数据集相比,VQA 2.0 数据集更加平衡,且该数据集只对应开放式的任务。

3.2 评估指标

由于数据集中的每个问题都由10 个不同的注释者回答,答案有时也不相同,特别是对于主观的问题。为了探索答案之间的不一致性,我们采用软准确性作为回归目标。

其中a1,a2,…,ak是每个问题的正确标注答案的集合。a表示预测答案,I为指示函数。

3.3 实验环境及初始化

实验中所使用的深度学习框架为PyTorch,在训练中使用Adam 多模型进行优化,将学习率设置为0.0001,batch-size 设置为512,在实验中引入dropout 和正则化技术,用来防止模型在训练过程中出现过度拟合的问题。对于所有的中间层以及最终的融合特征嵌入,将维度设置为1024。实验在装有两个GTX 1080Ti显卡的工作站上进行。

3.4 实验结果分析及对比

1)VQA1.0数据集

从表1 中可以得出,将本文所使用的模型方法针对VQA1.0 数据集,与DPPnet 等主流的图像问答模型进行对比,总体(Overall)的准确率均高于其他模型,准确率为64.6%,在VQA1.0 数据集中取得了不错的效果,证明了本文模型融合多头自注意力机制的图像特征提取模块以及使用问题自注意力机制引导图像注意的有效性。对于“number”、“Yes/No”以及“Other”类型的问题,本文模型的准确率优于所比较的模型。针对“other”类型的问题,本文模型比MAN模型提高了0.9%,比LSTM I+Q模型的准确率提高了18.5%,证明本文模型性能较好。

表1 VQA1.0数据集上的对比试验

为了验证本文所使用的融合多头自注意力机制的图像特征提取模型的有效性,将图像特征提取模块替换为原始的去掉全连接层的ResNet152 模型,并将其命名为Ours(ResNet-151)模型,与本文模型在VQA1.0 数据集进行比对,对模型的有效性进行验证,如表2所示。

表2 多头自注意力机制有效性对比

由图3 可以看出,采用融合多头自注意力的ResNet-152网络获取图像特征信息,使得整个模型在每个问题类型的准确率均优于未使用多头自注意力的ResNet-152 网络模型,说明本文表现出较好的准确率和良好的性能。

图3 VQA1.0数据集对比多头自注意力机制有效性

2)VQA2.0数据集

从表3 中可以得出,本文模型总体的准确率为63.9%,高于所有对比模型,在VQA2.0 数据集中取得了不错的效果,证明了本文模型的有效性。将本文所使用的模型方法,针对不同问题类型,与主流的图像问答模型进行对比,对于“other”以及“Yes/No”类型的问题,本文模型的准确率优于所有比较的模型。“other”类型的问题,本文模型比LSTM+CNN 模型的准确率提高了12.9%,比VQA machine模型提高了1.3%。综上所述,本文所提出的融合多头自注意力和共同注意的图像问答模型可以更好地进行答案预测。

表3 VQA2.0数据集上的对比试验

同样使用去掉全连接层的原始ResNet-152 网络提取图像特征表示,与本文模型在VQA2.0 数据集进行比对,对多头自注意力机制的有效性进行验证,如表4所示。

表4 多头自注意力机制有效性对比

图4 针对上表进行可视化对比,综上所述,可得出本文使用融合多头自注意力机制的图像特征提取模型,用作获取图像特征信息,在图像问答领域进行推广,可以提高模型整体的准确率。

图4 VQA2.0数据集对比多头自注意力机制有效性

3.5 实验结果可视化

针对本文所提出的融合多头自注意力和共同注意的图像问答模型,选取测试集中的图像以及输入对应的问题,进行测试。图5展示在VQA数据集上可视化结果。

图5 可视化结果

4 结语

本文提出了一种用于图像问答任务的新型的网络模型,通过采用融合多头自注意力机制的图像特征提取网络获取图像特征,用来增强图像的特征表示,并在模型中使用共同注意网络,结合基于自注意力机制的问题文本注意所引导的图像特征注意,减少了候选答案的搜索空间,提高了整个模型的准确率。

实验结果显示,本文所提出的模型能够更好地获取图像特征表示,并且可以将更多的注意力权重放在问题特征所引导的图像特征线索上。但是从实验结果可以得出,本文模型除了在回答“是/否”等简单问题上有较高的准确率外,对于计数类问题和其他复杂类型的问题时(如:推理类问题),准确率还是相对较低,并且现有的图像问答模型都存在这个问题。未来将围绕这两类问题对图像问答模型做进一步研究。

猜你喜欢
注意力准确率机制
让注意力“飞”回来
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
自制力是一种很好的筛选机制
高速公路车牌识别标识站准确率验证法
“扬眼”APP:让注意力“变现”
A Beautiful Way Of Looking At Things
破除旧机制要分步推进
注重机制的相互配合