基于双路细化注意力机制的图像描述模型①

2020-05-22 04:47:58丛璐文

计算机系统应用 2020年5期

丛璐文

(中国石油大学(华东)计算机科学与技术学院,青岛 266580)

1 引言

图像描述是计算机视觉领域与自然语言处理领域交叉的一项基本任务,该任务是给定一张图像,产生一句对应的自然语言描述,并且具有广泛的应用,例如为视觉有障碍的人提供帮助,人机交互和视觉助手等.然而,用自然流畅的句子描述图像内容对机器来说是一项具有挑战性的任务.它要求图像描述模型不仅识别图像中的显著对象,而且识别这些对象之间的关系,并使用自然语言来表达语义信息.随着深度学习的兴起,基于深度学习的图像描述模型逐渐发展起来.但是目前的大部分图像描述方法都只采用了单一的注意力机制,并且图像特征中存在冗余和不相关的信息,这些信息会误导注意力计算过程,使解码器生成错误的句子.本文针对上述问题,提出了一种新的基于双路细化注意力机制的图像描述模型,该模型首先使用Faster RCNN[1]目标检测算法提取图像区域特征,然后使用空间注意力机制关注包含显著对象的区域,同时利用通道注意力机制关注显著的隐藏单元,该隐藏单元包含与预测单词更相关的语义信息.在计算注意力权重时,首先对解码器的隐藏状态应用卷积运算来过滤掉不相关的信息.其次,将经过注意力机制的特征输入到特征细化模块过滤掉其中的冗余信息,并将这些细化的特征合并到模型中.这样,这些特征在语义上与图像内容更加相关.

2 相关工作

近年来,深度学习取得了重大进展,研究者们提出了多种基于深度学习的图像描述模型.Vinyals 等[2]提出了基于编码器-解码器的图像描述模型,该模型借鉴了机器翻译中常用的编码器-解码器架构,与机器翻译不同的是,该模型使用卷积神经网络(Inception 网络模型[3])作为编码器提取图像特征,使用长短时记忆网络(LSTM)[4]作为解码器生成句子.但是,该模型仅在第一步使用图像特征,而在随后的生成步骤中不使用图像特征.Wu 等[5]首先利用经过微调的多标签分类器来提取图像中的属性信息,作为指导信息来指导模型生成描述,提高了性能.Yao 等[6]首先利用经过多示例学习方法预训练的卷积神经网络提取图像中的属性信息,同时使用卷积神经网络提取图像特征,并且设计了5 种架构来找出利用这两种表示的最佳方式以及探索这两种表示之间的内在联系.

强化学习的相关方法也被引入图像描述任务中.Ranzato 等[7]提出了一种直接优化模型评价标准的方法,该方法利用了策略梯度方法来解决评价标准不可微且难以应用反向传播的问题.通过使用蒙特卡罗采样方法来估计预期的未来回报,该模型使得训练阶段更加高效和稳定.Rennie 等[8]提出了一种SCST 训练方法,该方法基于策略梯度强化学习算法,并且使用模型自身解码生成的描述作为基准,提高了训练过程的稳定性,SCST 训练方法显著地提高了图像描述模型的性能并且在一定程度上解决了图像描述模型训练阶段与测试阶段不匹配的问题.

受人类视觉系统中存在的注意力机制的启发,Xu 等[9]首次将注意力机制引入到图像描述模型中.在解码阶段的每个时刻,模型会根据解码器的隐藏状态来计算图像不同位置特征的权重.这些权重衡量了图像区域和下一个生成的单词之间的相关性.You 等[10]提出了一种新的语义注意机制,该方法首先会提取出图像的属性信息,在模型生成描述的每个时刻,选择最终要的属性信息为模型提供辅助信息.Lu 等[11]提出了一种自注意力机制,该机制利用哨兵位置的概念,当模型生成与图像内容无关的单词时,会将注意力放在哨兵位置上,以提高模型生成描述的准确性.Chen 等[12]提出了结合空间注意力与通道注意力的图像描述模型,与之相比,本文使用的是经过细化的空间注意力与通道注意力,同时本文还使用Faster R-CNN提取空间区域特征,特征更加细化.

3 模型

如图1所示,本文模型包含5 个基本组件:编码器、空间注意力机制、通道注意力机制、特征细化模块和解码器.模型的整个流程如图2所示.首先,编码器使用Faster R-CNN 目标检测算法提取图像区域特征.然后,在每个时刻,空间注意力机制与通道注意力机制分别计算对应的特征权重,特征细化模块通过过滤冗余和不相关的图像特征来细化经过权重修正的空间图像特征和通道图像特征.在经过细化的图像特征的指导下,解码器在每个时刻生成一个单词.

3.1 编码器

本文使用Faster R-CNN 目标检测算法提取图像区域特征.Faster R-CNN 引入了区域建议网络(Region Proposal Network,RPN),提高了目标检测的准确率.首先将图像输入到卷积神经网络中,将高层卷积特征输入到RPN 中得到建议区域,然后再对建议区域与高层卷积特征共同使用感兴趣区域池化,得到大小相同的特征图(14×14),然后将这些特征图输入到另一个卷积神经网络中,将得到的特征经过平均区域池化即可得到对应的区域特征,最后利用非极大值抑制过滤掉置信度不高的区域.最终可以得到L个不同区域的特征,将这些特征集合到一起,记作A,如式(1)所示.每个区域的特征包含D个通道.

全局图像特征可以用局部特征的平均来近似,如式(2)所示.

随后,将局部图像特征与全局图像特征分别输入到单层感知机内,并且使用ReLU作为激活函数,将这些特征投影到维度d的空间中.

式中,Wa与Wb是待学习参数,L个区域图像特征组成局部图像特征Q={qi,···,qL}.

图1 整体框架

图2 解码器结构

3.2 空间注意力模型

空间注意力机制广泛用于图像描述任务.遵循编码器-解码器结构的传统模型仅使用全局图像特征.基于空间注意力机制的模型更加关注图像中的显著区域,并且能够捕捉显著区域的更多细节.当生成与图像中物体相关的单词时,空间注意力模型可以增加其对图像相应区域的权重.本文模型也采用了空间注意力机制.

如图2所示,给定局部区域特征Q∈Rd×L与解码器的当前时刻的隐藏状态ht∈Rd,模型首先对隐藏状态进行卷积操作,过滤掉其中的不相关的信息,随后将这些信息输入到单层感知机中,然后利用Softmax 函数计算图像中L个区域的注意力分布.计算过程如下列公式所示:

其中,Conv是包含一个卷积层的块,卷积层后面跟随ReLU激活函数.1T是所有元素都为1 的向量.Wqs,Wss∈RL×d、whs∈RL是待学习的权重参数.αt∈RL是图像中L个区域的注意力分布.所关注的局部图像特征Vt可以通过以下方式计算:

与文献[11]相同,本文也使用解码器的当前时刻隐藏状态而不是上一时刻的隐藏状态来计算对局部图像特征的空间注意力.

3.3 通道注意力模型

Zhou 等[13]发现每个隐藏单元可以与不同的语义概念对齐.然而,在基于空间注意力的模型中,通道特征是相同的,忽略了语义差异.如图2所示,本文同时也采用了通道注意力机制.将局部区域特征Q∈Rd×L与解码器的当前时刻的经过卷积的隐藏状态输入单层感知机中,随后用Softmax函数计算局部图像特征在通道上的注意力分布:

其中,whc∈Rd,Wqc∈Rd×L,Wsc∈Rd×d为待学习的权重参数.1T是所有元素都为1 的向量.βt∈Rd是局部图像特征中隐藏单元上的注意力分布.基于通道注意力的通道局部图像特征Ut可以由式(11)计算获得.

其中,Qi表示每个区域特征中第i个通道组成的向量.

在解码生成描述的每个时刻,βti确定了第i个通道特征与生成的下一个单词之间的相关性.

3.4 特征细化模块

通常提取到的图像特征中会包含一些冗余或与生成描述不相关的特征.为了减少这些特征的影响,本文设计了一个特征细化模块来细化图像特征,过滤掉冗余的和不相关的特征.如图2所示,该模块使用单层LSTM 作为细化模块.LSTM 被命名为特征细化LSTM.在计算关注的局部图像特征Vt和关注的通道图像特征Ut之后,首先通过单层感知器将这些图像特征投影到相同的维度d.然后,将这些图像特征输入到细化LSTM,并通过n个时间步长来细化图像特征.最后,得到细化的关注空间图像特征和细化的关注通道图像特征:

其中,Wvd∈Rd×d和Wud∈Rd×L是待学习的权重参数.本文使用共享参数的特征细化LSTM,以降低训练过程中的存储成本.

3.5 解码器

LSTM 通常用于现有的图像描述模型中,因为LSTM 在对长期依赖关系建模方面具有强大的力量.本文遵循常用的LSTM 结构,基本LSTM 块中的门控单元和存储单元定义如下:

其中,xt、ft、it、ot、ct、ht分别是时刻t的输入向量、遗忘门、输入门、输出门、存储单元和隐藏状态.yt−1是前一个单词的单热向量,具有字典大小的维度.We是单词嵌入矩阵.[·;·]是两个向量的拼接.xt是词向量和全局图像特征的组合.σ (·)是Sigmoid 非线性激活函数,t anh(·)是双曲正切激活函数.⊙ 表示元素乘法.

通过使用隐藏状态ht、细化的关注局部图像特征、细化的通道关注局部图像特征,当前时刻生成的单词条件概率分布可由式(19)计算.

本文训练过程的第一个阶段使用交叉熵损失函数作为目标函数进行训练,如式(20)所示,第二个阶段使用SCST 训练方法,目标函数如式(21)所示.

式中,y∗t,y∗1,···,y∗t−1表示参考描述中的单词序列,y1:T表示单词序列(y1,y2,···,yT)的缩写

在训练过程中,将参考描述的单词序列输入到模型中,可以得到每个时刻预测的单词概率分布,随后计算目标函数,进行优化.

在推理过程中,选择每个时刻概率最大的单词作为生成的单词或者使用集束搜索(beam search),每次选择概率最大的前k个单词作为候选,最终输出联合概率最大的描述作为最终的描述结果.

4 实验分析

4.1 实验数据集与评价标准

本文模型在用于图像描述的MS COCO 数据集[14]上进行实验.COCO 数据集包含82 783 张用于训练的图像、40 504 张用于验证的图像和40 775 张用于测试的图像.它还为在线测试提供了一个评估服务器.本文使用文献[15]中的数据划分,该数据划分中包含5000 张用于验证的图像,5000 张用于测试的图像,其余图像用于训练.

为了验证本文模型生成描述的质量,并与其他方法进行比较,本文使用了广泛使用的评价指标,包括BLEU[16]、METEOR[17]、ROUGE-L[18]和CIDEr[19].本文使用文献[20]提供的评估工具来计算分数.BLEU 分数衡量生成的句子和参考句子之间的n-gram 精度.ROUGE-L 分数测量生成的句子和参考句子之间最长公共子序列(LCS)的F-Score.METEOR 评分通过添加生成的句子和参考句子之间的对应关系,与人类的评价标准更加相关.与上述指标不同,CIDEr 评分是为图像描述设计的.它通过计算每个n-gram 的TF-IDF 权重来测量生成描述与参考描述之间的一致性.

4.2 实现细节

首先将COCO 数据集中所有的描述转换成小写并且将描述的最大长度设置为15.如果描述的长度超过15,则会截断之后单词.本文过滤掉训练集中出现不到5 次的所有单词,并且增加了四个特殊的单词.“”表示句子的开头,“”表示句子的结尾,“”表示未知单词,而“”是填充单词.经过这样的处理以后,得到的字典长度为10 372.

本文将LSTM 的隐藏单元的数量设置为512,随机初始化词嵌入向量,而不是使用预训练的词嵌入向量.我们使用Adam 优化器[21]来训练本文的模型.在使用交叉熵训练的阶段,基础学习率设置为5 ×10−4,并且使用1 ×10−6的重量衰减,批大小设置为256,每三轮学习率衰减0.8 倍.训练轮次的最大数量被设置为30.在SCST 训练阶段,选择交叉熵训练阶段CIDEr 得分最高的模型作为初始模型,学习率固定为5 ×10−5,训练轮次设置成40.整个训练过程在一个NVIDIA TITAN X 图形处理器上需要大约50 小时.本文的模型使用Pytorch深度学习框架实现.

4.3 实验对比方法介绍

Goole NIC[2]使用编码器-解码器框架,使用卷积神经网络作为编码器,使用LSTM 作为解码器.

Hard-Attention[9]将空间注意力机制引入图像描述模型,根据解码器的状态动态地为图像不同区域的特征分配权重.

MSM[6]共同利用了图像属性信息与图像全局特征.

AdaAtt[11]使用了自适应注意力机制,如果要生成的单词与图像内容无关,则注意力放在一个虚拟的“哨兵”位置上.

文献[22]中的模型使用了视觉属性注意力并且引入了残差连接.

Att2all[8]首次提出并使用了SCST 训练方法.

SCA-CNN[12]同时使用了空间与通道注意力.

4.4 实验分析

如表1所示,与SCA-CNN 模型相比,本文模型使用的双路细化注意力以及空间区域特征对生成图像描述有着更强的指导作用.相较于只是用单一空间注意力机制的Hard-Attention 模型、AdaAtt 模型、文献[21]中的模型、Att2all 模型相比,本文模型使用的双路细化注意力机制,可以生成更加紧凑,冗余信息更少的特征,并且除了在空间位置上施加注意力,也在通道上施加注意力,使得模型可以更好地利用与生成描述相关地特征.

表1 本文模型与经典算法比较

为研究本文中不同模块的有效性,设计了不同的模型进行比较,实验结果见表2.基准模型为只使用Faster R-CNN 目标检测算法提取图像区域特征,不使用注意力机制与特征细化模块,表中的“X”表示该模型在基准模型的基础上使用该模块.从表2中可见,空间注意力机制、通道注意力机制、特征细化模块都可提高模型性能.同时使用两种注意力机制的模型3 相较于只使用一种注意力机制的模型2 与模型1,性能有进一步的提高,证明本文提出的双路注意力机制的有效性.模型5、模型6、本文算法在模型1、模型2、模型3 的基础上增加了特征细化模块,最终模型性能也有提高,证明了特征细化模块的有效性.

表2 本文模型不同模块效果比较

5 结论与展望

本文提出了一种新的基于双路细化注意力机制的图像描述模型.本文模型整合了空间注意力机制和通道注意力机制.首先使用卷积运算来过滤隐藏状态的不相关信息,然后计算注意力.为了对减少关注图像特征中的冗余和不相关特征的影响,本文设计了一个特征细化模块来细化关注图像特征,使关注图像特征更加紧凑和有区分度.为了验证本文模型的有效性,我们在MS COCO 数据集上进行了实验,实验结果表明,本文提出模型性能优越.