基于深度残差注意力的图像事件描述

2021-04-13 20:07张欣怡李永刚季兴隆孙红莲

电脑知识与技术 2021年5期

张欣怡李永刚季兴隆孙红莲

摘要：图像事件描述是根据图像特征数据再结合自然语言处理技术，输出图像事件的语句描述的技术。图像事件的描述，对图片分类、查询等有着极高效率，为了达到更精确的描述效果，本文提出基于深度残差注意力的图像事件描述方法。该方法以ResNet的网络结构为基础，联合分离出的全局注意力与局部注意力，关注图像事件中心事件，生成图像事件描述。在COCO数据集上的实验表明，本文提出的方法能更好关注事件发生区域，对抽象事件描述更为准确。

关键词：图像事件描述;深度学习;注意力机制

Abstract： Image event description is a technology that outputs sentence descriptions of image events based on image feature data combined with natural language processing technology. The description of image events has extremely high efficiency for image classification and query. In order to achieve a more accurate description effect， this paper proposes an image event description method based on deep residual attention. Based on the network structure of ResNet， this method combines the separated global attention and local attention， focuses on the central event of the image event， and generates the image event description. Experiments on the COCO data set show that the method proposed in this paper can better focus on the event occurrence area and describe abstract events more accurately.

Key words： image event description; deep learning; attention mechanism

在過去图像描述研究中，主要采用传统产生式模型，把图像与文本作为输入输出数据，通过寻找底层特征与标签之间的相关性转换成相关语义信息。本文在前人图像描述研究的基础上，将基于产生式模型的深度学习方法应用到图像逻辑语义描述问题上。

Faster-RCNN模型是在CNN模型[1]的基础上，能够更加快速更加高效地获取图像对象的候选区域，速度更快，准确率更高，能有效解决因为网络叠加许多层厚带来的性能快速下降问题[5]。早期的人工语义分析缺点多，耗时、费力、不能成批分析。虽然现有的图像描述模型可以使用神经网络（RNNs）来达到预期的结果，但难以保证我们关心的对象包含在生成的描述中，例如在图像中模糊不明显的对象。一旦在我们关注的对象在训练中被忽略时，问题就会愈发复杂。因此我们采用在较大规模的数据集上训练联合的全局注意力和局部注意力[2]，通过注意力机制来关注不同类型的图像细节，能更好描述抽象事件以及多义性事件，使得图像描述具有更好的逻辑性，在遇到事件较不明显的图像时，能更方便快速地查询。

1 基于深度学习与联合注意力的事件描述模型

图像事件描述模型是一种深度神经网络模型，主要是由编码器和解码器联合组成，其框架结构图如图1所示。在编码器端采用了Faster R-CNN的RPN网络和ResNet[4]来提取图像的视觉特征，解码器部分利用RNN的LSTM来负责关键字提取到句子生成。它们融合了联合注意力机制来关注局部信息特征，能更好地描述总体图像信息。

2 图像事件描述关键技术分析

2.1 特征提取模型

在计算机视觉领域，卷积神经网络被广泛应用，如图像分类、目标对象检测与跟踪等。CNN由多个卷积层、池化层和全连接层构成，其强大的视觉表达能力可以学习到更高级的视觉特征。视觉特征逐层传递在不同的网络层间，主要学习纹理、颜色和轮廓等低层视觉特征以及由低层视觉特征再组合而成的高层视觉特征。虽然普通的R-CNN在视觉特征表达能力上有了质的飞跃，但对于目前庞大的数据集，其训练步骤、测试速度依然较慢，且极占空间。在此基础上，如图2模型所示，本文采用Faster R-CNN算法[7]，同样用CNN提取图像的特征得到特征图，利用RPN网络得到候选区域，通过ROI pooling得到同等大小的特征后，再送入多分类器，并采用损失函数对位置进行精修调整，从而提高了模型的检测的速度与准确度。

2.2 基于深度残差网络的注意力机制

当网络层数较低时，不断加深网络，有着更好的非线性表达能力，可以学习更加复杂的变换，能更好地拟合特征，更深的网络层也能学习到更加复杂的表达。但在人们尝试了将网络不断加深后发现，一味地堆叠网络也可能会导致模型性能更差，即退化问题。深层网络带来的梯度不稳定、网络退化的问题始终都是存在的且无法完全消除，因此引入残差网络ResNet，来加快计算速度，减少计算消耗。深度残差网络是由残差模块共同串联而成，以残差深度网络ResNet 的网络结构为基础，在较大规模的数据集上训练深度更深的网络，使得深度模型在处理图像描述任务中的泛化能力更强、鲁棒性更好。

注意力机制通过一个小型网络学习得到一组权值系数，该权值用来评估各个特征通道的重要程度，然后再赋予合适的权重。

基于深度残差网络的注意力机制，是将SENet与残差模块集成在一起，因跨层恒等路径的存在，SENet能更加容易得到训练，且每个样本都可以有自己独特的一组权值系数。图3为残差模块与注意力机制结合得到的模型结构。

LSTM[6]属于特殊的一种递归神经网络（RNNs），RNNs是当前时刻的输出，与当前时刻输入和上一刻输入都相关。在LSTM模型中，对应于一句话中的每个单词都是平等的，且其中包含遗忘门，会更加倾向记住后输入的词汇。全局注意力的目的是在生成一个句向量时能将所有的隐藏状态也考虑进来，全局注意力机制通过学习来得到一句话中每个单词的权重。LSTM联合注意力机制能使生成的描述性语句更具有逻辑性。

在数据集中，基本上都含有噪声或者冗余信息。广而言之，在一个样本中，任何与当前目标检测任务无关的信息，都可以看作是噪声或者冗余信息，他们都会对当前识别任务造成不利的影响。而局部注意力机制能让特征提取出我们所需要的区域，过滤掉其他冗余信息。全局注意力机制是在提取相应的局部特征后，根据权重对所有的“patch”进行学习映射再整合推断整个图片的信息。注意力机制使图片能够在低解析度或低辨识度的复杂背景下，关注高解析特征的特定候选区域，再逐渐调整焦点，移动到其他特定区域，最后组合进行推断整张图片的信息。

3 实验结果集分析

如图4所示，图片由CNN编码后，带入到基于注意力机制的Faster R-CNN网络中，先关注图片各个局部特征并输出每个词的映射关系，再关注图片整体特征将其整合成句向量。

图4的图像素材得到了如图5所示的具有逻辑性的描述语句，从中可看出，本文方法生成的图像时间描述较为合理和完备地显示了图片信息的动作事件，相较于普通图像描述，更具准确性，具有明显优势。

4 结束语

本文在深度学习与注意力机制的基础上，在图像描述中更多的加入抽象的图像中各物体之间的关系，来达到将一幅或多幅信息较大的图像压缩描述为一句话。在CNN和LSTM神经网络结合的基础上，通过注意力模型，对计算机获取的区域纹理、运动方向、图像色块等图像特征进行自动语义描述。总体来说，它是一个基于卷积神经网络编码的语言描述系统，便于对图像或视频的分享和查找，能在监控、医学、体育、新闻以及影片视频片段的语义分析中发挥重要作用。综上，图像事件描述方法的研究成果可批量化生产，且具有较大的市场需求，能实现很高的商业价值与社会价值。

参考文献：

[1] Anderson P， He X， Buehler C， et al. Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering[C]//IEEE Conference on Computer Vision and Pattern Recognition （CVPR）. 2018：6077–6086.

[2] Ranjay K， Kenji H， Frederic R， et al. Dense-Captioning Events in Videos[C]//IEEE International Conference on Computer Vision （ICCV）. 2017：706–715.

[3] Xu K， Ba J， Kiros R， et al. Show， Attend and Tell： Neural Image Caption Generation with Visual Attention[C]//International Conference on Machine Learning（ICML）. 2015：2048–2057.

[4] Kaiming He，Xiangyu Zhang，Shaoqing Ren. Deep Residual Learning for Image Recognition. 10.1109/CVPR.2016.90.

[5] BoDai SanjaFidler DahuaLin A Neural Compositional Paradigm for Image Captioning.

[6] 湯华东. 基于LSTM融合多CNN的事件图像分类研究[D]. 北京交通大学， 2018.

[7] Wu Xiaofeng，Zhang Jiangxin， and Xu Xinchen，Hand Gesture Recognition Algorithm Based on Faster R-CNN， Journal of Computer-Aided Design & Computer Graphics，Vol.30 No.3，Mar. 2018.

【通联编辑：唐一东】