基于多模深度神经网络生成图像描述研究

2018-10-29 11:09周珊刘子龙
软件导刊 2018年8期

周珊 刘子龙

摘要:图片相比文字而言,可以为人们呈现更生动、更易于理解和更丰富的信息,海量图片成为互联网信息交流的主要媒介之一。因此,如何快速、便捷地自动生成图像描述具有研究意义。介绍了一种根据图像生成其内容的自然语言描述模型,该模型是基于一种在图像区域上应用改进的Faster-RCNN、在句子上应用BRNN以及通过多模嵌入达成两种模态对齐的一种结构化目标的新颖组合。对实验生成描述与图片本来描述相似度进行评估,B-1为0.63,B-2为0.45,B-1为0.32,相较于初始的一些语言描述模型性能有明显提高,说明该模型有一定的实用性。

关键词:自然语言描述模型;改进Faster-RCNN;BRNN;多模嵌入;模态对齐

DOIDOI:10.11907/rjdk.181011

中图分类号:TP317.4

文献标识码:A 文章编号文章编号:1672-7800(2018)008-0040-05

英文摘要Abstract:Nowadays millions of pictures have become communicate media of the Internet information.Compared with words,pictures are more vivid,easy-to-understand and they are interesting information to people.Therefore,the research on automatic acquisition of image content has great theoretical and practical significance.This paper mainly introduces a natural language description model based on image to generate its content.It is mainly based on an improved Faster-RCNN applied to the image region.BRNN is applied to sentences and a structured objective which aligns two modalities by a multimodal embedding.The similarity assessment between experimental description and the original description of the picture are as followed:the B-1 was 0.63,the B-2 was 0.45 and the B-1 was 0.32.The performance of the model was obviously improved compared with some of the original language description models,which showed that the model has certain practicality.

英文關键词Key Words:natural anguage description model; improved faster-RCNN; BRNN; multimodal embedding; modality alignment

0 引言

随着互联网技术的快速发展和电子设备数字影像技术的提高,人们更喜欢用智能手机拍摄和截屏,更方便、更快速地采集和记录信息。快速浏览一张图像足以让人们指出并描述关于视觉场景的大量细节。然而,如果只能通过识别出数字信息的计算机技术获取图像内容,其算法过程之复杂是难以想象的。目前大多数的视觉识别工作都集中在使用固定模型对图像进行标注上,虽然实现了对整幅图像内容的自动标注,但与人类可表达的丰富描述相比仍有很大的局限性。这些模型通常使用特定的模板对图片和句子进行学习,这对图片的丰富描述产生了限制。此外,有研究将复杂的视觉场景减缩为单个句子,这也是没必要的约束。

本文的核心思想是:给模型输入一些图像及其相应的句子描述,将这些图片及句子数据集视为弱标签进行学习,学习连续的词段及在图片中对应的位置。通过大量的学习,模型可生成句子段并推断出其描述对应的图像区域,如图1所示。

本文研究的目的是对给定的输入图片自动生成语言描述。提出一个多模嵌入模型,它能检索图片中的内容及所处位置,然后生成文本段对应到图片中所描述的区域,最后用文本段生成完整的句子描述。该模型涉及两种深度神经网络,分别是卷积神经网络(Convolutional Neural Networks,CNN)和循环神经网络(Recurrent Neural Network,RNN)。本文利用改进的卷积神经网络学习图像从底层到高层的多示例融合视觉特征,对图像进行区域标注;基于双向循环神经网络学习人工描述序列中的语法和语义,然后对区域的文本段生成自然语言描述。

1 相关工作

图像的多标签自动标注已有大量研究,如Gould和Socher等[1-2]研究了在固定类别集上对图片中的物体、场景和区域进行正确的语义标注。基于卷积神经网络能对图像进行多尺度的特征提取,在处理图像数据集时有很好的分类效果。针对一般模型在训练和测试时速度慢的特征,本文应用更快区域卷积神经网络(Faster-Region Convolutional Neural Network,Faster-RCNN),在训练时占空相对较小,并且能提高检测运算的精度和速度。该方法标注内容更丰富,对区域的描述也更准确。

对于图像的句子描述,Kiros等[3]提出了逻辑双线性模型生成对图像的完整句子描述,但是这种模型使用的是固定的上下文窗口。Donahue等[4]使用RNN模型,它与传统的神经网络的不同之处在于其带有记忆功能,能够处理对前面输出内容有关联的输出问题。本文采用BRNN,它不仅与前面的内容有关,还与后面的内容有关,可以很好地根据上下文预测生成的句子描述。此外,有许多不同的研究方法用来把词段和图片联系起来,例如Karpathy等[5]把图片和句子分解成片段并推断它们之间的对应关系,本文方法和它有类似之处,但是本文没有固定长度的上下文窗口。

2 模型介绍

2.1 模型特征

人们撰写句子时会频繁地引用图像中某些特定但未知的位置,如图1中 “猫正倚靠在木桌上”一句涉及到猫和木桌,要从图片和描述中推断出这些对应关系,从而学会从图像区域自动生成这些文本段。本文先将句子和图像区域映射到共同的、多模嵌入的神经网络,使用改进的卷积神经网络获取图像的特征区域,使用双向循环神经网络计算句子中词段的表示,并允许词及上下文在句子中不受限制地交互。接着,通过两种模型采取嵌入的表示方法,使语义相似概念占据图片空间中邻近的区域。

2.1.1 Faster-RCNN

3 实验与分析

本文实验使用MSCOCO数据集[9],它包含的图像信息有目标类别标签及位置坐标等,标签文件的坐标精确度均为小数点后两位,包含80k的训练图片、40k校验图片、20k的测试图片和80多种分类。

TensorFlow框架是谷歌开源的软件库,该系统功能强大,可用于复杂的数字计算,是目前为止效果较好的实现深度神经网络结构的框架。它实现模型功能非常灵活,处理框架以数据流图的方式运算,支持个人电脑或服务器上多处理器运行。

3.1 模型训练

Faster-RCNN采用RPN+VGG模型,其中VGG训练模型采用VGG-16,虽然实验效果较好,但它占用GPU显存较大、速度过慢。针对这个问题,训练过程中对模型卷积核的步长和一些参数进行修改,提升算法速度和内存占用。模型训练先在检测挑战赛的200多个类别的ImageNet图像集上进行,得到初始结果,然后再进行微调。训练过程采用端到端近似联合训练方式,这种方式使用显存较小,训练速度较快,准确率也很高。需要注意的是要把标签含有大写字母全部改成小写字母,否则会出现关键字错误。

训练多模深度神经网络根据上下文预测下一个输出单词。将h0初始值设为零向量,x1设置为特殊的START向量,并将期望的标签y1设置为序列中的第一个字。类似地,将x2设置为第一个字的字矢量,并期望网络预测第二个字,等等。最后一步,当xt表示最后一个字时,目标标签设置为特殊的END标记。本文使用SGD优化算法,每批训练数据输入50组图片和描述,使用Inverted Dropout函数训练,提高训练效果,使用softmax分类器进行优化。

3.2 模型测试与评估

为了解算法对图像特征提取和标注的性能,本文对模型准确率和召回率作了评估,选择一些具有代表性的模型进行比较,包括2010年文献[2]中Socher提出的模型、2015年文献[14]中的Fast-RCNN模型,2016年文献[15]中的NSIDML模型。

通过表1可以看到,本文使用的方案与其它几种方案相比,在平均准确率和平均召回率上都有优势。本文的准确率虽然没有NSIDML模型高,但也达到了较高水平,综合指标F1一Score是最高的。虽然在F1一Score综合衡量上与NSIDML相比并没有大幅度提高,但在召回率上有大幅度提高,说明该方案在常用标签上具有较强的实用性,该方法对图片标注的测试结果如图6所示。如果使用更多大规模数据集对模型进行训练,该方案理论上能取得更好效果。

为验证对图像区域文本描述性能,本文用n-单位片段评价方法对模型得到的描述与图片本身的相似度作评估,表示为B-n。本文还选择一些有代表性的模型与本文模型進行对比,分数越高代表性能越好。对比模型有文献[12]中提出的RNN模型,文献[13]中提出的Google NIC模型,文献[4]中提出的LRCN模型和本文模型,简写为MDNN。

通过表2可以看到,本文模型与最初的RNN模型相比性能有了明显提高,说明该模型确实有一定的实用性。虽然本文给出的实验没有Google NIC性能好,但如果使用更多的数据集对模型进行训练可能会取得更好的实验效果。最终自动生成描述的测试图片效果如图7所示。

4 结语

本文采用一种基于图像和句子数据集弱标签的形式生成图像区域的自然语言描述模型。首先介绍了Faster-RCNN和BRNN两个深度神经网络,然后描述了标注词与图片分割域对齐的方法,最后介绍了单词序列整合及在多模深度神经网络中的生成描述。

尽管本文模型对图片产生的描述效果较好,但也有很多限制,如模型只能以固定分辨率的图像生成一组像素数据和文字描述数据作为输入。 此外,本文方法是由图像处理模型和语言分析模型组合而成,直接从图像数据集到图像描述端到端模型仍需进一步研究。

图像包含信息丰富的背景,应当充分利用图像的多种数据源特征,如图像生成时间和地理位置等,利用深度神经网络进行多特征融合,对图像进行分析和描述。

参考文献:

[1] GOULD S, FULTON R,KOLLER D.Decomposing a scene into geometric and semantically consistent regions[C].IEEE 12th International Conference onComputer Vision,2009:1-8.

[2] SOCHER R,FEI-FEI L.Connecting modalities:semi-supervised segmentation and annotation of images using unaligned text corpora[J].Computer Vision & Pattern Recognition,2010:966-973.

[3] KIROS R,ZEMEL R S,SALAKHUTDINOV R.Multimodal neural language models[C].International Conference on International Conference on Machine Learning,2014:II-595.

[4] DONAHUE J,HENDRICKS L A,GUADARRAMA S,et al.Long-term recur- rent convolutional networks for visual recognition and description[DB/OL].arXiv preprint arXiv:1411.4389,2014.

[5] KARPATHY A,JOULIN A,FEI-FEI L.Deep fragment embeddings for bidirectional image sentence mapping[DB/OL].arXiv preprint arXiv:1406.5679,2014.

[6] REN S,GIRSHICK R,SUN J.Fasterr R-CNN[C].Proceedings of the IEEE International Conference on Computer Vision.2015.

[7] GIRSHICK R,DONAHUE J,DARRELL T,et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C].2014 IEEE Conference on Computer Vision and Pattern Recognition ,2014:580-587.

[8] DENKOWSKI M,LAVIE A.Meteor universal:language specific translation evaluation for any target language[C].Proceedings of the EACL 2014 Workshop on Statistical Machine Translation,2014:376-380.

[9] CHEN X,FANG H,LIN T Y,et al.Microsoft coco captions:data collection and evaluation server[DB/OL].arXiv preprint arXiv:1504.00325,2015.

[10] 高揚,卫峥.白话深度学习与TensorFlow[M].北京:机械工业出版社,2017.

[11] KIROS R,SALAKHUTDINOV R,ZEMEL R S.Unifying visual-semantic embeddings with multimodal neural language models[DB/OL].arXiv preprint arXiv:1411.2539,2014.

[12] MAO J,XU W,YANG Y,et al.Explain images with multimodal recurrent neural networks[DB/OL].arXiv preprint arXiv:1410.1090,2014.

[13] VINYALS O,TOSHEV A,BENGIO S,et al.Show and tell:A neural image caption generator[DB/OL].arXiv preprint arXiv:1411.4555,2014.

[14] GIRSHICK R.Fast R-CNN[C].Proceedings of the IEEE International Conference on Computer Vision.2015:1440-1448.

[15] JIN C,JIN S W.Image distance metric learning based on neighborhood sets for automatic image annotation[J].Journal of Visual Communication and Image Representation,2016(34):167-175.

(责任编辑:杜能钢)