吴小雪 张庆辉
摘要:图像描述技术的出现满足了人们追求的使计算机描述图像的愿望,但关于这方面的研究目前还处于初级阶段。介绍了图片描述技术的发展,分析了早期图像描述技术的短板,指出了深度学习应用与图像描述。详细介绍了图像描述的模型及发展,引出注意力机制与高层语义关系对图像描述的改进。
关键词:深度学习;图像描述;RNN;注意力机制;语义提取
一、引言
图像描述,是指计算机根据输入图片内容,自动的对图片生产一段描述性文字。对于人来说,完成图像描述是简单而自然的事情,但对于计算机而言,要实现该操作主要面临三个步骤:1)对图像进行目标检测,获得图片中需要描述的物体;2)理解不同目标之间的语义关系;3)使用合理的语言描述出物体之间的关系,这需要将计算机视觉和自然语言处理结合起来。
传统的图像内容描述方法可以分为两类:基于模板的方法[1,2]和基于探索[3]的方法。但由于模板固定,灵活性较低,且严重依赖训练库中的数据,因此被逐渐舍弃。深度学习的出现为图像描述问题注入了新的活力,使用深度学习方法代替传统的图片描述方法已经取得了当前在图片描述问题上的最佳结果。其中,基于CNN+LSTM的模型是深度学习描述图片的主流模型,它最早是由Karpathy[4]提出的,其输入经CNN获取图像的特征,然后将生成的特征向量输入到一个双向的RNN中产生图像描述语句,随后,Fang[5]等结合最大熵语言模型和深度多模相似网生成图像内容描述语句,该模型先检测出图像中的属性信息,然后利用属性信息替代原始图像信息输入到LSTM中产生描述语句。
二、图像描述模型
神经网络在图像描述上的应用离不开RNN的E-D结构。且随着图像识别技术的发展,各种新的结构模型层出不穷。本节就E-D做出简要介绍,并描述目前图像识别技术所涉及的最新模型。
(一)Encoder-Decoder结构
在原始的RNN结构中,输入序列和输出序列必须是严格等长的,但在机器翻译等任务中,源语言句子和目标语言句子的长度往往不同,因此需要将原始映射为一个不同长度的序列。而Encoder-Decoder(E-D)模型的提出正是为了解决这样一个长度不一致的映射问题。
将E-D结构应用到图像描述中,由于输入是图像,为了获取图像的特征向量,将原先的E RNN换成CNN,并将原先用于D的RNN换成了性能更好的LSTM,已解决RNN可能存在的梯度消失问题,并扩展模型的记忆能力。改进的模型如图,具体的做法是通过预训练的InceptionNet网络提取图像的特征,然后将softmax前一层的数据作为图像编码过后的特征,传入LSTM解码获取目标文字。
(二)注意力模型
没有引入注意力的模型在输入特征较少时性能较好,但当输入图片的特征多,图片表示的目标类别复杂时,便会丢失很多细节信息。针对翻译精度下降问题,研究人员在已有模型的基础上提出了注意力机制,总结来说就是不再使用统一的语义特征,而让D在输入序列中自由选取需要的特征,从而大大提高E-D模型性能。引入注意力的框架仍使用CNN的空间特性给图片的不同位置都提取一个特征,在获得数量可观的特征后,再让D在解码时拥有选择特征的能力。在计算注意力时引入一个系数矩阵,用来表示注意力对于不同的输出值的注意力分配概率分布信息,用表示,用表示CNN提取的图像特征,设在第t阶段传入Decoder的向量是,LSTM前一时刻的隐层状态为。则与a及的关系可以表示为(1)
(三)加入高层语义特征后的模型
除了使用注意力机制改善E-D结构外,还可以通过使用高层语义特征来改进原始模型。有研究人员认为,高层语义关系与最终生成的语句非常相关,不能轻易舍弃。可以把高层语义理解为一个多标签分类问题,由于图片与标签间可能存在一对一、一对多的关系,在新的模型中,对于一对一关系的卷积层后使用一个softmax,对于一对多的关系则使用多个softmax对应多个标签。训练时,首先在所有描述中提取出现最频繁的c个单词作为总标签数,每个图像的训练数据直接从其描述单词中取得,训练完成后,针对每张图片提取相应的高层语义表达向量,然后经过最大池化输入到LSTM中用于描述生成。
三、总结与展望
图像描述技术是机器学习在计算机视觉及自然语言领域结合的产物,在今后一段时间都将是人工智能领域研究的热点问题。本文重点介绍了当前图片描述技术所应用的最新框架及原理。作为一种新兴的技术,图片描述技术为科研人员提供了许多新的启发,如在未来机器学习的研究中,可以用语音描述图片,在机器学习不同领域的交界处探索以期迸发出新的火花。总而言之,图像描述技术目前还处于发展初期,在未來的研究中还有更多的路值得我们去探索。
参考文献:
[1] Kulkarni G, Premraj V, Ordonez V, et al. BabyTalk: Understanding and Generating Simple Image Descriptions[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2013, 35(12):2891-2903.
[2] Li S, Kulkarni G, Berg T L, et al. Composing simple image descriptions using web-scale n-grams[C] Fifteenth Conference on Computational Natural Language Learning. 2011.
[3] Kuznetsova P , Ordonez V , Berg A C , et al. Collective generation of natural image descriptions[C] Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Long Papers - Volume 1. Association for Computational Linguistics, 2012.
[4] Karpathy A, Feifei L. Deep Visual-Semantic Alignments for Generating Image Descriptions.[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2016, 39(4):664-676.
[5] Fang H , Gupta S , Iandola F , et al. From Captions to Visual Concepts and Back[J]. 2014.