深度学习在图像自动标注中的应用初探

2020-07-04 02:27魏珺洁

智能计算机与应用 2020年3期

魏珺洁

摘要：近几年，随着人工智能深度学习的不断发展，计算机视觉领域也逐渐发展扩大，先后出现了图像检索、图像自动标注等新的研究方向。最初为支持图像检索而逐渐兴起的图像自动标注技术，可以在一定程度上跨越“语义鸿沟”，让计算机自动给图像加上能够反映图像内容的语义描述，从而减少人工标注成本。深度学习作为人工智能领域的新技术，其復杂的神经网络结构能够在学习到图像特征后快速输出结果，如果将深度学习应用于图像自动标注，将大大节约人工标注时间，降低人工标注成本。文章为探究深度学习在图像自动标注上的可行性，将以作者的生活照为样本数据，使用深度卷积神经网络与深度循环神经网络进行图像处理，最后输出图像的文字描述。

关键词：深度学习; 深度卷积神经网络; 深度循环神经网络; 图像自动标注

【Abstract】 In recent years， with the continuous development of artificial intelligence deep learning， the field of computer vision has gradually developed and expanded， and new research directions such as image retrieval and automatic image annotation have emerged. The automatic image annotation technology， which was originally developed to support image retrieval， can cross the “semantic gap” to a certain extent， allowing the computer to automatically add a textual description of the image content to the image， thereby reducing the cost of manual labeling. As a new technology in the field of artificial intelligence， the complex neural network structure of deep learning can quickly output results after learning image features. If applied to automatic image annotation， deep learning will greatly save manual labeling time and reduce manual labeling cost. In order to explore the feasibility of deep learning in automatic image annotation， the article will take the author's photos of life as sample data， use deep convolutional neural network and deep recurrent neural network for image processing， and output the text description of the image.

【Key words】 deep learning; deep convolutional neural network; deep recurrent neural network; automatic image annotation

0 引言

深度学习是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理行对数据进行高层抽象的算法，深度神经网络能够通过多层网络进行特征学习，从大量的数据中学习规律，从而实现预测、识别等结果[1]。在计算机视觉领域，深度学习不仅能够实现图像分割[2]、图像分类[3]及图像识别[4]，还可以用于图像检索[5]、图像超分辨率重建[6]、目标检测[7]等方面。

图像自动标注就是让计算机自动地给输入图像生成能够反映图像内容的语义描述。在此过程中，是利用已经标注的图像作为训练数据，将训练数据输入模型中，使模型在图像的高层语义信息和低层特征之间建立一种映射关系，从而使用此模型对未知语义的图像进行自动标注[8]。文章使用的是Vinyals等人[9]提出的Encoder-Decoder模型，该模型中的Encoder为编码器，是一个深度卷积神经网络（Deep CNN），常用于图像识别，目标检测等领域;Decoder为解码器，是一个深度循环神经网络（Deep RNN），常用于语言模型或机器翻译等领域。文章将图像数据输入深度学习Encoder-Decoder模型后，由编码器负责提取图像特征，解码器负责获取并输出图像的文字描述，从而实现图像自动标注。

将深度学习应用于图像自动标注技术，可以有效节约人工标注的成本，减少标注时间，提高图像标注效率。对此可展开研究论述如下。

1 深度学习基础

1.1 深度卷积神经网络

卷积神经网络（Convolutional Neural Network，CNN）是一种前馈人工神经网络，由输入层、卷积层、池化层、全连接层、输出层组成，主要用于图像识别。相比于浅层卷积神经网络，深度卷积神经网络结构较复杂，一般会有几十个神经层，每一层又会有数百个神经元。深度卷积神经网络通过将输入图像嵌入到固定长度的向量中生成输入图像的丰富表示，具有超强的图像处理能力。

文章使用的深度卷积神经网络模型为GooLe Net网络中的Inception v3模型，GoogLe Net中的Inception v1模型[10]通过采用全局平均池化层取代全连接层，极大地降低了参数量，是非常实用的模型。随后的Inception v2模型[11]中，引入了Batch Normalization方法，加快了训练的收敛速度。在Inception v3模型[12]中，通过将二维卷积层拆分成2个一维卷积层，不仅降低了参数数量，同时减轻了过拟合现象。

深度卷积神经网络在Encoder-Decoder模型中充当“编码器”，先对其进行训练以完成图像分类任务，然后将其作为下一个隐藏层（即用作生成语句的解码器）的输入，见图1，Vinyals等人[9]将此结构称为NIC模型。

2.2 实验过程

（1）配置实验环境：本次实验工具为Anaconda3，Spyder（Tensorflow），實验环境为Windows10，Python3.6，Tensorflow1.12.0。

（2）导入模型：本次实验模型是使用“2015 MSCOCO Image Captioning Challenge”的数据集训练出来的深度学习模型，即上文提到的Encoder-Decoder模型。该模型分为Encoder编码器和Decoder解码器两部分，编码器负责图像特征提取的工作，输入的图像在Inception v3网络中能够被转化为一个固定长度的向量。通过NIC模型，在编码器中得到的固定长度的向量将作为解码器的输入，最终通过训练好的LSTM网络生成对向量的文字描述。

编码器是Inception v3模型，共有47层，比以往的CNN网络计算速度更快，对非线性更鲁棒。解码器是LSTM模型，通过输入大量已经标注的图像对其进行训练形成字典，训练集中的单词每个至少出现5次，从而使其具有捕获语义的能力。

（3）导入数据集：从该模型的训练集中抽取的图像数据进行实验，效果较为客观，所以文中收集了一些生活照作为输入进行训练。

（4）运行：在Tensorflow中使用Encoder-Decoder模型对输入图像进行编码与解码处理，最终输出输入图像的文字描述。

2.3 实验结果

实验结果见表1。表1的第一列为输入图像，第二列为输出的文字描述。具体来说，第一列从上至下可描述为：第一张图像为一个男人站在石墙旁边;第二张图像为一个女人怀里抱着一只泰迪熊;第三张图像为一个拿着伞的女人站在商店前面;第四张图像为一个年轻的姑娘坐在板凳上。

对于实验输出，即仔细观察每张图像的文字描述，分析后可知深度学习模型生成的文字描述能够表达出图像的典型特征，但是由于该模型的字典容量有限，也未能准确识别出一些特殊的物体。例如：第三张图像女生手中的棉花糖由于与伞的形状相似，该模型识别结果为伞，女生身后的装饰心愿墙识别为商店。

从实验结果不难发现，Encoder-Decoder这一深度学习模型，确实能够实现图像自动标注。

本次实验能够证明深度学习在图像自动标注上的可行性，只是图像标注的精确程度还有待提高。

3 结束语

图像自动标注技术是提高图像检索效率的重要突破，同时也是人们快速获取图像信息的技术手段，而使用先进的深度学习技术来对图像进行高效自动标注就能够推动图像检索领域的发展。文章实验使用深度卷积神经网络与深度循环神经网络相结合的Encoder-Decoder模型，证明了深度学习实现图像自动标注的可行性，因此，深度学习能够实现图像的自动标注。

然而，深度学习在图像自动标注上的应用研究时间尚短，个别图像特征的标注并不精确，模型的字典也未臻至全面。因此，在今后的研究中，则立足于深入研究如何提高深度学习在图像自动标注中的精确度问题。

参考文献

[1] 程冰. 基于卷积神经网络的自动标注技术的研究[J]. 电子世界，2019（16）：124.

[2]张明月. 基于深度学习的图像分割研究[D]. 长春：吉林大学，2017.

[3]程国建，郭文惠，范鹏召. 基于卷积神经网络的岩石图像分类[J]. 西安石油大学学报（自然科学版），2017，32（4）：116.

[4]程国建，周冠武，王潇潇. 概率神经网络方法在岩性识别中的应用[J]. 微计算机信息，2007，23（16）：288.

[5]岳清清. 深度学习在岩石薄片图像检索中的应用研究[D]. 西安：西安石油大学，2019.

[6]LEDIG C， THEIS L， HUSZAR F ， et al. Photo-realistic single image super-resolution using a generative adversarial network[J]. arXiv preprint arXiv：1609.04802v1，2016.

[7]程欣. 基于深度学习的图像目标定位识别研究[D]. 成都：电子科技大学，2016.

[8]鲍泓，徐光美，冯松鹤，等. 自动图像标注技术研究进展[J]. 计算机科学，2011，38（7）：35.

[9]VINYALS O ， TOSHEV A ， BENGIO S ， et al. Show and tell： Lessons learned from the 2015 MSCOCO image captioning challenge[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence， 2016， 39（4）：652.

[10]SZEGEDY C ， LIU W ， JIA Y ， et al. Going deeper with convolutions[J]. arXiv preprint arXiv：1409.4842，2014.

[11]IOFFE S ， SZEGEDY C . Batch normalization： Accelerating deep network training by reducing internal covariate shift[J]. OALib Journal， 2015，3：448.

[12]SZEGEDY C， VANHOUCKE V， IOFFE S， et al. Rethinking the inception architecture for computer vision[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition（CVPR）. Las Vegas， Nevada， USA：IEEE，2016： 2818.

[13]杨丽，吴雨茜，王俊丽，等. 循环神经网络研究综述[J]. 计算机应用，2018，38（S2）：1.