阳华东 李明东 邓旭 李贤富
摘要:深度卷积神经网络能自动从训练样本中学习高层语义特征,本文尝试将深度卷积神经网络用于图像检索,以解决语义鸿沟问题,将图像检索输入特征使用改进的卷积神经网络作为提取特征。但传统的深度卷积神经网络学习过程的初始参数是随机的,在实际训练过程中,如果训练的样本集不是足够大该模型容易出现局部优化或过度拟合,致使实际结果不好。因此,本文提出了一种改进的卷积神经网络模型,该模型使用未标记的样本数据预训练深度卷积神经网络。在这个改进的模型中,结合自动编码器的原理,通过重建输入数据来提取输入数据的特征表达式并在常用的Caltech 256数据集上对所提出的方法进行实验。实验结果证明;对于大型神经网络,提出的改进算法具有较高精度且在时间收敛速度方面较原算法也有提升。同时,還使用了ImageNet预训练的VggNet网络的特征作为图像检索的输入特征,结果显示:1.VggNet取得了最高的准确率和ImageNet预训练模型的特征具有很好的泛化能力;2.对于大型网络结构,在小的数据集上重新训练极易陷入过拟合,因此很难得到最好的训练结果。
关键词:深度学习;卷积神经网络;图像检索;预训练
中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2019)05-0184-03
引言
近年来,数字图像领域飞速发展广大人民群众对数字图像功能的需求愈来愈高,各种成像设备层出不穷,如何在庞大且繁杂的图像集里快速准确地获得所需目标是我们努力的方向,同时图像检索技术[1]应势而生。
图像检索的发展经历了两个阶段:基于文本的图像检索和基于内容的图像检索。[2]在基于文本的图像检索中,每个图像具有相应的标签,该标签根据搜索关键字和图像标签之间的匹配程度进行搜索。该方法的设计很简单,但由于图像标签是人为标注的,因此标记过程跟人的理解有很大的关系,结果,主观因素影响更加严重,面对互联网上的大量数据显然是不现实的。因此基于内容的图像检索已经迅速发展[3]。这里的内容是指图像本身包含的特征,包括特征、形状、纹理和颜色,例如SIFT [4],SURF,HOG和GIST。这些特征从各个角度反映图像的一个或一些方面内容,可以使图像检索的准确率得到提升。然而,无论是基于颜色,纹理,形状还是多特征合成,它都是图像视觉内容的低级表示。在机器和人类对相似性的看法和判定中,两者间仍然存在难以克服的语义[5]差距。因此,即使基于内容的图像检索已经取得了一系列重要成果,但由于语义空白的差距,图像检索仍然是一个具有挑战性的问题。
2006年,在《科学》杂志上有一篇来自多伦多大学教授Geoffrey E. Hinton发表的论文[6]加速了深度神经网络研究的兴起。Hinton 研究发现:一个神经网络如果拥有多个隐藏层的特征说明其学习能力较强。分层初始化训练方法可以有效地避免深度神经网络难收敛的情况。通过学习如此深入的网络结构,深入学习可以很好地表达非线性问题,从而可以自动提取训练样本的高级语义特征。
卷积神经网络是一种典型的深度学习架构,由输入层、池化层、全链接层和输入层组成[7]。研究表明,卷积神经网络较低的层通常学习图像的纹理、颜色等底层特征,而较高层的卷积神经网络通常包含了图像的语义信息。目前,由于深度神经网络在图像分类和识别领域表现出非常强的特征表示,卷积神经网络已被广泛应用于图像分类[8]和识别。本文中,我们尝试使用深度神经网络训练的分类模型的隐藏层输出作为图像的特征表示。在此基础上,研究了检索特征的性能,以确定深度学习技术是否可以解决语义缺口问题。
1 相关理论
卷积神经网络[9]自20世纪90年代引入以来,典型的深度学习[10-12]架构之一,以及第一个真正成功的多层神经网络,卷积神经网络在自然语言处理,图像和图语音识别领域取得了显著成果。
通常,卷积神经网络中的输入层是第一层,并且顺序地连接几个卷积、下采样层、完全连接的层和分类器。[13]学习过程主要包括学习卷积和下采样层[14]。
1.1 卷积层的学习
在卷积层中,可学习卷积核和前一层的若干特征映射,然后使用激活函数f。例如Sigmoid函数、Tanh函数、Relu函数等,相应的输出特征可以通过使用公式(1)获得。
[hlj=f(i∈Mjhl-1i*Wlij+blj)] (1)
(其中, [hlj]表示第[l]层的第[j]个特征图,[l]表示层数,[W]是卷积核,[*]表示二维卷积,[b]是偏置,[Mj]表示输入特征图的集合)。
1.2 下采样层的学习
下采样层执行合并操作,同时保持特征映射的数量等于相邻的先前层卷积层特征映射的数量。但是,特征图变小,输出特征可用于等式(2)计算。
[hlj=f(down(hl-1i)?wlj+blj)] (2)
(其中, [hlj]表示第[l]层的第[j]个特征图, [w]是相应的权值,[b]是相应的偏置,down()是相应的下采样函数,如果对输入特征图的块特征值求平均值或者最大值等,这样输出特征图在两个维度上都缩小了[p]倍)。
对于深度卷积网络,使用前后逐层学习。在全部卷积和下采样层学习完毕之后,将所得到的标签数据输入网络,同时将学习的特征输入编码器。BP算法用于微调网络的训练参数。
2 提出的改进算法
考虑到上述学习过程的初始参数是随机的,但在实际训练过程中,如果训练的样本集不是足够大。该模型容易出现局部优化或过度拟合,致使实际结果不好。因此,本文提出了一种改进的卷积神经网络模型,该模型使用未标记的样本数据预训练深度卷积神经网络。
在这个改进的模型中,本文结合自动编码器[15]的原理,通过重建输入数据来提取输入数据的特征表达式。它主要包括卷积编码,卷积解码和误差反向传播以更新权重的过程。具体过程如下:
假设某卷积层共有H个特征图,[x]表示当前层的输入,[Wk]表示第[k]个特征图的权值,偏置为[bk],采用的激活函数为[f]。
卷积编码过程:得到当前层的特征图为:
[hk=f(x*Wk+bk)] (3)
(其中*表示2维卷积)。
卷积解码过程:通过解码器,利用公式(4)得到特征图式(3)的重构。
[x=f(k=1Hhk*Wk+c)] (4)
(其中[Wk]表示第[k]个特征图的权值矩阵[Wk]的转置,[c]为相应的偏置)。
目标函数是最小化重建误差函数:
[E(W,b)=||x-x||2] (5)
误差反向传播过程:使用类似于BP神经网络的误差反向传播算法,使用以下公式计算目标函数的梯度值。
[?E(W,b)?Wk=x*δ(hk)+hk*δ(x)] (6)
(其中[δ(hk)]和[δ(x)]分别表示卷积层和重构层的残差)。[13] 最终的随机梯度下降法可用于更新权值,直到网络收敛。
通过使用上述过程中描述的方法,可以获得这个卷积神经网络的初始化参数,然后标记数据用于再次训练。以这种方式可以获得训练后的卷积神经网络,并且提取网络的最后一层输出矩阵用于图像检索。
3 实验
在本文中,从深度卷积神经网络中提取的两个特征被用于图像检索。一种是自定义的网络结构,其结构和AlexNet[16]大致一致,对于这种网络,本文采用随机初始化(原算法)和提出的改进算法(改进算法)两种方法对其进行训练,然后提取特征用于图像检索。另一种深度卷积神经网络采用VggNet[17],其直接采用ImageNet预训练模型进行特征提取。
3.1 实验数据集
本文在常用的Caltech 256数据集[18]上对所提出的方法进行实验验证,该数据集共有30607个图像,分为256个不同的对象类别,以及一个背景类别。每个类别平均包含40到800张图像,每个图像的大小约为[300×200]像素,通过计算查询图像的平均准确率来对所提出的方法进行量化评价。图1显示了Caltech 256数据集示例图片。
3.2 网络结构
该网络与AlexNet网络大致相同,与AlexNet的不同之处在于,自定义网络将AlexNet网络最后的1000个分类改为了256个,以适应数据集的大小。其网络具体参数如下:
VggNet与AlexNet也非常类似,与AlexNet不同的是,其卷积层的模板更小,都为3,但是网络的深度更深,模型的参数更少,这样对避免过拟合问题具有一定的作用。
3.3 实验结果
在该实验中,使用fc6层特征被用作图像检索的输入,其中使用VggNet網络的检索结果如图2所示。
比较几种不同的深度卷积神经网络,本文从收敛速度和准确度两个方面来考虑,图3显示了传统卷积神经网络(原算法)和改进的卷积神经网络(改进算法)的收敛速度(由于VGGNet直接ImageNet预训练模型的特征,因此无法获得收敛速度)。
图3的结果显示,改进的卷积神经网络(改进算法)由于初始化参数时,采用了预训练的方式,使算法在训练之初具有了较好的初始化值,收敛速度上改进算法优于原算法。
图4显示了几种网络的检索准确度,这里均使用fc6层的特征作为图像检索的输入。
从图4的实验结果能够得出,改进的卷积神经网络(改进算法)准确率明显高于传统的卷积神经网络(原算法),说明对于参数较大的模型,当训练数据集不是很大时,预训练可以有效地提高准确率。此外,从结果还可以看出,VggNet的检索的准确度最高,说明了ImageNet预训练模型的特征具有很好的泛化能力,同时也证明了,对于大型网络结构,在小的数据集上重新训练极易陷入过拟合,因此很难得到好的训练结果。
4 结论
针对传统图像检索方法中语义鸿沟的存在,本文尝试利用深度卷积神经网络用于图像检索。本文采用的改进深度卷积神经网络,提取特征作为图像检索的输入特征,实验结果表明,对于大型神经网络,采用本文提出的算法具有更高的准确率。改进的卷积神经网络(改进算法)由于初始化参数时,采用了预训练的方式,使算法在训练之初具有了较好的初始化值,与原算法相比,该算法在收敛速度上更好。此外,本文还使用了ImageNet预训练的VggNet网络的特征作为图像检索的输入特征,实验结果表明,VggNet取得了最高的准确率,说明了ImageNet预训练模型的特征具有很好的泛化能力,同时也证明了,对于大型网络结构,在小的数据集上重新训练极易陷入过拟合,因此很难得到最好的训练结果。
参考文献:
[1] Zhang Chen, Lingyu-Duan, Chunyu Wang, Tiejun Huang, Wen Gao. Generating vocabulary for global feature representation towar ds commerce image retrieva[C].IEEE ICIP 2011:105-108.
[2] 王伟光,解成俊.《基于内容的图像检索技术探索》ISSN:1673-5641.产业与科技论坛,2014(1):P82—P82,83.
[3] 周飞,金林鹏,董军.卷积神经网络研究综述[J].计算机学报,2017,40(6):1229-1251.
[4] David Lowe. Object recognition from local scale-invariant features[C].IEEE ICCV ,1999:1150-1157.
[5]胡二雷,冯瑞.基于深度学习的图像检索系统[J].计算机系统应用,2017.26(3):8-19.
[6] HINTON G E, SALAKHUTDINOV R R. Reducing the dimensionality of data with neural networks[J]. science, 2006, 313(5786):504–507.
[7] 刘洋.基于深度学习的图像检索技术研究[D].武汉:华中科技大学,2015.
[8] 席晓聪.图像分类方法研究[D].[S.l.]:山东大学,2013.
[9] LECUN Y, BOSER B E, DENKER J S, et al. Handwritten digit recognition with a back-propagation network[C].Advances in neural information processing systems. 1990:396–404.
[10] 刘建伟,杨育彬,陈兆乾.深度学习研究进展[J].计算机应用研究,2014,31(7):1921-1930,1942.
[11] 孙志远,鲁成祥,史中植,等.深度学习研究与进展[J].计算机科学,2016,43(2):1-8.
[12] 尹宝才,王文通,王立春.深度学习研究综述[J],北京工业大学学报.2015,41(1):48-59.
[13] 段宝彬,韩立新.改进的深度卷积网络及在碎紙片拼接中的应用[J].计算机工程与应用,2014(9):P176—P181,270.
[14] 芮挺,费建超,周遊,等.基于深度卷积神经网络的行人检测[J].计算机工程与应用,2016(13):162-166.
[15] HINTON G E, ZEMEL R S. Autoencoders, minimum description length and Helmholtz free energy[C]//Advances in neural information processing systems. 1994:3-10.
[16] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet classification with deep convolutional neural networks[C]//Advances in neural information processing systems. 2012:1097–1105.
[17] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[J].arXiv preprint arXiv:1409.1556, 2014.
[18] GRIFFIN G, HOLUB A, PERONA P. Caltech-256 object category dataset[J].2007.
【通联编辑:唐一东】