图像场景识别中深度学习方法综述

2018-02-05 01:44，

计算机测量与控制 2018年1期

，

(河海大学计算机与信息学院，南京 211100)

0 引言

场景识别是机器视觉领域一个极富挑战性的课题，它的研究目标是使计算机能够对图像或视频进行处理，自动识别和理解图像或视频中的场景信息。如Google、Flickr、Facebook这些网站每天都要处理海量的图像数据，需要使用计算机对图像进行自动地理解和分类，而场景识别技术在这项应用中扮演着十分重要的角色。另外在自动驾驶、道路交通[1]、机器人、视频监控等应用领域，场景识别都有广阔的应用前景，因此场景识别技术开始变得越发重要。

由于场景识别技术的广泛应用前景，该课题一直吸引着许多关注，Li Fei-Fei和Pietro Perona[2]曾提出了使用视觉词袋(bag of visual word，BOVW)模型与潜在狄利克雷分布(latent dirichlet allocation ，LDA)[3]模型结合的中层语义方法进行场景识别；Aude Oliva和Antonio Torralba[4]强调了全局特征的重要性，提出使用全局特征进行场景识别的空间信封模型(spatial envelope model)；Lazebnik等人[5]则对传统的视觉词袋模型进行优化，加入空间信息，提出了空间金字塔匹配(spatial pyramid matching，SPM)方法；Bolei Zhou[6]等人等尝试用深度学习技术解决场景识别问题，他们使用场景数据集训练的Places-CNN进行场景识别，并且取得了不错的效果。国内方面，江悦等人[7]使用改进的空间金字塔匹配方法进行场景识别；钱夔等人[8]将场景识别技术与机器人技术结合，并且取得了不错的实践效果；任艺等人[9]则对传统的潜在狄利克雷分布模型进行改进，提高了场景识别的效率。

传统的场景识别方法，一般使用底层特征或高层特征[10]，这些的方法的优点简单易行，具有良好的逻辑性，符合人类的直观认知。但是当所要处理的数据达到一定规模，场景分类达到一定数量时，传统的基于底层特征和高层特征就无法表示如此多的场景信息，而基于深度学习的方法却十分适合处理这样的问题。另一方面，深度学习方法的快速发展，正是得益于数据量的激增，因为深度网络一般需要大量的数据的予以训练，形成复杂且强大的网络架构。如今深度学习方法已经在计算机视觉领域取得了许多的成功，2012年Alex Krizhevsky等人[11]使用深度学习网络AlexNet参加大规模视觉识别挑战赛(large scale visual recognition challenge)，不仅取得了冠军，而且刷新了赛事记录。场景识别作为图像领域一个极富挑战性的课题，使用传统方法解决该问题，逐渐面临瓶颈，尤其在大规模数据集上面临着更多问题。因此在场景识别问题上使用深度学习技术是一种不错的选择，并且已经得到了一些不错的成果。

在图像场景识别领域使用深度学习方法仍然属于起步阶段，但是已经成为未来发展的一个重要趋势，文章通过介绍近年来在这项研究上的一些突出工作，力图概述出这项研究的一些主要特点，并且给出于一些相关的建议和展望。

1 场景识别方法分类

场景识别按应用场景进行分类，可以分为室外场景识别和室内场景识别，按其所使用的特征类型进行分类，可以分为四类方法，即底层特征方法、中层语义方法、高层特征方法和学习特征方法。文章按照后者的顺序介绍场景识别技术的大致发展情况和在图像场景识别领域深度学习方法的应用情况。

1.1 底层特征

场景识别中的底层特征指的就是如GIST[4]、SIFT[12]、HOG[13]、CENTRIST[14]这些，描述图像颜色、形状、纹理等基本特性的基础特征。底层特征的特点是形式简单、容易获取和计算。如GIST特征是一种典型的底层特征，它将场景视作一个有结构和形状物体，通过分析光谱信息，得到场景的自然程度和开放程度，以此来表示场景的整体信息。这种简单的特征适合用于复杂度较低的室外场景识别，但是在一些前景目标较多的场景当中，很难取得很好的效果，另外由于特征简单，但场景类别增多，底层特征缺乏足够的场景信息来进行场景的分类和识别。

1.2 中层语义方法

中层语义方法本质上不是一种特征，而是对特征进行组合形成一种新的特征的方法，它的目标是解决特征和语义之间存在的语义鸿沟[15]。该方法一般依赖视觉词袋模型实现，主要步骤是首先从图像中提取具有代表性的局部或者全局特征用来描述该图像；之后对这些特征进行无监督聚类，聚类形成的簇称之为码字(codebook)，即视觉词汇，由视觉词汇构成词典；最后根据之前生成的词典，训练分类器进行识别。作为一种十分有效的场景识别方法[16]，文献[2]和文献[17]均采用了这种方法。中层语义方法的主要缺点是忽略了空间信息，文献[5]提出空间金字塔匹配来弥补这个缺点，另外该方法的识别效果很大程度上取决于所选特征的性能。

1.3 高层特征

高层特征是一种更复杂也更接近图像语义的特征，它一般是在底层特征的基础上组合构建而成，相对于底层特征，高层特征更富有表现力，也能处理类别数较多的场景分类问题。如2010年Li等人[18]提出的OB(Object Bank)方法，将场景视作一些目标的合集，以此来表示图像的场景信息。高层特征更接近于图像的真实语义，也包含更多的场景信息，但是高层特征一般维度较高，计算和提取也更为复杂，不过随着运算能力的提升和场景识别问题变得更加复杂，在场景识别问题上，高层特征的使用也将会是未来的发展趋势之一。

1.4 学习特征

学习特征就是指将图像像素作为输入，使用深度网络或者其他类型神经网络对输入进行映射和转换等一系列处理后，得到的一种“隐性”特征。这种隐性特征与传统的手工设计的特征不同，传统手工设计的特征可以称之为“显性”特征，显示特征一般基于某些数学原理设计得到，其本质和性质可以通过数学推理得到，而隐性特征，完全由计算机通过大规模的数据训练得到，背后的原理和性质，很难用数学解释。学习特征的主要提取和使用方式是通过深度学习方法进行训练和使用，目前深度学习技术已经在计算机视觉领域取得了极大的成功，如文献[11]中将深度学习技术运用在ImageNet数据集[19]上的图像分类上，文献[20]将深度卷积网络运用在目标识别上，都取得很好的效果。在应对大规模数据集时，深度学习技术的优势更加明显，深度学习网络，如深度卷积网络(convolutional neural network，CNN)，都是以数据为驱动的网络，因为深度学习网络需要大量的数据对其网络参数进行训练，所以数据量的增多也能提升网络的性能，另一方面，深度学习网络一般都具有复杂的结构，这使得它具有更强的分类的能力，能处理类别数较多的情况。

场景识别作为一个复杂的视觉分类识别问题，面临着许多复杂的问题，特别是当类别数和样本数达到一定时，传统的底层、高层特征方法很难处理，而深度学习技术在视觉分类识别领域取得的成功，以及深度学习技术本身的优点，都表明场景识别未来的发展方向是加强对深度学习方法的使用。

2 图像场景识别中深度学习方法

深度学习技术在计算机视觉的各个领域都取得了不错的效果，将其运用在场景识别领域，既是有益的尝试，也是技术发展的趋势。场景识别是一个复杂的问题，与目标识别不同，它所要处理的主体是背景信息，但是前景中的目标信息也是不可或缺的[21]。另外室内和室外的场景识别也有不同的要求，需要针对具体问题进行优化。

2.1 Places-CNN

2012年Alex Krizhevsky等人[11]提出AlexNet网络架构，AlexNet是一种深度网络，网络结构总共有八层，其中前五层为卷积层，后三层为全连接层，其结构如图1所示。与之前的深度网络比较，AlexNet拥有更多的网络层，并且使用了Dropout[22]、Data augmentation、Local Responce Normalization技术来避免过拟合问题，在训练的时候使用多GPU训练方法来提高训练速度和效率，在2012年的大规模视觉识别挑战赛(large scale visual recognition challenge)上以将上届最好成绩的错误率几乎减半的优势取得了冠军，一举奠定了深度网络技术在图像分类识别领域的领先地位。

图1 AlexNet网络

深度学习框架Caffe[23]在AlexNet的基础上略微修改，并且在ImageNet[19]数据集上进行训练，生成了自己的深度网络模型，本文将这种网络模型称为ImageNet-CNN[6]。ImageNet-CNN在目标识别领域取得了很好的效果。MIT的Zhou等人[6]认为ImageNet数据集作为是一个以目标为中心的数据集，即ImageNet中的图像大多是以目标为主体，因此使用ImageNet训练出来的网络应该更适合于与目标识别相关的任务。Zhou等人提出了一个新的数据集Places[6]，Places是一个大规模场景数据集，样本数达到七百万张，并且他们从Places数据集当中抽取了205个场景类，总共2,448,873幅图像作为训练集(training set)，训练了一个场景识别专用网络Places-CNN[6]。

Places-CNN作为一个专门针对于场景识别任务设计的深度学习网络模型，其识别准确率远超传统的人工设计特征的方法，它的出现也为场景识别这一问题的解决提供了新的思路。场景识别作为一个新兴的探索领域，研究者经常会将目标识别的方法或其他图像识别领域的方法在场景识别领域上进行尝试。事实证明，有一部分方法取得了良好效果，但也有不少失败的例子。Places-CNN使用专门的场景数据集进行训练，并且取得了很好的效果。因此对于场景识别问题，应该使用针对性的解决方案。

2.2 DeCAF

2014年Jeff Donahue等人提出了DeCAF[24]网络，DeCAF不同于传统的深度网络，它具有极强的泛化性，可以同时适用于多种视觉识别任务，而不需要大规模的重新训练。

DeCAF网络使用Krizhevsky等人[11]在2012年提出的AlexNet网络作为基础的网络框架，并且使用Krizhevsky等人的训练方法在大规模数据集ImageNet[19]上进行训练，生成“基础的”DeCAF网络。在应对具体的分类识别任务时，再使用特定的任务数据集进行训练，但是这种训练是小规模的，换言之，DeCAF网络可以通过短时间的小规模训练，快速、灵活地适应某一项具体任务，而无需从头开始进行大规模的训练。因此DeCAF网络是一种泛化性极强，具有广泛应用范围的深度网络。DeCAF的训练方式与AlexNet基本相同，主要的两处不同是在于，DeCAF并没有使用AlexNet将输入图像裁剪到256*256像素大小的方法，而是忽略输入图像长宽比，将其拉伸至256*256。第二，DeCAF也抛弃了AlexNet使用数据扰动(data augmentation)产生更多训练样本的做法。另外为了提高网络的泛化性和稳定性，DeCAF还使用了Dropout和Mini-Batch技术。

DeCAF在网络架构上的创新有限，但是在训练和应用方面，它所采用的分段训练方法，极大地提高了深度网络的灵活性和适应性，但是另一方面，由于没有针对场景问题有足够的优化，其识别精度也只处于一般水平。

2.3 DUCA

Khan等人[25]在2015年提出了一种使用深度学习特征的中层语义场景识别方法，deep un-structured convolutional activations(DUCA，下文简称DUCA)。DUCA是一种针对室内场景识别的方法，其基本原理是用传统的视觉词袋[2](bag of visual word，BOVW)模型进行室内场景识别，但是选择使用深度学习特征来描述图像。

DUCA本质是一种传统场景识别方法使用深度学习特征的技术，DUCA使用AlexNet[11]网络提取深度学习特征。在视觉词典方面，DUCA与传统的词袋模型有所不同，DUCA方法所使用的词典由两部分组成，有监督的词典和无监督的词典。对于有监督的词典，其词典中所包含的“单词”即场景表示块(scene representative patches，下文简称SRPs)，是由目标数据集训练得到，这些SPRs有明确的语义，如厨房中的微波炉、浴室中的浴缸等。而无监督词典中的SPRs则是对场景训练集的图像块进行训练得到，并不具有明确的语义，可能就是客厅中的任意的一个角落。而且不同于传统的中层语义方法，DUCA对这些不具有明确语义的SPRs，并不使用无监督的聚类方法进行聚类，而是直接随机分类。实验证明，这种处理方式不会对识别精度造成较大的影响，而且能够降低大量的计算复杂度。使用两种词典的原因是因为有监督训练中的目标数据无法覆盖场景中的所有目标，而使用无监督的词典进行补充，可以弥补这个缺陷，进一步提高算法的识别率。

传统的中层语义方法对于室内场景识别十分有效，而DUCA创新性地在中层语义方法中使用深度学习特征，这种组合既保留了传统方法的优点、又发挥深度学习特征强大的描述能力，也给场景识别研究提供了新的方向。

2.4 Multi-Resolution CNNs

2016年Limin Wang等人[26]提出Multi-Resolution CNNs(下文简称MR-CNNs)网络，MR-CNNs是一个专门用于处理场景识别问题的深度卷积网络，它是一个多组合网络架构。总的网络由两个相似的网络组成而成，这两个网络的基础架构都是BN-Inception[27]，BN-Inception是GoogLeNet[28]的一种，但它的训练速度和识别率都比基础的GoogLeNet高很多。两个网络中，网络一使用224*224分辨率的训练样本进行训练，总共有13层，网络二则使用336*336分辨率的样本，层数也更多，总共有15层。网络的输出是两个网络输出结果的算术平均。

MR-CNNs网络比较之前的场景识别网络，具有更多的特点。第一它有更深的网络，经典AlexNet[11]被广泛运用在包括场景识别在内的视觉任务中，它的深度是8层，而MR-CNNs的浅层网络都有13层；第二，MR-CNNs使用多分辨率的设计，目的非常明确，研究者希望较浅且分辨率较低的那个网络负责处理尺度较大的信息，如全局信息，而较深且分辨率较高的那个网络能够处理更加精细的细节信息，这种类似全局加局部的设计思路有利于网络把握每一个有用的信息，也使得网络可以同时适应室内和室外场景识别；第三，MR-CNNs在一个类别数和样本数都更多的大规模场景数据集Places2[29]上进行训练，而且他们注重训练的细节，在训练过程中尝试消除场景标签和样本数据带来的歧义，以此来提高训练的质量。

3 比较与分析

文章使用Places[6]、SUN-397[30]、Scene-15[5]和MIT-67[31]数据集进行对比。Places[6]数据集是一个专门面向场景识别的数据集，数据集包含205种场景分类，每个分类下的样本数超过5000，是一个大规模场景数据集。SUN-397[30]是面向视觉识别任务的一个大规模通用数据集，总共包含397个分类，每个分类下的样本数超过100，其中的样本既有目标为中心的图像也有场景为中心的图像。Scene-15[5]则是一个小规模场景数据集，总共包含15个场景分类，其中有13个是自然场景，两个人造室外场景，分别是郊区和工厂，总共有4488幅图像。MIT-67[31]则是一个专门面向室内场景识别的数据集，数据集总共包含67个室内场景类别，总样本数为15620。

表1 Places-CNN与传统方法对比

表1是Places-CNN与传统的底层、高层特征方法在SUN-397数据集上的识别精度对比，结果说明Places-CNN的效果明显好于传统的底层、高层特征方法，而且两者之间的差距十分之大。SUN-397是一个大规模数据集，传统的底层、高层特征方法使用手工设计提取特征的方式，特征的特点是容易计算和提取，但是对于场景信息的描述能力不足，尤其是面对大规模数据集和场景类别较多的情况。而以数据为驱动的深度学习方法，拥有更复杂的深度学习特征，这类特征具有极强的表示描述能力，可以处理大规模的数据，面对场景类别数较多的情况，也毫无压力。另外Places-CNN使用大规模场景数据集Places训练得到，对大规模数据的识别能力十分强大。

表2 各种深度学习方法在各场景数据集上的识别精度

表2是各种深度学习方法在各场景数据集上的识别精度对比，效果最好的是MR-CNNs和Places-CNN。ImageNet-CNN是一个主要用于目标检测识别的网络，并不是一个专门的场景识别网络，但是其效果也优于传统方法，这点也可以验证之前的结论，不过与其他网络相比，它的识别精度是最差的。Places-CNN是一个场景识别网络，由于它是由大规模的场景数据集训练得到，因此也得到了不错的识别效果。DeCAF是一个泛化性强的多功能网络，由于并非是专门的场景识别网络，识别精度比较平庸。MR-CNNs是表格中识别精度最好的网络，原因在于首先它和Places-CNN一样，使用了大规模的场景数据集进行训练。第二，它使用了更先进的GoogLeNet[28]作为基础架构和规模更大的Places2[29]作为训练集。第三，它使用的多分辨率网络十分有效，可以同时捕捉全局的结构信息和局部的细节信息。

表3 各种深度学习方法在室内场景数据集上的识别精度

表3说明，在室内场景数据集上，DUCA和MR-CNNs效果较好。在场景识别领域，室内场景识别与室外场景识别虽然都是场景识别，但是由于室内场景和室外场景图像的构成不同，室内场景以大量的前景目标为主体，而室外场景则一般由开阔的背景信息组成，因此它们具体的识别方法也有所不同。如何把握室内场景中繁杂的前景目标是识别的关键。DUCA使用视觉词袋模型的方法来获取图像中局部细节和具体目标，是一种在室内场景识别中比较常见且有效的方法，配合深度学习特征，更能捕捉到细节的特征，因此在MIT-67上取得不错的识别精度。MR-CNNs以此多分辨率结合的网络设计，在室内场景识别上，甚至超越了DUCA方法，一部分原因在于MR-CNNs更强大的网络架构，另一部分在于MR-CNNs同时兼顾了局部的细节信息和整体的结构信息，这是远胜于DUCA所采用的视觉词袋模型方法的一点。

4 总结与展望

文章介绍了在图像场景识别领域，深度学习方法的应用情况，总体而言，在场景识别领域使用深度学习方法的尝试正处于起步阶段。随着大数据时代的来临，以及场景识别问题本身复杂的特点，传统手工提取特征的方法遭遇瓶颈，深度学习方法将逐渐成为场景识别领域的主流方法。使用深度学习方法解决图像场景识别问题，最初采用移植的方式，即在“新问题”上使用“旧网络”，之后出现了大规模图像场景数据集，该研究逐渐趋向专业化，识别精度也有显著提升。总之，未来在图像场景识别问题上，深度学习方法仍会是主流方法。以下给出该研究在未来可能的发展趋势。

首先，深度学习方法在一段时间内仍旧会是图像场景识别的首选。这是场景识别问题本身特点和深度学习网络的优点决定的。因为场景识别问题是一个复杂的问题，需要高维的特征进行描述[33]，而深度网络能够提供这样的特征，另外深度网络是以数据为驱动的网络，能够同时对成百上千的场景进行分类。

第二，场景局部特征和整体特征的结合，以及多特征融合的方法将会是未来的重要研究方向。MR-CNN[26]网络的成功说明了整体结构信息和局部细节信息都足够重要，多分辨率、多尺度的深度组合网络能比较全面地获取场景中有用的信息。之前的场景识别研究往往面临着整体特征和局部特征的取舍，事实证明这两类特征都很重要。如Herranz等人[34]用多尺度的深度网络进行场景识别，Guo等人[35]使用深度网络同时获取图像的局部和整体特征，而马宁等人[36]使用多特征融合的方法进行室内场景识别，这些多特征、多尺度的方法都取得了不错的效果，如何使用多特征和多尺度的方法来全面获取场景中有效信息，将会是未来的一个重要研究方向。

第三，在图像场景识别问题上使用深度学习方法的要点是注重细节。场景识别仍旧是一个新兴课题，如何提升识别的精度，不仅在于对方法在结构性上的调整，而且在于细节的处理，如场景数据集的优化，因为场景是一种主观的认知，所以人工标注的场景数据往往具有标签模糊性的问题，如何解决这类细节问题，是提高识别率要解决的一个重要问题。

第四，在图像识别领域使用深度学习方法，关键还是在于深度学习技术自身的发展和提高，实验证明，更好的网络架构能够带来更高的识别精度[37]，这种提升是质的变化，而研究者可以通过对图像场景识别问题的深入研究，设计出更适合场景识别的深度网络。

总之在图像场景识别中使用深度学习方法将会是未来的趋势，而这一技术也将与自动驾驶、机器人等工程应用深度结合，得到广泛应用和发展。

[1] Chen C Y, Choi W, Chandraker M. Atomic scenes for scalable traffic scene recognition in monocular videos[A]. IEEE Winter Conference on Applications of Computer Vision[C]. IEEE, 2016:1-9.

[2] Fei-Fei L, Perona P. A Bayesian Hierarchical Model for Learning Natural Scene Categories[A]. IEEE Computer Society Conference on Computer Vision and Pattern Recognition[C]. IEEE Computer Society, 2005:524-531.

[3] Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation[J]. Journal of Machine Learning Research, 2003, 3:993-1022.

[4] Oliva A, Torralba A. Building the gist of a scene: the role of global image features in recognition.[J]. Progress in Brain Research, 2006, 155(2):23-36.

[5] Lazebnik S, Schmid C, Ponce J. Beyond Bags of Features: Spatial Pyramid Matching for Recognizing Natural Scene Categories[A]. Computer Vision and Pattern Recognition, 2006 IEEE Computer Society Conference on[C]. IEEE, 2006:2169-2178.

[6] Zhou B, Garcia A L, Xiao J, et al. Learning Deep Features for Scene Recognition using Places Database[J]. Advances in Neural Information Processing Systems, 2014, 1:487-495.

[7] 江悦, 王润生, 王程. 采用上下文金字塔特征的场景分类[J]. 计算机辅助设计与图形学学报, 2010, 22(8):1366-1373.

[8] 钱夔, 宋爱国, 章华涛,等. 基于自主发育神经网络的机器人室内场景识别[J]. 机器人, 2013, 35(6):703-708.

[9] 任艺, 尹四清, 李松阳. 基于LDA主题模型的图像场景识别方法[J]. 计算机工程与设计, 2017, 38(2):506-510.

[10] 李学龙, 史建华, 董永生,等. 场景图像分类技术综述[J]. 中国科学:信息科学, 2015, 45(7):827-848.

[11] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[A]. International Conference on Neural Information Processing Systems[C]. Curran Associates Inc. 2012:1097-1105.

[12] Lowe D G. Distinctive Image Features from Scale-Invariant Keypoints[J]. International Journal of Computer Vision, 2004, 60(2):91-110.

[13] Dalal N, Triggs B. Triggs, B: Histograms of Oriented Gradients for Human Detection[J]. CVPR 2005, 1(12):886-893.

[14] Wu J, Rehg J M. CENTRIST: A Visual Descriptor for Scene Categorization[J]. Submitted to IEEE Trans. PAMI. 2009:1489-1501.

[15] Song X, Jiang S, Herranz L, et al. Category co-occurrence modeling for large scale scene recognition[J]. Pattern Recognition, 2016, 59:98-111.

[16] 顾广华, 韩晰瑛, 陈春霞,等. 图像场景语义分类研究进展综述[J]. 系统工程与电子技术, 2016, 38(4):936-948.

[17] Bosch A, Zisserman A, Mu, et al. Scene classification via pLSA[A]. Computer Vision - ECCV 2006, European Conference on Computer Vision, Graz, Austria, May 7-13, 2006, Proceedings. DBLP[C]. 2006:517-530.

[18] Li L J, Su H, Xing E P, et al. Object Bank: A High-Level Image Representation for Scene Classification & Semantic Feature Sparsification[A]. Advances in Neural Information Processing Systems 23:, Conference on Neural Information Processing Systems 2010[C]. Proceedings of A Meeting Held 6-9 December 2010, Vancouver, British Columbia, Canada. DBLP, 2010:1378-1386.

[19] Deng J, Dong W, Socher R, et al. ImageNet: A large-scale hierarchical image database[J]. 2009:248-255.

[20] Girshick R, Donahue J, Darrell T, et al. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation[J]. 2014:580-587.

[21] Sharma S, Tripp B. How Is Scene Recognition in a Convolutional Network Related to that in the Human Visual System[M]. Artificial Neural Networks and Machine Learning - ICANN 2016. Springer International Publishing, 2016.

[22] Hinton G E, Srivastava N, Krizhevsky A, et al. Improving neural networks by preventing co-adaptation of feature detectors[J]. Computer Science, 2012, 3(4):págs. 212-223.

[23] Jia, Yangqing, Shelhamer, et al. Caffe: Convolutional Architecture for Fast Feature Embedding[J]. Eprint Arxiv, 2014:675-678.

[24] Donahue J, Jia Y, Vinyals O, et al. DeCAF: A Deep Convolutional Activation Feature for Generic Visual Recognition[Z]. 2013, 50(1):I-647.

[25] Khan S, Hayat M, Bennamoun M, et al. A Discriminative Representation of Convolutional Features for Indoor Scene Recognition[J]. IEEE Transactions on Image Processing, 2016, 25(7):3372-3383.

[26] Wang L, Guo S, Huang W, et al. Knowledge Guided Disambiguation for Large-Scale Scene Classification With Multi-Resolution CNNs[J]. IEEE Transactions on Image Processing, 2016, 26(4):2055-2068.

[27] Ioffe S, Szegedy C. Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift[J]. Computer Science, 2015.

[28] Szegedy C, Liu W, Jia Y, et al. Going deeper with convolutions[J]. Computer Vision and Pattern Recognition. IEEE, 2015:1-9.

[29] Zhou B, Khosla A, Lapedriza A, et al. Places: An Image Database for Deep Scene Understanding[J]. 2016.

[30] Xiao J, Hays J, Ehinger K A, et al. SUN database: Large-scale scene recognition from abbey to zoo[J]. Computer Vision and Pattern Recognition. IEEE, 2010:3485-3492.

[31] Quattoni A, Torralba A. Recognizing indoor scenes[A]. Computer Vision and Pattern Recognition, 2009. CVPR 2009. IEEE Conference on[C]. IEEE, 2009:413-420.

[32] Yang J, Yu K, Gong Y, et al. Linear spatial pyramid matching using sparse coding for image classification[A]. IEEE Computer Society Conference on Computer Vision and Pattern Recognition[C]. DBLP, 2009:1794-1801.

[33] Xie G S, Zhang X Y, Yan S, et al. Hybrid CNN and Dictionary-Based Models for Scene Recognition and Domain Adaptation[J]. IEEE Transactions on Circuits & Systems for Video Technology, 2016, PP(99):1-1.

[34] Herranz L, Jiang S, Li X. Scene Recognition with CNNs: Objects, Scales and Dataset Bias[J]. Computer Vision and Pattern Recognition. IEEE, 2016:571-579.

[35] Guo S, Huang W, Wang L, et al. Locally Supervised Deep Hybrid Model for Scene Recognition[J]. IEEE Transactions on Image Processing, 2016, 26(2):808-820.

[36] 马宁, 陶亮. 基于多特征融合的室内场景识别[J]. 控制工程, 2016, 23(11):1845-1850.

[37] Simonyan K, Zisserman A. Very Deep Convolutional Networks for Large-Scale Image Recognition[J]. Computer Science, 2014.