基于GoogLeNet模型的遥感图像识别分类研究

2021-05-24 09:55李英宋丽娟
电脑知识与技术 2021年12期
关键词:图像分类

李英 宋丽娟

摘要:传统图像处理技术的分类算法由于受复杂背景干扰较大及其算法本身局限性的影响,已经渐渐跟不上时代的步伐,无法满足许多复杂的分类问题。因此,本文提出了一种基于GoogLeNet模型的遥感图像分类识别算法,利用NWPU-RESISC 45遥感影像数据集进行实验,本文方法能够达到90%的分类精度。

关键词:GoogLeNet;图像分类;遥感图像

文献标识码: A    中图分类号: TP391.4

中图分类号:TP39      文献标识码:A

文章编号:1009-3044(2021)12-0004-03

Abstract:The classification algorithm of traditional image processing technology has been gradually unable to keep up with the pace of the times due to the large interference of complex background and the limitation of the algorithm itself, and cannot meet many complex classification problems. Therefore, this paper proposes a remote sensing image classification and recognition algorithm based on the GoogLeNet model, using the NWPU-RESISC 45 remote sensing image data set for experiments, the method in this paper can achieve 90% classification accuracy.

Key words: GoogLeNet; Image Classification; Remote Sensing

引言

在大数据的浪潮下遥感影像技术的发展也蒸蒸日上。目前遥感影像的研究仍然集中在场景分类[1],目标识别[2]和分割等领域,而遥感影像的相关研究只是简单地对图像中的对象进行识别分类,而没有深层次挖掘影像的属性及属性之间的关联。其次,如果分类目标不同,模型的网络结构和各种参数就不能通用,可以有针对性地调整和修改网络模型,使其适用于不同的场景。本文运用卷积神经网络模型并对其进行调参实现了遥感的识别与分类,且取得了可观的效果。

1 卷积神经网络

1.1 卷积神经网络概述

卷积神经网络((Convolutional Neural Networks,CNN)[3]是由视觉神经机制触发的多层次神经网络,网络的每一层都由单个独立的神经元构成。卷积神经网络是无监督的学习模型[4]。卷积神经网络与其他神经网络最大的不同在于,卷积操作和采样操作是基于人工神经网络[5]引入的。这使得卷积神经网络提取的特征具有一定程度的空间不变性。在图像识别和分类领域被广泛使用。

1.2 卷积神经网络原理

卷積神经网络包含多个网络层数[6-8],这些网络层大致分为卷积层,池层和全连接层,每个网络层映射着不同类型的数据线性关系。 将卷积层和池层合并以组合一些卷积组,并为每一层提取特征,最后,通过多个所有连接层将其连接以执行分类工作。 尽管卷积神经网络具有各种模型,但是其基本结构几乎相同,以下为卷积神经网络的结构,如图1所示。

1.3 卷积神经网络模型

CNN卷积神经网络的快速发展得益于GoogLeNet[9]等不同结构网络的改进。GoogLeNet网络结构中的子模型Inception Module是作为本文使用的基准模型。

1.3.1 先验 GoogLeNet

在2014年ImageNet比赛中脱颖而出的是由知名的互联网巨头公司Google设计的划时代意义的GoogLeNet模型,其拥有卓越的性能和丰富的结构参考设计意义。GoogLeNet具有创新的意义,其开创性地使用了不同于以往线性模型的框架,并行的分支结构标新立异,并解决传统网络特征提取不足的情况。

Google在这一项研究中表明,增加模型的深度(层)或宽度(层、核或神经元)可以使高质量的模型更安全。启发我们带来一个权衡数据量与网络复杂度的问题。其中对于小样本问题或者数据集比较小的情况下,网络存在过拟合问题。网络规模越大,计算复杂度越高,在资源受限的实验环境中应用就越困难;网络越深,梯度就越容易消失,接踵而来的是计算量增加的问题。

GoogLeNet使用了多种数据增强的方式,引入了BN正则化技术,使用一个此技术可以减少网络冗余的结构,充分利用密集矩阵的高计算性能的出发点,GoogLeNet提出了名为Inception的模块化结构来实现此目的,用了Inception Module即初始模块之后整个网络结构的宽度和深度都可扩大,能够使性能提升2-3倍。

初始模块其概念是网络结构中嵌套的一个网络,它是具有灵活的变形和即插即用的特征,即原始节点是一种子网络。这种技术是将传统的卷积操作保持在低层次网络而不发生变化,并且只使用高层次网络的变化模型。通过精心设计模块组合可以来保持深度和宽度的合理科学性。该模型在设计中主要有两种特性:首先它使用1×1卷积核,这个操作和灵活改变特征维度增加或减少,其次是同时采集一组不同尺寸的feature map,通过融合不同尺寸的特征再输入到下一个模块中。

为省去patch对齐的问题,起始模块的卷积核的大小限制为1 x 1、3 x 3、5 x5。由于卷积核在起始模块中相互堆叠,因此相关统计信息的输出是不固定的。为了在上层提取更多的抽象特征,有必要减少空间聚集。因此可通过在上层添加起始模块中的3×3,5×5卷积的方法以获得大量的特征数。

初始模块的基本结构如图2所示,它基本包含1×1卷积、3 x 3卷积,5 x 5卷积、3×3四个最大池化,在通道上将最终运算结果进行组合排序。 其基本思想是通过多个卷积核在不同比例的图像上提取信息,最后将它们融合以获得更好的图像特征。

在上面的初始模块中,由于池化操作,5×5尺寸的卷积核增加了卷积核的数量并增加了计算开销,同时池化层输出和卷积层输出的集成也增加了输出值的数量,最重要的是的稀疏结构优化被忽略了,导致非常低效的计算爆炸。 因此引出如图3的经过降维的Inception模型。

如图3所示,新改进的模型共有4个分支,分别使用1×1卷积核、1×1卷积和3×3卷积、1×1卷积和5×5卷积和3×3池化和1×1卷积,最终将各个分支所提取的特征使用连接操作合并,并作为下一个模块的输入。

在目标检测任务中我们需要保障真实目标与先验框的对应问题。我们规定交并比(IoU)是量化真实框与预测框的交互比率,它是目标检测重要的度量方式。计算IoU主要考虑真实框与预测框的相对位置,使用数学的方法计算两个集合重合部分交集。根据交互比例的阈值(这个参数可以根据任务人为调整,通常情况下使用0.5作为基准),最终确定匹配的情况。我们规定匹配成功的样本为正样本;反之成为负样本。

2基于GoogLeNet网络的遥感影像分类实验结果与分析

本实验主要是以图像处理技术和相关理论为基础,利用Imagelabel工具标注NWPU-RESISC 45遥感影像数据集。图像固定为224×224像素,但具有不同的分辨率,如图4为部分数据集。运用卷积神经网络能够快速、准确和高效地实现数据集中图像的场景分类。

2.1模型训练

对于网络模型中的不同参数,如训练步长、迭代次数、学习率等进行调整,都会对模型的训练结果产生影响,适当的调整参数可以使模型训练的效率及准确率都有所提升。

本设计分别对GoogleNet模型训练迭代15000次,模型识别准确率能够较快地进行收敛,迭代前2000次时识别率在0.2—0.3之间徘徊,但超过2000次以后,识别准确率逐渐上涨,损失函数的Loss值也慢慢减小,最终迭代到15000时准确率已能达到1。如图5—图7为GoogleNet网络模型的训练过程。

训练模型时若Loss值基本不再下降时,可以对学习率进行调整,将其调整为更小的值继续进行训练,使得模型的学习精度更高,整个模型最后的识别准确率也会更高。

2.3 实验结果分析

在本实验中,本团队使用softmax回归在卷积神经网络的输出层中计算归一化预测数和类别标签的交叉熵,并以交叉熵损失和总权重衰减项之和来获得该分类模型的目标函数对影像数据集进行分类并识别。

如图8为GoogleNet网络模型对数据集图像进行识别的结果。

经实验,基于Matlab的传统图像处理方法共识别正确1500张图像,识别率大概为75%左右。基于卷积神经网络的深度学习方法中,GoogleNet网络模型识别正确1900张图像,其识别率都可达到90%以上。

3 结论

目前虽然有很多种不同的卷积神经网络模型可供我们灵活使用,也都能解决相应的问题,但由于其本身较为复杂的网络结构,导致模型训练的时间偏长,这使得整体的计算成本在实际应用中变得较高。而且,在训练模型时对图像数据集的需求量较大,只有用足够多的图像对模型进行训练,才能得到较好的分类模型。其次,对于不同的分类目标,模型的网络结构及各个参数不能通用,必须有针对性地对其进行调整和修改,才能使网络模型在不同的场景下得以应用。

本文虽然已经成功的运用卷积神经网络模型实现了遥感的识别分类,且效果良好,但在实验过程中,仍需对模型训练速度的优化以及模型参数的设置与调整不断地进行改进与完善。

参考文献:

[1] Lu X Q,Zheng X T,Li X L.Latent semantic minimal hashing for image retrieval[J].IEEE Transactions on Image Processing,2017,26(1):355-368.

[2] Cheng G,Han J W,Lu X Q.Remote sensing image scene classification:benchmark and state of the art[J].Proceedings of the IEEE,2017,105(10):1865-1883.

[3] Coudray N,Ocampo P S,Sakellaropoulos T,et al.Classification and mutation prediction from non-small cell lung cancer histopathology images using deep learning[J].Nature Medicine,2018,24(10):1559-1567.

[4] Deng L,Abdel-Hamid O,Yu D.A deep convolutional neural network using heterogeneous pooling for trading acoustic invariance with phonetic confusion[C]//2013 IEEE International Conference on Acoustics,Speech and Signal Processing.May 26-31,2013,Vancouver,BC,Canada.IEEE,2013:6669-6673.

[5] 王志明.數字图像处理与分析[M].北京:清华大学出版社,2012:184-204.

[6] Yang J C,Yu K,Gong Y H,et al.Linear spatial pyramid matching using sparse coding for image classification[C]//2009 IEEE Conference on Computer Vision and Pattern Recognition.June 20-25,2009,Miami,FL,USA.IEEE,2009:1794-1801.

[7] Han J W,Zhang D W,Cheng G,et al.Object detection in optical remote sensing images based on weakly supervised learning and high-level feature learning[J].IEEE Transactions on Geoscience and Remote Sensing,2015,53(6):3325-3337.

[8] Zheng X T,Yuan Y,Lu X Q.A target detection method for hyperspectral image based on mixture noise model[J].Neurocomputing,2016,216:331-341.

[9] Cheng G,Han J W,Guo L,et al.Effective and efficient midlevel visual elements-oriented land-use classification using VHR remote sensing images[J].IEEE Transactions on Geoscience and Remote Sensing,2015,53(8):4238-4249.

【通联编辑:唐一东】

猜你喜欢
图像分类
基于SVM的粉末冶金零件的多类分类器的研究
基于p.d.f特征的分层稀疏表示在图像分类中的应用
基于数据挖掘的图像分类算法
基于云计算的图像分类算法
基于锚点建图的半监督分类在遥感图像中的应用