基于密集卷积网络（DenseNets）的遥感图像分类研究

2018-12-15 11:25李达李琳李想

计算机时代 2018年10期

李达李琳李想

摘要：遥感图像空间分辨率低，如何更好地提取图像特征成为提升分类性能的关键。文章提出了一种基于密集卷积网络（DenseNets）的遥感图像分类方法，针对遥感图像样本少，采用迁移学习方法，在ImageNet上进行预训练，获得初始模型，利用预训练模型在（UCM_LandUse_21）上训练，更新训练策略获得最佳模型。结果表明，该方法比BOVW+SCK和SVM_LDA方法在分类精度上提高10%，比传统CNN提升了约7%，比MS_DCNN提升5%。因此，该方法对于遥感图像场景分类具有一定的价值。

关键词：遥感图像分类；密集卷积网络；迁移学习；场景分类

中图分类号：TP751.1 文献标志码：A 文章编号：1006-8228（2018）10-60-04

Abstract： The spatial resolution of remote sensing images is low， so how to better extract image features has become the key to improve the classification performance. In this regard， this paper proposes a remote sensing image classification method based on densely connected convolutional networks （DenseNets）. For the small number of remote sensing image samples， transfer learning method is adopted to conduct pre-training on ImageNet and obtain the initial model. And using the initial model conducts training on UCM_LandUse_21 with the training policy updated to obtain the best model. The results show that the method is 10% higher than BOVW+SCK and SVM_LDA in classification accuracy， 7% higher than traditional CNN and 5% higher than MS_DCNN. Therefore， the method proposed in this paper has certain value for remote sensing image scene classification.

Key words： remote sensing image classification； densely connected convolutional networks； transfer learning； scene classification

0 引言

近年来，伴随“数字地球”等概念的提出，越来越多的民用场合，诸如精准农业[1]，海洋遥感[2]，岩矿物质识别[3]，越来越依赖于遥感图像，精准有效地对遥感图像进行分类成为该领域的重要研究内容，场景分类是一个学习如何将图像映射到语意内容标签的过程[4-9]，目前采用的中层语意进行分类中应用最广泛的是BOVW[10]方法。

随着深度学习理论的兴起，以卷积神经网络为代表的深度神经网络已被广泛应用于图像的分类任务[11]，由清华大学的Zhuang Liu，康奈尔大学的Gao Huang以及Facebook AI Research的Laurens van der Maaten[12]共同提出的密集卷积网络（DenseNnet），作为CVPR2017的oral，一经提出便引发极大关注，Densenet在公开数据集ImageNet上取得了非常高的识别率和检测效果，然而，目前将该网络应用于遥感图像的分类还比较少。

本文尝试结合迁移学习的思想，并借鉴由罗畅、王杰[13]等人提出的基于DCNN的遥感图像分类方法，提出如下设计方法。

⑴ 在ImageNet数据集上，本文采用的是含有4个dense block DenseNet-BC，进行训练，并选择表现较好的DenseNet-169作为预训练模型。

⑵ 将获得的预训练的模型迁移至目标数据集（UCM_LandUse_21）上进行训练，并优化，调整相关参数，获得较为理想的模型。

经过ImageNet数据集预训练的DenseNet模型，能够成功迁移至高分辨率遥感场景分类的部分原因在于：遥感图像和基本光学图像的基本视觉模块（比如：边，角）等是相同的。

1 用于预训练的DenseNet结构

ZhuangLiu等人提出的DenseNet：用前馈的方式将每一层与其他所有层连接起来，相对于每一层，前面的所有层的feature maps 都会作为输入；同理，这一层的feature map将会作为后面所有层的输入，图1是一个dense block的示意图。

假设图像输入为x0，网络有L层，每一层都包含有一个非线性变换，该非线性变换可以是BN，ReLU，Pooling，或者卷积层，假设第l层的输出为x1，可以由以下公式来表征它们之间的关系：

将Hl定义为一个复函数，其中包含HlBN，ReLU函数和一个3×3卷积。由于Desenet網络是基于ResNet网络做出的改进，但和ResNet所不同的是：DenseNet在特征（features）进入下一层之前，不做叠加，通过层间的连接进行特征的融合，所以，第L层将会有L个输入，由之前的所有层的卷积模块的特征图组成，同样由于该层的特征图会流进后面的L-l层。因此，对于L层的网络，产生L（L+1）/2个连接，不同于传统网络架构所产生的L条连接。

1.1 DenseNet网络的优势主要体现在以下几个方面[12]

⑴ 更优化的信息和梯度流动，每一层都和损失函数的梯度有直接连接，更关键的是，密集连接具有正则化的作用，可以减轻在小数据集上的过拟合。

⑵ 不是简单的通过加深网络层数[13]如ResNet，或者拓展单层的宽度[14]（如GoogLeNet中的inception），来获得新的网络架构，而是通过feature的重用来获得较高的参数利用率。

本文所采用的DenseNet包含了4个密集块（denseNet blocks），基本结构类似图2所示。

1.2 采用预先训练的DenseNetImageNet169来初始化权重，网络参数如下

model=densenet.DenseNet（input_shape=image_dim，

depth=169， nb_dense_block=4， growth_rate=32，

nb_filter=64，nb_layers_per_block=[6， 12， 32， 32]，

bottleneck=True，reduction=0.5， dropout_rate=0.0，

weight_decay=1e-4，include_top=True，subsample_initial_block=True，

weights=None， input_tensor=None，

classes=21， activation='softmax'）

输入图片为256×256×3 RGB图像

DenseNet网络考虑到通道合并后的输入的chanel仍然很大，为了减少输入的feature map数量，和降低维度，更好的融合各个通道的特征而采用了bottleneck layer，也即在每个dense block 的卷积前面加入了1×1的卷积操作，另外为了进一步压缩参数，在dense block之间又加进了Translation layer同样是1×1的卷积操作。关于具体参数如何减少的过程，文献[12]给出了详细的说明。下图展示了预训练模型DenseNet-169的具体参数，引自文献[12]，如表1所示。

2 高分辨率遙感场景的分类实验

UCM_LandUse_21数据集[14]为美国土地使用分类数据集，共包含21类带标签的高分辨率遥感场景，每一类中又有100张256×256×3尺寸的图像，图像的分辨率为0.3米左右，其中部分的场景示例如图3所示。

3 训练策略

梯度优化采用的优化器为rmsprop，初始化学习速率为0.001，权值衰减0.0005，当测试集的loss持续10次不下降时，学习速率开始下降为lr*0.1，最小学习速率控制为0.5e-6。当测试集的loss持续20次不下降时，停止训练，网络总共经过63 epoch训练，在43 epoch取得了最优的模型，损失函数采用交叉熵。batch_size=10

4 实验结果与分析

由于本次实验的网络结构过于庞大，共有169层卷积层，细节的展示网络的结构存在难度，因此本文给出了分类正确率曲线，和分类结果混淆矩阵。

本次实验过程随机选取每类场景图像数据集的80%作为训练数据，余下20%用作测试数据也即训练集为80%，测试集为20%，图4给出本次实验的正确率曲线。

训练集上准确率为：Accuracy：100.0 Error：0.0

测试集上准确率为：Accuracy：96.9047619047619 Error：3.095238095238102

图5给出了本次实验的分类结果，混淆矩阵，更加直观的展现了本文方法下每类场景的分类正确率以及将该场景错分为其他场景的情况，图5中的分类正确率为6次独立重复实验分类正确率的平均值，总体分类正确率稳定在96%左右。

为了验证本文方法的优势，将本文方法和近几年具有代表性的几种方法进行了对比，如表2，可以清楚的看到，刘雨桐[14]等人所采用的基于改进卷积神经网络的方法优于基于MS_DCNN的方法，罗畅[13]DCNN_PCA方法更进一步提升了准确率，而本文方法又高于前面两种方法，因此本文方法有一定的贡献。

5 结束语

本文充分利用DenseNet网络在特征提取方面所具有的优势，为了更好的在遥感图像数据集上进行应用，本文借鉴了迁移学习[20]的思想，用DenseNet在大规模数据集ImageNet上进行训练，得到预训练模型DenseNet-ImageNet169，同时，为了使该模型能够在本文的数据集上有较好的分类表现，对网络的参数做出了一些调整，比如优化器采用了rmspop，损失函数采用了交叉熵模型。最实验结果表明，本文对预训练模型做出的优化在UCM_LandUse_21上取得了较好的分类效果。如何进一步使得本文方法有效的应用与信息量更为丰富的高光谱遥感图像上是下一步的研究方向。

参考文献（References）：

[1] Geveart C M，Tang J，Garcia-Haro F J and kooistraL.Combing hyperspectral UAV and multispectral formosat-2 imagery for precision agriculture applications，2014.

[2] 陆应成，胡传民，孙绍杰，张民伟，周杨，石静，温颜沙.海洋溢油与烃渗漏的光学遥感研究进展[J].遥感学报，2016.5：1259-1269

[3] 张成业，秦其明，陈理，王楠，赵姗姗.高光谱遥感岩矿识别研究进展[J].光学精密工程，2015.8：2407-2418

[4] LI Z，HU D W，ZHOU Z T.Scene recognization combing structural and textural features[J]. Science China Information Sciences，2013.56（7）：1-14

[5] ZHANG F，DU B，ZHANG L. Saliency-guided unsupervised feature learning for science classification[J].IEEE Taansactions on Geoscience&Remote; Sensing，2014.53（4）：2175-2184

[6] ZHU X ，MA C，LIU B，et al.Target classification using SIFT sequence scale invariants[J]. Journal of Systems Engineering and Electronics，2012.23（5）：633-639

[7] AKOGLU L，TONG H，KOUTRA D， Graph based anomaly dection and description： a survey[J]. Data Ming and Knowedge Discovery，2015.29（3）：626-688

[8] 吳航，刘保真，苏为华等.视觉地形分类的词袋框架综述[J].中国图像图形报，2016.21（10）：1276-1288

[9] ROMERO A，GATTA C，CAMPS-VALLS G.Unsupervised dep feature extraction for remote sensing image clasification[J]. IEEE Trans.on Geoscience and Remote Sensing，2016.54（3）：1349-1362

[10] ZHAO L J， TANG P， HUO L Z. Land-use scene classification using a concentric circle-structured multiscale bag-of-visual-words model[J].IEEE Journal of Selected Topics in Applied Earth Ob-servations & Remote Sensing，2015.7（12）：4620-4631

[11] Krizhevsky A， Sutskever I， Hinton G E.ImageNet Clasification with Dep Convolutional Neural Net-works[C].The 26th Conference on Neural Information Procesing Systems，Nevada，US，2012.

[12] HUANG G， LIU Z， WEINBERGER K Q， et al. Densely connected convolutional networks[OL].http：//arxiv.org/abs/1608.06993，2017.

[13] 罗畅，王洁，王世强，史通，任卫华.基于泛化深度迁移特征的高分遥感场景分类[J].系统工程与电子技术，2018.40（3）：682-691

[14] 刘雨桐，李志清，杨晓玲.改进卷积神经网络在遥感图像分类中的应用[J].计算机应用，2018.38（4）：949-954

[15] YANG Y， NEWSAM S. Bag-of-visual-words and spatial extensions for land-use classification[C].//GIS 2010： Proceedings of the 18th SIGSPATIAL International Conference on Advances in Geographic Information Systems. New York： ACM，2010：270-279

[16] ZHANG F， DU B， ZHANG L. Saliency-guidedunsupervised fea-ture learning for scene classification[J]. IEEE Transactions on Ge-oscience & Remote Sensing，2014.53（4）：2175-2184

[17] 许夙晖，慕晓冬，赵鹏等.利用多尺度特征与深度网络对遥感影像进行场景分类[J].测绘学报，2016.45（7）：834-840