代林沅
摘要:该文介绍了对深度学习原理的理解和对深度学习中残差网络方法的一些思考。从应用深度学习分类方法出发比较了遥感地物分类的特点。分析了现有中高分辨率遥感地物样本库的现状和存在的问题。
关键词:深度学习;遥感;分类
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2018)04-0206-02
1 对深度学习的理解
通过算法进行分类一般有这样三步过程:首先定义特征,然后建立分类规则,最后通过分类规则完成分类。对于人类大脑来说,分类用到的特征规则都不是一尘不变的,是随着外界刺激的不断增加而不断训练优化的过程。深度学习试图模拟人脑神经元传递刺激的方式,构造尽可能理想的方程,实现从外界刺激(输入)到分类结果(输出的自动转化,如图1所示。
实际上,在以往的分类方法中或多或少会利用已经被人类知识预选过的“特征”或“规则”。例如:对于最简单的线性分类而言,约束输入和输出间的一次线性关系就是这个预选的“规则”;对于各种基于概率的分类法而言,除了通常会先提取“特征”外,还会人为规定这些特征计算概率的方法以及概率之间的组合方法。
一些研究[2,3]取出训练后的网络隐藏层的卷积核和输出值分别可视化以后发现:隐藏层输出值自动的由低层次到高层次逐层的学习到了不同的特征,而每层的卷积核则会被训练成为如何提取这些特征的算子。
采用深度结构的神经网络模型成为了当前使用的深度学习1。深度学习网络既可以是线性的也可以加入非线性的层或参数变成非线性的。一个有三个输入的典型神经元模型,如图2所示。
深度学习的学习能力是依赖于多层/多次带来的复杂非线性变化。2006年,Hinton提出深度学习这个概念,他认为深度学习是一种“使用多层隐变量学习高層表示的方法”。以往的人工神经网络模型(DBN, CNN,RNN等)都是这样一种深度学习的模型,只是层数和神经元个数上增加了不少。
目前深度学习一部分研究和应用的热点在于对日常生活中接触物(人脸、指纹、数字、文字、声音等)进行识别、标注或者分类。就拿CIFAR-10[4]这个经常用到的图片分类样本库来说,其中有10类每类6000张样本。如图3所示。这里把这类样本库叫做日常生活样本库。
2 遥感地物分类的特点
从空中一定距离获取的地表电磁波反射数据,不论是通道数的多少(可见光影像、多光谱数据)还是波段频率自身反射的特性(可见光、红外、微波)都体现了跟上面提到的近距离而且非由上至下竖直拍摄的日常生活样本库的区别。
遥感数据分辨率越低,地物细节就越不清楚。即便是在较高分辨率的遥感数据上,地表上覆盖的大多数地物都不具备像日常生活样本库一样丰富的特征。
实际情况是,单个特征分类的精度(特征本身的类代表性)、特征间的相关性和特征的数量一起决定了分类的精度。可以这样来证明:假设有 个特征,单个特征分类的正确率都为 ,且假设这些特征间相互独立,令 为单个分类正确的个数,通过 的方式决定是否属于某类,那么最终错误率为:
那么当 ,有Hoeffding边界:
当 时,带入后得到:
上式显示,随着相互独立的特征数目的增加,最终错误率会指数级下降,并趋近于零。与日常生活样本库不同的一点,因为分辨率的限制,遥感数据本身含有的类别数量要少一些。美国地质勘探局在第一次国土地表覆盖数据库(National Land Cover Database, NLCD[7])中采用的是一套有9个一级类22个二级类的分类标准[8],其后这个标准也在不断变化,最新公布的的NLCD2011数据是采用的16个类的分类标准。我国第一次地理国情普查中地表覆盖分类数据采集中使用了10个大类46个二级类,这些二级类下面还细分有更多的三级类[9]。在实际工程应用中,大量地物分类需要外业实地确定。
近年来,尽管比不上一些深度学习应用研究领域的热度,但是对于遥感地物分类的研究,特别是中高分辨率遥感数据地物分类研究还是不少。但是,因为缺少一个统一的实验数据,很多研究也都只给出了结果而没有给出具体的参数、算法和代码,所以并没有产生CIFAR-10, IMAGENET, COCO等日常生活样本库中形成共识的评价标准。早些年像美国的NLCD项目和欧洲的CORINE项目这一类面向全国资源利用概略调查应用的一般都是依靠分辨率较低的影像(10-30米左右)。
3 中高分辨率遥感地物样本库现状
深度学习通常需要大量样本进行训练。当前分享的中高分辨率遥感地物样本库,如:UCMerced Land-use Dataset[10], RSSCN7 Dataset[11]都不太能满足深度学习研究对样本数量的需求,如表1所示。
样本数量上的不足只是一个方面。现有的遥感样本库都只有最多30种地物类型,这主要是考虑到地物选择的典型性和细节丰富程度,而没有考虑需要全面涵盖遥感影像的地物类型。恰恰地表覆盖分类的应用中需要样本库有更全面的地物类型。另一个需要注意的问题是在样本库制作时要尽量避免不同标签地物的混淆,尽管这种情况很常见,如图4所示。
避免不同标签地物的混杂一方面需要设计更合理的分类,保证类内部有一定多样性的同时保证类间保持一定的可分性;另外一方面,也可以采用多标签样本的方案,这可能更适合遥感地物的特点。
4 总结与讨论
对深度学习的原理和它为什么有效现在并没有一个统一具有说服力的解释方法。用复杂非线性系统来解释深度学习可以帮助我们更好的理解训练过程中出现的各种各样匪夷所思的问题。比如,在对抗性生成网络中为什么加入一个微小的噪声就可以使得分类的结果大相径庭?为什么实验中更结构更复杂的网络却不不能比普通的残差网络精度更好?
现有的中高分辨率遥感样本库训练的网络并不能用于地物分类,但是它们可以用来研究网络本身,不过问题是:这样的遥感样本库与CIFAR-10一类样本库的区别在哪里?
注释:
1. “深度”一词是相对20世纪90年代陆续出现的各种浅层学习模型而言的,例如:SVM和Boosting都可以看出带一层隐藏节点的学习模型,当前多数回归学习都是浅层结构的模型。
参考文献:
[1] M. D. Zeiler. Visualizing and Understanding Convolutional Networks[C]. ECCV, 2014.
[2] J. Yosinski. Understanding Neural Networks Through Deep Visualization[C]. ICML, 2015.
[3] A. Krizhevsky. Learning Multiple Layers of Features from Tiny Images[D]. Masters thesis, 2009.
[4] R. K. Srivastava et al. Highway networks[C]. ICML, 2015.
[5] K. He et al. Deep Residual Learning for Image Recognition[C]. CVPR, 2016.
[6] J.A.Fry et al. Completion of the National Land Cover Database (NLCD)[R].1992-2001 Land Cover Change Retrofit product: U.S. Geological Survey Open-File Report,2008,1379(18).
[7] J.R. Anderson et al. A Land Use And Land Cover Classification System For Use With Remote Sensor Data[R]. 1976.
[8] 地理国情普查數据规定与采集要求,GDPJ 03-2013[S].
[9] Y. Yang et al. Bag-Of-Visual-Words and Spatial Extensions for Land-Use Classification[C]. ACM SIGSPATIAL International Conference on Advances in Geographic Information Systems (ACM GIS). 2010.
[10] Q. Zou et al. Deep learning based feature selection for remote sensing scene classification[J] Geoscience and Remote Sensing Letters, IEEE,2015.
[11] G. Huang et al. Deep Networks with Stochastic Depth[C]. ECCV, 2016.