张润雷
(嘉兴市第一中学,浙江嘉兴,314000)
遥感是一项在20世纪60年代逐步发展起来的新兴技术,经过一系列的技术革新,如今已经成为人们获取地球表面信息的主要方法之一。遥感指的是“遥远的感知”,陈述彭院士[1]认为其狭义含义为“从远距离、高空以至外层空间的各种平台上,利用可见光、红外、微波等探 测仪器,通过摄影或扫描,信息感应、传输和处理,从而识别地面物质的性质和运动状态的一门现代化技术科学”。目前遥感主要通过搭载一系列光学、电子仪器的航天器,从遥远的宇宙采集地球表面物体辐射和反射的电磁波信息,并且传回地球,提供给人们进行一系列分析,以获得地球的地质地貌、资源分布、土壤类型、植被覆盖等种种信息,这些信息具有极大的参考意义和研究价值。随着“数字地球”概念的提出,并基于遥感技术观测范围广、获取信息速度快、观测具有周期性等其他技术无可比拟的优点,以及观测数据多波段、多时相、全天候的特点,这项技术被广泛应用在生产生活的方方面面。从环境监测、大气探测、海洋观测,到对资源、地质、森林、农田的信息提取和分析,再到日常生活常见的卫星地图、卫星云图,都离不开遥感技术。
然而,获取了遥感器传回的遥感图像和数据后,如何让对其进行数据处理和分类,一直是这门学科上的一个难题。现有的遥感图像的分类方法可分为人工分类和计算机自动分类两种,由于人工分类消耗的人力多,时间长,效率低,且对专业知识需求高,目前的研究中大多采用计算机进行数据分类处理。
遥感图像上的数据十分庞大,利用计算机进行遥感图像分类的重点之一便是从众多的数据中提取有用的信息,并通过分类技术实现遥感图像的分类。遥感图像上的光谱特征是最重要的一项分类依据,但是,仅仅依靠不同波段的光谱特征分类已无法满足现今高精确度的遥感图像的分析处理。因此,现在更多地要求从像元的光谱特征及其与周围像元之间的空间联系着手,将图像纹理(例如形状、大小、图案、色调等)纳入遥感图像分类的依据。另外,另一维度时间的引入,增加了对其随时间变化的分析。所以遥感图像分类所需的计算量越来越大,变得更加复杂,愈发迫切地要求更加迅速便捷的分类算法的创新与改进。
目前已有的分类方法有最大似然法、神经网络分类法、支持向量机分类法、模糊分类法等等,但这些方法都在分类精度或是应用难度上存在不足,实际应用中存在一定困难。在众多遥感图像分类方法中,决策树凭借它简单高效、逻辑性强的模型,且可以广泛用于无规则、无次序的样本数据集等优点成为是一种较为常用的监督分类方法。
决策树是树形结构的分类预测模型,其由代表属性或特征的根节点、内部节点以及代表类别属性的叶子节点等组成。除此之外决策树还可以表示成为一组IF-THEN形式的产生式规则,每条规则即为由根节点到叶子节点的每条路径。
决策树方法可以分为决策树生成和决策树分类两大部分。
决策树生成过程,实际上是一个分类的规则集的生成过程。主要流程是用留出法、k-折交叉验证法或自助法等,从已分类的数据集中获取几组互斥的测试集和训练集,之后对选出的训练集进行学习,通过递归算法选取节点的最优属性分类标准,形成一个个节点,最终形成决策树。在构造决策树的过程中还需要进行剪枝等处理,之后将测试集放到决策树中进行性能测试,最终得到一棵最适合这个数据集分类、拥有较好的泛化能力的决策树,也就是得到了一套分类的规则。
决策树生成的关键在用于生成节点的递归算法。算法的输入为上一节点分类后的数据子集。递归算法的递归出口有三个:
(1)该节点上的样本类别已经完全相同,无需继续分类;
(2)该节点的属性集为空,或是所有样本在所有属性上取值相同,无法继续分类;
(3)节点上样本集合为空,不能继续分类。
递归算法首先判断输入的数据子集是否满足递归出口(1)(2),若满足则结束递归形成叶子节点,若不满足则通过一定指标选取最优划分属性进行划分,对于划分后的数据子集,判断是否满足递归出口(3),若满足则形成叶子节点,若不满足则递归调用算法。
决策树生成递归算法的核心是最优属性的选取。采用不同指标进行最优属性选取就衍生出了不同的决策树算法,目前常用的决策树算法有ID3、 CART、C4.5、随机森林等。
决策树的分类则对于输入的单个对象,按照每个节点上的分类规则,进行判断,层层向下找到对应的子节点,最终就可以找到叶子节点,即为分类结果。
决策树算法能够被人们广泛接受和使用,是因为它有着其他算法无可比拟的优点:
(1)决策树的树状分类结构是通过决策树自我学习得到的一套分类规则,对专业知识水平要求低;
(2)决策树学习训练样本数据速度快、效率高,且结果准确性相比于传统算法也令人满意;
(3)决策树的独特算法结构不需要假设先验概率分布,因此具有较好的灵活性和鲁棒性;
(4)决策树对连续或离散的数据都可以进行分类,应用范围广;
(5)决策树的结构直观简洁,方便理解,容易进行分析和修正。
图1 决策树算法应用于遥感图像分类的基本流程
整体流程如图 1所示。首先是决策树的生成过程,为方便分类,先将遥感图像数据进行预处理,并进行分割和特征提取;之后进行随机采样,用自助法或留出法等方法获得几组训练集和测试集;再利用上文提到的ID3或C4.5等方法对训练集进行学习,构造成决策树;由于可能有“过拟合”情况的存在,因此要通过剪枝,主动去掉一些分支来降低过拟合的风险,提高决策树精度和效率。完成这些步骤后,用测试集对已构造的决策树进行评价,达到预期精度要求后才能形成一套规则集,用于之后的图像分类中。
在决策树分类时,输入待分类的遥感图像到已生成的决策树规则集中,按照其分类规则进行分类,得到最终的分类结果。
在国内,应用决策树进行遥感图像分类的研究主要包括:
2006年,南京林业大学的陈鑫[2]针对目前遥感图像分类技术中传统方法数据利用不充分、计算速度慢、无法处理复杂的高光谱遥感图像、实用性差等问题展开研究,发现决策树算法在遥感图像分类方面具有直观、灵活、效率高等特点。随后通过应用到实际遥感图像分类中的实验,分析比较了6种决策树算法,包括CART、卡方自动交互检验决策树(CHAID)、彻底的卡方自动交互检验决策树(Exhaustive CHAID)、快速无偏高效的决策树(QUEST)、提升树、决策树森林,发现决策树相比于传统算法有较大优势,且得出了组合决策树模型(提升树和决策树森林)精度比单一树高的结论。
2007年申文明在《遥感技术与应用》上发表的文章中[3],不仅描述了决策树技术应用于遥感图像中土地覆盖/土地利用分类过程中高灵活性、高鲁棒性、简单易用、有效解决属性缺失等优点。同时以实验证明决策树分类较最大似然法和ISODATA法相比,具有高分类精度和适应能力,并且指出在分类过程中适当加入GIS数据可以提高精度,但若辅助数据选取不当,则会带来相反的效果。同年,罗来平等人利用改进的CART算法解决传统分类方法处理空间特征分布复杂图像效果不佳的问题[4]。文章中主要通过引入用户的先验知识过滤不必要的属性,生成更加可信的决策树,并提出“属性重要性”作为决策树中新的属性选择标准两个方面对CART算法进行改进。虽然该方法可以提高分类精度,但在处理形状相似且分布较为紧密的不同类别时错分现象较为严重。
在中国地质大学李琳2009年的研究中[5],针对遥感图像数据量大和迅速获取信息的需求之间的矛盾,构建了一种同时满足遥感图像分类中精度高、效率高、速度快的改进算法。该算法将支持向量机(SVM)与决策树算法相结合,综合了SVM精度高误差小和决策树算法效率高耗时少的优点,达到了优势互补的目的。最终通过实验证明该算法在遥感图像分类应用中有计算速度快的优点的同时,有96.25%的分类精度和0.9531的Kappa系数,较好地满足了当今研究中对速度和精度的需求。
2012年,福建师范大学的林志垒发表于《计算机应用》上的论文提出了独立分量分析(ICA)和决策树算法(DTC)联合工作的ICA-DTC模型[6]。该模型利用ICA在尽可能降低图像信息损失的前提下对波段降维,从而解决了高光谱图像分类过程中“维数灾难”的问题,并弥补了传统特征提取方法存在的信息缺失的不足。随后建立决策树,并利用决策树进行分类,以达到提高高光谱图像分类精度的目的。在文章中,作者通过实验将ICA-DTC模型与传统最大似然法进行对比,ICA-DTC模型在针对多地物遥感图像分类时,其精度提高了18.8%,能够正确真实地反映各类地物以及其空间分布,具有较好的应用价值。
在张晓贺2013年的文章中[7],针对目前决策树在遥感图像分类问题中存在的侧重实际应用而忽视算法改进以及缺少完整的决策树遥感影像分类软件的问题,通过改进现有的C4.5算法和AdaBoost算法与决策树的结合方式,最终构造了新的AdaTree.WL算法,并以该算法为基础实现了GLC(Global Land Cover)决策树分类器。除此之外,其实现了依托于GLC树分类器的应用于基于像元和面向对象两种遥感影像分类方法的软件系统,最终通过实验表明其应用于上述两种分类方法中分类精度平均kappa系数达到0.9052和0.9398。
在陈丽萍的2013年研究中[8],针对基于像元的分类方法在处理高分辨率遥感图像时,无法利用遥感影像本身丰富的信息资源,造成的空间数据大量冗余、分类精度降低的问题,设计了基于决策树的面向对象分类方法。该方法利用多尺度分割遥感图像,随后对每个分割对象进行特征提取,利用决策树C4.5算法对样本的学习过程自动挖掘分类规则,构建决策树。其不仅打破了传统决策树分类中只能依赖经验总结获得规则的现状,同时具有高分类精度,以及较好的弹性和鲁棒性。
2014年燕山大学的范成龙[9]在对高光谱遥感图像分类算法的研究中,提出了结合二叉决策树与多维尺度分析的高光谱图像分类算法。这一算法解决了传统算法分类精度和稳定性不足以及现有改进算法只能达到局部最优效果的问题。在理论方面,其在提高了信息处理效率的同时,提升了传统二叉决策树的整体分类效果;在实际应用方面,整体分类效果的提升能使其应用在不同领域时的工作性能得到提高。通过与支持向量机法和最大似然法的对比试验,证明了基于二叉决策树的多维尺度分析算法在高光谱图像分类过程中具有明显优势。
遥感技术在当今社会越来越流行,在各种生产生活中人们越来越依赖于遥感技术解决实际问题。而遥感图像分类技术因为可以使一张遥感图像上海量的数据发挥其最大作用,在如今倍受青睐,越来越多的科学家和学者投入到研究遥感图像分类算法的领域中。本文中主要研究的决策树算法便是其中之一,它以计算速度快、效率高、精确度高、简洁直观等特点在琳琅满目的分类算法中处于优势地位。目前已有的并且常用的决策树算法包括ID3、C4.5、CART等等,并且都已经通过前辈们的苦心研究成功应用到遥感图像分类中。
对于遥感图像应用中决策树分类的改进主要包括两个方面。首先,对于分类算法本身,多种算法组合工作的决策树模型成为了遥感图像分类领域的新的热潮,由于不同算法间的优势互补、取长补短,这种组合工作的形式在遥感图像分类工作中获得了极大成功,分类精度和分类效率都大大提升。其次,遥感图像的特征提取技术也在日益进步,用以前的传统方法进行高光谱遥感图像的特征提取往往很不充分,造成数据冗余和精确度下降,在各种降维算法的引入后,这一问题得以缓解,大大提升了决策树工作时的效率以及分类结果的精度。
虽然,基于决策树的遥感图像分类技术的不断进步,使遥感图像的广泛高效应用成为了现实。但是,在目前的遥感图像分类研究工作中,仍有许许多多问题亟待解决,例如如何在特征提取时减少盲目性、如何寻找更优化的遥感图像分类算法、如何在分辨率更高的遥感图像中寻找更多有价值的信息等等,都是需要更多的研究者去深入钻研的难题。解决好这些问题,遥感图像分类技术的前景将会更加光明。