李 双,杨宝华
随着遥感技术不断发展,遥感技术的应用越来越受到各行各业的重视,而遥感影像分类已经成为遥感影像信息提取及处理的关键技术之一[1]。遥感影像分类从方法上分为两种。一种是基于像素的分类方法,如决策树等[2],这类方法在多光谱遥感影像上应用较多,但其分类结果需要大量分类后处理来改进修正结果[3]。另一种方法则是面向对象的研究方法,这类方法多用于高分辨率影像。通过分割影像,结合多种信息源,确定分割对像的所属类别[4],但这种分类精度不高,需进一步改进提升精度。
决策树方法是一种应用广泛的数据挖掘分类方法,因具有分类精度高、速度快、生成的模式易于理解等优点而受到广泛关注[5]。但普通决策树的规则一般是根据经验和目视解译人为设定的,对于从影像数据中获取的先验知识依赖性较大。CRUISE算法,也叫无偏交互作用分类规则的选择和评价算法,是分类决策树算法的一种,它综合了FACT、QUEST和CART等传统的决策树的思想[6],能够利用选定的训练样本,快速地从大量数据中自动生成精准的分类规则,受人为因素的影响较小。目前单一特征在遥感技术应用中不如多特征融合提取的影像信息更加完整[7],因此结合纹理特征、光谱特征与地学辅助信息的影像解译技术,已成为遥感分类应用研究领域的一个新方向。合理地将遥感影像中的光谱信息和空间纹理信息结合,借助现有的土地、植被和水体等土地类型的分类知识,再配合上CRUISE算法,对影像进行地物分类,可以高效的区分地物类型,并且提高分类精度[8],因此将这种改进型的新方法用于遥感分类具有很大优势。基于以上特点,本文以南京南部高淳县为例,采用基于改进CRUISE算法的分类方法对遥感影像进行分类,并与其他分类方法的结果进行精度对比,验证该方法在遥感影像上的精确性和适用性。
CRUISE算法,也叫无偏交互作用分类规则的选择和评价算法,是由Kim和Loh在2001年提出的一种决策树生长算法[9]。它是早期FACT算法的一种改进算法,它综合了FACT、QUEST和CART的思想,该算法是通过最小化的次决策树来构建分类树。主要有精度高、计算速度快、无选择偏见、对局部相互作用敏感、有多种方法处理缺失值等特点,这些特点使CRUISE算法相对于传统的决策树算法有一定的优势。
构建CRUISE算法流程如下:
选定α作为一个显著性水平值(默认值是0.05)。假设X1,…,XK1是数值变量,XK1+1,…,XK是绝对变量。
(1)对每一个数值变量进行一个方差分析并计算它的P值,假设具有最小的P值。
(2)对于每个绝对变量,构建一个列联表,用绝对值做行,类值做列,并且找出它的X2的P值。选取最小的P值作为2,关联变量作为XK2。
(3)定义
(4)如果 min(1,2)<α/Κ(Bonferroni第一矫正法),则选择XK′作为分离变量。
(5)否 则为Levene方差齐性检验找出P值,此Levene方差齐性检验是针对于每个数值变量的类平均的绝对偏差的。假设XK′′有最小的P值。
①如果<α/(Κ+K1),则选择XK”(Bonferroni第二矫正法)。
② 否则选择XK′。
但由于研究区存在多种地物,单一的根据算法和光谱信息无法有效的区分不同地物,因此需要引入植被指数作为辅助参考数据,生成改进CRUISE算法。归一化植被指数(NDVI)是一种重要的植被指数,目前被广泛地运用到各个领域。它能很好的反映植被的覆盖度,与植被的分布有着重要关联,同时能为作为植被空间分布的参考因子之一[10,11],因此可以将它作为遥感影像分类的特征变量。归一化植被指数(NDVI)计算可以将多光谱数据变换成一个单独的图像波段,用于显示植被分布,较高的NDVI值预示着包含较多的绿色植被[12]。NDVI标准公式如式(1):
其中NIR为影像的近红外光波段,Red为红光波段。NDVI值的范围为-1~+1,负值表示地面覆盖为云、水、雪等,对可见光高反射;0表示有岩石或裸土等,NIR值和Red值近似相等;正值,表示有植被覆盖,且随覆盖度增大而增大。
这种结合植被指数的改进CRUISE决策树算法可以有效的区分不同的地物类型,有利于影像的分类。
高淳县位于南京南部(东经118°69′~119°22′,北纬31°22′~31°44′)(如图1),东邻苏、锡、常,西接安徽的宣城、马鞍山,总面积802平方公里。高淳县属北亚热带和中亚热带过度季风气候区,四季分明,全区有固城湖、石臼湖两大天然淡水湖和长江支流水阳江,适合做土地分类研究。
图1 高淳县研究区域示意图
本文的研究数据是高淳县2010年4月5日的landsat7ETM+卫星影像,该影像有9个波段,本研究只选取ETM的1-5、7这6个光谱波段进行分类研究。实验前对此幅影像进行了进行几何校正、感兴趣研究区域的影像裁剪。选定如图2所示的研究区域,并利用NDVI指数公式计算提取了影像的NDVI值。
图2 高淳县ETM原始影像
经过目视判断以及波段选择组合分析得出TM4、TM3、TM2这3个波段合成的影像对地物信息的提取效果较好,因此本文基于432波段合成的遥感影像来进行信息提取。
2.3.1 训练样本选择
训练样本对于遥感影像分类来说非常重要,它直接影响到分类的精度。参考1:10000比例尺2008年高淳县土地利用图和2010年数字高程模型图,在遥感影像图上采用地表真实感兴趣区域ROI(region of interest)采样方法均匀的选取各种地物的训练区样本(如表1)。
根据《土地利用现状分类》国家标准,在训练区将土地类型分为五类,林地、耕地、草地、居民地、水体。林地和草地的叶绿素含量比较高,所以NDVI值较高,水体的反射率在见红外波段是被强吸收的,居民地的反射率较其他地物有很大差别,因此通过以上这些特征可以将几种地物区分开来。
表1 训练区各地物分类样本个数及象元数
2.3.2 训练区样本分析
为了降低基于目视方法选取样本带来的误差,在进行分类之前需要采取分离度计算来验证样本选取的好坏。由于J-M距离法在表达类别可分性上具有很大优势,因此此方法目前被广泛应用。J-M距离法是一种基于概率论的光谱可分性指标,公式如式(2):
其中:p(X/ωi)为条件概率密度。Jij的值分布在0-2之间,它的多少代表样本间可分离程度的高度。当Jij为0.0-1.0时,表示样本间不具有光谱可分性;Jij处于1.0-1.9时,表示样本间具有一定的光谱可分性,但也说明其存在较大程度的重叠;Jij的值在1.9-2.0时,说明样本间的光谱可分性很好[13]。本文采用J-M距离法作为区分地物类别的标准。训练样本的可分离度如表2所示。通过表2,我们可以看出样本具有很好的分离度,可以进行分类。
表2 各种地物之间的分离度
综合考虑本文选取的研究区的地物类型,以及使用的遥感影像数据源的特点,基于改进CRUISE算法遥感影像分类的主要步骤如下,图3为具体的影像分类流程图:
(1)遥感影像预处理。基于2.2节,本文对影像进行了几何校正、感兴趣研究区域的影像裁剪。
通过利用不同时间相同地区的ETM+影像和相同地区的Modis影像,来对原始卫星影像进行几何校正。校正需要检查原始卫星图像与校正图像是否在同一个坐标系和投影下,并且需要在对比的两幅影像上寻找对应的控制点对,然后使用畸变模型对原始影像进行精校正,最后重采样,得到校正的影像,完成几何校正。对完成几何校正的ETM+影像,通过手动绘制ROI多边形感兴趣区域,然后利用这个感兴趣区域裁剪ETM+影像作为研究域。
对于裁剪好的影像通过波段组合找出最适合提取影像信息的成像方法。按照公式(1),将红外波段值和近红外波段值通过波段计算,提取归一化植被指数值,作为辅助分类特征。
(2)样本选择与分析。基于2.3节,本文通过选取ROI的方法在影像上均匀地选取75个训练样本,如表1。由于选取的样本需要具有代表性,因此在影像图上,选取同一地物时应注意其分布范围,不应局限于临近地区。同一地物在不同区域的纹理和颜色会有区别,因此广泛的选取样本才能使得最后的分类趋于准确。而且样本的数量不应过少,选取的数量应能充分反映地物的特征和分布情况。利用J-M距离法对选取的样本进行分离度计算,判别样本选取的好坏。默认值1.9是区分样本好坏的标准,对于分离度小于1.9的两个地物,需要重新对其进行修改。通过人工筛选出低质量的样本并删除,再添加进新样本,再进行分离度计算,以保证样本的准确性。这其中涉及到大量的样本处理,对于多种地物和大量样本的选取,需经过反复试验,最后得到结果如表2。
(3)基于改进CRUISE算法的规则构建。仅基于原始影像的6个波段来进行地物分类是不能准确的区分不同地物信息的,因此本文选择TM影像1-5、7波段、NDVI值、DEM高程值,组成一个8波段的影像数据。通过植被指数和数字地形图的加入作为辅助变量,可以有效的补充和完善算法和光谱信息的不足。再将选取好的训练样本导入处理后的影像数据中,配合NDVI值,选取基于CRUISE算法的分类方法,提取分类规则,最后生成训练样本的分类决策树。该算法能够自动选择最适合的分类特征并确定阈值,从而减少人为主观影响。
(4)遥感影像分类。根据生成的决策树规则实现对研究区影像的分类。利用得到的规则树对影像进行分类时,可以很直观的看到分类的流程,其中的判别规则也可以很好的提现出来,通过分类的过程可以清楚的了解到分类规则是否能很好的适用于此遥感影像。最后对于分类后的影像,用不同的颜色代表不同的地物类型,以直观的判别不同地物类型。影像分类结果如图4所示。
图3 影像分类流程图
图4 CRUISE决策树分类图
(5)结结果分析与精度验证。利用选定的检验样本,通过混淆矩阵的方法对分类结果进行精度验证。通过淆矩阵的方法来进行精度验证,可以准确地得到分类的精度和Kappa系数。同时用最大似然法和普通决策树的方法对影像进行分类,得到其分类精度,最后将几种分类方法的结果进行对比,如表3-5。
精度评价对于遥感影像分类来说十分重要,它代表着分类方法的可行性。利用精度分析,使用者能够清晰的获取影像分类结果的信息,并且可以根据分类的精度来修正改进分类方法中的参数,来提高分类的精度。目前对于分类精度评价最常用的方法就是混淆举证的方法。本文在研究区采用地表真实感兴趣区(ROI)采样方法选取了68个ROI作为验证样本,建立混淆矩阵,计算各种统计量,并进行统计检验,计算得出Kappa系数、总体精度、用户精度、生产精度、漏分误差、错分误差等分类精度。将改进CRUISE算法分类的精度分析与普通的决策树分类、最大似然法分类进行比较,如表3、表4、表5所示。
表3 基于改进型CRUISE决策树分类精度评价结果
表4 普通决策树分类精度评价结果
表5 最大似然法分类精度评价结果
比较表3、表4、表5可知,改进CRUISE算法的分类方法的总精度为98.1807%,Kappa系数为0.9739,精度最高,比最大似然分类方法(97.8296%)高0.3511%,比普通决策树分类方法(97.7338%)高0.4469%,说明改进CRUISE算法在总体精度上体现了改进的效果。从分类结果可以说明,耕地、草地、水体等大多数地物的分类精度都较高,只有居民地的精度较低。因为林地、草地、耕地都具有一定程度的叶绿素,所以增加NDVI值作为辅助参数,可以较好的区分植被区与其他地物区。而耕地、居民地、水体分布于地势较低的地区,林地、草地分布于地势较高的地区,因此可以通过增加DEM数据的方法使林地、耕地、草地的分类精度提高。但是在分类过程中也存在着居民地边缘的地物难区分的问题,使得居民地的精度偏低。而通过对比可知,改进CRUISE算法的分类方法相比其他分类方法在草地、耕地和水体的用户精度值上都得到提高。普通决策树方法耕地的错分率偏高,居民地的漏分率偏高,最大似然法草地的错分率较高,居民地的漏分率较高,因此可以看出改进CRUISE算法的分类方法能很好的控制整体的分类精度。综上所述,最大似然法过度依赖于地物的光谱特征,普通的决策树算法受人为因素影响较大,而改进CRUISE算法能客观、有效的融合光谱特征和纹理特征,精度优于其他两种算法,具有较强的实用性和优越性。
本文以ETM+卫星影像为数据源,融合地物类别特征,基于改进CRUISE算法,对地物进行划分。相比单纯的算法和光谱信息遥感分类,改进CRUISE算法利用了更多的地理学信息,并且提高了分类的精度。改进CRUISE算法获取遥感影像的分类规则是高效的,它综合了多种分类方法的的优点,具有高效、准确等特点,丰富了遥感分类的方法。基于改进CRUISE算法的分类方法具有一定的适用性,可以为土地利用的研究打下坚实的基础。如何进一步优化改进算法中的参数,并引入更多的辅助特征数据来提高分类精度,是本文下一步的研究方向和内容。
[1]赵 蔷,宋笑雪.一种基于PCA-LDA的卫星遥感图像的分类方法[J].计算机应用与软件,2013,30(2):198-204.
[2]黎 夏,叶嘉安.基于神经网络的元胞自动机及模拟复杂土地利用系统[J].地理研究,2005,24(1):19-27.
[3]苏 伟,李 京,陈云浩,等.基于多尺度影像分割的面向对象城市土地覆被分类研究——以马来西亚吉隆坡市城市中心区为例[J].遥感学报,2007,11(4):521-530.
[4]彭海涛,柯长青.基于多层分割的面向对象遥感影像分类方法研究[J].遥感技术与应用,2010,25(1):149-154.
[5]陈家俊,苏守宝,徐华丽.基于多尺度粗糙集模型的决策树优化算法[J].计算机应用,2011,31(12):3243-3246.
[6]KIM H,LOH W-Y.Classification trees with bivariate linear discriminant node models[J].Journal of Computational and Graphical Statistics,2003,12:512-530.
[7]唐银凤,黄志明.基于多特征提取和SVM分类器的纹理图像分类[J].计算机应用与软件,2011,28(6):22-25.
[8]齐 乐,岳彩荣.基于CATR决策树方法的遥感影像分类[J].林业调查规划,2011,36(2):62-66.
[9]KIM H,LOH W-Y.Classification trees with unbiased multiway splits[J].Journal of the American Statistical Association,2001,96:589-604.
[10]李杭燕.时间序列NDVI数据集重建方法研究[D].兰州:兰州大学,2010.
[11]KROSS A,FERNANDES R,SEAQUIST J.The effect of the temporal resolution of NDVI data on season onset dates and trends across Canadian broadleaf forests.Remote Sensing of Environment,2011,115:1564-1575.
[12]邓书斌.遥感图像处理方法[M].北京:科学出版社,2010.
[13]马 娜,胡云锋,庄大方,等.基于最佳波段指数和J-M距离可分性的高光谱数据最佳波段组合选取研究——以环境小卫星高光谱数据在东莞市的应用为例[J].遥感技术与应用,2010,25(3):358-365.