曾特林 吴彩燕 曾晓丽
(西南科技大学环境与资源学院 四川绵阳 621010)
基于决策树的多源遥感数据分类
曾特林 吴彩燕 曾晓丽
(西南科技大学环境与资源学院 四川绵阳 621010)
遥感影像是获取土地覆盖信息的重要手段。分析了影响决策树分类的特征因子,并根据这些因子构建分类决策树。结合中分辨率多源遥感数据,对贡嘎山区进行土地覆盖分类,通过与最大似然法分析对比,基于决策树的多源数据分类对试验区的分类精度(总体精度85.71%,Kappa系数0.83)远高于基于像素的最大似然法监督分类(总体精度63.56%,Kappa系数0.58)。
决策树分类 多源数据 贡嘎山区 中分辨率 遥感分类
自20世纪90年代以来,国内外对土地覆盖的遥感分类方法主要为基于传统的统计模式的分类方法,如最大似然分类法、最小距离分类法、等距离混合法、ISODATA等。近年来,传统统计模式的分类方法已经不能满足地物类别的判读精度,因此出现了越来越多的人工智能分类方法,其中面向对象的决策树分类方法得到诸多应用。韩涛等利用单时相的MODIS数据构建决策树进行自动分类[2],赵慧等研究了影响分类精度的因素[3],杨曦光等使用决策树方法对海岛土地利用进行了分类研究[4]。这些研究结果都肯定了决策树分类方法在遥感影像分类中的显著效果,但对影像分辨率要求都比较高。基于决策树的多源遥感影像分类方法不同于基于像元、亚像元的分类方法,是一种结合多源数据的面向对象的分类法,本文通过结合多源数据的影像分割建立决策树进行分类,并与传统的分类方法监督分类(最大似然法)的分类结果进行对比分析。
决策树分类法的原理是按照一定的规则把遥感数据集逐级往下细分,以确定决策树的各个分支,分类时,地物可根据决策树逐级决策,最终得到详细的划分(图1)。分类的导入数据除了TM各个波段(由于热红外波段不在研究范围之列,因此移除了TM6和HJ-A/B 4个波段数据)之外,还加入了ASTER DEM以及坡度、坡向数据。决策树分类主要包括4个步骤:⑴影像特征分析;⑵影像分割;⑶建立决策树规则;⑷影像特征提取。
图1 决策树分类流程Fig.1 Decision tree classification process
2.1 研究区概况
贡嘎山(101° 40′ ~102°15′E , 29°20′ ~30°10′N)位于青藏高原东南缘, 地处四川盆地向青藏高原过渡的大雪山的中段,主峰海拔7 514 m ,是我国典型海洋季风型冰川的分布区,也是植被垂直带谱非常明显的地区。该地区森林植被覆盖率高 ,植物种类较丰富。其海拔高差较大,植被垂直带谱复杂多样。研究区自上而下囊括了亚热带、暖温带、寒温带、亚寒带、寒带、寒冷带、冰雪带7个气候区,植被类型包括了常绿阔叶林带(1 000~2 200 m)、针阔叶混交林带(2 200~2 500 m)、针叶林带(2 500~3 600 m)、灌丛草甸带(3 600~4 600 m)、高山流石滩稀疏植被带(4 600~5 000 m)、永久冰雪带(5 000 m以上)。
2.2 多源数据与数据处理平台
研究区域内的多源遥感影像数据是Landsat 2008年12月16日的TM影像以及环境与灾害监测预报小卫星星座HJ-1A 2010年3月20日CCD影像、HJ-1B 2011年6月5日的CCD影像、HJ-1A 2010年12月13日的CCD影像。空间几何数据为空间分辨率为30 m的ASTER DEM,投影为UTM/W- GS84。DEM产生的坡度、坡向图提供了研究中会用到的影像对象中的地形因子。用于确定研究区域的是1:400万的基础地理数据,用于评价精度的是野外采集的照片和GPS采样点。
数据处理平台为ERDAS IMAGINE 9.2、ENVI4.5专业遥感图像处理系统、ARCGIS 9.2 地理信息系统软件以及德国Definiens imaging公司的Definiens Developer的面向对象分类软件。
数据预处理包括:几何校正、边界裁剪、投影转换从而产生研究区域的各子数据集。影像的几何校正采用三阶多项式纠正模型进行控制点的选取、用最邻近插值法重采样[11],利用从1:50 000地形图(高斯-克吕格1980年西安坐标系投影)上选择的25个地面控制点纠正得到的均方根误差小于0.5。子数据集就是根据行政边界和贡嘎山的范围划定研究区域后,再根据这个区域对遥感影像、DEM等数据进行裁剪,并使用线性拉伸使图像信息得到增强并且将投影统一为UTM-WGS84-48N的遥感图像和DEM图像。
2.3 决策树分类
2.1.1 影像特征分析
影像既有光谱特征,也有空间特征。分析影像特征旨在甄选出用于构造决策树规则的特征指标。在影像上可以大致看出:植被的光谱特征在影像识别上占主要作用,而其它非植被类型如居民地、耕地、河流等主要受空间特征影响,水体的光谱特征也比较强,利用波段组合可以起到一定的作用(表1)。
表1 TM2+TM3-(TM4+TM5)的样点值与均值Table 1 The sample values and mean values of TM2 + TM3 -(TM4 + TM5)
表2 针叶林与阔叶林特征值统计表Table 2 The eigenvalue statistics of Needle leaf Forests and Broadleaf Forests
目前应用最广泛的植被提取方法是归一化植被指数法[7],归一化植被指数(NDVI-Normal Different Vegetation Index)的计算公式:
NDVI=(NIR-R)/(NIR+R)
其中NIR为近红外波段,R为红波段,通过多次设定阈值,本研究区的NDVI值取0.15区分植被和非植被。
林、灌以及其他难以区分的植被,通过使用均值统计方法,结合二维空间散点图与特征分布图,确定决策树规则中的变量[8-9]。根据表2,结合试验分析,最终采用TM4取35.8,提取出针叶林与阔叶林植被的光谱特征。
2.3.2 影像分割
影像分割是指一副影像分割成影像对象,以作为进一步结合灰度和空间分类的基础。根据边缘检测法的分割方法[14],遥感影像分割结果的效果受到分割尺度、紧致度因子、形状因子以及波段权重等的影响。图像中每一个像素点都有其灰度尺度和空间尺度(Ahuja,1996),灰度尺度就是该像素点在被分割成的所在对象区域与周围区域的差异,而空间尺度是该点与对象区域边缘的最短距离[10-11]。影像对象既有空间异质性,又有光谱异质性,它们构成了影像对象的异质性,由信息权重、异质性值和用户自定义的权重决定。eCognition软件可以设置分割的尺度值和各因子的权重值。影像的像素决定了它的尺度参数,形状因子影响的是影像对象的边缘平滑程度和对象的紧致度,这些因子的确定最终将影像对象互相区别开来。实验对不同尺度和不同影响因子分别做了研究,最终确定的参数是分割尺度为6,形状因子为0.1,紧致度因子为0.5,TM波段权重全为1,而其他波段权重为0 。
2.3.3 建立决策树规则
根据贡嘎山植被群落的结构和其他地物的特征,参照国家土地利用分类标准,实验研究区域最终被分为12类。
张彤等[16]对决策树的形式算法做了比较详细的阐述,建立决策树实际上就是根据逻辑判别式,不断从父节点分叉产生根节点,直至停止分叉的一个过程。决策树分类规则的建立是基于影像分割及其特征。首先,由决策树的各个节点来建立一个逻辑结构,在此过程中会产生一些中间类,它们在分类过程中起到缓存的作用,最终将被一一归到分类系统中。自动分类的决策树包含了分割、分类、指数三大部分。由于影像特征的交叉性较强、混合像元无可避免,规则条件不可能完全将影像对象分成界限绝对清晰的两类,所以分类的部分还包括了适当修剪的部分。分类逻辑结构是一个由多条规则构成的系统,一条规则由一个或多个逻辑语句构成,规则之间不能交换顺序,否则有可能使分类结果混乱。规则里需要使用的变量放在决策树的指数部分。决策树的生长与修剪是一个无法分割的过程,为了得到更加稳定的分类树,实验采用事后修剪,最终只有少部分的冰雪被误分到裸地和稀疏植被中。
2.3.4 影像特征提取
规则通常是由好几个特征参数和好几个逻辑语句共同构成的,如利用NDVI,MNDWI[12],TM4,DEM值来共同构建一条得出的NDVI与云量较少的HJ3,4波段计算得出的NDVI的差值。这是因为两种影像分别是植被生长期和植被落叶期的影像,利用二者之间的差值,可以有效提取落叶与常绿的灌木;在冰川积雪、河流、湖泊、裸地、居民地的提取过程中,根据DEM和TM4确定出冰雪区,但是这个过程中产生了中间类,而这个中间类囊括了所有非植被中的非冰雪区,而河流可直接利用海拔高度和TM2+TM3-TM4-TM5的范围值提取,在提取河流时产生的中间类,可结合海拔与坡度等因子,将湖泊分出,但这时中间类并未完全消失,因为它包含了裸地与居民地,要提取这两种地物,需充分利用NDBI、坡度及DEM值来处理。当几个特征都在待选之列时,可借助二维特征空间图提取信息。
2.3.5 精度评价
传统的基于像素的分类使用的是最大似然算法分类。为了确保一致性,实验时在这12个分类范围内选取了50个与多源数据决策树分类方法的训练样本基本一致的代表区域来进行分类,最终这些区域的像元都分别被分到了概率最高的各类别当中。
利用分层采样法,通过分类结果图中的类别和野外采样分布中对应的类别进行对照,进行精度评价,采用混淆矩阵来表示,并采用用户精度、生产者精度、总体分类精度及Kappa系数评价分类图精度。贡嘎山区的土地覆盖类型分布不均,若采用随机采样法不能保证每个类别的样本数量,在选择样本的时候,考虑到了空间相关性。
基于决策树的多源遥感数据分类与基于像元的最大似然算法监督分类的精度评价结果见表3,分类结果图见图2。基于决策树的多源遥感数据分类,比基于像素的最大似然法监督分类具有更高的分类精度(总体精度高出22.15 %,Kappa系数提高了 0.25%)。这表明,基于决策树的多源遥感数据分类为类似贡嘎山区这样土地覆盖复杂的区域提供了一种较好的土地利用分类方法。此分类法有效地处理了“同谱异物”现象,例如光谱信息相似的居民地和冰川积雪;改善“同物异谱”现象,例如同为耕地;有效改善了“椒盐现象”;充分利用了辅助数据和多时相遥感信息来参与分类,使分类结果的精度不受影像分辨率严格控制。因此,本次研究的结果显示出在缺乏高分辨率的土地类型复杂的山区,基于决策树的多源遥感数据分类方法的显著优势和实用性。
表3 两种分类方法的精度评价结果对比Table 3 The accuracy of two classification methods evaluation results contrast
图2 分类结果图Fig. 2 The classification result
[1] 贾坤, 李强子, 田亦陈,等. 遥感影像分类方法研究进展 [J]. 光谱学与光谱分析, 2011, 31(10): 2618-2623.
[2] 韩涛, 徐晓桃, 颉耀文. 基于单时相MODIS数据的决策树自动构建及分类研究[J]. 武汉大学学报, 2009,34(2):191-194.
[3] 赵慧, 汪云甲. 影响ETM影像土地利用_覆盖分类精度因素的研究[J]. 遥感技术与应用, 2012, 27(4):600-608.
[4] 杨曦光, 黄海军, 严立文.等.基于决策树方法的海岛土地利用分类研究[J].国土资源遥感, 2012,24(2):116-120.
[5] FOODY G M. Status of land cover classification accuracy assessment [J]. Remote Sensing of Environment, 2002, 80(1): 185-201.
[6] 李爽, 丁圣彦. 决策树分类法及其在土地覆盖分类中的应用 [J]. 遥感技术与应用, 2002, 17(1): 6-11.
[7] NALWA V S,BINFORD T O. On detecting edges[J].IEEE Trans on Pattern Analysis and Machine Intelligence,1986,8(6):699-714.
[8] 陈华芳, 王金亮, 陈忠,等. 山地高原地区 TM 影像水体信息提取方法比较——以香格里拉县部分地区为例 [J]. 遥感技术与应用, 2005, 19(6): 479-84.
[9] 李小曼, 王刚, 田杰. TM 影像中水体提取方法研究[J]. 西南农业大学学报, 2006, 28(4): 580-582.
[10] AHUJA N. A transform for multiscale image segmentation by integrated edge and region detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1996, 18(12): 1211-1235.
[11] TABB M, AHUJA N. Multiscale image segmentation by integrated edge and region detection [J]. Image Processing, IEEE Transactions on, 1997, 6(5): 642-655.
[12] XU Han-qiu. A study on information extraction of water body with the modified normalized difference water index (MNDWI)[J]. Journal of Remote Sensing, 2005, 9(5): 589-595.
[13] 张敏, 杨武年, 黄瑾,等. 汶川地震区航空影像地质灾害自动识别技术 [J]. 地理与地理信息科学, 2009, 24(6): 42-45.
[14] 陈志强,陈健飞.基于NDBI指数法的城镇用地影像识别分析与制图[J].地球信息科学,2006,8(2):137-140.
[15] 冯露, 岳德鹏, 郭祥. 植被指数的应用研究综述[J]. 林业调查规划, 2009, 34(2): 48-52.
[16] 张彤, 潘和平. 决策树的形式算法及其在地理信息学中的应用[J]. 测绘通报, 2002, (7): 51-53.
Multi-source Remote Sensing Data Classification Method Based on Decision Tree
ZENG Te-ling, WU Cai-yan, ZENG Xiao-li
(SchoolofEnvironmentalEngineeringandResources,SouthwestUniversityofScienceandTechnology,Mianyang621010,Sichuan,China)
Since it is an important approach to get land cover information, remote sensing provides services to resource surveys, environmental monitoring, etc. , the study of remote sensing image classification is significant. This paper analyzes the factors affecting the characteristics of decision tree classification, and then the decision tree to classify the image was built based on these factors. Combined with medium resolution multi-source remote sensing data, taking Gongga Mountain for instance, the comparisons to the maximum likelihood method were performed for the validation. The result demonstrates that the classification accuracy of the test area (overall accuracy 85.71%, Kappa coefficient of 0.83) is much higher than the pixel-based maximum likelihood classification (overall accuracy of 63.56%, kappa coefficient of 0.58), showing the advantages and prospects of the object-based multi-source data decision tree classification .
Multi-source data; Decision tree; Gongga Mountain; Moderate Resolution; Remote sensing classification
2014-12-27
国家自然科学基金(41301587)。
曾特林(1989—),女,硕士研究生。E-mail:zengteling@126.com.通讯作者:吴彩燕(1976—),女,副教授,研究方向为地质灾害评价与防治、地理信息系统的应用与开发。E-mail:wucaiyan@swust.edu.cn
P237
A
1671-8755(2015)02-0041-05