基于C4.5决策树的多特征遥感分类方法

2016-04-11 01:43曹洪涛张拯宁李器宇
测绘工程 2016年3期
关键词:植被指数决策树土地利用

曹洪涛,张拯宁,李 明,李器宇,陈 浩

(天津航天中为数据系统科技有限公司,天津 300301)



基于C4.5决策树的多特征遥感分类方法

曹洪涛,张拯宁,李明,李器宇,陈浩

(天津航天中为数据系统科技有限公司,天津 300301)

摘要:以钱塘江流域为研究区域,利用2010年ETM,MODIS和DEM多源数据,进行土地利用分类研究。在分析土地类型的光谱特性和植被指数年度变化基础上,运用光谱指数法和代数法从数据中提取各种土地覆被类型特征。利用WEKA软件平台下的C4.5决策树算法构建决策树分类模型,对钱塘江流域土地覆被类型进行分类研究,取得较高的分类精度。

关键词:多特征;C4.5决策树;遥感影像;WEKA

遥感分类应用中,传统的监督分类和非监督分类方法都是根据地物光谱特性为基础来区分不同类别。然而,由于存在“同谱异物、同物异谱”的现象,单纯地利用光谱反射(辐射)特性或图像亮度值来区分地物类别,尤其对于两类光谱特性相似的地物,势必会造成分类的混淆和错误。研究表明,结合多源数据以及辅助信息,增加判断依据,可大大提高分类精度和可靠性。

决策树分类作为一种基于空间数据挖掘和知识发现的监督分类方法,通过对训练样本进行归纳学习,从无次序、无规则的事例样本中推理出决策树表示形式的分类规则,可以对未知事例进行预测分类。在遥感分类应用中,决策树能有效地处理大量数据和高维数据,实现遥感影像数据和其他多种空间数据的结合,通过专家经验总结、简单的数学统计和归纳方法等,获得分类规则并进行遥感分类,有良好的稳健性和鲁棒性,分类结果可靠性高。本文尝试利用经典的决策树算法C4.5决策树,对钱塘江流域地区进行土地利用类型分类研究。

1研究区及数据源

本文以钱塘江桐庐县至杭州湾河段周边市县区域为研究区,钱塘江是中国浙江省第一大河,古名“浙江”,发源于休宁县海拔1 600 m的怀玉山主峰六股尖,流经安徽、浙江两省的14个县市,注入杭州湾,河流全长688 km,流域面积5.56万km2。钱塘江两岸蕴藏着极其丰富的旅游资源,沿途地区经济比较发达,地形和植被覆盖多样化。

获取2010年LANDSAT-7ETM光谱数据,并考虑到植被指数可以反映不同的植被类型和土地覆被类型,以及研究区域地形多样化,选用2010年MODIS增强型植被指数和DEM高程数据作为辅助数据。其中,选取采用ETM 30 m分辨率的Band1-Band5、Band7 6个波段,MODIS2010年1~12月的12个增强型植被指数EVI产品,1个ASTER的30 m分辨率的DEM数据,共19个数据层。

2特征信息提取

在遥感数据中,不同的地类具有不同的光谱信息,不同的地类在一年中植被指数变化特征也有所不同,利用各种土地类型之间的光谱差异和植被指数变化差异,通过光谱指数法和代数法进行光谱波段组合运算和植被指数组合运算,提取土地利用类

型的特征信息。研究区土地利用类型划分为城镇及建设用地、农田、水体、落叶林、常绿林、灌木丛和未利用地7种类型。各地类类型的ETM 波段DN值特征、年度EVI变化特征如图1、图2所示。

图1 ETM波段DN值特征

图2 年度EVI特征

2.1ETM光谱特征

1)有植被覆盖地类T4的反射率大于T3反射率,选用归一化植被指数为特征,能够有效区分植被覆盖类型和非植被覆盖类型:NDVI=(T4-T3)/(T4+T3);

2)城镇及建设用地和未利用地T5 波段比T4波段反射率有较大幅度的增高,以归一化建筑指数NDBI为特征:NDBI=(T5-T4)/(T5+T4);

3)水体在T4、T5、T7波段较其他地类有非常低的反射率,T2波段反射率相对较高,选用T4+T5+T7和T2-T5为特征;

4)未利用地在T1、T2、T3、T5、T7反射率最高,以T1+T2+T3+T5+T7为特征。

2.2EVI年度变化特征

1)灌木丛和常绿林在5~7月份EVI值较高,以E5+E6+E7为特征;

2)水体EVI全年最低,城镇及建设用地EVI次之,且两者变化幅度很小,以E4+E6+E8+E10为特征;

3)常绿林EVI在冬季11、12、1月份较高,以E1+E11+E12为特征;

4)农田EVI在5~7月大幅下降,7~8月回升,以E5-E7和E8-E7为特征。

按照选取的特征进行ETM波段、EVI的指数运算和代数运算得到组合特征值,由此,得到10组组合特征,并以ASTER的DEM数据作为高程特征,用于训练构建C4.5决策树模型。

3C4.5决策树算法

C4.5算法是决策树算法具代表性的一种,算法过程是从决策树的根节点开始不断的分治、递归、生长,直至得到最后的结果。根节点代表整个训练样本集,通过在每个节点对某个属性的测试验证,将数据集分成更小的数据集,某一节点对应的子树对应着原数据集中满足某一属性测试的部分数据集。这个递归过程一直进行下去,直到某一节点对应的子树对应的数据集都属于同一个类为止。

C4.5算法采用信息增益(InforGain)作为分裂阈值的确定准则,采用信息增益率(GainRatio)作为对分枝属性的选择准则,选择具有最大信息增益率的特征作为分裂特征。信息增益率表示由分枝产生的有用信息的比率,这个值越大,分枝包含的有用信息越多。设D为训练样本集,类标号有m个不同值,按照属性A划分D中的元素为V个不同类,计算过程如下:

1)对特征属性的样本取值进行排序;

2)以各个取值作为分割点将该特征下的样本分成两份,有N-1种分割形式(N为样本个数),计算每个可能的分裂点的信息增益(InforGain)。

(1)

(2)

InforGain(A)=Info(D)-InfoA(D).

(3)

3)选择信息增益(InforGain)最大的分裂点作为该属性的最佳分裂点,即为分裂阈值;

4)计算最佳分裂点的信息增益率(GainRatio)作为特征属性的GainRatio;

(4)

(5)

5)在所有特征属性中,选择Gain Ratio最大的特征属性作为分裂属性。

4构建C4.5决策树

研究中利用高分辨率影像提取2000个象元的土地类型典型样本数据,其中1000个训练样本用于C4.5决策树模型训练,另外1000个评价样本用于分类结果的精度分析。本文基于Weka3.6.8数据挖掘系统为平台,利用训练样本对C4.5决策树进行训练建模。利用C4.5决策树算法对特征数据优先性、分支阈值的自动计算,训练得到共有10个叶片、19个节点的C4.5决策树,决策树模型如图3所示。

图3 C4.5决策树模型

5精度分析

利用训练构建的C4.5决策树模型对特征数据集每个象元进行所属土地类型的判断,得到实验区土地利用类型分类结果。为验证分类结果精度,利用精度分析样本对C4.5决策树分类结果(见图4所示),进行精度评价和统计分析。各土地利用类型精度统计如表1所示。

在表1中,C4.5决策树分类结果的各类精度相对稳定、均衡,总体精度较为优秀。对城镇及建设用地、水体、农田3类特征明显的类别,分类精度达到90%以上;在植被类别中,落叶林、灌木丛以及未利用地易于混淆,通过多特征判断分类精度良好,分别为0.78,0.77,0.80。

图4 C4.5决策树分类结果

精度分析项分类精度常绿林0.872城镇及建设用地0.952农田0.910落叶林0.784灌木丛0.776水体0.953未利用地0.802Kappa系数0.841总体精度86.84%

6结束语

基于C4.5决策树的多特征遥感分类方法,结合多种遥感数据,并提取土地类型的特征信息,实现研究区遥感影像的地物分类,分类精度达到86.8%。决策树分类算法简单易行,能从大量数据中自动挖掘出分类信息,便于结合多种土地利用类型特征构建更精简、更易理解的分类规则,能够实现对土地类型的较高精度的分类。

参考文献:

[1]潘琛,林怡,陈映鹰.基于多特征的遥感影像决策树分类[J].光电子:激光,2010(5):731-736.

[2]申文明,王文杰,罗海江,等.基于决策树分类技术的遥感影像分类方法研究[J].遥感技术与应用,2007(3):333-338.

[3]余晶,蒋平安,高敏华.基于决策树的土地利用分类方法研究[J].新疆农业科学,2009(2):430-434.

[4]陈宝政,蔡德利,张有利,等.利用决策树对TM遥感影像的分类研究[J].黑龙江八一农垦大学学报,2010(1):79-82.

[5]陈秋晓,骆剑承,周成虎,等.基于多特征的遥感影像分类方法[J].遥感学报,2004(3):239-245.

[6]黄立贤,沈志学.基于决策树的Landsat多光谱影像分类方法[J].光电技术应用,2011(3):49-52.

[7]潘琛,杜培军,张海荣.决策树分类法及其在遥感图像处理中的应用[J].测绘科学,2008(1):208-211.

[8]齐乐,岳彩荣.基于CART决策树方法的遥感影像分类[J].林业调查规划,2011(2):62-66.

[9]秦臻,汪云甲,王行风,等.基于ENVI的决策树方法在土地利用分类中的应用[J].金属矿山,2011(2):133-135.

[10] 孙艳玲,杨小唤,王新生,等.基于决策树和MODIS数据的土地利用分类[J].资源科学,2007(5):169-174.

[11] 高燕,周成虎,苏奋振.基于OLI影像多参数设置的SVM分类研究[J].测绘工程,2014,23(6):1-5+10.

[12] 宋宏利.多源土地覆被遥感信息融合及数据重构研究[D].北京:中国矿业大学(北京),2013.

[13] 高燕,周成虎,苏奋振,等 基于多特征的人工海岸线提取方法[J].测绘工程,2014,23(5):1-5.

[14] 张楼香;阮仁宗.基于决策树的洪泽湖湿地信息提取[J].测绘与空间地理信息,2015,38(2):87-91.

[责任编辑:张德福]

Remote sensing classification with multi-feature based on C4.5 decision tree method

CAO Hongtao,ZHANG Zhengning,LI Ming,LI Qiyu,CHEN Hao

(Tianjin Zhong Wei Aerospace Data System Technology Co.,Ltd,Tianjin 300301,China)

Abstract:Taking Qiantangjiang Basin as the study area,land-cover classification reseach is conducted in this paper using Landsat ETM,MODIS and DEM.Based on analysing spectral characteristics and annual changes in vegetation index,the land-cover classification of Qiantangjiang Basin has been done. Based on C4.5 decision tree method from software WEKA the land-cover type features from data are analyzed with the spectral index method and the algebraic method.Compared with the maximum likehood classification and Neural net classification,the results show that classification accuracy is better.

Key words:muti-feature;C4.5 decision tree classification;remote sensing images;WEKA

中图分类号:TP751

文献标识码:A

文章编号:1006-7949(2016)03-0073-04

作者简介:曹洪涛(1988-),男,助理工程师.

收稿日期:2014-07-06;修回日期:2015-06-07

猜你喜欢
植被指数决策树土地利用
一种针对不均衡数据集的SVM决策树算法
基于植被指数选择算法和决策树的生态系统识别
AMSR_2微波植被指数在黄河流域的适用性对比与分析
决策树和随机森林方法在管理决策中的应用
河南省冬小麦产量遥感监测精度比较研究
土地利用生态系统服务研究进展及启示
基于决策树的出租车乘客出行目的识别
滨海县土地利用挖潜方向在哪里
主要植被指数在生态环评中的作用
基于肺癌CT的决策树模型在肺癌诊断中的应用