基于决策树分类的土地覆盖信息提取研究

2016-06-22 09:44姚蓓蓓段德宏
关键词:信息提取

姚蓓蓓,段德宏

1.山东科技大学测绘科学与工程学院,山东青岛2665902.山东科技大学科研处,山东青岛266590



基于决策树分类的土地覆盖信息提取研究

姚蓓蓓1,段德宏2*

1.山东科技大学测绘科学与工程学院,山东青岛266590
2.山东科技大学科研处,山东青岛266590

摘要:为实现简便、快速、准确地获取大尺度范围的土地覆盖信息,本文充分利用ETM+数据的多光谱特征、DEM数字高程信息和坡度、坡向等地学相关知识,结合NDVI、NDWI、SAVI、NDBI等各类指数,构建适用于研究区土地覆盖信息提取的决策树模型,并验证其精度。结果表明,该模型能够更好地适用于土地覆盖信息提取,总体分类精度达到86.49%,Kappa系数0.8367。

关键词:土地覆盖;ETM+;决策树分类;信息提取

土地覆盖信息是人们了解土地利用信息的一种方式,可以帮助研究土地动态变化。是开展土地研究、制定土地利用政策的基础。在自然、人文社会等诸多因素的影响下,区域土地覆盖情况不断地发生变化,进而影响到区域的气候变化、生态环境质量以及人与自然的可持续发展[1]。遥感应用技术覆盖范围广、周期短,能反映动态变化,受条件限制少,获得的信息量大且成本低,成为土地利用变化监测的重要研究手段,国内外众多学者都通过利用遥感的方法获取土地利用/覆盖变化信息[2-3],如何更加简便、快速、准确的获取大尺度范围的土地覆盖信息成为国内外一直关注的研究重点。

传统的分类方法主要包括监督分类和非监督分类,其中平行算法、最小距离法和最大似然法是监督分类最常用的算法,非监督分类中较常用的算法有ISODATA算法、K-均值算法等[7]。近年来,随着遥感技术的发展,新兴的分类方法主要有人工神经网络法[4]、模糊分类和纹理识别分类[5]等。但是这些分类方法都是基于遥感影像的光谱信息进行分类,容易产生漏分、错分现象,严重影响分类精度。决策树分类方法具有结构清晰,易于理解,实现简单,运行快、精度高的优势,由一个根结点、一系列子结点和叶子节点组成,每一结点只有一个父结点和两个或多个子结点[6],当遥感影像空间分布比较复杂或者多源遥感数据具有不同的统计分布和尺度时,应用决策树可以有效的处理大量高维数据和非线性关系并且抑制训练样本噪音提高分类精度,能够获得较好的分类结果[7,8]。决策树分类利用多源遥感数据对影像逐级划分,直观清晰且运算效率较高,已经在遥感影像分类信息提取中起到重要作用[9]。

文章使用山东省Landsat7的ETM+遥感影像,借助ENVI遥感图像处理软件,分析典型地物的波谱特征,利用NDVI、NDBI、NDWI、SAVI等提取地物信息的比值指数,结合DEM等地学相关知识构建分类决策树,基于构建的决策树模型快速、准确的提取山东省土地覆盖信息。对土地覆盖

分类结果进行分析和精度评价,通过对比决策树法和最大似然法的分类结果证明结合各种相关知识共同构建的决策树模型能够获取更高精度。该研究不但改善了遥感影像分类中的决策树方法,同时对大尺度范围的土地覆盖信息动态监测具有重要的理论和现实意义。

图1 研究区地理位置图Fig.1 Geographical location of the study area

1 研究区概况及数据来源

济宁市位于山东省西南部,地处鲁中南山地和黄淮海平原交接区域(见图1)。地形较为复杂,以平原为主,东部丘陵分布,地势东高西低,南四湖贯穿中、北部,属于暖温带季风气候。总面积达1.1187×108 km2万平方公里,人口稠密、文化底蕴深厚、经济发展迅速。土地利用类型中,农业用地占土地总面积的大部分,包括耕地、园地、林地、草地等;其次是建设用地,包括城乡居民点、工矿用地、交通用地和水利设施等;再有水体分布,包括湖泊河流等;最后是未利用土地等[10]。

研究使用SRTM的DEM数字高程数据和Landsat的ETM+数据来提取山东省土地覆盖信息。ETM+是搭载在太阳同步极轨卫星Landsat7卫星上的增强专题成像仪+,数据更新时间为16 d,空间分辨率为30 m。ETM+数据主要包括7个波段,即第1波段蓝绿波段(450~515 nm),第2波段绿色波段(525~605 nm),第3波段红色波段(630~690 nm),第4波段近红外波段(760~900 nm),第5波段中红外波段(1550~1750 nm),第6波段热红外波段(10400~12500 nm)以及第7波段中红外波段(2090~2350 nm)。

图像预处理是遥感图像处理工程中非常重要的环节,为了增强所需要的遥感图像信息,提高研究结果的精度,在对影像进行分类前会对数据影像做预处理,主要包括利用辐射校正获取信息提取的地表反射率产品,将多幅影像拼接成一幅完整影像,利用矢量裁剪出山东省的ETM+影像。另外,还对影像做了像元数据融合处理和云掩膜处理。通过对本实验区各类地物的波谱分析得出,云在蓝绿波段的反射率要明显高于其他地物的反射率,因此利用蓝绿波段对影像做基于像元的数据融合能更好的降低云雾干扰。利用蓝绿波段的地表反射率值做波段运算得出最小值,根据最小值将多幅影像合成一景影像,这样就可以将高反射率的云雾去除以减少其对读取影像数据的影响,并使合成影像的地表反射率能更准确的表示地物特征。由于山东省的植被覆盖在夏季比较旺盛,农作物大多是在6月换季,8月份生长旺盛,林地则在整个季度保持着高覆盖率。因此利用2000年至2002年合成的6月份和8月份ETM+数据对地表覆盖类型做信息提取分类。

2 研究方法

不同的地区由于其地理位置、自然条件、研究目的不同等原因,要选择的分类系统也不同。根据国内外现有的土地利用/覆盖分类体系,结合本研究的目的要求,依据研究区土地利用的现状和遥感数据源的信息情况,本次研究选用的是IGBP分类体系标准[9]。本研究根据研究区的气候条件、地形地貌特点和土地覆盖的植被类型等实际情况,将本区分为8个土地利用类型(见表1)。

表1 分类体系标准Table 1 Standards of classification system

2.1光谱特征分析

波谱特征是提取遥感地物信息的关键依据。不同的地物会具有不同的波谱特征,因此可以利用波谱特征用来区分不同的地物。在遥感影像的分类过程中,波谱分析可以用来作为地物信息提取的一个重要依据。本研究方法是在波谱特征分析的基础上,利用不同类型的指数增强遥感信息,通过决策树分类方法提取各种土地覆盖类型的信息。利用研究区8月份的Landsat ETM+数据,提取了多种基本地物类型的光谱特征,如图2所示。

图2 土地覆盖类型波谱曲线Fig.2 Spectral curves of land cover types

由图2可以看出,地物的光谱特征在第4波段呈现较为明显的差异性,地物的光谱反射率出现波峰,但是地物在其它几个波段尤其是第1、2、3波段上光谱特征差异不明显。根据以上分析,如果只是单独依据地物光谱分析进行土地覆盖信息提取必然会产生漏分、错分现象,且不易把握阈值范围。研究考虑使用多种数据结合地学知识构建分类决策树来提取土地覆盖信息。

2.2土地覆盖信息提取

归一化植被指数在遥感信息中的应用非常广泛,当NDVI为负值时表示地面覆盖的是水体、云或雪等[12],利用NDVI能够分离出一部分常年积水的区域,可以作为提取水体的一个重要因子[13],如式(1)所示:

式中:b3是ETM+数据第3波段,即红光波段波段;b4是第4波段近红外波段。由于NDVI受植被覆盖影响较大,地处暖温带的研究区域大部分时间水面都会有植被覆盖,另外河流含沙量也会影响到NDVI值域判定,因此只靠归一化植被指数很难分离出全部水体,还需要利用水体指数。

根据水体的光谱特性,MeFeeters提出了归一化差异水体指数(NDWI),水体指数能够消除地形起伏的影响,区分水体和阴影,增强遥感信息中的水体信息[14]。但当泥沙含量比较大时,水的波谱反射曲线会移向中红外区域,导致异常反射[15],徐涵秋[16]等为此提出了改进的修正归一化差异水体指数(MNDWI),如式(2)所示:

课外教学能够弥补课堂教学受时间、空间等因素限制的不足。从网络教学、专业技能训练、创新性综合实践三个方面着手,构建多元化的课外教学体系。网络教学包括教学网站、网络教学资源库和网络管理平台三个部分。专业技能训练则根据学生不同的专业需求,开展具有针对性的专业技能训练活动,为学生的专业学习服务。创新型综合实践,是根据计算机技术的发展趋势、不同专业的应用背景,来构建以学生为主体的创新性综合实践体系,具体通过科研活动、科技竞赛以及产学研结合等实践环节来实现。

式中:b2表示ETM+数据的第2波段,即绿光波段;b7表示第7波段,中红外波段。用MNDWI来提取有较多建筑物背景水体的效果仍然比较差,为了对遥感数据做出进一步精确的河流提取,沈占锋[17]等提出了高斯归一化水体指数(GNDWI)。GNDWI通过高斯变换拉伸0值附近属于水体的弱信息,抑制1和-1附近的强信息,增强灰度值差异,实现水体的分离并且较好的保留了水体的连续性和完整性。

本研究经过在提取水的研究过程中反复试验和观察,将MNDWI和GNDWI两种指数结合成GMNDWI指数来提取水体,既可以避免因为泥沙含量大而造成的近红外区的异常反射,又可以利用高斯归一化增强水体信息,实现河流信息的的精确提取。这里的GMNDWI指的是Gauss Modified NDWI,即高斯修正归一化水体指数,如式(3)所示:

通过GMNDWI指数更能精确的提取遥感影像上水体的信息,并且保留水体的完整性,因此最终采用GMNDWI指数来提取河流信息。

利用DEM将研究区的地形划分为平原和山地丘陵两部分。1984年颁布的《土地利用现状调查技术规程》将耕地坡度划分为五个等级[18],地面坡度的不同级别,对耕地利用的影响不同,根据耕地坡度分级,当坡度≤2°时视为平地。坡向决定了植被类型,利用坡向可以区分山地丘陵区的植被类型。根据地球科学辞典里的坡向划分,可分为向阳坡、阴坡、半阳坡、半阴坡。坡度是影响植被类型的另一个重要因素,当坡度>6°时,容易引起水土流失等状况,不适宜耕种,适宜大面积林地生长。

归一化植被指数(NDVI)常被用来衡量植被覆盖度,可用于区分植被与非植被,一般认为当NDVI值大于0.2时有植被覆盖,但是NDVI指数常受土壤背景噪声的影响[19],为此Huete通过引入土壤调节因子来消除土壤背景噪声的干扰,提出了土壤调节植被指数SAVI,如式(4)所示:

式中:b3表示ETM+数据的第3波段,即红光波段;b4表示第4波段,近红外波段;L表示土壤调节因子,介于0~1之间。土壤调节因子L一般选用0.5来减弱土壤背景的差异,目的是在任何土壤背景中求得的植被指数都是相等的,从而消除土壤背景噪声的影响[20]。

非植被覆盖区域主要是建筑用地覆盖区,包括城市、农村居民点、道路交通等。查勇等[21]提出了归一化建筑指数(NDBI),如式(5)所示:

式中:b4是ETM+数据的第4波段,即近红外波段;b5是第5波段,即中红外波段。

3 结果与分析

3.1决策树模型构建

研究区依据地学相关知识,当坡度>2°时属于山地丘陵区,≤2°则为坡缓的平原区。本研究区从338°到22°属于阴坡,其余方向则属于向阳坡或半阳坡。一般情况下林地多分布在山地丘陵地区,普通乔木林一般分布在阳坡,而灌木林则多分布在阴坡,根据坡向可划分灌木林和乔木类林地。当坡度>6°时,适宜种植林木,坡度在2°~6°之间可以种植农作物,利用归一化植被指数NDVI,可以提取山区植被。

研究经过采样和光谱分析得出当8月份的NDVI<0.01时可以较好的划分出范围较大、深度较深的水域,比如湖泊。通过GMNDWI指数更能精确的提取遥感影像上水体的信息,并且保留水体的完整性,当GMNDWI>1.5时能够更好的分离出河流。

当SAVI>0.28时可以区分出植被和非植被覆盖区域。研究区植被覆盖类型主要包括三种:耕地,林地和草地。其中耕地是种植农作物的主要区域,一般是有季节性的大片出现;林地一般分布在山地丘陵区,植被覆盖率较大且成片出现;草地类型在影像中呈零散分布,一般分布在林地或水体附近。农作物主要包括冬小麦、夏玉米等,一般是6月份收割冬小麦随后种植夏玉米、薯类、水稻、大豆等秋收作物,因此在6月份耕地覆盖区域的NDVI值会因为收割而降低,耕地的NDVI值在6月出现一个波谷。但是8月份是植被生长最为旺盛的时期,耕地的NDVI值会很高,可以根据农作物的生长规律,利用8月NDVI和6月NDVI的差值进行分类[7]。通过样本采样和波谱分析得出,当NDVI8- NDVI6>0.2时为耕地。草地和林地在5到9月NDVI值会一直保持比较高的平稳水平,但是林地的NDVI值要普遍高于草地的NDVI值,尤其在六月初林地的覆盖率要明显高于草地的覆盖率,可以利用6月的NDVI区分林地和草地。利用NDBI归一化建筑指数大于-0.26区分建筑用地。

本次研究通过对济宁地区Landsat的ETM+数据做光谱分析得到各类地物类型光谱特征,利用各类比值指数,同时结合DEM数字高程数据和地学的相关知识构建分类决策树提取研究区土地覆盖信息。通过以上综合分析,确定决策树的各分类参数阈值,最终建立分类决策树(见图3)。

图3 济宁市土地覆盖分类决策树Fig.3 L and cover classification decision tree in Jining City

3.2分类结果与精度验证

根据地物类型光谱特征,利用各类比值指数增强遥感信息,结合DEM高程数据以及相关地学知识确定分类参数,构建决策树分类模型,提取研究区土地覆盖信息,最终得到济宁市土地覆盖信息分类结果图(见图4)。

图4 济宁市土地覆盖分类Fig.4 Land cover classification in Jining City

由图4中的土地覆盖信息分类结果中可以看出济宁市的主要土地利用类型是耕地,主要分布在平原地区,占总面积的一半以上。水体资源主要分布在东南地区的南四湖区域,林地、草地分布在东部山地丘陵区,建筑用地分布和城市建设规划一致。

本研究由于研究区面积比较大,地形复杂,不便于进行实地考察,所以利用2.5 m高分辨率的SPOT影像目视解译,对各类地物类型随机选取大量可靠的样本数据用于精度验证。具体过程为:在SPOT影像上对不同类别的地物进行随机选择,作为地表真实感兴趣区,与最终分类结果相匹配,计算生成混淆矩阵,获取精度验证所需要的Kappa系数、总体分类精度等精度验证需要的信息。

对分类结果做误差矩阵分析(见表2),不同地物的分类精度具有差异性,植被类型中耕地和林地的精度比较高,主要是由于耕地林地的分布比较集中,便于采样,而草地分布零散、覆盖率较低,信息采集难度较大。ETM+作为卫星遥感数据本身受外界大气、传感器影像较大,存在一定的混合像元,降低了分类精度。)

表2 决策树分类误差矩阵Table 2 Error matrix of decision tree classification

为了进一步对比决策树分类在精度上的优势,对该研究区影像做最大似然法分类与决策树分类结果作比较(见表3)。受遥感数据本身分辨率和大气的影响,分布比较分散或是受时间影响较大、变化较快的地物的分类精度相比较低,但是相比最大似然法,决策树分类方法明显提高河流、林地、建筑用地等地物的分类精度,kappa系数达到0.8367,总体分类精度由73.2651%提升到86.4903%。

表3 最大似然法与决策树分类法结果比较Table 3 Comparison between maximum likelihood method and decision tree classification method

4 讨论

研究使用的分类方法结合了多种分类参数和数据分析,较之前使用的单一分类方法取得更高的分类精度。但是研究受遥感数据本身分辨率的影响,存在很多混合像元,一些分散的、破碎的地表覆盖分类精度比较低,应该考虑使用高分辨率的数据,重视混合像元处理问题,提高土地覆盖信息的分类精度。分类参数的选择对土地利用分类精度影响比较大,本研究利用光谱分析结合比值指数确定阈值进行分类,由于经验知识有限难以确定阈值,以后研究要重视如何精确阈值范围。

5 结论

通过构建适用于研究区的决策树分类模型,提取济宁市的土地覆盖信息。充分利用ETM+数据的多光谱特征,利用比值指数进行决策树分类,增强地物信息,提高分类精度,利用改进的水体指数可以更好的提取建筑区的水体信息;注重多源数据相结合,利用DEM高程数据提供坡度、坡向等信息完善决策树分类,划分山地平原,进一步提高了分类精度。

利用多源数据和相关地学方面的知识相结合的决策树分类方法的分类精度达到86.49%,kappa系数为0.8367。相比最大似然法的分类结果,分类精度提高了10个百分点,证实本文构建的决策树分类模型可以很好的适用于研究区的土地覆盖信息提取。

参考文献

[1]曾维军,侯明明,杨伟.一种改进的决策树分类方法在土地利用信息提取中的应用[J].贵州大学学报.2013,30(6):39-46

[2]刘忠阳,杜子漩,陈怀亮,等.基于决策树的郑州市土地利用与覆盖分类研究[J].气象与环境科学,2008,31(3):48-53

[3]汪炜,汪云甲,连达军,等.基于决策树分类的某市土地利用变化研究[J].测绘标准化,2011,27(1):4-7

[4]王任华,善宏涛,游先样.人工神经网络在遥感图像森林植被分类中的应用[J].北京林业大学学报,2003,25(4):1-5

[5]杨淑莹,胡军,曹作良.基于图像纹理分析的目标物体识别方法[J].天津理工学院学报,2001,17(4):30-33

[6]游浩辰,许章华,刘健,等.GIS支持下的山区遥感影像决策树分类研究[J].北京联合大学学报,2011,25(1):34-45

[7]巴桑,刘志红,张正健,等.决策树在遥感影像分类中的应用[J].高原山地气象研究,2011,31(2):31-34

[8]那晓东,张树清,孔博,等.基于决策树方法的淡水沼泽湿地信息提取——以三江平原东北部为例[J].遥感技术与应用,2008,23(4):365-372

[9]翁中银,何政伟,于欢.基于决策树分类的地表覆盖遥感信息提取[J].地理空间信息,2012,10(2):110-112

[10]费鲜芸.山东省耕地变化及驱动因子[D].泰安:山东农业大学,2003

[11]王颖.基于NDVI-LST模型的长白山地区植被分类与动态变化研究[D].吉林:东北师范大学,2011

[12]王伟武,张雍雍.城市住区热环境可控影响因素定量分析[J].浙江大学学报,2010,44(12):2348-2353

[13]丁莉东,吴昊,王长健,等.MODIS图像湖泊水体信息的快速识别与制图[J].海洋测绘,2003,26(6):31-34

[14]毕海芸,王思远,曾江源,等.基于TM影像的几种常用水体提取方法的比较和分析[J].遥感信息,2012,27(5):77-82

[15]陈玉兰,罗永明.基于TM/ETM+遥感数据的港口用地动态变化监测[J].气象研究与应用,2009,30(3):60-62

[16]徐涵秋.利用改进的归一化差异水体指数(MNDWI)提取水体信息的研究[J].遥感学报,2005,9(5):589-595

[17]沈占锋,夏列钢,李均力,等.采用高斯归一化水体指数实现遥感影像河流的精确提取[J].中国图像图形学报,2013,18(4):421-428

[18]陈学婧,高敏华.基于GIS的永久性基本农田划定的研究——以新疆昌吉市为例[J].安徽农业科学,2013,41(30):12186-12189

[19]徐涵秋,杜丽萍.遥感建筑用地信息的快速提取[J].地球信息科学学报,2010,12(4):574-579

[20]徐涵秋.基于谱间特征和归一化指数分析的城市建筑用地信息提取[J].地理研究,2005,24(2):311-321

[21]查勇,倪绍祥,杨山.一种利用TM图像自动提取城镇用地信息的有效方法[J].遥感学报,2000,55(6):671-678

Study on Soil Cover Information Extraction Based on Decision Tree Classification

YAO Bei-bei1,DUAN De-hong2*

1. College of Geomatics and Engineering/Shandong University of Science and Technology,Qingdao 266590,China
2. Department of Science and Technology/Shandong University of Science and Technology,Qingdao 266590,China

Abstract:To get a lot of information from land cover extraction at a convenience,celerity and accuracy,this paper fully used the characteristics of ETM + multispectral data,the DEM elevation information and the relevant knowledge about a slope,orientation etc. combining with each index of NDVI,NDWI,SAVI,NDBI to establish the decision tree model of land cover information extraction and verify its precision. The result showed that it was suitable enough for the extraction of land cover information and its precision wet up to 86.49%,the Kappa coefficient was 0.8367.

Keywords:Soil cover;ETM+;decision tree classification;information extraction

中图法分类号:S159.2

文献标识码:A

文章编号:1000-2324(2016)03-0372-06

收稿日期:2016-02-16修回日期:2016-04-18

基金项目:山东省优秀中青年科学家奖励基金(2011BSB01500)

作者简介:姚蓓蓓(1987-),女,在读硕士,主要从事定量遥感研究. E-mail:taianluckybb@sina.com

*通讯作者:Author for correspondence. E-mail:duandh@foxmail.com

猜你喜欢
信息提取
建筑电气设计中BIM技术的应用研究
基于Clang的AST提取结构体数据库插件的实现
改正通告检查中若干问题的分析研究
改正通告检查中若干问题的分析研究
改正通告检查中若干问题的分析研究
改正通告检查中若干问题的分析研究
基于ICA面向对象的耕地信息提取
享游景区服务系统的开发和研究
Excel函数在学生日常管理中的应用
基于遥感数据的雾物理属性信息提取