基于不同植被指数和分类回归树的关中地区土地利用分类

2018-04-11 07:12马孝义邢旭光
水土保持研究 2018年3期
关键词:关中地区植被指数土地利用

张 盼, 马孝义, 赵 龙, 邢旭光

(1.西北农林科技大学 水利与建筑工程学院, 陕西 杨陵712100; 2.西北农林科技大学 机械与电子工程学院, 陕西 杨陵712100)

土地利用是人类对土地进行的使用、保护和改造活动,反映了人类社会的发展,影响全球生态环境的变化。土地利用的分类研究对土地资源利用结构的规划和调整、生态环境的平衡和保护有着重要的作用。近年来,遥感技术以其时效高、范围广和成本低等优点而广泛地应用于对地观测活动中,对及时准确地获取土地利用信息具有重要的意义[1-3]。

目前遥感数据具有不同时间、空间和光谱分辨率的产品。但是空间高分辨率的数据,由于回访周期长,对作物关键物候期的描述不足,且幅宽小,限制了数据在大范围中的应用。MODIS数据为中空间分辨率,但是由于其回访周期短,幅宽大,光谱波段范围广而广泛运用于较大尺度地区的土地利用信息的获取[4-5]。Muchoney等[6]和刘建光等[5]利用MODIS影像分别对美国中部和北京市进行土地覆被分类;许青云等[7]基于陕西省多年时序的MODIS数有效地识别大尺度农作物信息。植被指数可以反映植被的生长状况,是植被生长状态和空间分布密度的指示因子[8-9],具有时间序列的植被指数可以反映植被的物候特征,常常作为不同植被和农作物分类的依据。Wardlow等[4]和Damien等[10]分别MODIS/NDVI和MODIS/EVI时间序列进行作物分布信息的提取;何超英等[11]指出在单季相Landsat影像分类时引入MODIS/NDVI时间序列能有效地解决耕地与其他类型混分的问题;白文龙[12]基于逐旬的NDVI数据采用最大似然法实现了关中地区土地利用分类;周玉洁等[13]基于MODIS/EVI时间序列数据,基于谐波分析法和线性光谱模型对关中地区的耕地信息进行提取;贾明明等[14]综合环境卫星和MODIS NDVI时序数据实现了双台子河口土地覆盖分类。但目前不同植被指数对土地利用分类的影响研究较少,左丽君等[15]基于MODIS NDVI和EVI数据在河西走廊绿洲东部样区进行耕地提取试验,表明EVI较NDVI有更强的识别能力。

为了比较不同植被指数时间序列对土地利用分类精度的影响,以及组合植被指数和单一植被指数时间序列分类精度的差异,本研究以关中地区为研究区域,选取应用较多的归一化植被指数(Normalized Difference Vegetation Index,NDVI)和增强型植被指数(Enhanced Vegetation Index,EVI),基于MODIS植被指数产品,采用迭代自组织分析算法与分类回归树算法结合的方法,实现关中地区土地利用分类,并进行空间精度验证和定量精度验证,为大尺度地区土地利用分类及农业信息提取提供一定的参考。

1 研究区概况及数据来源

1.1 研究区概况

关中地区地处33°35′—35°52′N,106°18′—110°38′E,位于陕西省中部,包括西安、咸阳、宝鸡、渭南和铜川五市,东西长约390 km,南北宽约200 km,海拔227~3 772 m,关中北部位于渭北高原南部,南倚秦岭山脉,渭河从中穿过,形成冲积平原。属温带季风性气候,年均温6~13℃,年降水量500~800 mm,其中6—9月份占60%,多为短时暴雨,冬春降水较少,春旱、伏旱频繁。研究区种植猕猴桃、苹果、梨等果树,小麦、玉米等作物,低海拔地区的渭河阶地为一年两熟制,北部黄土台塬区和南部秦岭山地由于海拔较高,灌溉条件差,为一年一熟制[12-13]。

图1 研究区位置及高程

1.2 数据来源

1.2.1植被指数数据集本研究采用NASA USGS提供的植被指数产品MOD13Q1(https:∥lpdaac.usgs.gov),空间分辨率为250 m,时间分辨率为16 d。选取2014年10月1日至2016年3月15日共33个时相的遥感数据,构建NDVI和EVI时间序列曲线。

1.2.2训练及验证数据集利用Google Earth数据,以目视解译为主,结合实地考察的结果,选择具有代表性的样本作为感兴趣区域,尽最大可能覆盖不同果树及不同作物熟制的耕地,将其中一部分作为土地利用分类的训练数据集,一部分作为空间精度的验证数据集。同时,选择由陕西农业网(http:∥www.sxny.gov.cn/)农业统计数据库提供的耕地和果园统计信息作为定量验证数据集。

2 研究方法

2.1 数据预处理

利用MODIS产品批处理工具MRT软件对MOD13Q1数据进行空间拼接、格式和投影转换的处理,输出坐标系为WGS_1984_UTM_Zone_49 N,并根据研究区矢量图进行裁剪,提取归一化植被指数NDVI和增强型植被指数EVI波段,构建植被指数时间序列。

MOD13Q1虽然纠正了分子和气溶胶的影响,但由于云雪覆盖等,仍存在一些噪声,在ENVI/IDL平台中采用Savitzky-Golay滤波法,对植被指数时间序列进行重构。经多次试验,设置平滑窗口半径为3,多项式次数为2效果较好,可准确描述波形和波峰的值,能够满足土地利用分类的要求。由于S-G滤波法存在边缘效应,且考虑到作物的生育期,在2015全年数据的前后分别添加5个时相的数据参与平滑计算,实现时间序列数据的降噪、平滑和重构。

2.2 土地分类系统

根据《土地利用现状分类》国家标准(GB/T21010—2007)两级分类系统,结合本研究区的实际情况,确定研究区土地的5类分类系统,具体如表1所示。

2.3 典型地物植被指数时间序列曲线

根据本文确定的研究区分类系统,结合Google Earth 选择典型地物的感兴趣区,并提取植被指数,计算均值,构建典型地物植被指数时间序列曲线见图2。

由图2可以看出,建设用地及其他和水体植被指数年内变化不大,且水体的NDVI和EVI小于0.2,由于水体对近红外波段的反射率很低,对可见光高反射率,植被指数存在负值;建设用地及其他的植被指数通常大于水体,但NDVI值不大于0.4,EVI值不大于0.3。果园和林草地的植被指数随时间的变化趋势相似,林草地在第15至20时相,即5月24日至8月12日,NDVI值无明显变化,同期EVI依然随时间变化达到峰值后下降;果园在第18至21时相,进入果实生长发育期,NDVI变幅很小,同期EVI值变化微弱。果园的NDVI时间序列和EVI时间序列的峰值都小于林草地,果园分别达0.74,0.52左右,而林草地可达0.86,0.62左右。一年两熟制的耕地植被指数时间序列两个峰值,夏粮作物的峰值在第12时相左右,即4月中旬,秋粮作物的峰值在第19时相左右,即7月下旬;一年一熟制的耕地植被指数只有一个峰值;不同作物由于物候期不同而峰值及其出现的时间有一定的偏差。由此可以看出不同地物的植被指数时间序列存在显著差异。

表1 研究区分类系统

图2 典型地物植被指数时间序列

为了比较单一NDVI,EVI,及组合植被指数用于土地分类的效果差异,分别采用NDVI,EVI,NDVI+EVI组合以及EVI+NDVI组合的时间序列,用于研究区土地利用分类中。

2.4 分类方法

2.4.1ISODATA算法ISODATA算法(Iterative Selforganizing Data Analysis Techniques Algorithm)即迭代自组织数据分析算法,是一种非监督分类方法,通过计算数据空间中均匀分布的类均值,基于输入的阈值参数,用最小距离技术将剩余像元迭代聚集,对判别函数的不断训练和调整、自动进行类别的合并和分裂,实现地物的聚类,具有自组织、启发式的特点[16]。

2.4.2CART算法CART(Classification and Regression Tree)是分类回归决策树构建算法,由Breiman等[17]于1984年提出并不断改进。其基本原理是将训练样本分为预测变量和目标变量数据集,将基尼系数作为选择最佳测试变量和分割阈值的准则,循环二分形成二叉树式的决策树结构,并采用交叉验证的方法进行修剪,最终得到一个最优二叉树,构成地物分类效果最佳的判断条件组合。该算法对输入数据没有任何统计分布的要求,运行速度快、准确性高,且实现简单,结构清晰易于理解[18-19]。该算法以其处理大量数据和高维数据的有效性,被广泛用于土地利用分类及提取中[20],且已有研究表明,利用CART算法进行土地利用分类具有较高精度[5]。

本研究将ISODATA方法与CART方法结合对关中地区土地利用进行分类。基于4种不同植被指数时间序列,根据分类系统和实际地物情形,设置ISODATA最小分类数为5,最大分类数为10,迭代20次,像元变化阈值5%,获得研究区土地利用的聚类结果,并将聚类结果与对应的植被指数时间序列合并,结合Goole Earth提取的训练样本,利用CART算法构建分类决策树,获取分类规则,实现关中地区土地利用分类。

3 结果分析与讨论

3.1 分类结果与分析

土地利用分类结果见图3。

由于本研究采用数据空间分辨率为250 m,且考虑到研究区实际,确定的分类系统仅有5种地类,由于草地多夹杂在林地中,与部分林地难以区分,训练样本获取难度大,将林地与草地划分为一类。基于不同植被指数时间序列的土地利用分类结果见图3。渭河从关中穿过,但分类结果并不存在明显的连续水体,在宝鸡东部和咸阳西部几乎没有水体显示,可能是由于渭河河面宽度较小,且遥感数据为中等分辨率,混合像元的存在导致将其错分为建设用地。分类结果中,建设用地的分布基本与行政中心、城镇建设用地和农村居民点等分布一致。关中中部地区地势平坦,土壤肥沃,农业种植业发展,分类结果显示大面积耕地连续分布,与之相一致,而南部和北部由于海拔较高,地形比较复杂,南部秦岭山区主要是以林地覆盖,北部黄土梁峁和台塬区,由于受地形的限制,耕地破碎,因地制宜地布置林地和果园。4种情形的分类结果基本相同,局部地区耕地和果园面积之间存在差异。在宝鸡南部山区、咸阳西北部,渭南东北部以及铜川地区,基于NDVI时间序列的分类结果中,果园面积明显大于其他几种情形,主要是由于红光通道易饱和,且没有考虑背景土壤噪音的影响,NDVI数据在高植被覆盖率区域具有较低灵敏度[15,21],造成林草地与果园混分;而宝鸡南部山区,基于EVI时间序列的分类结果中,耕地面积明显大于其他几种情形,由于随海拔的上升,植被由茂密的林地逐渐变化为稀疏的植被、草地等,而EVI通过蓝光来修正大气对红光的影响,增加土壤调节参数,减弱了冠层背景与一年一熟制的耕地和果园混分。基于组合和土壤变化对植被指数的影响,可以识别该区域植植被指数的分类结果与单一植被指数分布区域大致相似,在数量上存在一定的偏差,需进一步验证。

图3 基于不同植被指数时间序列土地分类

3.2 分类精度分析

为了更好地评价土地分类精度,从空间和定量两个方面进行精度分析与评价,分别利用混淆矩阵和统计数据进行验证。由于农业是国民经济的基础,农业用地的变化对于农业生产及社会稳定具有重要影响,因此对研究区内的果园和耕地进行重点分析。

3.2.1空间精度分析利用Google Earth数据提取感兴趣区,作为空间精度分析的验证样本,基于ENVI平台计算混淆矩阵,评价分类精度,具体见表2—3所示.

通过基于单一植被指数分类结果的空间精度比较,不难得出:基于NDVI时间序列分类结果的总体精度和Kappa系数均小于EVI的结果;前者耕地的制图精度和用户精度均表现不足,虽然果园的制图精度为100.00%,事实上并不与实际情况完全相同,分类结果中的部分果园实则为林草地和耕地等其他地类,用户精度仍然小于EVI的结果。总体来说,基于EVI的分类结果优于NDVI,总体精度较高,EVI对植被的识别能力高于NDVI,具有更高的提取精度。可见,EVI在覆盖度比较高的地区具有更高的灵敏度。

通过基于组合植被指数分类结果的空间精度比较,可以看出:基于EVI+NDVI时间序列的分类结果,总体精度和Kappa系数大于NDVI+EVI的结果,整体效果较好,可能是由于组合植被指数增加了地类信息,不同类别之间的判别条件更为丰富,构建的决策树结点更多,从根结点出发可以通过多条路径达到达每一种地类的叶结点,实现分类,准确性更高;前者耕地的制图精度和用户精度均小于后者,果园的制图精度小于后者,用户精度却大于后者,并不能体现对耕地和果园的提取效果差异,需要进一步利用统计数据进行定量精度评价。

表2 基于单一植被指数土地分类的空间精度比较

注:括号外为基于NDVI时间序列土地分类的混淆矩阵,括号内为基于EVI时间序列土地分类的混淆矩阵。

表3 基于组合植被指数土地分类空间精度比较

注:括号外为基于NDVI+EVI时间序列土地分类的混淆矩阵,括号内为基于EVI+NDVI时间序列土地分类的混淆矩阵。

综合表2和表3的内容可知:在以上4种分类情形中,总体精度均超过96%,Kappa系数均超过0.94,分类结果可靠,本研究采用的分类方法可行,且精度存在EVI+NDVI>NDVI+EVI >EVI >NDVI的规律,组合植被指数的分类结果优于单一植被指数,但差别不大。

3.2.2定量精度分析利用混淆矩阵评价分类结果的空间精度,局限于感兴趣区的选择,易受人为因素干扰,并不能全面反映其精度,故利用统计数据再进行定量精度评价。由于农业用地是人类重要的食物来源,且受人类活动影响显著,故对农业用地进行重点分析,提取各地市的农业用地,包括耕地和果园。为避免各个区域分类结果精度差异的影响,不仅比较关中地区提取面积与统计面积的大小,且根据行政区的划分,比较各地市二者的差异,以提高精度评价的科学性。

表4 耕地提取定量精度评价

对4种情形的分类结果进行西安、铜川、宝鸡、咸阳和渭南五市以及关中地区的耕地的提取(表4),在各个地市耕地的提取面积均大于统计数据,可能是混合像元及一年一熟耕地与一年生草本植物和果树混分存在导致。利用EVI时间序列进行耕地提取时的表现优于NDVI,具有较高的精度,对耕地的具有更高的识别能力;组合植被指数的提取精度,较单一植被指数时间序列的分类结果更高,各个地市虽存在差异,但除铜川地区外,基于EVI+NDVI时间序列的提取精度均为最高。在整个关中地区,基于EVI+NDVI时间序列的提取精度为89.36%,较单一NDVI和EVI时间序列提取精度分别提高11.74%和10.16%,较NDVI+EVI时间序列提取精度提高8.65%。在铜川地区,基于EVI时间序列的提取结果与统计数据一致性最高,达90.36%,组合植被指数在铜川并没有精度优势,可能是由于铜川地区地形复杂,土地利用类型较为破碎,植被复杂影响分类精度。

对4种情形的分类结果进行关中地区以及西安、铜川、宝鸡、咸阳和渭南五市的果园的提取(表5),各地市果园的提取面积基本上都大于统计数据,缘于果园与林地及秋粮作物在某些生长阶段植被指数时间序列曲线具有相似性,造成混分,仅在铜川地区,基于组合植被指数时间序列的提取结果小于统计数据,基于组合植被指数的决策树可能存在过度拟合,且连续面积小和混合像元的问题而造成漏分。关中地区基于EVI+NDVI时间序列的果园提取精度最高,达65.47%,较基于单一NDVI和EVI时间序列的提取精度分别提高24.69%和17.12%,较NDVI+EVI组合的时间序列提取精度提高0.75%;由于铜川地区的提取面积小于统计数据,剔除铜川果园面积后,基于NDVI+EVI时间序列的提取精度为67.87%,比EVI+NDVI时间序列的提取精度68.62%低0.75%,差异并不明显。由此说明EVI对果园的识别能力优于NDVI,在进行分类时,组合植被指数的提取精度高于单一植被指数,且EVI优先时精度更高。

表5 果园提取定量精度评价

综合空间和定量精度分析可知:在4种情形的分类结果中,基于单一EVI时间序列土地利用分类精度和农业用地提取精度优于NDVI;组合植被指数在土地利用分类和农业用地的提取中表现优于单一植被指数,且EVI优先时,精度最高。

3.3 讨 论

本研究基于不同植被指数,采用ISODATA与CART结合的方法,实现了关中地区的土地利用分类,结果精度较好,与白文龙[12]采用的最大似然法相比,总体精度提高9%以上,Kappa系数提高0.10以上。同时建立的分类决策树可以直接用于该地区其他气候未发生特别重大变化、各地类植被指数变化不显著的年份的土地利用分类中,为研究年际间土地利用变化提供快速、便捷、有效的分类方法。

基于不同的植被指数时间序列的分类结果精度均较高,但是水体的制图精度和用户精度较低,与建设用地及其他存在混分问题,可以考虑结合归一化水体指数和归一化建筑指数,以通过增加分类依据来提高其分类精度。虽然MODIS数据幅宽大,可以用于大尺度地区土地利用分类中,具有较高的时间分辨率,但是空间分辨率为250 m,属中等分辨率遥感数据,混合像元现象显著,在今后的研究中,可进行混合像元分解提高分类精度,或与其他类型的高空间分辨率遥感数据融合,兼顾幅宽问题的同时又提高空间分辨率,可提高分类的精度。本文采用的MODIS陆地3级产品,时间分辨率为16 d,若采用更高时间分辨率的产品,可获取更多的物候信息,在进行土地覆被分类或者农作物提取时,提供更多的分类依据。对比关中地区五市的分类精度,铜川地区分类精度较低,可能与土地利用类型的破碎程度有关,在今后的工作中可以进一步探究。

4 结 论

(1) 4种情形分类结果与实际情况较为一致,精度较好,本研究方法适用于关中地区土地利用分类;

(2) EVI引入蓝光修正大气对红光的影响,解决了红光通道易饱和的问题,且考虑冠层背景和土壤变化对植被的影响,在进行土地分类时,对植被的识别能力大于NDVI,能较好地反映植被情况;

(3) 利用组合植被指数进行土地利用分类,与单一植被指数相比,构建决策树时不同地类之间判别依据更多,分类规则准确性更高,且EVI优先时能获得更高的精度。

参考文献:

[1]马玥,姜琦刚,孟治国,等.基于随机森林算法的农耕区土地利用分类研究[J].农业机械学报,2016,47(1):297-303.

[2]林楠,姜琦刚,杨佳佳,等.基于资源一号02C高分辨率数据的农业区土地利用分类[J].农业机械学报,2015,46(1):278-284.

[3]宋富强,康慕谊,郑壮丽,等.陕北黄土高原地区土地利用/覆被分类及验证[J].农业工程学报,2011,27(3):316-324.

[4]Wardlow B D, Egbert S L. Large-area crop mapping using time-series MODIS 250 m NDVI data:An assessment for the U. S. Central Great Plains[J]. Remote Sensing of Environment, 2008,112(3):1096-1116.

[5]刘建光,李红,孙丹峰,等. MODIS土地利用/覆被多时相多光谱决策树分类[J].农业工程学报,2010,26(10):312-318.

[6]Muchoney D, Borak J, Chi H, et al. Application of the MODIS global supervised classification model to vegetation and land cover mapping of Central America. [J]. International Journal of Remote Sensing, 2000,21(6/7):1115-1138.

[7]许青云,杨贵军,龙慧灵,等.基于MODISNDVI多年时序数据的农作物种植识别[J].农业工程学报,2014,30(11):134-144.

[8]田庆久,闵祥军.植被指数研究进展[J].地球科学进展,1998,13(4):327-333.

[9]李鑫川,徐新刚,王纪华,等.基于时间序列环境卫星影像的作物分类识别[J].农业工程学报,2013,29(2):169-176.

[10]Damien Arvor, Milton Jonathan, Vincent Dubreuil, et al. Classification of MODIS EVI time series for crop mapping in the state of Mato Grosso, Brazil[J]. International Journal of Remote Sensing, 2011,32(22):7847-7871.

[11]何超英,廖安平,陈志刚,等. NDVI时间序列在全球耕地提取中的应用[J].地理信息世界,2013(2):66-69.

[12]白文龙.关中地区植被覆盖变化及其主要驱动因子分析[D].西安:陕西师范大学,2013.

[13]周玉洁,王卷乐,郭海会.基于谐波分析法和线性光谱模型的耕地信息提取[J].遥感技术与应用,2015,30(4):706-713.

[14]贾明明,王宗明,张柏,等.综合环境卫星与MODIS数据的面向对象土地覆盖分类方法[J].武汉大学学报:信息科学版,2014,39(3):305-310.

[15]左丽君,张增祥,董婷婷,等. MODIS/NDVI和MODIS/EVI在耕地信息提取中的应用及对比分析[J].农业工程学报,2008,24(3):167-172.

[16]王瀚征.基于非监督分类与决策树相结合的30 m分辨率土地利用遥感反演研究[D].石家庄:河北师范大学,2016.

[17]Breiman L, Friedman J H, Olshen R A, et al. Classification and Regression Trees[M]. California:Wadsworth International Group, 1984:1-358.

[18]赵萍,傅云飞,郑刘根,等.基于分类回归树分析的遥感影像土地利用/覆被分类研究[J].遥感学报,2005,9(6):708-716.

[19]Yohannes Y, Hoddinott J. Classification and Regression Trees:an Introduction[M]. Washington D C:International Food Policy Research Institute, 1999.

[20]于文婧,刘晓娜,孙丹峰,等.基于HJ-CCD数据和决策树法的干旱半干旱灌区土地利用分类[J].农业工程学报,2016,32(2):212-219.

[21]王正兴,刘闯,HUETE Alfredo.植被指数研究进展:从AVHRR-NDVI到MODIS-EVI[J].生态学报,2003,23(5):979-987.

猜你喜欢
关中地区植被指数土地利用
羽翼与转化:朱子学在关中地区的接受和传播
土地利用变化与大气污染物的相关性研究
基于无人机图像的草地植被盖度估算方法比较
冬小麦SPAD值无人机可见光和多光谱植被指数结合估算
基于植被指数选择算法和决策树的生态系统识别
Synaptic aging disrupts synaptic morphology and function in cerebellar Purkinje cells
陕西关中地区民间刺绣的色彩差异性分析——以东府为例
土地利用规划的环境影响评价
土地利用生态系统服务研究进展及启示
谈陕西关中地区土葬与风水的农业基础