基于遥感影像和二类调查数据的林地类型分类方法对比研究
——以广西凭祥市为例

2017-09-15 09:39张乃静侯瑞霞
林业资源管理 2017年4期
关键词:决策树林地神经网络

张乃静,侯瑞霞,纪 平

(中国林业科学研究院资源信息研究所,北京 100091)

基于遥感影像和二类调查数据的林地类型分类方法对比研究
——以广西凭祥市为例

张乃静,侯瑞霞,纪 平

(中国林业科学研究院资源信息研究所,北京 100091)

基于Landsat 8 OLI遥感影像和森林资源二类调查数据,对有林地、灌木林地、未成林地和非林地等林地类型,分别采用最大似然、神经网络、支持向量机和决策树分类方法进行分类,验证分类精度,并对分类效果进行对比评价。结果表明:支持向量机分类方法表现最好,分类精度为78.7%,Kappa系数为0.76;其次为神经网络和决策树分类方法,分类精度分别为76.8%和72.5%,Kappa系数分别为0.72和0.68;最大似然法表现最差,分类精度为44.9%,Kappa系数为0.39。研究结果可为森林资源信息的快速提取提供理论依据。

遥感;二类调查;分类

0 引言

林地类型是评价某一地区森林状况的重要因素,密切影响着森林蓄积、森林生物量和景观格局等。传统林地类型调查工作中需要人工调查的项目多,工作繁琐,费时费力。随着航空技术的发展,遥感分类技术越来越多得应用在森林资源调查中,大幅提高了林地分类的效率,改善了森林资源管理水平,遥感分类技术已成为林业资源调查和监测的重要途径[1]。

利用遥感影像进行林地类型分类一直是国内外研究热点之一,近年来,许多国内外学者基于不同的遥感数据源,以遥感技术为手段,在宏观和微观不同的尺度范围上对森林植被进行了空间分类提取研究,同时,构建了面向不同数据源、不同提取精度的方法体系。Shao等[2]使用改进型的非监督分类对美国中东部小区域的乔木林进行Landsat 5遥感分类,取得了理想的结果;胡海清等[3]基于Landsat 7遥感图像对大兴安岭地面可燃植被进行分类研究中发现最大似然法对某些林型的遥感分类有效,而对个别林型分类的精度较低;朱清苗[4]和刘旭生等[5]利用Landsat 7遥感影像分别对南京中山陵和内蒙古中部林地进行分类研究,结果表明神经网络法是一种有效可靠的分类方法,其分类精度优于最大似然法,而最大似然法不适用地物类型的详细划分;任琼等[6]以生态公益林为研究对象,进行IKONOS遥感分类方法研究,表明支持向量机法分类精度较高(75.4%),而最大似然法优于神经网络法;齐乐[7]和韩婷婷[8]等使用决策树方法,结合DEM高程模型、光谱信息和植被指数等特征数据,对云南省地物类型进行Landsat 5遥感分类,表明决策树方法分类精度优于最大似然等监督分类方法,可应用与大面积地物类型的遥感分类,且有进一步的改进空间。通过以上对前人研究的总结可以发现,遥感分类过程中,所使用的分类方法在不同区域、对象或遥感影像来源的分类研究中表现出的性能可能不同,因此有必要在相同条件下对不同的遥感分类方法进行对比研究,以便找出适合研究区地物分类的方法。

本研究以广西省凭祥市为例,基于Landsat 8 OLI遥感影像,以森林资源二类调查数据作为分类依据和验证数据,利用监督分类(最大似然、神经网络、支持向量机)和决策树分类方法对研究区林地类型分类,并进行精度验证和效果评价,在相同条件下对比几种分类方法的优劣,为实现遥感和地面监测的森林经理数据集成,以及林业科学数据平台森林资源信息的快速提取提供理论依据。

1 研究区概况与数据来源

1.1 研究区自然概况

研究区位于广西凭祥市(21°57′47″~22°19′27″N,106°39′50″~106°59′30″E),属于中国林业科学院热带林业实验中心实验地,与越南接壤。研究区地带性植被是季雨林,此外,常绿阔叶林分布在海拔700m以上的区域,是季雨林的一个垂直带谱。研究区内主要的植物有:人面子(DracontomelonmacrocarpumH.L.Li)、乌榄(CanariumpimelaLeenh.)、箭毒木(AntiaristoxicariaLesch.)、八宝树(Duabangagrandiflora(Roxb.ex DC.) Walp.)、拟肉豆蔻(KnemaguangxiensisS.L.Mo et X.W.Wei)、风吹楠(Horsfieldiaamygdalina(Wallich) Warburg)和榄类植被等,这些植物生长在海拔400m以下区域。现有的原生植被森林中,热带雨林标志景观较为常见,例如乔木板状根、老茎生花、附生植物和藤本植物等。人工植被以马尾松(PinusmassonianaLamb.)和杉木为主,其次是湿地松(PinuselliottiiEngelmann)、壳菜果(MytilarialaosensisLec.)、西桦(BetulaalnoidesBuch.-Ham.ex D.Don)、石梓(GmelinachinensisBenth.)、八角(IlliciumverumHook.f.)和红椎(CastanopsishystrixMiq.)等。灌木树种主要是盐肤木(RhuschinensisMill.)、余甘子(PhyllanthusemblicaL.)、桃金娘(Rhodomyrtustomentosa(Ait.) Hassk.)、野牡丹(MelastomamalabathricumLinnaeus)和多苞藤春(AlphonseasquamosaFinet et Gagnep.)等,草本主要有金猫尾(SaccharumfallaxBalansa)、毛秆野古草(Arundinellahirta(Thunb.) Tanaka)、细毛鸭嘴草(IschaemumciliareRetzius)、五节芒(Miscanthusfloridulus(Lab.) Warb.ex Schum et Laut.)和蔓生莠竹(Microstegiumfasciculatum(Linnaeus) Henrard)等。

1.2 数据收集与分析

本研究收集了2014年研究区Landsat 8 OLI遥感影像(图1),遥感卫星过境时间分别是2014年9月25日、10月11日和12月30日,条带号为126/45。其中9月和10月拍摄影像期间研究区有少量云存在,不利于信息提取,所以本研究使用的遥感图像拍摄时间为12月30日,该图像云量少,林相色彩变化大,有利于光谱信息的提取。数据采用UTM WGS-84投影,L1T级标准产品。波段1—7和波段9为多光谱波段,这8个波段遥感图像的空间分辨率为30m。波段8为全色波段,该波段的空间分辨率为15m,由于波段1为深蓝波段,用于观测海岸带的气溶胶,波段9为短波波段,用于观测卷云,所以本研究不考虑这3个波段,只研究与林地类型分类相关的2—7波段。

同时还收集了研究区2014年二类调查小班数据及矢量文件,包含小班5 631个,主要土地类型包括乔木林、灌木林、竹林、未成林地和无林地等5种土地类型。所有数据来源于林业科学数据中心(http://www.forestdata.cn)。研究使用软件为ENVI 5.1,ArcGIS 9.2。

图1 研究区位置

2 研究方法

2.1 林地类型划分

林地类型的划分是森林资源调查和监测的基础。结合遥感技术特点和研究区二类调查数据的实际情况,将研究区森林资源中的地类划分为4个一级类型,即有林地、灌木林地、未成林地和非林地,有林地划分为乔木林和竹林2个二级类型,乔木林划分为纯林和混交林2个三级类型,非林地不是本研究的重点,仅划分为水体、建筑和农田3个类型。具体划分参见图2。

2.2 遥感数据预处理

使用的Landsat 8 OLI数据已经进行过辐射校正和几何粗校正,除此之外还需要对影像进行辐射定标、大气校正、几何校正和裁剪等处理。如图3所示,首先,对数据进行辐射定标,利用Landsat8 OLI定标线性模型对各波段的辐射亮度值进行求解,将图像的象元灰度值(DN)转化为辐射亮度值,然后采用ENVI中的FLAASH工具进行大气校正,得到地表反射率,主要的输入参数包括成像日期及时间、中心经纬度、海拔高度、大气模型、气溶胶模型和初始能见度等。最后利用研究区地形图作为基准数据,通过选取道路和河流等交叉点来对Landsat影像进行几何校正。根据研究区GIS矢量文件对遥感影像进行裁剪,得到研究区遥感图像。

图2 林地分类系统图

图3 遥感数据预处理流程图

2.3 遥感分类方法

遥感分类是根据像元的灰度信息以及其它空间特征,判断地物类别的过程。根据求解判别函数是否利用了类别的先验知识,可将分类方法归结为监督分类法(Supervised Classification)、非监督分类法(Unsupervised Classification)和基于知识的决策树分类(Decision Tree Classification)[9]。本研究采用监督分类(最大似然、神经网络、支持向量机)和决策树分类方法对研究区林地类型进行分类。

2.3.1 非监督分类

非监督分类不需要对样本进行训练,也无需先验知识。该分类方法中心思想是根据遥感图像中地物的光谱特征或纹理各不相同,提取这些特征信息,通过统计分析这些信息的差别,最后查找、定义多个光谱特征相似的类别,达到分类的目的。常用非监督分类方式有K-Means和ISO-DATA两种方法[10-11]。本研究中决策树分类部分涉及了ISO-DATA方法,其理论参见相关参考文献。

2.3.2 监督分类

监督分类的思想是根据先验知识确定判别函数和相应的判别准则,其中利用一定数量已知类别的样本观测值来确定判别函数中待定参数的过程称之为学习或训练,通过选择特征参数,建立判别函数或模型。然后依据样本类别的特征来识别非样本像元,将未知类别的样本特征代入判别函数或模型,再依据判别准则对该样本的所属类别做出判定[12]。本研究将森林资源二类调查矢量数据与遥感图像进行叠加,经过人工判读和图像可分离性分析,提取与上述4类林地类型相对应的训练样本数据,分别采用监督分类中的最大似然、神经网络和支持向量机分类方法进行分类,得到分类影像,然后执行分类后处理,将“小斑”聚类到周围的大类中,得到分类图像。最大似然、神经网络和支持向量机分类理论参见其他参考文献[13-15]。

2.3.3 决策树分类

决策树分类方法是首先对遥感图像进行波段组合、计算等预处理后,对遥感图像进行再次组合,获取遥感图像各层次中地物类型的光谱特征、纹理、植被指数等因子,然后对各地物类型的特征数据进行统计归类,制定一系列的分类规则,最终进行遥感分类的方法[16]。该方法分为决策树分类规则的制定和决策树分类执行两个步骤,决策树规则的制定是分析研究区地物的基本组成,利用先验知识,对无规则的样本数据进行统计、推理和归纳,得到边与节点构成的分类树结构,即决策树分类规则,该步骤实际是机器学习的过程。利用决策树分类规则对遥感图像进行分类,就是决策树分类的步骤。由此可见决策树规则的制定是决策树分类的重点,影响着决策树分类的质量。

本研究首先利用Landsat 8 OLI遥感数据分别计算归一化植被指数(NDVI)和增强植被指数(EVI),生成NDVI和EVI影像,公式如下:

式中:NIR表示近红外波段;R表示红光波段;B表示蓝光波段。

然后对遥感影像进行ISO-DATA分类,将最小地物类别设定为5类、最大地物类别设定为10类、分类算法迭代次数设定为10次,进行分类后生成ISO-DATA分类结果。

最后将Landsat 8 OLI遥感数据中的band2,band3,band4,band5,NDVI,EVI,ISODATA和研究区数字高程模型(DEM)叠加生成新的数据文件,作为决策树分类的特征数据,通过分类回归树算法从样本中获取节点分类规则,建立分类模型生成初步分类结果,进行“小斑”处理后,生成决策树分类结果图像。

2.3.4 分类结果评价和精度验证

采用混淆矩阵(Confusion Matrix)方法对分类结果进行精度评价,以研究区森林资源二类调查矢量文件作为地表实况信息,对分类结果进行评价,建立混淆矩阵,计算总体分类精度和各地物的分类精度,以及Kappa系数,Kappa系数的大小可以反映不同土地类型和分类结果与真实地物空间分布的一致性。当Kappa系数小于0.4时,说明一致性不理想;当Kappa系数介于0.40~0.75时,说明二者一致性一般;当Kappa系数大于0.75时,说明二者具有很好的一致性[17]。

3 研究结果

3.1 监督分类结果

从使用最大似然方法对遥感数据进行林地类型分类的混淆矩阵结果(表1)中可以看出,纯林识别正确率(66.32%)最大,其次是水体、建筑、农田、灌木、未成林地、混交林,竹林识别正确率最小,仅1.79%,原因是由于研究区内竹林分布面积较小,参与训练的数量不足,导致分类精度低。林业用地与非林地区分较好,其他分类效果不佳,Kappa系数仅0.39,分类结果与真实地物空间分布的一致性不理想,分类图如图4(a)所示。其原因是最大似然法注重遥感影像像素亮度的相似性,而忽略像素之间的联系,导致了几种林地类型分类精度较低。

表1 最大似然监督分类混淆矩阵

神经网络监督分类混淆矩阵如表2所示,水体、建筑和农田等非林地由于光谱特征明显,分类精度较高,均达到了95%以上,乔木林(纯林+混交林)分类精度同样较好(>95%),在对纯林进行分类时,精度为51.27%,近48.31%的像素被错误识别为混交林;混交林分类精度为83.73%,灌木林和未成林地分类精度较低,竹林识别精度为0,原因与上文描述相同。整体分类精度为76.79%,Kappa系数为0.72,分类结果与真实地物空间分布的一致性一般,分类图如图4(b)所示。

支持向量机监督分类混淆矩阵如表3所示,乔木林(纯林+混交林)分类精度较好(约90%),非林地由于光谱特征便于区分,分类精度最高(>90%),相比之下,混交林、灌木林、未成林地分类精度较低,竹林依然未识别。分类总体精度为78.70%,Kappa系数为0.76,分类结果与真实地物空间分布的一致性较好,分类图如图4(c)所示。

表2 神经网络监督分类混淆矩阵

表3 支持向量机监督分类混淆矩阵

3.2 基于光谱信息和植被指数的决策树分类结果

使用基于光谱信息和植被指数的决策树对遥感数据进行林地类型分类的混淆矩阵结果如表4所示,林业用地和非林地之间的分类结果较好,但林业用地内部分类精度不高,最高仅为68.65%(纯林),其次为混交林(67.63%)、灌木(29.41%)和未成林地(28.80%),竹林未识别。分类总体精度为72.50%,Kappa系数为0.68,分类结果与真实地物空间分布的一致性一般,分类图如图4(d)所示。

表4 决策树分类混淆矩阵

3.3 分类方法比较

各林地类型的分类精度如表5所示,支持向量机对纯林的分类精度最好(81.25%),神经网络对混交林的分类精度最好(83.73%),而所有的方法对灌木、未成林地的分类精度不高,由于训练数据的不足,导致了竹林无法识别。相比之下,除最大似然法以外,其它3种方法对非林地的识别精度均较高,原因是水体、建筑和农田的光谱信息与森林植被差别明显,易于识别。通过总体精度和Kappa系数来看,分类精度支持向量机最好,其次为神经网络和决策树,最大似然法最差。

表5 各林地类型的分类精度

图4 研究区林地类型分类图

4 结论

1) 基于Landsat 8 OLI遥感数据,使用最大似然法、神经网络法、支持向量机法和决策树法对林地类型进行分类,经过对几种方法分类结果的对比,支持向量机法具有一定的优势,是一种有效的遥感影像分类方法,其次分别为神经网络法、决策树法和最大似然法。

2) 遥感分类过程中,训练数据的选择对分类结果影响较大,例如本研究的分类方法对竹林无法进行识别,因为研究区内竹林分布面积小,且零散分布,Landsat 8 OLI影像最小分辨率为30m,竹林反映在影像中像素数量较少,所以在分类时,训练区难以选择,导致训练数据不足,分类结果较差。如何提高较少训练样本数据的地物分类精度需要进行更为深入的研究。

3) 根据前人研究,选择了分类效果较好的决策树分类方法,但在本研究中表现不佳。其原因可能是决策树分类方法对于从影像数据中获取的先验知识依赖性较大,数据集层次越多,决策树的建立难度越大,如何构建有效的决策树,提高决策树分类精度是需要进一步研究的问题。对于遥感分类研究,除光谱信息及其计算的植被指数外,纹理特征和几何特征也是影像的重要特征,这些信息可能会有利于分类精度的提升,因此值得进行下一步深入的研究。

4) 遥感林地类型分类是一个复杂的过程。本研究对比了4种常见的分类方法的优劣,但实际应用中,除了分类方法,分类过程中特征信息的提取也是影响分类精度的重要因素,分类特征需要着重考虑到林地植被覆盖的特点和精度等信息,所以分类特征的选择与提取也是一个值得深入研究的课题。

5) 基于遥感影像和二类调查数据,对林地类型分类方法对比的研究可以为实现遥感和地面监测的森林经理数据集成和林业科学数据平台森林资源信息的快速提取提供理论依据。

[1]张超,王妍.森林类型遥感分类研究进展[J].西南林学院学报,2010(6):83-89.

[2]Shao G,Pauli B P,Haulton G S,et al.Mapping hardwood forests through a two-stage unsupervised classification by integrating Landsat Thematic Mapper and forest inventory data[J].Journal of Applied Remote Sensing,2014,8(1):83546.

[3]胡海清,张喆,吴学伟.基于遥感的塔河林业局森林可燃物类型划分[J].东北林业大学学报,2007,35(7):20-21.

[4]朱清苗.神经元网络在中山陵景区林业土地分类中的应用[D].南京:南京林业大学,2004.

[5]刘旭升,张晓丽.基于BP神经网络的森林植被遥感分类研究[J].林业资源管理,2005(1):51-54.

[6]任琼,江洪,陈健,等.基于支持向量机的生态公益林遥感分类研究[J].林业资源管理,2009(1):107-113.

[7]齐乐,岳彩荣.基于CART决策树方法的遥感影像分类[J].林业调查规划,2011,36(2):62-66.

[8]韩婷婷,习晓环,王成,等.基于决策树方法的云南省森林分类研究[J].遥感技术与应用,2014,29(5):744-751.

[9]张雷.基于3S技术的滇池流域土地利用变化研究[D].昆明:昆明理工大学,2012.

[10]王慧贤,靳惠佳,王娇龙,等.K均值聚类引导的遥感影像多尺度分割优化方法[J].测绘学报,2015(5):526-532.

[11]沈照庆,舒宁,龚衍,等.基于改进模糊ISODATA算法的遥感影像非监督聚类研究[J].遥感信息,2008(5):28-32.

[12]张振华.区域地质环境遥感调查数据分析及应用研究[D].北京:中国地质大学,2009.

[13]陈敬柱,贺瑞霞,郭恒亮.最大似然法在植被信息识别提取中的应用[J].水文地质工程地质,2004(2):94-96.

[14]惠文华.基于支持向量机的遥感图像分类方法[J].地球科学与环境学报,2006(2):93-95.

[15]杨希,王鹏.基于BP神经网络的高分辨率遥感影像分类[J].测绘,2011,34(3):115-118.

[16]申文明,王文杰,罗海江,等.基于决策树分类技术的遥感影像分类方法研究[J].遥感技术与应用,2007(3):333-338.

[17]王敏,高新华,陈思宇,等.基于Landsat 8遥感影像的土地利用分类研究——以四川省红原县安曲示范区为例[J].草业科学,2015(5):694-701.

Study on Classification Methods Based on Remote Sensing Image and Forest Resources Management Survey Data—Take Pingxiang,Guangxi Autonamous Region as an Example

ZHANG Naijing,HOU Ruixia,JI Ping

(ResearchInstituteofForestResourceInformationTechniques,ChineseAcademyofForestry,Beijing100091,China)

Based on Landsat-8 image and forest resources management survey data,different forest land types were classified by maximum likelihood classification (ML),neural net classification (NN),support vector machine classification (SVM) and decision tree classification (DT) methods,and then the precisions (P) of classifications were verified,and the performances of classifications were evaluated correlatively.The results show that the best performance was SVM (P=78.7%,Kappa=0.76),and the followings were NN (P=76.8%,Kappa=0.72) and DT (P=72.5%,Kappa=0.68),and the worst was ML (P=44.9%,Kappa=0.39).These results provide a theory basis for the rapid extraction of forest resources information of forestry science data platform.

remote sensing,forest resources management survey,classification

2017-05-02;

2017-07-05

中央级公益性科研院所基本科研业务费专项(CAFYBB2017SZ006);国家国际科技合作专项项目(2014DFG32140)

张乃静(1982-),女,天津人,助理研究员,博士,研究方向为数据挖掘、信息系统与信息共享。 Email:zhangnaijing@ifrit.ac.cn

纪平(1964-),女,天津人,硕士,研究员,研究方向为数据挖掘、信息系统与信息共享。Email:jiping@ifrit.ac.cn

S758;S771.8

A

1002-6622(2017)04-0089-08

10.13466/j.cnki.lyzygl.2017.04.014

猜你喜欢
决策树林地神经网络
神经网络抑制无线通信干扰探究
一种针对不均衡数据集的SVM决策树算法
基于神经网络的中小学生情感分析
决策树和随机森林方法在管理决策中的应用
林地年度变更动态变化分析——以灯塔市为例
丹东市林地分类研究
基于决策树的出租车乘客出行目的识别
基于神经网络的拉矫机控制模型建立
基于肺癌CT的决策树模型在肺癌诊断中的应用
基于支持向量机回归和RBF神经网络的PID整定