基于Landsat 8 影像的南京市紫金山风景林区树种分类研究

2022-04-08 06:07孙玉琳
国土与自然资源研究 2022年3期
关键词:紫金山植被指数分类器

孙玉琳,潘 洁

(南京林业大学 林学院,江苏 南京 210037)

森林是全球陆地生态系统最重要的组成部分之一,约占地球陆地面积的三分之一[1]。城市森林在改善景观美感,为野生生物提供栖息地,减少水和空气污染以及改善城市环境方面起着重要作用。传统的森林资源调查方法主要包括野外实地调查和利用大比例尺的航片进行判读,这种调查方式需要耗费大量的人力、物力、财力[2]。上世纪六十年代,遥感技术(Remote Sensing, RS)由于其周期短、成本低、探测范围广等特点被广泛地应用于多领域学科[3]。今年来,国内外众多学者对利用多光谱遥感进行树种识别开展了大量的研究。Zhu 等[4]使用Landsat 8 影像数据对阔叶林内枫树、山毛榉、桦树三种树种进行识别,结果表明,使用多季节影像总体分类精度最高,达到92.63%;Pu 等[5]使用多光谱WorldView 2(八个波段)数据分类精度达到了67.22%;Markus 等[6]在利用Sentinel-2 数据,对云杉、落叶松、山毛榉、橡树、苏格兰松、花旗松等7 种树种分类,总体分类精度为65%;Presson 等[7]使用了多时相的Sentinel-2A 对瑞典中部某成熟林的五种常见树种进行识别,结果表明,5 月份影像树种分类精度最高,达80.5%。

于此同时,机器学习算法在遥感数据中得到了广泛应用。Heumann 等[8]基于支持向量机分类法和面向对象的分类法,以红树林为研究对象,采用WorldView-2遥感数据进行红树林物种识别,总体识别精度达94%,kappa 系数为0.863;李梦颖等[9]采用SVM 分类器,利用Landsat 8 OLI 多光谱遥感影像对吉林省汪清林业局天然林区进行树种识别,分类精度达到了89.58%,Kappa 系数为0.87;Chan 等[10]在使用机载高光谱数据对生态环境进行分类时发现随机森林和Ad boost 算法的总体分类精度相近(70%),均优于神经网络分类器,但随机森林的分类速度更快且更稳定;刘思涵等[11]借助高分一号WFV 影像,采用随机森林算法对八面通林业局林场树种进行分类,分类精度最高达到了83.97%,Kappa 系数为0.774 9。

综上所述,采用遥感数据结合机器学习算法对树种进行分类将成为一大研究热点。本研究以Landsat 8数据为基础,以江苏省南京市紫金山的针叶(马尾松、国外松)和阔叶(枫香、栎类、栾树、朴树)、毛竹7 种城市森林树种为研究对象。结合紫金山二类调查数据和谷歌卫星影像图,提取不同传感器遥感影像数据的光谱特征并发展纹理特征。在此基础上,采用支持向量机和随机森林分类器进行分类。

1 研究区概况与数据来源

1.1 研究区域

研究区位于江苏省南京市玄武区紫金山地区(图1)。紫金山占地31 km2,最高峰海拔达448.9 m,紫金山森林面积约20 km2,地区地理坐标为118°48 ′ ~118°52 ′E,32°02 ′ ~ 32°06 ′N。紫金山是中国著名的风景游览胜地。且森林资源丰富,优势树种主要包括针叶树种:马尾松(Casuarinaequisetifolia Forst.)、雪松(Cedrus)、国外松(Pinus elliottii);阔叶树种:枫香(Liquidambar formosana Hance)、栎类(Quercus L.)、栾树(KoelreuteriapaniculataLaxm)、朴树(Celtis sinensis Pers.);竹类:毛竹(Phyllostachys heterocycla)等。

图1 研究区分布图

1.2 数据获取

Landsat 8 遥感影像数据获取时间为2019 年9 月13 日,其含9 个光谱波段,波段1~7,9~11 的空间分辨率为30 米,光谱波长范围0.433~2.300 um,条带号为120,行编号38。DEM 数据是地理空间数据云获得的ASTGTM2 数据,空间分辨率为30 m,条带号为118/32,地形数据主要用于分类。森林资源规划设计调查数据(林业二调)2016 年数据,这类数据主要用于分类系统的制定和分类精度的验证。

1.3 数据预处理

USGS 提供的Landsat 8 影像产品等级为L1T 级,该等级的数据已经进行了严格的辐射校正、地形校正和几何精校正[12]。地形校正和几何精校正可以有效地消除地形起伏等因素造成的误差[13]。因此,本研究对Landsat 8 数据预处理主要包括辐射定标、大气校正以及在ENVI 中对影像剪裁。

2 研究方法

2.1 分类系统的制定

根据《土地利用现状分类》国家一级分类系统和紫金山研究区的实际情况,综合考虑建立两级分类系统,一级分类系统将研究区划分为林地与非林地,二级分类系统将森林分为针叶、阔,并在针阔中细分为栎、栾树、朴树、枫香、毛竹、国外松、马尾松,具体分类系统见表1。

表1 分类系统

2.2 特征因子提取

光谱信息是地物识别的基础,在遥感影像数据中,不同植被信息的区别可以在植被光谱曲线上体现出来,而光谱信息经过一定的数学运算得到植被指数。植被指数(Vegetation Index, VIS)可以有效突出不同植被间的细微的光谱差异,提高树种识别的精度[14]。植被指数的原理是不同光谱波段间的线性组合或非线性组合,通常情况下,植被指数可以反映90%以上的植被信息。本研究选取归一化植被指数[15](Normalized difference vegetation index,NDVI)、差值植被指数[16](Differential vegetation index, DVI)、增强型植被指数[17](Enhanced vegetation index, EVI)、结构敏感植被指数[18](Structure Insensitive Pigment Index, SIPI)和比值植被指数(Ratio vegetation index,RVI)[19]5 个植被指数用于树种分类;纹理特征(Texture feature, TF)是地物表面周期性变化的结构排列特征,描述了遥感影像表面属性和物体之间的空间关联信息,通常用图像的灰度变化来描述[20]。研究Landsat 8 数据,采用灰度共生矩阵(gray-level co-occurrence matrix, GLCM)提取3×3 窗口像元大小的6 个波段的4 个方向(0°、45°、90°和135°)共计192 个纹理特征,并求出各灰度共生矩阵8个纹理测度的均值;将DEM 提取的坡度和坡向作为地形特征因子(表2)。研究确定3×3 窗口为纹理特征提取窗口,是通过对3×3 至17×17 窗口提取的纹理特征进行J-M举例可分性计算得出来的。3×3 窗口平均可分性最高为1.745 1。

表2 特征因子

2.3 分类方法

支持向量机(Support Vector Machine, SVM)最初由Comes &Vapnick 在1936 年[21]提出,这是机器学习的里程碑。其本质是一种统计学习算法[22],是一种线性和非线性均使用的算法。SVM 作为监督分类算法,其核心是寻找最小化结构风险,即将不同类别的样本无差错分类的同时,保证各样本间具有最大分类间隔。SVM的最优分类面取决于支持向量,因此,在遥感影像分类中,核心是根据各类别的训练样本和约束条件,选取最优支持向量,并基于支持向量构建超平面(最优分类面)。

随机森林(Random Forest, RF)算法是由Breiman等[23]于2001 年首次提出的,是在决策树的基础上提出的一种学习算法,其核心是多个决策树集成的分类算法。是目前科学研究和数据挖掘等领域最热门的算法之一。随机森林在运算量没有显著提高的前提下提高了预测精度[24-25]。随机森林算法的原理是在原始样本中利用(自主抽样)随机抽取N 个样本,对每个样本进行决策树建模,在此基础上集成多棵决策树的预测,通过每棵决策树的投票结果得出预测结果。

2.4 树种识别样本选择

研究按照1 级分类系统进行森林识别,首先对验证样本和训练样本进行选择,包括训练样本建筑、水体、森林各150 个样本,草地75 个样本;验证样本建筑、水体、森林各75 个样本,草地30 个样本。其次,研究结合二类调查数据进行树种对象的样本选择(表3)。

表3 树种识别样本分布

2.5 精度评价

构建混淆矩阵是目前遥感影像分类中最常用的一种量化分类精度方法。可以提供的具体衡量有总体精度、生产者进度精度、用户精度、Kappa 系数和错分误差等,这些指标从不同的角度体现图像分类的精度。研究选用总体分类精度(Overall Accuracy)、Kappa 系数、生产者精度以及用户精度作为精度评价指标。总体分类精度(Overall Accuracy)表示所有被分类为正确类别的像元数占总像元数的比例。Kappa 系数以全局的像元为基础进行分类误差的精度判断,可以在计算过程尽可能弱化样本选择对精度验证的影响[26]。

3 结果与分析

本研究主要探讨紫金山城市森林树种识别,因此,不对一级地类识别效果进行过多分析,一级地类两种分类器的总体识别精度高达91.84%。研究基于Landsat 8 数据提取的6 个光谱波段、5 个植被指数、8个纹理特征以及两个地形因子对江苏省南京市紫金山研究区进行针叶、阔叶以及优势树种分类,并采用混淆矩阵对分类精度进行验证,分类结果如表4、表5所示。

表5 优势树种分类结果

表4 中针叶、阔叶树种的平均总体分类精度为71.89%,其中支持向量机下总体分类精度为72.54%,kappa 系数为0.649 1,高于随机森林分类器1.3%。支持向量机分类器效果优于随机森林。采用支持向量机分类器,阔叶树种的生产者精度为74.00%,用户精度为76.19%;针叶树种的生产者精度为80.00%,用户精度为70.00%。采用随机森林分类器,阔叶树种的生产者精度为66.67%,用户精度为68.67%;针叶树种的生产者精度为76.00%,用户精度为77.92。

表4 针叶、阔叶树种分类结果

表5 中两种分类器下优势树种的平均总体识别精度为53.18%,其中随机森林总体分类精度高于支持向量机,精度为55.07%,kappa 系数为0.507 7;支持向量机总体分类精度为51.29%,kappa 系数为0.421 8。支持向量机分类器的平均生产者精度为51.46%,平均用户精度为46.63%,其中,栎的生产者精度最高为76.84%,其他树种的生产者精度均在50%以下,其中栾树的生产者精度最低为42.59%。栎和栾树的用户精度达到了50%以上,其中栎的用户精度较高为55.02%,其他树种的用户精度均在50%以下,国外松的生产者精度仅为40.00%。基于RF 分类器的优势树种识别中,平均生产者精度为53.64%,平均用户精度为54.34%。同样栎生产者精度最高为79.50%,但枫香、毛竹达到了50%以上,用户精度中栎和马尾松达到了60%左右,国外松的用户精度最低为41.17%。

针叶、阔叶识别支持向量机分类器下的识别精度高于随机森林;优势树种识别随机森林识别效果优于支持向量机。因此,研究以针叶阔叶识别下支持向量机分类器、优势树种识别下随机森林分类器分类结果如图2 所示。

由图2 可以看出针叶树种主要分布于紫金山的中部,而阔叶树种分布较广,紫金山的四周与中部均有分布。紫金山城市森林优势树种中分布最广的是栎类,其次是枫香和马尾松,枫香和马尾松主要分布在紫金山城市森林的中部。毛竹分布范围较少,主要分布于紫金山城市森林的西部,栾树主要分布于东部。

图2 针叶、阔叶以及优势树种识别结果图

4 讨论

本研究利用Landsat 8 多光谱遥感影像数据,提取了光谱特征、植被指数、纹理特征以及地形因子,采用支持向量机和随机森林分类器对针叶、阔叶、以及优势树种进行分类识别。结果表明,(1)紫金山城市树种针叶、阔叶的识别精度要高于优势树种的识别精度,Landsat 8 数据对树种的精细识别效果较差。(2)对于紫金山研究区,支持向量机更适用于针叶、阔叶树种分类;随机森林更适用于优势树种分类。(3)整体来说,随机森林的识别效果要优于支持向量机。

城市森林树种的有效识别是城市森林资源管理、利用的关键[27]。诸多研究表明,利用Landsat 8 数据对森林进行针叶、阔叶树种识别可以达到较好的识别效果[28-29]。也有诸多研究采用Landsat 8 数据对树种进行精细识别,但Landsat 8 数据对优势树种进行精细识别的效果较差[30-31],这一结论在本研究中也得到了证实。近几十年来,在采用遥感数据进行树种的分类识别过程中也证实了随机森林分类器的分类效果要优于支持向量机[32]。

猜你喜欢
紫金山植被指数分类器
紫金山院
冬小麦SPAD值无人机可见光和多光谱植被指数结合估算
在行走中学习 于实践中建构
——南京市北京东路小学紫金山分校“行走课程”研究掠影
基于植被指数选择算法和决策树的生态系统识别
层林尽染紫金山
基于深度优先随机森林分类器的目标检测
河南省冬小麦产量遥感监测精度比较研究
基于差异性测度的遥感自适应分类器选择
基于层次化分类器的遥感图像飞机目标检测
龙口市城市热岛效应与植被指数相关性研究