基于GF-1影像的多时相多特征落叶松人工林提取研究

2022-10-17 01:58王晓洋姜友谊胡亚轩张家政刘博伟
林业资源管理 2022年4期
关键词:植被指数落叶松人工林

王晓洋,姜友谊,黎 晓,胡亚轩,张家政,刘博伟

(1.西安科技大学 测绘科学与技术学院,西安 710054;2.中国地震局第二监测中心,西安 710054)

近年来,随着我国林业建设工作的开展,落叶松(Larixgmelinii)人工林的面积逐年增大,已成为我国北方林区主要的造林树种,落叶松人工林信息的精确提取对我国合理利用以及科学管理森林资源至关重要[1-2]。传统的森林资源调查时间久、成本高、任务量大,很难满足生产实践的要求[3]。随着遥感技术的成熟,中低分辨率遥感影像覆盖范围广,可对大范围的植被现状及森林变化进行监测,但可能存在同一像元包含多种林分类型的情况[4],对树种的识别精度并不理想[5]。在国内外众多学者的共同研究下,发现结合纹理特征对森林植被分类取得了较好的结果,Medina等[6]、Abdel-Hamid等[7]、Wang等[8]、陈玲等[9]、白莹等[10]的研究均表明,相比于仅用光谱特征分类的传统方法,加入纹理特征分类精度有所提高。因此,高分辨率影像结合纹理信息能更好反映不同树种之间的特征。然而大量研究表明,纹理窗口大小对提取结果有较大的影响。Deur等[11]采用随机森林和支持向量机的分类方法分析不同窗口大小对树种分类的影响,结果表明:用5×5的窗口大小计算出来的GLCM特征取得了最好的结果,尤其是GLCM方差加入使得树种分类精度分别提高了10%,7%。Lu等[12]在潮湿的热带地区运用光学影像融合纹理特征进行植被分类,结果表明:基于熵或二阶矩的纹理特征窗口大小为9×9,在提高植被分类精度方面发挥了重要作用。Chen等[13]基于WorldView-2影像结合纹理信息对上海和连云港地区城市植被进行分类,结果表明:最佳纹理窗口大小由植被纹理的粗糙程度决定。张嵩等[14]结合支持向量机方法探讨了窗口大小对矿区林地提取的影响,结果表明:窗口大小3×3对应的均值在提取林地信息方面具有显著优势。因此,纹理窗口大小是森林分类中的重要参数,没有单一的纹理窗口大小可以描述所有地物特征。

目前,随着机器学习算法的成熟,随机森林(Random Forest,RF)分类器在分类效率以及分类精度等方面具有较大的优势,且不需要先验知识,通过学习少量的训练样本集形成分类规则[15]。但为保证分类的成功,RF算法要求在分类前尽可能多地提取特征,以此显示各类别之间的差异,这样不仅会造成数据冗余,还可能产生“休斯效应”[16]。诸多研究表明[17-18],特征优选可以降低维度,提高分类器的效率和分类精度。

本文以黑龙江省桦南县孟家岗林场的落叶松树种为研究对象,以多时相的GF-1影像为数据源,以森林资源二类调查数据和实地补充调查数据为样地依据,分析纹理特征不同窗口大小对落叶松人工林的分类效果。利用Gini系数对光谱特征、植被指数、纹理特征和地形特征共32个特征进行重要性评价,结合RF算法优选与分析,以提高落叶松人工林的分类精度,促进高分辨率遥感影像GF-1数据在落叶松人工林提取方面的深入应用。

1 研究区与数据

1.1 研究区概况

孟家岗林场位于黑龙江省桦南县东北部(图1),距离县城21km,地理坐标为46°20′16″~46°30′50″N,130°32′42″~130°52′36″E,属东亚大陆性季风气候区。林场春季少雨,夏季短促,秋季气温变化大,冬季漫长且寒冷,一年四季温度在-34.7~35.6℃之间。林场坡度较为平缓,大部分在10°~20°之间,整体地势东北高、西南低,海拔在168~575m之间。年平均降水量约550mm。现林场主要经营落叶松、红松(Pinuskoraiensis)、云杉(Piceaasperata)、樟子松(Pinussylvestrisvar.mongolica)等人工林,面积占林场总面积(14 466.67hm2)的76.7%。

图1 研究区地理位置及样地分布图

1.2 数据来源

本文采用我国对地观测系统的第一颗高分辨率卫星——高分一号(GF-1)卫星,它具有8m分辨率多光谱和2m分辨率全色影像。影像获取的时间为2017年5月2日、7月6日、10月25日。

以研究区矢量边界数据、30m分辨率的DEM数据、森林资源二类调查数据和0.5m分辨率的CCD(Charge Coupled Device)航片数据作为辅助数据。矢量边界数据主要用于裁剪研究区影像;DEM数据作为辅助信息参与分类;二类小班数据和CCD航片数据用于解译孟家岗林场的林分类型分布,其中CCD数据是由LiCHy(LiDAR,CCD and Hyperspectral)机载系统拍摄的。依据孟家岗林场的主要树种,确定林分类型为落叶松人工林、红松、云杉、樟子松、天然林、其他林地。天然林主要包括橡树(Quercusmongolica)、椴树(Tiliatuan)、山杨林(Populusdavidiana)等阔叶林。其他林地是指非有林地范畴的林地。

1.3 数据预处理

利用ENVI 5.3首先对多光谱图像(8m)和全色图像(2m)进行辐射定标,对多光谱图像(8m)进行FLAASH大气校正以及几何校正。再借助DEM数据对GF-1影像进行正射校正。采用NNDiffuse变换方法将多光谱图像(8m)和全色图像(2m)融合,得到2m多光谱影像。最后通过矢量边界数据裁剪得到研究区遥感影像。

2 研究方法

2.1 光谱特征

光谱特征不仅反映地物最直接的信息,而且是数据处理的重要基础[19]。地表上各种地物间具有不同的波谱特征,在遥感影像上表现为光谱特征的差异,根据不同的光谱特征可以判断地物的属性。本文基于GF-1影像分析各林分类型在不同时相上的光谱差异。

图2为GF-1影像各林分类型光谱曲线,由图2(a)可知,5月2日影像,整体来说,各林地处于生长初期,光谱曲线变化趋势较一致,且各类别光谱均值又有一定的差别,其他林地的光谱均值最高。落叶松在蓝波段(Band1)、绿波段(Band2)和红波段(Band3)的光谱均值高于樟子松、云杉和红松,可区分度明显;在近红外波段(Band4)4者与天然林较难区分。7月6日影像,各林地处于生长阶段,前3个波段的樟子松、云杉、落叶松、红松、天然林的光谱曲线几乎完全重合,表现出较强的“异物同谱”现象,仅在近红外波段落叶松与天然林区分度明显,表明在这一时期仅使用光谱特征很难将其区分开,可能需要加入其他特征,如,纹理特征等。10月25日影像,落叶松人工林处于落叶期,在红外波段、近红外波段与其他林分类型可以区分,但与天然林光谱曲线值接近。从3个时相的变化趋势来看,各树种从B1到B4波段表现为先降后增。因此,仅利用光谱特征很难将各林分类型区分开。

图2 各时期光谱曲线图

2.2 植被指数

根据前人研究以及大量实验,选取3个植被指数,分别为:归一化植被指数(Normalized Difference Vegetation Index,NDVI),差值植被指数(Difference Vegetation Index,DVI)和红色指数(Red Index,RI)。计算方法如式(1)—式(3)所示:

(1)

DVI=ρNIR-ρR

(2)

(3)

式中:ρNIR,ρR及ρB分别表示近红外、红光以及蓝光波段。

2.3 纹理特征

1973年,Haralick等[20]提出统计分析法中的灰度共生矩阵(GLCM),是目前应用最广、稳定性最好、鲁棒性极强的一种纹理提取方法,定义为P(i,j/d,θ),是指影像上相距d,方向为θ的一对像素点i,j同时出现某种灰度的概率。本文选取8个常用的纹理特征,即:均值(Mean)、方差(Variance)、同质性(Homogeneity)、对比度(Contrast)、相异性(Dissimilarity)、熵(Entropy)、二阶矩(Second Moment)和相关性(Correlation)。

参照文献研究[21-22],利用ENVI 5.3对3期GF-1影像进行主成分分析(Principal Component Analysis,PCA),分别选取第一主成分(PCA1)进行纹理特征提取。设置步长为1,灰度级数为64,角度取4个离散方向(0°,45°,90°和135°)的均值以消除方向上的影响。在纹理窗口设定时考虑到窗口过大,提取地物时可能造成错分、误分的现象;窗口过小则可能出现同一地类提取不完整的情况。因此,在选择纹理特征提取时,综合考虑影像、林分类型等方面的因素,选择适当的窗口大小,避免窗口过大或过小,影响分类精度。由于不同时期各林分类型的纹理不同,因此,本文分别对3个时期纹理窗口大小设置为3×3,5×5,7×7,9×9,共生成96个纹理特征,分析不同时相不同窗口大小对分类精度的影响。

2.4 地形特征

由于研究区东北高、西南低的地形因素影响,树种的分布具有一定的规律性。天然林主要生长在海拔较高的东北部;而人工林主要分布在平坦地区。因此,将数字高程模型(DEM)以及利用ArcGIS 10.2提取出的坡度(Slope)、坡向(Aspect)直接参与分类,有助于提高分类精度。

2.5 分类方法

2.5.1随机森林算法

随机森林是2001年由Breiman[23]提出的一种以决策树(CART)为基本分类器的新型机器学习算法,集成了多个学习器的预测结果。算法的主要思想是利用Bootstrap法,从原始样本集中随机有放回地抽样M组,获得M个新的训练样本集,针对每个训练样本集分别建立决策树,将构建的多棵决策树组合,采用多数投票规则对样本进行分类,将投票结果作为最终预测结果。其中约有1/3的样本集未被采样到,将未参与决策树建立的这部分数据称为袋外数据(Out-of-Bag,OOB),通过OOB估计整个随机森林的泛化误差[24]。

目前,随机森林算法可通过多种语言平台实现。本文利用EnMAP-Box的RF分类器对整个遥感图像分类。EnMAP-Box是基于IDL(Interactive Data Language)开发的一款提供多种处理高光谱遥感数据功能的工具包[25]。

2.5.2变量的重要性评估与优选

将所有特征参与分类必然会造成信息冗余,也会产生“维数灾难”,从而导致分类速度降低、效果变差。因此,采用Gini系数对32个特征进行重要性评估,根据特征重要性的分值按照降序排列,其中Gini系数的数值越大,表示该特征重要性越高。首先,选择重要性最高的特征对其分类,再累加重要性得分前二的特征进行分类,依次类推,得到32个特征组合。通过比较分类精度,选取分类精度最高的特征组合作为优选的特征子集,在提高分类结果的同时达到降低维度的效果。

2.6 分类方案及精度评价

2.6.1分类方案

为探究研究区分类的最佳组合方式,本文设置了6组分类方案(表1)。

表1 分类方案

2.6.2精度评价

为了从定量方面描述各方案下的分类精度以及分类结果与真实样本之间的差异,本文选取总体精度、Kappa系数、用户精度、生产者精度以及F精度5种指标来评价。前两种指标用于评价整体的分类精度;用户精度、生产者精度是评价单个林分类型的分类情况;F精度用来评价落叶松人工林的分类精度,其计算公式如式4所示。

(4)

式中:PA为生产者精度,UA为用户精度。

3 结果与分析

3.1 纹理窗口的选取

将96个纹理特征分别与3个时相的原始光谱波段组合,利用RF分类,做出总体精度随纹理窗口变化的曲线图(图3),其中横坐标表示不同时相不同纹理窗口大小,例如:5_(3_3)代表5月2日影像纹理窗口大小为3×3。为进一步确定研究区的最佳纹理窗口和最优纹理特征,选择8个纹理特征在不同窗口下总体精度最高的参与分类。

注:图中ME为均值,VAR为方差,HOM为同质性,CON为对比度,DIS为相异性,ENT为熵,SE为二阶矩,COR为相关性

从图3中可以看出,同一纹理特征在不同窗口下的总体分类精度不同,不同纹理特征在同一纹理窗口下的分类精度也是不同的。随着纹理窗口不断增大,总体分类精度逐渐升高。当纹理窗口为 9×9时,各纹理特征达到了峰值。从同一纹理特征在不同窗口下的分类精度来看,均值、方差和熵这3个纹理特征在5月2日9×9窗口下总体精度达到最高,同质性、对比度、相关性和相异性这4个纹理特征在7月6日9×9窗口以及二阶距在10月25日的9×9窗口下总体精度达到最好。此外,所有光谱特征结合纹理特征的总体精度都在80%以上,说明加入纹理特征有利于提高分类精度。综上,9×9是此森林分类的最佳纹理窗口。因此,本文选取5月份窗口大小为9×9的均值、方差和熵,7月份窗口大小为9×9的同质性、相异性和对比度,10月份窗口大小为9×9的二阶矩这8个纹理特征参与分类,分析不同纹理特征对落叶松人工林分类的影响。

3.2 特征重要性评估

根据随机森林Gini系数计算出32个特征的重要性分值如图4(a)所示。其中,B1—B4代表影像波段1—波段4;NDVI,DVI,RI分别代表归一化植被指数、差值植被指数、红色指数;ME,VAR,HOM,CON,DIS,ENT,SE,COR分别代表纹理特征中的均值、方差、同质性、对比度、相异性、熵、二阶矩、相关性;DEM代表数字高程模型;Slope代表坡度,Aspect代表坡向。变量的命名规则为“日期_特征”,如,5_B1,5_NDVI,5_(9_9)_ME,分别代表5月2日影像的原始B1波段、植被指数、第一主成分纹理窗口大小为9×9的均值。由图4(a)可得,不同特征在分类中的重要性有明显的差别,其中对分类精度贡献率最大的3个特征依次是10月份的差值植被指数、5月份的归一化植被指数、10月份的归一化植被指数;贡献率最小的是7月份相关性纹理特征参数。整体来说,植被指数特征的贡献率最大,前10个特征中,有8个为植被指数特征。

根据特征优选重要性的分类精度图4(b)可知,随着特征数量的增加,率先加入分类中重要性高且贡献率大的特征之间的相关性较低,这使得总体精度和落叶松人工林分类精度急剧升高。特征数量增加为20~24时,总体精度在81.30%附近,说明特征变量之间的相关性高。当特征数量达到27时,总体精度和落叶松人工林分类精度同时达到最高,分别为82.67%,87.13%。综合筛选出的所有特征(方案5)和优化特征子集(方案6)均可以改善落叶松人工林漏分、错分的情况,落叶松分类精度较仅使用原始光谱波段分别提高了0.92%,1.87%。但优化后特征子集的分类效果更好。因此,选择前27个特征(光谱特征11个、植被指数9个、纹理特征5个、地形特征2个)作为优化特征子集。其中,贡献率依次是植被指数、光谱特征、纹理特征和地形特征。

图4 特征重要性排序与分类精度

3.3 精度评价

根据局部分类结果(图5)和整体分类结果(图6)可以看出,仅依靠光谱特征分类的结果图斑较为破碎,“椒盐现象”严重,主要出现樟子松与云杉的错分、误分情况,这是因为两者都属于常绿树种且分布散、范围小。通过对比发现,加入纹理特征比未加入时效果好,错分为云杉的樟子松被正确识别,说明纹理特征能够有效提高分类精度。所有特征参与分类效果较好、图斑较为完整,错分、混分现象也得到了改善。经过特征优选后的分类效果更好,边界更为清晰,连续性较好,大部分区域能被正确地识别,各林分类型得到很好地区分,同时落叶松人工林提取效果最好。

注:图中的(a)—(f)分别代表分类方案1—6,(g)代表真实地类。

注:图中的(a)—(f)分别代表分类方案1—6。

基于6种不同分类方案下的总体精度与落叶松人工林分类精度如表2所示。在光谱特征中加入植被指数,总体精度提高了0.35%,落叶松人工林的提取精度提高了0.73%(方案2)。但在光谱特征的基础上加入纹理特征、地形因子的总体精度和落叶松人工林分类精度都降低了(方案3,方案4),前者是因为纹理特征之间的相关性大,RF分类器未能充分利用好8个纹理特征导致数据冗余,从而分类精度降低,这就说明并非加入所有的纹理特征就能提高分类精度;后者是由于DEM、坡度和坡向3者的相关性较高,导致分类精度降低。方案5,将所有特征参与分类,相比于前4种方案总体精度分别提高了2.45%,2.10%,2.50%,3.13%。方案6,经过特征优选后,相比于方案5(所有特征),生产者精度和用户精度略微提高,总体精度达到82.67%,同时,落叶松人工林的分类精度最高,达到87.13%,说明特征优选在保留贡献率较大特征的同时,达到分类效果最佳,并减少了无关特征变量的参与。

表2 各方案的分类精度

4 讨论

通过RF算法分析不同纹理窗口下的8个纹理特征对分类精度的影响,所得结果表明,并不是所有纹理特征对分类精度都起到提高的作用,纹理特征过多,波段之间的相关性大,反而会造成信息重叠、数据冗余,导致分类精度降低。林雪等[26]、杨盼盼[27]也得出同样的结论,将8个纹理特征全部参与分类,未必能达到最好的分类效果,反而会增加运算时间。

采用RF算法提取落叶松人工林的分布情况,方案5、方案6获得的结果较仅使用光谱特征的分类精度明显提高,与最近研究的一些结果一致[28-30],证实了构建光谱特征、植被指数、纹理特征以及地形因子的多特征分类模型在植被分类方面的潜力。多特征之间存在一定的相关性,相关性越高,不仅会造成数据冗余,还易影响分类器的运行速度,因此,特征优选尤为重要。何云等[31]、王李娟等[32]、张红华等[33]均结合Sentinel-2影像利用RF算法进行土地利用信息提取,结果都表明优选后的RF算法精度最高。目前,国内外针对高分辨率遥感影像对落叶松人工林的多特征优选方面研究较少,因此,本文结合落叶松人工林的物候特征,利用多时相多特征,通过Gini系数评估特征重要性,利用RF算法筛选并构建最优特征分类集取得了较好的结果,为国产高分辨率遥感影像在落叶松人工林提取方面提供参考。在未来的研究中可加入纹理特征方向对分类精度的影响。其次,结合深度学习方法提高落叶松人工林的分类精度有待研究。

5 结论

本文利用GF-1影像结合多时相、多特征对落叶松人工林进行提取得到以下结论:

1)高分辨率具有丰富的纹理特征,不同窗口下的纹理特征对分类精度的影响不同。加入纹理特征可以有效提高分类精度。通过RF分类方法将原始光谱波段与不同窗口下的纹理特征结合得出:GLCM纹理提取的最佳窗口大小为9×9。

2)利用Gini系数对32个特征变量进行重要性评估,结果表明:特征不同重要性不同,其中植被指数特征的重要性最高,其次是光谱特征、纹理特征,贡献率最低的是地形特征。

3)特征越多,模型的复杂程度越高,分类精度不增反降。综合6种方案来看,基于特征优选子集(光谱特征11个、纹理特征5个、植被指数9个和地形特征2个)的分类方案优于其他5种,边界清晰,连续性好,碎斑块少,总体精度最高为82.67%(Kappa系数为0.76),落叶松人工林分类精度高达87.13%。

因此,结合国产GF-1影像基于RF算法的多特征优选分类模型提取落叶松人工林的效果显著,为及时、准确获取孟家岗林场落叶松人工林的分布情况提供了参考。

猜你喜欢
植被指数落叶松人工林
基于无人机图像的草地植被盖度估算方法比较
落叶松病虫害防治措施探讨
桉树人工林生产经营存在的问题及对策
桉树人工林现状及可持续发展
山西落叶松杂交良种逾10万亩
落叶松病虫害防治措施探讨
冬小麦SPAD值无人机可见光和多光谱植被指数结合估算
汤原县林业局有林地面积的特点与分析
关于落叶松病虫害防治技术探究
高峰林场桉树人工林与其他树种人工林之间土壤差异分析及对策