高分二号影像树种识别及龄组划分

2019-06-10 09:26:14傅锋王新杰汪锦王娜佟济宏

自然资源遥感 2019年2期

傅锋, 王新杰, 汪锦, 王娜, 佟济宏

(1.北京林业大学林学院,北京 100083； 2.北京林业大学生物科学与技术学院,北京 100083)

0 引言

科学经营森林资源需要以森林植被的精准识别为基础。近几十a来，遥感已成为森林资源管理与监测的重要手段，不仅快速高效而且成本较低。林分尺度上的树种和龄组信息是森林资源调查与管理的关键因子，也是林业遥感分类研究的焦点。中低空间分辨率卫星数据仅适于研究区域尺度的森林参数[1-4],而航空影像成本高，难以进行大面积的制图及监测，且时效性差。高空间分辨率卫星具有稳定的平台、较大的视场以及规律的拍摄周期，影像上不同树种的纹理清晰可辨，成为林分尺度森林资源调查的理想数据源。

Immitzer等[5]以WorldView-2影像为数据源，采用面向对象的随机森林算法对澳大利亚Burgenland区的10种主要树种进行分类，总体精度达82.0%； Pu等[6]对比了IKONOS和WorldView-2在美国Tampa城市7种树种分类上的精度差异；刘怀鹏等[7]采用WorldView-2数据，基于纹理结合光谱信息识别呼和浩特市主城区7种绿化树种，最大似然法总体识别精度为86.4%；王妮等[8]采用QuickBird数据和最大似然法，对南京中山陵园的主要树种进行了识别，精度最高为66.3%。研究表明，高空间分辨率影像在植被分类乃至树种识别上具有重大潜力[9-13]，结合影像丰富的纹理、空间信息和辅助数据能大大提高分类精度。但现有树种识别研究主要基于外国数据源，基于国产卫星影像的研究较少。

高分二号(GF-2)卫星于2014年8月19日成功发射，是我国研制的首颗空间分辨率达到“亚m”级别的民用遥感卫星[14]。为探索GF-2卫星影像在树种识别上的潜力，推动该数据在我国森林资源监测中的应用，以福建将乐国有林场为研究区，开展杉木、马尾松和毛竹的树种识别和龄组划分研究。

1 研究区概况及数据源

1.1 研究区概况

将乐国有林场位于福建省三明市将乐县，是南方集体林区的典型代表，地处武夷山脉东南部、金溪河畔，坐标为N26°25′～27°04′，E117°05′～117°40′间；地貌多以中、低山丘陵为主，海拔在400～800 m；属亚热带季风气候区，雨水充足，年平均气温18.7 ℃，无霜期达270 d；土壤以红壤和黄红壤为主。研究区内主要树种有杉木、马尾松和毛竹等。

1.2 数据源及其预处理

本研究采用的遥感数据为GF-2 L1A级数据，成像时间为2017年5月14日。数据包括全色波段和4个多光谱波段(空间分辨率分别为0.81 m和3.24 m)。多光谱波段包括： 0.45～0.52 μm(Blue)，0.52～0.59 μm(Green)，0.63～0.69 μm(Red)和0.77～0.89 μm(NIR)。基础数据包括1∶ 1万比例尺地形图、2016年二类调查数据以及实测的主要树种冠层反射率数据。

通过地形图等高线矢量化生成覆盖研究区的数字高程模型(digital elevation model，DEM)数据。影像预处理依次进行了辐射定标、FLAASH大气校正、正射校正、图像融合和研究区裁剪等步骤。在ENVI 5.3软件中以地形图和DEM为基准进行正射校正，均方根误差(root mean square error，RMSE)控制在1个像元以内[15]；图像融合采用Gram-Schmidt Spectral Sharpening方法[16]。

数据预处理后提取研究区的归一化植被指数(normalized difference vegetation index，NDVI)，根据DEM数据生成坡度和坡向。将融合后的GF-2影像的4个波段、NDVI、坡度、坡向以及DEM合并为8波段的待分类影像。

2 研究方法

2.1 光谱特征分析

选取研究区中的马尾松、毛竹和杉木(包括幼龄林、中龄林、成熟林3个龄组)3个典型树种，进行实地光谱测量和采样，室内分析其光谱特征。光谱测量采用美国ASD公司生产FieldSpec HandHeld光谱仪，波长范围为325～920 nm。光谱测定选择在晴朗无风的正午进行。对每一树种冠层的光谱重复测定10次，取均值作为该树种的反射光谱[17]。测定光谱数据后，通过光谱处理软件ViewSpecPro对测得的原始光谱数据进行筛选，去除无效和错误的数据，用以后续分析。

2.2 影像分割和属性提取

面向对象的分类方法能避免受太阳光照、地形和观测角度影响导致的误差[18]。采用eCognition软件多尺度分割工具对待分类影像进行多尺度分割。其中，NDVI是植被生长状态及植被覆盖度的最佳指示，将权重设置为2，GF-2各光谱波段权重为1，DEM、坡度和坡向不参与分割。固定形状权重为0.1，紧致度权重为0.5，分割尺度阈值范围为50～800，步长为50。根据影像是否过分割或者欠分割，目视判读分割结果，确定研究区GF-2影像的适宜分割尺度阈值为200。

基于影像多尺度分割结果进行属性提取。为保留高空间分辨率影像的纹理信息，引入灰度共生矩阵(gray-level co-occurrence matrix，GLCM)的8个纹理属性[19]。纹理属性考虑方向，包括4方向纹理(0°，45°，90°，135°)和全方向纹理。属性提取得到25个光谱属性、160个纹理属性(32个全方向和128个4方向纹理)和15个辅助数据。属性提取如表1所示。

表1 面向对象的影像属性提取

面向对象提取的光谱、纹理和辅助数据属性达200个，一方面属性之间存在高度的相关性，另一方面数据冗余对分类器而言也是灾难[20]，因此需要进行属性的选择。属性选择采用Weka统计软件，分2步进行[21]： ①采用单个属性评估器GainRatioAttributeEval + Ranker，通过属性的信息增益率来评估属性对目标类别的重要性； ②采用属性子集评估器WrapperSubsetEval + BestFirst包装器方法，基于随机森林分类器来评估属性子集，对每个属性子集采用交叉验证估计学习方案的准确性。随机森林法需要设置2个参数：基分类器采用的属性数K和决策树的数量I。采用Weka软件提供的元学习器CVParameterSelection优化训练数据交叉验证的准确性，搜索以获得最佳的K和I。筛选出的最优属性集内部相关性最低，参数优化得到最有利于分类的参数设置。

2.3 分类器及分类方案

随机森林算法是一种基于统计学习理论的组合分类器，它利用bootsrap重抽样方法从原始样本中抽取多个样本，对每个bootsrap样本进行决策树建模，然后组合多棵决策树的预测，通过投票得出最终预测结果[22]。该算法较好地解决了单分类器在性能上无法提升的问题[23]，具有很高的预测准确率，对异常值和噪声具有很好的容忍度，且不容易出现过拟合。目前随机森林算法在遥感地类划分上的研究较多[24-25]，在森林分类上的应用不断增加[26-27]，而在高空间分辨率遥感影像的树种精细识别上则研究很少。

为定量分析光谱、纹理和辅助数据在树种分类中的作用，根据光谱属性、纹理属性和辅助数据不同组合的7种方案进行分类。光谱属性是遥感分类中常用的属性，将光谱属性分别与4方向纹理、全方向纹理进行结合(方案2和3)，对比仅采用光谱属性(方案5)和仅采用纹理属性(方案6和7)的分类结果，探索研究区树种分类精度最高的分类方案。辅助数据参与分类(方案1和4)用于判断地形因素是否影响研究区的树种分布。不同分类方案及其属性数量如表2所示。

表2 不同分类方案及其属性数量

2.4 结果分析及精度评价

采用F值进行精度评价，其将制图精度和用户精度合并为一个量，并趋向于接近制图精度和用户精度中比较小的那个值。F值高则可以确保制图精度和用户精度都较高。F的计算公式为

(1)

式中：UA为用户精度；PA为制图精度。

根据7种分类方案的分类结果确定最优分类方案。在研究区随机抽取385个样点，实地调查结合GF-2影像目视解译，确定每个样点的树种类别。针对最优方案分类结果建立混淆矩阵[28-29]，计算制图精度和用户精度，生成马尾松、毛竹和杉木的树种(龄组)分布图。

3 结果与分析

3.1 树种光谱特征分析

图1为研究区5种树种(龄组)冠层光谱曲线。

图1 将乐林场5种树种(龄组)冠层光谱曲线

从图1中可见，5种树种(龄组)冠层光谱曲线的趋势大致相同。可见光波段490 nm和680 nm附近，存在叶绿素强烈吸收的蓝光吸收带和红光吸收带，反射率分别为0.04～0.09和0.05～0.10；在540～560 nm附近出现“绿峰”，反射率达到0.10～0.16；近红外波段位于685～760 nm光谱区形成“红边”反射陡坡，其光谱反射率值随波长从小于0.10急剧升高至0.42以上。从树种光谱特征差异上看：在可见光和近红外波段，毛竹的冠层反射率高于杉木各龄组和马尾松，且在560～670 nm和760 nm之后差异显著。5种树种(龄组)的“红边”高度和斜率存在差异，斜率上表现为杉木成熟林>杉木中龄林>毛竹>马尾松>杉木幼龄林，“红边”高度上表现为毛竹>杉木成熟林>杉木中龄林>杉木幼龄林>马尾松。结合实测光谱曲线和GF-2波段范围，绿光波段和近红外波段信息是马尾松、毛竹和杉木龄组区分的关键波段。

3.2 属性筛选及参数优化

采用Weka软件中的属性子集评估器WrapperSubsetEval + BestFirst包装器和随机森林分类器进行最优属性子集的筛选，通过元学习器CVParameterSelection进行参数优化，依次筛选出7种分类方案下的最优属性集及其参数。筛选结果及参数优化如表3所示。

表3 不同分类方案下属性筛选及参数优化

①mean_NDVI表示NDVI波段的光谱均值； COR_45_NIR表示近红外波段在45°方向的相关性纹理值，依此类推。

属性筛选及参数优化结果可知，7种分类方案的最优属性子集特征数为7～11个，基分类器分类使用的属性数为3～5个，生成的基分类器决策树数量最小100棵，最多达到3 000棵。从最优属性子集包含的属性分析，光谱属性中mean_NDVI，mean_NIR，SD_NDVI，SD_Blue，skewness_Green和skewness_Blue，4方向纹理中HOM_0_NIR，COR_45_NIR，COR_45_Green和DIS_135_Green，以及全方向纹理中CON_All_Red，CON_All_Blue，DIS_All_NIR，DIS_All_Blue，COR_All_NIR和COR_All_Red被反复筛选出来作为最优属性子集。这些属性特征表征了杉木、马尾松和毛竹在光谱和纹理属性上的差异所在。辅助数据中mean_Aspect和SD_DEM属性反映了坡向均值和高程在树种分布上的影响。

3.3 分类精度及定量分析

图2为7种分类方案树种分类结果的F精度统计。由分类结果可知，结合光谱和纹理属性(方案1—3)显著提高了树种识别以及龄组划分的精度。结合4方向纹理属性(方案2)总体精度为87.4%，优于结合全方向纹理(方案3)85.2%的分类精度。仅采用光谱属性分类(方案5)较单独采用纹理属性(方案6和7)分类精度提高达15.0%以上。地形因素中的坡向和高程对总体精度的影响小于1%。各树种分类精度上，马尾松的分类精度最高，仅采用纹理属性(方案6和7)识别马尾松的精度低于80%，但仅采用光谱属性的分类精度(方案5)高达94.2%。采用光谱结合4方向纹理、辅助数据的方案1总体精度最高，为88.0%，Kappa系数为0.86，各树种分类精度依次为：马尾松>杉木幼龄林>毛竹>杉木成熟林>杉木中龄林。

图2 7种分类方案下树种分类F精度

基于仅利用光谱属性的方案5进行差值计算，定量分析2种纹理属性和辅助数据对树种分类精度的影响。仅利用光谱属性识别5种树种(龄组)的总体分类精度为78.4%，Kappa系数为0.75；杉木3种龄组之间混分严重，中龄林的分类精度仅为61.5%。加入全方向纹理属性(方案3)和4方向纹理属性后(方案2)，总体分类精度分别提高6.8%和9.0%。从杉木龄组上分析，全方向纹理属性加入后杉木幼龄林、中龄林和成熟林分类精度分别提高了18.7%，13.5%和4.7%，加入4方向纹理属性后分类精度分别提高21.0%，17.0%和9.5%。分析原因，随着杉木林年龄的增长，冠形越来越开阔且相邻树冠间互相交织密不可分，因此纹理上的可分性逐渐降低。对杉木的龄组而言，4方向纹理属性对分类精度的贡献大于全方向纹理。加入纹理属性使得马尾松的分类精度分别下降1.0%和0.4%(方案2和3)，说明纹理的优势并未很好地体现在马尾松的识别方面，马尾松的分类不必加入纹理属性。

辅助数据参与分类(方案1和4)总体精度分别比未参与时增加了0.6%。坡向对毛竹的分类精度影响大于5%，但对马尾松和杉木的精度影响很小。研究区的人为经营活动是影响树种分布的关键，就树种分类而言地形因素可以忽略不计。

3.4 混淆矩阵和分类结果

排除地形因素，光谱+4方向纹理(方案2)的分类精度最高，为87.4%，Kappa系数为0.85。该方案混淆矩阵和制图精度、用户精度计算结果如表4所示。

表4 基于GF-2影像的树种分类混淆矩阵

由表4可知： ①马尾松的分类效果较毛竹和杉木龄组而言效果较好，制图精度和用户精度均优于90%，从影像上分析，混分的情况主要发生在阴影区域的毛竹和杉木成熟林； ②毛竹与马尾松、杉木幼、中龄林存在混分现象； ③杉木相邻龄组混分现象比较严重，幼龄林有5.3%被分为中龄林，中龄林中有6.5%和11.3%被分类为幼龄林和成熟林，成熟林有8.3%被分为中龄林，相邻龄组之间无法有效区分是造成杉木各龄组分类精度较低的主要原因，幼龄林和成熟林之间不存在任何混分现象。

定性地观察影像的分类结果(图3)，面向对象分类结果有效避免了“椒盐噪声”现象。通过目视解译和林相图对比发现，分类效果比较理想，表现出杉木、马尾松和毛竹原本的分布趋势。杉木和马尾松主要为人工种植，分类后在影像上表现为大面积斑块集中分布；毛竹常为小面积块状或带状分布于低海拔山沟和房前屋后；其他阔叶林零星分布在林分间隙。分类结果符合实际。

图3 面向对象的随机森林分类结果

4 结论

本研究基于国产高空间分辨率的GF-2影像和随机森林法对南方集体林区的马尾松、毛竹及杉木的3个龄组进行分类，为GF-2影像应用于南方集体林区森林资源调查和管理提供了借鉴。研究结论如下：

1)光谱结合4方向纹理的分类方案总体精度为87.4%，Kappa系数为0.85，马尾松、毛竹和杉木3个龄组得到了有效分类。杉木相邻龄组存在混分现象，幼龄林和成熟林完全区分。表明GF-2数据在树种识别及龄组划分上具有很大潜力，是林分尺度森林资源调查的理想数据源。

2)实测树种的冠层光谱曲线，各树种在光谱上反射率差异明显，光谱曲线“红边”高度和斜率存在差异，表现为杉木成熟林>杉木中龄林>毛竹>马尾松>杉木幼龄林。结合GF-2影像波段设置，表明绿光波段和近红外波段是马尾松、毛竹和杉木龄组区分的关键。

3)结合影像丰富的纹理信息能大大提高分类精度。将光谱和纹理结合的分类方案，分类精度较仅利用光谱属性和仅利用纹理属性高，这与刘怀鹏等[7]和陈玲等[30]的研究结论相同。光谱结合4方向纹理比结合全方向纹理能取得更好的分类效果；针对本研究区，辅助数据(地形)对分类影响不大，人为经营活动是影响树种分布规律的主要因素。

4)树种的生长形态和冠层特征决定纹理属性对分类的影响。纹理属性对马尾松的分类精度影响很小，但有利于杉木幼龄林和中龄林分类精度的提高。

利用高空间分辨率影像进行树种分类依然存在着许多新的挑战。本研究的不足之处在于未考虑马尾松、杉木和毛竹的混交情况以及研究区其他常绿阔叶树种的分类。不同纹理属性如何影响树种分类精度的机理还需要进一步深入探索。