无人机激光雷达与高光谱数据协同的帽儿山地区树种分类1)

2022-07-25 03:13李佳柠李明泽全迎王斌莫祝坤

东北林业大学学报 2022年6期

李佳柠李明泽全迎王斌莫祝坤

(东北林业大学，哈尔滨，150040)

森林是陆地生态系统的主体，在全球生态系统中发挥举足轻重的作用[1]。研究森林的树种组成及不同树种单木的空间分布对评估森林生境质量和森林生物多样性以及制定合理的森林管理策略具有重大影响，对于估测森林生产力、生物量和碳储量有很好的辅助作用[2-3]。随着航天技术的迅速发展和传感器技术的不断成熟，遥感技术在森林资源监测方面的应用越来越广泛[4]。使用遥感数据进行树种分类，可以减少外业调查的工作量，节约人力成本，提高森林资源调查的效率[5-6]。

光学遥感数据中的高光谱数据具有较高的光谱分辨率和较宽的光谱范围[7]，因此可以为树种分类研究提供更多信息。然而，高光谱数据作为一种平面遥感数据，虽然能够很好的反应冠层表面的信息，却难以反映垂直方向上冠层结构的特征。而激光雷达(LiDAR)点云数据可以很好的反映森林冠层的立体结构特征，从而弥补高光谱数据的不足[8]。因此，使用激光雷达与高光谱遥感协同进行树种分类成为了近期的一个研究热点。早期的研究普遍借助激光雷达点云数据及其生成的冠层高度模型(CHM)进行树冠边界的精确勾绘，在此基础上利用植被的光谱特征进行分类[9-10]。后来，使用激光雷达提取的高度、强度变量与光谱数据协同分类的研究逐渐增多[11]。激光雷达提取的高度和强度变量能够用于描述单木树冠在垂直结构上的特性，在树种分类研究中具有积极意义[12]。后来，随着无人机技术的发展和成熟，无人机激光雷达数据(UAV-LiDAR)被越来越多的应用于单木尺度的参数提取当中[13]。相较于星载或机载激光雷达，无人机激光雷达通常具有扫描高度低、点云密度高的优势[14]。因此，无人机激光雷达对树冠的三维结构特征提取更为准确[15]。但是，过去的相关研究主要是将高光谱数据与激光雷达提取的点云的回波高度及回波强度变量结合进行分类[16]，较少将激光雷达提取的树冠形态应用于树种分类当中。

综上所述，使用多源遥感协同进行树种分类的研究是林业遥感的一个重要研究方向。然而，相关研究中很少将单木树冠的形态特征，即描述树冠形状大小结构的参数[17]，用于树种的分类研究。因此，本文以机载高光谱数据与无人机激光雷达数据为数据源结合机器学习算法，通过对比多种方案的分类效果，探究多源遥感数据协同在单木尺度上进行树种分类的科学应用途径，同时，定量评估无人机激光雷达提取的树冠三维参数在单木树种分类研究中的应用潜力。

1 研究区概况

研究区位于黑龙江省尚志市帽儿山实验林场(127°18′～127°41′6″E,45°2′20″～45°18′16″N)，平均海拔高度300 m，最高海拔为805 m，坡度在10°～15°，属长白山系张广才岭西部小岭余脉，属中温带大陆性季风气候，是东北东部山区较典型的天然次生林区，主要植被类型是温带针阔混交林[18]。主要树种有白桦(Betulaplatyphylla)、水曲柳(Fraxinusmandshurica)、落叶松(Larixgmelinii)、榆树(Ulmuspumila)、柞树(QuercusmongolicaFisch)、红松(PinuskoraiensisSieb.)、色木(AcerpictumThunb)和椴树(TiliatuanSzyszyl.)等10多种。

2 研究方法

2.1 数据源和数据预处理

2.1.1 数据源

本研究的样地调查数据采集于2019年8月，在研究区内选取典型针阔混交林，设置100 m×100 m样地，在样地中以20 m为间隔设置子样地，共计25个(如图1所示)，对子样地进行每木检尺，获取单木的树高、胸径、冠幅、树种等参数。采集时，利用实时动态载波相位差分技术(RTK)标记了各个子样地中角点绝对位置以及每个单木在子样地内的相对位置。以株数量为标准，该林分内的主要树种为白桦、水曲柳、落叶松、榆树和柞树，同时还有少量的红松、椴树等其他树种。

图1 试验区基本概况

本研究中使用的无人机激光雷达数据采集于2019年8月。扫描设备是由飞马D200无人机平台携带的超轻RIEGL mini VUX-1无人机激光雷达扫描仪。无人机按交叉条带飞行，飞行高度为80 m，速度为5 m/s，条带间有80 m的旁向重叠。激光雷达脉冲的扫描频率为105 Hz，扫描速度约100次/s，每束激光最多能产生5次回波，点云的平均点密度为243.5个/m2。机载高光谱数据是由运20型飞机携带AISA Eagle II高光谱传感器对林分进行扫描得到的。扫描覆盖面积约360 km2，相对航高1 200 m，飞行速率约65 m/s，高光谱图像的地面分辨率为1.5 m，共有64个波段，波谱范围380～1 000 nm，光谱分辨率为3.3 nm。高光谱数据采集于2015年9月，虽然与无人机数据存在时间差，但二者均为生长季采集，相对于季节性的周期变化，单木种内光谱信息在相同生长季保持相对稳定[19]。同时，在数据采集间隔期内，研究区内没有进行过采伐等人为干扰活动，也没有发生过火灾、病虫害等自然干扰，因此可以认为样地内的树种及分布没有变化。综上所述，可以认为时间差异对单木树种分类的结果影响较小。

2.1.2 激光雷达数据预处理

原始激光雷达数据的预处理包括航带拼接、噪声去除、数字高程模型(DEM)和CHM的生成、点云的高程归一化处理以及单木分割等。

CHM是激光雷达遥感在林业应用中的一个重要模型，能够用于描述冠层的水平和垂直分布情况，从而勾绘出精确的树冠轮廓[20]。基于CHM的单木分割可以以较小的时间成本快速识别树冠顶点和树冠轮廓。本研究对归一化点云采用Khosravipour et al.[21]2016年提出的孔洞填充算法生成无孔洞的CHM。根据样地点云密度与单木最小冠幅将CHM的空间分辨率设置为0.5 m。选择这一空间分辨率既可以保证一定的分割精度[22]，也避免了和高光谱影像的空间分辨率差异过大。

使用标记控制分水岭分割算法[23]对CHM进行单木分割以得到样地内单木树冠边界及单木结构参数。利用实测数据的单木位置及冠幅作为参考对单木分割结果进行评价。在单木分割基础上，根据单木位置及树冠边界提取单木点云，以进一步计算单木的树冠形态特征。

2.1.3 图像配准和单木匹配

在提取单木特征之前，首先要将高光谱数据和激光雷达数据进行配准。本研究以样地边界内的CHM图像为基准，将高光谱影像与CHM进行相对配准。由于样地为林地，缺少可以用于配准的标志性地物。因此，本研究将形状、大小、位置都较为明显的林隙作为配准依据，以林隙周围较为明显的单木作为控制点，用目视解译的方法对不同图像进行了相对配准，以高光谱图像为参考，将位置误差控制在0.5个像元内。

将实测单木的位置与CHM图像进行相对配准，随后将激光雷达识别的树冠和实测单木按树冠位置进行匹配[16]。根据研究区具体情况，定义实测单木与其匹配的LiDAR识别单木树高误差小于识别单木30%时，可以做为1∶1匹配单木，否则剔除不用。

2.2 特征提取与特征筛选

2.2.1 高光谱特征的提取

在单木分割的基础上，本研究根据样地内的主要树种，在每个树种中随机选取了10株单木样本，并绘制其光谱曲线，作为光谱特征选取的依据(图2)。可以看出，几个主要树种在光谱上的差异主要集中在近红外波段和“红边”部分，因此在光谱特征的选择上，应对相关的波段加以关注。因此，本研究使用高光谱数据的原始波段、最小噪声分数变换及主成分变换变量、植被指数作为单木树种分类的特征变量。其中，主成分变量选取了方差贡献率在95%以上的部分，最小噪声分数变量则提取经过最小噪声分数变换后，信噪比大于3的变量。具体的光谱特征变量见表1和表2。

图2 5个主要树种的光谱曲线

表1 光谱特征列表

表2 植被指数列表

2.2.2 LiDAR特征的提取

本研究同样提取了激光雷达数据的高度、强度变量和叶面积指数等参数作为分类特征，用于探究激光雷达变量的加入对分类结果的影响。其中，高度变量包括高度平均绝对偏差、冠层起伏率、高度百分位数(5个)及四分位间距、均值、标准差、方差、最小值、中位数、最大值、变异系数、偏度、峰度、高度累计百分位数(5个)及四分位间距等共23个变量，强度变量包括平均绝对偏差、强度百分位数(5个)及四分位间距、均值、标准差、方差、最小值、中位数、最大值、变异系数、偏度、峰度、累计百分位数(5个)及四分位间距等共22个变量。其中，在高度、强度百分位数的选择上，由于5%～10%间距的高度、强度百分位数具有共线性[24]。因此，本研究以25%为间隔，提取1%、25%、50%、75%、99%的高度及强度百分位数。

2.2.3 树冠形态特征的提取

为了探究树冠形态特征对单木树种分类的影响，本研究还利用无人机激光雷达数据提取了3个与树冠形态有关的参数[25]，分别为树冠率指数(RCi)、冠形率指数(RCSi)、树冠体积比(RVH)。在进行分类之前，对取得的数据进行标准化处理，以降低因不同属性的数据数值的差异对分类造成的影响[26]。3种树冠形态特征及其计算方式如下：

LCi=VC/AC,

(1)

RCi=LCi/H,

(2)

RCSi=LCi/WC,

(3)

RVH=VC/H。

(4)

式中：H为探测树高；WC为探测冠幅；AC为探测冠面积；VC为探测冠体积；LCi为冠长指数。

2.2.4 特征变量的筛选

本研究采用随机森林的OOB(袋外数据)检验结果对变量的重要性进行排序和筛选[27]。随机森林的OOB检验原理是在随机森林的每一次抽取时，将未被抽取的“袋外数据”作为检验样本，对分类器精度进行检验。同时将每个分类参数分别置换为随机数，对比其对分类结果的影响，由此得到各个变量的重要性[28]。本研究以平均下降精度(MDA)和平均基尼系数衰减(MDG)两个指标作为衡量变量重要性的依据。其中MDA表示将该变量用随机数替换后，分类精度的下降情况;MDG表示计算每个变量对分类树每个节点上观测值的异质性的影响。二者都是数值越大，对分类的影响越大。根据OOB检验结果，筛选掉重要性较低的变量，多次筛选直到得到精度符合要求的变量组合。

2.3 分类方案

本研究以样地内的白桦、水曲柳、落叶松、榆树和柞树5个树种作为分类对象。其他树种由于在样地内数量过少，无法有效区分训练集和测试集，因此不作为分类目标。本研究共设计8种单木树种分类的方案，具体分类方案见表3。其中方案1、3、5和7对应方案2、4、6和8用于对比两种机器学习分类器在单木树种分类上的优劣；方案1～6用于对比单一数据源和多源遥感协同分类效果的差异；方案7和8相对于方案5和6，主要用于探究树冠形态特征对分类的影响。

表3 8组分类方案简介

2.4 机器学习算法分类及精度评价

为保证训练样本和测试样本中各个树种分布均衡，本研究采用分层抽样的方法将样本分成5组，使用5折交叉检验的方式评价不同分类器在不同样本和变量下的分类效果。对不同样本的分类结果进行分析，对比不同分类器以及不同样本之间分类精度的差异，并对差异做出讨论。最后，将激光雷达提取的树冠形态特征加入分类器中，用相同方式对模型进行检验，对比这些变量加入前后分类结果的差异，评价这些参数对单木树种分类的精度影响。本研究使用以下4个指标评价分类精度，分别是每个类的生产者精度(AP)和用户精度(AU)，以及模型的总体精度(AO)和Kappa系数(Ikappa)，两种分类器均在R语言环境下进行构建。指标的计算方法如下：

AP=(Xii/N)×100%，

(5)

AU=(Xii/X+i)×100%，

(6)

AO=(Xii/Xi+)×100%，

(7)

(8)

式中：Xii是检验样本中为第i类树种且分类结果正确的总数；X+i是被识别为第i类树种检验样本总数；Xi+为第i类树种的检验样本总数；N为检验样本数量；r为单木种类数。

3 结果与分析

3.1 图像匹配和单木分割

由于样地林分密度较大，因此树冠会出现互相遮挡的情况，致使低矮单木的树冠无法在遥感影像上或是激光雷达上探测出来。因此，在进行单木匹配之前，本研究对枯死木和被遮挡的低矮单木进行了剔除，剔除后，共得到单木854株。通过单木匹配，得到完全匹配的单木共计719株，单木匹配的生产者精度为80.7%，用户精度为84.2%。图3中红色方框为同一林隙标识物，可以看出，两种遥感数据匹配的效果良好，样地内成功匹配的单木位置如图4所示。最终用于分类的样本及数量分别为：白桦258株、落叶松84株、水曲柳167株、榆树60株、柞树67株。

图3 按林隙配准栅格图像

图4 成功匹配单木分布图

3.2 特征变量的筛选

根据随机森林OOB检验对两种遥感数据所提取的分类特征变量进行筛选，结果如图5所示。其中，仅以高光谱数据作为单一数据源时，提取了12个变量；仅以LiDAR数据作为单一数据源时，提取了13个变量；同时使用高光谱和LiDAR数据时，提取了15个变量(表5)。高光谱数据提取的变量的重要性比LiDAR提取的变量的重要性更高。LiDAR提取的变量中，高度变量的重要性要高于强度变量。仅使用高光谱数据时，最重要的变量为第1主成分变换变量和第54波段。仅使用LiDAR数据时，高度平均数和累计高度50%分位数重要性最高。

表5 各个变量对分类的影响

3.3 分类结果

对样地内各树种的分类结果如表6和表7所示。多源遥感协同分类的整体精度要明显高于使用单一数据源分类的精度。其中，多源遥感数据协同结合随机森林进行分类的精度最高，为80.53%，而仅采用LiDAR数据作为单一数据源结合BP神经网络的分类方案精度最低，为51.33%。对比不同分类器，随机森林的分类精度要高于BP神经网络，平均高4.2%。在5个分类树种中，白桦的分类精度相较于其他树种较高。

表6 前6组分类方案树种分类结果

加入树冠形态特征后，得到分类结果如表8所示。对比方案5和6，加入树冠形态特征后，模型的整体精度平均提高了1.19%。其中，对于落叶松的识别精度提高较为明显，平均提高了5.98%。本研究最终采用分类精度最高的方案7对样地内的树种进行分类，分类结果如图5所示。

表7 前6组分类方案的模型精度

表8 加入树冠轮廓因子后的分类结果

图5 样地内树种分类结果

4 讨论

通过对比不同分类方案的分类结果可以看出，多元遥感协同进行单木树种分类的精度要略高于只使用单一数据源的分类结果。在使用多源遥感数据时，高光谱数据可以提供更为丰富的光谱信息，LiDAR数据则补充了冠层垂直结构上的信息，使得分类器对于单个树种特征的识别更为充分，从而可以获得更高的精度[29-30]。分树种来看，仅使用光谱特征时，白桦和柞树的分类效果较好，精度在70%以上。这是由于这二者的光谱特异性表现更为明显且样本数也较多，以往也有研究得出过类似的结论[31]。仅使用LiDAR数据时，落叶松的分类精度较高，这是因为落叶松是本研究选取的5个树种中唯一的针叶树种，LiDAR数据很好地反映了针、阔叶树种在垂直结构上的差异。

对比方案1、3、5、7和2、4、6、8的分类结果可以看出，随机森林的分类精度和Kappa系数相比与BP神经网络更高，这证明随机森林分类器在单木树种分类应用中的准确性和可靠性更高。随机森林可以提供多个决策树的不同解释，在分类问题上具有更好的性能，而神经网络算法则对数据量要求较高，需要较大的数据量才能取得更好的分类效果[32]。由于本研究采用的数据样本量相对较少，因此很难发挥BP神经网络分类器的的优势。

对比方案7、8和方案5、6的分类结果可以看出，树冠形态特征的加入使得单木树种识别精度平均提高了1.19%。虽然LiDAR提取的高度、强度变量可以一定程度上反映单木树冠在垂直方向上的结构特性，但难以描述树冠整体的形态特征[33]。相比之下，本研究提取的树冠形态特征参数可以更好的描述树冠整体的形态，从而补充了树冠在垂直方向上的结构信息。由于各个树种树冠形状存在差异，因此引入树冠形态特征可以进一步提高单木树种分类的精度。此外，加入树冠形态特征变量后，落叶松识别精度的提高最为明显。这是因为针阔叶的树冠形状差异更大[34]。但是因为样地内的各个阔叶树之间树冠的形态差异较小，且样地内林分密度较大并存在树冠重叠的现象，因此分类精度提升幅度较小。不同树种的树冠点云如图6。

图6 5个主要树种的点云

与此同时，本研究存在一些不足之处。首先，研究中采用的高光谱数据与实地数据的采集时间相差4 a，这可能导致遥感图像所提取的光谱曲线与样地树木的实际光谱存在一定的差异。其次，本研究选取的范围较小，且树种的数量并不平衡，导致部分树种无法进行分类，这些不足将在日后的研究中加以弥补。

5 结论

本研究以无人机激光雷达及机载高光谱数据为数据源，结合机器学习算法，探讨了8种分类方案下的单木树种分类结果。结果表明，相较于使用单一数据源，多源遥感协同分类的分类精度有显著提高。且在使用单一数据源时，高光谱数据的分类精度要高于激光雷达数据。随机森林分类器在单木树种分类中的应用效果要优于BP神经网络。无人机激光雷达所提取树冠形态参数能够有效提高单木树种的识别精度，尤其在针、阔叶树种的区分上具有较大的潜力。