基于无人机高光谱遥感影像的防护林树种分类

2021-12-07 05:36赵庆展王学文张丽红张建新
农业机械学报 2021年11期
关键词:植被指数波段分类器

赵庆展 江 萍 王学文 张丽红 张建新

(1.石河子大学信息科学与技术学院, 石河子 832000; 2.兵团空间信息技术研究中心, 石河子 832000;3.石河子大学机械电气工程学院, 石河子 832000; 4.150团农业发展服务中心, 石河子 832000)

0 引言

建设“三北”(西北、华北和东北)防护林体系工程是改善地区生态环境、解决生态灾难的根本措施,对于巩固和发展我国绿色生态屏障具有重要意义[1]。树种多样性是评价防护林林分结构的指标之一,树种类别属性信息对于建设和监测防护林生态系统意义重大,可为防护林规划者提供监测、管理、评估防护林的重要依据,确保其发挥防风固沙、农田保护等作用[2]。

与常规的实地勘测相比,遥感技术可以快速高效地监测林业生态系统[3-4]。林业遥感的一个重要方向就是树种分类及识别技术,被动遥感和主动遥感的迅速发展,使得研究人员能在更精细的尺度上识别森林各项属性[5]。部分学者融合激光雷达和高光谱数据对森林树种进行分类研究并取得了积极进展,但激光雷达数据的获取成本昂贵且受飞行区域面积影响,应用前景受到限制[6]。多光谱卫星遥感受到空间分辨率和光谱分辨率的影响,对于地物精细分类同样具有局限性[7]。高光谱数据能发掘更多的植被信息,当前无人机高光谱数据获取便捷、成本低、周期短、空间分辨率高,给树种分类带来新的遥感数据源。

高光谱影像具有高维特性,在样本数量有限时,直接分类易导致维数灾难,不仅增加了数据处理成本,而且会降低地物分类精度。有学者研究发现,在不影响地物分类精度的前提下,高光谱的部分波段是冗余的[8]。因此对高光谱影像进行分类之前先进行降维处理。文献[9]运用最佳指数法(Optimum index factor,OIF)、自适应波段选择法(Adaptive band selection,ABS)、自动子空间划分(Automatic subspace partitioning,ASP)与自适应波段相结合(ASP+ABS)3种方法进行无人机高光谱数据波段选择,提取信息量较大且波段间相关性较低的原始最佳波段组合,基于支持向量机(SVM)分类器对薇甘菊进行分类。OIF、ASP、自适应波段选择法,或是基于类别可分性的标准距离、离散度、B距离法、J-M(Jeffrey-Matusia)距离法等依赖于大量的数学计算,且选取的波段在光谱覆盖范围内分布不均匀[10]。对于荒漠区防风固沙林,林地各树种冠层原始光谱相似,仅靠原始光谱特征进行树种分类容易产生异物同谱现象,加入一些其他特征(纹理特征、植被指数、数理统计特征等)可有效提高分类精度[11-12]。支持向量机和随机森林(RF)两种分类器在面对样本数据少、维数高的遥感数据时都表现出了优良性能。而最大似然法(MLC)分类器在运行速度上具有明显优势,但易产生休斯现象(Hughes phenomenon,HP)[12]。一些学者对SVM、RF、MLC分类器对于树种分类精度的影响进行了研究,当面对不同遥感数据和不同特征变量时,这3种分类器表现出了不同分类性能[13-20]。在实际应用中,面对不同研究区和数据源,还无法确定树种分类哪种算法最为适宜。

针对以上问题,本文采用基于交叉验证的SVM-RFE(递归特征消除)算法, 在RFE算法中引入交叉验证,对高光谱所有波段进行5折交叉验证,并选出最优波段的评分集合,根据评分对无人机高光谱数据进行原始最佳波段组合的选择,并与OIF进行比较;结合纹理特征、植被指数以及数理统计特征,采用RF特征重要性分析与分类精度相结合的方法进行特征优化,并评估不同特征对分类结果的影响;采用4种分类方案分别基于最大似然法、支持向量机和随机森林进行研究区树种分类,评价不同分类算法对于研究区树种的分类性能,以选择最适于研究区树种分类的分类算法。

1 研究区数据获取与预处理

1.1 研究区概况

研究区位于新疆天山以北,准噶尔盆地南缘,莫索湾垦区北端的150团三北防护林区域(45°10′N,85°56′E,见图1)。研究区防护林属于防风固沙林,考虑到150团的地理条件和适生植物种类以及“三北”防护林工程树种组成配置原则[1],林分形式为草类、灌木、乔木相结合,为固定沙地以及保护耕地,榆树林、混合阔叶林分布在道路两旁,其垂直结构为乔木层、灌木层、草本层。总面积约为451 km2。该地区为大陆性暖温带荒漠干旱气候,地势平坦,海拔300~500 m,主要乔木树种为榆树、新疆杨、胡杨、沙枣、梭梭等,林下植被以杂灌为主。本研究选择榆树、新疆杨、胡杨以及沙枣作为优势树种进行分类。

1.2 无人机平台

所用无人机平台为Matrice600型六旋翼无人机,最大承受风速可达8 m/s,最大平均飞行速度18 m/s,续航时间20 min左右,最大航程5 km,适配RONIN-MX型多功能云台,可搭载多种可见光与高光谱载荷设备。高光谱传感器采用芬兰SENOP公司生产的Rikola型高光谱成像仪,成像方式为框幅式成像,该成像光谱仪质量轻(720 g)、体积小,既可手持测量又可以搭载在小型无人机上,默认光谱范围为500~900 nm,最多可达380个波段,可以根据数据采集要求调整光谱范围和波段个数。

1.3 高光谱数据获取

影像获取时间为2019年10月9日,无人机飞行高度200 m。为满足影像高分辨率要求以及飞行高度和相机参数需求,设置42个波段(光谱范围为502~903 nm,间隔约为10 nm),航向重叠率为82%,旁向重叠率为80%,空间分辨率为0.12 m,同时在地面设置4块地面辐射靶标,反射率分别为3%、22%、48%和64%,用于后期进行影像辐射校正处理。

1.4 地面调查数据

为了保证利用遥感影像进行样本数据标注过程的准确性,同期在研究区开展实地数据调查,根据研究区林分具体情况,选取了3个典型区域作为研究区进行采样。样地调查时间为2019年10月7日,采样过程中利用便携式GPS设备记录采样点位置信息,在各个样地中记录每棵单木树种情况。调查完成后,将原始数据记录整理至Excel表格,形成完整的调查记录表,采样共获取了40个样本点的树种类型数据,包括榆树、新疆杨、胡杨和沙枣等。

2 研究方法

首先对高光谱影像进行预处理以及分类特征集的构建,基于交叉验证的SVM-RFE(支持向量机-递归特征消除)算法选取原始波段最佳组合,再结合植被指数、纹理特征、数理统计特征等,构建新的影像分类特征。其次基于RF算法进行特征重要性分析,与分类精度相结合去除重要性得分排名靠后15%的特征。最后构建4种分类方案进行影像分类并作精度评价,比较不同分类器的分类效果。本研究技术路线如图2所示。

2.1 高光谱数据预处理及样本数据获取

将获取到的原始高光谱影像导出,使用Agis Photoscan软件完成系统校正工作(包括暗电流校正、镜头渐晕校正、辐射定标和图像格式转换),使用ENVI软件将其转换成标准TIFF格式的栅格影像数据。将POS数据(影像的经纬度信息)与影像一一对应,在Agis Photoscan中进行拼接处理,得到0.12 m空间分辨率的高光谱影像数据。对拼接完成的正射影像进行辐射校正,机载高光谱影像的实际数字量化值DN与地面反射率Ref的关系表达式为

Ref=DNa+b

(1)

式中a——定标增益系数b——偏移值

根据定标方程,以绘制感兴趣区域的方式分别统计4块靶标影像的DN值(实际数字量化值),并与4块靶标的标准反射率相对应,采用最小二乘法进行拟合,从而获得机载Rikola型高光谱仪辐射定标系数a和偏移值b[21]。

根据采样获取的地面样本点信息,对研究区主要树种进行记录,排除了数量较少或被其他冠层遮挡的树种,并根据实际分类效果选取地物样本;通过ENVI的创建ROI工具直接在影像上选取感兴趣区作为样本点。根据各地物在研究区的分布,最终共选择了33 689个像元作为样本数据,取3/4作为训练样本,其余作为验证样本。

2.2 原始最佳波段组合

训练样本较少且各树种样本数量不均匀时会降低分类器的分类性能。为了避免此类问题,对高光谱影像进行特征挖掘[22]非常必要,特征挖掘包括特征提取、波段选择和其他用于特征空间重构的运算。

特征提取是通过对原始光谱数据进行数学变换来降维和增强光谱特征,例如基于信息量正交线性变换的主成分分析法(Principal component analysis,PCA)、基于图像数据相关性的最小噪声分离(Maxmum noise fraction,MNF)等,通过PCA对数据进行预处理一般需要假设数据服从高斯分布,由于高光谱数据非线性特点,此类算法进行降维后会丢失大量原始数据中的非线性信息[23]。波段选择是按照一定标准选择一个原始光谱数据的最优波段子集,该波段子集保留了地物的光谱特征或是提高了地物类别可分性。波段组合就是一个组合优化问题,其组合标准称为目标函数[24]。目前应用较为广泛的为最佳指数因子选择法(OIF)[25]、波段相关性比较、波段指数法等。

最佳指数因子选择法(OIF)综合考虑单波段影像信息量以及各波段间相关性,更接近于波段选择原则,且计算简单易于实现。OIF计算公式为

(2)

式中Si——第i个波段标准差

Rij——波段间相关系数

ROIF——最佳指数因子

OIF越大,说明波段组合质量越好。

支持向量机算法也可被用于波段选择,与递归特征消除算法结合应用效果良好。SVM-RFE算法是一种嵌入式的特征选择方法,与包装法不同,嵌入法不将分类器视为黑盒,而是使用训练分类器获得的信息来选择特征。因此本研究采用SVM-RFE算法选择原始最佳波段组合,其主要思想是构建一个模型进行多次训练,每轮训练移除若干权值系数较低的特征,再基于新的特征集进行下一步训练,直至选出满意的特征(利用SVM的分类性能进行波段选择,利用SVM的结果评价降维性能)[26]。在进行高光谱数据降维时如何确定降维后特征数目非常困难,传统的RFE算法需要在训练前确定降维后特征个数,本文将交叉验证的思想引入RFE算法,提出了基于交叉验证的SVM-RFE算法,在REF的基础上对不同的波段组合进行交叉验证,学习器SVM本身不变,通过计算其决策系数之和,最终得到不同波段对于分类的重要程度,然后保留最佳的波段组合。

2.3 植被指数特征构建

植被指数特征利用波段间数学变换对影像进行指数特征提取,根据本研究区的地物种类以及高光谱数据可选波段,构建了10个相关的植被指数进行研究。在进行指数计算后,对所有植被指数进行归一化处理,基于CART决策树的特征重要性评估对各个植被指数进行重要性评分,最终选取了5个重要性得分最高的植被指数特征,如表1所示。

表1 植被指数计算及基于CART决策树特征重要性评估Tab.1 Vegetation index calculation and feature importance assessment based on CART decision tree

高光谱数据不仅包含地物连续的光谱信息,也包含丰富的地物空间分布信息,仅考虑光谱信息,难以准确地对高光谱图像进行分析[27]。可以通过灰度共生矩阵构建纹理特征引入空间信息,纹理特征是表达高光谱影像空间特征的有效方法之一[28]。

对影像数据通过主成分分析进行降维处理,将影像信息压缩至几个主成分中,提取主成分包含信息量最高的第一主成分。通过对第一主成分进行灰度共生矩阵计算,空间域选用二阶概率统计滤波提取纹理特征。分别计算3×3、5×5、7×7滤波窗口纹理特征,发现7×7窗口的纹理特征标准差最大,因此将滤波窗口设置为7×7,获得8项纹理特征,分别为均值、方差、同质性、对比度、非相似性、熵、二阶矩、相关性。

2.4 分类特征优化

特征优化选取了特征变量中重要性较高的特征变量。RF可以对特征变量的重要性和贡献度进行评估。在构造决策树时,通过bootstrap抽样法从训练样本集中提取数据,对于决策树中的每个节点,先从所有特征中随机选取mtry个特征,根据基尼系数进行分裂测试并找到最佳特征。训练过程中未被抽取的样本被称为袋外(Out of bag,OOB) 数据,利用OOB 数据进行分类结果的精度评价以及不同特征变量的重要性计算[29]。本文通过改变森林中树的数量进行多次实验,实验中记录特征重要性得分,最后与分类总体精度相结合,去除冗余的特征变量。

2.5 分类模型构建

RF通过集成学习的思想将多棵决策树集成,不仅能够有效地运行在大数据集,而且可以在无需降维的情况下处理具有高维特征的输入样本[28]。随机森林分类需要设置两个参数,随机森林树的个数(ntree)以及树节点预选的变量个数(mtry)。本研究通过多次实验发现, ntree在550以后分类总体精度几乎不变,因此将ntree设置为550,mtry默认使用“Square Root”方法,即输入分类器特征变量数的平方根。SVM可以自动寻找那些对分类有较大区分能力的支持向量,由此构造出分类器,将类与类间隔最大化[11]。支持向量机所选核函数为RBF函数(径向基函数),最优惩罚系数C为0.036。

分类方案为: 第1组选择原始高光谱全部波段(n=42,n表示波段数)作为分类器的输入; 第2组选择原始最佳波段组合(n=17)作为分类器的输入; 第3组选择全部特征变量(n=33)作为分类器的输入; 第4组选择优化特征变量(n=28)作为分类器的输入;分别基于SVM和RF以及MLC这3种分类器进行分类。为了评估分类结果的准确性以及无人机高光谱数据在防护林物种分类应用中的有效性,利用采样点建立地面真实的感兴趣区并构建混淆矩阵。对于每个分类结果,混淆矩阵提供了总体精度(Overall accuracy,OA)、Kappa系数、用户精度(User accuracy,UA)和生产者精度(Producer accuracy,PA)来评价分类精度。

2.6 影像分类后处理

运用监督分类以及随机森林基于像素的分类时,分类结果中不可避免地会产生椒盐现象和一些小的图斑,为了增强分类效果,对初步的分类结果通过中值滤波对图像进行平滑,消除椒盐噪声和小的斑点(卷积核尺寸为5×5)。

对于分类类别中产生的错分像元,采用聚类分析工具(MajorityhMinority)进行归类(变换核尺寸为5×5,中心像元权重1)。对于因缺少空间连续性而产生的斑点和洞,采用聚类处理工具(Clump)解决。对图像中出现的孤岛点,运用过滤处理(Sieve)工具消除。

3 结果与分析

3.1 原始最佳波段组合

以研究区优势树种为研究对象,分别使用OIF法(表2)和本文提出的基于交叉验证的SVM-RFE算法进行原始最佳波段组合选择。

预处理后的无人机高光谱数据有42个波段,计算所有波段组合的OIF指数,选取指数排序前20的波段组合,如表2所示。本研究从OIF值前20的最佳波段组合中选取了11个波段进行原始波段组合,所选波段序号为1、2、3、4、5、6、35、36、37、38、42。通过OIF算法选取原始波段最佳组合计算复杂度高、耗费时间长,由表2可知,选择的波段呈现两极分化现象,分别集中在蓝光波段和近红外波段,绿色和红色波段未被选择,丢失了大量原始信息。

表2 OIF指数排序Tab.2 OIF index ranking

而基于本文提出的方法所选的原始波段为17个,对选取的波段进行波段组合,所选波段序号为1、2、3、8、11、13、17、20、21、23、26、28、35、36、40、42。基于本文提出的方法所选的波段覆盖了整个范围,波段选择均匀且计算量相对较小。将两种波段组合选择方法的榆树光谱响应曲线分别与原始的42个波段榆树光谱响应曲线进行对比,如图3所示,由图3可知,基于交叉验证的SVM-RFE算法选出的波段特征组合,榆树光谱响应曲线与原始42个波段榆树光谱响应曲线拟合良好,较好地保留了原始光谱特征。基于两种方法选取的原始最佳波段组合得到的分类结果如表3所示,基于OIF法选取原始波段组合总体分类精度与Kappa系数与原始全波段相比都降低了,而基于本文提出的方法总体精度和Kappa系数与原始全波段相比几乎不变。相比较于OIF法,本文提出的方法更适合用作高光谱数据的原始最佳波段组合选择。

表3 原始波段选择分类结果比较Tab.3 Comparison of original band selection and classification results

3.2 特征变量重要性分析与特征选择

通过随机森林的OOB误差分析得到特征变量重要性分布(图4,图中ica1~ica3表示独立主成分分析后3个主成分,bi(i=1,2,3…)表示原始波段,glcm1~glcm8分别表示均值、方差、同质性、对比度、非相似性、熵、相关性、二阶矩),重要性得分越高,该变量对分类结果的影响以及贡献越大。通过改变决策树的数量发现,当决策树数量达到2 000,特征重要性排序以及删除的特征变量基本不变。因此选择RF决策树数量为2 000时实验结果作为最终的特征重要性分析结果,如图4所示,分析可知:植被指数以及数理统计特征重要性得分较高,绿色比值植被指数重要性排名第一,这是由于研究区榆树占大多数,且长势良好,叶绿素含量较高,因此在近红外波段反射率较高。其他植被指数特征和数理统计特征均排在前20%,说明本文构建的植被指数特征对于防护林树种分类有重要作用;而数理统计特征选取的是独立主成分分析的前3个主成分,其包含了原数据95%以上的信息量,因此重要性得分较高。

纹理特征重要性普遍较低,造成此现象的原因可能是因为经过主成分分析以后,排名靠后的纹理特征包含的原始数据信息量较少。

按照特征重要性排序和特征数量依次从1到33输入RF分类器,利用地面真实感兴趣区建立混淆矩阵,对分类结果进行评价,评价指标为总体分类精度(OA)和Kappa系数,特征变量数与分类精度关系如图5所示。分类精度在特征变量数1~11时明显提高,分类总体精度和Kappa系数分别为94.73%和0.93。特征变量数从11开始,分类精度呈上升趋势,但不明显。当n=28时分类精度最高,总体精度和Kappa系数分别为95.53%和0.947 5。伴随着纹理特征的加入,分类精度呈略微下降趋势,说明特征变量过多易导致数据冗余和过拟合现象。最终确定重要性排名前85%的特征变量(n=28,包括17个光谱特征、3个纹理特征、5个植被指数和3个数理统计特征)作为分类器的输入。

3.3 不同分类器分类效果对比分析

本研究使用28个优选特征,基于同一训练样本,分别采用 MLC、SVM和RF算法进行树种分类。从分类图(图6)来看,3种分类器对研究区的树种都有不同程度的混分与错分现象,沙枣分类精度最低,MLC和SVM对于榆树和沙枣混分比较多,原因是研究区域内沙枣种植数量少,树冠大,侧斜枝较多,反映到图像上光谱信息较强,与区域中其他树种(榆树)混合种植,二者光谱特征相似,增加了分类难度,造成沙枣与榆树混分的现象。

长势旺盛的新疆杨与胡杨光谱、纹理特征相似,不易分辨,故两者有轻微混分现象。研究区周边农田棉花低矮,反映到图像上光谱信息较弱,与区域中灌木较为相似,棉花地和灌木也有少量混分现象。

由于考虑到防护林的总体效应,种植时会综合考虑特定的树木种类与灌木混合,防护林下分布了大量灌木,增加了树种精细分类的难度。此外,高光谱数据采集时间在研究区的深秋季节,大部分植被已经开始枯萎,部分胡杨、沙枣已经枯萎或死亡而未被识别出来,影响了制图精度。3种算法都有不同程度的椒盐噪声,造成此现象的原因是本研究所使用的传感器空间分辨率较高。

表4汇总了基于特征优化后不同的分类器分类精度评估结果。实验结果表明,RF分类精度最高,总体分类精度为95.93%(Kappa系数为0.947 5);MLC总体分类精度最低,为88.70%(Kappa系数为0.850 8)。与MLC和SVM相比,RF总体精度提高了6.83个百分点和1.32百分点,Kappa系数提高了0.096 7和0.024 1,大多数防护林树种的PA和UA都在80%以上。从单个树种分类精度来看,与MLC相比,随机森林分类器减少了白杨和榆树的漏分和错分;与SVM相比,减少了胡杨与沙枣的漏分与错分,PA与UA较高证明了这一点。

表4 不同分类器分类结果Tab.4 Results classified by different classifiers

从表5来看,分类方案2的结果表明,本文提出的高光谱数据波段选择方法是有效的。与仅使用光谱特征相比,植被指数和纹理特征以及数理统计特征的加入大大地提高了单个树种的分类精度,用户精度提高了 0.18~24.84个百分点。特征优化后,分类总体精度提高了0.39个百分点,Kappa系数提高了0.065,虽然精度提高不明显,但数据处理效率提高,且挖掘出了适合于研究区树种分类的特征。RF算法比MLC、SVM算法分类精度高,分类效果更好,对于研究区树种分类具有很好的适用性。

表5 不同分类方案的RF分类结果Tab.5 RF classification results of different classification schemes

3.4 影像分类后处理

本研究最终使用28个优选特征,基于同一训练样本采用 RF 算法进行树种分类。对于初步分类结果,进行了图像分类后处理,采用中值滤波器去除椒盐噪声和较小图斑,效果良好;使用聚类分析、聚类处理和过滤处理,解决了图像中较大类别中的虚假像元问题,因缺少空间连续性而产生的斑点和洞以及图像中的孤岛问题,效果良好。从表6可以看到,处理后树种分类OA和Kappa系数分别提高了1.01个百分点和0.012,本文的分类后处理方法可以有效增强分类效果。分类后处理效果如图7所示。

表6 RF分类后处理结果Tab.6 RF (n=28) classification and post-processing results

4 结论

(1)提出了基于交叉验证的SVM-RFE算法提取原始波段最佳组合,相比较于OIF指数法,所提出的方法计算量相对较小且很好地保留了原始光谱特征信息,降低维度的同时增加了树种类别可分性,与最佳指数法相比,基于交叉验证的SVM-RFE算法更加适合于高光谱数据的波段选择。

(2)纹理特征、植被指数以及数理统计特征的加入提高了单个树种的分类精度。绿色比值植被指数(GRVI)、类胡萝卜素指数(CRI)、修正型土壤调整植被指数(MSAI)、归一化植被指数(NDVI)、归一化绿度差值指数(NDGI)等植被指数特征对于提高研究区防护林树种的分类精度是有效的。基于RF的特征重要性分析与分类精度相结合的方式进行特征优化后,分类总体精度提高了0.39个百分点,Kappa系数提高了0.065,说明去除的纹理特征(方差、同质性、对比度、非相似性、相关性以及二阶矩)对于研究区的树种分类具有干扰性,去除以后提高了分类器的分类性能。

(3)基于构建的4种分类方案进行树种分类,特征优化后的特征变量组合分类效果最好,RF分类精度最高,总体精度可达95.93%(Kappa系数为0.947 5),MLC分类精度最低,总体精度为88.70%(Kappa系数为0.850 8),SVM总体精度为94.21%(Kappa系数为0.923 4),3种分类方法比较,RF是最适合于研究区的分类算法。

(4)对初步分类结果分别进行了中值滤波平滑、聚类分析、聚类处理和过滤处理,处理后分类总体精度和Kappa系数分别提高了1.01个百分点和0.012,本研究的分类后处理方法可以增强分类效果。

猜你喜欢
植被指数波段分类器
Ku波段高隔离度双极化微带阵列天线的设计
最佳波段组合的典型地物信息提取
学贯中西(6):阐述ML分类器的工作流程
基于无人机图像的草地植被盖度估算方法比较
新型X波段多功能EPR谱仪的设计与性能
冬小麦SPAD值无人机可见光和多光谱植被指数结合估算
最佳波段选择的迁西县土地利用信息提取研究
基于朴素Bayes组合的简易集成分类器①
基于动态分类器集成系统的卷烟感官质量预测方法
一种自适应子融合集成多分类器方法