优化随机森林的高光谱图像降维及分类算法

2022-03-21 02:25李淑英彭柏栋

西安邮电大学学报 2022年5期

李淑英，程磊，彭柏栋，张强

(西安邮电大学自动化学院，陕西西安 710121)

高光谱遥感图像由成像光谱仪获得的大量连续的光谱波段组成，其能够获取地物上百个连续光谱波段的信息，有效增强地物区分能力，已被广泛地应用于经济、农业及军事等诸多领域[1]。然而，过多的光谱波段使得地物分类精度会随着波段维数的增大而呈现先增后减的趋势，使用数据降维的预处理方法可以有效降低光谱波段维数避免这种趋势发生。分类是高光谱图像应用的一项重要内容，其目的是为了给图像中的每个像元标识类别[2]，但高光谱遥感影像的数据高维性会增加计算成本，降低分类器的分类精度，而机器学习和模式识别理论方法具有对新样本进行预测的特点，可有效利用现有少量样本的情况下实现并提高高光谱遥感图像的分类精度。

高光谱遥感数据降维方法主要分为特征提取和波段选择两类。特征提取是通过映射和变换的方法将波段空间的高维数据变换为特征空间的低维数据[3]，如主成分分析[4]及最小噪声分离[5]等。特征提取能迅速减少特征数目，但会损失原始数据的物理意义。与特征提取相比，波段选择能够保留遥感数据的原始特征和物理意义。波段选择是从原始的光谱波段集中选择出部分最具代表性的波段子集，也可有效降低数据纬度，如最佳指数子法[6](Optimal Index Factor，OIF)、自适应波段选择法[7](Adaptive Band Selection，ABS)等。但是，OIF算法计算量过大、运算效率较低，而ABS算法计算量大且易获得连续波段，此类波段的相关性较高，依旧导致数据冗余问题。为了弥补这些缺陷，近年来不断有研究者对传统算法进行改进。文献[8]将K-mean聚类与ABS算法结合，降低了模型的复杂度。但是，该算法在聚类过程舍弃了大量信息熵较大的波段，并未考虑这些波段是否有助于提升分类精度。文献[9]使用贝叶斯优化后的随机森林模型对波段进行特征评估，从而实现高光谱数据降维。同时，文献[10]提出随机森林-递归特征消除(Random Forest-Recursion Feature Elimination，RF-RFE)，该方法将随机森林特征评估和递归特征消除结合。但是，上述两种算法都存在保留连续波段的问题，过多的连续波段依旧会造成光谱信息的冗余，不利于后续的分类任务。

机器学习算法常用于完成高光谱遥感图像的分类任务，如随机森林、支持向量机(Support Vector Machines，SVM)、K最邻近(K-Nearest Neighbor，KNN)等。随机森林(Random Forest，RF)分类器因集成学习的思想，比单一分类器算法更适合解决特征维数高的数据。在进行分类任务前，需对分类器的超参数进行设定，一组最优超参数可以有效提高分类器的性能。目前，常用的优化算法有网格搜索[11](Grid Search，GS)、随机搜索(Random Search，RS)等算法。但是，GS算法为贪心算法，其搜索效率较为低下，而RS算法的每次寻优结果无法保证一致。因此，需要对经典寻优算法进行优化，基于改进网格搜索的随机森林参数优化算法使用粗细网格划分的网格搜索进行超参数搜索[12]，但该算法并未脱离贪心算法的范畴，时间成本仍然较大。文献[13]在文本分类领域将随机搜索和网格搜索结合，一定程度上弥补了网格搜索的缺陷，但该算法受限于随机搜索的结果，得到局部最优解可能性较高。

为了改善目前波段选择降维方法存在去冗余能力不足及分类器超参数寻优算法的时间成本高、寻优结果不稳定的问题，拟提出一种优化随机森林的高光谱图像降维及分类算法(Optimized Random Forest Algorithm for Hyperspectral Image Dimensionality Reduction and Classification，ORFDRC)。所提算法包括数据预处理和构建高光谱遥感图像分类模型两部分内容。在数据预处理部分，提出增强型随机森林降维(Enhanced Random Forest Dimension Reduction，ERFDR)的高光谱数据降维算法，通过联合互信息的随机森林特征评估对原始高光谱全体波段进行初步降维。其次，使用自适应临近波段融合进行新特征的构建。最后，将原始光谱特征和新特征进行评估替换完成新特征集的构建。在高光谱遥感图像分类模型构建部分，提出网格-爬山(Grid-Hill Climbing，GHC)算法，将网格搜索及爬山算法[14](Hill Climbing，HC)结合，对RF分类器进行超参数优化，并构建优化后的GHC-RF分类器。将ORFDRC算法与KNN及SVM两种算法在设定相同测试样本比例的情况下进行对比，验证所提算法的有效性。

1 相关研究工作

1.1 随机森林算法

随机森林算法属于并行生成的集成学习算法。集成的思想使得随机森林算法在处理类标签不平衡数据的过程中更具有优势，更适合高光谱数据的处理。将随机森林应用于高光谱图像的分类中，从而将进一步提升高光谱遥感图像在农业，军事等领域的地物分类的精度。随机森林算法结构具体如图1所示。

图1 随机森林算法结构

随机森林采用有放回采样方法从总训练集中抽取训练样本，产生多个子训练集，再由每个训练集各自构造决策树进行分类，最后对决策树进行投票得到最优结果[15]。随机森林中每棵决策树的训练集约含有原始训练集2/3的样本，剩余1/3样本构成袋外数据。对于每一棵决策树，使用相应的袋外数据计算其袋外误差，可用于特征评估。特征重要性[16]的表达式为

(1)

式中：a为波段编号；e1表示波段未加入扰动袋外误差；e2表示加入扰动的袋外误差；c表示决策树的个数。

对波段a的值进行扰动，如果扰动前后分类正确率变化较大，说明该波段在分类器中贡献较高，此时e1-e2的值将会很大。因此，I(a)值越大，该波段对于分类越重要，可根据不同数据集保留重要性得分前25%～50%的波段。

1.2 超参数优化算法

超参数是模型学习过程前设置值的参数，一组最优超参数可提高分类器的分类性能。超参数优化算法的任务是在尽可能短的时间内找到超参数值的最优组合，充分发挥分类器性能。常见的优化算法有网格搜索、爬山算法及模拟退火等。

GS算法是一种穷举方法。给定一系列超参数，从全部超参数组合中穷举遍历，找出最优解。当需要设定两个超参数时，每种超参数各有一组候选参数，将两组参数组合即可得到一个二维的网格，遍历网格中的所有节点，选出最优解。但是，该算法比较消耗资源和时间，当超参数比较多的时候这一缺点更加突出。

HC算法是一种启发式局部择优算法，其利用反馈信息帮助生成解的决策。该算法模拟爬山的过程，随机选择一个位置爬山，从当前的点开始和邻域节点进行比较，若已为最优，则返回当前节点；否则，更新起点，重复上述步骤，继续搜索到达到最高点[14]。但是爬山算法极易陷入局部最优解，得到全局最优解取决于初始点的位置，一个较优的爬山起点对着求解全局最优解有着重要影响。

1.3 相关指标

信息论常用来研究信息处理问题，常用的指标有互信息、信息熵及联合熵等。这些指标现在已被广泛应用于高光谱遥感领域。

1)互信息。互信息可以度量两个随机变量间相互依赖性，在波段选择中常用于度量两个波段的相关性。对于两波段图像X和图像Y的互信息[17]计算公式为

(2)

式中：x表示图像X中的元素；y表示图像Y中的元素；Pi(x)，Pj(y)分别表示变量x和变量y在第i个状态和第j个状态下的边缘概率密度；Pi(x)Pj(y)表示变量x和变量y的联合概率密度。

2)信息熵。信息熵常被用来作为一个系统的信息含量的量化，其可以衡量一个波段所含信息量的大小，信息熵[17]的表达式为

(3)

式中：Ω表示样本空间；pi表示样本i出现在图像中的概率。

3)峰值信噪比。峰值信噪比在图像处理上用于量化有损图像和重建图像质量，均方误差M及峰值信噪比P[18]的计算表达式分别为

(4)

(5)

2 ORFDRC算法

高光谱图像数据具有波段维数高及相邻波段间相关性大的特点。因此，需要对原始光谱波段进行降维的预处理工作。使用ERFDR算法对原始数据进行降维，在获取到新特征集后将特征输入到GHC算法超参数寻优后的RF模型构建的GHC-RF分类器中，完成高光谱遥感图像的分类任务。ORFDRC算法原理如图2所示。

图2 ORFDRC原理

ORFDRC算法步骤如下。

步骤1输入高光谱图像数据。将原始高光谱数据记为X，X∈RM×N×L，M×N为波段图像的大小，L为光谱维数。

步骤2数据预处理。使用ERFDR算法对高光谱图像降维。

步骤3构建遥感图像分类器。划分训练样本及测试样本，使用GHC算法对随机森林分类器的超参数进行寻优，构建GHC-RF分类器。

步骤4将特征及其对应的类别信息输入到分类器中进行训练，用所得模型对整个数据进行分类，得到分类结果。

2.1 数据预处理

考虑到高光谱遥感图像数据的高维及冗余特性，采用ERFDR算法对高光谱数据降维。该算法在有效降低数据的冗余性的基础上，利用到临近波段的互补信息为高光谱数据降维预处理任务提供算法支持。ERFDR算法实现由联合互信息的随机森林特征评估、自适应临近波段融合及构建新特征集等3部分组成。

1)联合互信息的随机森林特征评估。随机森林重要性评估保留的光谱波段存在部分连续，此类波段存在数据冗余，使用互信息及信息熵进行波段评定。计算相邻波段的互信息，由全体波段互信息数值分布设定阈值，若互信息大于阈值，则判定该组波段为相似，需剔除连续波段中信息熵值较小的波段，以此实现去除连续波段目的。

2)自适应临近波段融合。相邻波段间高光谱遥感图像的临近波段具有高相关性，计算高相关像素的均值会产生一个低噪声情形下的像素值，均值波段融合可在有效保留原始波段中大部分有用信息基础上，利用临近波段的互补信息，并去除部分噪音。通过计算第l波段的与其邻近波段的均值，构建新的波段Ql，其表达式为

(6)

式中：Pl表示高光谱波段子集中的第l波段；n表示单侧临近波段的个数n=1,2。根据波段自适应选择需融合的邻近波段数量，其评定标准为不同数量波段融合后的信息熵值，信息熵值大的为最佳融合波段。

3)构建新特征集。波段融合所得的波段并非一定比原始波段所含信息量高，因此需要对两者进行质量评定。通过计算原始波段及最佳融合波段的信息熵及峰值信噪比，完成对原始波段及融合波段的质量评定。若在信息熵不降低的情况下，噪音得到去除，则用最佳融合波段替换原始波段；反之，则保留原始波段，完成新特征集的构建。

2.2 构建遥感图像分类器

随机森林算法中树的数量或树的深度及SVM中惩罚因子等都是分类器在进行模型训练前需要设置的超参数。对超参数进行优化，可提高分类器的性能。为了寻找到分类器的一组最优超参数，提出GHC算法，将网格搜索和爬山算法结合，可有效发挥两种算法各自的优势。

GHC算法主要的实现步骤如下。

步骤1确定决策树数量及最大分离特征数的范围，设定粗步长，建立网格坐标系。

步骤2对网格节点上的每组参数构建模型，并计算其分类误差。

步骤3选择分类精度最高的参数组合爬山算法的起点，最终输出爬山的最高点。

在使用粗步长划分网格进行粗搜索得到的参数组合不一定是目标区域全局最优解，其网格点邻域是否存在着更优的参数组合。将粗搜索最优参数作为爬山算法的起始值进行邻域搜索，不断更新爬山算法起点，直至搜索到最优组合。将GHC算法寻找到的最优超参数输入到RF分类器中，构建GHC-RF分类器。

3 实验结果及分析

3.1 实验数据及定量评价指标

为验证所提算法有效性，使用Indian Pines、University of Pavia以及Salinas等3组数据集进行实验，高光谱图像数据的基本信息如表1所示。

表1 高光谱数据基本信息

Indian Pine、University of Pavia及Salinas的影像信息具体如图3所示。Indian Pines影像采集于印第安纳州西北部：图3(a)是由波段7、波段166和波段186合成的假彩色图像；图3(b)为该数据的地面真实分类，共16种农作物类。University of Pavia影像采集于意大利：图3(c)是由波段9、波段40和波段58合成的假彩色图像；图3(d)为该数据的地面真实分类，共9种地物类别。Salinas影像采集于美国加利福尼亚州：图3(e)是波段40、波段66和波段107合成的假彩色图像；图3(f)为该数据的地面真实分类，共16种农作物类别。实验使用整体精度(Overall Accuracy，OA)和 Kappa 系数(Kappa Coefficient)进行定量评价。

图3 Indian Pine、University of Pavia及Salinas影像信息

3.2 GHC-RF分类器

随机森林分类器总决策树数量及最大分离特征数是影响分类器性能的两个主要参数。使用GHC算法对这两者进行参数优化。决策树数量搜索范围为[50,600]，搜索步长为50，最大分离特征数搜索范围为[5,25]，搜索步长为5。粗搜索设定大于经验设定范围，可避免搜索不充分，得到局部最优解的情况发生。现以University of Pavia数据集为例使用GHC算法对RF进行超参数优化。粗步长网格搜索结果如图4所示。

图4 University of Pavia数据集粗步长网格搜索结果

由图4可以看出，当进行粗长网格搜索时，决策树数量为500，最大分离特征为15时，RF分类器的整体精度值最高。并且观察到决策树数量不断增大，OA并未一直提高，这是由于决策树的数目增多，使得树的相关性也提高，大量高相关的树会影响模型性能，因此分类精度出现下降的现象。

以当前粗步长网格搜索的最优值为爬山算法的起点进行局部搜索，经过多次迭代搜索得到最优参数组合，决策树数量为489，最大分离特征为15。将该组合作为后续GHC-RF分类器的参数设置。

3.3 降维算法对比结果及分析

为验证ERFDR算法的有效性，实验选取增强快速密度峰值聚类[19](Enhanced Fast Density Peak Clustering，E-FDPC)、最大方差主成分分析[20](Maximum Variance PCA，MVPCA)、正交投影波段选择[21](Orthogonal Projection Band Selection，OPBS)及RF-RFE作为对比算法。

1) E-FDPC。由快速密度峰值聚类改进而来，结合了排序和聚类两类方法，算法包括快速密度聚类获得代表波段及自动确定最优波段。

2) MVPCA。将像素向量之间的方差按照从大到小进行排序，选出最大的方差所对应的向量作为降维后的波段图像。

3) OPBS。由最大椭圆球体积-序列前向搜索法(Maximum Elliptic Sphere Volume-Sequence Forward Search，MEV-SFS)改进而来，充分利用椭球体积与候选带的正交投影的关系，是MEV-SFS算法的等效快速版本。

4) RF-RFE。使用随机森林计算波段的重要性并进行排序，采用序列后向搜索方法去掉特征集合中重要性小的特征[10]。

RF的最大分离特征已设定为15，考虑RF分类器低维特征和高维特征时超参数设定无法保持一致，在此阶段仅使用KNN及SVM两种分类算法。由于高光谱图像标签样本采集困难，人工标注成本高昂，实际应用中存在部分类别标签过少的情况，为使实验贴近实际，使用数据集的30%作为训练样本，其他作为测试样本，对Indian Pines，University of Pavia，Salinas进行分类。实验中分类器参数设置相同，以确保实验的准确性，不同降维算法OA对比情况如图5所示。

图5 不同降维算法OA对比

(续)图5 不同降维算法OA对比

由图5可以看出，图5(a)及图5(b)为Indian Pines数据集上5种降维算法在KNN及SVM分类算法下分类精度的对比情况。ERFDR算法精度明显优于EFDPC、MVPCA、OPBS及RF-RFE这4种降维算法。在KNN上，ERFDR算法虽然在特征维度为5时分类效果略低于次优OPBS算法，但OPBS算法随着其特征维度增加分类精度并未有明显提高，甚至还有所降低，这说明OPBS算法在Indian Pines数据集上使用KNN算法进行分类时降维效果不如ERFDR算法稳定。在特征维度为10时，ERFDR算法已全面优于其他4种降维算法，这一优势体现在OA平稳值更高。在SVM算法上，ERFDR的OA曲线在特征维度15以上时具有明显的优势。在特征维度为5时ERFDR的精度比次优的OPBS算法的OA值高了6.824%，并且这一优势一直保持。图5(c)及图5(d)为University of Pavia数据集下5种降维算法在KNN及SVM分类算法下的对比情况。在此数据集上，ERFDR算法在两种分类器上的表现相比较于其他4种算法的优势并不明显，但ERFDR更快地达到了“拐点”，这表明ERFDR算法在降维至低特征维数时仍具有不错的降维效果。图5(e)及图5(f)为Salinas数据集下5种降维算法在KNN及SVM分类算法下的对比情况，不论是在低特征维度还是高特征维度，ERFDR算法全面优于其他4种对比算法。

从3个数据集在不同分类算法上的整体OA情况进行分析：MVPCA算法表现最差，这是由于MVPCA算法仅利用方差排序，选出其中最大的几个方差所对应的向量实现降维，并未考虑波段之间的相关性；同样由随机森林特征评估降维改进而来的RF-RFE算法，其在3个数据集上的OA值均远远低于ERFDR算法，尤其是使用KNN分类算法在Indian Pines数据集上特征数为5时差距最为明显，该情况下RF-RFE精度比ERFDR算法低11.311%，实验说明在特征维度较低时考虑到临近波段的相关性及互补信息可显著提高降维原始随机森林的降维效果，并且在高特征纬度时ERFDR仍然比同为随机森林降维改进而来的RF-RFE算法的降维效果更好，这是由于ERFDR考虑到了波段信息量的大小和不同波段间相似度的因素，降维后的特征具有更高的信息量和更低的冗余度。从不同数据集的OA情况来看，ERFDR算法在地物类型较为繁多、复杂的Indian Pines数据集上的优势最为明显，体现出ERFDR算法在处理复杂的高光谱图像时仍具优势。

3.4 ORFDRC算法性能分析

为评估ORFDRC算法性能，实验使用ERFDR算法将特征降维至25维，将降维后的特征集输入GHC-RF分类器中构建ORFDRC算法。使用KNN、SVM及ORFDRC等3种算法对Indian Pines、University of Pavia和Salinas等3种数据集进行地物分类并对结果分析，其具体分类结果如图6所示。

图6 不同算法在3种数据集上的分类结果

(续)图6 不同算法在3种数据集上的分类结果

由图6可以看出，ORFDRC的分类效果最好，分类结果图中地物错分情况最少。上述分析基于图像的视觉效果，其定量分析指标如表2所示。

表2 不同分类算法在3种数据集上定量分析指标

由表2可以看出，对于3组高光谱数据，ORFDRC的OA及Kappa系数均高于另外两种算法。这说明ORFDRC分类性能最佳，分类结果与地面真实地物的一致性也比较好。在Indian Pines数据集上，ORFDRC的性能分类优势最为突出，其OA值相对于KNN算法、 SVM算法分别高出18.476%和4.699%，Kappa系数高出0.217和0.050。在University of Pavia数据集上，ORFDRC的OA值比KNN、SVM算法分别高出8.322%和1.719%，Kappa系数高了0.107和0.016。在Salinas数据集上，ORFDRC的OA值比KNN、SVM算法分别高出6.406%和3.545%，Kappa系数高了0.065和0.032。通过以上分析结果表明，ORFDRC算法可以对高光谱遥感图像数据进行有效的分类，分类精度最高且分类的视觉效果最清晰。

为了更详细说明ORFDRC算法性能优势，以Indian Pines数据集为例，与KNN算法、SVM算法进行详细地物类别分类精度对比。在Indian Pines数据集上各个类别的精度对比情况如图7所示，横坐标中的数字表示该数据集上对应地物的类别，共16个地物类型；纵坐标表示精度。Indian Pines数据集的图像均包含16种不同地物类别。不同颜色代表不同的算法。

图7 Indian Pines数据集上各类别的分类精度对比

由图7可以看出，对于某些地物类别，ORFDRC算法分类精度并不是最高，如SVM在类别1分类精度上高于ORFDRC算法，KNN、SVM及ORFDRC在类别16均完全正确分类。但是，从总体来看，ORFDRC算法的分类精度在大多数类别均高于KNN及SVM，且ORFDRC算法具有更多完全分类正确的类别，这说明ORFDRC的分类效果最佳。

4 结语

高光谱遥感图像进行降维预处理工作能降低数据维度，有效完成地物分类任务。而传统随机森林降维算法存在着去冗余能力不足，随机森林分类器缺乏有效的寻优方法获取最优超参数的问题。针对上述问题提出了用于高光谱遥感的降维及分类任务的ORFDRC算法。ORFDRC算法首先通过ERFDR算法对原始数据集进行降维，有效降低高光谱数据维度。再使用GHC算法快速准确地对RF模型进行超参数搜索并构建分类器。最后，将降维后数据输入GHC-RF分类器中，完成高光谱地物精细分类任务。为了验证ERFDR算法的有效性，实验选取E-FDPC、MVPCA、OPBS及RF-RFE等4种降维算法与其对比，实验结果证明ERFDR算法具有更好的降维能力。为了验证ORFDRC算法的分类能力，选用KNN及SVM两种算法与其作对比，实验结果表明在同等训练集比例下ORFDRC算法具有更高的分类精度，更适合完成高光谱分类任务且在多个数据集上适用。