一种高光谱遥感图像特征提取方法的设计与应用分析

2021-05-16 09:24袁军民王良民冯艳顺
经纬天地 2021年1期
关键词:训练样本数目特征提取

袁军民 王良民 冯艳顺

(河南省地质矿产勘查开发局测绘地理信息院,河南 郑州 450006)

0.引言

高光谱特征提取方法根据分类特性,可划分为无监督、监督和半监督等三种。一般而言,常用的高光谱遥感图像样本提取特征提取方法包括主成分分析(PCA)法[1]、线性判别分析(LDA)[2]、核判别分析(KDA)法[1]、最大边缘投影(MMP)法[3]、非参数加权特征提取(NWFE)[4]、有理函数曲线拟合(RFCF)[5]法等。

由于高光谱遥感图像的分辨率较高,具有的空间维度也较高,使得传统的特征提取方法不得不面临以下几个问题:(1)较大的数据量,对计算要求较高;(2)很强的波段相关性,需要处理大量的冗余数据;(3)数据的维数灾难,维度增加到一定程度后,分类提取精度会逐渐降低;(4)相对高昂的分类代价,由于需要处理大量的高维度数据,增加了分类提取时间,大大降低了处理的效率;(5)线性不可分问题,不同时段、不同环境下的高光谱影像的光谱曲线不同,使得特征空间中的图像数据难以区分。基于上述问题,传统的特征提取方法往往难以满足多波段、高维度、高空间分辨率图像特征提取的分类精度要求,同时在小样本数据中计算分类效率也有待提升[6-11]。

本文在特征空间判别分析方法(FSDA)基础上,提出一种基于几何均值特征空间判断的高光谱特征提取方法,以便能为高光谱遥感图像特征提取精度提供借鉴。

1.方法的提出

当高光谱遥感图像数据中存在较多的噪声污染或者奇异值时,就会导致特征提取方法不能进行很好的曲线拟合,从而无法完成对图像固有几何特征结构的有效提取。因此,Imani 等提出了一种特征空间判别分析方法(FSDA),该方法主要通过样本均值向量将高光谱遥感影像数据的冗余信息进行剔除,但是这种方法也存在一个弊端,即在原始样本较少或者原始样本数据非理想时,很难通过样本均值来表示物体的几何特征,相比传统特征提取法,在后续分类中也表现不出绝对的优势,因此,本文提出一种基于几何均值特征空间判断的高光谱特征提取方法(文中简称Gm-FSDA 法)。

式中,xG表示几何均值。

假设该样本数据一共包含c 种类别,而每一类中又包含ni 个数据,且这些数据对应的几何均值为mi,原始特征向量为d×1 维,如果要从原始向量中提取得到p 个特征,那么就需要通过一个变换矩阵来实现,定义这个变化矩阵为p×d 维的投影矩阵,那么可以得到公式(2):

在Gm-FSDA 特征提取法中,需要首先计算光谱间的几何散步矩阵如公式(3)所示:

一般而言,类内几何散步矩阵在高维小样本数据集上表现为奇异,因此,得不到该矩阵的正常解,那么就需要采取正则化技巧来对其进行处理,如公式(6)所示:

对公式(7)进行极大化处理,可以得到投影矩阵A,从而提取多于r 个特征。

2.试验数据集

选择某高分辨率遥感图像数据集为例,该数据集共包含220 个光谱反射波段、波长范围为400mm~2500mm,像素大小为145×145,光谱分辨率大小为10nm,空间分辨率大小为20m,由于噪声和水域吸收现象的影响,在后续处理过程中剔除20 个波段,仅保留2000 个光谱波段。该数据集共包含苜蓿、玉米免耕、玉米收割机、玉米、干草堆、草/树、割草/牧场、草地/牧场、燕麦、大豆免耕、黄豆、大豆清筛机、小麦、木材、建造草坪树车道、石质钢塔等16 类地物。其中,苜蓿为46 像素数目、玉米免耕为1428 像素数目、玉米收割机为830像素数目、玉米为237 像素数目、干草堆为483 像素数目、草/树为730 像素数目、割草/牧场为28 像素数目、草地/牧场为478 像素数目、燕麦为20 像素数目、大豆免耕为972 像素数目、黄豆为2455 像素数目、大豆清筛机为593 像素数目、小麦为205 像素数目、木材为1265 像素数目、建造草坪树车道为386 像素数目、石质钢塔为93 像素数目。该数据集地物覆盖分布示意图(如图1 所示):

图1 地物覆盖分布示意

3.试验结果分析

为了验证Gm-FSDA 方法的有效性,从每一类样本中随机选取19 个样本作为训练样本,分别采用PCA、LDA、KDA、MMP、NWFE、RFCF 以及FSDA 等七种方法与其进行特征提取效果的对比分析。

3.1 最佳特征数目分析

试验得到的不同提取方法下平均分类精度、平均分类效力、总体分类精度以及Kappa 指标随特征数目的变化特征(如图2 所示)。从图2 中可以看到:随着特征数目的增加,不同提取方法的平均分类精度、平均分类效力、总体分类精度以及Kappa 指标均随特征数目的增大而呈现“增大后减小”的变化特征;其中,PCA、LDA、KDA、MMP、NWFE、RFCF、FSDA 以及Gm-FSDA 法的最大平均分类精度分别为68%、69%、72.5%、63.5%、59.2%、65.5%、68.7%以及72%,对应的特征数目分别为6、6、6、6、8、10、6 和8,KDA 提取方法的平均分类精度最高,之后为Gm-FSDA 法,最小的为NWFE 法。PCA、LDA、KDA、MMP、NWFE、RFCF、FSDA 以 及Gm-FSDA法的最大平均分类效力分别为55.5%、57.2%、60.2%、52.5%、53.5%、52%、57%以及61.5%,对应的特征数目分别为6、10、10、6、10、10、6 和8,Gm-FSDA 提取法的平均分类效率最大,其次为KDA 法,最小的为RFCF 法。PCA、LDA、KDA、MMP、NWFE、RFCF、FSDA 以及Gm-FSDA 法的总体分类精度分别为54.7%、54.5%、58.6%、51.5%、50.5%、52.5%、57%以 及62%,对应的特征数目分别为8、10、8、8、6、10、6 和8,Gm-FSDA 提取法的总体分类精度最大,其次为FSDA 法,最小的为RFCF 法。PCA、LDA、KDA、MMP、NWFE、RFCF、FSDA 以及Gm-FSDA 法的总体分类精度分别为50.4%、47%、54%、45.1%、44.4%、46.5%、50%以及56.2%,对应的特征数目分别为6、6、8、8、6、10、6 和8,Gm-FSDA 提取法的Kappa 统计指标最大,其次为KDA 法,最小的为NWFE 法。

综上分析可知:在训练样本较小时,由于光谱响应数据的相似性并不是十分显著,因此造成不同提取方法之间的提取效果相差较大;在小训练样本下,KDA 提取法的平均分类精度表现最佳,Gm-FSDA 提取法的平均分类效力、总体分类精度以及Kappa 指标表现最佳,从不同参数的综合表现效果来讲,本文提出的Gm-FSDA 提取法具有一定的优势,且从分析中可以看到:当特征数目为6-10 个时,所有特征提取法均能达到较好的分类效果。

图2 提取参数随特征数目变化特征

3.2 生产及使用者精度对比

从上文分析可知,当特征数目为6-10 个时,不同提取方法可得到较好的分类提取效果,本文取平均值8 作为分析,对训练样本为19 个,特征数目为8 个下的不同提取方法的生产和使用者平均精度进行了对比分析(如图3 所示)。从图3 中可以看到:PCA、LDA、KDA、MMP、NWFE、RFCF、FSDA 以及Gm-FSDA 提取法的平均生产者精度为56.02%、54.56%、53.49%、49.95%、52.16%、57.96%、56.95%和61.73%,Gm-FSDA 提取法的平均生产者精度最大,其次为RFCF 法,最小的 为NWFE 法;PCA、LDA、KDA、MMP、NWFE、RFCF、FSDA以及Gm-FSDA 提取法的平均使用者精度为68.48%、64.49%、66.91%、63.23%、67.63%、73.35%、68.06%和74.93%,Gm-FSDA 提取法的平均使用者精度最大,其次为KDA 法,最小的为NWFE 法。因此,在小训练样本和8 特征数目下,本文提出的Gm-FSDA 提取法的提取分类效果最好,能够提取到的有效信息更多,相比其他方法具有一定的优势。

图3 生产及使用者平均精度对比

3.3 视觉效果

试验得到的不同特征提取法得到的分类映射视觉效果(如图4 所示)。在19 个训练样本以及8 个特征数目下,Gm-FSDA 方法的整体提取效果要优于其他提取方法。所有方法中,对割草/牧场和黄豆两类的提取效果最好,对燕麦、大豆免耕等的提取效果最差,但是这两类又是16 类地物中面积占比较大的种类,因此导致整体的视觉分类效果不是很好;从不同提取方法对这两类地物的提取效果来讲,Gm-FSDA法放入提取效果最佳,其视觉效果最接近于真实地貌,其次为RFCF 提取法,但是Gm-FSDA 法对小麦的提取效果不如其他方法,这可能与训练样本数据所具有的曲线拟合性有关,造成Gm-FSDA 法在提取小麦时的鲁棒性较差。

图4 不同提取方法下的分类映射视觉效果

4.结论

基于特征空间判别分析方法,提出基于几何均值特征空间判断的高光谱特征提取方法,并将其应用于小训练样本高光谱图像数据的提取分析当中,结果表明:

(1)在平均分类精度、平均分类效力、总体分类精度以及Kappa 指标四个分类参数当中,Gm-FSDA 提取法在平均分类效力、总体分类精度以及Kappa 指标中的表现最佳,在平均分配精度中也仅略次于KDA 法,相比其他方法,Gm-FSDA 提取法综合分类效果最佳。

(2)从生产者精度和使用者精度对不同提取方法进行了对比,结果表明Gm-FSDA 提取法表现最好,生产者精度和使用者精度分别可达61.73%和74.93%。

(3)Gm-FSDA 提取法得到的分类映射视觉效果最接近于真实地貌,表明其在小训练样本高光谱遥感图像特征提取分类中效果较好。

猜你喜欢
训练样本数目特征提取
移火柴
人工智能
基于Daubechies(dbN)的飞行器音频特征提取
Bagging RCSP脑电特征提取算法
宽带光谱成像系统最优训练样本选择方法研究
融合原始样本和虚拟样本的人脸识别算法
基于稀疏重构的机载雷达训练样本挑选方法
《哲对宁诺尔》方剂数目统计研究
牧场里的马
基于MED和循环域解调的多故障特征提取