基于SNMF聚类与类间可分性因子的高光谱波段选择*

2021-10-08 13:56赵玉英任明武
计算机与数字工程 2021年9期
关键词:波段光谱聚类

赵玉英 任明武

(南京理工大学计算机科学与工程学院 南京 210094)

1 引言

波段选择是指根据一定的准则或者搜索策略,从高光谱图像的众多波段中选择最具代表性的波段,不加处理地组成波段子集,在保留原始特性的前提下对数据进行了降维处理[1~2],因此波段选择也常被用于高光谱图像分类领域的数据预处理阶段。

本文提出的一种基于稀疏非负矩阵分解(Sparse Non-negative Matrix Factorization,SNMF)聚类[3~4]与类间可分性因子的高光谱图像波段选择方法,该方法先采用SNMF聚类算法对波段进行聚类,然后计算出每个波段的类间可分性因子,并以此为参考进一步从各类簇中选取波段,所有被选中的波段构成最终的波段子集。最后利用真实场景中采集的高光谱地表结构数据集进行实验分析,采用波段子集的平均信息熵、平均相关系数和平均相对熵三项指标进行评价[5],并使用SVM分类器进行分类验证。

2 SNMF聚类算法

非负矩阵分解(Non-negative Matrix Factorization,NMF)[6-7]的理念自诞生以来就被广泛应用于图像分析等多个领域,其分解的目标概括起来就是通过不断的迭代优化步骤来求解出基矩阵W和系数矩阵H。对于非负矩阵的分解,可以近似表示为

式中,待分解矩阵V∈Rm×n,基矩阵W∈Rm×r,系数矩阵H是由系数向量ht组成的非负矩阵,H∈Rr×n,r的选取根据实际情况设置,一般要求r<<min{m,n},图1形象地表示了这个问题。

图1 非负矩阵分解表示

稀疏非负矩阵分解(Sparse Non-negative Matrix Factorization,SNMF)是对基本NMF增加了稀疏度的约束,将其应用于波段聚类时,首先要将高光谱波段矩阵分解为基矩阵W和系数矩阵H,而该波段的聚类则由稀疏系数矩阵中的对应系数权重确定,因此需对系数矩阵H做稀疏约束。此外,基于高光谱图像的非高斯分布特性,本文选用基于K-L散度的目标函数[8]。

基于K-L散度与系数矩阵的L1范数稀疏约束[9]可得SNMF的目标函数如下:

更新迭代规则[10~11]如下:

基于K-L散度与系数矩阵的范数稀疏约束的SNMF迭代算法具体步骤如下。

Step 1输入待分解矩阵V∈Rm×n,参数r,采用NNDSVD的 方 法[12]初 始 化W∈Rm×r和H∈Rr×n,设置迭代次数K;

Step 2对k=1:r,根据式(3)和式(4)进行迭代更新;

Step 3输出迭代结束后的矩阵分解结果W和H。

3 类间可分性因子

类间可分性因子[13-14]的计算公式如下:

式中Dk表示第k个波段的类间可分性因子,其值与对应波段的类间可分性强度正相关,Dmin和Dmax分别表示在第k个波段上任意两类地物目标光谱绝对值的最大值和最小值。Xik和Xjk分别为第k个波段上第i类目标和第j类目标的光谱反射率值,且i,j∈N,i≠j,N为目标总类别。

4 基于SNMF聚类与类间可分性因子的波段选择算法

本文所提波段选择算法流程如图2所示。

图2 基于SNMF聚类与类间可分性因子的波段选择算法流程

算法首先进行数据预处理,然后使用SNMF算法,根据式(3)和(4)计算得到基矩阵W和稀疏稀疏矩阵H,并进行波段数为k的聚类计算,最后从各类簇中选出类间可分性因子最大的波段。

5 实验结果及分析

5.1 实验数据集

2019年8月~9月期间采用车载CGT-SI2B高光谱成像探测系统采集路表高光谱数据,选取工作波长408nm~1050nm之间共130个波段作为研究,每幅图像大小为1920*1000。采集的数据集图像中主要包含四种地表类型:柏油路、土路、水泥路、植被。由于是车载高光谱成像系统,很少有一幅图像中会存在多种地表结构,因此本文进行波段选择时所使用的高光谱图像是由四类不同地表结构的图像拼接而成,并对图像的光谱值差异进行了校正,然后缩放为960*500,形成一幅涵盖四类地表结构的高光谱图像(如图3所示),以便适用于当前的波段选择方法。

图3 高光谱图像三维立方体

5.2 波段选择结果及定量评价

实验时首先在如图3所示的高光谱图像上选取柏油路、土路、水泥路、植被共四类地物样本,再根据图4计算各波段的类间可分性因子。实验中,波段数的选择区间为5~30,步长为5。为了验证本文方法的有效性,参照文献[15~16],实验采用平均信息熵(Average Information Entropy,AIE)、平均相对熵(Average Relativate Entropy,ARE)和平均相关系数(Average Correlation Coefficient,ACC)来定量评价,评价结果如表1所示。

图4 地物样本的均值波谱

表1 波段选择定量评价

从表1的定量评价结果可以看出,聚类区间5~30范围内(步长为5),当选择的波段数为25时,对应的波段号为2、5~9、15、18、19、21、25、56、66、71、74、76、84、85、94、97、98、105、108、117、118,此时ACC最小,ARE最高,说明选出的波段相关性最小,类别可分性最高。当波段数为30时,波段间的相关性增加,类间可分性减小。总体表现来看,波段数为25时,效果较优。下面通过在不同波段数量下的SVM分类结果对比,进一步验证所选波段的有效性。

5.3 不同波段数量下的SVM地表分类结果对比

使用本文方法对不同聚类数目下选择波段组成的图像进行实验,从四种地物中分别抽取30%的样本进行训练,其余都用于测试。分类器采用RBF核的SVM,记录不同波段数量下分类结果的OA、AA、Kappa系数,实验结果如图5所示。

图5 不同波段数量下的SVM分类精度

从图5可以看出,使用本文方法选出的波段具有良好的类别可分性,并且分类结果随不同波段数量的变化趋势相对稳定。其中波段数量为25时分类精度最高,OA达到95.22%,AA达到95.88%,Kappa系数达到93.48%。图6是不同波段数量下的SVM分类效果图,主要有少量水泥路和土路出现了错分现象。土路被错分成水泥路的像素点可能是因为野外环境下经过车子碾压过的土路存在较多的混合像元,而水泥路被错分成土路的像素点主要集中在草丛和水泥路的边缘交界处,可能是因为边界处的地面有一些零散的干枯叶子作为干扰,而实验中选取的植被都是绿色植被。总体来看,波段数为25时四种地表结构的分类效果都比较好。

图6 SVM分类效果图

6 结语

本文提出一种基于SNMF和类间可分性因子的高光谱波段选择方法,并将其应用于高光谱图像分类过程中波段选择的相关研究。该方法首先利用稀疏约束的非负矩阵分解进行聚类,然后根据类簇内每个波段类间可分性因子的大小来选取最终的波段。利用采集的高光谱地表分类数据进行实验验证,采用平均信息熵(AIE)、平均相关系数(ACC)、平均相对熵(ARE)进行定量分析比较,又进一步选用SVM分类器验证了所选波段的有效性和实用性。今后的工作中将研究深度学习领域的分类模型,结合高光谱图像的光谱信息和空间信息设计合适的网络模型用于高光谱图像分类。

猜你喜欢
波段光谱聚类
基于三维Saab变换的高光谱图像压缩方法
一种傅里叶域海量数据高速谱聚类方法
煤炭矿区耕地土壤有机质无人机高光谱遥感估测
最佳波段组合的典型地物信息提取
基于3D-CNN的高光谱遥感图像分类算法
鲁棒多特征谱聚类的高光谱影像波段选择
基于数据降维与聚类的车联网数据分析应用
基于模糊聚类和支持向量回归的成绩预测
利用小波分析对岩石图像分类