基于流形学习的光谱数据库降维分析

2020-11-16 02:20王小美
山西能源学院学报 2020年5期
关键词:降维

【摘 要】 利用流形学习,可以找出高维空间的低维结构。本文把流形学习方法应用到地物光谱数据库中,并进行地物光谱的相关性分析,同时与主成分分析、核主成分分析方法进行对比。试验结果表明,用流形学习的方法进行地物光谱数据库的降维,发现隐藏在高维空间下的低维结构,用于进行相似性度量,为地物进一步的本质特征光谱提取与分析提供有利的支持,并间接证明了利用流形学习的方法进行降维后,并未降低地物的识别能力。

【关键词】 流形学习;光谱数据库;Isomap;降维

【中图分类号】 P23;TP751 【文献标识码】 A

【文章编号】 2096-4102(2020)05-0100-03

流形学习作为一种新的非监督学习方法,近几年在模式识别、机器学习领域得到了广泛的应用。

本文把流形学习方法应用到地物光谱数据库中,首先把流形学习方法应用到光谱数据库中的矿物类样本,进行降维,并与PCA和KPCA进行比较。然后为进一步验证对不同矿物和同类矿物之间降维后的可分性,选取了两类典型矿物进行相似性度量。这为地物进一步的特征光谱提取与分析提供有利的支持。

1数据介绍

本文中应用的是美国地质调查局的USGS光谱数据库,可以在USGS的网站上获取。USGS光谱数据库是美国地质调查局为研究矿产资源遥感勘探,在1993年USGS光谱实验室建立了波长在0.2~3.0μm之间的光谱库,包含218种矿物,444个样本的498个波谱,光谱分辨率为4nm(波长0.2~0.8μm)和10nm(波长0.8~2.35μm),所有光谱反射率都校正到绝对反射率。光谱数据库中地物的详细信息可以通过USGS光谱数据库网站得到。随着对地探测技术的发展及地物精细的识别需求,USGS光谱数据库也在不断地更新,目前更新到了第7版。光谱覆盖范圍从可见光到红外0.2μm~150μm,光谱数量达到了2000余条。本论文中用到的是USGS光谱数据库中的矿物类样本进行试验。

2基于流形学习的光谱数据库降维

2.1基于流形学习的光谱数据相关性分析

特征提取的方法主要分为线性的和非线性的,主成分分析(PCA)是常用的线性特征提取的方法,核主成分分析(KPCA)是对主成分分析的推广。主成分分析是线性变换方法,处理的是线性关系,核主成分分析是非线性变换,可以处理非线性的变量关系。本文选择PCA和KPCA作为传统线性变换和非线性变换方法的代表,进行光谱数据降维试验,并与流形学习方法Isomap进行比较。这里的Isomap用到的光谱维度为欧氏距离。图1(a)、(b)和(c)分别为USGS数据库进行Isomap、PCA和KPCA降维后前两维的散点图。

需要注意的是:图中所有坐标均表示光谱的距离,其值的大小取决于所用的相异性度量函数,因此,不同图之间不具有可比性,但它们之间的可分性是可以比较的,即分开的程度。

从图1中可以看出用Isomap降维后的散点分布呈圆形均匀分布,而利用PCA降维后的散点图分布趋向于椭圆,利用KPCA降维后散点图分布虽然趋向于圆,但是分布不均匀,有一个角的密度过大。这些分布情况说明Isomap降维后的数据波段之间的相关性减弱,PCA目的是把多波段的信息集中到前几个分量上,因此它对于波段之间相关性的减弱不具备优势,KPCA虽然可以处理非线性的情况,但它在高维空间仍是应用PCA进行降维,所以也不具有降低波段相关性的优势。所以利用Isomap方法进行降维后的数据极大地降低了波段间的相关性,得到的结果比较可靠。

2.2基于流形学习矿物类别间和类别内相关性分析

由于USGS中矿物的种类丰富,同一种类的不同情况也多,而且矿物之间有一定关系,所以关于不同类别和相同类别之间降维后关系,本文用USGS中的矿物数据来说明,具体的用硅酸盐与氧化物之间的分布情况说明。图2为硅酸盐与氧化物共7类,每一类取代表样本的原始光谱曲线图。图3为硅酸盐与氧化物各种方法降维后前两个成分的散点分布图:图(a)为PCA降维结果,图(b)为KPCA降维结果,图(c)为Isomap方法降维结果。每个图中三角形图标代表的是氧化物,圆形图标代表硅酸盐。

从图3中可以得到Isomap方法的降维结果都明显好于PCA和KPCA的降维结果。在PCA的前两维的散点分布中,硅酸盐和氧化物分布混乱,两者之间不易区分,KPCA中虽然点与点之间分散度较好,但是硅酸盐与氧化物之间界线不明显,两者分布混杂。而用Isomap降维后,硅酸盐和氧化物分布呈分开状态,氧化物分布在硅酸盐的外围。硅酸盐有三个相对集中的分布,这样可以判断大致有三类地物,而且实际上本实验也是选用了三种硅酸盐。氧化物的总数比较少,分布在大概四个集中区域,类内和类别间分布重叠度少,较易区分。紧靠氧化物的硅酸盐是橄榄石,其次是白云母,较远的是黄玉。橄榄石为岛硅酸盐,白云母为页硅酸盐,黄玉为岛硅酸盐,这三种硅酸盐也可以在Isomap降维后的图中明显区分开来。

3结论

本文将流形学习应用于地物光谱数据库,进行光谱曲线中本质光谱特征提取。以美国地质调查局(USGS)光谱数据库为操作对象,首先对整体数据进行了分析,发现经过流形学习方法Isomap特征提取后,样本点之间的可分性比用PCA和KPCA特征提取结果样本间的可分性强;取其中的氧化物与硅酸盐特征提取结果作比较,发现Isomap可以把氧化物与硅酸盐很好地分开来,且两类矿物内的不同种类的样本之间也具有可分性与聚类性。因此通过试验可以得出,可以把流形学习方法应用到光谱相似性分析中,为高光谱数据的特征光谱提取与分析提供有利的支持,并间接证明了利用流形学习的方法进行特征提取后,并未降低地物的识别能力。

【参考文献】

[1]徐蓉,姜峰,姚鸿勋. 流形学习概述[J].智能系统学报,2006,1(1):44-51.

[2]Zhang,J.P.,Li,S.Z.,Wang,J. Manifold learning and applications in recognition[C]. Intelligent Multimedia Processing with Soft Computing,2004.

[3]赵连伟,罗四维,赵艳敞,等. 高维数据流形的低维嵌入及嵌入维数研究[J].软件学报,2005,16(8):1423-1430.

[4]翁时锋,张长水,张学工. 非线性降维在高维医学数据处理中的应用[J].清華大学学报(自然科学版),2004,44(4):485-488.

[5]黄启宏.流形学习方法理论研究及图像中应用[D].成都:电子科技大学,2007.

[6]马瑞,王家廞,宋亦旭. 基于局部线性嵌入(LLE)非线性降维的多流形学习[J].清华大学学报(自然科学版),2008,48(4):582-585.

[7]刘小明.数据降维及分类中的流形学习研究[D].杭州:浙江大学,2007.

[8]徐志节,杨杰,王猛.一种新的彩色图像降维方法[J].上海交通大学学报,2004,38(12):2063-2067.

[9]Bachmann C.M.,Ainsworth T.L.,Fusina R.A. Exploiting Manifold Geometry in Hyperspectral Imagery[J]. IEEE Trans Geosci and Remote Sensing,2005,43(3): 441-454.

[10]Bachmann C.M.,Ainsworth T.L.,Fusina R.A. Improved Manifold Coordinate Representations of Hyperspectral Imagery [C]. International Geoscience and Remote Sensing Symposium, 2005(6):4307-4310.

[11]Bachmann C.M.,Ainsworth T.L.,Fusina R.A. Improved Manifold Coordinate Representations of Large-Scale Hyperspectral Scenes[J]. IEEE Trans Geosci and Remote Sensing,2006,44(10):2786-2803.

[12]Bachmann C.M.,Ainsworth T.L.,Fusina R.A. Automated Estimation of Spectral Neighborhood Size in Manifold Coordinate Representations of Hyperspectral Imagery: Implications for Anomaly Finding,Bathymetry Retrieval,and Land Applications [C]. International Geoscience and Remote Sensing Symposium,2008(1):I-56-I57.

[13] Chen Y.C.,Crawford M.M.,Ghosh J. Applying Nonlinear Manifold Learning to Hyperspectral Data for Land Cover Classification [C]. International Geoscience and Remote Sensing Symposium,2005: 4311-4314.

[14]杜培军,王小美,谭琨,等.利用流形学习进行高光谱遥感影像的降维与特征提取[J].武汉大学学报(信息科学版),2011(2):148-152.

猜你喜欢
降维
基于降维与粒子群优化的水下传感网定位算法
从一道考研题谈空间曲线积分的计算
基于MATLAB的靶纸图像识别研究
导数在几何中的“降维”作用
玉米叶片病害彩色图像识别的降维和聚类方法
几种降维算法的研究及应用
中心K阶中心矩子空间的迭代海塞变换估计
基于PCA和kNN混合算法的文本分类方法
基于SIFT的压缩跟踪算法