葛山运
(重庆工程职业技术学院地质与测绘工程学院,重庆 400037)
基于MNF、PCA与ICA结合的高光谱数据特征提取方法
葛山运∗
(重庆工程职业技术学院地质与测绘工程学院,重庆 400037)
特征提取一直是高光谱遥感数据处理与实际应用的难题之一,目前高光谱数据特征提取方法主要有主成分分析(PCA)、最小噪声分离(MNF)和独立成分分析(ICA)等。然而,这些特征提取方法很难较好地适应光谱响应特性变化和高度混合的地类,会导致重要的信息损失。为解决此问题,本文在分析各种特征提取方法的优点的基础上,提出了一种基于MNF、PCA与ICA相结合的高光谱数据特征提取方法。实验表明,本文提出的特征提取方法正确可行,与其他特征提取方法相比效果较好,它充分利用了ICA的分解类别高度混合的数据、PCA的压缩数据和MNF的高度降噪的优点,能较好地适用于小样本和类别高度混合的数据。
高光谱;MNF;PCA;ICA;特征向量
高光谱影像数据一般有几十甚至上百个波段,具有信息量大、相关性强、冗余多、信噪比低等特点。高光谱遥感的发展,满足了人们对高光谱数据的需求,客观上需要有相应的数据处理算法。然而,现有的许多遥感数据处理算法都是针对低维数据的。特征提取一直是高光谱遥感数据处理与实际应用的难题之一[1],目前高光谱数据特征提取方法主要有主成分分析(PCA)、最小噪声分离(MNF)和独立成分分析(ICA)等[2]。如主成分分析法是依据方差对高维数据进行变换处理,最小噪声分离法是依据方差比对高维数据进行变换处理,独立成分分析法以统计独立为目标分离出与高维数据中存在的特征有联系的独立成分。
然而,这些特征提取方法很难较好地适应光谱响应特性变化和高度混合的地类,会导致重要的信息损失。因此,如何选择合适的特征提取方法来提取特定的情景下的高光谱数据特征是很困难的。为解决此问题,本文在分析综合各种特征提取方法的优点的基础上,提出了一种基于MNF、PCA与ICA相结合的高光谱数据特征提取方法。所提出的方法分为两个阶段:第一阶段,利用MNF从训练数据集中提取出高质量的一些分量;第二阶段,先分别利用PCA和ICA对经第一阶段处理得到的分量数据进行处理,把训练集中的每个像素分配到特定的类,然后利用提取的PCA分量和ICA分量组成特征向量,利用支持向量机(SVM)法进行分类处理。实验结果表明,本文提出的高光谱遥感数据特征提取方法是正确可行的,在一定程度上提高了高光谱图像的分类精度。
2.1 PCA变换
主成分分析(PCA)[3]的基本思想是:对某一P个波段的高光谱遥感数据进行一个线性变换,即对该高光谱数据组成的光谱空间X乘以一个线性变换矩阵A,产生一个新的光谱空间Y,即产生一个新的n个波段的高光谱影像。表达式如下:
Y=A×X
其中:X为变换前高光谱空间的像元向量;Y为变换后高光谱空间的像元向量;A为一个P×P的线性变换矩阵。
设X=(x1,x2,...,xN)=(X1,X2,…,XP)T是一个P维随机变量,用它代表高光谱图像,其中N是高光谱影像的像元个数,P是波段数量,因此xi(i=1,2,…,N)表示图像的第i像元,Xk(k=1,2,…,P)表示图像的第k波段。PCA变换的具体算法如下:
(1)先计算图像的各个波段的均值m和协方差阵Q,公式如下:
(2)计算Q的特征值λ1≥λ2≥…≥λp≥0,特征值对应的特征向量T=t1,t2,…,tp。
(3)以A=TT为变换矩阵对原图像进行变换,变换后的结果Y=AX。
(4)选择前J个主成分代替原图像X。
因变换前各波段之间有很强的相关性,经过PCA变换后,输出影像Y的各分量之间的相关性将降到最小。变换后的第一分量包含了最大的信息量,往往占80%以上,第二分量次之,以后的分量信息量依次很快递减,到了第n分量,信息几乎为零,用几个主成分就可以代表原始数据中的大多数信息。
2.2 MNF变换
根据PCA的原理,主成分是按照方差从大到小的顺序排列的,因此保留特征值比较大的几个主成分,舍弃其余成分,可以去除噪声的影响。但是Green等人已经证明只有当噪声与信号是独立的并且所有波段的噪声方差相等时,按照方差排列的主成分与按照信噪比排列的主成分才一致,因此,PCA事实上只能在近似的情况下起到降噪的作用。最小噪声分离变换(MNF)是在PCA的基础上使变换后的各成分按照信噪比而不是方差从大到小排列,比PCA更易分离数据中的噪声,将数据分解为一系列彼此不相关的成分,减少随后处理的计算量[4]。MNF本质上是两个层次的主成分变换:第一次变换(基于估计的噪声协方差矩阵)用于分离和重新调节数据中的噪声,使变换后的噪声数据只有最小的方差且没有波段间的相关;第二次变换是对噪声白化数据的标准主成分变换。变换后的数据空间可分为两部分:一部分与较大特征值和相对应的特征图像相关,其余部分与近似相同的特征值以及噪声占主导地位的图像相关。MNF分离开各个信噪比不同的成分后,能够有效选取信息量大的波段(MNF成分),以便用于进行其他处理。MNF的具体算法如下:
设高光谱图像中第i个波段图像构成的向量zi由理想状况下的无噪声信号向量si和噪声向量ni组成,si与ni不相关,zi可以表示为:zi=si+ni,其中i=1,2,…,L,L为波段数。
首先用低通滤波从原始图像z中分离出噪声图像n,然后分别求出z和n的协方差矩阵QZ和QN,其中Z=(z1,z2,…,zL),N=(n1,n2,…,nL)。
2.3 ICA变换
独立成分分析方法(ICA)是用于数据特征提取的线性变换技术[5],它不仅能够消除多变量数据间的二阶相关信息,而且能够消除数据间的高阶相关[6]。其基本思想是用一组独立的基函数来表示一系列随机变量,算法如下:
设N个波段的高光谱数据的观测信号为X=(x1,x2,…,xN)T,每个观测信号是M个独立的、非高斯分布的源信号S=(s1,s2,…,sM)T的线性组合,即X=AS,其中A=(aij)N×M为未知的混合矩阵。ICA变换就是在混合矩阵A和独立成分S未知的情况下,根据观测数据X确定分离矩阵W=(w1,w2,…,wM)T,使得变换后的输出S∗=A+X=WX是对S的最优估计。基于互信息最小化信息理论,采用负熵度量准则作为判断向量相互独立的标准,其表达式为:
式(3)中v是标准高斯随机变量,函数G可以取
1采用牛顿法极大化式(3)即可得到ICA的递推公式为:
式(4)中g和g′,分别是函数G的一阶导数和二阶导数。
2.4 PCA、MNF、ICA的比较
PCA有对高光谱图像所含噪声考虑不足的缺陷;MNF在变换的同时考虑到遥感数据质量评估参数—信噪比,从而比PCA具有更好的降维去噪能力;ICA不仅能够消除多变量数据间的二阶相关信息,而且能够消除数据间的高阶相关,比PCA更能消除数据之间的关联性。
在分析研究PCA变换、MNF变换和ICA变换各自的优缺点的基础上,本文提出了一种MNF、PCA、ICA相结合的特征提取算法,该法充分利用了MNF、PCA与ICA三者的优点,一定程度上抵消了三者的缺点。本文提出的算法包括两个相互级联的阶段:第一阶段,利用MNF变换对高光谱遥感数据进行处理,得到一系列按信噪比从大到小排列的彼此不相关的MNF成分,选择前10个MNF分量作为下一阶段处理的输入数据;第二阶段,分别利用PCA变换和ICA变换对从第一阶段得到前10个MNF分量进行处理,得到20个分量,其中包括10个PCA分量和10个ICA分量。最后给由20个分量组成的结果向量附上类标签,以便采用支持向量机(SVM)法进行分类处理。具体的算法流程如图1所示。
图1 基于MNF、PCA与ICA的高光谱遥感数据特征提取算法
实验数据为145×145像素的包含农田和林地的高光谱遥感图像,是由机载可见红外成像光谱仪从美国印第安纳州西北部地区获取的,此类数据在高光谱遥感数据分类领域里已得到了广泛应用[7]。该数据原有220个带有水分吸收峰的波段,因为104-108和150-162波段被删除了,所以实验中仅用了剩下的202个波段(部分波段如图2所示)。据了解该地区实地有17种地类(如图3所示),因为同一地类的像素和可能被认为属于其他地类的像素具有高度混合的光谱相似性度量,容易被认为属于同一地类,所以许多传统经典的图像分类方法不适用于该类图像[8]。
图2 实验高光谱数据的部分波段
图3 实验区地面地类的分布情况
图4 各种算法进行特征提取的结果
利用ENVI 4.8软件进行MNF、PCA、ICA处理。首先对高光谱数据进行MNF变换,变换后保留按照信噪比从大到小排列的前10个MNF分量;然后在前10个MNF分量的基础上分别进行PCA变换和ICA变换,PCA变换后保留按照方差从大到小排列的前10个PCA分量,ICA变换后保留按照相关性从小到大排列的前10个ICA分量。最后由获得的10个PCA分量和10个ICA分量组成特征向量,运用支持向量机(SVM)法进行分类。本文算法特征提取结果如图4 (d)所示。由于本文提出的算法综合了MNF、PCA与ICA的优点,在一定程度上克服了三者各自的不足,从SVM分类精度的统计情况分析(见表1),本文算法比单独的PCA、MNF和ICA方法提取的特征更有利于SVM分类,分类精度也较高。
利用PCA变换、MNF变换、ICA变换与本文算法的SVM分类统计表1
由于不同的特征提取方法提取的特征通常是不同的,因此,单独利用一种特征提取方法很可能导致重要的信息损失。本文提出的特征提取方法综合了各种特征提取方法所产生的特征,组成新的特征向量。这样构建的特征向量有助于SVM分类器更好地进行分类。实验结果表明,本文提出的方法正确可行,与其他特征提取方法相比效果较好,它充分利用了ICA的分解类别高度混合的数据、PCA的压缩数据和MNF的高度降噪的优点,能较好地适用于小样本和类别高度混合的数据。
[1] 苏红军,杜培军.高光谱数据特征选择与特征提取研究[J].遥感技术与应用,2006,21(4):288~293.
[2] 杜鹏,赵慧洁.基于抗噪声ICA的高光谱数据特征提取方法[J].北京航空航天大学学报,2005,31(5):1101~1105.
[3] 田野,赵春晖,季亚新.主成分分析在高光谱遥感图像降维中的应用[J].哈尔滨师范大学自然科学学报,2007,23 (5):58~60.
[4] 纪娜.基于最小噪声变换和支持向量机的遥感影像分类方法研究——黄土高原丘陵沟壑区为例[D].杨凌:西北农林科技大学,2009.
[5] 杨竹青,李勇,胡德文.独立成分分析方法综述[J].自动化学报,2002,28(5):762~772.
[6] 范群贞,刘金清.基于PCA/ICA的人脸特征提取新方法[J].电子测量技术,2010,33(8):31~34.
[7] 高恒振.高光谱遥感图像分类技术研究[D].长沙:国防科技大学,2011.
[8] Chao-Cheng Wu,Chein-IChang.Soft Decision-Made Hyperspectral Measures for Target Discrimination and Classification.
Feature Extraction M ethod Based on the Combination of MNF,PCA and ICA for Hyperspectral Data
Ge Shanyun
(Faculty of Geology and Mapping Engineering;Chongqing Vocational Insitute of Engineering,Chongqin 400037,China)
Feature extraction has been one of the problems of hyperspectral remote sensing data processing and the practical feature extraction methods of hyperspectral data are principal component analysis(PCA),the minimum noise fraction(MNF)and independent component analysis(ICA).However,these feature extraction methods is difficult to adapt to the spectral response characteristics change and highly mixed class,will lead to an important loss of information. To solve this problem,the analysis on the basis of themerits of the various feature extractionmethods,this paper presents a feature extractionmethod of hyperspectral data based on the MNF,PCA and ICA combining.Experiments show that the proposed feature extractionmethod is correctand feasible,compared with other feature extractionmethod is better,it takes full advantage of the ICA decomposition highly mixed category data,the PCA compressed data and the advantages of a high degree of noise reduction of the MNF,Well apply to the small sample size and types of highlymixed data.
hyperspectral;minimum noise fraction;principal component analysis;independent component analysis;feature vector
1672-8262(2013)02-103-04
P237
B
2012—08—09
葛山运(1983—),男,助教,研究方向:测量数据处理、3S技术及其应用。