高光谱林业遥感分类研究进展

2014-05-30 22:24李瑞平
安徽农业科学 2014年9期

摘要为了深入了解高光谱分类领域的研究现状,基于Web of Science数据库和CNKI数据库,检索了关于高光谱遥感分类的相关文献,并对文献的分布情况和研究方法等进行了归纳和分析。结果表明,关于高光谱分类的文献发布数量总体呈上升趋势,其中美国的文献发布量最多,热带森林类型受关注最多。采用最多的分类方法有最大似然法、支持向量机、随机森林、光谱角度制图和判别分析5种,5种方法各有优缺点,分类精度都较高,分类敏感波段大多在可见光、近红外和短波红外等波段。该研究可为高光谱林业遥感分类领域森林类型和分析方法的进一步研究提供参考。

关键词高光谱遥感;文献分布;分类方法

中图分类号S-058文献标识码A文章编号0517-6611(2014)09-02801-05

基金项目国家“十二五”科技支撑项目(2012BAC01B03);教育部新世纪优秀人才支持计划项目(NCET100230);国家自然科学基金项目(41171278)。

作者简介李瑞平(1990-),女,河北沧州人,硕士研究生,研究方向:林业遥感。

准确地获取土地类型和森林树种分布信息一直是林业遥感中的热点课题,对林业资源管理具有重要意义。然而,传统的资源调查方法一般都费时、费力,而且当调查面积很大时,获取的信息具有一定的滞后性。利用多光谱遥感进行资源调查的方法受到光谱分辨率的影响,且受到“同物异谱”和“同谱异物”等现象的干扰。

高光谱数据具有光谱范围广、光谱分辨率高、数据量大等特点,这使得利用高光谱数据实现土地类型或树种的精细识别成为了可能。而且,随着高光谱遥感的迅猛发展,数据的即时性得到了很大提高。自高光谱遥感技术诞生以来,已有大批学者利用高光谱技术进行分类研究[1-3], 部分学者从不同的角度对文献进行了总结[4-10]。然而,较少见到系统的文献分析。因此,笔者从文献计量的角度对文献库中的文献进行了分析和总结,希望能增加对该领域研究进展的系统性了解,有利于把握该技术的研究进展和发展方向。

1 材料与方法

1.1数据库基于Web of Science和CNKI(http://www.cnki.net)两个数据库对高光谱数据分类文献进行基于文献计量的分析。Web of Science数据库收录了世界各领域一流期刊的高质量文献,CNKI也收录了国内高质量的论文,因此这两个数据库中的文献可以代表各研究领域的发展前沿,具有较好的代表性。

以Endnote软件为整理工具,对检索的文献进行归类和分析。

1.2分析方法以主题词“hyperspectral”、“classification”和“forest”在Web of Science数据库中进行检索,对应以“高光谱”、“分类”、“林”为主题词在CNKI数据库中进行检索。

首先,按照文献计量方法对文献年代分布、国家分布和森林类型分布进行统计分析。然后,按照技术方法对分类方法、精度和敏感波段几个部分进行剖析。

2 文献分布结果

分别从年代、国家和文献涉及到的森林类型3个方面对文献的分布进行了描述和分析。在Web of Science数据库中共检索到2003~2013年214篇文献;在CNKI数据库中检索到1998~2013年共476条文献。

2.1年代分布从图1可以看出,与高光谱分类相关的文献数量从1998年起总体呈上升趋势,2012年文献数量最多,2013年有所下降,这可能是因为2013年目前文献未收录完整,只有从1~9月份的文献。结果表明,森林高光谱分类仍然是研究热点。Web of Science数据库增幅最大的是2008、2012年,这两个年份的文献数量相比前一年增长了将近1倍。CNKI数据库增幅最大的年份是2004、2011年。CNKI从2004年开始,文章数量均超过20篇,说明国内对高光谱分类的关注较为持续。

2.2国家分布基于Web of Science可以统计国家分布结果。从图2可以看出,文献数量最多的国家是美国,占26%。其次是加拿大占9%,德国占7%,中国、澳大利亚、意大利和南非分别占了文献总量的5%,也是研究的重要主体。文献數量≤5的国家归并到其他类中,数量占总量的29%。

2.3森林类型分布从图3可以看出,涉及到热带森林的文章最多,占总体的31%,其次是城市森林,占总体23%,再次是湿地,占总体19%, 热带草原相对最少,占12%,其他森林类型占15%。需要注意的是,热带森林包括热带干森林和

3 主要分类方法

根据分类的主要步骤不同,将高光谱数据分类方法分为预处理方法、降维方法、分类方法和验证方法分别进行分析。

3.1预处理预处理是高光谱数据处理的第1步,是为后续工作做准备的。预处理的目标是去除数据噪声,或者对数据进行变换以利于分类。根据统计,常用的高光谱数据预处理方法有导数变换、小波变换和光谱曲线平滑法等。

3.1.1导数法(Derivative)。导数法中的一阶导数法和二阶导数法是高光谱曲线常用的处理方法[11]。植被光谱曲线有一些特征吸收波段,这些波段特征比较稳定,能够用于区分不同树种。经过变换后的高光谱数据之间的波形差异性会被增强,而且系统误差和光谱散射会被消除[12]。

3.1.2小波变换(Wavelet Transformation, WT)。是在傅里叶变换的基础上改进而来的[13]。小波变换可以通过对光谱噪声和信号的分离达到去噪的目的。小波变换的基本原理是通过对信号的伸缩平移变换,将其多尺度细化,然后将对信号的高频部分进行滤波处理,最后通过信号重构生成新的信号。根据实际要求,采用WT方法对高光谱数据进行滤波去噪,使光谱曲线变得平滑,利于分类分析[14]。

3.1.3包络线法(Continuum removal)。是一条“包”在高光谱曲线外侧的曲线,即把高光谱曲线的峰点连接起来得到的一条相对频率较低的曲线,该曲线可以有效突出光谱的吸收和反射特征,有利于相似光谱曲线的区分[15-16]。

3.2降维方法 高光谱数据波段数多, 包含信息多,但是这也造成了高光谱数据量大、处理过程复杂、耗费资源和时间等一系列问题。为了避免高光谱数据给用户带来的“维数灾难”,在对其分类之前有必要对其进行降维处理[17]。一般高光谱数据的降维方法分为特征降维和波段选择两种,作者将文献所涉及到的降维进行了分类统计,发现特征降维方法的应用比波段选择方法广泛。

3.2.1特征降维。高光谱数据维数多,且不同维光谱之间大多都有联系,特征降维的主要思想是将高维的数据经过某种转换降到低维空间,使不同维的光谱数据尽量保持独立,以减少数据的冗余。文献中提到最多的特征降维方法是主成分分析和最小噪声分离变换。

(1)主成分分析(Principal Components Analysis, PCA)。是广大学者采用的一种最普遍的降维分析方法[18-19]。主成分分析首先对数据的协方差矩阵进行维数分解,然后按照方差贡献率的大小排列不同的数据分量,保留方差贡献最大的若干数据维用于分析,即在降维的同时可以保证数据重要信息不丢失[20]。

(2)最小噪声分离变换(Minimum Noise Fraction, MNF)。实质上是进行了两次主成分变换的成分分解法[21]。与主成分分析不同的是,该方法分离出的不同分量是按照信噪比的大小进行排序的,影像质量随着信噪比的减小越来越差[22]。

3.2.2波段选择。 波段选择也是高光谱数据降维的常用方法之一,其原理是按照一定的方法挑选对分类有效的特征波段(或者叫做敏感波段),也就是对分类对象来说差异较大的波段。最开始波段选择是专家根据经验进行波段选择,不过随着研究的深入这种方法逐渐显露出弊端,新的研究方法被逐渐提出。下面介绍两种常见的波段选择方法。

(1)自适应波段选择(Adaptive Band Selection, ABS)。基本原理是在同时考虑各个波段的空间和谱间相关性的基础上建立模型,计算各波段指数并按大小排列,设定阈值,系统将自动选择所需要的波段[23]。

(2)前向特征选择(Forward Feature Selection, FFS)。是指特征数据集一开始是空集,在搜索未分类特征的过程中逐一将符合条件的特征值加入的特征选择方法[24]。

分析总结前人的研究成果发现,分类的敏感波段都分布在可见光、近红外和短波红外波段,然而不同情境下具体敏感波段分布均不同。例如,Mansour等利用重采样过的高光谱数据对草地物种进行分类,以评估牧场的退化情况,结果表明,利用8个波段(966.7、877.6、691.9、718.7、902.7、854.8、674.1和703 nm)进行分类所获得的袋外数据(Out of Bag,OOB)误差是最小的,为11.36%[25];Pu用高光谱数据识别阔叶树种,研究过程中发现波段970、1 200和1 750 nm解释了水分的吸收特征[26];Wang等利用实验室获取的叶片光谱识别红树林树种,结果表明,红树林的最佳分类波段位于780、790、800、1 480、1 530和1 550 nm[27]。

3.3分类方法 分类方法的研究与探索一直以来都是广大学者研究的重点内容。文献分析发现以下几种方法应用频率最高。

3.3.1最大似然法(Maximum Likelihood, ML)。使用基于概率最大相似的判别模型,首先假设样本呈正态分布,计算某个样本属于每一个类别的概率,然后将样本归类到概率最大的类别中去[28]。Mollot等用高光谱图像针对水畔的空间异质性进行研究,用最大似然法将水畔区域分成了9个土地类型,总分类精度大约可达到80%[29]。

3.3.2 光谱角度制图(Spectral Angle Mapping, SAM)。根据测试光谱与参考光谱之间的夹角来确定光谱之间的相似程度,从而实现对光谱曲线的分类,最终达到识别地物的目的[30-32]。Christian等利用高光谱数据和光谱角度制图算法对热带森林进行树种分类,当数据为196个高光谱波段时5个热带树种的总分类精度可以达到51%,当波段选择最小噪声分离变换的前10个特征时达到的最好的分类效果为59.57%[33]。Lass等根据高光谱图像的分类结果来判定矢车菊和满天星的入侵情况,分类方法采用光谱角度制图法,经地面验证后可知有57%的矢车菊和97%的满天星被正确识别[34]。

3.3.3 支持向量机(Support Vector Machine, SVM)。基本原理是在数据向量形成的高维空间中建立一个最优分类超平面。在分隔数据的超平面两侧建立与之平行的两个超平面,使这两个超平面之间的距离最大化。支持向量机法寻求模型复杂性和无误识别新样本能力之间的最佳折中,以获得最好的分类效果和对新数据的适应能力[35-36]。Kumar等利用高光谱图像对印度的某红树林进行分类,支持向量机分类器得到了最佳的分类精度96.85%[37]。Mirik等利用高光谱图像和支持向量机来识别有害杂草,花前期和盛花期的分类精度分别达到了79%和91%[38]。

3.3.4 随机森林(Random Forest,RF)。RF是一个包含了多個决策树的分类器。假设共有n个属性,在决策树的每个节点处,随机抽取m(m≤n)个属性参与分类运算,结点以这m个属性最好的分裂方式分裂,最后输出类别由个别树输出类别的众数决定[39-40]。Adam等用随机森林法对沼泽湿地物种进行分类,利用树冠光谱区分莎草纸沼泽和与它共生的物种。结果,随机森林分类器达到了90.50%的总体分类精度,kappa系数0.87;单独类精度在93.73%~100.00%[41]。Mansour等通过研究4个指示物种的冠层反射光谱的可分性来推断牧场的退化水平,分类方法采用随机森林,结果表明,随机森林可以达到88.64%的总体分类精度[42]。

3.3.5 判别分析法(Discriminant Analysis,DA)。基本原理是按照一定的判别准则,建立相应的判别函数,然后根据大量研究对象属性确定函数待定系数,进而计算判别指标。然后用该判别函数对未知类别研究对象进行分类计算,依据指标确定类别[43]。判别分析方法有很多种,例如线性判别、逐步判别等等。Banskota等对小波离散变换分析对3种针叶树分类效果进行评价,分类方法采用逐步判别法,最后的分类精度达到了74.2%[44]。Lucas等利用空间分辨率1 m的高光谱图像绘制混交林的树冠分布图,利用逐步判别分析,主要树种的分类精度可以达到87%[45]。

上述5种分类方法的优缺点对比见表1。尽管各有优缺点,但5种分类方法的效果都比较理想。由图4可知,以上介绍的5种分类方法的识别能力相对较高,分类精度大部分都可以达到80%或者90%以上。

3.4.1交叉验证(CrossValidation,CV)。有时也叫做循环估计,是一种常用的精度验证方法[47-48]。首先将样本随机分成若干子集,其中一个样本子集用于分类分析,建立分类模型,称为训练集级。其余样本子集则作为验证数据用于检验分类模型的精度,称为测试集。

3.4.2混淆矩阵(Confusion Matrix,CM)。混淆矩阵通常用于评价一个分类器的精度。混淆矩阵的每一列代表数据集的真实类别信息,每一列的数据代表该列数据集分别分到不同类的数据量。矩阵的每一行代表了数据总体的分类信息,矩阵每一行数据等于每个类别中的真实数据量[49-50]。基于此,可以计算出总体分类精度、kappa系数、生产者和用户精度等指标。

3.4.3欧氏距离法(Euclidean Distance Method,EDM)。基本原理是计算同类样本间的欧式距离和不同类型样本间的欧式距离,如果后者相较前者大,那么说明分类效果好[51]。欧氏距离是指n维空间中两个点的真实距离。

4结论与讨论

综上所述,关于高光谱分类的文献发布数量总体呈上升趋势,其中美国的文献发布量是最多的,大家关注最多的林型是热带森林。各研究学者采用最多的分类方法有最大似然法、支持向量机、随机森林、光谱角度制图和判别分析这5种,这5种算法各有优缺点,分类精度总体较高,分类敏感波段大多在可见光、近红外和短波红外等波段。分析中也发现如下现象值得探讨。

(1)从文献发布数量上来看,利用高光谱数据进行分类正受到越来越多的国内外学者关注,这也从一定程度上反映了高光谱数据在分类方面的实用性,具有很大的研究价值。

(2)在国际期刊中,美国的文献发布数量是我国的5倍之多,足可以反映出我国在高光谱分类领域与美国差距甚远,研究需要深化创新发展。

(3)热带森林,特别是热带雨林,生态环境复杂,树种数量多,普通的多光谱数据无法满足精细分类的需要,因此高光谱分类对于热带森林来说有很大的研究空间与研究价值。城市与现代人的生活息息相关,城市中人口密集,城市森林因而备受关注,实现城市森林的精细分类对整个城市的绿化和发展都具有重要意义。湿地资源现在有不断退化的趨势,湿地生态系统保护受到越来越多的重视,了解湿地的树种组成结构是保护湿地的前提,而高光谱数据分类基本可以满足要求。

(4)高光谱数据分类方法有很多,很多新算法都是以上文介绍的5种方法为原型,通过改进而得到的。这5种方法各有优缺点,用户可结合数据特征和硬件设施条件来选择合适的分类器。总起来说,随机森林和支持向量机考虑的变量多,可以实现光谱的精细识别,但是算法复杂,耗费计算机资源多。其他3种分类器算法相对简单,不过算法的适用性受到限制,当条件无法满足时分类精度低。

(5)分类敏感波段相对集中在可见光、近红外和短波红外波段,然后对于不同的分类来说,波段分布并不统一。造成这种现象的原因可能有很多,比如树种之间存在差异、同种树种之间也会有区别、不同仪器的波段数和波段值不同、仪器的系统误差等。

参考文献

[1] MANJUNATH K R,KUMAR T,KUNDU N,et al.Discrimination of mangrove species and mudflat classes using in situ hyperspectral data:A case study of Indian Sundarbans[J].Giscience & Remote Sensing,2013,50(4):400-417.

[2] ZHANG H,HINZE L L,LAN Y,et al.Discriminating among cotton cultivars with varying leaf characteristics using hyperspectral radiometry[J].Transactions of the Asabe,2012,55(1):275-280.

[3] RODRIGUEZGALIANO V F,CHICAOLMO M,ABARCAHERNANDEZ F,et al.Random forest classification of mediterranean land cover using multiseasonal imagery and multiseasonal texture[J].Remote Sensing of Environment,2012,121:93-107.

[4] FAUVEL M,TARABALKA Y,BENEDIKTSSON J A,et al.Advances in spectralspatial classification of hyperspectral images[J].Proceedings of the IEEE,2013,101(3):652-675.

[5] CAMPSVALLS G,TUIA D,BRUZZONE L,et al.Advances in hyperspectral image classification:Earth monitoring with statistical learning methods[J].IEEE Signal Processing Magazine,2014,31(1):45-54.

[6] FAUVEL M,TARABALKA Y,BENEDIKTSSON J A,et al.Advances in spectralspatial classification of hyperspectral images[J].Proceedings of the Ieee,2013,101(3):652-675.

[7] 朱炜,李东,沈飞,等.高光谱遥感森林树种分类研究进展[J].浙江林业科技,2013(2):84-90.

[8] 黄玮.高光谱遥感分类与信息提取综述[J].数字技术与应用,2010(5):134-136.

[9] 许卫东.高光谱遥感分类与提取技术[J].红外,2004(5):28-34.

[10] PLAZA A J.Recent developments and future directions in hyperspectral data classification[C]//BRUZZONE L.Proc.SPIE 6748,Image and Signal Processing for Remote Sensing XIII.Florence,Italy,2007:67480.

[11] DEMETRIADESSHAH T H,STEVEN M D,CLARK J A.High resolution derivative spectral in remote sensing[J].Remote Sensing of Environment,1990,33:55-64.

[12] 褚西鹏.基于叶片非成像高光谱数据树种分类[D].杭州:浙江农林大学,2012.

[13] 秦侠,沈兰荪.小波分析及其在光谱分析中的应用[J].光谱学与光谱分析,2000(6):892-897.

[14] 王強,束炯.高光谱遥感图像光谱域去噪的小波变换方法[J].大气科学研究与应用,2008(2):9-17.

[15] 丁丽霞,王志辉,葛宏立.基于包络线法的不同树种叶片高光谱特征分析[J].浙江林学院学报,2010(6):809-814.

[16] KOKALY R F,CLARK R N.Spectroscopic determination of leaf biochemistry using banddepth analysis of absorption features and stepwise multiple linear regression[J].Remote Sensing of Environment,1999,67(3):267-287.

[17] 柳萍萍,林辉,孙华,等.高光谱数据的降维处理方法研究[J].中南林业科技大学学报,2011(11):34-38.