邱 琳,林 辉,臧 卓,孙 华,莫登奎
(中南林业科技大学 林业遥感信息工程研究中心,湖南 长沙 410004)
基于均值置信区间带的湿地植被高光谱特征波段选择
邱 琳,林 辉,臧 卓,孙 华,莫登奎
(中南林业科技大学 林业遥感信息工程研究中心,湖南 长沙 410004)
以东洞庭湖苔草、泥蒿、芦苇、辣蓼与柳树5种典型湿地植被为研究对象,采用基于均值置信区间估计原理筛选特征波段,并结合Manhattan距离法检验植被识别的效果。研究结果表明:(1)剔除5种湿地植被类型中两两植被置信区间带重合率大的波段,得到光谱特征差异显著的特征波段,为680、760、870、1 570、2 030 nm。(2)5种植被类型的光谱反射率Manhattan距离值分别为0.126 8、0.113 4、0.113 9、0.263 9、0.235 0,同种植被的Manhattan距离值显著小于异种植被。(3)通过对苔草、泥蒿、芦苇、辣蓼与柳树5种植被光谱反射率(R)进行数学变换发现,采用LOG(1/R)变换后的Manhattan值分别为0.945 6、0.609 9、0.525 6、0.952 8、1.036 5,显著大于d(R)与 d[LOG(1/R)]变换方法后的Manhattan值,表明LOG(1/R)变换方法对这5种植被的识别效果优于d(R)与 d[LOG(1/R)]方法。
高光谱特征波段;湿地植被;置信区间;东洞庭湖
湿地是地球表面重要的生态系统之一,如何高效监测及进行湿地信息提取意义重大[1]。湿地植被是湿地生态系统的重要组成部分,自然也成了研究的重点。
近年来,随着高光谱技术的不断发展,其硬件设备已经日趋成熟,这使得遥感数据的光谱分辨率大幅提高,同时有效提高了地物识别能力[2]。很多学者利用高光谱数据进行地物识别并取得了较好的结果[3-4],如2005年宫鹏等人[5]使用实测的高光谱数据识别几种主要的针叶树种,证明了高光谱数据识别树种的能力较强;2010年王志辉等[6]利用实测的4个树种叶片光谱,通过计算欧式距离平均值,有效识别了4个树种。高光谱数据虽然能精细识别不同地物间的差异,但数据量巨大给数据处理和分析带来困难[7],因此不同地物间敏感波段的选择成为了高光谱数据运用的重要环节[8-9]。2005年刘秀英等[10]利用地物光谱仪对杉木、雪松、小叶樟和桂花4个树种进行高光谱数据测量,证明了特征波段对树种的识别有效可行。2009年张睿等[11]提出了一种基于一对一多类策略的支持向量机递归特征约减算法(SVM-RFE),并利用该算法有效筛选出特征波段。结合光谱反射率均值置信区间估计进行高光谱特征选择,是近些年由陈永刚等[12]提出的一种波段选择方法,利用该方法有效识别了雷竹、柏木和无患子3种植被。
湿地植被由于受水分影响较大,基于实测高光谱数据均值置信区间的方法,是否适用于湿地植被的识别,能否获得前人研究中同样的效果还未有具体的研究。为深入探讨此方法在湿地植被识别中的效果及可推广性,此次研究根据均值置信区间进行波段选择,结合Manhattan距离法做进一步的研究。
研究区为湖南东洞庭湖,地处湖南省东北部岳阳市境内,位于长江中下游荆江江段南侧,北纬 28°59′~ 29°38′, 东 经 112°43′~ 113°15′。 于2011年9月20日至9月28日对东洞庭湖典型湿地植被进行野外实地高光谱数据采集。
1.2 观测对象
选取的观测对象是东洞庭湖典型的5种湿地植被,即苔草Carex、泥蒿Artemisia、芦苇Phragmites communis、辣蓼Polygonum hydropiper及柳树Salix babylonica。
1.3.1 试验设计
采集苔草、泥蒿、芦苇、柳树与辣蓼5种植被的冠层高光谱数据,求得每种植被30组试验样本的均值,对光谱反射率(R)进行一阶微分d(R)、倒数的对数LOG(1/R)及其一阶微分d[LOG(1/R)]变换[13],剔除两两植被类型均值置信区间带重合率高的波段,实现有效降维,同时优选出能识别5种湿地植被的特征波段,最后利用Mahanttan距离评价识别的效果。
1.3.2 试验仪器
高光谱测定采用美国 ASD 公司的 Field Spec 3 背挂式野外高光谱辐射仪,光谱范围为350~2 500 nm,其中 350~1 000 nm 和 1000~2 500 nm 的光谱分辨率分别为3 nm 和10 nm,光谱采样间隔分别为1.4 nm 和 2 nm,数据输出时重采样间隔为1 nm,光纤前视场角为25°。
1.3.3 数据采集
所有的光谱测定均选择在晴朗无云、无风、光照条件较好时进行,测定时间为10:00~14:00(太阳高度角大于45°),此时阳光几乎直射。高光谱数据采集时,必须保持探头垂直向下。为使数据具有代表性,采集的样点地均匀分布于东洞庭湖。5种植被各采集40条数据,共采集数据200条(如表1所示)。
表1 采集的数据Table 1 Collected data
1.4.1 数据预处理
首先采用S.Golay函数进行平滑滤波处理[14],消除光谱曲线上存在的噪声毛刺。由于光谱仪在近红外区间的光谱分辨率为10 nm,本研究将光谱数据全部重采样成10 nm,重采样后的数据在一定程度上降低了可见光波谱的分辨率,同时抑制了高频噪声对数据的影响[15],降低数据处理的难度。最后对光谱反射率(R)进行一阶微分变换d(R)、倒数的对数变换LOG(1/R)及其一阶微分变换d[LOG(1/R)],得到的结果如图1~4所示。
1.4.2 数据降维
研究主要采用基于反射率均值置信区间方法[12]对湿地植被高光谱数据进行降维处理。其基本原理如下:
根据统计学原理,如果样本容量足够大时,所有随机分布的均值皆收敛于正态分布[16]。在1-α置信水平下,波段i光谱反射率均值μi置信区间与置信水平α的关系为式(1)所示。
图1 反射率Fig.1 Ref l ectivity
图2 一阶微分Fig.2 First order differential of ref l ectivity
图3 倒数的对数Fig.3 The reciprocal of the logarithm
图4 倒数对数的一阶微分Fig.4 The fi rst derivative for the reciprocal of the logarithm
式中:为第i个波段n次测量的光谱反射率的平均值;Si为样本标准差;α为显著性水平。光谱
特征选择是从原始特征中按照应用要求抽取出一个特征子集,能够有效描述光谱特征的独特信息并实现降维[17]。所有波段(350~2 500 nm)的光谱反射率均值置信区间构成了置信区间带。基于光谱反射率均值置信区间带筛选植被特征波段的原理如图5所示。
图5 原理图Fig.5 Vegetation characteristics of band
从图5可以看出,波段区间[a,b]与[c,d]中,两植被光谱反射率值置信区间带重合率高,不适用于植被识别,故剔除。通过剔除均值置信区间带重叠率高的波段,筛选出最佳的植被区分波段,同时达到降维的目的。
运用均值置信区间带的特征选择方法,分别求得5种植被4种变换方法的置信区间带,结果如图6~9所示。
图6 反射率Fig.6 Ref l ectivity
图7 一阶微分Fig.7 The fi rst derivative of the ref l ectivity
图8 倒数的对数Fig.8 The reciprocal of the logarithm
图9 倒数对数的一阶微分Fig.9 The fi rst derivative for the reciprocal of the logarithm
从图6、图8可以看出,5种典型湿地植被类型中,辣蓼与其它4种植被类型差异显著,最易被区分;苔草与芦苇的光谱值差异较小,光谱曲线的置信区间带几乎重合,不易区分;5种植被的R值及log(1/R)值较为分散,识别效果较好,其中log(1/R)变换后的值识别效果最佳。图7、图9表明:5种植被的d(R)与 d[log(1/R)]值的置信区间重合率较高,识别效果相对较差,不利于特征波段的选择。
分析5种植被的置信区间带数据,剔除5种植被类型中两两植被置信区间带重合率超过95%的波段,得出特征波段为680、760、870、1 570、2 030 nm(其中680、760、870、1 570、2 030 nm表示的是10 nm间隔重采样后的中心波长位置)。
运用Manhattan距离法评价特征波段对5种植被的识别效果,分别计算5种植被的Manhattan距离值(如表2所示)。
由表2分析可知,苔草、泥蒿、芦苇、辣蓼与柳树5种植被,同种植被的Manhattan值与异种植被的Manhattan距离值比较可发现,同种植被的Manhattan距离值显著小于异种植被,如表2中标记为#的数据所示。同时可发现:两种植被之间的Manhattan距离值,不管是以哪种植被为检验样本,哪种植被为试验样本,计算结果都较为接近,如表2带*符号所示,表明本研究的方法较为可靠。
分析表2辣蓼的数据可发现,辣蓼与苔草、泥蒿、芦苇、柳树的Manhattan距离值显著大于其它4种植被,如表2中第4行数据及带**符号的数据所示。其中0.653 9**小于该行其它值,是因为0.653 9是辣蓼检验样本与试验样本的Manhattan值,属于同种植被的Manhattan距离,0.889 4、0.757 3、0.952 8、0.900 0是辣蓼与其它植被,即异种植被的Manhattan值。总之,辣蓼与其它4种植被的Manhattan距离值大,说明辣蓼与其它植被差异大,容易区分。
表2 5种植被特征波段Manhattan距离值Table 2 Manhattan distance values of five vegetation characteristic bands
此次研究通过对5种植被的4种数学变换数据比较分析发现,各植被经过LOG(1/R)变换方法的Manhattan距离值均显著大于其它变换方法,如表2中加粗标记的数据,表明经过LOG(1/R)变换后的5种植被之间的差异最大,识别效果最佳,原始光谱反射率(R)次之。d(1/R)与d(LOG(1/R))变换,由于引入了大量噪声,降低了信噪比,5种植被的Manhattan距离值小,识别效果较差。
通过均值置信区间估计优选特征波段,运用Manhattan距离法检验特征波段,并区分不同植被的效果,其结果表明所选择的波段能很好地识别5种典型湿地植被类型,主要结论有:
(1)提出了一种基于均值置信区间带筛选东洞庭湖5种典型植被类型间最佳波段的方法,通过这种方法能有效选择出识别东洞庭湖5种典型植被的特征波段,达到了高光谱降维的目的。
(2)同一植被类型的检验样本和光谱基准数据(植被试验样本)之间的Manhattan距离显著小于不同植被类型间的Manhattan距离,说明Manhattan距离法可以有效识别不同湿地植被类型。
(3)通过对实测光谱反射率进行了一阶微分、倒数的对数等变换以更好地进行高光谱数据降维及分类,其中倒数的对数变换方法对于湿地植被而言识别效果最好,一阶微分则不利于特征波段的选择。
[1] 孙 岩.湿地植物高光谱特征分析与物种识别模型构建[D].北京:清华大学,2008.
[2] Salehia B, Zoej M J V. Remote Sens[J]. Environ., 2002,36:332-337.
[3] 谭炳香.高光谱遥感森林类型识别及其郁闭度定量估测研究[D].北京:中国林业科学研究院,2006:1-130.
[4] 吴 见,彭道黎.高光谱遥感林业信息提取技术研究进展[J].光谱学与光谱分析,2011,31(9):2305-2312.
[5] 宫 鹏,浦瑞良,郁 彬.不同季相针叶树种高光谱数据识别分析[J].遥感学报,1998,2(3):211-217.
[6] 王志辉,丁丽霞.基于叶片高光谱特性分析的树种识别[J].光谱学与光谱分析,2010,30(7):1825-1829.
[7] 童庆禧,张 兵,郑兰芬.高光谱遥感——原理、技术与应用[M].北京:高等教育出版社,2006:6.
[8] 刘秀英,臧 卓,孙 华,等.基于高光谱数据的杉木和马尾松识别研究[J].中南林业科技大学学报,2011,31(11):30-33.
[9] 张良培,郑兰芬,童庆禧. 利用高光谱对生物变量进行估计[J].遥感学报, 1997, 1(2):111.
[10] 刘秀英,林 辉,熊建利,等.森林树种高光谱波段的选择[J].遥感信息,2005,(4):41-44.
[11] 张 睿,马建文.一种SVM-RFE高光谱数据特征选择算法[J].武汉大学学报,2009,34(7):834-837.
[12] 陈永刚,丁丽霞,葛宏立,等.基于反射率均值置信区间带的高光谱特征波段选择与树种识别[J].光谱学与光谱分析,2011, 31(9):2462-2466.
[13] 卢艳丽,白由路,杨俐苹,等.基于高光谱的土壤有机质含量预测模型的建立与评价[J].中国农业科学,2007,40(9):1989.
[14] 蔡天净,唐 瀚.Savitzky-Golay 平滑滤波器的最小二乘拟合原理综述[J].数字通信,2011,(1):63-68.
[15] 浦瑞良,宫 鹏.高光谱遥感及其应用[M].北京:高等教育出版社,2000:144-174.
[16] Lipschutz S, Lipson M. Schaum’s Outline of Theory and Problems of Probability: Schaum’s Outline Series,2000.
[17] 苏红军, 杜培军. 高光谱数据特征选择与特征提取研究[J].遥感技术与应用,2006, 21(4): 288-293.
Hyper-spectral characteristic band selection for wetland vegetation based on mean conf i dence interval
QIU Lin, LIN Hui, ZANG Zhuo, SUN Hua, MO Deng-kui
(Research Center of Forest Remote Sensing & Information Engineering , Central South University of Forestry & Technology,Changsha 410004 , Hunan , China)
By taking fi ve kinds of typical wetland vegetations (Carex, Artemisia mud, reeds, Polygonum and willow) in the East Dongting Lake as the studied objects, the characteristic bands of the tested vegetations were picked out using conf i dence interval estimation principle. The vegetation identif i cation effects were examined by employing Manhattan distance method. The results show that (1) After removed the high repetition rate bands of two-two vegetation conf i dence interval, the center wavelength of the characteristic bands were obtained being 680, 760,870, 1 570, 2 030 nm; (2) The Manhattan distance of the spectral ref l ectance values for Carex, Artemisia mud, reeds, Polygonum and willow were 0.126 8, 0.113 4, 0.113 9, 0.263 9, 0.235 0, the same plant species’ Manhattan distance values were signif i cantly less than the values of heterogeneous vegetations; (3) Through mathematical manipulation of the ref l ectivity of Carex, Artemisia mud, reeds, Polygonum and willow,the Manhattan values transformed by LOG (1/R) method were: 0.945 6, 0.609 9, 0.525 6, 0.952 8, 1.036 5, they were signif i cantly greater than that by d (R) and d [LOG (1 / R)] transformation methods. It is found that the recognition effect of LOG (1/R) transformation method for the fi ve vegetations is better than d (R) and d [LOG (1/R)] methods.
hyper-spectral characteristic band; wetland vegetation; conf i dence interval; East Dongting Lake
S771.8
A
1673-923X(2013)01-0041-05
2012-10-15
国家重大专项项目(E0305/1112/02):“高分湿地资源应用监测示范”;“十二五”国家高技术研究发展计划(863计划)课题(2012AA102001):“数字化森林资源监测关键技术研究”;林业公益性行业科研专项(201104028):“林分结构与生长模拟技术研究”;湖南省高校科技成果产业化培育项目(11CY019)
邱 琳(1988-),女,江西吉安人, 硕士研究生,研究方向:林业遥感和地理信息系统;E-mail:609556486@qq.com
林 辉(1965-),女,湖北黄岗人,教授,博士,博士生导师,主要从事森林经理学、遥感技术与地理信息系统的教学与科研工作
[本文编校:谢荣秀]