李志花,冯美臣,王超,赵佳佳,王慧琴,刘婷婷,杨武德
(山西农业大学 旱作农业工程研究所,山西 太谷 030801)
冬小麦高光谱信息提取方法的研究
李志花,冯美臣,王超,赵佳佳,王慧琴,刘婷婷,杨武德*
(山西农业大学 旱作农业工程研究所,山西 太谷 030801)
针对高光谱数据波段多、数据量大和冗余度大等特点,本文以ASD便携式高光谱仪为光谱数据获取手段,以不同生育时期冬小麦冠层高光谱为研究对象,采用主成分分析和波段自相关分析两种方法来进行数据降维,通过采用基于高光谱与叶面积指数估算(LAI)相关系数法进行验证,以确定冬小麦高光谱遥感信息提取的最佳波段。结果表明,主成分分析法(PCA)和波段自相关分析法选择的波段主要在可见光区域(350~450nm和600~700nm)、近红外区域(1 100~1 200nm)和短波红外区域(1 500~1 750nm),包含了验证方法基于高光谱与LAI相关系数法所选择的主要波段范围:可见光区域和近红外区域。综合考虑,用主成分分析法和波段自相关分析法两种方法对冬小麦高光谱提取的信息是全面、可靠的,包含了针对某一生理指标如LAI的有关信息。
高光谱遥感;信息提取;主成分分析;自相关分析
高光谱(Hyperspectral)遥感是上世纪末地球观测系统中最重要的技术突破之一,它克服了传统单波段、多光谱遥感在波段数、波段范围、精细信息表达等方面的局限性,以较窄的波段区间、较多的波段数量提供遥感信息,能够从光谱空间中对地物予以细分和鉴别,在资源、环境、城市、生态等领域得到了广泛应用。
高光谱数据具有波段多、光谱范围窄、数据量大等特点,对此已经有很多这方面的研究。杜华强[1]利用方差、最大最小值及波段间的相关性等方法进行波段选择,取得了较好的效果。刘建平等[2]提出了基于类间可分性的高光谱数据最佳波段选择理论模型,具有一定的实用性。Thenkabail等[3]通过对灌木层、草地、杂草和农作物进行综合分析,选择22个10nm波段作为植被监测的最佳波段。Lavanya等[4]运用波段去除技术和方差分析得到最大差异波段。张雪红等[5]将广泛应用于岩矿中的包络线消除法应用于油菜高光谱评价中。Nakariyakul等[6]运用比率特征选择对农业生产进行了研究。此外,关于光谱特征选择与提取的方法还有光谱吸收特征参数、光谱编码、原始光谱与LAI光谱和光谱吸收指数等[7]。
大量的研究表明高光谱数据在估算光合作用[8]、覆 盖 度[9]、叶 面 积 指 数 (LAI)[10,11]、生 物量[12]和氮素含 量[13,14]等 方 面 具 有 一 定 的 改 进 和提高,但是,高光谱数据相邻波段存在大量冗余。为了解决高光谱波段冗余问题,必须从众多高光谱波段中选择一些有用的窄波段进行遥感信息提取[15]。
本文以不同品种在不同施氮素水平下,于不同生育时期测定的冬小麦冠层高光谱数据为数据源,采用主成分分析和波段自相关分析两种方法,来确定冬小麦高光谱信息提取的最佳波段,再用基于原始光谱与LAI相关系数分析法进行验证。研究结果为实现冬小麦高光谱遥感数据优化处理和高效利用提供理论和技术支撑。
试验于2012年10月—2013年6月在山西农业大学农学院的农作站进行。供试土壤为黄土母质发育而成的石灰性褐土,土壤肥力水平中等,其理化性质为:土壤有机质含量22.01g·kg-1,碱解氮53.8mg·kg-1,有效磷18.43mg·kg-1,速效钾236.9mg·kg-1。供试肥料为尿素(含纯N 46%),过磷酸钙(含P2O512%)。
裂区设计。主区为品种3个,分别为长4738、晋农190和晋太 9923;副区为土壤施氮素水平,5个,分别为0、75、150、225、300kg·hm-2。重复3次。共计小区3×5×3=45个,每个小区面积3m×4m。于2012年10月初播种,播种密度为每公顷60万株,播种行距为20cm。田间管理的各处理均采用常规方法进行管理。分别于播种期和拔节期施基、追肥,基追肥比为4∶6。
采用美国ASD公司生产的ASD Field Spec 3.0型便携式高光谱仪,分别在冬小麦返青期、拔节期、孕穗期、开花期以及开花后每隔7d进行田间冠层LAI光谱测定。仪器视场角为25°,波段范围为350~2 500nm,波长精度为1nm。所有光谱测量均选择在天气晴朗、无风或者风速较小时进行,测量时间段为10:00~14:00。每次测量时需用白色标准板校准1次,探头垂直向下,探头距离冠层的垂直高度约1m。每个小区测定3点,每点重复10次,取平均值作为该小区小麦的冠层光谱。
干重法,与光谱测量同步进行。每次每个小区采样0.5m2,随机选取5片叶整齐地排列在一起(各叶片的中部边缘紧靠),测其总宽度;然后精确地剪下叶片中段4厘米长,求得其叶面积(S1),烘干称重(W1);再将剩余叶片烘干称重(W2),进而求得5株小麦的总叶面积(记为S=S1×(W1+W2)/W1)。
利用光谱仪处理软件ASD ViewSpecPro对采集的光谱曲线进行分析,剔除无效数据,所得曲线即为光谱曲线图。另外,将350~2 500nm光谱范围内的水汽吸收带1 350~1 480、1 780~1 990和2 400~2 500nm等范围内的噪声波段进行剔除(如图1所示),使光谱数据有利于敏感波段的提取。
主成分分析(Principal Component Analysis,PCA)作为一种多元数据统计分析的工具,其基本方法是通过原变量构造适当的线性组合,产生一系列互不相关的新变量(主成分),从中选出少数几个新变量尽可能多地表征原变量数据特征而不丢失信息[16]。由于高光谱相邻波段高度相关,因此将去除受水汽影响的波段之后剩下的所有波段,以5nm为波段宽度,在SAS程序中以不同生育时期分别导入冬小麦高光谱对应波段的反射率数据,进行主成分分析。
表1给出了不同时期冬小麦最优光谱波段及各个主成分解释的变异百分比(即贡献率)。由表1可知,前4个主成分就可以解释99%以上的光谱变异。因此,将前4个主成分选择的波段作为表征冬小麦信息的最优波段。将每个主成分前10个最大的权重系数对应的波段选择出来作为表征冬小麦光谱信息的最优波段(表1)。一般前几个主成分选择出的波段都包含在同一光谱区域内,表示这个主成分主要是受到选择波段所在的光谱区域影响,而后面几个主成分选择的波段则一般是由几个光谱区域构成的。以返青期为例,光谱的第一主成分选择的波段主要集中在1 690~1 750nm,因此这个主成分主要受到短波近红外的影响。拔节期第二个主成分,不仅包含红光波段,而且还包含近红外,该主成分表示拔节期的冬小麦光谱在这些波段中包含有信息。
图1 高光谱数据反射率曲线图Fig.1 The graph of hyperspectral reflectivity
表1 主成分分析选择的不同生育时期冬小麦的最优波段及其贡献率Table 1 Wavebands and proportion selected using PCA method at different growth stages
续表1
从每个时期选择出4×10=40个光谱波段,共160个波段(包括重复波段)。将160个波段按照所有可能的波段值进行统计,并以50nm为区间做成直方图(图2蓝色柱状图,电子版)。从图2可以看出,冬小麦最优波段主要分布在350~450、600~700、1 050~1 250、1 500~1 740、2 000~2 050nm这几个区域,其中350~450nm占总波段的25.63%,600~700nm 占12.50%,1 050~1 150nm占11.25%,其他的波段范围所占百分比相对较小。
本方法的基本原理是相关分析,计算的是波段与波段之间的相关性。对不同生育时期的光谱反射率数据进行波段自相关分析,相关系数越小,冬小麦光谱波段信息含量越多。同主成分分析法一样,去除受水汽影响的波段后,从350nm开始构成340个5nm宽度的波段值,最后分别将不同生育时期的冬小麦高光谱数据导入SAS进行计算,所有波段两两组合计算相关系数R,生成340×340个数据量的R矩阵。再将R矩阵在Excel中进行平方计算,得到R2矩阵。
根据R2越大光谱波段之间冗余信息越多,R2越小冬小麦光谱波段信息含量越多的原则,在所有结果中选择出前100个R2最小值对应的波段,将这些波段进行统计分析,由于数据量过大,因此只给出出现次数大于2次的波段值,如表2所示。
表2 波段自相关选择的波段及出现的次数Table 2 Wavebands selected by intercorrelation between spectral bands and their occurrences
由表3可知,不同生育时期冬小麦信息含量丰富程度不同,对应波段也不同。整体而言,主要集中在350~430、655~720、770~790、1 115~1 140 nm几个区间。其中,1 115~1 140nm包含了冬小麦18.82%的信息量,655~675和350~430nm分别包含了14.1%、10.72%的信息量,另外三个波段区间所包含的信息量相对较少。
为了更加清晰的表示出波段的位置,将100个波段出现的情况以50nm宽度为区间做成柱状图,统计在各个区间内波段出现的次数,并计算得到百分比(图2红色柱状图)。由图2可见,1 100~1 150 nm(近红外)这个范围内的波段出现频率最高,这个波段的反射率对叶片细胞结构变化比较敏感,1 500~1 550nm(短波红外)这个波段范围的反射率对水分变化比较敏感,600~700nm波段区间是对低叶绿素含量敏感对中高叶绿素含量不敏感的红光波段以及与生理生化参数密切相关的部分红边波段。另外,在350~450、750~900、1 050~1 100nm等几个区间也有相对较高的出现频率。
本方法是以LAI与原始光谱(去除水汽影响波段)相关系数的波段选择。计算这些原始光谱与LAI之间的相关系数,然后根据相关系数与光谱波长的关系图,选择出不同生育期的相关系数较大值所对应的波段。表3给出了相关系数较大的波段作为冬小麦LAI估算的合适波段。
图2 前三种方法选择的波段出现次数百分比的综合比较(区间宽度为50nm)Fig.2 Occurrence percentage of hyperspectral narrow bands in 50nm bandwidth over all bands selected using 3 methods
表3 原始光谱相关系数选择的光谱波段Table 3 Wavebands selected using correlation coefficient between spectral bands and LAI
将原始光谱与LAI计算所得相关系数选择的波段进行汇总,然后以50nm为间隔统计出现在各个光谱区间的波段个数(图2电子版中绿色柱状图),并计算其百分比。所选择的光谱波段主要位于可见光区域350~450nm,近红外600~700、1 100~1 150nm区域,和短波红外2 350~2 400 nm区域。
由图2可见,冬小麦LAI估算的光谱波段主要位于可见光区域350~450nm,近红外600~700、1 100~1 150nm区域(图2电子版绿色柱状条所示)。与另外两种方法选择出的波段(图2电子版红色和蓝色柱状条所示)有重合部分,表示这三种方法选择的波段都包含有LAI信息。
虽然主成分分析和波段自相关分析选出的波段有所不同,但是这些波段都包含了能表征冬小麦LAI信息的波段,表明主成分分析和波段自相关分析这两种方法在反映冬小麦信息时,选择的波段会包含冬小麦所有信息,而与LAI相关分析时选择的波段主要是有关LAI的信息。
本文以冬小麦大田试验为基础,研究了冬小麦四个生育时期的冠层光谱,并针对高光谱数据波段多、数据量大、冗余度大等特点,论述了冬小麦高光谱数据信息提取的两种方法:一是主成分分析法,二是波段自相关分析法,并用原始光谱与LAI相关系数法进行验证。
按照特征提取的观点,主成分分析相当于一种基于最小均方误差的提取方法,是研究如何将多指标问题转化为较少的综合指标的一种重要统计方法[16]。与另外两种方法相比较,最突出的优点是选出来的敏感波段会有各自的贡献率,对于本研究来说,前4个主成分就包含了全部信息的99%,这对于大量遥感数据提取敏感波段有重要意义,既压缩了数据量又不会丢失信息,使得所获取的信息丰富、完整,对于今后进一步进行详细农学指标信息的提取打下基础。
波段自相关法是波段与波段之间进行的相关分析,可以更直观、快捷的剔除其冗余信息,减少波段间的干扰,为之后具体与冬小麦各农学指标进行计算时减小计算量,节约时间。但是波段自相关法也有其自身缺点,它不像主成分分析一样可以直接利用贡献率大小挑选敏感波段,而是需要人工选择相关系数最小的波段,费时费力。
原始光谱与LAI进行的相关分析,其结果百分比中最大的5个峰值相差很小,说明这些波段中包含了较多与LAI有关的信息,且该方法同样可以用在叶绿素、可溶性糖、有机质、氮素等一些其他指标与原始光谱进行相关系数分析上。
主成分分析法和波段自相关分析法两种方法选择的波段主要在可见光区域、近红外区域和短波红外区域,而基于原始光谱与LAI相关系数法作为验证方法选择的波段主要在可见光区域和近红外区域。这就说明,主成分分析和波段自相关分析都是只针对光谱数据的波段选择,是从整体上进行的信息提取,波段选择的结果受包括LAI在内的多种因素综合影响。原始光谱与LAI进行的相关分析法,验证了前两种方法所选择波段的信息的正确性及丰富性,为后续的建模等提供方法基础。
另外,本研究基于大田试验进行的测量,由于种植方式、肥力状况、管理水平等的差异,可能会对冬小麦的光谱特征产生一定影响,方法是否适合其它更广阔的领域还有待进一步验证。
[1]杜华强,赵宪文,范文义.分形维数作为高光谱遥感数据波段选择的一个指标[J].遥感技术与应用,2004,19(1):5-9.
[2]刘建平,赵英时,孙淑玲.高光谱遥感数据最佳波段选择方法试验研究[J].遥感技术与应用,2001,16(1):7-9.
[3]Thenkabail P S,Enclona E A,Ashton M S,et al.Accuracy assessments of hyperspectral waveband performance for vegetation analysis applications[J].Remote Sensing of Environment,2004,3(4):354-376.
[4]A.Lavanya,S.Sanjeevi.An Improved Band Selection Technique for Hyperspectral Data Using Factor Analysis[J].Journal of the Indian Society of Remote Sensing,2013,41(2):199-211.
[5]张雪红,刘绍民,何蓓蓓.基于包络线消除法的油菜氮素营养高光谱评价[J].农业工程学报,2008,24(10):151-155.
[6]Nakariyakul S,Casasent D.Hyperspectral ratio feature selection:agricultural product inspection example [C]// Proc of Spie,vol5587.2004:133-143.
[7]Withagen P J,den Breejen E,Franken E M,et al.Band selection from a hyperspectral data-cube for a real-time multispectral 3CCD camera[C]//Shen S S,Descour M R.Proc of Spie,vol4381.Orlando:[s.n],2001:84-93.
[8]赵进平,王维波,Cooper Lee.利用北冰洋多光谱数据计算光合有效辐射的研究[J].极地研究,2010,22(2):91-95.
[9]刘占宇,黄敬峰,吴新宏,等.天然草地植被覆盖度的高光谱遥感估算模型[J].应用生态学报,2006,17(6):998-1002.
[10]杨峰,范亚民,李建龙,等.高光谱数据估测稻麦叶面积指数和叶绿素密度[J].农业工程学报,2010,26(2):237-242.
[11]冯伟,朱艳,姚霞,等.基于高光谱遥感的小麦叶干重和叶面积指数监测[J].植物生态学报,2009,33(1):34-44.
[12]柏军华,李少昆,王克如,等.基于近地高光谱棉花生物量遥感估算模型[J].作物学报,2007,33(2):311-316.
[13]赵刚峰,李军,刘冰峰,等.关中冬小麦叶片氮素含量高光谱遥感监测模型[J].麦类作物学报,2012,32(3):530-536.
[14]王渊,黄敬峰,王福民,等.油菜叶片和冠层水平氮素含量的高光谱反射率估算模型[J].光谱学与光谱分析,2008,28(2):273-275.
[15]黄敬峰,王福民,王秀珍.水稻高光谱遥感实验研究[M].杭州:浙江大学出版社,2010:32-33.
[16]唐红,郑文斌,李宪霞.主成分分析在光全散射特征波长选择中的应用[J].光学精密工程,2010,18(8):1691-1698.
The Study of Winter Wheat Hyperspectral Information Extraction Method
Li Zhihua,Feng Meichen,Wang Chao,Zhao Jiajia,Wang Huiqin,Liu Tingting,Yang Wude*
(InstituteofDryFarmingEngineering,ShanxiAgriculturalUniversity,TaiguShanxi030801,China)
In accordance with the high spectral data band,the large amount of data and the redundancy of the high data,the method of principal component analysis(PCA)and band intercorrelation analysis were used in the paper.The experiment was conducted to obtain the hyperspectral data under different growth stages of winter wheat.Moreover,the extracted hyperspectral information was validated by the sensitive bands of leaf area index (LAI)selected with the method of correlative analysis.The results showed that the hyperspectral information selected with methods of principal component analysis(PCA)and intercorrelation analysis are mainly centered in the area of 350~450nm,600~700nm,1 100~1 200nm and 1 500~1 750nm which covered the visible,near-infrared and shortwave infrared bands.To validate the selected hyperspectral information,the sensitive bands of LAI extracted with the correlative coefficient analysis were contained in the hyperspectral information of winter wheat.The paper indicated that the method of PCA and correlation analysis was available and reliable in reducing the hyperspectral redundancy and extracting hyperspectral information of winter wheat.
Hyperspectral remote sensing;Information extraction;PCA;Intercorrelation
S 12;S126
A
1671-8151(2015)05-0467-07
10.13842/j.cnki.issn1671-8151.2015.05.004
2015-03-06
2015-05-01
李志花(1988-),女(汉),山西离石人,硕士研究生,研究方向:作物信息技术
*通讯作者:杨武德,教授,博士生导师。Tel:0354-6288227,E-mail:sxauywd@126.com
国家自然科学基金项目(31371572,31201168);山西省科技攻关项目(20110311038);山西省青年基金项目(2012021023-5)
(编辑:武英耀)