刘啸风
摘要 为进一步提高遥感估产精度,显示国产影像在农业估产中的应用效果,该研究以2010—2013年HJ-1A/1B影像为遥感数据,分析了卫星遥感变量与小麦实际单产的定量关系,运用偏最小二乘回归算法构建及验证了以实际单产为目标的多变量遥感估产模型。研究表明:实际单产与所选用的大多数遥感变量间关系密切,且多数遥感变量两两间具有严重的多重相关关系;实际单产偏最小二乘回归模型的最佳主成分为5,且植被衰减指数、绿色归一化植被指数、调整土壤亮度的植被指数、比值植被指数和归一化植被指数为实际单产遥感估测的敏感变量;建模集和验证集实际单产估测模型的决定系数分别为0.74和0.70,均方根误差分别为754.05、748.20 kg/hm2,相对误差分别为11.5%和 8.88%,且估测精度比线性回归算法分别提高20%以上和40%以上,比主成分分析算法分别提高18%以上和30%以上,说明偏最小二乘回归算法模型估测区域实际单产的效果要明显好于线性回归和主成分分析算法,该模型应用结果与小麦实际单产区域分布情况相符合,为提高区域小麦实际单产的遥感估测精度提供了一种途径。
关键词 遥感;产量估测;偏最小二乘法;小麦
中图分类号 TP79 文献标识码 A 文章编号 1007-5739(2015)18-0209-02
Estimation of the Actual Yield Per Unit Area of Wheat Based on PLS Algorithm and Remote Sensing Image
LIU Xiao-feng
(Seed Management Station of Bayinguoleng Mongolia Autonomous Prefecture of Xinjiang Uygur Autonomous Region,Korla Xinjiang 841000)
Abstract In order to further improve the accuracy of crop-yield assess by remote sensing,according to domestic imaging applications in agriculture yield estimation results,taking HJ-1A/1B from 2010 to 2013 as remote image sensing data,satellite remote sensing variable and real output of wheat was analyzed.The study used partial least squaress regression algorithm was built and verified by the actual yield as the target of multivariable remote sensing yield estimation model.The research showed that the actual yield had close relationship with remote sensing variables,and most remote sensing variables between the two had severe multiple correlation relationship;Actual yield of partial least-squares regression model best principal component was 5,and the attenuation of vegetation index,green normalized difference vegetation index,adjust the brightness of vegetation index,soil ratio vegetation index and normalized difference vegetation index were sensitive variables to the actual yield remote sensing estimation;Modeling set and validation set models for predicting the actual yield decision coefficient were 0.74 and 0.70,root mean square error were 754.05 kg/hm2,748.20 kg/hm2.relative error of 11.5% and 8.88% respectively,and the estimation accuracy than linear regression algorithm was increased by more than 20% and 40% respectively,higher than that of principal component analysis algorithm was respectively 18% and 30%,the effect of partial least-squares regression algorithm model to estimate the regional actual yield significantly better than that of linear regression and principal component analysis algorithm.The actual application results of the model was in accord with the wheat yield per unit area distribution.It also provided an approach to improve the accuracy of estimate precision of wheat yield by remote sensing.endprint
Key words remote sensing;yield estimation;partial least squares method;wheat
科学准确地估测作物产量,是农业生产的重要环节,对农业生产具有重要的意义。准确估算粮食产量能够保障国家粮食安全,能够为农业生产的后续安排提供参考,能够为农业生产结构调整提供科学依据。随着科技的不断发展,遥感数据的准确性及分辨率不断提高,价格不断下降,为其应用于多种作物估产提供了便利。遥感技术应用于作物估产已经成为遥感与农业交叉的主要方面。
在生产中,对作物产量进行估计的方法有很多,如作物产量气象预报、人工抽样调查、统计模拟模型、遥感估产等[1-5]。其中,作物产量气象预报比较适宜小范围作物估产,但对于大范围作物因不同麦区田间气象差异较大导致估产精度偏低;人工抽样调查测产精度较高,但耗时耗力、成本高,不适于在大范围内进行;统计模拟模型是结合历史资料构建数学关系模型,能够对未来的变化趋势做出估测,是一种非主观方法。该方法的缺点是如果出现气候变化,估测结果的准确性大打折扣;应用遥感技术能够大面积、快速、动态和多尺度地获取农田丰富信息,在大面积作物长势监测、作物估产、农情监测与预报、农业资源调查等方面具有巨大的应用潜力[6]。国内外有关作物遥感估产研究已做了大量工作,但所用的卫星遥感资料时效较低,模型模拟效果的稳定性有待检验,所使用的卫星数据源主要是MODIS、NOAA/AVHRR、TM等国外低空间分辨率数据,以及IRS、P6、ETM、Quickbird、SPOT、IKONOS、ALOS等国外高空间分辨率数据,但后者数据源多价格高[7]。因此,农情遥感中推广应用国产卫星影像数据意义重大。
中国于2008年9月6日成功发射具有自主知识产权的HJ-1A/1B 卫星,该卫星传感器的空间分辨率为30 m,时间分辨率为2 d,成为农情遥感业务化运行较为理想的数据源。
本研究以HJ-1A/1B影像为遥感数据源,结合偏最小二乘回归(partial least squares regression,PLS)算法,研究田间采样点获取的实际单产与开花期遥感变量间的相关关系,得到小麦实际单产的敏感遥感变量,以利于后来构建实际单产遥感估测模型,实现区域小麦实际单产遥感估测,以期为政府及其他有关部门及时了解不同生态区域小麦产量丰欠变化趋势,制定小麦粮食贸易和宏观调控政策提供参考。
1 材料与方法
1.1 试验设计与数据获取
本研究以新疆焉耆盆地为例,研究区各乡镇分散设置采样点3~5个,共计93个随机采样点,每个采样点位置均采用Juno ST手持式GPS定位获取地理信息,于开花成熟期用GPS定位,以各县农技推广中心提供单产作为实际单产。卫星数据为HJ-1A/1B 5月26日(开花期)过境影像;2011年共82个采样点,卫星数据为HJ-1A/1B 5月28日(开花期)过境影像;2012 年共80个采样点,卫星数据为 HJ-1A/1B5月28日(开花期)过境影像;2013年共80个采样点,卫星数据为 HJ-1A/1B 6月2日(开花期)过境影像。经田间调查,各时期小麦长势无显著差异。
1.2 影像预处理
HJ-1A/1B影像的预处理采用ENVI。首先利用研究区区1∶10万地形图对HJ-1A/1B 影像进行几何粗校正,然后再利用地面实测的GPS 控制点对HJ-1A/1B 影像进行几何精校正。采用经验线性法转换进行大气校正和反射率转换。
1.3 影像定标
在研究区选择代表性水体作为低反射定标物,空旷水泥路面作为高反射定标物,采用手工定标方法对HJ-1A/1B 影像进行定标,利用绝对定标系数将 DN值图像转换为辐亮度图像的公式为:
L=DN/a +L0(1)
式中:L为辐亮度,单位为W/m2·sr·μm;a为绝对定标系数增益;L0为偏移量。
1.4 卫星遥感变量
依据作物光谱特性和国内外研究文献,结合光谱指数的物理意义,本研究选用4个 HJ-1A/1B波段和9种常用光谱植被指数(表1)作为 PLS分析构建遥感估产模型的入选自变量。利用ENVI和ArcGIS 提取对应 GPS定位采样点光谱反射率,结合表1提供的遥感植被指数算法,在 Excel 中计算出卫星遥感变量。
1.5 偏最小二乘回归 PLS
PLS是一种适用性较广的新型多元分析方法,能解决利用许多普通多元回归算法无法解决的问题,尤其当变量多且具有多重相关关系时,可有效筛选对因变量解释性最强的综合变量,建立的模型比普通回归模型更可靠。PLS法先提取称之为成分的新变量作为自变量,然后建立自变量与因变量之间的线性关系,利用PLS计算出系数,然后建立因变量回归模型。
由PLS算法建立模型时,增加主成分数能提高模型精度,但主成分过多将产生“过拟合”现象,精度降低,因此,确定最佳主成分数是建立 PLS模型的关键。本研究利用交互验证法计算出估测残差平方和(predictive residual error sum of square,PRESS),PRESS值越小,表示模型的估测精度越高,因此,基于PRESS最小值确定最佳主成分数。
PLS和PRESS的原理和步骤可见相关文献[8]。PLS和PRESS过程均由自编的MATLAB程序完成。
1.6 模型的评价
模型评价指标为决定系数(determination coefficient,R2)、均方根误差(root mean square error,RMSE)和相对误差(rel-ative error,RE),其中R2越大,表明模型越好,RMSE和RE越小,表明模型的估测精度越高。endprint
2 结果与分析
2.1 产量分布
整理试验数据,按实际单产数值的大小排序,为提高估测模型的稳定性,在保证实际单产最大值和最小值置于建模样本集的前提下,将335个实际单产数值样本按3∶2的比例,随机分成建模集和验证集。由表2可知,实际单产建模集和验证集样本的变幅、平均值、标准差和标准误差均相近,具有较好的一致性。
2.2 遥感变量与实际单产间的关系定量分析
建模集中201个样本的实际单产与遥感变量间关系定量分析表明,实际单产与大多数遥感变量间具有显著或极显著关系,其中实际单产与PSRI关系最密切,其次与GNDVI,相关系数分别为0.73和0.68,大多数植被指数与实际单产间的相关性明显好于单波段;多数遥感变量两两间具有严重的多重相关关系,其相关系数几乎介于0.80与1.00之间,尤其B1~B4两两间相关系数介于0.95与0.99之间,且多数植被指数两两间相关系数在0.90以上,说明相对于传统统计算法和普通最小二乘法,运用PLS算法建立模型的区域估测精度可能更高。
2.3 构建PLS模型
2.3.1 最佳主成分数目确定。在计算过程中,起始时随着主成分数增加,实际单产PRESS值都呈较大幅度地降低,由此表明由于主成分数目较少,模型拟合极其不充分,即出现缺失拟合现象,直至实际单产模型主成分数为5时,PRESS值达到最小,为24.17;之后,随着主成分数逐渐增加,PRESS值陡然增加,直至趋于缓平饱和,说明因主成分数过多而出现“过拟合”现象。因此,选择 PRESS值最小时对应的主成分数作为PLS模型的最佳主成分数是合理的,即该实际单产 PLS模型的最佳主成分数为5。
2.3.2 PLS模型建立及评价。基于PLS算法,以主成分数为5的5个植被指数,即PSRI、GNDVI、OSAVI、RVI和NDVI为自变量,以实际单产为因变量,使用 201个建模集样本及(下转第223页)
(上接第210页)
其对应的HJ-1A/1B 影像,构建实际单产估测模型为:
y=1706.1GNDVI-1964.7PSRI+1764.45OSAVI+1478.1RVI+1374.75NDVI+2133.9
建好实际单产估测模型后,利用本模型估测实际单产,将实际单产估测值与实测值绘成1∶1散点图,统计出最优直线回归方程及其R2、RMSE和RE。由计算结果可知,建模集和验证集中的实际单产估测值与实测值间的R2均大于0.7,RMSE分别为754.05、748.20 kg/hm2,RE分别为11.50%、8.88%,利用该PLS模型能较好地估测区域小麦实际单产。
2.3.3 与传统算法比较。为了与传统算法进行比较,采用线性回归(linear regression,LR)和主成分分析(principle comp-onents analysis,PCA)算法,利用建模集样本建立实际单产估测模型,依据实际单产估测值与实测值的相关系数、RMSE和RE评价模型。表3为PLS、LR和PCA算法模型估测结果,比较发现:样本数相同,实际单产PLS模型的估测值与实测值相关系数大于LR和PCA模型,RMSE和RE都小于LR和PCA模型,说明PLS模型估测区域实际单产的效果要好于LR和PCA模型,其中实际单产建模集和验证集估测精度分别比LR算法提高22.46%和41.21%,分别比PCA 算法提高18.57%和32.56%。
3 讨论与结论
3.1 讨论
随着HJ-1A/1B卫星投入使用,所获数据质量不断提高,且免费提供给用户使用,为区域性作物遥感估产提供了便捷的数据平台。本文所选用的HJ-1A/1B影像时间分辨率为2 d,单景影像幅宽为50 km,能满足区域性小麦估产需求。虽然年度之间田间物候存在一定的差异,但能保证所选用遥感数据处于同一物候期。
本研究将遥感估测的实际单产进行不同等级空间分布,并赋予地理空间信息,以此表达小麦实际单产的空间实际分布状况和趋势,说明实时的作物遥感估产,可以在空间上定性和定量地分析作物实际单产状况,不但可以分级量化显示作物实际单产分布状况,而且可以分区域统计作物实际单产不同等级所占的比重,从而能够向大田区域生产提供及时可靠的实际单产信息。
但本研究仍存在以下几点不足:一是在建模思路上,仅选择了一个生长期数据,使得研究结果具有较大的局限性,比如开花期的数据不一定能获得最好的预测效果,其他时期数据的预测效果可能会更好。另外,不同时期的数据可能最优分析建模方法也不同,这方面将来非常有必要深入探究。二是本研究是基于 HJ-1A/1B影像进行的,由于其空间分辨率偏低,常常导致“同物异谱”“同谱异物”“过拟合”等状况,从而降低遥感估产精度,以致遥感估产结果仍不能满足精准农业生产需求,以后将多源、多时相遥感数据与作物生长模型进行耦合,可能是解决这一问题的有效途径。三是RVI理论上值域变幅较大,但在本研究中相对稳定,可能原因是小麦该生长期长势均匀、变化幅度小,对应的近红外和红光波段反射性能稳定,至于建立的公式各参数的系数差异较小,尤其是 RVI,在此不能妄下结论,其原因是否与数据源有关,还是其他原因,仍有待深入研究。四是本研究仅将PLS与LR和PCA进行对比,应该增加包括人工神经网络、支持向量机、蚁群、粒子群等算法,以确保结论的可靠性,此外,也未考虑小麦栽培因素影响,实际上,这些算法和因素对小麦遥感估产存在较大的影响,也有待进一步研究。
3.2 结论
利用PLS算法构建了以 PSRI、GNDVI、OSAVI、RVI和NDVI 指数为自变量的实际单产遥感估测模型,经建模集和验证集评价,实际单产估测模型的 R2分别为0.74、0.70,RMSE分别为754.05、748.20 kg/hm2,RE 分别为11.50%和8.88%,且估测精度比线性回归算法分别提高22.46%和41.21%,比主成分分析算法分别提高18.57%和32.56%,说明PLS模型区域估测效果明显好于LR和PCA。
本模型应用结果与小麦区域生产实际相符合,为提高区域性小麦遥感估产精度提供了一种有效途径。
4 参考文献
[1] 杨武德,宋艳暾.基于3S和实测相结合的冬小麦估产研究[J].农业工程学报,2009,25(2):131-135.
[2] 黄敬峰,杨忠恩,王人潮.基于 GIS 的水稻遥感估产模型研究[J].遥感技术与应用,2002,17(3):125-128.
[3] 吴炳方.全国农情监测与估产的运行化遥感方法[J].地理学报,2000,55(1):25-35.
[4] 李卫国,王纪华,赵春江,等.基于遥感信息和产量形成过程的小麦估产模型[J].麦类作物学报,2007,27(5):904-907.
[5] 任建强,陈仲新,唐华俊.基于 MODIS—NDVI 的区域冬小麦遥感估产:以山东省济宁市为例[J].应用生态学报,2006,17(12):2371.
[6] 王长耀,林文鹏.基于 MODIS EVI 的冬小麦产量遥感预测研究[J].农业工程学报,2005,21(10):90-94.
[7] 欧文浩,苏伟,薛文振,等.基于HJ-1卫星影像的三大农作物估产最佳时相选择[J].农业工程学报,2010,26(11):176-182.
[8] 高惠璇.两个多重相关变量组的统计分析(3):偏最小二乘回归与PLS 过程[J].数理统计与管理,2002,21(2):58-64.endprint