赵 畅 崔 培
(天津工业大学,天津 300387)
作物生长机理模型是指用数学公式描述作物复杂的生长生理过程。通过输入气象数据、土壤数据、田间管理数据和作物遗传参数来在田间尺度进行产量估测。作物模型通常以天为步长,定量化的评价各种因子带来的影响。现阶段DSSAT、APSIM、WOFOST等作物生长模型在国际上受到了广泛的认可。作物生长机理模型精度较高,在大面积估产时,由于模型输入数据较多,且不易获取,常给估产工作带来困难。且作物模型在对病虫害和极端天气上,不能很好地预测产量。
1.2.1 区域尺度上作物模型播期和收获日期获取
单点尺度下的模型需要输入播种日期和收获日期来进行模拟,在单点尺度下这些参数获得,但是当在区域尺度上播期和收获日期就变得难以获得。李克南等根据多个气象站年平均生长季观测资料在研究区域上进行插值,获得了区域尺度的播种日期;钟新科等在研究近30年中国玉米气候生产潜力时空变化特征时,同样选择获得582 个农气站春玉米生育期数据和 407 个农气站的夏玉米生育期,其中包含了30年的平均播种期和成熟期。该方法获取的播种日期在进行多年份模拟时固定不变,而实际生产过程中是变化的,因此会带来一部分误差。王立为提出黑龙江所在实验区五日滑动平均温度大于10℃即可播种,该方法适用于本地区部分范围,但在进行大范围模拟潜在产量时,播期受到土质、播种前多日温度、湿度、海拔、地形等多种因素影响,难以确定播种日期。这个思路可以扩展一下,研究土壤浅层温度和地表温度或空气温度的关系,这就需要了解不同土壤导热效率、土壤含水量、空气温度等等变量相互之间的影响。国内在应用模型大面积计算时,仍是根据经验播种日期(气象站观测记录所得)来进行区域插值,得到区域尺度上的播种日期,这种做法使播期推迟,错过最佳生长日期,但目前没有很好的替代方法。
作物收获日期的确定除了获取观测站资料插值得来之外,国内许多学者对其进行了研究。黄健熙等提出了多种预测成熟期的方法:1.基于时间序列HJ-1A/B卫星数据构建时间序列NDVI,并采用上包络线S-G滤波进行去噪,进而提取NDVI最大时对应的抽穗期,然后根据多年抽穗期到成熟期观测值积温平均值来判定是否满足成熟积温,并且在研究区每个像元应用此方法,结果表明抽穗期提取均方根误差为2.6天,成熟期均方根误差3.2天。在预报精度方面,随着预报数据预报时效越长,成熟期预测值误差越大,当预报时效小于等于10d时,成熟期预测精度趋于稳定;2.使用MODIS遥感数据形成1*1km分辨率的LAI数据,用于提取抽穗区,再利用积温模型和太阳辐射量模型综合判断成熟期,判别精度较高,均方根误差为2.89d;3.基于MODIS LAI产品构建LAI时间序列值提取玉米抽雄期,再根据积温和太阳辐射量总和判断成熟期;并且比较了另一种模型,基于MODIS LAI产品,按照两个生育期面积之比经验平均值做为阈值,计算逐日到当日时的该面积比,当大于阈值后即认为成熟,该LAI 面积比模型在大区域作物成熟期预测方面具有较高适用性;4.结合遥感数据和WOFOST,利用算法耦合LAI,优化模型输入参数,用优化过的参数在像元尺度上逐个驱动模型;李友勇等提出用生育期某个时段≥15℃或20℃的累计天数和生育期长度进行回归,结果较吻合。
现有的成熟期预测方法大都是基于遥感和积温模型或者遥感和作物模型来进行预测,这是由于我国的农田小而分散,土地有各种复杂的情况,运用遥感的方法大大提高了预测精度。并且遥感的介入使得区域估测成熟期有了可能。
1.2.2 区域尺度上作物模型遗传参数获取
另一个作物模型区域化的障碍是模型需要输入本地化后的遗传参数。农田尺度的做法常常是经过调参、验证后得到合理的参数,但是当扩展到区域尺度上时,作物遗传参数变得难以获取。
李克南等利用超大尺度调试法,调整出一套适用华北地区的作物品种参数。黄健熙等将研究区域划分成各个分区,在对WOFOST遗传参数标定的过程中,对于不敏感参数采用文献记录的或者模型默认,对于敏感参数根据观测数据测定得来,如比叶面积和一些土壤参数。江铭诺等在将WOFOST面域化时,对模型代码进行了修改,根据研究区的不同地点对模型参数进行设置,生成分辨率为0.1°的作物参数文件。
李克南等利用APSIM-Wheat作物模拟了47年华北地区冬小麦潜在产量、水分限制产量和水氮限制产量,发现决定冬小麦潜在产量和水分限制产量的分别是生长季内总辐射和生长季内降水量。江铭诺等在利用WOFOST对华北平原夏玉米1979-2015年生长状况进行了模拟,利用一元线性回归和经验正交分解分析了其潜在产量的时空变化,并与气象要素进行逐栅格相关性分析。结果表明,部分地区产量和气温呈较显著关系,部分地区和太阳总辐射呈较好的相关关系。马鸿元利用课题组已经标定好的区域化的作物参数,将模型做为外部框架,将不同年份气象模拟结果做为集合成员代表概率分布,开发出了从某一时刻开始预报产量的框架,具备一定的预报能力。杜春英等应用WOFOST模型对黑龙江水稻进行了产量预报,根据农业气象观测站资料和实际调研重新划分了六个不同水稻适宜区,并在此基础上调整了模型参数,预报精度较高。
作物模型在单点尺度上应用较为广泛,精度较高,输出结果丰富。但是推广到区域上时,常常因其作物遗传参数、播期、收获期、田间管理等资料难以获取,而无法得到很好的应用,其丰富的输出结果也因大尺度下计算效率问题只能选择某些输出结果。但是作物模型在单点尺度上能很好展现what-if问题,帮助认识作物生长机理,如果能在区域上验证模型,再进行what-if类问题的探讨,如改变单年内播期、水肥施用量等探究对产量的影响,将取得有意义的结果。
经验模型通过构建作物产量和某些因子的线性回归模型进行估产。通过遥感手段获取某些指标再与产量建立某种关系是有效的估测产量的手段。任建强等基于估测美国玉米产量的目的,以县为基本单元,找出产量和NDVI指数线性回归最好的时段,以县产量为基础,根据种植面积确定州产量,最终获得了35个州玉米最佳估产模型参数,用2011年的数据验证,精度较高;黄健熙等研发了一种将LAI和作物模型同化的区域冬小麦产量估测系统;欧阳玲等通过对产量和NDVI、EVI、GNDVI等指标进行多元线性回归,估测了北安市玉米、大豆产量;王蕾基于VTCI和分位数回归模型对冬小麦的单产进行了估测,结果表明,某些情况下,分位数回归比最小二乘模型估产效果更好。
前人再利用遥感某些参数和产量回归方面做了大量研究,这些研究多是基于线性模型,然而有时线性模型不能很好地反映作物生长过程,近年来机器学习方法在估产方面取得了很大的进展,能够很好地拟合作物生长的非线性过程。
2.2.1 随机森林估产
随机森林是一种统计学习理论,利用重抽样方法从原始样本中抽取多个样本,对每个样本构建决策树,通过对决策树建模并且多棵树投票平均得出最终结果。该方法精度得到了大量实验验证,是一种自然的非线性建模工具。
我国在农业估产方面,已有很多学者应用随机森林方法进行了研究。下文将介绍国内外学者如何运用随机森林方法进行估产。刘峻明等根据河南省1990-2015年间连续种植冬小麦的106个县市,获得2740个有效单产数据,利用气象要素和空间要素做为输入变量,训练随机森林模型。并用2014/2015年数据进行检测模型精度。输入变量中的气象要素包括两部分,一是每一年每一个市县在拔节至抽穗期间的最高气温、最低气温、累计降水量、负积温、有效积温五个特征,拔节期和抽穗期根据历史观测取平均日期;二是根据小麦穗分化进程,将拔节至抽穗期按8d为单位进行分段,获得各分段内Tmax、平均气温、Tmin、最大气温日较差、平均相对湿度、Ps计42个特征,空间要素包括经纬度和高程数据。模型变量重要性显示:经纬度、高程、小花分化后期平均温度和小花分化前期最小温度、拔节至抽穗期负积温占前六位。且发现小花分化后期气象要素和空间要素和相对气象产量构建随机森林模型时,R方可达87%,RMSE为0.07,这可作为产量预报的一个思路。陶惠林等利用无人机获取了冬小麦挑旗期、开花期和灌浆期数码影像指数(植被指数、r、g、b和归一化后的RGB)和光谱参数,首先与产量进行了相关性分析,然后拟合了各个时期相关性显著的指数和产量的多元线性回归和随机森林模型,结果显示,多元线性回归模型拟合精度大于随机森林,这可能是因为训练样本数量少的原因,该实验共48个产量数据。王鹏新等以河北省中部平原为研究区域,获得LAI和VICI的时间序列,以产量为因变量构建了单变量、双变量的随机森林模型,双变量模型表现较好。
2.2.2 深度学习估产
深度学习是近年来随着软硬件的突破而兴起的机器学习算法,最初用在识别不同图像上,精度极高,迅速地被应用到各行各业中。深度学习通过给定的数据进行学习,即学习数据中的表示,用这种表示进行数据变换。深度指一系列连续的表示层,通常包括数十个甚至上百个表示层,这些表示层都是从训练数据中自动学习的,而这些分层通常是通过神经网络模型来学习的。学习指为神经网络的所有层找到一组权重值,使得信息进入时,像蒸馏一般,纯度层层提高。下文将介绍学者们利用哪些要素和农业产量联系起来进行深度学习?
周亮等使用MODIS数据构建了基于卷积神经网络的冬小麦估产模型,其输入层是每年该地区36张包含12个波段的影像,每个波段生成36个向量,最终形成36*36*12的数组,以该地区该年产量为输出层训练模型,所有遥感影像在假设冬小麦单产和影像像素位置无关的前提下进行直方图降维和归一化。结果显示,训练集预测精度R方可达0.98,测试集精度可达0.71,并进行了鲁棒性检验,相关系数R基本超过了0.8;深度学习具有模拟精度高,输入数据简单等优点,现在大部分学者利用遥感图像序列来与产量进行联系,学习遥感图像序列中的表示。因遥感影像具有实时性,遥感面积大的特点,并且可以反映作物的生长状态,而深度学习擅长处理图像,提取图像中的特征,故模拟精度较高。也有人利用土壤、气象数据和遥感图片综合来进行估产,大部分研究输入层都包括从遥感获得的一些信息,这是由于遥感信息实时性、在大区域中应用方便的原因。
近年机器学习的兴起使诸多方法用于农业产量预测,随机森林输入数据简单,训练时间相对少,拟合精度较高,且不用担心传统回归方法过拟合、失拟合等问题;神经网络训练时间稍长,且对电脑硬件有一定要求,其预测精度同样很高;但是机器学习方法也是一种新兴的统计方法,是端到端的输入与输出,并不能反映作物中间发育过程,作物模型对此有很多的机理描述,输出结果丰富,能解决what-if问题。
区域大面积估产上,二者都可以结合遥感,提高精度,进行估产。有学者结合作物模型的输出和机器学习方法进行了产量预测,未来,应考虑如何在提高精度的同时,简化工作,减少工作量,结合模型和机器学习方法的优点,进行估产。