赵子皓, 江晓东, 杨沈斌
(江苏省农业气象重点实验室/南京信息工程大学气象灾害预报预警与评估协同创新中心/南京信息工程大学应用气象学院,江苏南京 210044)
冠层指植物枝叶的稠密顶层,是植物的地上部分。本研究所指的水稻冠层温度包括稻田水面以上30、60、90 cm的温度,冠层温度以及土温、水温会对作物的生长发育造成影响,但数据的获取需要进行观测,常规气象观测不提供该类数据。利用环境气象要素与作物表型参数模拟冠层温度是简便且相对准确的方案。相较于环境大气,冠层空气直接接触作物,冠层温度是作物生理研究的重要参数之一,对作物的生长发育造成重要影响。早在20世纪90年代,Chauham等研究发现,水稻灌浆期的冠层温度与水稻产量呈负相关关系。灌浆成熟期的冠层高温还与稻米的直链淀粉含量呈正相关关系,高温会对稻米的品质造成不利影响。另外,水稻冠层温度对水稻叶面积指数、根系分布、叶片基角、开张角等众多生理指标造成影响。除了冠层温度外,水温和土温也会对水稻生长造成影响。适当提高水温可以使水稻幼苗的株高生长速度加快。Yin较早分析了稻田水层温度对水稻抽穗开花期的影响,结果表明,水层温度在水稻生长早期对其发育进程的影响超过气温。但在水稻生长发育中后期,水层温度影响有限,冠层温度对水稻生长发育以及产量形成造成较大影响。土温升高可以促进高寒地区水稻干物质积累以及分蘖数增长。冠层温度作为直接影响作物生长发育的气象要素,被广泛用于各项作物生理研究,例如改进作物生长发育模型、判断作物缺水程度、计算作物水分利用率、建立灌溉指标等都会用到作物冠层温度。水稻冠层的温度与环境温度存在差异,采用环境温度可能会导致作物生理研究结果的误差。因此,获取作物冠层温度以及土温和水温具有重要意义。而由于水稻冠层的特殊结构,水稻不同器官主要位于冠层内的不同高度,例如冠层底部主要为水稻的茎,冠层中部主要包含水稻的茎和叶,冠层上部主要包含水稻的叶和穗。故冠层内不同高度层的温度对水稻的生长发育及产量的影响不同,研究水稻冠层内不同高度层的温度模拟同样具有重要意义。
回归模型是模拟冠层温度的方法之一,段永红等对不同天气和土壤条件下小麦的冠层温度、土壤温度建立回归方程,效果较好,在晴朗湿润麦地里,94.7%的模拟冠层温度误差小于2 ℃。王春玲等选择温室外的温度、风速、相对湿度、太阳高度角等4个要素,利用反向传播(BP)神经网络对温室内的温度进行模拟,效果较好。相较于回归模型,BP神经网络和支持向量机(SVM)模型的机器学习模型具有自学习、非线性等优点,也常用于人工温室内温度、作物需水量、叶面积指数(LAI)、产量等要素的模拟或预测,并取得了较好的效果,说明利用机器学习模型模拟稻田冠层温度是可行的。
可见作物冠层各层温度以及土温和水温的准确获取具有重要意义。为模拟稻田冠层各层温度以及水层和土层温度,本研究选用相对容易获取的环境气象要素资料以及水稻表型参数资料,利用线性回归模型、BP神经网络模型、SVM模型等方法模拟水稻30、60、90 cm冠层温度以及土温、水温,以期为冠层温度和水温土温的模拟提供技术支撑。
选取两优培九品种水稻,于2019年在南京信息工程大学农业气象实验站(118°42′17″E,32°12′24″N)开展大田分播期试验。播种期分别为4月10日、4月20日、4月30日,插秧期分别为5月3日、5月17日、6月2日,栽插密度为23穴/m。在水稻孕穗至成熟期间,于7月28日至9月29日进行温度观测。利用温湿度仪(HOBO U23-001,USA)观测并记录田间5 cm土温、水温以及30、60、90 cm冠层温度,每间隔5 min测定1次,并取1 h均值用于各层温度模拟。间隔1 h观测和记录大田2 m处温度(HOBO U23-001,USA)以及风速(HOBO S-WCB-M003,USA)资料。每周定时观测记录水稻株高、LAI。株高利用直尺人工观测,观测3次取平均值;叶面积利用LI-3000型叶面积仪(Li-COR,USA)测定。试验期间记录试验地每日天气情况。依据GB/T 35663—2017《天气预报基本术语》,根据云量观测资料对记录的天气条件进行订正。天空总云量0~2成的日期记录为晴天。存在降雨的日期记录为雨天。其余少云、多云、阴天天气都记为多云。云量和降水量资料由南京信息工程大学大气观测场提供。
1.2.1 BP神经网络 BP神经网络模型包括输入层、中间层、输出层等3层结构(图1),包括输入数据的正向传播以及误差的反向传播订正2个主要计算过程,当完成一次正向传播后,模型计算误差,并将误差向后传递至输入层,并改变各步骤相应的权值。更新权值后重新训练模型,不断重复上述过程,直到达到一定设定条件时,模型停止训练。
模型中间层节点数设置如下:
(1)
式中:表示中间层节点数量;表示输入层的节点数量;表示输出层的节点数量;表示调节数,的取值范围是1~10。考虑到增强模型的鲁棒性以及获得更大数据量,将3个播期的资料统一处理,不单独针对某一播期建立模型。将数据分为晴天、多云、雨天3类。在每一类数据中,分别利用环境温度、风速、水稻株高、水稻LAI建立模型。在本研究192 d数据中,雨天共计93 d,多云共计59 d,晴天共计40 d,为了保证各类天气训练效果一致,取样本数相同的训练集和测试集,在雨天、多云天气中随机选取40 d(960 h)数据,保证3种天气都取40 d数据用于模型训练和预测。将水稻株高、LAI以及环境温度、风速要素分为测试集(每种天气10 d,占25%)以及训练集(除测试集之外的30 d数据,占75%)输入BP神经网络模型,调整模型中间层节点数、模型训练次数等,将模型调试到最准确的状态,对水稻冠层温度进行模拟。
1.2.2 支持向量机 SVM将输入向量通过非线性变换映射到一个高维特征空间,以结构风险最小化为原则,按照一定误差阈值分离数据的最优超平面。SVM模型包括输入层、中间层和输出层3个部分,中间层节点与输入样本和支持向量的内积(,)对应,输出是多个中间层节点的线性组合。本研究选取径向基函数作为核函数,径向基函数见公式(2)。使用LIBSVM软件包实现建模。
(,)=exp(-‖-‖),>0。
(2)
式中:表示样本;、表示样本序号;为模型的待定系数,将影响模型支持向量的个数,从而影响训练与预测的速度。
将水稻株高、LAI以及环境温度、风速等要素分为测试集(每种天气10 d)以及训练集(除测试集之外的30 d数据)输入SVM模型,调整模型惩罚系数等参数,将模型调试到最准确的状态,对水稻冠层温度进行模拟。
1.2.3 模型评价指标 选用均方根误差(RMSE)、皮尔逊相关性系数()、绝对误差()以及相对误差(RE)对模型模拟效果进行评价。各评价指标计算方法如下:
(3)
(4)
(5)
(6)
由表1可知,线性回归模型对各层温度模拟RMSE较大,各天气和分层的RMSE都大于1。模型绝对误差较大,除雨天 30 cm 冠层温度、雨天60 cm冠层温度绝对误差小于1 ℃外,其余情况的绝对误差都大于1 ℃。各天气和分层情况下模拟值与观测值相关性都达到极显著水平(<0.01),但相关性系数较低,仅各天气条件下60 cm冠层温度以及多云和晴天条件下30 cm冠层温度相关系数达到0.90及以上。各天气和分层情况下相对误差都较大,晴天时90 cm冠层温度相对误差最大(8.52%)。可见线性回归模型对各层温度模拟误差较大,精度无法满足业务需求。模型对土温、水温模拟值误差较小,对冠层温度模拟误差较大,这是由于土温和水温日变化幅度较小,数值较稳定,而冠层温度日变化幅度较大,影响冠层温度的因素较多,给冠层温度的模拟造成了一定困难。
表1 线性回归模型测试集评价结果
由图2可知,线性回归模型对土温、水温模拟值(即图中预测值,下同)的日变化幅度大于观测值,模拟值的日最高温度大于观测值,日最低温度小于观测值。线性回归模型对土温、水温模拟值的绝对误差较小,但对温度日极值模拟误差较大,这是由于土温、水温的日变化幅度本身较小,所以较小的绝对误差也会造成对日最高、日最低温度模拟效果较差。线性回归模型对30、60、90 cm 冠层温度的日变化规律模拟效果较好,模拟值与观测值变化趋势接近,但由于30、60、90 cm冠层温度数值较大,且日变化幅度较大,故模拟值的平均绝对误差仍然大于对土温、水温模拟值的平均绝对误差。
由图3可以看出,各天气下土温、水温的模拟值与观测值距离1 ∶1线较远,决定系数()较小。这是由于土温、水温的日变化幅度较小,所以即使绝对误差较小,但模拟值与观测值仍然偏离1 ∶1线较远。另外,由于土温、水温的日变化幅度小于冠层温度的日变化幅度,所以当天的土温、水温数据在图中比较集中,形成了几个较为独立的区域。30、60、90 cm冠层温度的模拟值与观测值均匀分布在 1 ∶1 线两侧,较土温、水温的模拟结果有明显提高。各冠层温度的模拟值与观测值的都≥0.70。其中,30、60 cm冠层温度的较高,各天气条件下 90 cm 冠层温度的值较低,全部低于0.80。
将环境温度、风速、水稻株高、LAI输入BP神经网络模型,调整模型参数,使模型达到较为准确的状态。最终采用的中间层节点数为10个,学习率为1×10,训练次数为15万次。由表2可以看出,BP神经网络模型与线性回归模型各项评价指标数值接近,准确度没有明显改善。各天气各分层的RMSE全部大于1。除雨天30 cm冠层温度、雨天60 cm冠层温度的绝对误差小于1 ℃外,其余情况的绝对误差都大于1 ℃。各天气条件和分层的模拟温度与观测温度的相关性全部达到极显著水平,但相关性系数较低,仅60 cm冠层温度以及多云和晴天条件下30 cm冠层温度的模拟温度与观测温度的相关系数达到0.90及以上。模型相对误差整体较大,尤其以 90 cm 冠层温度的相对误差最大,晴天90 cm冠层温度的相对误差达到8.45%。
表2 BP神经网络模型测试集评价结果
由图4可以看出,与线性回归模型相比,BP神经网络模型同样无法准确模拟土温、水温的日变化规律。模型对土温、水温的日最高温度模拟值大于观测值,对日最低温度模拟值小于观测值,模拟温度的日变化幅度远大于观测值。BP神经网络模型对30、60、90 cm冠层温度的日变化规律模拟效果较好,模拟值与观测值变化趋势接近。总体而言,BP神经网络模型与线性回归模型效果接近,对土温、水温模拟值的绝对误差较小,对土温、水温的日最高、日最低温度模拟效果较差,对冠层温度模拟值的绝对误差较大。
由图5可以看出,土温、水温的模拟值与观测值分布较分散,距离1 ∶1线较远,较小,说明模型对土温、水温模拟的误差较大。BP神经网络模型对30、60、90 cm冠层温度的模拟值与观测值均匀分布在1 ∶1线两侧。与线性回归模型结果相似,BP神经网络模型对30、60、90 cm冠层温度模拟值与观测值的都≥0.70。其中,60 cm冠层温度模拟值与观测值的较高,各天气条件下全部达到0.80以上,90 cm冠层温度模拟值与观测值的较低,各天气条件下全部低于0.80。
将测试集数据输入训练好的模型,以检验模型对各层温度模拟的准确性,测试集模型评价结果见表3,可以看出,相比线性回归模型以及BP神经网络模型,SVM模型对稻田各层温度的模拟准确度得到提高,各天气、各高度层的最大RMSE为2.01,最小相关系数为0.85,相关性全部达到极显著水平。模型对90 cm冠层温度模拟误差较大,最大绝对误差为1.29 ℃,最大相对误差为4.91%。SVM模型尤其对土温、水温的模拟效果较好,RMSE与绝对误差、相对误差都得到了有效的控制。
表3 SVM模型测试集评价结果
由图6可以看出,与线性回归模型、BP神经网络模型相比,SVM模型对土温、水温日最高和日最低温度模拟误差大幅降低,模型能够有效模拟土温、水温的日变化规律。多云和晴天条件下模拟值与观测值基本一致,但雨天条件下部分时刻的土温、水温模拟仍存在较大误差。SVM模型对各层冠层温度模拟的也较准确,对各天气、各分层温度模拟结果都好于线性回归模型以及BP神经网络模型,模型适用性较好。
由图7可以看出,SVM模型对各层温度模拟效果都较好,各天气条件下各分层温度的模拟值与真实值都均匀分布在1 ∶1线两侧,各天气条件下各分层的最小为0.75。除晴天90 cm冠层温度外,其他多云、晴天条件下各层温度模拟值与观测值的全部超过0.90,雨天条件下SVM模型的较低,但雨天条件下SVM模型的仍然大于线性回归模型以及BP神经网络模型。SVM模型对土温和水温模拟的效果优于各层冠层温度。
由图8可以看出,线性回归模型与BP神经网络模型对各层温度模拟效果基本一致,平均绝对误差大于SVM模型,SVM模型温度模拟平均绝对误差最小。3种模型对90 cm冠层温度的模拟平均绝对误差最大,对冠层内较低高度的温度模拟平均绝对误差较小。不同天气条件下模型对各层温度模拟效果存在一定差异,线性回归模型和BP神经网络模型对雨天各层温度模拟的平均绝对误差最小,对晴天各层温度模拟的平均绝对误差最大。SVM模型在不同天气条件下模拟的平均绝对误差均较小,说明SVM模型适用性较好,在不同天气条件下都有较好的表现。
线性回归模型和BP神经网络模型对稻田各层温度模拟结果较接近,模拟误差较大,无法满足应用需求。尤其是线性回归模型和BP神经网络模型无法准确模拟土温和水温的日极值温度,对土温和水温的日变化规律模拟效果较差。SVM模型对各层温度的模拟误差较小,模型能够准确模拟土温、水温的日变化规律,对土温、水温的日极值模拟准确度远高于线性回归模型和BP神经网络模型。SVM模型精度最高,对不同天气条件下各层温度模拟的最大绝对误差为1.29 ℃(晴天90 cm冠层温度),最小绝对误差为0.09 ℃(多云5 cm土温)。将环境温度、风速、水稻株高、LAI参数输入SVM模型可准确模拟稻田各层温度,为更加便捷准确地获取稻田土温、水温和冠层温度提供了科学依据。
BP神经网络和SVM模型都是非线性自学习的机器学习模型。BP神经网络的3层结构,其本质主要由一系列计算公式组成。这些公式的形式固定,系数(也就是权值)未知,在第1次正向计算前,通过随机函数对这些系数赋值,然后将输入数据代入公式逐步计算,得到输出值后计算输出值与真实值的误差,再将误差反向传递,去订正这些公式的系数,误差反向传递主要是通过对这些计算公式求偏导以及权值订正公式得到对每个系数的订正值,完成所有系数的订正后,再进行下一次正向计算,如此循环往复,直到误差小于阈值或训练次数达到设置值。BP神经网络容易出现过拟合现象,也就是模型学习能力过强,识别到了错误样本的规律,导致模型在训练集效果较好,但在测试集误差较大。在本研究的模型构建过程中,在利用公式(1)计算中间层节点数的前提下,适当降低中间层节点数,可以降低模型的复杂程度,削弱模型的学习能力,从而减轻过拟合现象。SVM模型模拟误差小于BP神经网络,这是由于SVM模型在数据分类原理上不同于BP神经网络,SVM模型将数据投影到特征三维空间,通过结构化风险最小原则构建最优超平面实现数据分类。SVM模型的模拟主要由少数支持向量决定,模型可以抓住关键样本,避开部分错误样本数据,从而减少过拟合。另外,SVM模型的复杂程度取决于支持向量的数量,而不是数据维度,而支持向量由模型选取,不同于BP神经网络需要人工设置一个合适的中间层节点数。所以在控制模型学习能力方面,SVM模型可以实现对数据的自适应,从而避免过拟合,提高测试集模拟精度。
由于冠层最高层接收太阳辐射最多,作物光合作用最强,作物生理过程产生热量交换,对冠层温度的模拟不利,且水稻冠层顶部叶片集中,叶片气孔的蒸腾作用同样导致较多热量交换,增加了模型的误差。因此3种模型都对90 cm冠层温度模拟的误差最大,对叶片较少的30 cm冠层温度模拟的误差较小。由于土温、水温的日变化较小,温度值变化较平稳,所以3种模型对土温、水温模拟的误差小于冠层温度。线性回归模型和BP神经网络模型都对雨天各层温度模拟的误差最小,晴天误差最大。主要是由于晴天光照较强,作物光合作用、蒸腾等生理过程产生的热量交换为温度模拟增加了难度。由于SVM模型效果较好,模型对不同天气条件下各层温度模拟误差比较接近,误差都较小。SVM模型适用性较好,适用于不同天气条件。
利用SVM模型模拟水稻冠层温度以及土温和水温是可行的。本研究所用数据包括3个播期共计120 d(包括2 880 h)的观测资料,其中雨天、多云、晴天各40 d(960 h)。虽然SVM模型对各天气条件下各层温度模拟的误差已经较小,但获取更大量的观测数据有望进一步提高模型训练效果,从而减小温度模拟的误差。且本研究仅选用了当地主栽的水稻品种,不同水稻品种的株高、LAI存在差异,对水稻冠层内能量的传输造成一定影响,而水稻的株高和LAI参数在本研究构建的模型中发挥重要作用,如果能对更多水稻品种进行试验,则可以加入水稻品种参数,对模型进一步完善。
利用环境温度、风速以及水稻LAI、株高表型参数,实现对不同天气下水稻冠层各层温度以及土温、水温的模拟。在线性回归模型、BP神经网络模型、SVM模型中,SVM模型模拟效果最好,平均误差最小,对日最高、最低温度模拟准确度最高。在不同分层中,模型对90 cm冠层温度模拟的误差最大。在不同天气中,模型对晴天温度模拟误差最大。SVM模型对温度模拟准确度较高,可用于各种天气条件下对水稻冠层各层温度以及土温和水温的模拟。