邵欣欣,雷国庆,曾文治,黄介生
(武汉大学水利水电学院,湖北 武汉 430072)
气孔是植物与外界环境的水、气交换通道[1],控制着植物的蒸腾和光合过程。气孔导度作为表征气孔开度的重要指标,其准确模拟不仅有助于探索植物的抗逆生理[2],对于植物蒸腾估算、农业水分管理及作物产量预测也具有重要意义[3]。
国内外学者先后基于现象学理论与简单统计学方法,建立了一系列的气孔导度模型。如广泛使用的Jarvis 模型[4]和Ball-Berry模型[5],还有基于最佳气孔导度理论的Cowan&Farquhar模型[6],以及基于最佳气孔导度理论推导出来的具有经验气孔模型形式的Medlyn 模型[7]。王秋玲等比较了春玉米在持续干旱条件下Jarvis 模型、Ball-Berry 模型和Medlyn 模型的模拟效果,发现Medlyn 模型优于Ball-Berry 模型,Jarvis 模型最差[8];黄明霞也使用上述3种气孔导度模型对马铃薯和油葵的气孔导度进行了模拟,其中对于马铃薯气孔导度,Ball-Berry 模型模拟效果最优,其次是Medlyn 模型,同样Jarvis 模型最差[9]。然而,经验模型往往仅能考虑气孔导度对部分环境因子的响应,如Ball-Berry 模型和Medlyn 模型,只考虑了净光合速率,相对湿度,叶表二氧化碳浓度,饱和水汽压差等其中的部分变量,忽略了其他环境因子的作用[5,10,11],Jarvis 模型虽然考虑了多个环境因子,但忽略了各环境因子交互作用对气孔导度的影响。因而,受限于模型结构,上述经验模型在应用过程中模拟精度有限。
当前,机器学习模型快速发展,在农业生态、土壤环境、植物生理的应用广泛[12]。李启巍基于机器学习对影响蒸散量的响应因素做了相关分析,模拟蒸散量得出了比传统方法更为精确的结果[13];毛星宇通过对现有植物抗逆基因的分析并提取抗逆基因表达蛋白的特征,使用机器学习的方法识别植物的抗逆基因[14];周长健等使用机器学习和深度学习两个角度分析了人工智能在识别植物的病害方面的适用性及准确性[15],但机器学习方法较少应用于植物气孔导度的模拟[16]。在不同环境因素及其交互作用影响下,机器学习方法是否适用于气孔导度响应模拟,哪种机器学习模型及其建模策略下的气孔导度模拟精度更高,仍需进一步探索。本文使用分类梯度提升算法模型(CatBoost,CAT)和人工神经网络(ArtificialNeural Network,ANN)两种不同的机器学习模型对植物的气孔导度进行了模拟,并将模拟结果与应用广泛且已被证明模拟效果较好的Ball-Berry 和Medlyn 气孔导度模型进行了比较,以探求更适用于气孔导度模拟的方法。
本文使用的数据来自于Limousin 等人的文献[17],共有1 087 组数据。实验区位于新墨西哥州索科罗县塞维列塔国家野生动物保护区内的洛斯皮诺斯山脉,处于北纬34°23'11'',西经106°31'46'',海拔1 911 m。年平均气温为12.7 ℃,最低气温出现在12 月,低至2.2 ℃,最高温出现在7 月,高达23.3 ℃。年平均降水量为363 mm。实验区的土壤深度在20~100 cm 之间,表面土壤是粉质壤土,深层土壤是砂壤土。实验对象为食松(Pinus edulis)和樱核圆柏(Juniperus monosperma),实验测量指标有:气孔导度[gs,mol/(m2·s)]、净光合速率[An,μmol/(m2·s)]、叶表二氧化碳浓度(Cs,μmol/mol)、相对湿度(RH,%)、饱和水汽压差(VPD,kPa)、叶片温度(TL,℃)和黎明前叶水势(LWP,MPa)。实验分为3 个处理,分别为①不干预环境条件;②干旱处理,降雨减少45%;③灌溉处理,在4-10月的生长季进行每月一次19 mm 的灌溉。每个处理的两个物种各取3 棵,在2010 年和2011年的生长季节的灌溉活动前一天和后一天,每月一次测量植物的叶水势和土壤水分含量。在测量水势的同一日期,使用LI-6400 每隔两小时测定每个树种和处理的3 棵树的南向枝条的净光合速率和气孔导度等。本文使用的数据是由Anderegg等人整理的[18],并可通过“FigShare知识库”访问。
1.2.1 CatBoost模型
CatBoost(CAT)是一种梯度提升算法。CatBoost 以对称决策树(oblivious trees)为基学习器,是梯度提升决策树(Gradient Boosting Decision Tree,GBDT)算法框架下的一种改进。CatBoost 使用有序提升作为估计梯度的新方法,利用具有分类特征的无偏提升技术克服梯度偏差,解决了梯度偏差和预测偏移的问题,进而减少了过拟合的发生,提高了算法的准确性和泛化能力。其计算公式为[19]:
CatBoost 算法通过添加先验值和参数减少了数据集的噪声,首先随机组织输入集来创建随机排列,再计算同一类别的平均样本的值,对于一个排列σ=(σ1,σ2,…,σn),其计算公式为:
式中:P是添加的先验项,为计算标签的平均值;a是权重系数;其余符号意义同前。
在本文中,CatBoost 模型中的关键参数取值,分别为iterations(迭代次数):1 000,depth(树的深度):6,learning rate(学习速率):0.05;其他参数为默认值。
1.2.2 Artificial Neural Network 模型
Artificial Neural Network(ANN)对于非线性数据具有强大的拟合能力,通常ANN 模型是三层网络。第一层是输入层,第二层是隐藏层,第三层是输出层。输入层与输出层之间的隐含层包含若干个节点,输入层与隐含层之间连接为全连接,其计算关系为[13]:
式中:y为输出层数据;x为输入层数据;w为权重参数;b为偏移量。
此外,每个节点后还需要激活函数来进一步计算使得计算结果为非线性的,激活函数一般有如下几种:
本文AutoGluon中的神经网络使用MXNet Gluon 实现,使用Relu 激活函数,其他参数分别为number of layers(层数):4;optimizer(权重优化器):adam;epochs(训练周期):500;max batch size(最大样本数):512,;learning rate(学习速率):0.000 3;其他参数为默认值。ANN 模型作为通用的函数逼近器,可以近似拟合任意函数。已经被证明,对于噪声数据,ANN 模型比回归模型的表现效果更好[20]。特别是对于生物过程和其他的一些复杂系统的建模具有很强的优势[21]。
1.2.3 Ball-Berry模型
Ball 等人根据气孔导度与净光合速率成正比的关系[22],通过一系列的实验,将气孔导度对环境的响应以一组线性的关系来描述。气孔导度模型Ball-Berry 模型将植物对环境因素的响应归纳为三个方面,气孔导度与二氧化碳浓度成反比,与净光合速率和空气相对湿度成正比。公式如下[5]:
式中:gs为气孔导度,mol/(m2·s);g0和g1是数据拟合的参数;An是净光合速率,μmol/(m2·s);RH是相对湿度,%;Cs是叶片表面的二氧化碳浓度,μmol /mol。
1.2.4 Medlyn模型
Medlyn 模型是基于最佳气孔导度理论建立的具有经验模型形式的气孔导度模型。最佳气孔导度理论是指气孔的调节行为会最大限度地减少植物同化单位的碳所需要消耗的水量。而常用的经验或半经验模型是基于实验观察来探究气孔行为对环境条件的响应规律。最佳气孔导度理论可以推导出来与经验模型形式相似的气孔导度模型,即Medlyn 模型,其计算公式如下[7,10]:
式中:VPD是饱和水汽压差,kPa;其余符号意义同前。
本文使用等水植物食松和非等水植物樱核圆柏组成的数据集,其中80%的数据用于训练,20%的数据用于测试。数据中与气孔导度相关的变量被用作模型预测的自变量,气孔导度作为因变量。对于CAT、ANN分别使用3种输入策略:①输入变量为An、Cs和RH;②输入变量为An、Cs和VPD;③输入变量为An、Cs、RH、VPD、TL和LWP,如表1所示。
表1 气孔导度模拟的不同模型及其变量Tab.1 Different models and variables of stomatal conductance simulation
机器学习使用Python 的AutoGluon-Tabular 库,Ball-Berry模型和Mdelyn 模型使用Python 的Scipy 包拟合模型中的参数。AutoGluon-Tabular 可以执行高级数据处理、深度学习,会自动识别每列中的数据类型,对数据进行预处理。本文机器学习模型使用五折交叉验证,即为:将训练数据随机分为五部分,依次使用其中的四份训练,剩余的一份来验证。训练过程中以RMSE为AutoGluon 来衡量模拟精度的评估标准。为了更好地理解机器学习模型的训练过程,同时量化每个变量的得分,分析每个变量对气孔导度模拟的贡献性大小。
将各个模型测试数据集中的模拟值与实测值进行比较,使用决定系数R2和均方根误差RMSE评估模型的预测性能。
式中:Mi,Ni,Mave和Nave分别为模拟值,实测值,模拟值的平均值和实测值的平均值。
对整个数据集,使用Ball-Berry 模型和Medlyn 模型得到的气孔导度模拟结果如图1 所示,Ball-Berry 模型和Medlyn 模型对气孔导度的模拟结果没有明显的差异。Ball-Berry 模型和Medlyn 模型R2分别是0.742 0 和0.740 8,RMSE 分别是0.177 7和0.139 mol/(m2·s)。使用Ball-Berry 模型和Medlyn 模型分别模拟两种植物的气孔导度,结果如表2。对于食松,Ball-Berry模型的模拟效果优于Medlyn 模型,Ball-Berry 模型的RMSE为0.009 2 mol/(m2·s),低于Medlyn 模型的0.011 3 mol/(m2·s);对于樱核圆柏,Medlyn 模型的模拟效果优于Ball-Berry 模型,Medlyn 模型的RMSE为0.015 8 mol/(m2·s)低于Ball-Berry 模型的0.016 8 mol/(m2·s);同一模型下,食松的气孔导度模拟结果要优于樱核圆柏。
图1 Ball-Berry模型和Medlyn模型模拟值和实测值的比较Fig.1 Comparison of simulated and measured values between Ball-Berry model and Medlyn model
表2 分别模拟食松和樱核圆柏气孔导度的R2和RMSETab.2 The R2 and RMSE of stomatal conductance were simulated for Pinus edulis and Juniperus monosperma
机器学习模型在各策略下对整个数据集的气孔导度模拟结果如表3 和图2 所示。可以看出,机器学习模型模拟效果优于Ball-Berry 模型和Medlyn 模型。以策略①为例,CAT 模型的决定系数R2比Ball-Berry 模型和Medlyn 模型分别提高了0.090 7 和0.091 9,ANN 模型的决定系数R2比Ball-Berry 模型和Medlyn模型分别提高了0.1296和0.1308;CAT 模型的RMSE比Ball-Berry模型和Medlyn模型分别降低了0.002 7和0.002 8 mol/(m2·s),ANN 模型的RMSE比Ball-Berry 模型和Medlyn 模型分别降低了0.004 0和0.004 1 mol/(m2·s)。
图2 CAT模型和ANN模型在3种输入策略下模拟值和实测值的比较Fig.2 CAT model and ANN model are compared with the simulated and measured values under three input strategies
表3 CAT模型和ANN模型在3种输入策略下的R2和RMSETab.3 The R2 and RMSE of CAT model and ANN model under three input strategies
机器学习的不同模型输入策略间相比,策略③得到的模拟效果最好。策略③的CAT 模型决定系数R2比策略①和策略②分别提高了0.092 4 和0.079 8;均方根误差RMSE分别降低了0.003 6 和0.003 2 mol/(m2·s)。策略③的ANN 模型决定系数R2比策略①和策略②分别提高了0.078 2 和0.086 3;均方根误差RMSE分别降低了0.003 6 和0.003 9 mol/(m2·s)。从图2 也可以看出,策略③下两种机器学习模型的模拟值与实测值相比策略①和策略②明显更集中于1∶1 线附近。并且,同一策略下ANN模型的模拟效果略优于CAT 模型,ANN 模型的决定系数R2比CAT 模型提高0.018 2~0.038 9,均方根误差RMSE降低0.000 6~0.001 3 mol/(m2·s)。
分别对食松和樱核圆柏的气孔导度进行模拟,结果如表4和表5 所示。对于同一植物来说,CAT 模型和ANN 模型的策略①与策略②之间模拟结果相近,同时都优于Ball-Berry 模型和Medlyn 模型(表2)。同样,机器学习的不同模型输入策略间相比,策略③得到的模拟效果最好,明显优于策略①和策略②。除食松的策略①中,CAT 模型的RMSE 为0.008 9 mol/(m2·s)低于ANN 模型的0.009 0 mol/(m2·s),即CAT 模型模拟结果优于ANN 模型外,食松和樱核圆柏各策略下的模拟结果都是ANN模型优于CAT 模型。同一模型的同一策略下,食松的气孔导度模拟结果要优于樱核圆柏。
表4 CAT模型和ANN模型在3种输入策略下分别模拟食松和樱核圆柏的R2Tab.4 The R2 of CAT model and ANN model under three input strategies for Pinus edulis and Juniperus monosperma
表5 CAT模型和ANN模型在3种输入策略下分别模拟食松和樱核圆柏的RMSETab.5 The RMSE of CAT model and ANN model under three input strategies for Pinus edulis and Juniperus monosperma
使用排列重要性(Permutation Importance)来计算特征重要性排序,在模型训练完成后,模型参数不变的情况下打乱验证集中的一列数据,使用该数据集进行预测,通过预测精度下降来体现该特征变量的重要性,依次分析各个变量。通过图3 可知,各策略下机器学习模型中气孔导度模拟影响因子得分最高的都是An。策略①、策略②和策略③中An的得分分别为0.022 5、0.022 6 和0.022 0。模拟气孔导度时,从各个影响因子的得分情况可以看出,除对气孔导度影响最大的An外,RH(得分0.006 9)、LWP(得分0.003 9)、TL(得 分0.003 6)、Cs(得分0.002 5)和VPD(得分0.002 4)依次对气孔导度的模拟起重要作用。
图3 不同策略下的机器学习模型中气孔导度的影响因素得分Fig.3 Score of influencing factors of stomatal conductance in machine learning models with different strategies
气孔导度作为表征植物气孔状态的重要指标,与作物光合作用及其生存的环境变量密切相关。Ball-Berry 模型和Medlyn模型基于现象学理论与简单统计学[23],其模型结构可以反映出气孔是如何响应环境变量的,并依据有限的数据拟合即可确定模型参数[24]。但Ball-Berry 模型假设气孔导度与光合速率线性相关,但是在干旱条件下,gs/An变化明显,因此会降低Ball-Berry模型的精度[25]。Medlyn 模型的形式与Ball-Berry 模型相似,模拟效果也接近。Medlyn 模型的机理性比较强,但由于气孔行为受到多种因素相互作用的影响,模型很难较为全面的考虑到气孔导度的影响因子,模拟精度有限[26]。
CAT 模型和ANN 模型对植物气孔导度的模拟精度明显高于Ball-Berry 模型和Medlyn 模型,该结果进一步证实机器学习模型在植物气孔导度模拟方面较经验模型具有更好的预测能力[27]。本文考虑了净光合速率,叶表二氧化碳浓度,相对湿度,饱和水汽压差,叶片温度和黎明前叶水势等因素,利用机器学习模型预测气孔导度时得到了很好的效果。尽管使用其中的部分变量,如策略①和②,可以取得较好的预测效果。但需要注意的是,在干旱胁迫下,植物的光合和蒸腾过程与植物的叶片水势及温度密切相关[28,29],从机器学习模型中气孔导度的影响因素得分也可以看出黎明前叶水势和温度对气孔导度预测的重要性(图3)。因此,建议在气孔导度模拟中考虑黎明前叶水势和温度的影响[30,31]。
各模型模拟食松的气孔导度模拟精度要高于樱核圆柏,这可能是因为食松和樱核圆柏的气孔对叶水势的调节策略差异有关。研究表明食松是等水植物,樱核圆柏是非等水植物,等水植物对水分胁迫敏感,可通过积极降低气孔导度来以限制叶片水势的不断下降。而对于非等水植物则为保证干旱条件下作物的耗水需求,通过不断降低叶片水势以保持较大的气孔导度,因此减少了气孔导度对干旱胁迫信号的敏感程度[17,32]。食松受到干旱等环境条件时,气孔导度随之降低,但是对于非等水植物樱核圆柏在同样条件下气孔导度没有明显变化,因此通过一系列受到环境影响的变量组成的数据集来预测气孔导度时,等水植物对气孔导度的模拟效果更好。
在评估Ball-Berry模型和Medlyn模型对等水植物食松和非等水植物樱核圆柏气孔导度模拟效果基础上,以净光合速率、叶片表面二氧化碳浓度、相对湿度、饱和水汽压差、叶片温度和黎明前叶水势等不同输入变量组合,利用CAT和ANN机器学习模型对植物气孔导度进行了模拟。通过比较不同模型及建模策略下的植物气孔导度模拟精度,得出以下结论。
(1)气孔导度模型Ball-Berry 模型和Medlyn 模型模拟结果没有明显的差异。Ball-Berry 模型和Medlyn 模型R2分别是0.742 0和0.740 8,RMSE分别是0.177 7和0.139 mol/(m2·s)。
(2)各个策略的机器学习模型模拟精度都明显高于Ball-Berry 模型和Medlyn 模型,策略③模拟效果优于策略①和策略②。其中机器学习模型ANN 优于CAT。策略①中ANN 模型的均方根误差RMSE 比Ball-Berry 模型和Medlyn 模型分别降低了0.004 0和0.004 1 mol/(m2·s);策略③的ANN模型的均方根误差RMSE比策略①和策略②分别降低了0.003 6 和0.003 9 mol/(m2·s)。3 种策略下ANN 模型比CAT 模型的均方根误差RMSE降低0.000 6~0.001 3 mol/(m2·s)。
(3)净光合速率对气孔导度模拟的贡献最大,但增加黎明前叶水势和温度为输入变量(策略③)有助于提高气孔导度模拟精度。
(4)食松和樱核圆柏组成的整个数据集的气孔导度模拟与分别模拟这两种植物的气孔导度规律是一致的,其中对食松的气孔导度模拟结果优于樱核圆柏。