刘小强1, 2,代智光1,吴立峰1*,张富仓2,董建华3,陈志月4
(1.南昌工程学院 水利与生态工程学院,南昌 330099;2.西北农林科技大学 旱区农业水土工程教育部重点实验室,陕西 杨凌 712100;3.昆明理工大学 农业与食品学院,昆明 650500;4.河海大学 水文水资源学院,南京 210098)
【】提高机器学习模型模拟参考作物蒸散量在江西省适应性和精度。基于江西南昌等15个气象站2001—2015年日值气象数据(最高气温、最低气温、地表辐射、大气顶层辐射、相对湿度和2 m高风速),以FAO-56 Penman-Monteith(P-M)公式的计算结果作为对照,建立了计算0的高斯过程回归(GPR)、极限梯度提升(XGBoost)和梯度提升决策树(CatBoost)模型,并分别与经验模型进行比较。各气象参数对机器学习模型模拟0的精度影响由大到小依次为:s、max和min、、2,且采用max、min、s和气象参数组合的机器学习模型(0.2 mm/d)模拟0精度高。此外,3种机器学习模型在有限的气象数据时具有较好的适用性,且优于传统经验模型,其中GPR和CatBoost模型的预测精度高,但GPR模型稳定性最好。考虑到所研究模型调参的复杂性、预测精度和稳定性,GPR模型可作为江西地区参考作物蒸散量模拟的推荐方法。
【研究意义】作物需水量是农田土壤水分循环的关键因子,对水资源优化配置和灌溉制度的制定有重要意义,而计算作物需水量的关键是确定参考作物蒸散量(0)[1]。【研究进展】国内外通常将FAO-56 Penman-Monteith(P-M)作为估算0的标准方法[2],而P-M法需要的气象数据完整性高,多数气象观测数据无法达到该方法要求,使得P-M法的应用受到一定程度的限制,于是利用有限气象数据的经验法就得到了广泛应用,如基于辐射的Irmak法[3]和Makkink法[4]等。张倩等[5]比较了基于辐射和温度等9种方法在新乡的适用性,发现辐射法中Irmak模型的精度高于温度法。胡兴波等[6]在青海高寒地区发现Makkink法可直接用于计算极端干旱区以外的0。
【拟解决的关键问题】为此,以FAO-56 P-M计算的0结果为对照,建立基于有限的气象数据的3种机器学习模型(GPR、XGBoost和CatBoost),分析不同气象要素对江西地区0预测精度的影响和稳定性;并将机器学习模型与Irmak和Makkink模型进行比较,评估机器学习模型的精度和稳定性,以便筛选出气象数据不足条件下江西地区最适宜的0估算替代方法,以期为江西地区灌溉制度制定和水资源优化配置提供科学指导。
江西省(24°29′—30°04′N,113°34′—118°28′E)位于长江中下游地区,属中亚热带湿润季风气候,全省多年年均气温为16.3~19.5 ℃,且一般自北向南递增。省内降水丰沛,主要集中在4—9月,多年平均降水量1 341~1 940 mm。降水的季节性变化大,汛期河水暴涨,易泛滥成灾。
选取江西省修水、宜春、吉安、遂川、赣县、庐山、鄱阳、景德镇、南昌、樟树、贵溪、玉山、南城、广昌、寻乌15个气象站2001—2015年的地面观测数据中的日值数据集(包括最高气温(max)、最低气温(min)、相对湿度()、2 m高风速(2)、大气顶层辐射(a)、地表辐射(s))。其中2001—2010年用于训练,2011—2015年用于验证。
1.3.1 FAO-56 Penman-Monteith模型
FAO-56 Penman-Monteith(P-M)公式被联合国粮农组织推荐为最适宜估算参考作物蒸散量的方法[2],其具体表达式为:
式中:0为参考作物蒸散量;n为地表净辐射;为土壤热通量密度;为2 m高处的平均气温;2为2 m高处的风速;s和a分别为饱和水汽压和实际水汽压;为蒸汽压曲线的斜率;为温度计常数。
1.3.2 高斯过程回归模型
1.3.3 极端梯度提升模型
, (3)
1.3.4 梯度提升决策树模型
合理的输入参数组合对模型模拟的精度有显著提高,如采用max、min、s、,max、min、s、2和max、min、s作为输入参数的模型比采用max、min、a、,max、min、a、2和max、min、a模型模拟的效果好,这表明s比a对模型模拟效果影响大。另外,模型9和模型10的性能优于模型8,表明、2对模型模拟的精度有一定的影响。余下组合则展示s对于预测0的影响最大,max/min次之,2最小。在验证期,模型CatBoost10的和的值是最低的,2最高(2=0.998,=0.073 mm/d,=0.050 mm/d),与上述情况一致。因此考虑到组合8仅有温度和地表辐射资料就可获得较高的模拟精度,推荐模型8作为该地区0适宜模型。
表1 GPR、XGBoost和CatBoost模型的平均统计指标
表2 机器学习模型验证期相对训练期的平均及其百分比
Table 2 The average RMSE and percentage of machine learning models during the texting period relative to the training period
表3 经验模型和机器学习模型的平均统计指标
本研究分析了经验模型与相同输入参数的机器学习模型预测0的平均统计指标(表3),可得机器学习模型的精度都高于经验模型。在max、min和s的输入组合下,Irmak模型预测精度最低(验证期2=0.922,=0.430 mm/d,=0.342 mm/d),而GPR8模型预测精度最高(验证期2=0.966,=0.277 mm/d,=0.205 mm/d);在max、min、s和的输入组合下,验证期中Makkink模型预测0的精度最低(2=0.931,=0.440 mm/d,=0.333 mm/d)。
使用max、min和s作为输入组合的GPR模型,验证期2=0.966,=0.277 mm/d,=0.205 mm/d,为江西地区适宜的参考作物蒸散量模型。
Comparing the Performance of GPR, XGBoost and CatBoost Models for Calculating Reference Crop Evapotranspiration in Jiangxi Province
LIU Xiaoqiang1,2, DAI Zhiguang1, WU Lifeng1*, ZHANG Fucang2, DONG Jianhua3, CHEN Zhiyue4
(1.College of water conservancy and ecological engineering, Nanchang Institute of Technology, Nanchang 330099, China; 2. Key Laboratory of Agricultural Soil and Water Engineering in Arid and Semiarid Areas, Ministry of Education, Northwest A&F University, Yangling 712100, China; 3. Faculty of Agriculture and Food, Kunming University of Science and Technology,Kunming 650500, China; 4. College of Hydrology and Water Resources, Hohai University, Nanjing 210098, China)
【】Alternate drought and waterlogging increasingly occurring in Jiangxi province means that rational irrigation strategies are required to safeguard its agricultural production.【】The objective of this paper is to select a suitable machine learning model to calculate reference crop evapotranspiration across the province.【】Meteorological data - including daily maximum (max) and minimum (min) ambient temperature, global solar radiation, extra-terrestrial solar radiation(s), relative humidity (RH) and 2m-height wind speed (U2) - were measured from 2001 to 2015 at 15 stations across the province; they were then used to train and test three models: Thegaussian process regression (GPR), the extreme gradient boosting (XGBoost), and the gradient boosting with categorical features support (CatBoost). We compared accuracy with empirical model for estimating the reference evapotranspiration.【】The meteorological factors that impacted the accuracy of the machine learning model for estimating0was ranked in the descending order as follows based on their significance:s>max>min>>2. Models usingmax,min,sand2gave the most accurate0estimate with0.2 mm/d. All three models have a good applicability by using limited meteorological data, and are superior to the traditional empirical model. In particular, GPR and CatBoost were more accurate, and GPR was most stable.【】In terms of complexity, accuracy and stability, GPR was the most suitable model for estimating reference crop evapotranspiration in Jiangxi province.
reference crop evapotranspiration; gaussian process regression; extreme gradient boosting; gradient boosting with categorical features support; empirical model
刘小强, 代智光, 吴立峰, 等. GPR、XGBoost和CatBoost模拟江西地区参考作物蒸散量的适应性研究[J]. 灌溉排水学报, 2021, 40(1): 91-96.
LIU Xiaoqiang, DAI Zhiguang, WU Lifeng, et al. Comparing the Performance of GPR, XGBoost and CatBoost Models for Calculating Reference Crop Evapotranspiration in Jiangxi Province[J]. Journal of Irrigation and Drainage, 2021, 40(1): 91-96.
