基于机器学习的昆明站参考作物蒸散量估算研究

2020-12-21 03:46王超杨蒙
中小企业管理与科技·上旬刊 2020年12期
关键词:机器学习稳定性

王超 杨蒙

【摘  要】论文使用KNEA、LGBM和MARS三种机器学习算法对昆明站1966-2015年参考作物蒸散量进行估算,通过输入因子组合设置以及算法结果统计指标分析,得出KNEA模型算法采用最高气温(Tmax)、最低气温(Tmin)和地表日总辐射(Rs)三个因子的拟合度最高。三种模型预测期与验证期的各项指标相接近,稳定性均较高。

【Abstract】The paper uses three machine learning algorithms of KNEA, LGBM, and MARS to estimate the reference crop evapotranspiration from 1966 to 2015 at Kunming Station. Through the combination setting of input factors and the statistical indicators analysis of the algorithm results, the paper concludes that the KNEA model algorithm adopts the three factors of maximum temperature (Tmax), minimum temperature (Tmin) and total daily surface radiation (Rs) to obtain the highest fitting degree. The various indicators in prediction period and validation period of the three models are similar, and the stability is relatively high.

【关键词】机器学习;参考作物蒸散量;统计指标;稳定性

【Keywords】machine learning; reference crop evapotranspiration; statistical indicators; stability

【中圖分类号】S311                               【文献标志码】A                                   【文章编号】1673-1069(2020)12-0186-03

1 引言

参考作物蒸散量(ET0)是灌区运行管理的一项重要依据。联合国粮农组织(FAO)推荐使用Penman-Monteith(P-M)彭曼法作为估算ET0的标准方法。P-M法较全面地考虑了各种气象因子对蒸散量的影响,需要连续准确的风速、温度、日照、湿度等观测数据,因而具有较高的精度和较好的适用性[1]。此外,在缺乏连续有效的气象因素时,研究者也找出了简单、有效的经验方法,如Priestley-Taylor法[2]、Irmak法[3]。近年来,随着机器学习以及大数据分析的兴起,很多学者基于SVM(Support Vector Machine)、KNEA(Kernel-Based Arps Decline Model)、ANN(Artificial Neural Network)等机器学习算法对需水量、参考蒸散量进行了预测研究[4,5],取得了较高的预测精度。

本文以KNEA、LGBM(Linght Gradient Boosting Machine)模型以及多元自适应样条回归MARS这三种模型,对昆明气象站点逐日ET0进行了模拟,其中,以联合国粮农组织推荐的P-M法作为标准与预测值进行对比评价,寻找适合的ET0机器学习算法,以期为该地区水资源优化配置提供依据。

2 研究区域与方法

2.1 研究区域

昆明位于中国西南云贵高原中部,海拔约为1800m,属亚热带季风气候,四季如春,日照较长,年均日照2180h左右,年降水量1000mm,常年温差小。

2.2 数据来源

昆明站1966-2015年的气象数据来源于中国气象科学数据共享服务网:最高温度(Tmax)和最低温度(Tmin),降水量(P),相对湿度(RH),2m高度风速(U2),理论日照时数(N)和实际日照时数(n)、大气顶层辐射(Ra)、地表日总辐射(Rs)。

2.3 研究方法

2.3.1 FAO56 Penman-Monteith模型(PM)

联合国粮农组织(FAO)1998年推荐Penman-Monteith公式计算ET0,该计算依据水汽紊流扩散和能量平衡原理,较全面地考虑了各气象因子对蒸散的影响,结果可靠,可以作为机器学习计算的验证参考:

式(1)中,Rn为净辐射量,G为土壤热通量,?酌为干湿常数,?驻为饱和水气—温度压曲线斜率,T为平均温度,U2为2m高处的风速,es、ea分别为饱和水气压和实际水气压。

2.3.2 机器学习计算模型

本研究选取了KNEA模型、LGBM模型、MARS模型这三种机器学习模型,其中,KNEA模型用于寻找非支配解中的knee points,该算法主要思想是如果没有明确的用户偏好,knee points是非支配解中最受欢迎的。该算法不仅可以找到收益较大的点,还无需引入额外的多样性维护机制,从而降低了计算的复杂性。LGBM模型基于梯度提升随机树GBDT算法的框架,该算法对多线程进行了优化,并通过直方图做差加速,用非常小的代价使运算速度提升一倍。MARS模型计算过程是回归的自适应过程,非常适合大量气象因子输入这一类的高维问题的计算。表1列出了三种机器学习算法模型的输入参数组合。

2.3.3 模型评估指标

分别使用平均绝对误差MAE、均方根误差RMSE,拟合优度R2和纳什效率系数NSE,来评估机器学习的计算效果,公式如下:

其中,xi、yi分别是ET0在FAO56 PM公式计算的值、机器学习算法的值,、是算数平均值,n是数据量的个数。MAE是平均绝对误差,它反映了ET0预测值误差的绝对大小。RMSE是均方误差的算术平方根,用来衡量ET0预测值偏离PM法计算值的程度,该值越小说明模型表现越好。R2为拟合优度,它反映了输入因子对ET0的影响比例,该值越接近1,说明输入因子引起的ET0变化百分比越大。NSE是纳什效率系数,该值越接近1,表示模型效果越好。

3 结果与分析

3.1 模型結果

从表2中可以看出,在预测期KNEA模型中组合二R2(0.955)、NSE(0.953)最大,预测值与实测值高度拟合,模型质量高;组合一、组合四R2(0.881)相同、NSE(0.873、0.870)较大,拟合度也较高;组合三R2值为0.854,模型精度稍逊于其他三种模型组合;对比该模型下验证期R2、NSE值大小规律与预测期基本一致,因此,KNEA模型组合二输入下的模拟质量好,可信度高。

LGBM模型预测期依旧是组合二的R2(0.940)、NSE(0.977)最大,组合一和组合三的R2(0.902、0.921)也都达到了0.9以上,但NSE(0.761、0.781)较小,模型质量一般,进入验证期这两种模型R2、NSE均在0.932以上;组合四R2(0.882)精度稍差,但在验证期R2(0.941)较大。综合预测期与验证期的表现,LGBM模型在组合二的输入下模型质量好,可信度高。

MARS模型在预测期,组合二的R2(0.924)与NSE(0.907)最接近于1,其他三个组合均在0.9以下,其中,组合三的拟合度最低。模型在验证期的拟合程度与预测期所反映的规律相同,综合预测期和验证期的表现,可得MARS模型在组合二的拟合度最高。

相同模型下,当输入参数为组合二时,即最高气温(Tmax)、最低气温(Tmin)和地表日总辐射(Rs)时,模型的拟合度最高;不同模型下,KNEA组合二预测期R2(0.955)和NSE(0.953)最大。

根据上述结论,针对组合二情况下的三种模型分析,图1为模拟结果图,KNEA2模型模拟下的结果,衰退曲线与数据配合最好,模型预测值与计算值最接近,如其趋势线R2(0.9548)所示,说明散点更多地落在趋势线上,预测值与实测值高度拟合;MARS2的R2(0.9507)预测值与模拟值的拟合效果基本一致,拟合度也较高;LGBM2的R2(0.9255)预测值与模拟值的拟合效果较低,因此,输入因子选择组合二的情况下KNEA的模型精度最高。

3.2 模型稳定性分析

由于模型是否适用还需要研究其稳定性,将训练数据和验证数据放在一起比较可进行模型稳定性的分析。模型过拟合是指在训练时,针对每个数据都能做出较高的拟合程度,但在测试集上效果差;欠拟合发生于模型不能很好地捕捉数据特征,整个模型在训练上模拟效果较差。

表3为三种模型训练期与验证期的各项统计指标,训练集和验证集相差最大为LGBM3、LGBM4的ΔR2(0.018)、ΔNSE(0.024),其余各模型相差更小,从统计学指标角度评价,上述三种算法的12种模型均不存在过拟合与欠拟合现象,各模型稳定性均很高,拟合度好,泛化能力强。

4 结论

以昆明站1966-2015年的每日最高气温、最低气温、日照时数、相对湿度和2m高风速作为输入参数,以FAO56 PM公式计算值作为标准对比,建立了三种学习模型在四种不同气象要素组合条件下的算法模型,通过分析得出以下结论:

统计结果表明,相同输入参数下,三种模型中KNEA模型对昆明站的模拟吻合度最高,MARS模型次之,LGBM模型较差。三种模型中,输入参数为组合二时,R2均为组合中的最高值,故按照最高气温、最低气温和地表日总辐射为组合进行模拟计算,精度较高,可作为气象要素缺失情况下的推荐计算方法。三种模型的训练期与验证期的各项指标值相差不大,不存在过拟合与欠拟合现象。

【参考文献】

【1】Allen R G,Pereira L S,Raes D,et al.Crop evapotranspiration-guidelines for computing crop water requirements[M].Rome:Food and Agriculture Organization of the United Nations,1998.

【2】刘晓英,林而达,刘培军.Priestley-Taylor与Penman法计算参照作物腾发量的结果比较[J].农业工程学报,2003,19(1):32-36.

【3】张倩,段爱旺,高阳,等.基于温度资料估算参考作物腾发量的方法比较[J].农业机械学报,2015,46(2):104-109.

【4】毛亚萍,房世峰.基于机器学习的参考作物蒸散量估算研究[J].地球信息科学学报,2020,22(8):1692-1701.

【5】梁一鸣.环境预测模型的应用评述[J].价值工程,2019,38(23):245-246.

【作者简介】王超(1985-),男,宁夏石嘴山人,回族,讲师,从事农业水利工程研究。

猜你喜欢
机器学习稳定性
独柱墩桥梁上部结构抗倾覆稳定性分析
基于自适应神经网络的电网稳定性预测
不确定时滞系统的整体控制稳定性分析
不确定时滞系统的整体控制稳定性分析
纳米级稳定性三型复合肥
非线性多率离散时间系统零动态的稳定性
任意切换下的连续非线性切换系统的输入—状态稳定性分析
基于词典与机器学习的中文微博情感分析
基于网络搜索数据的平遥旅游客流量预测分析
前缀字母为特征在维吾尔语文本情感分类中的研究