褚江东,粟晓玲,2,郭盛明,牛纪苹
(1. 西北农林科技大学水利与建筑工程学院,陕西 杨凌 712100;2. 西北农林科技大学旱区农业水土工程教育部重点实验室,陕西 杨凌 712100)
潜在蒸散发(potential evapotranspiration,ET0)是水分循环与能量平衡的重要组成部分,与降水共同决定着区域的干湿状况,是估算生态需水和农业灌溉用水的关键因子[1],因此ET0的模拟研究具有十分重要的实际意义。
石羊河流域是我国内流河流域人口密度最大、人均GDP较高、人均水资源占有量最少的地区之一[2],模拟石羊河流域ET0对西北地区有着很好的代表性。ET0是各气象因子的非线性复杂函数[3],利用人工智能方法来模拟非线性关系得到了广泛的应用[4]。Huo等[5]研究表明在干旱半干旱地区模拟ET0时,人工神经网络(ANN)模型相比MLRs(多重线性回归)、Penman方程和经验方程有着更好的精度;El-Shafie等[6]建立了可预测日ET0的集成神经网络模型(ENN),据伊朗拉什特市与马来西亚新山市的最低日气温和最高日气温资料进行模拟预测,得出ENN模型预测日ET0的精度较MLP-ANN方法更高。支持向量机(SVM)与人工神经网络均已在降雨量预报中应用[7]。本文以石羊河流域为例,根据气象站的逐日气象资料,采用Penman-Monteith公式(简称PM公式)计算日ET0,分别建立六因子、四因子、三因子的SVM模型和ANN模型,将日ET0计算值与SVM模型、ANN模型模拟得到的日ET0模拟值进行比较,从中选择所需气象因子少、精度较高且可以在该流域推广使用的模型。本研究期望对石羊河流域合理开发利用水资源、发展节水农业、调整种植结构等工作提供参考。
石羊河流域位于河西走廊东部、祁连山北麓,乌鞘岭以西,是甘肃省河西走廊三大内陆河流域之一,地理坐标为北纬36°29′~39°27′,东经101°41′~104°16′,流域总面积4.16 万km2,占甘肃省内陆河流域总面积的15.4%[8]。近几十年来,流域经济的迅速发展造成水资源利用过度,区域生态环境一度急剧恶化,出现严重的生态问题,通过近几年的不断治理才有所缓解[9]。
气象资料包括石羊河流域内5个气象站的逐日平均气温、最高气温、最低气温、平均风速、平均相对湿度、日照时数。其中古浪站的资料来源于甘肃省气象局,资料长度为2001-2005年,其余气象站的资料均来源于中国气象科学数据共享服务网(http:∥data.cma.cn/),资料长度为2013-2017年。乌鞘岭站位于石羊河上游,古浪站、武威站、永昌站位于中游,民勤站位于下游。五个气象站基本覆盖了整个石羊河流域,具有很好的代表性。气象站的相关地理信息见表1。
表1 石羊河流域各气象站地理信息Tab.1 Geographic information of all meteorological stations in Shiyang River Basin
联合国粮农组织(FAO)将ET0定义为一种假想的参考作物的冠层的蒸发蒸腾速率,假设作物高度为0.12 m、固定的叶面阻力为70 s/m 、反射率为0.23,非常类似于高度一致、生长旺盛、完全覆盖地面而不缺水的开阔绿色草地的蒸发蒸腾速率[10]。计算ET0的方法很多:Rohwer在1931年提出了基于空气动力学、考虑水汽压差和风速影响的Rohwer模型[11];Blaney和Criddle在1950年提出了基于温度的Blaney-Criddle模型[12];Hargreaves在1975年提出了基于能量的Hargreaves模型[13],Allen在1998年提出了Penman-Monteith模型[10]。随着遥感技术的发展,很多学者把遥感获取的参数,比如土壤热通量、叶面积指数、净辐射等应用到PM公式中,实现PM公式在区域尺度上的运用[14]。段浩等[15]将遥感数据与PM公式相结合来推求ET0,该模型在望都站估算蒸散发取得较好结果;崔越等[16]基于BEPS-Terrainlab模型,利用Landsat5-8遥感数据和气象资料等数据模拟了犟河流域的日蒸散发,模拟结果与MODIS蒸散发产品MOD16A2结果的决定系数R2=0.92,验证了模拟的可靠性;FAO推荐的基于气象数据的PM公式[17],综合考虑了温度、湿度、气压、风速及太阳辐射等因素的影响,在国内外得到了广泛的应用。秦年秀[18]、李常斌[19]等将多种计算方法进行对比分析,认为在气象资料较为完整的情况下,PM公式的计算值更接近ET0的实际值。PM公式如下[17]:
(1)
式中:ET0为潜在蒸散发量,mm/d;Δ为饱和水汽压与温度关系曲线的斜率,kPa/℃;Rn为作物表面净辐射量,MJ/(m2·d);G为土壤热通量,MJ/(m2·d);γ为湿度计常数,kPa/℃;T为空气平均温度,℃;u2为地面以上2 m高处的风速,m/s;es为空气饱和水汽压,kPa;ea为空气实际水汽压,kPa。
人工神经网络(ANN)是一种模仿人脑结构的信息处理系统模型[20],具有自学习、自组织、自适应性的特点,是一种非线性统计模型[21]。ANN模型由输入层、隐层、输出层组成,基本组成单元是节点,每个节点只与邻层节点相连。目前运用最广泛的ANN模型为BP神经网络,该模型信号正向传播、误差反向传播。各层间信号传递原理一致,通过调整权值来调整相应误差。输入层到隐层的传递过程,各层间通过激励函数进行转换与转移[20]。ANN模型被广泛运用于蒸散发演变与模拟[21,22]、降水量预报[7]等。
本研究中,采用古浪站2001-2004年、其余4站2013-2016年的日气象数据进行BP神经网络的参数率定,采用古浪站2005年、其余站2017年数据进行参数验证。
支持向量机(SVM)是在统计学习理论的基础上发展起来的学习算法[23],在解决小样本、非线性和高维模式识别问题中有许多特有的优势,在很大程度上克服了“维数灾难”和“过学习”等问题[24]。SVM与BP神经网络类似,首先通过样本率定期训练模型,然后使用训练好的模型进行预测[25],再以检验期检验模型模拟预测的精度。
假定样本的训练集为{(x1,y1), (x2,y2),…, (xi,yi)},xi,yi∈R。则需要求解的线性回归函数为[4]:
f(x)=ωψ(x)+b
(2)
可通过求解风险函数的最小值来求解:
(3)
式中:ξ,ξ*分别是考虑允许拟合误差后加入的松弛变量的上限和下限;ε为允许误差;c为惩罚系数。
采用拉格朗日乘子法以及核函数将问题转换为对偶形式进行求解:
(5)
(6)
(7)
将式(7)得到的解代入原方程得出SVM回归方程f(x)为:
(8)
本文选用径向基函数作为核函数。惩罚系数c为对误差的宽容度,值越大表明误差越小;核函数在公式中自带一个参数g,该参数决定了数据映射后的分布。用SVM模型模拟时需要选择合适的c和g才能得到相对理想的模拟结果。随机选取参数训练模型得到的精度不稳定,可能出现收敛速度慢或者不收敛的情况,而基于K-fold Cross Validation(K-CV)参数优化方法可以避免上述情况和过学习欠学习的发生[26]。K-CV方法的主要思想是将原始数据分为k组,每组数据分别做一次验证集,其余k-1组子集数据作为训练集,由此可以k个模型,该k个模型验证集的分类准确率平均值为性能指标[27]。
选取平均绝对误差MAE、均方根误差RMSE、皮尔逊相关系数R(简称相关系数)以及确定性系数DC等指标作为模型模拟精度的评价标准。其中MAE与RMSE越接近0,R与DC越接近1代表精度越高。各指标的计算公式如下:
(9)
(10)
(11)
(12)
为探索更简便的模拟方法并为石羊河流域周边气象要素缺失的站点提供参考,尝试减少模型的输入因子进行模拟率定和检验,得出结果与未减少气象因子前进行模拟精度比较。
以平均风速、最高气温、平均气温、最低气温、平均相对湿度、日照时数分别建立六因子SVM模型和ANN模型,以平均气温、最高气温、最低气温、相对湿度建立四因子SVM模型1和ANN模型1,以平均气温、相对湿度、日照时数、平均风速建立四因子SVM模型2和ANN模型2,以平均风速、平均气温、日照时数建立三因子SVM模型1和ANN模型1,以平均温度、日照时数、相对湿度建立三因子SVM模型2和ANN模型2,对石羊河流域的5个气象站分别进行日尺度ET0的模拟。
基于SVM模型模拟日ET0的5站率定期与检验期的相关指标见表1,以古浪站为例,ET0模拟值与PM公式计算值的结果对比见图1。
由表1可以看出,每个模型R均大于0.93,在率定期除乌鞘岭站三因子SVM模型1DC小于0.9之外,其他模型与站点DC均大于0.9,但检验期有部分模型站点精度较差,其中永昌站和乌鞘岭站的RMSE、MAE值偏大,DC值偏小;不是输入因子越多得到的模拟精度就越好,其中以平均气温、日照时数、相对湿度建立的三因子SVM模型2较四因子模型和三因子SVM模型1相比各项指标精度更高。综合表1和图1,可知每个模型在一定的精度要求下均可进行预测模拟,为推广使用选择所需参数较少且精度较高的模型,在有平均风速、平均气温、日照时数资料时可以使用三因子SVM模型1模拟ET0,在有平均气温、日照时数、相对湿度资料时可以使用三因子SVM模型2模拟ET0。
基于ANN模拟的石羊河流域5个气象站日ET0在率定期和验证期的精度指标见表2,以古浪站为例,ET0模拟值与PM公式计算值结果对比如图2所示。
由表2和图2可以看出六因子输入时,ANN模型模拟各站在率定期和检验期的相关系数R与DC非常接近1,MAE与RMSE值很小,各站ET0计算值与模拟值基本吻合,且六因子ANN模型比SVM模型模拟精度高。
2种四因子ANN模型和三因子ANN模型的模拟精度均较同因子数的SVM模型的模拟精度高,因此在缺少日照时数与平均风速资料时推荐使用四因子ANN模型1模拟日ET0,在缺少最高气温和最低气温资料时推荐使用四因子ANN模型2模拟日ET0;在流域站点只有平均气温、平均风速、日照时数资料时推荐使用三因子ANN模型1模拟日ET0,在只有平均气温、平均相对湿度、日照时数资料时可以使用三因子ANN模型2模拟日ET0。
表1 不同输入因子的SVM模型评价相关指标Tab.1 Evaluation-related index of SVM models in different input factors
图1 古浪站ET0 PM计算值与SVM模拟值对比Fig.1 The comparison of ET0 between PM calculated values and SVM simulated values in Gulang station
表2 不同输入因子的ANN模型的评价相关指标Tab.2 Evaluation-related index of ANN models in different input factors
图2 古浪站ET0 PM计算值与ANN模拟值对比Fig.2 The comparison of ET0 between PM calculated values and ANN simulated values in Gulang station
通过PM公式计算出石羊河流域5个气象站的逐日ET0,建立不同输入因子下SVM与ANN的日ET0模拟模型,结果表明两个模型在不同输入因子条件下模拟结果均达到了较高的精度,均可用于石羊河流域日ET0的模拟预测。在相同输入因子条件下,ANN模型较SVM模型精度更高,且程序运行时间更短,因此推荐在石羊河流域日ET0的模拟预测时优先使用ANN模型。
本研究探索了减少输入因子的SVM模型与ANN模型对日ET0的模拟,SVM模型精度较ANN模型精度不高可能是没有优选合适的惩罚参数c和核函数参数g,模型存在着一定的优化空间,有待进一步的研究。每种模型都有自身的优缺点,在对某个区域进行ET0的模拟预测时,应该考虑多种因素,采用多种模型综合比较后选择精度较高的模型。