闫 鑫,陈 华,尚志宏,王金星
(1. 安徽省水利水电勘测设计研究总院有限公司,安徽 合肥 230088; 2. 武汉大学 水资源与水电工程科学国家重点实验室,湖北 武汉 430072; 3. 松辽水利委员会水文局,吉林 长春 130021; 4. 水利部信息中心,北京 100053)
降水作为地球水循环的重要组成部分,在水文、气象、生态等方面具有重要意义[1-3]。陆地水文过程中的不确定性大多是由降水的时空变异性引起的[4,5],水文模型输出的质量在很大程度上依赖于输入降水估算的质量[6]。目前,主要采用雨量站、卫星遥感、天气雷达等手段测量降水。雨量站可以在点尺度上提供较为准确的降水值,但在大尺度上无法准确估算连续的空间降水分布[7]。气象雷达可以提供更精确的时间和空间分辨率的降水数据,但是在复杂地形条件下,由于波束遮挡和雷达信号随距离衰减等原因,会造成测量误差[8]。得益于卫星传感器和测量技术的发展,基于卫星的遥感数据正在成为提供全球时空连续的降水估计的一种有效的数据源。卫星降水产品可以提供关于降水分布及其变化的周期性和区域性信息,比雨量站数据更能反映空间分布,但大多数卫星降水产品存在较大的系统偏差和随机误差[9]。
数据融合是指将来自多个数据源的数据进行融合,从而获得比任何单一数据源更准确、更有价值的信息的过程[10]。近年来,为了减少卫星降水估计误差,提高精度,利用雨量站数据和卫星降水数据在可用性和准确性方面具有互补的特点,将两者的观测数据融合已成为一种常用的方法,如空间随机森林法[11]、贝叶斯平均法[12]、具有外部漂移的克里金法[13]和地理加权岭回归[14]等。然而,由于卫星像元与雨量站在空间尺度上存在不匹配的问题,将会导致难以避免的误差[15]。因此,为了解决上述问题,有研究提出在进行融合校正前,需要对原始低分辨率的卫星反演降水数据进行降尺度处理,以更好地匹配雨量站数据源的尺度[16-18]。
研究的主要目的是通过两步降尺度融合方法来获得高分辨率日降水产品。首先,基于随机森林模型对GPM_3IMERGDF 日降水产品进行空间降尺度,提出了“时间升尺度-空间降尺度-时间降尺度”一体化方案。其次,采用协同克里金法将降尺度卫星降水数据与地面雨量站观测数据融合,获得高精度日降水产品。最后,通过半分布式日尺度WASMOD-D(the daily version of Water And Snow balance MODeling system)水文模型来模拟降雨—径流过程,评估融合降水产品的径流模拟效果。
汉江流域位于中国中南部,在北纬30°4'~34°11'到东经106°5'~114°18'之间,面积为15.9 万km2。汉江流域降水分布表现出很强的梯度,随经度、纬度和海拔变化,属于亚热带季风区,气候温和湿润,年降水量873 mm,水量丰富。
表1 研究数据及其来源Tab.1 Research data and sources
图1 研究区域Fig.1 Study area
2.1.1 随机森林模型
随机森林(Random Forests)[19]是一种增强的决策树模型,基于引导聚集算法(Bootstrap Aggregating)来增加额外的随机性层。如图2所示,在随机森林模型中,决策树模型作为单个预测模型。随机森林模型可用于分类和回归,在降水和温度等气象数据降尺度方面具有良好的表现。
图2 基于Bagging方法的随机森林算法示意图Fig.2 Schematic diagram of random forest algorithm based on bagging method
2.1.2 降尺度模型的构建
由于日降水量与陆面环境变量之间缺乏较强的相关关系,研究首先在季节尺度上对GPM 降水数据进行空间降尺度,然后对降尺度结果在时间上进行分解,由此得到高时空分辨率的GPM 日降水数据。GPM 降水数据和夜间地表温度(LSTnight)、日间地表温度(LSTday)、坡度、高程、坡向、经纬度和NDVI 数据输入到随机森林模型中,建立陆面环境变量与降水量之间的回归模型,如图3所示。
图3 基于随机森林模型的降尺度方案流程图Fig.3 Schematic diagram of downscaling scheme based on random forest
2.1.3 季节GPM 降水的分解
研究中,雨量站观测被视为“真实降水量”,通过定量和定性指标评估卫星降水产品的精度。对于星地融合降水数据的精度,采用留一交叉验证法来进行评估[14]。相关系数(r)反映了观测值和预测值之间的线性相关程度。平均绝对值误差(Mean Absolute Error,MAE),它表示预测值和观测值之间绝对误差的平均值。均方根误差(Root Mean Square Error,RMSE)代表观测值和预测值(称为残差)之间差异的样本标准偏差。偏差(Bias)代表预测值和观测值的偏离程度。修正Kling-Gupta效率系数(the modified Kling-Gupta Efficiency,KGE)是对观测值与预测值在整体趋势上进行综合比较。精度评估指标计算公式如下:
式中:o为观测降水量;p为估计降水量为观测降水量的平均值为估计降水量的平均值;CV为以mm 为单位的变异系数;σp为估计降水量的标准差;σo为观测降水量的标准差。
检测率(Probability of Detection,POD)、误检率(False Alarm Ratio,FAR)和临界成功指数(Critical Success Index,CSI)被选择来评估卫星降水数据检测降水事件的能力,计算公式如下:
式中:H为同时通过雨量站观测和卫星降水数据确定的降水事件数;M为被卫星降水数据确定但未被雨量站观测捕获的降水事件数量;F为在雨量站观测中识别到但在卫星降水数据中未被识别的降水事件数。
Xu 等[20]基 于NOPEX 流 域 开 发 了WASMOD 水 文 模 型。Gong 等[21]在WASMOD 基础上开发了半分布式日尺度WASMOD-D 模型。WASMOD 水文模型是一个水量平衡模型,模型概念简单,参数较少。模型结构如图4 所示,包含降水下渗、蒸发、产流和汇流等四个模块。
图4 WASMOD模型系统概念图Fig.4 conceptual diagram of wasmod model system
为了比较3 种不同降水产品降水的空间分布情况,以研究时段的4 个年份的3 天的日降水数据为例,分别绘制了原始GPM 降水产品(Ori_GPM)、降尺度GPM 降水产品(Down_GPM)和降尺度—融合降水产品(MR_CK)的空间分布图(如图5~8 所示)。这些日期横跨了了春、夏、秋三季,包括了汉江流域的主要降雨季节,因此具有良好代表性。Down_GPM 不仅保留了原始GPM 降水的空间分布模式,也改善了其空间细节,尤其对于局部降水事件较多的情况。在与雨量站观测数据融合后,GPM降水数据的降水量和空间分布都得到了一定的校正。
图5 3种降水产品在2014年第101 d、第242 d、第284 d的降水分布图Fig.5 Precipitation distribution of three precipitation products on the 101st, 242 and 284 days in 2014
图6 3种降水数据集在2015年第91 d、第196 d、第284 d的降水分布图Fig.6 Precipitation distribution of three precipitation products on the 91st, 196 and 284 days in 2015
图7 3种降水数据集在2016年第96 d、第174 d、第311 d的降水分布图Fig.7 Precipitation distribution of three precipitation products on the 96st, 174 and 311 days in 2016
图8 3种降水数据集在2017年第99 d、第187 d、第270 d的降水分布图Fig.8 Precipitation distribution of three precipitation products on the 99st, 187 and 270 days in 2017
表2 列出了降水产品精度评估指标的结果。从总体上来看,与Down_GPM 相 比,MR_CK 的MAE和RMSE分 别 下 降 了32.38%和21.38%,偏差的绝对值从20%降低到了小于1%,r和KGE分别提高了17.40%和31.78%。在与雨量站观测数据进行融合后,MR_CK显著提高了Down_GPM的精度。
表2 3种日降水产品精度评估指标结果Tab.2 Precision evaluation index results of three daily precipitation products
从图9 可以看出,所有降水产品都能很好地识别出无雨事件,但识别能力随着降水量的增加而逐渐降低。Down_GPM 的识别能力与Ori_GPM 几乎相同,在与雨量站观测数据融合后,MR_CK在识别降水事件方面的能力得到了显著的提高。此外,随着降水量的增加,3 种降水产品的RMSE和MAE逐渐增加,并具有相似的变化模式。
图9 不同降水范围内Ori_GPM、Down_GPM 和MR_CK的精度表现Fig.9 Precision performance of Ori_GPM, Down_GPM and MR_CK in different precipitation ranges
研究选取汉江流域的典型子流域白河流域作为研究对象,如图10 所示。设置两个径流模拟情景,在情景I中,WASMODD 模型参数用雨量站降水数据进行率定,并以3 种降水数据集和站点降水作为输入驱动模型进行径流模拟。在情景II 中,每个降水数据集分别率定WASMOD-D 模型参数,再根据不同的参数集进行径流模拟。
图10 白河流域概况Fig.10 Baihe River Basin
使用纳西效率系数(NSE)、相关系数(r)和水量相对误差(Re)这3个指标来评价3种降水产品对日径流模拟精度。
3.3.1 径流模拟情景I:使用雨量站数据进行模型率定
为了保证降水数据的独立性,率定模型的雨量站数据选自中国地面气候资料日值数据集(V3.0),选择白河水文站1969-1979 年的历史实测径流数据来进行模型参数的率定。然后,3种降水数据集和站点降水数据作为输入驱动WASMOD-D 模型进行水文模拟。从图11可知,卫星降水产品驱动的模拟径流大部分高估了日径流观测的极大值。从表3 可知,径流模拟一致性效果较好的是MR_CK,其相关模拟径流的NSE和r分别为0.67和0.87,相较于站点降水数据有一定的提升。
图11 3种降水产品和站点降水驱动WASMOD-D水文模型模拟的白河流域出水口白河站的日径流和月平均径流Fig.11 Daily runoff and monthly average runoff of Baihe station at the outlet of Baihe River Basin simulated by WASMOD-D hydrological model driven by three precipitation products and station precipitation
表3 3种降水产品和站点降水数据驱动下的径流模拟效果Tab.3 Runoff simulation effect driven by three precipitation products and station precipitation data
3.3.2 径流模拟情景II:利用每个降水数据集进行模型率定
分别使用3 种降水数据集和站点降水对WASMOD-D 水文模型进行率定,比较其水文模拟效果差异。设置率定期为2014-03-01-2017-02-28,检验期为2016-03-01-2018-02-28。
从图12(a)可知,无论卫星降水产品还是融合降水产品驱动的模拟径流都低估了日径流观测的极大值。由表4 可知,在率定期模拟效果较好的是MR_CK,其相关模拟径流的NSE、Re和r分 别 为0.74、-10.88% 和0.86。与Ori-GPM 相 比,Dowm_GPM 的水量相对误差有明显下降,降低了58%。在检验期模拟效果最好的是MR_CK,其相关模拟径流的NSE、Re和r分别为0.71、-7.55%和0.84。与站点降水相比,MR_CK 径流模拟的一致性指标略有提升,但是水量平衡误差改善较为明显。
图12 3种降水产品和站点降水驱动WASMOD-D水文模型模拟的白河流域出水口白河站的日径流和月平均径流Fig.12 Daily runoff and monthly average runoff of Baihe station at the outlet of Baihe River Basin simulated by WASMOD-D hydrological model driven by three precipitation products and station precipitation
基于随机森林的降尺度模型将低分辨率降水数据降尺度至高空间分辨率,为雨量站的点数据和卫星像素之间的尺度差问题提供了有效的解决方案。利用随机森林模型对卫星降水数据进行降尺度处理提高融合结果的精度,由于降尺度降水数据与雨量站数据空间尺度更加匹配,且降尺度过程具有一定的平滑效果,使得卫星降水数据分布更加连续。有助于解决不连续降水背景场所导致的边界偏差问题和绘制高分辨率降水分布图[22]。
在先前的研究中,陈圆圆[18]使用面到点克里格法(Area-To-Koint Kriging,ATPK)对(Tropical Precipitation Measurement Mission,TRMM)月降水产品进行空间降尺度,然后使用地理加权回归克里金法(Geographically Weighted Regression Kriging,GWRK)将降尺度降水量与雨量站观测值进行融合。Chen等[13]通过地理加权回归缩小了TRMM 降水量的尺度,然后使用具有外部漂移的克里金法将降尺度TRMM 降水数据与雨量站观测值进行融合。Chen 等[14]使用地理加权岭回归(Geographically Weighted Ridge Regression,GWRR)将四个降尺度卫星降水数据与雨量站观测值进行融合。与以往的研究不同,研究引入了机器学习算法中的随机森林模型和地统计学中的协同克里金法来构造降尺度-融合方案。结果表明,在日尺度上融合降水数据的精度显著提高。对于卫星降水和雨量站观测的融合,增加雨量站的分布密度有助于提高融合结果的质量[17,18,23]。然而,当雨量站密度达到临界阈值时,这种改善将受到限制[24]。对于不同的融合算法,对于最优融合结果,最优雨量站密度是不同的,值得进一步研究。
情景I 对于有实测资料的流域,使用独立的雨量站数据进行水文模型参数率定,在水文界应用广泛。而情景II 则可以被视为无雨量站实测资料流域的替代方案,主要适用于只有来自遥感观测平台的降水数据。与基于雨量站参数的模拟表现相比,模型重新率定显著改善了两种卫星降水数据集的NSE值,但Re值和r值却有所下降;而对于融合降水数据集和站点降水来说,NSE值和Re值改善较为明显,r值的变化并不明显。经分析认为,可能是以NSE为目标函数进行参数率定时,参数的调整是朝着NSE的最优值方向靠近的。Xue 等[25]指出不同的参数设置(即情景II 中根据不同输入的降水数据集重新率定水文模型参数)可以补偿降水数据集驱动中的误差,从而改善径流的模型预测。利用偏差较大的卫星降水产品进行径流模拟时,根据相应的卫星数据重新率定参数,可以提高径流模拟性能,是提高近实时卫星降水产品在径流模拟中适用性的关键步骤。这种参数补偿效应被广泛认可,并应用于水文研究中[12,26,27]。
(1)基于“时间升尺度—空间降尺度—时间降尺度”三步综合降尺度方案,为卫星日降水数据的空间降尺度提供了有效途径。该方案所获得的降尺度日降水估计不仅保留了卫星数据的原始空间格局,而且显著地改善了其空间细节,使得卫星降水数据分布更加连续,改善了不连续降水背景场所导致的边界偏差问题。基于随机森林模型的降尺度算法不仅显著提高了GPM降水的空间分辨率,而且保持了较好的精度。
(2)考虑到地面观测降雨与卫星反演降水具有空间相关性,将协同克里金法引入融合地面雨量站—卫星遥感反演降水估计中,提出了一种降水数据线性融合模型。精度评估结果证明,当卫星降雨数据与雨量站观测数据融合后精度得到了显著提高, 相较于Down_GPM,MR_CK 对日降水估计的精度有了明显的提升,在栅格尺度上,r和KGE均大于0.7。
(3)利用原始GPM 降水产品(Ori_GPM)、降尺度GPM 降水产品(Down_GPM)、降尺度—融合降水产品(MR_CK)和站点实测降水驱动分布式水文模型WASMOD-D 来模拟降雨—径流过程,在两种不同的径流模拟情景下评价了三种降水产品和站点降水对日径流模拟的精度。综合两种不同情景下的日径流模拟效果来看,由于结合了卫星降水数据和站点降水数据的优势,MR_CK的整体模拟效果最好。
(1)针对不同区域不同的降水分布规律以及对于不同的融合算法,融合降水结果达到最优时的最佳雨量站密度是不一样的,这个问题在今后值得进一步研究。
(2)高时间分辨率(如小时尺度)的降水数据对于短期水文预报等研究是十分重要的。对于高时间分辨率的卫星降水数据的降尺度和数据融合值得进一步研究。