1961-2015 年中巴经济走廊逐日气象数据集

2021-07-09 09:06陈金雨陶辉刘金平
关键词:最低气温样条插值

陈金雨,陶辉,刘金平

1. 中国科学院新疆生态与地理研究所荒漠与绿洲生态国家重点实验室,乌鲁木齐830011

2. 中国科学院大学,北京 100049

3. 华北水利水电大学测绘与地理信息学院,郑州 450046

引 言

高时空分辨率的气象数据对气候变化研究至关重要[1]。在发展中国家,由于基础设施的建设和维护成本高,地面气象观测站稀少,难以获得能够满足研究需求的高空间分辨率气象数据集[2]。中巴经济走廊(China-Pakistan Economic Corridor,CPEC)地处南亚次大陆西北部,介于24°N-40°N 和60°E-80°E,气候类型多样;北起中国喀什地区,南至巴基斯坦的瓜达尔港,是“一带一路”的重要组成部分[3]。高时空分辨率气象数据对中巴经济走廊地区气候变化研究和气象灾害风险评估具有重要意义。

国际上已相继建立了多气象要素和多时空分辨率的全球格点数据集,如CHIRPS[4]、MSWEP[5]、PGFMD[6]、CPC[7]。但大多数据集空间尺度较大、时间序列不一,在研究中小区域尺度气候变化时存在偏差[8-9]。尤其在地形复杂的地区,表达区域气候特征能力有限[10]。因此,为了得到适合中小区域尺度长时间序列、高精度的格点化气象数据,通常会使用空间插值技术[11]。由澳大利亚国立大学开发的气象数据空间插值软件ANUSPLIN 可以有效地模拟地形对降水的影响,其基于薄盘光滑样条插值技术在许多研究中得到了应用,并被证明是可靠的空间插值方法[12-15]。ANUSPLIN 已为许多气象数据集的构建做出了贡献,且在世界各地得到了广泛的应用[16-18]。然而,中巴经济走廊地区目前还没有一套完整的高时空分辨率的气象数据集,这使得在该地区开展气候变化相关研究具有一定困难。

本数据集以中巴经济走廊及其周边地区日降水、日最高气温和日最低气温站点数据为基础,结合研究区DEM 数据,利用ANUSPLIN 软件进行数据处理,经过数据重采样和空间插值,生成中巴经济走廊地区0.25°×0.25°空间分辨率气象数据集,并利用广义交叉验证和统计学方法对数据集进行质量评估,得到结果可为中巴经济走廊地区气候变化研究提供参考。

1 数据采集和处理方法

站点观测数据主要来源于巴基斯坦气象局、中国气象局和美国国家环境预报中心的逐日降水、最高和最低气温站点数据。其中巴基斯坦地区有74 个站点,中国段有8 个站点。剔除缺测率超过50%的17 个站点,使用剩下的65 个气象站点进行数据制作。DEM 数据来自美国航空航天局的SRTM GRID 数据处得到的成品数据,使用ArcMap 软件将DEM 数据进行重采样为0.25°×0.25°,并转换成ANUSPLIN 软件能够识别的ASCII 格式数据。

1.1 ANUSPLIN 原理

薄盘样条函数插值方法最早是Wahba 于1979 年提出,Hutchinson 等于1984 年对其改进能够适用于更大的数据集,Bates 等于1987 年将其进一步拓展为局部薄盘光滑样条法[19-20]。为了方便薄盘样条函数法的使用,Hutchinson 等基于普通薄盘和局部薄盘样条函数的插值理论,开发了专业气候数据空间插值软件ANUSPLIN,它除了可引入自变量外,还允许引入协变量(海拔、海岸线等)[21]。ANUSPLIN 软件的核心是局部薄盘光滑样条算法,其理论统计模型公式为:

其中,Zi为位于空间点i的因变量;f(xi)为关于xi的未知光滑函数;xi为独立变量;bT为yi的p维系数;yi为p维独立协变量;ei为随机误差;N为观测值数量。当式(1)缺少第一项f(xi)时,该统计模型简化为简单多元线性回归模型,但是在ANUSPLIN 软件的实际使用中不允许出现这种情况;当式(1)缺少第二项bTyi时,即不存在协变量(p=0),该统计模型就简化为普通的薄盘光滑样条模型。式(1)中,函数f和系数bT通过最小二乘估计来确定:

其中,Jm(f)是函数f(xi)的粗糙度测度函数,为函数f的m阶偏导(也称为样条次数);ρ为正的光滑参数,主要用来平衡插值数据的保真度以及拟合曲面的粗糙度。当ρ →0时,函数f为精确内插式;当ρ →+∞时,函数f为最小二乘多项式。在ANUSPLIN 软件中通常以广义交叉验证GCV 和最大似然法GML 的最小化来确定。GCV 的计算原理主要为逐个移除数据点,在同样的ρ下利用其他数据点来估算该点的残差,并且在ANUSPLIN 软件中的log 日志文件中有记录。

ANUSPLIN 软件的log 日志文件中提供了一系列用于判别误差来源和插值质量的参数:观测数据统计量(均值、方差、标准差等)、广义交叉验证(GCV)、最大似然法误差(GML)、拟合曲面参数的信号自由度(Signal)和剩余自由度(Error)、均方残差(MSR)、光滑参数(RHO)、期望真实均方误差(MSE)等。log 日志文件中的统计结果还给出了均方根残差(RMSR,Root mean square residual)的数据点序列,可以用来控制数据质量,检验并消除原始数据在位置和数值上的错误。

对于log 日志文件中数据拟合表面的结果,RHO 过小和Signal 大于观测站点的一半或RHO 过大都表明在拟合过程中找不到最优的光滑参数,说明数据点过于稀疏、存在短相关或拟合函数过于复杂,所选模型不适合用于插值,这些情况在ANUSPLIN 软件的log 日志文件中以符号(*)标出。ANUSPLIN 软件插值过程中最佳模型的选择标准:log 日志文件中GCV 或GML 最小,模型残差比(MRR)或信噪比(SNR)最小,Signal 小于站点的一半,文件中无*号指示[22]。

1.2 数据处理流程

数据处理流程主要包括4 个部分(图1):原始数据输入、数据处理、数据输出(符合要求的数据格式)和空间插值(编写批处理代码)。输入数据主要包括1961-2015 年中巴经济走廊地区气象要素(日降水、日最高气温和日最低气温)站点数据、气象台站信息资料和DEM 数据。数据处理部分分别把气象要素站点数据和DEM 数据处理成ANUSPLIN 软件需要的数据格式。其中,将气象要素站点数据样本量小于50%的站点作为无效站点进行剔除,用反距离加权法(IDW)对剩下站点的缺测值进行插补,以保证插值过程和结果的可信度,然后输出为ANUSPLIN 软件需要的数据格式;另外,将中巴经济走廊地区DEM 数据进行重采样,根据插值目标把空间分辨率重采样为0.25°×0.25°,然后以ASCII 码数据格式类型输出。空间插值部分主要在ANUSPLIN 软件中完成,通过编写批处理脚本文件,进行空间插值。

为保证每个拟合表面的插值精度和模型的稳定性,并使之在连续的时间序列上具有可比性,在对3 个气象要素(降水、日最高和最低气温)连续55 年逐日站点数据进行曲面插值过程中,首先选取1979 年进行实验(该年为平水年)。实验模型为薄盘样条和局部薄盘样条函数的6 个spline 模型(独立变量、协变量和样条次数多种组合,表1)。根据最佳模型的选择标准,初步选出每个气象要素的最优待用模型,再用这些待用模型对不同气象要素进行连续55 年插值。对于个别模型不符的月份,利用残差分析,剔除个别残差较大的站点以使模型能够使用。

图1 数据处理流程图

表1 6 个spline 模型详细列表

对于降水数据、日最高/低气温数据,用初定的6 个模型对1979 年的数据进行实验,结果显示选择以高程作为协变量的三变量局部薄盘光滑样条函数、样条次数为2 的LLD2 模型能保证大部分插值结果最为精确。

2 数据样本描述

1961-2015 年中巴经济走廊逐日气象数据集共包含1961-2015 年60 264 个数据文件,命名方式为CPEC_XXX_YYYYMMDD。其中CPEC 为中巴经济走廊;XXX 为气象要素,包括日降水量PRE、日最高气温TMAX 和日最低气温TMIN;YYYY 为数据年份;MM 为月份;DD 表示天。图2 为中巴经济走廊地区1979 年8 月23 日降水数据,图3 为中巴经济走廊地区1979 年8 月23 日最高(a)和最低(b)气温数据。

图2 中巴经济走廊地区1979 年8 月23 日降水

图3 中巴经济走廊地区1979 年8 月23 日最高和最低气温

3 数据质量控制和评估

为了验证本数据集的精度和可靠性,采用了研究区内3 个未进行插值的台站的气象要素作为验证数据(表2)。本数据的质量控制并未涉及观测站点的搬迁、观测仪器变更和观测规范变更等信息。

表2 验证站点

同时,本研究制作的格点化气象数据集(以下简称CPEC-P、CPEC-T)与国际上较为常用的逐日降水数据集(表3)与逐日最高、最低气温数据集(表4)进行了对比。

表3 常用逐日降水数据集

表4 常用逐日最高、最低气温数据集

对于降水数据(CPEC-P),从不同数据集评估结果(表5)和月降水数据验证散点图(图4)中可以看出,本研究制作的CPEC-P 能够较好反映出真实的降水水平,其中在德拉·伊斯梅尔·汗站点评估结果最好,回归系数为0.87,R²=0.73,均方根误差RMSE=18.76 mm。对于德拉·伊斯梅尔·汗和曼迪·巴奥丁两个气象站,CPEC-P 与PGFMD 评估结果相一致,但分别低估了100 mm(德拉·伊斯梅尔·汗)与200 mm(曼迪·巴奥丁)以上的降水,而CHIRPS 与MSWEP 两个数据集均整体低估了降水。对于吉德拉尔站点,CPEC-P 整体高估了该站点的降水,但其他数据集同样不能够很好反映出该站点的真实降水,这可能与该站点高程(1500 m)有关,高程较高的站点插值出来的结果误差较大。

表5 不同降水数据集评估结果比较

图4 月降水数据验证散点图

对于最高、最低气温数据(CPEC-T),从不同日最高、最低气温数据集评估结果(表6)和月平均最高、最低气温验证散点图(图5)中可以看出,本研究制作的CPEC-T 比其他数据集能够更好反映出站点的真实气温。对于德拉·伊斯梅尔·汗和曼迪·巴奥丁两个气象站,3 个数据集都能很好反映出站点的真实气温,CPEC 数据R²均在0.98 以上且RMSE 均在1℃以内。对于吉德拉尔站点,3 个数据集都低估了该站点的气温,但3 个数据集评估结果表现为与观测数据拟合程度较好,R²均在0.9以上,这可能因为站点的高程影响了插值的效果,造成数据结果的低估。

表6 不同日最高、最低气温数据集评估结果比较

图5 月平均最高(a-c)、最低气温(d-f)验证散点图

4 数据使用方法和建议

本数据集为tif 文件格式,解压后可使用Matlab 或ArcMap 软件打开、显示、查看、统计分析等。因为数据量较大,建议使用Matlab 软件进行批处理,提取数据经纬度代码已上传至网站。

致 谢

感谢巴基斯坦气象局(PMD)、国家气候中心、美国国家环境预报中心(GSOD)提供站点观测数据。

数据作者分工职责

陈金雨(1998—),男,河南省信阳市人,硕士研究生,研究方向为气象水文灾害风险评估。主要承担工作:论文撰写,数据质量控制和评估。

陶辉(1981—),男,新疆昌吉市人,研究生学历,副研究员,研究方向为气候变化与风险评估。主要承担工作:数据制作、评估整体思路的设计。

刘金平(1990—),男,河南省商丘市人,研究生学历,讲师,研究方向为全球变化水文循环。主要承担工作:数据整理、插值。

猜你喜欢
最低气温样条插值
滑动式Lagrange与Chebyshev插值方法对BDS精密星历内插及其精度分析
日光温室内最高气温和最低气温预报模式的建立
B样条曲线在汽车CAD软件中的应用研究
基于pade逼近的重心有理混合插值新方法
混合重叠网格插值方法的改进及应用
三次样条和二次删除相辅助的WASD神经网络与日本人口预测
浙江泥质海岸带巨桉引种试验研究
)的局部支集样条函数的构造方法
数学选择题练习
基于混合并行的Kriging插值算法研究