林莹晶 李双锦
(福建省气象信息中心,福建 福州 350001)
随着气象观测技术的快速发展,观测手段日益完善,包括了地面自动气象站、雷达、卫星等,获取到的观测数据不断丰富,由此反演得到的数值模式模拟数据的质量也在不断提高。防汛、民航等部门和单位对气象数据产品的要求持续加强,特别是空间精度更高、时间连续性更强的气象产品。目前,许多研究通过数据融合和同化技术,结合不同来源的气象观测数据和多模式的模拟数据,得到高精度、时空连续的多源数据融合气象网格产品。
目前,在国际上有许多认可度较高的融合气象网格产品,包括由欧洲中期天气预报中心研发的再分析数据集ERA-Interim。ERA-Interim涵盖1979年至2019年8月31日期间的大气和地面参数。第二版研究和应用的现代再分析数据集MERRA-2是由美国国家航空航天局(NASA)全球模拟和同化办公室推出的高分辨率全球再分析资料,覆盖时间由1980年至今。中国气象局国家信息中心在学习国际先进融合技术的基础上,创建了中国气象局陆面数据同化系统(CMA Land Data Assimilation System,CLDAS)[1-2]。
近些年,许多学者开展了CLDAS 2.0产品的验证和应用研究。刘莹等评估了CLDAS气温数据在中国区域的可信性和适用性,认为CLDAS气温较好地反映了中国气温的年际变化[3]。孙帅等使用地面观测降水数据对 1998—2015 年CLDAS长序列融合水数据集进行了评估,认为CLDAS 长序列融合降水数据效果优于CMORPH卫星反演产品、MERRA2再分析降水产品以及CMPA_Hourly降水产品,能够满足中国区域的陆面水文模拟、气候研究等相关领域的需要[4]。刘晨等利用CLDAS V2.0降水产品等对2017年6月20日发生在兰州的冰雹过程进行分析,阐述了导致冰雹过程的物理机制[5]。
多源数据融合格点产品能弥补艰苦环境地区台站分布稀疏的缺憾,完善全球陆面气象资料。但在实际应用中还存在一些亟待解决的问题,如空间尺度上粗细网格变化、时间分辨率的高低等,以及在不同地形地势、不同气候状况、不同天气系统条件下如何切实改进多源融合格点分析产品。如何评价融合网格数据的“真实性”,通过评价为融合、同化技术找到存在的不足,提出有价值的建议。
福建省境内峰峦叠嶂、山岭耸峙,河谷与盆地错落相间,属多山地区。全省海拔80m以上的丘陵和山地占全省土地面积的89.3%,且地形坡度较大,平原主要分布在沿海地区,地势总体为西北高,东南低。目前CLDAS资料在福建省的适用性研究几乎空白,亟待开展较为细致的评价工作。本文聚焦CLDAS在福建省的适用性,选取2m气温作为研究参数,讨论在福建复杂地形背景下我国研发的多源融合格点实况数据是否有较好的代表性。
为验证多源融合网格实况数据的气温质量,本文使用福建省2021年8月的5km×5km实况格点产品中的2m气温要素和70个国家级地面气象站的实测数据。70个国家级地面气象站包括国家气象观测站、国家基本气象站、国家基准气候站,每个台站设有双套设备,降低数据的缺测率,也为主站数据提供一致性参考,及时发现仪器异常。观测要素包括气温、相对湿度、气压、能见度、天气现象、草面温度、浅层地温、深层地温、日照、降水量、风向、风速和地面温度。本文使用国家级地面气象站2021年8月2m气温资料,时间分辨率为1h。使用的格点实况数据为CLDAS 2.0版的气温产品,空间分辨率为5km,时间分辨率为1h。CLDAS陆面数据同化产品利用多重网变分、空间格点拼接、离散纵坐标短波辐散遥感反演以及CLM、Noah-MP、CoLM多陆面模式集合模拟等技术研发而成[1]。CLDAS陆面数据同化产品被证实在中国区域的时空分布特征更加准确,适用性更强[6-10]。
选用邻近插值和双线性插值两种方法将气温实况融合格点产品插值到70个国家级考核站,邻近插值法是将与气象站最邻近的网格点的数据作为格点资料在台站的要素值;双线性插值就是将包围气象站的4个格点进行x方向一元线性插值后,再进行y方向一元线性插值,对于刚好在x(y)网格线上的台站,则将y(x)方向上上下(左右)2个格点的值进行一元线性插值,得到台站的格点产品值。
通过绝对误差、平均绝对误差、均方根误差及相关系数对该产品进行评估。
绝对误差(AE):
AE=|G-O|
平均绝对误差(MAE):
均方根误差(RMSE):
相关系数(COR):
其中,O为站点观测值,G为实况格点产品插值到检验站点得到的数值,N为参与检验的总样本数。绝对误差AE反映了测量值偏离真值的大小;平均绝对误差MAE是所有单个绝对误差的平均值,避免误差相互抵消,可以准确反映实际预测误差的大小;均方根误差RMSE是观测值与真值偏差的平方和与观测次数N比值的平方根,用来衡量观测值同真值之间的偏差,在算数中对误差进行平方算数,因此受到异常值的影响较大;相关系数COR是按积差方法计算,同样以两变量与各自平均值的离差为基础,通过两个离差相乘来反映两变量之间相关程度,相关系数的绝对值越接近1,则相关性越强,当相关系数绝对值大于0.8时,称为高度相关。
通过邻近插值和双线性插值两种方法对实况格点产品2m气温和国家气象站的实测数据进行比较,图1展示了两种插值方法得到的平均绝对误差、均方根误差及相关系数的日变化,点段线为国家站平均2m气温日变化(本文时间均为北京时)。福建省在2021年8月的日出时间约为5时30分,日落时间约为18时30分。
MAE在0~6h和17~23h都表现为邻近插值法误差明显小于双线性插值法,在7~16h两者差距较小(图1a)。双线性插值的MAE日变化为0.54~0.86,而邻近插值法的结果为0.52~0.79,分别在7时和6时达到最低值,在19时和14时达到最高值。MAE的日变化与温度有着密不可分的联系,在日出前,气温降为最低时,MAE也为日最小值,但随着日出气温增大,MAE急剧增大。日温度最大时(14时)和日落后(19时)气温快速下降时MAE达到最大。综上,气温增大或者气温快速变化时,融合网格产品难以精准把握气温的实时变化,造成MAE数值增大,且邻近插值法受该因素的影响较小。
双线性插值和邻近插值的RMSE日变化与MAE相似,邻近插值法的均方根误差在0~23h都小于双线性插值结果,尤其在0~6h和17~23h,邻近插值法得到的结果明显优于双线性插值(图1b)。在日出前降为最小值,在午后或日落后升至最高值(或次峰值)。双线性插值的RMSE日变化为0.75~1.15,邻近插值法的结果为0.71~1.04,邻近插值法的RMSE更小,插值的离散程度更小。
两种方法都能得到较好的相关性,8月期间邻近插值法的结果全天都优于双线性插值结果,邻近插值法的相关系数全天都在0.9以上(图1c)。双线性插值的相关系数为0.88~0.94,邻近插值法的相关系数为0.90~0.95,且都在21时降为最小值,在16时增加至最大值。8时和17时可观察到两个谷值,即在日出后和日落前,再次说明网格实况产品难以准确捕捉到气温的快速变化,造成了气象站观测值与实况格点产品相关性较差。
图1 2021年8月实况格点产品和气象站观测数值之间的平均绝对误差(a)、均方根误差(b)和相关系数(c)的日变化
综上,对于2m气温的实况格点产品,邻近插值法比双线性插值法更接近台站真实状况。实况网格产品与气象站之间的误差及相关性存在明显日变化,在气温较高或者日落气温快速变化时的MSE和RMSE较大,而在日出或日落时,实况网格产品与气象站实测值之间的相关性由于气温的快速变化而下降。如何提高日出和日落时实况网格产品气温要素的真实性是今后需要关注的难点问题。
邻近插值法的2m气温更接近气象站观测值,本节使用邻近插值法的结果分别讨论8月份福建省内国家气象站气温要素与气象站观测值之间的绝对误差(AE)受纬度、经度和台站海拔高度的影响。福建的地理跨度较小,大部分观测结果集中在24.5°N~27.5°N和117°E~119.5°E。纬度较低(24.5°N以南)站点的气温绝对误差值较小,一般在2℃以内,剩余站点的绝对误差分布较为离散,存在绝对误差较大情况(图2a)。绝对误差与经度的概率密度分布难以得到明显的规律,即受到东西向地理条件的影响较小(图2b)。福建省的台站集中分布在海拔高度300m以下,这些站点的气温绝对误差也有较大差异,分布较为离散,但是概率密度大值分布在1℃内。300m以上的高山站绝对误差分布存在较大差异,既有集中分布在2℃以内的站点,也存在离散分布在0~4℃内的站点(图2c)。综上,海拔高度较低的站点更有可能存在较低的气温绝对误差,网格数据更容易接近实测状况,但是海拔高度的增加不是产生较大绝对误差的充分条件,还存在其他影响因素。
为了进一步探寻造成实况格点产品与气象站实测数据之间误差较大的影响因素,选取研究结果中MAE最大的10个台站,通过站点环境基本信息,讨论造成插值结果误差较大的可能原因。将站点资料整理成表1,其中MAE最大的站点为九仙山站,该站位于海拔高度1653.9m的山顶,地形复杂,周围地势起伏度较大,削弱了站点的区域代表性,在这类高山站点使用实况网格产品时需引起注意[3]。在MAE最大的10个站点中,有9个台站位于山顶,且其中5个存在建筑物或树木等障碍物遮挡。福建境内峰岭耸立,丘陵连绵,山地、丘陵占全省总面积的80%以上,在复杂地形的影响下,气象站的代表性大大减小。除山地丘陵地形影响外,建筑物或者树木等障碍物遮挡也是使得站点区域代表性下降的重要原因,站点在选址和维护中应当避免和及时清除这种影响,一方面能增加台站的区域代表性,另一方面能使得融合数据与实测数据之间的差异减小。
图2 2021年8月实况格点产品的邻近插值和气象站观测数值之间,受纬度(a)、经度(b)和海拔高度(c)影响的绝对误差
表1 邻近插值结果中MAE最大10个台站的环境基本信息
以十地市为单位,计算各个城市在研究期间的绝对误差,并开展绝对误差的分布离散性讨论,对比各地市格点实况产品气温的适用性差异。所有地市都表现出上四分位数和下四分位数组成的箱盒偏下,说明各地市的绝对误差更偏向低值,格点气温在各地市都表现较好。绝对误差上四分位数大于1℃的台站有三明、南平、龙岩,且中位数也较大,这三个城市的绝对误差相对偏大。同时,这三个市的上下边缘间隔较远,即市内的最大绝对误差与最小绝对误差的差距较大,离散性强。福建省地势总体上西北高、东南低,在西部形成由武夷山脉、杉岭山脉等组成的闽西大山带,较高的地势和复杂的丘陵下垫面是造成三明、南平、龙岩绝对误差相对较大、数值分布较为离散的原因。此外,这三个城市属福建省内陆城市,而其余七个属沿海城市。由于海洋比热容较大,能调节气温变化,使得日出或日落时的气温变化减缓,使得沿海城市的绝对误差总体较小,绝对误差数值较为集中,离散度小。
受到地形和下垫面的影响,三明、南平、龙岩的平均气温相对较低,为讨论气温对于网格模拟结果的真实性影响,对匹配结果的绝对误差和实测气温的相关性开展研究。
图3 2021年8月实况格点产品与观测值之间的
气温和绝对误差密集分布在24~29℃和0~1℃。当气温较低时(小于20℃),绝对误差在0~4.5℃之间离散分布。当气温增长到22℃及以上时,绝对误差集中分布在1℃以内。这可能来源于高山或者地表反照率高的站点,这些站点在日出前气温达到日最低气温,在日出后气温快速变化,实测温度和模拟结果之间容易存在较大的差距。
图4 2021年8月实况格点产品的气温绝对误差与
本文针对2021年8月的福建区域内5km×5km的实况网格产品2m气温数据和70个国家站的小时气温数据开展误差分析,得到以下结果:
①对于2m气温要素,邻近插值法比双线性插值法更接近台站真实状况。实况网格产品与气象站之间的误差及相关性存在明显日变化,在气温较高或者日落气温快速变化时的MSE和RMSE较大。
②纬度较低(24.5°N以南)站点的气温绝对误差值较小,海拔高度较高站点的绝对误差较大,这与站点周围地形紧密相关。
③除山地丘陵地形影响外,障碍物遮挡也是造成格点资料误差较大的重要原因。
④受到纬度和下垫面的影响,三明、南平、龙岩的平均气温相对较低,绝对误差相对较大,数值分布较为离散。
⑤高山或者地表反照率高的站点在日出后气温快速变化,实测温度和模拟结果之间容易存在较大的差距。
未来在改善实况网格产品的研究中,丘陵等复杂地形的误差分析系统及偏差订正技术是研究重点。另外,如何提高日出后、日落前实况网格产品气温要素的真实性也是今后需要关注的问题。站点在选址和维护中应当避免和及时发现对气象数据有影响的障碍物,以增加台站的区域代表性,使得融合数据与实测数据之间的差异减小。