周海,秦昊,吉璐莹,肖莹
准确的天气预报对人民群众生活、防灾减灾至关重要。随着计算水平的不断提高,数值模式系统已成为天气预报的主要支撑。但是大气运动自身的混沌特性、不完美的数值模式会影响预报技巧等诸多不确定性因素,使得单一的确定性预报不能提供全部预报信息(Smagorinsky,1969)。因此,建立集合预报系统(Ensemble Prediction Systems,EPS),将天气预报从单一确定性预报向多值的概率预报进行转变,已成为目前天气预报的发展趋势(陈静等,2002)。
集合预报利用不同的初始条件对大气数值模式分别积分得到一组不同的预报结果(Leith,1974),既能提供预报效果更好的确定性预报,也能更加准确地描述未来天气状况的多种可能性。但是由于集合预报在模式设计、初值扰动、集合大小等方面的不完美,同一模式的不同集合成员仍然具有某些相同的缺陷,例如目前多数集合预报系统普遍存在离散度偏小的问题(Buizza,1997;陈超辉等,2020)。对集合预报结果进行统计后处理,例如对单个数值模式进行偏差订正总体上可以校正预报偏差以及量化预报不确定性,是目前进一步提高数值预报水平的有效手段(Vannitsem et al.,2021)。在天气预报的现状下,不仅需要逐步完善模式的数据同化、物理、分辨率、地表参数化等方面,还要逐步完善统计后处理方法。
此外,各个模式在动力框架、物理过程、分辨率、地形表征、初始化方案等多个方面存在差异,模式彼此之间的预报能力也都具有时间、空间上的差异(Bougeault et al.,2010)。为校正集合系统预报偏差以及充分利用不同模式预报结果以提高预报技巧,近年来多模式集成技术得到迅速发展。早在20世纪60—70年代,Danard et al.(1968)和Thompson(1977)就发现,通过将两个相互独立的预测结果进行特定的线性组合,其预测均方根误差可以小于单个预测的均方根误差。如今,多模式集成预报已经在研究中取得了巨大的成功,通过组合多个模式的有效预报信息,多模式集成提升了预报可靠性,预报技巧优于单模式(Hagedorn et al.,2005;Zhi et al.,2012)。
常用的多模式集成方案可以分为等权以及不等权两类。等权多模式集成技术有简单集合平均(Ensemble Mean,EM)、消除偏差集合平均(Bias Removed Ensemble Mean,BREM),不等权多模式集成主要有超级集合(Superensemble,SUP)、贝叶斯模式平均(Bayesian Model Averaging,BMA)、集合模式输出统计(Ensemble Model Output Statistics,EMOS)等,详见表1。根据预报形式,这些多模式集成方案又可分为确定性预报和概率预报,本文将从这两方面来介绍多模式集成方案在温度、降水和风3个最基本的地面气象要素中的应用。
表1 地面气象要素多模式集成预报技术
集合平均是最简单的多模式集成技术,即对多个模式预报结果进行算数平均:
(1)
其中:AEM表示多模式集合预报平均值;Fi为第i(i=1,2,…,Nm)个模式预报值,Nm为模式总个数。
该方法计算简单,预报结果通常优于单一确定性预报(Fritsch et al.,2000),但其缺点是赋予预报技巧较差的模式与预报技巧最高的模式具有相同的权重。
随后,消除偏差集合平均在简单集合平均的基础上通过消除预报偏差进一步提高了预报质量:
(2)
张玲和智协飞(2013)采用消除偏差集合平均方法预报2008年中国南方低温天气事件,通过降低预报均方根误差以提高数值模式预报技巧。卞赟等(2015)将消除偏差集合平均应用于延伸期降水预报,研究表明该方法预报效果优于简单集合平均且可以将晴雨量级的降水预报时效提高至少5 d。Zhu et al.(2010)研究表明消除偏差集合平均可以有效地提高黄海渤海地区风速和大风区位置的预报。
然而,训练期内的模式偏差并不一定与预报期内的模式偏差保持一致,于是存在消除偏差集合平均预报技巧不如简单集合平均的情况。为此,Zhang et al.(2015)提出对训练期内样本误差进行质量控制以剔除误差异常值,从而更好地估计模式偏差以提高消除偏差集合平均的预报能力。另外,消除偏差集合平均存在与简单集合平均类似的缺点,即该方法假设预报性能最差的模式在消除偏差后等同于最优模式,因此依然存在预报局限性。
相比于等权多模式集成,不等权集成方案充分考虑了各个模式预报能力存在的差异。分配给多个模式的不同权重反映了该模式在训练期的相对表现能力,预报技巧越高的模式将被分配越大的权重,从而对预报期的贡献越大。因此,不等权集成方案中权重的合理分配对集成预报结果具有重要影响。通常,不等权多模式集成方案的权重系数需要通过在训练期内最小化某一检验指标来计算得到,如均方根误差(Krishnamurti et al.,1999),连续等级概率评分(Baran and Nemoda,2016)。
1.2.1 “点对点”误差分析权重的多模式集成方案
多模式超级集合的概念最早是由Krishnamurti et al.(1999)提出,该方法通过在训练期中根据多个模式的预报性能,基于多元回归最小二乘法来确定各个模式的权重,然后将权重应用于预报期。
(3)
(4)
超级集合理论已被广泛运用于许多气象、水文等方面的天气预报与气候预测中(Taylor et al.,2012;智协飞等,2015a)。传统的超级集合预报将在训练期得到的权重系数用于整个预报期的预报,但随着预报时效的延长,各模式的权重会逐渐失效,于是超级集合预报技巧逐渐降低,甚至不如简单集合平均。为此,智协飞等(2009)尝试将训练期设为滑动窗口而不是传统的固定某一时段,研究发现滑动训练期的长度会影响超级集合预报结果,且基于滑动训练期构建的地面气温超级集合模型的预报技巧更高。如何定义最优滑动训练期长度,Zhi and Ji(2018)提出随着滑动窗口的增大,多个评估指标逐渐减小或增大随后趋于稳定,则该时间窗口可作为最优滑动训练期。
由于超级集合在训练期内消除了模式预报与观测之间的偏差并且在预报期加入了训练期内的观测平均值,因此其有一个重要的特点,即相对于所有参与集成的模式预报值,超级集合结果可以是一个更加贴近观测的“异常值”。如Krishnamurti and Sanjay(2003)对台风降水进行超级集合,在所有单模式都预报偏弱的情况下,超级集合通过去除单模式的预报偏差以校正降雨量从而预报优于最优单模式。Jayakumar et al.(2013)研究表明超级集合还可以应用于预报季风期中的干旱期,超级集合预报的干旱爆发日期和持续时间都优于最优单模式。智协飞等(2015b)提出将多模式超级集合应用于ENSO预测的目标观测敏感区,其他区域则采用消除偏差集合平均,结果表明该方案表现出较高预报技巧的同时明显减小了计算成本。对于降水气候预测,Yun et al.,(2003)、Chakraborty and Krishnamurti(2009)提出利用奇异值分解、主成分分析等方法进行超级集合,预报技巧略高于传统超级集合。此外,将超级集合与降尺度相结合,不仅能减小预报误差还进一步提高了降水的距平相关系数,并且对降水极大值具有一定的预报能力(Krishnamurti et al.,2009;王海霞和智协飞,2015)。陈超辉等(2010)利用多个有限区域模式,采用多种回归方法进行短期超级集合预报,结果表明基于支持向量机回归建立的多模式集成模型对风速大小和分布均具有优于多元线性回归模型的预报能力。
随着资料同化技术的发展,卡尔曼滤波(Kalman Filter,KF)方法得到广泛运用。由于该方法具有较强的线性拟合能力,近年来已被逐步应用到模式后处理中。Shin(2003)首次采用卡尔曼滤波方法进行多模式集成预报。Lenartz et al.(2010)对海温进行了卡尔曼滤波多模式集成预报。Coelho et al.(2015)则将卡尔曼滤波方法应用于洋流速度和路径的多模式集成预报。研究均表明,卡尔曼滤波多模式集成提高了预报技巧且预报结果更加稳定可靠,主要原因在于该方法可以将合理可靠的权重赋予给参与集成的多个模式,且各模式权重随时间而变化。
智协飞和黄闻(2019)利用卡尔曼滤波、消除偏差集合平均、简单集合平均等多种方法对中国地面气象要素进行多模式集成预报,表明卡尔曼滤波整体对气温、降水和风的改善效果最好且最稳定。智协飞和赵忱(2020)研究表明基于卡尔曼滤波的超级集合对降水预报技巧高于基于线性回归的超级集合和消除偏差集合平均。Zhu et al.(2021)通过基于卡尔曼滤波的超级集合模型显著提高了次季节尺度气温、降水的预报技巧。吴柏莹(2021)在前人的基础上提出了复卡尔曼滤波(Augmented Complex Extended Kalman Filter,ACEKF),该方法将水平风场分解为纬向风(实部)和经向风(虚部),表明基于复卡尔曼滤波方法的多模式集成预报能够明显提高风速和风向的预报技巧和稳定性,优于消除偏差集合平均、基于线性回归的超级集合以及单模式。
整体而言,超级集合的预报技巧要优于消除偏差集合平均、简单集合平均以及单模式,其高预报技巧来自逐点均方根误差的区域平均最小化。此外,滑动训练期的应用以及卡尔曼滤波等新的权重计算方法代替传统的多元回归最小二乘法进一步提高了超级集合的预报能力。
1.2.2 基于降水对象的多模式集成
现有的多模式集成方案主要是在训练期阶段基于“点对点”检验指标,如均方根误差来计算各个成员模式的权重。但是随着精细化预报的发展以及对于降水、风这种具有较大时空不确定性的变量,逐点的检验评估存在“双重惩罚”。这意味着即使完美地预报出雨区的面积和形状,但雨区空间位置差异导致的漏报率和空报率也可能导致较差的“点对点”得分。为了弥补逐点评估存在的不足,基于对象的诊断评估方法(Method for Objected-based Diagnostic Evaluation,MODE)被提出,该技术基于用户自主设定的卷积半径和降水阈值来识别降水对象,从降水落区位置、雨团形状、面积等多个对象属性来检验降水预报(Davis et al.,2006)。
Ji et al.(2020)借助MODE空间评估方法,提出了基于降水对象(连续雨区)的多模式集成方案。相比于传统的“点对点”超级集合和最优单模式,基于降水对象的多模式集成方案可以显著提高雨区的落区位置预报。该方案首先分别识别观测场和预报场中的降水对象,计算每个降水对象的属性(面积、长宽比、轴角以及质心位置),然后对比观测场和预报场中降水对象之间的质心距离以进行对象匹配,并通过模糊逻辑算法来计算匹配对象之间的相似度,从而确定预报准确率。预报准确率可以通过最大相似中值(Median of Maximum Interest,MMI)和/或基于对象的TS评分(fuzzy Object-based Threat Score,OTS)来量化。最后基于训练期内MMI和/或OTS评分来计算各个模式的权重进行多模式集成。以MMI评分为例,公式如下:
(5)
(6)
基于降水对象的多模式集成方案的提出,在一定程度上弥补了传统方案对空间不确定性较大的气象要素的预报不足。随着数值模式分辨率的提高以及空间检验方法的广泛应用,以空间检验因子为权重指标的多模式集成方案会受到越来越广泛的关注与研究。
由于大气的非线性混沌特性,即使包含多模式信息的多模式集成确定性预报系统也无法提供所有的不确定性信息。因此,由单一确定性预报的“非无即有”向“亦有亦无”的多值的概率预报进行转变已成为目前天气预报的发展趋势(智协飞等,2014)。
Johnson and Wang(2012)基于集合成员提出了对雨区进行概率预报,并且与逻辑回归校正相结合,优于基于累积分布函数(Cumulative Distribution Function,CDF)校正的预报结果。吴进等(2016)首先对产生降水的典型天气影响系统进行分类,然后在不同天气形势下以预报准确率定级的方式来计算各成员模式的权重。Vigaud et al.(2017)逐点对单模式预报结果进行扩展逻辑回归,然后通过对多个模式预报概率等权平均可以得到可靠性高但锐度较低的概率预报结果,并且多模式集成在很大程度上消除了单模式的负面预报技巧。赵渊明和漆梁波(2021)对上游关键区域进行实时检验以获得动态权重对下游地区进行多模式短时强降水集成概率预报,提高了预报的准确性和稳定性。
扩展逻辑回归(Roulin and Vannitsem,2012)、分级技术(Yussouf and Stensrud,2006)、相似分析法(Hamill et al.,2015)、人工神经网络(Hall et al.,1999)、集合模式输出统计(Scheuerer and Hamill,2015)、贝叶斯模式平均(Raftery et al.,2005)等方法已被广泛地应用于天气要素概率预报中。但是,其中一些方法(如扩展逻辑回归)并不能充分利用集合预报的完整信息,只能给出特定事件的概率,并非完整的预测PDF,另外一些方法则无法提供定量的预报不确定性。集合模式输出统计(EMOS)和贝叶斯模式平均(BMA)既可以提供完整的预测PDF,也可以定量估计预报的不确定性。因此这两种方法是目前基于多模式集成的概率预报中最为常用且有效的偏差订正方法,本文将重点介绍其具体算法。
BMA最初应用于满足正态分布的变量如气温、海平面气压的定量化预报中,研究表明BMA预测PDF可以得到更好的校正,且比原始集合预报更加准确可靠(Wilson et al.,2007;吉璐莹等,2017)。
根据s-BMA原理,令M1,M2,…,MK表示K个不同模式的预报,在训练期数据yT下,预测变量y基于这K个不同模式的预测PDF为:
(7)
对于气温,gk(y|Mk)是正态PDF。随后Sloughter et al.(2007)将BMA方法拓展至降水、风等非正态分布变量的概率预报中。降水是一个在时间和空间上都高度不连续的变量,且存在无降水的情况。因此BMA方法分两步来计算降水的预测PDF。第一步考虑是否有降水发生,第二步在降水非零的情况下用gamma分布来拟合开了三次方根后的降水PDF。BMA降水预测PDF如下:
0)+P(y>0|Mk)gk(y|Mk)I(y>0)〗。
(8)
其中,P(y=0|Mk)是指在预报Mk的条件下没有降水的概率,通过逻辑回归模型来拟合。P(y>0|Mk)是在预报Mk的条件下有降水的概率,gi(y|Mk)为gamma分布PDF。指示因子函数I()在满足括号内的情况下等于1,否则等于0。在参数估算时,Fraley et al.(2010)提出来自同一预报中心的不同集合成员的BMA参数应当相同。
BMA多模式集成降水概率预报技巧普遍优于逻辑回归、原始集合预报等(Zhao et al.,2019;祁海霞等,2020)。但BMA确定性预报对中到大雨量级的降水预报能力有限,这主要是由于大雨样本较少,影响了偏差订正,进而影响了BMA模型参数的估计值。为此,Ji et al.(2019)提出了分级BMA多模式集成方案,将24 h累积降水量分为小雨(<10 mm)、中雨(10~25 mm)和大雨(>25 mm)三个量级,基于训练期内多模式集合平均值,挑出各个量级的降水样本,分别建立各个量级的BMA模型。研究结果表明,分级BMA的PDF更加集中,概率预报技巧更高,尤其是在预报时效较长的时候。Qi et al.(2021)还提出根据降水集合离散度进行BMA分级,提高了长江中下游降水预报水平。
对于风速,Sloughter et al.(2010)提出可以直接用gamma分布来拟合原始风速,即gk(y|Mk)是gamma分布PDF,结果表明BMA方法可以生成最大风速的完整预测PDF,比原始集合预报得到了更好的校准。此外,Sloughter et al.(2013)还提出通过二元正态分布来拟合二维风矢量,预报结果优于原始集合预报。需要注意的是,Sloughter et al.(2013)对原始数据进行了预处理,取其4/5次方,但这种特定的转换并不一定是普遍适用的,因此在该方法运用中需要调试以找到最合适的幂转换。Baran(2014)尝试将截断正态分布与BMA相结合,同样提高了风速预报准确率。
BMA可能存在订正过度的情况,会降低其对极端灾害事件的预报能力。Bishop and Shanley(2008)尝试将先验气候信息加入到BMA集合后处理中,可以提高BMA对极端天气的预报能力。Schmeits and Kok(2010)提出使用附加偏差来改进BMA对极端事件的预报技巧。
Gneiting et al.(2005)最早提出基于正态分布的集合模式输出统计模型,应用于气温和海平面气压的预报,得到了预报技巧更高的确定性预报和校准更好的概率密度函数。对于气温等正态分布的变量,EMOS预测PDF可表示为:
p(y|M1,M2,…,MK)~N(a+b1M1+b2M2+…+
bKMK,c+dS2)。
(9)
其中:a+b1M1+…+bKMK表示正态分布的均值;c+dS2代表方差;S2为集合方差。EMOS模型参数θ=(a,b,c,d)可以通过在训练期优化适当的检验指标(如连续等级概率评分、最大似然估计)计算得到。
Scheuerer(2014)将广义极值(Generalized Extreme Value,GEV)分布与集合模式输出统计模型相结合,对2011年德国6 h累积降水进行预报研究。GEV EMOS可以产生校准和锐利的概率密度函数分布,并优于扩展逻辑回归和贝叶斯模式平均。此外,在GEV EMOS模型中加入邻域信息可以进一步提高概率预报水平。Baran and Nemoda(2016)提出基于截断位移gamma(Censored and Shifted Gamma,CSG)分布的集合模式输出统计(CSG EMOS)方法,通过向左移动gamma分布将零降水量和非零降水的连续PDF同时考虑在内:
(10)
其中:αk和βk分别是gamma分布的形状参数和尺度参数;ηk<0为位移参数,表示将CDF向左移动,将无降水的情况考虑在内。CSG EMOS模型预报结果在概率校准和逐点降水量预报方面略优于GEV EMOS,并且整体优于原始集合预报和BMA模型。
对于风速,Thorarinsdottir and Gneiting(2010)提出采用在零处截断的正态分布(truncated normal,TN)来解决预测变量非负的问题。Lerch and Thorarinsdottir(2013)将广义极值分布(GEV)与EMOS模型相结合以提高德国逐日最大风速预报水平。但该模型存在将正概率分配给负风速的缺点,因此Baran and Lerch(2015)提出了对数正态分布(Log-Normal,LN)EMOS预测风速模型。随后,Baran and Lerch(2016)将截断正态分布与对数正态分布相结合,表明TN-LN EMOS组合模型进一步提高了风速概率预报准确率,并且更好地校准了原始集合预报,优于TN EMOS和LN EMOS模型。
总体而言,BMA和EMOS模型均可以提高天气预报准确率,优于原始集合预报、气候预报等,并且两个模型在多个天气要素预报方面各有长短(Javanshiri et al.,2021;Ji et al.,2021)。尤其是对于降水,相比于将零处正概率与单独的非负分布组合在一起的BMA模型,EMOS模型对在零处的某个适当连续分布进行左删使得零降水的概率可以直接从相应的CDF中得出。然而,BMA和EMOS两种方法都特别依赖于参数预测分布,这意味着必须提前指定预测分布并估计其参数。另外,BMA模型参数多于EMOS模型,因此需要足够多的样本数据来训练BMA模型以防止出现过度拟合的情况。目前国内对BMA的应用研究较多,关于EMOS模型的应用还相对较少。
近年来,各种多模式集成技术得到快速发展,已成为国际上领先的气象服务机构广泛使用的提高模式预测准确率的非常有效的后处理统计方法。多模式集成算法不仅减小了由于模式初始条件、物理参数化、动力框架等所带来的预报误差,且计算过程相较于模式积分计算更为简洁高效,提供了巨大的潜在经济效益(Krishnamurti et al.,2016)。本文针对地面气象要素(气温、降水、风)从确定性预报和概率预报两个角度介绍了多种应用范围较为广泛的等权和不等权的多模式集成方案。
简单集合平均和消除偏差集合平均计算简单,但赋予所有模式相同的权重而忽略了模式之间预报性能的差异。不等权的多模式集成如超级集合则充分考虑了模式差异性,预报技巧较高的模式将被赋予较大的权重,从而能够更加充分有效地利用多模式预报信息。通常,不等权的多模式集成预报技巧优于等权多模式集成。
不同多模式集成方案依然存在一些共性问题,需要进一步探索。例如参与多模式集成的模式个数需要多少才足够?是否越多越好?若剔除预报技巧相对较低的模式,能否进一步提高集成预报技巧?如Johnson et al.(2014)分别用13和11个全球耦合模式对1982—2001年进行季节气候超级集合预测,结果表明在去除预报技巧最低的2个模式后,超级集合的预报评分得到了提升。此外,训练期的长度或是训练期内多少样本才能使权重稳定?如果参与多模式集成的成员模式的动力或物理在训练期和预报期发生变化,那么在训练期得到的权重则不能充分地代表模式行为,也许会导致多模式集成预报技巧不如单模式。滑动训练期的应用在一定程度上能够减小此类负面影响,是否还有别的更好的选择也值得研究。
基于降水对象的多模式集成确定性预报模型,着重考虑了面积、长宽比、轴角和质心位置这四个对象属性。但随着分辨率的增加,降水结构变得越来越复杂,降水对象的形状等特征很难在高分辨率下定义,或者长宽比、轴角这两个属性不足以描述降水对象的形状。在今后的研究工作中,可以尝试将更多的对象属性考虑其中。并且,除MODE空间检验外,也可以尝试使用基于模糊检验的分数技巧评分(Fraction Skill Score,FSS;Roberts and Lean,2008)作为多模式集成模型计算权重的指标。此外,如何构建基于要素对象的多模式集成概率预报模型,以概率的形式预报高温、强降水、大风区的位置、范围等对气象防灾减灾具有重要意义。
已有研究对降水进行雨量分级多模式集成预报(Ji et al.,2019;Qi et al.,2021),同样也可以研究风速的分级预报,有利于对流性大风、气旋性大风等灾害性大风的预报预警。在分级预报中,通常强降水或强风的样本有限,可以通过空间窗口增加格点/站点来扩大目标格点/站点的样本量(Hamill et al.,2017;Lyu et al.,2021)。同时,也可以根据不同区域的气候特征,将研究范围划分成多个子区域。同一区域内的所有格点/站点的预报信息共同组成训练样本以扩充样本量,则同一域内不同格点/站点具有相同的模型参数,而不同区域模型参数则不同(Zhu et al.,2010)。
近年来,计算机技术的发展促进了机器学习相关理论的发展和完善。其中,神经网络作为深度学习模型的一种,受到广泛关注。大气是非线性的,而神经网络对于数据间非线性的关系具有较好的拟合效果。研究表明,随机森林、长短期记忆神经网络(Long Short-Term Memory,LSTM)、U-Net等机器学习模型比频率匹配、集合伪偏差校正等传统方法能更好地对温压风湿等气象要素进行订正(Li et al.,2019;Han et al.,2021)。随着机器学习的发展,可以尝试将神经网络、支持向量机等方法与多模式集成技术相结合,以进一步提高天气预报技巧。雷彦森等(2018)研究发现基于遗传算法优化的BP神经网络的多模式集成对地面气温的预报比超级集合等线性集成预报更加准确。智协飞等(2020)采用LSTM对中国地区2 m气温进行多模式集成预报,试验表明LSTM显著提升了我国多数地区的气温预报水平,优于消除偏差集合平均和超级集合预报。目前,基于机器学习的多模式集成技术研究较少。并且现有的方法主要是针对温度等连续变量的确定性集成预报,对降水、风等非连续变量以及概率预报方面需要进一步研究。