苏翔 袁慧玲
(1 江苏省气象台,南京 210008;2 中国气象局交通气象重点开放实验室,南京 210009; 3 南京大学大气科学学院中尺度灾害性天气教育部重点实验室,南京 210023)
集合预报是表达预报不确定性的重要手段[1-2],在天气预报、气候预测和水文预报等方面具有重要应用[3-6]。大量研究表明,集合预报相比于单一的确定性预报具有更高的经济价值[7-10]。然而集合预报系统由于同化方案、初值扰动、模式设计、集合成员数等方面的不完美,常存在一阶系统偏差和二阶离散度偏差[11-14]。因此,模式原始输出的集合预报需要进行统计学后处理,纠正系统偏差、调整离散度,以提升集合预报的可靠性(reliability)和准确率(accuracy)。
数值预报的统计学后处理方法已有较长的研究历史。例如早期的完美预报法(perfect prog,PP)[15]和后来的模式输出统计法(model output statistics,MOS)[16],都是针对单一确定性的原始预报,纠正一阶系统偏差,输出单一的确定性预报。此外,集合预报的统计学后处理还可根据需要调整二阶离散度偏差,产生连续的概率分布或者代表连续分布抽样的离散集合成员,方法更加新颖和复杂。由于数值模式版本的不断更新,集合预报的系统偏差可能会发生改变。回算预报(reforecast)[17-18]数据采用与实时模式相同的模式版本对过去几十年的预报进行回算,可为集合预报统计学后处理提供误差特征一致性较好的大样本训练数据。
毕宝贵等[19]和代刊等[20]系统介绍了定量降水集合预报的统计学后处理技术;Li等[21]详细介绍了水文集合预报中的统计学后处理方法;Duan等[22]在最新的水文集合预报的参考手册中回顾了气象集合预报和针对水文应用的常用集合天气预报后处理技术,以及水文集合预报的后处理方法。本文将从更宽的视角整理和归纳现有重要的集合预报统计学后处理技术方法,首先对单变量集合预报统计后处理方法进行全面系统的整理归纳,然后拓展到须考虑变量依赖性结构的多变量集合预报统计后处理方法,之后再介绍多模式集合预报和机器学习方法,最后是全文总结,并讨论了常用的集合预报统计后处理方法以及需要注意的问题。
表1和表2分别整理和归纳了部分参数化和非参数化的单变量集合预报统计后处理方法。下面选取常用的单变量集合预报的统计后处理方法进行介绍。
逻辑回归(logistic regression,LR)是一种广义线性回归模型,常用于二分类预测问题。Hamill等[23]利用历史回算数据集将LR方法应用于地面气温和降水的中期集合概率预报中。由于LR仅能得到有限个数阈值的概率预报而非完整的概率分布,Wilks[24]将因变量的阈值引入回归方程中作为自变量来获得完整的概率分布预报,提出扩展逻辑回归(extended logistic regression,ExLR)。Ben Bouallègue[25]认为ExLR中固定模型预报因子系数的做法过于刻板,限制了模型的灵活性,因此引入交互项对ExLR进行修改,提出了第二代扩展逻辑回归(ExLR2)。此外,还有有序逻辑回归(ordered LR)和删失逻辑回归(censored LR)[26]等类似的集合预报后处理方法。
非均匀回归(nonhomogeneous regression,NR)也叫集合模式输出统计(ensemble model output statistics,EMOS)方法,预先假定预报物理量服从某种数学分布,然后建立集合预报自变量与分布之间的函数关系,进而求解连续概率预报分布函数。NR模型的概率分布函数可根据集合预报的离散度大小反映预报的不确定性。
1.2.1 高斯分布的非均匀回归
Gneiting等[27]提出了应用于高斯分布型物理量(温 度或气压等)的非均匀高斯回归(nonhomogeneous Gaussian regression,NGR)方法。Messner等[28]通过估计回归系数的方法自动选择合适的输入变量,建立了最高和最低温度的集合预报NGR模型。Sansom等[29]在全球气候变暖背景下,考虑到系统偏差随时间的变化,加入时间变化项,将NGR集合预报统计后处理拓展到季节预报中。Möller等[30]在NGR模型中考虑误差的自相关性,提出自回归集合模式输出统计方法(Autoregressive EMOS,AR-EMOS),改善了原始NGR模型欠离散的问题。Siegert等[31]使用bootstrap方法(自展法,即一种有放回的增广统计样本的抽样法)考虑NGR模型参数估计的不确定性。
1.2.2 非高斯分布的非均匀回归
一些非负物理量(如风速、降水量等)不满足高斯分布,如果在零值处的连续性较好(如风速),可通过合适的数学变换(如幂变换或对数变换等)将物理量先转换为准高斯分布,再使用NGR模型进行统计后处理;若非负物理量在零值处具有显著的不连续性,例如降水量,有时其概率分布在零值处呈现明显的“概率长钉”,会导致准高斯变换以及常规的连续分布函数不适用,需要结合“截断”(truncation)或“删失”(censoring)技术进行NR建模。
对于风速集合预报,Thorarinsdottir等[32]采用零值截断的正态分布(truncated normal,TN)模型,Lerch等[33]对TN分布模型、广义极值(generalized extreme value,GEV)分布模型以及TN-GEV转换混合模型进行了对比。Baran等[34]提出了对数正态(lognormal,LN)分布模型以及TN-LN转换混合模型,并与TN分布模型、GEV分布模型以及TN-GEV转换混合模型进行对比。之后,Baran等[35]又进一步提出了TN-LN加权混合模型。
对于降水集合预报,Bentzien和Friederichs[36]使用混合模型进行模拟,零降水概率采用LR分布,非零降水分布函数分别采用LN、gamma和逆高斯分布,并提出对于极端降水采用广义帕雷托分布(generalized Pareto distribution,GPD)可以更好地拟合高值降水的尾端部分。此外,降水集合预报的NR模型分布还包括左删失GEV分布[37]和删失偏移gamma(censored shifted gamma,CSG)分布[38-39]等。
表2 单变量非参数化集合预报统计后处理技术列表 Table 2 List of univariate nonparametric ensemble statistical postprocessing methods
1.2.3 基于标准化距平的非均匀回归
Dabernig等[40]研究发现:如果将不同时间不同站点的变量做标准化距平处理,可去除误差的季节和地域性差异,从而可以用所有样本建立统一的模型;提出了基于标准化距平的非均匀回归方法,也叫“标准化距平模式输出统计法”(standardized anomaly model output statistics,SAMOS)。SAMOS的优点在于全场只需建一个模型,可用于无观测区域的预报订正,且不需要频繁滚动更新模型参数。而从变量标准化距平还原到变量本身,还需要计算气候背景场的均值和标准差。Dabernig等[40]采用基于位置、尺度和形状的广义可加模型(generalized additive model for location, scale and shape,GAMLSS)[41-42]对所有站点同时拟合气候均值和标准差。Stauffer等[43]进一步结合欧洲中期天气预报中心(ECMWF)回算预报数据,使用左删失幂变换的逻辑分布将SAMOS应用于复杂地形条件下的降水集合预报订正。Dabernig等[44]也采用SAMOS方法对同一起报时间不同预报时效的温度集合预报统一建模,大大加快了模型的计算速度同时获得了与传统方法相当的预报技巧。
贝叶斯模型平均(Bayesian model averaging,BMA)是多个概率分布的加权组合,每个概率分布都以偏差订正后的集合成员为中心。
1.3.1 高斯分布的贝叶斯模型平均
Raftery等[45]最早将BMA方法用于温度和海平面气压这类高斯分布型变量的统计后处理中。Wilson等[46]应用BMA来订正加拿大集合预报系统的温度预报。Kleiber等[47]将BMA拓展为空间可变模型参数并用于温度集合预报的后处理,提出了地理统计模型平均(geostatistical model averaging,GMA)方法。
1.3.2 非高斯分布的贝叶斯模型平均
Sloughter等[48]采用混合分布将高斯分布型变量的BMA模型拓展到降水变量中,结合幂变换,对零降水部分采用LR模型,非零降水部分采用gamma分布构造降水的分布函数,并通过gamma分布的均值和方差搭建分布参数与预报之间的关系。Schmeits等[49]考虑集合成员的可交换性,将零降水概率中的成员系数设为相等,并将gamma分布方差中的系数也设为不随集合成员变化。Kleiber等[50]将基于地理统计信息的GMA方法用于降水概率预报。
与降水分布相比,风速的分布也属于非高斯分布,但不需要将零值部分的概率单独处理。Sloughter等[51]采用gamma分布对风速集合预报进行了BMA统计后处理。Bao等[52]采用常用于模拟角度数据的Von Mises分布将BMA用于地面风向集合预报订正。Chmieleck等[53]采用β分布将BMA用于能见度概率预报。Baran[54]参考Thorarinsdottir等[32]采用TN分布将BMA用于风速集合预报订正。
集合敷料法(ensemble dressing)最初由Roulston等[55]提出,考虑每个集合成员预报误差的概率分布,以偏差订正后的集合成员为中心估计单个集合成员的概率分布(核密度,kernel density),再对所有集合成员的核密度进行平均得到集合预报整体的概率分布。Roulston等[55]提出了“最优成员集合敷料法”,Wang等[56]则对其改进加入二阶矩约束条件,但不适用于集合预报过离散的情况。Fortin等[57]对此做了进一步改进,基于β分布使用不同核密度、不等权重的集合敷料法,对集合预报过离散和欠离散的情况均适用。Bröcker等[58]基于高斯分布提出“仿射核密度敷料法”(affine kernel dressing,AKD),考虑将气候分布加入集合成员以增加概率预报的健壮性。Glahn等[59]提出的集合核密度模式输出统计法(ensemble kernel density MOS,EKDMOS)需通过经验公式调整集合离散度,而Veenhuis[60]则根据不同站点之间的差异以及离散度与集合平均误差的关系(spread-skill relationship)调整EKDMOS中的集合离散度。
1.5.1 排序直方图订正
早期Hamill等[61]基于排序直方图检验对降水集合预报进行订正以提升概率预报的可靠性。首先根据集合平均和对应观测对集合成员做去偏差处理(负降水处理为0值),并从小到大排序得到偏差订正后的集合成员。对不超过最大集合成员的分位值采用线性插值计算概率,对超过最大集合成员的分位值则采用Gumbel分布进行拟合。
1.5.2 可靠性曲线订正
Flowerdew[62]根据可靠性曲线对温度、气压、风速和降水等地面变量集合预报进行了订正。为保证充足的统计样本仅使用5个概率区间,将区间内平均预报概率订正为相应的观测频率,并结合线性插值构建订正后的累积分布函数(cumulative distribution function,CDF)曲线,最后再通过等概率切割从CDF曲线还原到集合成员。
1.5.3 杜-周排序法
杜-周排序法(Du-Zhou Ranking)[63]根据集合平均判断集合成员的相对优劣,从而进行排序加权以改进集合预报。此法的优点是不需要观测资料,在数值模式没有太大偏差时效果较好。
1.5.4 衰减平均偏差订正
Cui等[64]介绍了一种衰减平均偏差订正(decaying average bias correction)方法用于北美集合预报系统(North American ensemble forecast system,NAEFS)的35个高斯分布型变量的偏差订正。该方法的思路是首先计算每一个格点和每一个预报时效的偏差,然后采用自适应卡尔曼滤波型的衰减平均方法估计平均系统偏差,订正后的预报值为原始预报减去平均系统偏差。
1.5.5 概率匹配和频率匹配
E b e r t[65]最早提出概率匹配(p r o b a b i l i t y matching,PM)的思想。假定集合平均预报具有较好的空间分布,而集合成员预报在量级上有更高的准确度,PM方法将全场所有N个格点的集合平均预报与N×M个集合成员预报(M为集合成员数)分别排序后进行概率密度函数(probability density function,PDF)匹配,然后将每个格点对应的集合平均值替换为排序对应的M个集合成员预报值的平均。PM方法多用于中小尺度降水集合预报用于产生确定性预报产品[66-70]。需要注意的是,PM方法采用集合成员进行匹配,并没有使用观测数据,如果采用观测资料对不同阈值下的降水进行匹配就变成了频率匹配法(frequency matching method,FMM)[71-73],该方法在国内也得到了广泛的推广和应用[74-75]。李俊等[72]进一步指出,若对降水预报先做简单的集合平均,再应用FMM方法对集合平均进行偏差订正,效果会更好,因为这样既可以订正雨区位置,又订正了降雨量。
1.5.6 分位数映射
分位数映射(quantile mapping,QM)与FMM具有一定相似之处,通过估计预报和观测的CDF分布,然后对不同的分位数进行频率匹配。QM在天气、水文和气候集合预报的偏差订正方面应用广泛[38,76-81]。
1.5.7 分位数回归
分位数回归(quantile regression,QR)方法最早由Koenker和Bassett[82]提出。Bremnes[83]将QR引入降水集合预报的后处理中,Bentzien和Friederichs[84]也将QR方法应用于降水集合预报的订正,此外QR在风能概率预测[85-86]和全球辐射集合预报[87]的后处理等方面也有应用。
1.5.8 最优百分位和最优评分法
最优百分位[20,88]是中国气象局国家气象中心根据预报员经验发展起来的降水集合预报客观订正技术,对不同的降水阈值寻找评分最优的集合百分位进行映射,参考了PM方法的思想。2013—2015年夏季降水的TS(Threat Score)评分表明,该方法不亚于预报员的主观预报[88]。吴启树等[89]设计的最优评分法也用到了评分最优的思想,对不同降水阈值寻找评分最优的预报订正值进行映射。
1.5.9 逐成员订正
逐成员订正(member-by-member,MBM)的名称由Van Schaeybroeck等[90]提出,考虑先通过平移订正集合预报的一阶偏差,再以平移后的集合平均为中心进行拉伸以订正二阶离散度偏差。该思想与方差膨胀法(variance inflation,INFL)[91-93]、平移拉伸法(shift-and-stretch)[94]、变量误差回归方法(errorin-variables regression或error-in-variables MOS,EVMOS)[95-97]都有类似之处,故上述三种方法也可与MBM方法归为一类。
1.5.10 相似法
相似法(analog)首先寻找与当前预报场特征最相似的历史样本,然后用相似样本对应的观测组成新的集合预报,常用回算预报数据作为训练样本。Hamill等[98]建立了基于相似法的集合预报后处理理论并用于降水概率预报后处理。Hamill等[99]在相似法中加入了补充位置训练样本,有效提升了降水集合预报性能。Delle Monache等[100-101]定义了多物理量相似度指标来寻找相似样本。Junk等[102-103]提出了一种基于CRPS(continuous ranked probability score)评分最小化的蛮力法(a brute-force CRPS minimization)计算最优的预报因子权重。Junk等[102]在风能集合预报的后处理中增加了潜在有用的预报因子数量,并通过主成分分析进行因子降维。Junk等[103]提出了一种基于相似法的EMOS方法(analog-based EMOS)用于订正100 m风能集合预报,并与相似法、EMOS方法和Pinson[104]的自适应风矢量订正(adaptive wind vector calibration,AUV)进行对比。Yang等[105]采用双预报因子组合(dual-predictor combinations)的方法将两个模式的多个预报因子进行加权组合。Scheuerer等[106]则将非参数化的相似方法与参数化的CSG NR方法相结合进行了降雪概率预报。杜钧和李俊[107]指出,回算预报相似法在中期暴雨预报中也有特殊效果,显著优于多模式中期集合预报。Du等[108]提出的regime dependent偏差订正法也是基于相似法的同一思想,即用过去相似天气形势下的预报误差来订正当前的预报。此外,相似法在台风路径和强度的集合预报后处理方面也有较多应用[109-111]。
1.5.11 邻域法
随着计算资源的不断提升,对流允许(convection allowing)模式可在强天气模拟中产生更加精细的物理量(如大风、强降水)结构特征,同时也带来了更多位置和时间上的不确定性。Theis等[112]提出了一种利用确定性模式格点的时空邻域预报生成概率预报的方法,随后Schwartz等[113]将该邻域法拓展到集合预报的后处理中,提升了原始集合预报的可靠性。Blake等[114]根据集合成员在不同尺度下的离散度[115-116]提出自适应邻域半径法,用于对流尺度集合预报的后处理,提升了概率预报性能。邻域法的特点是简单易用且节省计算资源,邻域半径的选取通常取决于假定模式在何种尺度上预报准确。Ben Bouallègue等[117]将这种进行格点平滑却不改变预报格距的邻域法称为模糊(fuzzy)概率预报,并提出了另一种增大预报格距的升尺度(upscaling)邻域法。
1.5.12 基于对象的概率预报方法
传统的点对点检验评估已不能适应逐步发展的高分辨率对流允许模式,Davis等[118-119]提出基于对象的诊断评估方法(method for object-based diagnostic evaluation,MODE),通过识别预报场和观测场中的目标对象,对两场中不同对象的不同属性进行分析,并计算表征两对象总体相似度的“总体兴趣值”(total interest)用于对象之间的匹配。Johnson等[120]将MODE方法用于对流允许集合预报的后处理,对从不同集合成员中提取的对象进行匹配和归类,从而获取不同预报对象的概率值。
1.5.13 虚拟降水法
Yuan等[121]基于大气整层可降水量分别构造了模式预报和分析场的“虚拟降水场”,通过集合预报的“虚拟降水场”来订正降水预报偏差。该方法针对降水量在零值处的不连续性问题,可对一般统计方法难以订正的降水干偏差(模式降水为0)进行一定程度上的改进。
使用上一章介绍的单变量集合预报统计后处理方法分别订正不同变量仅能得到相互独立的集合预报,而在实际应用中常需要获得在时间和空间上具有依赖性结构的多变量集合预报[122]。一种后处理方法是对单变量集合预报参数化后处理方法进行拓展,获得多变量的联合概率分布,而在这过程中需要估计较多参数,因此适用于变量维数较低的情况;另一种方法是采用非参数化方法,无须获得模型完整的联合概率分布,而是基于特定预报或观测排序结构的依赖模板(dependence template)对单变量概率分布进行抽样和重新排序,适用于变量维数较高的情况。表3整理和归纳了部分需要考虑依赖性结构的多变量集合预报统计后处理方法。
表3 多变量集合预报统计后处理技术列表 Table 3 List of multivariate ensemble statistical postprocessing methods
对于特定预报时效和特定的单个变量,我们可以先通过单变量集合预报统计后处理方法得到单变量的边缘分布函数,再通过参数化方法选择合适的连接函数(copula),就可得到具有依赖性结构的多变量联合分布函数。
Schuhen等[123]基于双正态概率分布提出了一种适用于二维风矢量的NR模型,Sloughter等[124]采用类似的方法提出了一种适用于二维风场的BMA模型。Möller等[125]利用高斯连接函数将5种天气变量的BMA边缘分布有机结合。Baran 等[126]、Baran等[127]分别采用BMA和NR模型对风速和温度集合预报进行了联合后处理。
多变量参数化后处理方法除了可用于产生不同天气变量之间的联合分布以外,还可用于生成具有空间相关性的预报。地理统计输出扰动(geostatistical output perturbation,GOP)方法是一种将单一确定性预报结合模拟误差场生成具有空间相关性的集合预报的方法[128]。Berrocal等[129]将BMA方法与GOP相结合,提出了一种可同时产生全场温度概率预报的空间BMA方法,显著降低了计算量,在保留集合预报流依赖信息的同时考虑了观测场的空间结构特征。Feldmann等[130]则将GOP与NR方法相结合用于温度概率预报。
此外,还有一些考虑时间相关性的多变量参数化后处理方法研究。Schölzel 和Hense[131]将高斯核函数集合敷料法拓展到双变量用于估计集合预报系统在时间上的自协方差,获得区域气候模拟的温度平均和趋势的联合概率分布。Hemri等[132]使用高斯连接将不同预报时效的NR后处理径流集合预报相结合,获得具有多时效一致性的联合概率分布。
当变量维数较高,参数化后处理方法需要处理复杂的模型和参数拟合,可能变得难以实施,而非参数化方法则有着计算简便的优势,通过经验连接(empirical copula)对单变量集合预报统计后处理得到的边缘分布函数的离散型随机抽样进行转换,获得具有时间、空间或多变量一致性的集合预报。
2.2.1 集合连接耦合
集合连接耦合(ensemble copula coupling,ECC)采用原始集合预报数据作为依赖模板对集合预报进行经验连接后处理,考虑了流依赖信息[133]。ECC假定集合成员之间是可交换的并且模式是完美的,即认为集合预报能够充分反映实际的空间、时间和变量之间的相依性。Ben Bouallègue等[134]指出当集合预报的后处理不加区分地扩大集合离散度时,ECC会产生偏离实际的情形,这是因为原始集合预报对相关性结构的歪曲在后处理之后被进一步放大,将ECC用于可靠性差的集合预报反而会进一步恶化集合预报信息。为了克服该问题,Ben Bouallègue等[134]提出了一种双重ECC(dual-ECC)方法,假定预报误差具有平稳性,将连续预报时效的预报误差的自相关部分加入ECC。
2.2.2 Schaake 洗牌法
Clark等[135]提出了Schaake洗牌法(Schaake shuffle,SS),采用历史观测数据作为依赖模板。Clark等[135]指出这里的SS方法由于使用固定的依赖模板,对于不同的大气状态无法区别对待,建议选用与当前预报的大气状态相似的历史记录日期作为依赖模板。受此启发,Schefzik[136]结合了Hamill等[98]和Delle Monache等[100]的相似集合预报概念提出了SimSchaake方法,解决了原始SS方法不包含流依赖信息的问题。SimSchaake方法选取历史上与当前集合预报相似的集合预报对应的日期构建依赖模板。而Scheuerer等[137]指出SimSchaake方法虽然优于标准的SS方法[135],但存在两个问题:一是若相似建立在集合预报上则应采用历史回算预报数据寻找相似日期,而且即使如此也无法保证所选的相似回算预报与相应的观测具有一致的依赖结构;二是在较长预报时效时由于预报技巧的下滑,预报场与观测场偏离较大而失去意义。因此Scheuerer等[137]改为直接寻找历史观测数据子集使其与后处理之后的集合预报尽可能的相似,这里采用Bröcker[138]定义的两个分布之间的散度反向衡量相似程度,提出最小散度SS法(minimum divergence Schaake shuラe,MDSS)。
以上方法主要针对单模式集合预报系统,而业务应用和实际预报中经常使用多模式集合来预报天气要素。第一节和第二节中的后处理方法均可以不同程度地应用到多模式集合。此外,随着高性能计算机和并行计算方法的发展,近年来机器学习的方法也逐渐在集合预报统计后处理中有着越来越多的应用。表4列出了常见的多模式集合和机器学习方法。
表4 多模式集合与机器学习方法列表 Table 4 List of multi-model ensemble and machine learning methods
Matsueda等[139]基于北半球500 hPa位势高度场的研究发现简单的等权重多模式超级集合优于单一最优集合预报。Yamaguchi等[140]研究了多模式超级集合在热带气旋路径预报方面相比于单个集合预报系统的优势。Zhou等[141]应用多模式区域集合预报使雾的预报得到了明显的改善。Hagedorn等[142]指出多模式集合预报相比于单一集合预报的优势不仅仅在于误差的相互抵消,还在于多模式集合预报具有更好的一致性和可靠性。Weigel等[143]也指出,多模式集合通过增加模式的不确定性,提升了集合离散度和概率预报的可靠性。智协飞等[144]基于TIGGE资料进行了地面气温和降水的多模式集合预报,提升了集合预报性能。
也有学者指出,并非所有情况下多模式集合都显著优于单个集合预报。例如,Park等[12]也采用等权重的方法进行多模式集成,并与最优的单个集合预报系统ECMWF进行比较,发现当ECMWF的集合离散度调整较好时,性能差异不大,而当ECMWF明显欠离散时(例如在热带地区),多模式集合的优势凸显;Johnson等[145]对ECMWF、NCEP和英国气象局(United Kingdom Met Office,UKMO)的集合预报系统进行了偏差订正、模式误差权重集成以及离散度调整的后处理,并与单个集合预报系统进行对比,发现当单个集合预报系统之间的性能相似时多模式集成的优势并不明显;Weigel等[146]的多模式季节温度预测研究也证实了多模式集合优于单个最优集合预报系统是有条件的。
在研究对比了多模式集合与单个模式集合之后,研究关注点开始转向多模式集合与统计订正后的单个模式的性能对比。Weigel等[143]发现气候守恒校准后的单个集合预报系统与多模式集合预报性能相当。Hagedorn等[17]发现采用部分优质集合预报系统组成的多模式集合要好于采用全部集合预报系统组成的多模式集合,且采用回算预报资料对ECMWF集合预报系统进行订正可消除系统偏差和离散度误差,从而达到与优质多模式集合相媲美的效果。Hamill[147]则对24 h累积降水进行研究,也发现采用回算预报资料订正后的ECMWF与多模式集成的效果相当,进而说明多中心数据共享和回算预报资料的应用均可有效提升集合预报性能。
机器学习是人工智能(artificial intelligence,AI)的一个分支,通过数据驱动建立预报量与预报因子之间的非线性关系模型。随着计算机资源的不断提升以及海量气象资料的不断涌现,机器学习在大气科学领域得到蓬勃发展,并在集合预报后处理应用中广泛应用。下面就一些常见的机器学习方法进行介绍。
3.2.1 人工神经网络
人工神经网络(artificial neural networks,ANN)是深度学习方法的基础,通过可调节的权重将不同节点的非线性函数相互连接,模仿神经系统形成多层网络。通过学习训练,ANN可以灵活地表示任意非线性函数。Yuan等[148]、Krasnopolsky等[149]使用ANN对降水集合预报进行后处理,Rasp等[150]则将ANN用于地面温度集合预报的订正,Manzato[151]使用ANN进行了冰雹集合预报。
3.2.2 支持向量机
支持向量机(support vector machines,SVM)是一种用于分类和回归的监督学习模型,可通过核函数将低维空间的非线性问题转化为高维空间的线性问题进行回归估计。陈超辉等[152]使用SVM进行了多模式降水和700 hPa流场的回归预报取得了不错的效果。黄威等[153]和孔庆燕等[154]也将SVM方法应用于降水集合预报中。Herman等[155]使用SVM方法进行了云顶和能见度的概率预报。
3.2.3 随机森林
随机森林(random forecasts,RF)是一种包含多个决策树的分类和回归模型,可纠正单个决策树可能存在的过度拟合问题。RF方法在降水[156-158]、气温[159]、中尺度对流系统初生[160]和冰雹[161]的概率预报方面都有广泛的应用。
本文全面系统地介绍了现有重要集合预报统计后处理技术的研究进展,为广大集合预报相关的科研和业务工作者提供参考。下面就集合预报统计后处理中需要注意的几点问题进行讨论。
1)不同的集合预报统计学后处理方法适用性不同且各有优缺点。参数化后处理方法的优点在于模型对训练样本量的要求不是很高,模型函数对历史上未发生的事件具有一定的推演能力,模型占用存储空间较小,只需存储模型的若干参数值即可;缺点在于模型的准确性取决于预先假设的数学分布,可能会导致拟合的失真。非参数化后处理方法的优点在于可以灵活地反映历史训练样本中预报和观测数据的统计关系,但缺点是对历史上未发生过的事件缺乏外推能力,且为了获得稳定的统计模型需要较多的训练样本,模型所占的存储空间相对较大。
2)合理采集训练样本数据对集合预报后处理结果至关重要。集合预报偏差的统计学特征可能存在地域、季节、年份、不同预报时效等方面的差异,采集训练数据时应尽量考虑样本的时空代表性。此外,集合预报的偏差特征也可能随模式版本的更新发生变化。使用回算预报数据作为训练样本则可以较好地解决样本代表性以及模式版本更新的问题,可以获得误差特征一致性较好的大样本训练数据。许多研究表明,回算预报数据集可显著提升集合预报的统计后处理性能,尤其是对极端事件的集合预报后处理效果明显[17-18, 162-165]。
3)全面客观的检验评估才能科学地反映集合预报统计后处理效果。Wilks[166]指出在集合预报参数化后处理中常常通过最优化某个特定评分(例如连续分级概率评分,CRPS)来估计参数,然而这样并不能保证提升集合预报的其他重要属性,例如可靠性。一个好的集合预报系统应该是各方面综合性能优异,而不是仅仅在某些单一检验指标方面表现突出,因此在集合预报后处理性能评估方面应该对不同属性加以考察以获得综合客观的结论。
4)统计后处理对于集合预报性能的提升有限。统计后处理本质上是找出集合预报系统误差(包括一阶系统偏差和二阶离散度偏差)的统计学规律并加以修正。如果集合预报系统本身可预报性差,系统误差不具有稳定的规律,统计后处理方法很难发挥作用,这时需要从动力上对集合预报系统本身加以改进。
5)对于未来发展方向的展望。一是加强不同集合预报统计后处理方法的对比研究,总结不同方法的适用性和优缺点,在此基础上进行新方法的研发;二是基于人工智能技术的不断进步,使用机器学习挖掘海量气象数据以提升集合预报性能;三是面向高分辨率模式的空间检验新技术正日益普及(MODE[118-119]),未来的集合预报后处理技术也会随着检验技术的发展而发生变革;四是考虑时间、空间以及变量之间依赖结构的多变量集合预报统计后处理技术将在水文、风能和天气预报等领域得到广泛应用。
Advances in Meteorological Science and Technology2020年2期