摘 要:为了提高格点风场预报产品的准确性,提出了一套基于深度学习和集成学习的风速、风向预报方法。使用时间序列上的站点风实况数据和空间范围上的数值模式预报产品建立时空信息匹配模型,使用了长短期记忆法(LSTM)和极端梯度提升(XGBoost)建立时空匹配的联合预报产品订正模型,形成72小时隔3小时、5千米时空分辨率的SCMOC风速、风向预报产品。评估结果显示,相较于SCMOC预测,联合模型实现风速平均绝对误差(MAE)降低了14.17%,风向平均绝对误差(MAE)降低了23.61%。模型对SCMOC风场产品的风速、风向的准确率有较好的提升,产品释用效果良好。
关键词:LSTM;XGBoost;时空匹配;指导预报产品;产品释用
中图分类号:TP18 文献标识码:A 文章编号:2096-4706(2023)24-0016-05
Research on Grid Wind Field Model Prediction Products in Inner Mongolia Based on Machine Learning Method
LIU Hui
(Meteorological Data Center of Inner Mongolia Autonomous Region, Hohhot 010010, China)
Abstract: In order to improve the accuracy of grid wind field prediction products, a set of wind speed and direction prediction methods based on deep learning and ensemble learning is proposed. The real-time data of station wind in the time series and the numerical model prediction products in the spatial range are used to establish the spatio-temporal information matching model, and the Long short-term memory method (LSTM) and extreme gradient lifting (XGBoost) are used to establish the joint prediction product correction model with spatio-temporal matching, forming the 72 hour SCMOC wind speed and direction prediction products with spatio-temporal resolution of 3 hours and 5 kilometers. The assessment results show that the mean absolute error (MAE) of wind speed realized by the joint model is 14.17% lower than that of SCMOC prediction, and the mean absolute error of wind direction is 23.61% lower than that of SCMOC prediction. The model has significantly improved the accuracy of wind speed and direction for SCMOC wind farm products, and the product has a good interpretation effect.
Keywords: LSTM; XGBoost; spatiotemporal matching; guiding forecast product; product interpretation
0 引 言
数值模式预报产品与实际天气之间仍存在一些差异,这种误差主要是由初始场误差和模型误差引起的[1]。模式产品释用(MOS)方法是一种在业务中广泛预报应用技术,大量的实践表明,在特定空间、特定时间应用统计等方法对模式输出结果进行调整,能够形成更准确的预报[2]。最近几年,在传统统计学之外,出现了一些基于集成学习和深度神经网络进行预报产品释用的研究,薛谌彬等在研究中提出了一种结合滑动双权重平均订正法和空间误差逐步订正法的综合订正技术,并对2016年5月1日至2017年5月1日期间24~168 h预报时效内欧洲中期天气预报中(ECMWF)高分辨率模式的2 m最高和最低温度进行偏差订正和误差分析,形成的综合订正法已成功运用于江西省精细化气象要素客观预报业务系统中[3]。Wei的研究與本项目研究内容相似,同样是研究风的,研究将台风期间WRF模式输出与台湾各实况观测站点数据通过深度学习(DNN)的方法来输出新的预报,结果较WRF更加逼近实况值[4]。陈法敬等人基于NCEP集合预报应用贝叶斯概率进行预报融合,实现集合预报的概率化[5],这些研究释用ECMWF高分辨率模式以及WRF模式产品,取得了不错的效果。
利用邻近临近信息改进目标站点的预报的所谓时空预报方法越来越受到人们的关注[6],基于时间与空间一定范围内的风场有某种相互影响,特别是对于风,目标站点的时间序列数据与其周围站点的时间序列数据有紧密关系[7],本文使用时间序列上的站点风数据和空间范围的格点预报产品,联合长短期记忆法(LSTM)和极端梯度提升(XGBoost)建立集成模型寻找观测与数值模式输出之间的关系模型,并利用该模型将多个预报转变为一个单值预报,以获得更准确的预报结果。
1 研究方法
1.1 LSTM算法
长短期记忆网络(Long Short-Term Memory, LSTM)是一种时间循环神经网络,是为了解决一般的RNN(循环神经网络)存在的长期依赖问题而专门设计出来的,所有的RNN都具有一种重复神经网络模块的链式形式。在标准RNN中,这个重复的结构模块只有一个非常简单的结构,例如一个tanh层。与基本的 RNN 相比,LSTM网络具有更好的收敛性能。LSTM由多个函数组成,而常规RNN只有一个函数。这些函数试图记住有用的信息,忘记来自输入的不必要的信息[8]。图1显示了LSTM中的函数之间的关系。
1.2 XGBoost算法
XGBoost是Gradient Boost的一种提升版本,Gradient Boost是boosting算法的其中一种[9]。Gradient Boosting中将负梯度作为上一轮基学习器犯错的衡量指标,算法思想就是不断地添加树,不断地进行特征分裂来生长一棵树,去拟合上次预测的残差。按这样的过程重复训练出M个学习器,最后进行加权组合[10],XGBoost的提升模型也是采用拟合残差去降低损失函数,不同的是其拟合过程是直接用泰勒展开式将损失函数展开成二项式函数[11],图2为XGBoost算法流程图。
1.3 LSTM-XGBoost
LSTM-XGBoost算法将LSTM和XGBoost算法结合使用,使用LSTM进行时间特征训练,使用XGBoost进行空间特征训练,将XGBoost模型附加到LSTM输出上建立集成模型形成时空数据与预测值之间的关系,图3为LSTM-XGBoost结构图。
训练过程分为两步,首先使用SCMOC时间序列的数据输入到LSTM中,训练生成LSTM预报模型,使用T-9、T-6、T-3时刻数据预测T时刻风速、风向数据。第二步用LSTM生成的结果加上T时刻SCMOC目标转到周围5×5范围的风速风向数据输入XGBoost最终生成T时刻风速、风向数据。
LSTM-XGBoost模型中LSTM网络尝试捕获风演化信息的隐式特征,XGBoost通过目标站点周围一定范围风场数据尝试捕获一定范围内风场相互影响关系,LSTM-XGBoost风速模型中使用回归模型,风向模型中使用分类模型。
2 试验与检验
2.1 数据来源
智能网格指导产品(SCMOC)为2018年至2021年中央气象台每日下发2次的气象要素精细化预报指导产品,起报时间分别为北京时间08:00和20:00,格式为grib2,分辨率为5 km格点产品,范围涵盖全国区域(70E~140E、0N~60N)预报时长为240小时或72小时。数据来源内蒙古自治区气象信息中心。
如图4所示(数据来源内蒙古自治区气象信息中心),站点数据为内蒙古自治区2018年至2021年119各国家站地面观测资料,气象要素包括:10 m风速、10 m风向。
2.2 数据集生成
数据预处理和质量控制,第一步进行逻辑性检查对SCMOC风向小于0°或者大于360°,风速小于0或者大于120 m/s的样本剔除,第二步进行一致性检查,对于SCMOC预报风速与站点风速差的绝对值大于50 m/s的样本剔除。
LSTM-XGBoost联合模型数据集包含两部分,由于SCMOC模式产品的滞后性,一般滞后12小时,所以3~72小时任意T时刻是可以获取T-3、T-6、T-9时刻的数据,实验中LSTM部分数据集以T时刻站点数据作为标签,站点对应的SCMOC格点产品最近格点数据T-3、T-6、T-9作为训练数据。生成LSTM数据集。
使用00时和12时SCMOC资料目标站点周围一定范围内的格点数据作为XGBoost模型预测输入数据集。图5描述了EC模式预报和SCMOC预报起报时间选取数据时间段。
LSTM-XGBoost联合模型数据集,LSTM部分使用LSTM数据集,XGBoost部分使用00时和12时SCMOC资料目标站点周围一定范围内的格点数据和LSTM输出数据作为XGBoost模型输入数据集。
2.3 风速预报模型构建
LSTM-XGBoost风速模型,使用数据集围为:2018年1月1日~2019年10月1日是数据,采用训练集数据进行建模,测试集数据进行模,将数据集按照80:20的比例划分为训练集和测试集,分别生成LSTM、XGBoost和LSTM-XGBoost回归模型。
2.4 风向预报模型的构建
LSTM-XGBoost风向订正模型,使用数据集与风速相同,由于风速0~360度没有实际意义的大小,使用回归方法在预测值与真实值大于180度时失真,为了更好地表示真实的风向意义,項目按照全国智能网格气象预报业务规定(试行)风向检验划分规则,将0~360度风向按照45度一个角度分为8个类别,生成风向分类模型,如表1所示。
3 检验评估
3.1 检验方法
3.1.1 技巧评分
技巧评分参照《城镇气象要素预报的风预报质量检验办法(试行)的通知》(气预函〔2014〕91号)对SCMOC和基于机器学习风预报模型产品进行检验。
风向技评分检验风向按照8个方位划分进行检验,风向预报检验技巧评分采用如式(1):
式中:SCdi为第i个站风向预报得分,详见表2。NF为预报总站(次)数,K为1~8,其中,1~8代表8个方位。
风速预报检验技巧评分采用如下公式:
式中,SCdi为第i个站风速预报得分,详见表3。NF为预报总站(次)数。
3.1.2 平均绝对误差(MAE)
平均绝对误差风向的检验参考中国气象局《QX/T 229—2014风预报检验方法》。评估风向预报检验平均绝对误差(MAE)采用式(3):
其中,Oi为站点观测值,Gi为实况分析产品插值到检验站点得到的数值,N为参与检验的总样本数(站次数),风速平均绝对误差(MAE):
其中,Oi为站点观测值,Gi为实况分析产品插值到检验站点得到的数值,N为参与检验的总样本数(站次数)。
3.2 检验结果
基于风速预报模型,对全区119个自动站2019年10月1日到2020年10月1日1年的数据进行风速预报评估。评估结果表明,风速模型预报平均绝对误差相对于指导预报(SCMOC)预报平均绝对误差(MAE)降低14.17%(ML MODEL:1.035,SCMOC:1.20);
评分提高了4.63%(ML MODEL:0.752,SCMOC:0.719);准确率提高了13.16%(ML MODEL:0.493 4,
SCMOC:0.436 1);風速≤6级准确率提高了13.15%(ML MODEL:0.493 8,SCMOC:0.436 4);6~8级和≥8级基本相同。
图6展示了3至72小时逐3小时预报风速模型预报评分和指导预报(SCMOC)预报评分对比。
图7展示了3至72小时逐3小时预报风速模型预报平均绝对误差和指导预报(SCMOC)预报平均绝对误差对比。
3.3 风向预报模型效果评估
基于风向预报模型,对全区119个自动站2019年10月1日到2020年10月1日1年的数据进行风向预报评估。评估结果表明,风向模型预报平均绝对误差相对于指导预报(SCMOC)预报平均绝对误差(MAE)降低23.61%(ML MODEL:43.03,SCMOC:56.35);评分提高了23.5%(ML MODEL:0.651,SCMOC:0.528);准确率提高了44.1%(ML MODEL:0.454,SCMOC:0.315)。
图8展示了3至72小时逐3小时预报风向模型预报评分和指导预报(SCMOC)预报评分对比。
图9展示了3至72小时逐3小时预报风向模型预报平均绝对误差和指导预报(SCMOC)预报平均绝对误差对比。
4 结 论
受制于目前的超算性能和超高分辨率数值天气技术理论尚无突破,数值模式对风的预报能力仍显不足。本研究通过基于机器学习方法对数值模式风的预报产品进行了释用,建立了较为完整的风场预报智能模型,从评估结果来看风速模型、风向模型预测结果通过不同的评估方法评估结果相比SCMOC均有提高,为内蒙古智能网格预报提供技术支撑。
参考文献:
[1] ZHANG K,MU M,WANG Q.Identifying the sensitive area in adaptive observation for predicting the upstream Kuroshio transport variation in a 3-D ocean model [J].Science China(Earth Sciences),2017,60(5):866-875.
[2] 李莉,朱跃建.T213降水预报订正系统的建立与研究 [J].应用气象学报,2006(S1):130-134.
[3] 薛谌彬,陈娴,张瑛,等.ECMWF高分辨率模式2m温度预报误差订正方法研究 [J].气象,2019,45(6):831-842.
[4] WEI C C. Study on Wind Simulations Using Deep Learning Techniques during Typhoons: A Case Study of Northern Taiwan [J/OL].Atmosphere,2019,10(11):684[2023-05-29].https://doi.org/10.3390/atmos10110684.
[5] 陈法敬,矫梅燕,陈静.一种温度集合预报产品释用方法的初步研究 [J].气象,2011,37(1):14-20.
[6] 刘大刚,李志华.大风风力预报准确率的统计特征分析 [J].大连海事大学学报,2003(4):47-49.
[7] 孙军波,钱燕珍,陈佩燕,等.登陆台风站点大风预报的人工神经网络方法 [J].气象,2010,36(9):81-86.
[8] GERS F A,Schmidhuber J,Cummins F,et al. Learning to Forget: Continual Prediction with LSTM [J].Neural Computation,2000,12(10):2451-2471.
[9] CHEN T Q,Guestrin C.XGBoost: A Scalable Tree Boosting System [J/OL].arXiv:1603.02754 [cs.LG].[2023-05-29].https://arxiv.org/abs/1603.02754.
[10] FRIEDMAN J H.Greedy Function Approximation: A Gradient Boosting Machine [J].Annals of Statistics,2001,29(5):1189-1232.
[11] CHEN T Q,HE T,Benesty M,et al. xgboost: Extreme Gradient Boosting [EB/OL].https://cran.r-project.org/web/packages/xgboost/index.html.
作者简介:刘辉(1989.03—),男,汉族,陕西洛南人,工程师,本科,研究方向:气象数据处理、卫星数据遥感。