基于循环神经网络的西北太平洋台风路径预测

2024-05-24 05:13尹文静
科技和产业 2024年9期
关键词:时效台风神经网络

尹文静, 段 炼, 高 鹏

(中国民用航空飞行学院气象学院, 四川 广汉 618307)

台风属于严重的自然灾害天气,我国正处于台风频发的西北太平洋区域,每年登陆我国东部区域的台风平均4、5个。由于台风具有极强的破坏力,会引发暴雨、大风天气等极端天气。每年都会对我国沿海地区人民的生命安全造成威胁并且会极大程度破坏沿海地区公共设施继而无法开展正常的经济活动,如2014年1409号台风造成我国沿海59个县市区、742.3万人、468.5 khm2农作物受灾,直接经济损失约为265.5亿元[1]。准确预测西北太平洋台风路径,不仅可以降低我国台风灾害的直接影响,更能提前预报暴雨、大风等极端天气,对于提前部署防灾措施提供一定帮助,大大减少人身伤害和财产损失。早期的研究人员主要利用主观上的专业知识和经验,通过分析台风卫星云图序列判断路径移动。但这种方法的预测效果很大程度上受到研究人员主观经验影响,且人为工作效率较低。

近年来,随着计算机硬件的不断发展,利用图形处理器(graphics processing unit,GPU)[2]并行加速完成深度学习任务成为可能。深度学习逐渐被应用于各个领域,其中包括计算机视觉[3]、文本翻译、视频分类。熊祥瑞等[4]提出一种以气象作为相似度标准,利用移速相似和移向相似从台风历史数据库中筛选并预测台风路径。在此基础上,我国主要工作是根据西北太平洋海域 1949—1989 年的台风历史数据总结出路径规律和运动特征,并且从时空纬度上设计了 106个气象和持续性因子,通过经纬度两个方向的因子有效提高台风轨迹预测精度。王瀚[5]针对静止卫星所生成的台风图像数据,提出基于时序的基因对抗网络(generative adversarial network,GAN) 模型,有效提高了预测精度。综上所述,大多数文献中的预测方法主要就是利用单一模态的数据构建单一模型进行台风预测。而台风路径预测可用的数据包括多普勒雷达图、卫星云图、最佳台风路径数据、大气再分析资料等。为了更好地表征台风的时空特征[6],研究人员开始寻求使用多模态数据、构建多模型结构,实现信息互补,更大程度提高预测效果。深度学习是机器学习的一部分,与机器学习不同,深度学习一步到位,过程中包含了各层特征提取以及分类器,这些都是可以训练的。深度学习逐渐被应用于各个领域,同时伴随着气象观测技术的进步,台风最佳路径资料和与台风相关的气象资料已经构成了海量数据库。基于此,越来越多的研究人员开始将深度学习在其他领域的成功经验借鉴到西北太平洋台风路径预测,旨在提高传统方法的预测精度,最大程度降低台风灾害带来的损失。同时伴随着 Tensorflow 、 Pytorch[7]等深度学习框架的开发,已经能够满足以大数据为支撑的深度学习网络。基于此,利用深度学习的方法提高台风路径预测精度成为可能。

为了解决传统卷积神经网络(convolutional neural network,CNN)模型[8]处理台风卫星云图无法简单高效提取热带气旋(tropical cyclone,TC )的背景信息以及 普通神经网络很难对台风序列数据建模的问题。并且考虑到过去台风路径预测只局限于单一模态的数据,故本文提出了基于循环神经网络的多元时间序列预测模型,内容包括问题概述、模型评价指标和循环神经网络的模型设计。最后用处理好的包含中国气象局(CMA)台风最佳路径数据集和欧洲中期天气预报中心(ERA5)数据集两种资料的多元时间序列数据训练3种循环神经网络[9]并预测未来 6、12、24 h的TC中心位置,最后对比3种模型在测试集上的预报效果。本文聚焦于西北太平洋TC中心位置信息的预测研究,本质上是一个典型的回归任务,即用过去连续N个TC中心的历史经纬度信息以及TC中心周围的环境信息预测未来时刻的TC中心位置。具体为:台风多元时间序列经过数据预处理后按照一定比例而划分训练集和测试集,然后以循环神经网络为核心搭建3种网络模型,预设好模型训练停止的条件。将数据集以滑动窗口的方式去匹配模型要求的输入方式,通过滑动窗口的方式将数据集切分成N×M个样本,将滑动窗口大小的数据作为其中一组数据输入模型进行训练。每轮训练结束时根据提前设定好的停止条件对模型进行判断。若模型输出满足训练停止条件,则输出模型;反之,则继续训练模型,不断提高模型泛化能力直至能满足停止条件。最后将训练好的模型用于测试集上,比较3种模型的预测效果,验证循环神经网络能否有效利用多元时间序列数据时序性特点提高预测精度。

1 循环神经网络模型简介

使用3种循环神经网络对TC路径进行预测。将通过滑动窗口的方式设定不同的时间步长,实现不同历史长度预测对比,完成对台风路径6、12、24 h的预测任务。3种循环神经网络都采用双层设计,其中隐藏层节点数设为32。下面将以步长为3、神经元单元为LSTM单元来简述模型网络架构,如图1所示。

为X1 在t-1时刻的输入;为X2 在t-1时刻的输入;为X1 在t时刻的输入;为X2 为t时刻的输入; 为X1 在t+1时刻的输出; 为X2在t+1时刻的输出;y1、y2表示输入

该模型是一个典型的简单循环神经网络结构,由输入层、隐藏层(循环层)、输出层组成,隐藏层沿时间维度从左到右展开,隐藏层之间链接为了保证前序信息向后传递,同时这里隐藏层神经元用长短期记忆神经网络(long short term memory,LSTM)单元代替。其他结构相应的更改主要是隐藏层神经元,其余部分不变。

2 循环神经网络数据准备

2.1 数据资料说明

采用的TC资料为中国气象局热带气旋资料中心提供的热带气旋最佳路径(China Meteorological Administration-Best Track,CMA-BST)数据集。数据集时间分辨率为6 h,即每天的00:00、06:00、12:00和18:00;其空间分辨率为0.1°×0.1°,即经纬度坐标值精度为0.1°,本文使用的大气数据为欧洲中期天气预报中心(European Centre for Medium-Range Weather Forecast,ECMWF)提供的1959年至今全球气候第五代大气再分析资料集ERA5。该数据提供了包括200、300、500、700、850 hPa 5个不同气压层的UV(U是东西风上的分量,西风为正;V是南北风上的分量,南风为正)风、温度、位势高度,其空间分辨率为0.25°×0.25°。

2.2 数据预处理

2.2.1 数据筛选与时空匹配

使用的ERA5数据集的空间分辨率和CMA-BST数据的空间分辨率不一致,因此在输入模型之前,必须对所需数据进行严格预处理。对于时间分辨率,首先CMA-BST数据需要进行筛选,剔除与训练要求不一致的记录点,然后根据筛选后的CMA-BST数据中的TC记录点找到对应的ERA5数据中所对应的时间点,实现两种数据在时间上的匹配,对于空间分辨率不同,选择对ERA5数据进行插值,实现两类数据的空间匹配。又因为两种数据在维度上不一致,要想串联起来形成多元时间序列数据,需要对ERA5数据进行降维处理。选择插值之后求取空间范围的平均值。经过降维后进行拼接,形成最终的实验数据。

2.2.2 数据组织与划分

通过数据组织后形成的多元时间序列数据就可以有效输入模型中。为了模型更好地训练和验证评估,将1959—2014年的数据中80%作为训练集,剩下的20%作为验证集。同时为了将模型预测的效果可视化,将挑选2015年22号台风彩虹、2016年01号台风尼伯特、2017年03号台风南玛都、2017年04号台风塔拉斯,这4条台风路径作为测试数据。

3 模型评价指标

为了评估模型预测的准确性,使用均方误差(mean square error,MSE)函数作为损失函数。为了验证模型对于测试数据的效果,将使用路径平均距离误差(mean distance error,E)公式和平均绝对误差(mean absolute error,MAE)表示预测经纬度点和真实经纬度点之间的差异。MSE的计算公式为

(1)

(2)

(3)

MAE的计算公式为

(4)

E的公式为

(5)

式中:R为 地球半径。

4 循环神经网络模型构建

4.1 模型训练流程

使用沿时间反向传播(back prop)算法,包括以下4个步骤。

(1)前向传播。输入台风多元时间序列数据计算每个神经元的输出值。

(2)反向传播。一个批次数据前向传播完得到输出值后反向传播计算每个神经元的误差项,它是误差函数对神经元的偏导数。

(3)计算每个权重的梯度。

(4)最后再用随机梯度下降算法更新权重。

4.2 建模检验指标

滑动窗口的大小就是每次输入数据的长度,实验了不同历史长度下模型的优劣来决定滑动窗口的大小。实验中分别使用的窗口大小有6、8、10、12 h,控制模型都为LSTM网络预测24 h台风路径,用E值来判定模型优劣。实验结果见表1。

表1 滑动窗口大小选择

从表1中可以看出,当滑动窗口大小为8 h,模型表现出来的性能更好。因此本文选择的滑动窗口大小为8。

4.3 预测对比分析

分析3种模型在不同预测长度下的表现,预测时效包括6、12、24 h。利用LSTM模型对前42 h(即滑动窗口为8,一次8条记录),预测后6、12、24 h台风中心位置。

如图2所示,利用 LSTM 预测台风6 h中心位置,训练过程中的损失值由最初的0.005 68下降到0.000 75,并且稳定在这个数值。

图2 LSTM 预测6 h台风路径的模型 loss 曲线及经纬度预测曲线

如图3所示,利用LSTM预测台风12 h中心位置,训练过程中的损失值由最初的 0.015 下降到 0.001,并且稳定到这个数值。

图3 LSTM 预测12 h台风路径的模型 loss 曲线经纬度预测曲线

如图4所示利用LSTM预测台风24 h中心位置,损失函数曲线可以观察到,训练阶段的损失值由0.017 6下降到0.003 8,并趋于平稳。可以观察到训练损失曲线和验证损失曲线拟合程度高,差距小,说明在24 h预测时batchsize设置合理。预测效果相比于预测时效12 h的差很多。但总体预测效果还是在合理范围内,其中E值为173.15 km。相对于循环神经网络(recurrent neural network,RNN)模型预测24 h台风路径,提升了41.45 km,因此验证了LSTM模型在长序列预测中的有效性。整体看LSTM预测台风路径,随着预测时效的增加预测效果逐渐降低,但6 h与12 h的预测效果接近,原因在于LSTM与RNN模型相比更加复杂,对于长序列预测更加精确。

图4 LSTM 预测24 h台风路径的模型 loss 曲线及经纬度预测曲线

但考虑到LSTM模型复杂度高参数多。为了降低模型复杂度同时保证模型性能,利用RNN模型对前42 h(即滑动窗口为8,一次8条记录),预测后6、12、24 h台风中心位置。

如图5所示,训练过程中损失值由第一轮的0.006 27逐渐稳定减小至0.000 66,loss值开始趋于稳定。训练过程中出现最大 loss 下降即第一轮训练中,降幅为 0.005 61。

图5 RNN预测6 h台风路径的模型loss曲线及经纬度预测曲线

如图6所示,对于预测时效12 h,训练过程中损失值由第一轮的 0.008 47逐渐稳定减小至0.000 56,loss值开始趋于稳定。训练过程中出现最大loss下降即第一轮训练中,降幅0.006 38。本次训练一共68轮,之后模型就停止训练。

图6 RNN 预测12 h台风路径的模型loss曲线及经纬度预测曲线

如图7所示,对于预测时效 24 h,训练过程中损失值从最开始的 0.011 8下降到0.004,下降幅度达到0.007 8。由预测值与真实值曲线观察来看,拟合效果很差,同样的纬度方向预测效果更好一些。整体的预测效果相对于6 h和12 h的预测效果来看要差很多。其中E值为214.60 km。随着预报时效的延长,预报的精度逐渐下降[10],但是其效果还是比多层感知机(multilayer perceptron,MLP)效果要好[11]。RNN模型在直线路径阶段预测效果很好,并且能够预测台风路径的大致走势。此外也可以观察到 RNN 模型随着预报时效增加,其预报误差已经超过了 200 km,为了更进一步解决长时效预测误差较大的问题,利用门控循环神经网络(gated recurrent unit, GRU)模型对前42 h(即滑动窗口为8,一次8条记录),预测后6、12、24 h台风中心位置。

图7 RNN预测24 h台风路径的模型 loss曲线及经纬度预测曲线

如图8所示,利用 GRU 模型对路径进行预测,首先预测时效为6 h,可以看出损失函数拟合程度很好。对于预测曲线,可以观察到经度曲线和纬度曲线预测效果都很好,整体预测效果和 LSTM 模型预测效果接近,其中E值为106.03 km,预测精度略低于LSTM模型, 同时略高于 RNN 模型。

图8 GRU 预测6 h台风路径的模型 loss曲线经纬度预测曲线

如图9所示,预测时效为12 h时,GRU 模型同样表现优异,和LSTM模型预测情况类似。但是在中低纬度区域出现一定程度的波动。这也说明 GRU 模型预测能力也并不是无限的, 对于超过一定阈值之后的预测效果反而不好,其中E=123.98 km 。与 LSTM 模型的预测情况相比,预测精度降低18.92 km,这说明GRU模型虽然在参数上减少了很多,但是预测效果却不及LSTM。

图9 GRU预测12 h台风路径的模型loss曲线及经纬度预测曲线

如图10所示,预测时效为24 h时,GRU模型在预测结果上看也和 LSTM 相当。整体预测效果较差但也在合理范围之内,其中E=193.89 km,相比于LSTM 模型预测误差高了20.74 km。3种循环神经网络的预测性能对比见表2。

表2 3种循环神经网络的预测性能对比

图10 GRU预测12 h台风路径的模型loss曲线及经纬度预测曲线

5 结论与讨论

综合以上3种模型在不同预测时效的表现,可以得出以下结论。首先是RNN模型在3个不同预测时效上的表现,说明了RNN对于长时间序列预测效果不好。预测时效越长预测的效果越差。在LSTM模型和GRU模型预测上就很好地解决了这一点,可以观察到不同预测时效下其预测效果大致相同。说明它们的内部复杂的结构对于长序列预测很有效。另外在经度方向和纬度方向的预测上,这三者对于高纬度区域、高经度区域以及纬度范围在10°~20°内的预测效果都较差[12],这些区域大部分都是台风消亡的洋面或登陆后的陆地区域。但两种变体模型整体还是要优于RNN模型。此外从表2中可以看出,3种模型不论预测时效多长,预测出来的纬度方向的误差都小于经度方向误差。最后考虑到台风预测时效太短意义不大,同时也考虑到本文中选择的隐藏层节点数不多,GRU模型简化LSTM模型的程度不大,预测精度也略低于LSTM模型。因此参考各方面的因素,认为利用LSTM网络对未来24 hTC中心位置的预测具有可行性和可参考价值。

猜你喜欢
时效台风神经网络
台风过韩
台风来了
神经网络抑制无线通信干扰探究
台风爱捣乱
J75钢的时效处理工艺
一种新型耐热合金GY200的长期时效组织与性能
环保执法如何把握对违法建设项目的追责时效?
基于神经网络的拉矫机控制模型建立
复数神经网络在基于WiFi的室内LBS应用
基于支持向量机回归和RBF神经网络的PID整定