卜清军,侯 敏*,王国松,常春辉,王彩霞
(1. 天津市滨海新区气象局 天津300457;2. 河海大学 江苏南京210098;3. 国家海洋信息中心 天津300171)
天津港位于天津市滨海新区,地处渤海湾西端,是吞吐量稳居世界前十的综合性港口。由于近年来极端天气频繁发生,造成较大的经济损失和人员伤亡,围绕港口的各大产业对气象的需求日益增长。灾害性大风[1-5]是天津地区最常见、也是各行各业尤其是港口用户非常关注的灾害性天气之一。比如天津港平台作业,对风速预报精准程度要求极高,一旦风速大于6级就必须停止作业,同时对于突发性大风更是需要及时快速地预报预警以让作业人员从平台安全撤离。在海上航线运输等网络信号差、计算资源限制的情况下,快速获取精准预报预警难度较大,这些都给气象部门提出更高的要求。
数值预报技术是现有最常用的预报手段。但数值模式进行风场预报时需要采用复杂变分方法来同化实时观测数据,同时耗费大量计算资源和时间,很难得到快速的预报结果。对于目前的数值预报模型,在预报初期(前12h)模式结果无法很好地描述大气过程,因此模式前12h的结果通常不能使用[6]。在模拟气象过程中,由于分辨率不足等原因,对小尺度的物理过程不能给予很好的描述[7]。因此,虽然数值模式越来越精细化,但对于实际需求来说,预报网格尺度还是偏大,比如在天津港口区域,作业地点和陆地区域风也是差异比较大。
随着科技的不断发展,人工智能尤其在深度神经网络领域得到了飞速发展[8-15],而大量的气象历史监测数据能为预报研究提供良好的数据基础[16]。将气象观测数据与人工智能相结合是现今气象预报的一个发展方向和研究切入点。Zameer等[17]利用深度神经网络预报风功率,效果不错,而目前针对风速短时预报方面的研究很少,且大部分关于气象要素预报的研究都是基于少量数据的三层神经网络或者支持向量机模型(SVM)等完成[18-19]。
预测风速最大的挑战就是其间歇性和不确定性。经验模态分解(EMD)已广泛应用于分析非线性随机信号。与小波变换和傅立叶变换相比,具有分辨率好,适用范围广的优点。但是,EMD最明显的缺点是模态混叠效应。为了克服这个问题,提出了一种新的噪声辅助分析方法,称为集合经验模态分解(EEMD),并在许多领域进行了测试[20-23]。
本文采用天津滨海新区的国家基本气象监测站——塘沽站代表天津港区域,结合集合经验模态分解和深度神经网络(LSTM)方法,开展在有监督学习情况下的风速快速预报应用研究,建立风速快速预报模型,以此作为现有数值预报模式的补充,为沿海及海上风速预报预警提供新思路,为提高天津港区域海洋气象防灾减灾和快速预报预警能力提供技术支撑。
本文采用的数据来源有:
①国家基本气象监测站(塘沽 54623)历史气象资料,包括风速(SPD)、风向(dir)、气温(Tem)、露点温度(DPT)、能见度(Vis),并利用对数风廓线公式把数据订正到海上10m高度。
②基于欧洲中期天气预报中心(ECMWF)提供的 6h数据,再分析欧洲气象中心资料(ERA-interim),空间分辨率 0.125°×0.125°,包括 10m 径向风(10V)、10m 纬向风(10U)、海温(SST)、2m 气温(T2m)。时间范围2005—2017年,6h间隔。
对数据集进行质量控制,检查数据一致性,删除重复信息和缺省值,并统计数据连续性和数据质量。
构造训练集(2005—2015年)、测试集(2016年)和验证集(2017年),并对训练集进行资料预处理操作,将数据均一化。图 1为预处理归一化之后各相关要素序列。
图1 预处理后测试集主要变量序列Fig.1 Main variable sequence of test set after preprocessing
模态混叠效应是EMD最显著的缺点。这意味着单个基本模式分量(IMF)包含截然不同的信号,或者相同的信号出现在不同的 IMF中。使用 EMD分析信号时,这通常会导致信号中断。为解决 EMD中的模态混叠问题,提出了一种新的噪声辅助分析方法EEMD,在EEMD中,IMF的真正组成部分定义为总体轨迹的均值,每条迹线都包含信号的分解结果以及有限幅度的白噪声[24]。EEMD受益于最近对白噪声的研究,该研究表明,当将EMD应用于白噪声时,它是一种有效的自适应二元滤波器组[25-26]。其结果表明,噪声可以帮助采用EMD方法进行数据分析。
EEMD算法步骤如下:
①在原始风速信号上添加白噪声系列;
②使用EMD将添加白噪声的信号分解为IMF;
③用不同的白噪声重复步骤①和②,并获得相应的IMF分量,重复过程的数目称为集成数;
④将所有 IMF成分的平均值和残基成分的平均值作为最终结果。
时间序列模型最常用的就是递归神经网络(recurrent neural network,RNN),一般用来进行长期记忆计算。而LSTM(长短期记忆网络long short-term memory)[27]模型是 RNN的变型,LSTM 的特点就是在 RNN结构之外添加了遗忘和强化学习[28-31],可广泛应用于气象短时序列预报。本文构建的 LSTM 深度神经网络预报模型中包含 4个 LSTM 层、4个Dropout层和 3个 Dense层,其中输入层是 00时(t-3),06时(t-2),12时(t-1)和 18时(t)4个时刻的结果,输出层是未来6小时(t+1)风速结果,见图2。
图2 LSTM预报模型结构图Fig.2 LSTM prediction model structure diagram
模型建立后,为获得更好的模型性能,再针对塘沽气象站的风速预报模型特点,分别进行调参。同时选择不同的验证集方案和交叉验证方法,利用台站观测资料对预报结果进行对比检验,修正目标函数和外部参数,确定最优的深度神经网络构建方案。表 1给出了 LSTM 神经网络训练的各参数设置。通过引进Dropout正则化技术,遏制过拟合训练数据,努力提高模型的泛化能力和鲁棒性,增强模型的可移植性,方便共享扩展到新的任务和设置上。基于训练好的预训练权重,可以用来进行预测、特征提取和finetune,用于快速预报。图3为训练损失和验证损失值随训练次数的变化曲线,模型总共训练了1400次,可以看到模型误差随训练次数逐渐下降,到400次之后误差值逼近于0线且非常稳定,说明模型有很好的泛化能力和鲁棒性。
表1 LSTM神经网络训练参数Tab.1 LSTM neural network training parameters
图3 训练损失和验证损失序列图Fig.3 Sequence diagram of training loss and verification loss
EEMD-LSTM 风速预测模型主要包括以下 3个步骤:
①原始风速数据被 EEMD分解为具有不同频率的某些更平稳的信号;
②使用LSTM神经网络预测每个IMF和残差r;
③将每个 IMF和残差 r的预测结果合计,以获得最终的风速预测结果。
模型构建完成后,采用相关系数(correlation coefficients,CC)、绝对误差(root-mean-square error,MAE)以及均方根误差(root-mean-square error,RMSE)3种误差统计因子来评估模型预报性能。验证数据采用2017年塘沽站点逐6h实测风速。
图 4对比了欧洲中心数据集(ERA)模式和EEMD-LSTM 模型的风速预测曲线,其中黑色线为实际观测风速值,绿色线为 ERA模式值,红色线为LSTM 模型预测结果。从图中可以看到,基于集合经验模态分解EEMD的LSTM深度学习模型预测结果与实测风速曲线相近,对于天津港区域风速的波动、低风速、大风等特征都预测较好,显著优于 ERA模式。
图4 ERA和EEMD-LSTM模型风速预测曲线Fig.4 Wind speed prediction curve of ERA and EEMDLSTM models
表2给出了ERA和EEMD-LSTM模型各评估因子值,EEMD-LSTM 预测的风速序列与实测值的相关系数(CC)为 0.97,远高于 ERA 模式相关系数0.15。绝对误差和均方根误差也较 ERA模式结果有很大提升,绝对误差(MAE)减小了 1.13m/s,均方根误差(RMSE)降低了 1.68m/s。这说明 EEMD-LSTM模型适用于天津港区域的短期风速预测。
表2 ERA和EEMD-LSTM模型评估因子Tab.2 Evaluation factors of ERA and EEMD-LSTM models
本文提出了一种基于混合EEMD和LSTM深度神经网络的天津港风速预测方法。通过 EEMD,风速数据被分解为不同的IMF和残差r,LSTM神经网络用于预测单个 IMF和残差 r,通过将单个 IMF和 r的预测结果相加可以获得最终结果。采用 2017年天津港区域风速实测数据对 EEMD-LSTM 模型进行验证,该方法的MAE和RMSE分别为0.87和1.04,相关系数高达 0.97,均比 ERA模式预报结果好得多。这表明,本文提出的基于混合EEMD和LSTM神经网络的方法在风速预测中表现良好,适用于天津港区域的短期风速预测。