全球高分辨率海洋预报系统中的SST 预报偏差校正

2023-07-29 11:48谢波涛黄必桂尹训强王志翔杨永增
海洋科学进展 2023年3期
关键词:个数校正偏差

刘 波,谢波涛,黄必桂,尹训强,王志翔,杨永增

(1. 自然资源部 第一海洋研究所,山东 青岛 266061;2. 自然资源部 海洋环境科学与数值模拟重点实验室,山东 青岛 266061;3. 山东省海洋环境科学与数值模拟重点实验室,山东 青岛 266061;4. 中海油研究总院有限责任公司,北京 100028)

随着社会的发展,陆地资源不断被消耗,各国纷纷将目光转向海洋索取资源,加快了海洋研究进展[1]。由于海洋资源开发带来的海洋活动日益增多,海洋预报技术越来越受到人们的关注和重视。海洋预报基于对海洋过去和现在的状态与演变规律,结合数值模式、观测结果和数据同化等多种手段,对不同时空尺度上的海洋现象及海洋状况(海水温度及盐度、海流、潮汐、海浪和海冰等)进行预测[2]。海表面温度(Sea Surface Temperature,SST)是一个非常重要的海洋水文要素,它不仅是表征地球表面能量平衡的重要参数,也是衡量海水热量的关键指标,对全球的气候以及生态系统有着重要影响[3]。因此对SST 的变化规律进行研究和预报预测是海洋和大气研究与应用的一项重要内容。目前对SST 预报预测的常用方法主要有两种[4-5]:一种是数值方法(动力学方法),即利用动力学、热力学方程建立模型,给定初始状态和边界条件,利用高性能计算机计算来实现对未来状态的预报预测[5-6];另一种是数据驱动方法,即统计预报或机器学习方法,从历史数据中寻找规律建立预报预测模型[5,7-8],数据驱动模型可以从大批量原始数据中学习物理特征,对未来进行预测,弥补了部分海洋领域数据缺失和理论的不足[9-10]。近年来,机器学习领域出现的深度学习技术已经证明了其比传统的基于物理或统计的算法有着更显著的优势[11-15]。数值预报由于观测数据的时空分辨率不够、数据自身误差、观测仪器系统偏差或观测误差等限制引起的初始误差,人们对于运动规律认识的局限性导致模式对物理过程描述尚未完全准确,数值求解过程的离散化、截断误差、舍入误差引起的模式误差等各种因素,使得数值预报结果与真实状态之间存在一定差异[16-20]。

到目前为止,在结合数值预报模式进行预报误差校正方面研究已有相关报道,尹姗等[21]利用ECMWF(European Centre for Medium-Range Weather Forecasts)模式结果和站点观测资料之间的差异分别用滑动平均和历史偏差对模式预报温度进行误差校正,2 种校正方法都能校正模式的系统偏差,但是无法校正变温时间的误差。韩玉康等[22]根据1992—2006 年15 a 的卫星观测资料和NERSCHYCOM(Nansen Environmental and Remote Sensing Center-Hybrid Coordinate Ocean Model)模式数据得到历史偏差序列,建立自回归模型来预测误差对模式结果进行校正,一定程度上提高了模式的准确性,自回归模型在求解的过程中,误差和随机干扰序列需要满足一定的限制条件,并不是所有的偏差数据都可以满足其限制条件,更普适的方法有待进一步研究。张培军等[23]利用GHRSST(Group for High Resolution Sea Surface Temperature)数据和南海业务化SST 模式预报结果的偏差,校正下一时刻的预报结果,整体上降低了模式偏差,但是此方法在SST 变化剧烈时不适用。

预报结果与观测之间的差异随时间的变化,不但反映了变量本身的时间演变特征,同时也体现了模式误差随时间的变化,本文尝试直接对模式偏差进行预报,进而校正数值预报结果。本文分别采用线性回归模型和单点长短期记忆神经网络(Long Short-Term Memory,LSTM)模型[24]预报模式偏差,然后将得到的偏差的预报结果重新插值到模式网格点,并对数值预报结果进行校正。采用线性回归模型和单点的LSTM[24]模型预报模式偏差时,对偏差的时间序列没有额外的条件限制,具有较强的普适性,同时也便于推广到其他海洋预报要素的误差校正。在对比两类方法的基础上,本文对二维变量、三维变量的校正进行了初步探索。实验采用自然资源部第一海洋研究所全球高分辨率海洋 预 报 系 统[25]( The surface wave-tide-circulation coupled ocean model developed by First Institute of Oceanography,MNR,China,FIO-COM,简称FIO-COM 预报系统)24 h 的 SST 预报结果进行误差校正,期望进一步提高预报产品的精度。

1 数据与方法

1.1 数据来源

实验数据包括卫星遥感SST 观测数据和全球预报系统SST 预报结果两类数据。观测数据为来自美国国家海洋和大气管理局(National Ocean and Atmospheric Administration,NOAA)的最优插值海面温度(Optimum Interpolation Sea Surface Temperature,OISST),是多源卫星观测数据的融合产品,将主要来自甚高分辨率扫描辐射计(Advanced Very High Resolution Radiometer,AVHRR)的卫星观测数据和一些船舶、浮标数据通过最优插值进行了融合,其水平分辨率为 0.25°×0.25°,时间分辨率为日平均[26-27]。值得注意的是OISST 数据与FIO-COM 预报系统[25]业务化同化的数据不同。

数值预报结果采用FIO-COM 预报系统的SST 产品,本研究使用前24 h 的温度预报结果作为研究对象。该系统的海洋预报模式是在浪致混合理论[28]的基础上发展的全球首个“海浪-潮流-环流耦合”高分辨率海洋预报模式,在上层海洋的模拟与预测能力[29]等方面有显著优势,同时该系统采用了集合调整卡尔曼滤波器(Ensemble Adjustment Kalman Filter system,EAKF)数据同化方案[30]进一步提高了预报的精度。FIO-COM 预报系统每天业务化预报未来5 d 全球的海浪、潮汐潮流、环流、温度和盐度等海洋环境要素,其水平分辨率为0.1°×0.1°,垂向54 层,时间分辨率为3 h。为了便于对比卫星遥感SST 产品,本文对预报数据进行了预处理,在空间上利用双线性插值的方法将0.1°×0.1°预报数据插值到0.25°×0.25°观测数据的网格点上,同时利用前24 h 的预报数据进行时间平均得到日平均数据。

1.2 实验方法

1.2.1 线性回归模型

考虑到模式的预报偏差随时间的变化具有一定的规律,在长时间上其变化过程并非线性关系,但在某个局部时段内,偏差的变化可以近似为线性。将这一偏差看作时间的函数,在短时间内对其进行泰勒展开,对应的零阶和一阶近似可以统一表示为:式中:e 为模式偏差,由模式预报结果减去观测结果得到;t 为时间;下标n 表示该时段的长度;k和b 分别为线性拟合所得的系数。当k=0 时为零阶线性近似,k≠0 时为一阶线性近似。

将零阶近似和一阶近似对应的线性回归模型分别记为方法A 和方法X,根据不同的时段长度n分别记为An 和Xn。利用最小二乘原理,可得到零阶近似表达式中的系数b 的表达式为:式中:T 为当前时刻;n 为时段的长度。

对应的一阶近似方法Xn 中的2 个系数分别表示为:

本文将利用历史偏差数据计算上述参数,并通过一系列敏感实验,比较利用几天的数据做线性近似预报模式偏差的效果最好。

1.2.2 LSTM 模型

在深度学习领域,LSTM 是为解决长序列训练过程中的梯度消失和梯度爆炸问题而发展起来的一种特殊的循环神经网络,相比循环神经网络(Recurrent Neural Network,RNN),其在长序列中有更好的表现。通过观察偏差的时间连续曲线,发现它的时间演变并没有明显的短周期信号,因此在训练时不能直接固定输入个数[31]。在利用LSTM 预报温度偏差过程中,输入偏差的个数(时间步长)对预报结果影响较大,需要通过实验进行优选。当输入个数为n 时,方法记作Dn。针对SST 预报偏差的LSTM 模型的工作流程如下。

步骤1:按照9∶2 的比例将SST 预报偏差数据划分为训练集和测试集,本实验将2016 年5 月1日至2020 年12 月31 日的数据作为训练集,2021 年的数据作为测试集。

步骤2:利用训练集数据训练模型,输入个数为n,输出个数为1,对应下一时刻的偏差。

步骤3:调整神经元个数和隐藏层的层数得到相对最优模型,然后调整输入天数,分别保存不同输入天数的训练模型。

步骤4:利用训练好的LSTM 模型分别对训练集进行后报实验,对测试集进行预报实验。

步骤5:检验训练集的后报实验和测试集的预报实验结果,分析实验设置的影响。

1.3 实验设计

实验主要包括单点校正实验、多点校正实验和区域校正实验三部分。

1)单点校正实验。针对单点数据,对3 种方法分别进行敏感性实验,比较不同输入个数情况下方法A、方法X、LSTM 各自的校正效果,并比较3 种方法的优劣。

2)多点校正实验。为了避免单点数据具有偶然性,随机选取5 个点开展实验,考察3 种方法对输入个数的敏感性,确定方法A、方法X、LSTM 的最优天数,并比较3 种方法的校正效果。

3)区域校正实验。利用多点实验所确定的3 种方法最优配置,对区域内的每个空间点分别进行模型训练和校正,综合比较3 种方法的表现。

各实验具体设置如表1 所示,单点和小区域的位置如图1 所示。

图1 测试位置分布Fig. 1 Spatial distribution of the test locations

表1 实验设计表Table 1 Design of experiments

2 结果与分析

本研究利用方法A、方法X 和LSTM 对偏差进行预测,进而校正系统的预报产品。首先利用单点数据对3 种方法进行比较,然后在观测网格上随机选取不同纬度上5 个点确定各类方法的最优输入个数,最后利用3 种方法的最优配置开展对西北太平洋区域的校正实验。

2.1 单点海水表面温度校正检验

以太平洋中纬度点(149°52′30″E,34°52′30″N )(图1 中点1)为例进行实验,检验方法A、方法X 和LSTM 的可行性并对这几种方法的校正效果进行对比分析。

图2 给出了位置1 自2017 年1 月1 日至2021 年12 月31 日的24 h 预报校正前后结果与卫星观测的对比,3 个子图分别是利用方法A、方法X 和LSTM 对该点数据校正的结果,反映了观测值、模式校正前后数据的比较结果。图2a 中黑线表示观测值,红点表示原始模式24 h 预报结果,蓝点和绿点分别是选取两种不同天数利用方法A(5 d 平均和10 d 平均,分别记为A5 和A10,后文中的其他天数平均以此类推)校正后的结果,结果表明校正后的模式值都比原始模式值更接近观测数据;图2b 中同样黑线表示观测值,红点表示原始模式24 h 预报平均结果,蓝点和绿点分别是选取2 种不同天数利用方法X(3 d 线性拟合和30 d 线性拟合,分别记为X3 和X30,后文中的其他天数拟合以此类推)校正后的结果,其中X3、X30 大部分时间下的校正值比模式值更接近观测值,但是在偏差出现极值后的某些日期上的校正结果不理想,甚至不如校正前的原始结果。图2c 中,由于LSTM 方法选取不同天数绘制的曲线基本重合,因此只展示输入个数为5(记为D5,后文中的其他输入个数以此类推)的校正结果;绿色虚线是训练集与测试集的分界线,2016 年5 月1 日到2020 年12 月31 日作为训练集,选取2017 年到2020 年的数据来验证训练效果。

图2 观测和预报结果校正前后的SST 时间序列Fig. 2 Observed SST and the simualted and corrected SST from OFS

由图2 可见,训练集中后报检验校正后的模式值与观测值基本重合,训练的LSTM 模型能够刻画偏差的主要变化规律,此模型可以用来对未来偏差进行预报实验。绿色虚线之后为测试集,用来检验模式的预报效果,校正后的模式值比原始模式值更接近于观测,基本与之重合,LSTM 模型能够实现对未来偏差的准确预报。

为了清晰对比校正前后的差异,本文将校正后的绝均差与校正前的绝均差的比值定义为剩余绝均差,其值越小,代表校正效果越好。图3 给出了3 种方法选取不同天数对校正结果的影响,其中图3a 是方法A 取不同天数校正后得到的剩余绝均差,随着天数的减少校正效果变好,利用前一天的偏差作为当前天的偏差进行校正效果是最好的,校正后的剩余绝均差为42.53%。类似地,张培军等[23]利用与本实验中A1 相似的方法对南海存在浮标观测数据的位置进行校正,结果显示24 h 预报的均方根误差从0.85 降低到0.36。图3b 是方法X 取不同天数进行校正后的剩余绝均差,与方法A 类似,同样是取更短的天数进行线性拟合校正结果更好,利用预报当天以前2 d 的数据做一阶线性拟合来预报当天的偏差效果最好,校正后的剩余绝均差为46.34%。

图3 3 种方法对单点校正后的剩余绝均差Fig. 3 Residual absolute mean difference in single correction experiments of the three methods

利用LSTM 来对偏差进行预报,进行训练集数据的自检验,可以证明其模型的可行性并对输入天数进行敏感性实验,然后利用测试集数据来对模型进行预报实验。图3c 是LSTM 取不同天数作为输入进行校正得到的部分训练集(时间范围为2017 年至2020 年)的剩余绝均差。整体来看,输入个数的不同对训练集校正结果影响很小,校正后的剩余绝均差都在35%左右。选取个数太少,校正结果较差,随着输入个数的增多,校正效果略有提升,在选择不同输入个数中,选取30 d 训练效果最好,其剩余绝均差小于35%,输入个数选取5 d 次之。图3d 是LSTM 比较不同输入个数对测试集校正结果的影响,所有的输入个数校正后的剩余绝均差均在28%左右,大大减小了预报结果的偏差;对比不同的输入个数对校正效果的影响发现,测试集中选取输入个数为1 时校正效果与其他输入个数相比较差,随着个数的增加其校正效果略有起伏,但差距不大。

针对单点校正,3 种方法中LSTM 效果最好,方法A 次之,方法X 相对最差,其中LSTM 中的测试集效果优于训练集。理论上来说,利用训练集对模型进行训练,然后利用模型对训练集和验证集进行预报检验,针对训练集的训练效果应该优于验证集的预报结果,但是实际结果却恰恰相反。分析认为原始偏差数据时间序列是出现预报结果优于训练效果的主要原因,如图2c 所示,训练集中模式预报值与观测值交点更多,说明训练集中偏差数据极值出现得更为频繁,反之测试集的偏差相对更稳定,LSTM 模型对极值情况下的预报较差,因此总体来看测试集的校正效果会更好。

为了考察单点偏差校正的通用性,我们选取图1 中的5 个不同纬度的点统计3 种方法下不同天数的剩余绝均差(图4)。由图4a 可见,在A1~A10、A30 中校正结果最好的是A1;由图4b 可见,在X2~X10、X30 中校正效果最好的是X3;由图4c、图4d 可见,LSTM 模型的输入个数除选取1之外,校正效果差别不大。结合图3 来看,校正效果整体来看差别不大,由于随着输入个数增多,训练所需的时间在变长,综合校正效果和计算效率,LSTM 神经网络的输入个数选择5。接下来利用方法A1、方法X3、方法D5 对某一区域进行校正实验,比较零阶和一阶的线性拟合方法,以及深度学习LSTM 神经网络的预报效果。

图4 3 种方法对多点校正后的剩余绝均差Fig. 4 Residual absolute mean difference in multipoint correction experiments of the three methods

2.2 区域海水表面温度校正

选取的区域实验范围为(140°~175°E,9° ~31°N)(图1 中黑框区域),用于比较3 种方法的校正效果。图5a 是2021 年1 月校正前模式预报结果的月平均偏差分布,模式预报结果在所选区域范围内的月平均偏差整体处于(± 1.0) ℃;图5b、图5c 和图5d 分别是方法A1、方法X3 和方法D5 校正后的月平均偏差分布。总体来看,相对于模式预报的原始偏差,校正后的月平均偏差基本都降到了(± 0.2) ℃。方法A1、方法X3 校正后的月平均偏差比D5 更接近0,与后续的绝均差及日偏差概率密度分布得出的D5 校正效果最好不符。其原因在于计算月平均偏差时,方法A1、方法X3 的部分正负偏差相互抵消,而D5 在预报偏差的时候训练的模型是对真实数据的接近,极少出现预报结果在真实结果两侧跳跃的现象,因此D5 的月平均偏差反而比方法A1、方法X3 的大。

图5 校正前后区域月平均偏差空间分布Fig. 5 Spatial distribution of monthly mean difference resulted from the correction

为了量化校正效果并比较3 种校正方法优劣,分析了这一区域的年平均绝均差(图6)与日偏差概率密度分布(图7)。由图6 可见,模式预报结果在选取区域的年平均绝均差分布在0.25~0.47 ℃。由于系统运行中的升级优化,模式预报结果的年平均绝均差随时间在变小,从2017 年的0.45 ℃左右降到了2021 年的0.27 ℃左右。

图6 各实验的区域年平均绝均差统计Fig. 6 Statistics of the yearly absolute mean in different study regions

在按照LSTM 神经网络方法建议划分的训练集时段内(2017 年至2020 年),A1、X3 方法校正后的年平均绝均差明显小于模式预报结果的年平均绝均差,LSTM 的年平均绝均差明显小于模式预报结果的年平均绝均差,且小于方法A1 和方法X3。由图7 可见, 采用A1 和X3 方法校正后的SST偏差比较正前更多集中在0 附近,对偏差进行校正的效果显著;LSTM 比前两者更多地集中在0 附近,表明训练的LSTM 模型可以很好地抓住训练集数据的变化规律,可以用来对未来偏差预报进行检验。

处于验证集时间段的3 种方法校正后的年平均绝均差明显小于原始预报结果的年平均绝均差,其中,LSTM 校正后的年平均绝均差最小,A1 次之,且这2 种方法校正后的年平均绝均差极为接近,X3 效果相对最差,但其年平均绝均差也降低了50%左右。由图7 可见,LSTM 方法校正后的日偏差数据比A1、X3 集中在0 附近的更多。总体而言,在这个区域的校正效果对比中,LSTM 取得的效果最好。

从这些对比图也可以发现,在原始模式预报结果与观测数据相差最大之后的点,也就是偏差极值点之后的位置,方法X 校正后的预报结果与实际值相差较大,这表明方法X 假定的局地线性关系在此处不适用。当偏差随时间变化的极值点比较多时,整体上的校正效果也将不理想。

3 结 语

针对海洋数值预报结果存在的偏差,本文利用零阶线性回归模型、一阶线性回归模型和深度学习中的LSTM 神经网络三种方法进行了实验研究。利用FIO-COM 模式的24 h 预报SST 和卫星观测数据开展了预报偏差校正的一系列实验对比分析,分别采用3 种方法对历史偏差数据进行学习从而对未来时刻的偏差进行预报,试图探讨切实有效对预报产品进行校正的方法。实验结果表明:①线性回归模型和LSTM 神经网络对于单点及区域的模式偏差都有一定的校正效果;②在A1~A10、A30 中A1 校正效果最好,在X2~X10、X30 中X3 校正效果最好,LSTM 神经网络方法的校正效果随着输入个数的减小整体上呈递减趋势,输入个数为1 的时的校正效果相对较差,输入个数从2 到30 对于训练结果和预报结果影响均不明显;③总体来看,LSTM 神经网络的校正效果最好,方法A次之,采用LSTM 神经网络选取输入个数为5 对区域进行偏差校正,可以将绝均差降低70%左右。

综合对比线性回归模型和LSTM 在预报模式偏差中的差异,结果表明LSTM 的结果更好。分析认为是LSTM 神经网络采用了多种函数关系的组合,比单纯的根据泰勒展开中的零阶近似、一阶近似等单个函数关系进行局地回归的做法更具有普适性,可以为校正预报偏差建立效果更稳定的回归模型。从实验结果来看,利用机器学习来对预报偏差进行校正具有潜在的优势,但在推广到业务化应用之前,仍需开展一系列的研究工作。本研究采用的LSTM 模型都只是针对每个点的SST 数据单独进行训练,其计算量庞大,不同空间点上的联系考虑得也不够充分。此外,如何校正海面以下的温度产品仍是一个待解决的问题。我们下一步将从以下2 个方面深入开展相关的研究:①针对LSTM 模型单点训练计算量大、耗费时间长和未考虑空间相关性等问题,进一步完善SST 偏差校正方法;②对于缺少观测值的海表以下的海水温度,结合Argo 浮标等观测数据实现三维温度场预报偏差的校正,结合模式不同物理量之间的内部关系,建立可行方案实现预报系统中其他变量的校正,尤其是有模式预报但是缺乏观测资料的要素变量。

猜你喜欢
个数校正偏差
怎样数出小正方体的个数
如何走出文章立意偏差的误区
两矩形上的全偏差
劉光第《南旋記》校正
等腰三角形个数探索
怎样数出小木块的个数
怎样数出小正方体的个数
一类具有校正隔离率随机SIQS模型的绝灭性与分布
机内校正
关于均数与偏差