熊世为,张新民,段春锋,郁凌华,胡姗姗
(1 滁州市气象局,安徽 滁州239000;2 安徽省气候中心,安徽 合肥230031)
气候变化背景下, 极端强降水和大范围干旱等气候事件频发[1],若能认识其变化特征并提前做出较准确的预测, 就能够对政府部门防灾减灾决策部署提供重要帮助。 气象“十三五”规划中明确指出,要“强化延伸期到月、季气候预测业务,提升气候事件预报预测业务能力”[2]。 气候预测是利用气候动力学和统计学等方法, 在研究气候异常特征的基础上进行预测。 国内外学者在气候预测理论和方法方面开展了大量研究[3-17]。我国气候变化受青藏高原、东亚季风和海洋等诸多因素的共同影响, 气候异常的成因非常复杂[4-5],也为气候预测工作带来了难度。 经过多年的发展, 我国的气候预测方法经历了从简单经验统计到动力模式的阶段[6-8],虽然模式产品释用已在月尺度气候预测中取得一定成果, 但其准确率仍达不到业务要求[9],因此研究以数理统计为基础的气候预测方法更适合省级以下气象业务单位。 前人在这方面开展了大量研究[10-17]。 徐炳南[10]利用逐步回归方法构建了基于东亚大槽和北美东岸大槽等环流指数的贵州省夏季旱涝预测模型, 在实际检验中取得了较好的预测效果;陈雷等[11]利用卡尔曼滤波方法建立了河西走廊东部月平均气温预测模型, 模型预测精度较高。 BP 人工神经网络因在非线性函数逼近方面具有很强的自适应能力, 在众多领域得到了广泛应用[12-13],但该方法在网络初始权值、阈值以及网络结构的选择上是随机的, 很难选取具有全局性的初始点,为克服这一不足,当前主流的方法是采用遗传算法(Genetic Algorithm,GA)进行BP 网络初始结构优化,效果明显优于无GA 优化处理[13-15]。目前该方法在气候预测方面也得到了应用[16-17],效果良好。
本研究以地处江淮分水岭的安徽省滁州市为例, 在分析该地区汛期降水多尺度时间变化特征的基础上, 利用国家气候中心提供的百余项环流指数作为预报因子, 建立基于GA-BP 神经网络的汛期降水气候预测模型, 以期为政府部门防汛抗旱决策提供理论依据。
研究所需降水量数据由滁州市气象局提供,以滁州市所辖的7 个站(滁州、来安、全椒、天长、定远、凤阳、明光)汛期(5—9 月)降水量为预测对象,数据时段为1961—2017 年,降水量数据质量较好,个别缺测数据利用空间差值订正。 选择国家气候中心提供的130 项环流特征量指数(http://cmdp.ncc-cma.net/Monitoring/cn_index_130.php) 作为预测因子,具体包括大气环流类(Atm)88 项,海温类(Oce)26 项,其它类(Ext)16 项,数据形式为逐月观测值。 由于业务上需要年初或汛前预测当年的汛期雨量, 因此环流指数的时间段选取对应的1960—2016 年。
集合经验模态分解(Ensemble Empirical Mode Decomposition,EEMD) 具有较强的自适应性和时间上的局部性特点,适用于非线性非平稳序列的时频分析,较小波分析等其他方法能够更好地展示趋势变化和周期信号。该方法主要是对一个信号进行平稳化处理, 将信号中存在的不同时间尺度波动逐级分解开来,自动产生一系列具有不同时间尺度的本征模函数(Intrinsic Mode Function,IMF)。 本文在分解过程中,根据Huang 等人的推荐每次加白噪音的振幅为合成序列标准差的20%,集合平均次数为1000 次[18]。
BP(Back Propagation)神经网络是目前应用最广泛的神经网络模型, 该方法无论在网络理论还是在性能方面均比较成熟, 突出优点就是具有很强的非线性映射能力和柔性的网络结构, 但也存在容易陷入局部极小值,网络层数、神经元个数的选择没有相应的理论指导的缺陷。 遗传算法(GA)是模拟达尔文生物进化论“优胜劣汰,适者生存”过程的计算方法,具有全局寻优的特点,能够较好地弥补BP 神经网络的缺陷。遗传算法优化BP 人工神经网络的核心思路为:放弃BP 神经网络原有的误差反向传播来修正网络权值, 进而选择遗传算法全局性搜索方法来确定最优的BP 神经网络连接权和网络结构,其具体设置参照文献[17]的做法。 本文采用适应度函数作为评价GA-BP 模型的训练效果,表达式为[16]:
式中,F(i)为第i 个遗传个体的适应度,n 为训练样本的个数, yij为第j 个训练样本的期望输出值(预测值),为第j 个训练样本的实际输出值(观测值)。因此,适应度函数与预测值和观测值的方差成反比,F(i)越大,表示二者之间的方差越小,训练效果越好。
为科学评价预测效果, 本文采用交叉验证进行预测效果检验。其具体过程为:假设数据样本长度为n,当预测第i 年的数据时,以去除第i 年的n-1 年资料作为训练样本,第i 年的数据作为测试样本,依次将该过程循环,直到i 遍历了所有年。
采用均方根误差(RMSE)进行模型预报精度评估,表达式如下:
式中cm、co分别表示预报值和实况值,n 为样本数。
基于EEMD 算法将1961—2017 年滁州地区(以滁州站代表)汛期降水量时间序列进行分解(图1), 共分解出4 个从高频到低频不同时间尺度的本征模态(IMF 分量)和1 个表示原始数据总体随时间变化的趋势项(Residue 项),并得出各模态和趋势项的方差贡献率,并对每个IMF 分量做频谱分析以得到每个模态的时间尺度(图2)。
图1 滁州站汛期降水量EEMD 分解后的不同模态
结合图1 和图2 可知,1961—2017 年滁州地区汛期降水最显著的周期特征是准2 a(2.3 a),其方差贡献率为57.13%, 波动频谱能量峰值超1×105dB,最大振幅在±300 mm 左右;IMF2 表示一个准4 a的波动周期,其方差贡献率为21.63%,波动频谱能量峰接近5×104dB, 最大振幅在±200 mm 左右,但2000 年之后振幅很小;IMF3 表示准11 a(10.7 a)的年代际周期信号,其方差贡献率为11.15%,波动频谱能量峰值超1×104dB,最大振幅±150 mm 左右;IMF4为一个准16 a 的年代际周期信号, 方差贡献率分别为9.4%,其波动频谱能量峰值接近2×104dB,最大振幅接近±100 mm;趋势项的方差贡献率为0.69%。 从趋势项可以看出20 世纪80 年代之前滁州地区汛期降水是一个显著上升时期, 趋势上升幅度接近100 mm,20 世纪80 年代—2000 年代是一个下降时期,趋势下降幅度30 mm 左右,2000 年后又是一个较明显的上升趋势,趋势上升幅度接近50 mm。
表1 相关分析初选预测因子
2.2.1 预测因子选取
图2 EEMD 本征模态的频谱分析
在提取预报模型的输入因子初选时,通过对预报对象与上一年度1—12 月130 项环流指数进行相关分析,在1560 个(130×12)环流指数中得到26 个通过0.05 的显著性水平检验的指数(表1)。
若直接利用上述初选出的26 个因子作为模型输入变量,会使得模型运算量偏大,且26 个因子之间也存在信息重叠的问题。如海温类指数第15 项的10 月和5 月值与次年汛期降水量相关系数分别为0.34 和0.33,通过显著性检验(表1),但二者同时作为预测模型输入变量显然会信息重叠。鉴于此,本文对上述26 个初选因子进行主成分分析,选择累计贡献率超过90%的前13 个主成分作为预测模型的输入变量(表2),这样做虽然有接近10%的信息损失,但模型输入变量大大减少且相互间没有重叠信息。
表2 主成分分析结果
2.2.2 预测效果分析
为分析GA-BP 模型预测效果及前文选择预测因子时利用主成分分析处理效果, 本文设计2 种方案:方案1,直接利用初选的26 个因子进行GA-BP模型预测;方案2,利用主成分分析再筛选得到的13个因子进行GA-BP 模型预测。 以滁州站为例,利用2 种方案的模型训练效果见图3。 在GA-BP 模型训练期间, 方案2 的适应度在大部分时段内都高于方案1,在进化结束时方案1 的适应度为3.4,而方案2 的适应度达到3.8,说明方案2 的训练效果优于方案1。
两种模型的交叉验证结果见图4,可以看出2 种方案中大部分散点都在1:1 线附近,预测效果良好,其中方案2 的散点较方案1 更聚拢, 且对极值的预测效果也明显好于方案1。 方案1 的交叉验证均方根误差RMSE 为139 mm, 预测值和实际值之间的判定系数R2为0.39,而方案2 的RMSE 为122 mm,判定系数R2达0.53,方案2 预测精度高于方案1。
表3 给出的是GA-BP 模型两种方案在滁州地区7 个站的预报效果对比。 可以看出,方案1 对各站预报值和实际值之间的判定系数R2在0.34~0.42,平均R2为0.37,均方根误差RMSE 在112~131 mm,平均均方根误差RMSE 为122 mm;方案2 对各站预报值和实际值之间的R2在0.48~0.55, 平均R2为0.51,RMSE 在135~151 mm,平均RMSE 为144 mm。
表3 GA-BP 模型的两种方案在滁州地区的预报效果
本文利用集合经验模态分解EEMD 方法分析了江淮分水岭地区滁州站1961—2017 年汛期降水的多尺度时间变化特征, 以国家气候中心提供的百余项环流指数作为预报因子, 建立基于GA-BP 神经网络的汛期降水气候预测模型,主要研究结论如下:
(1)该地区1961—2017 年汛期降水存在准2 a、4 a 的年际尺度周期变化特征以及准11 a 和16 a的年代际尺度周期变化特征,总体变化趋势为在20世纪80 年代之前、20 世纪80 年代—21 世纪及21世纪以来分别对应增大—减少—增大的趋势。
(2)在选择预报因子时进行两种试验方案,方案1 是直接利用相关分析得出的26 项因子进行预测,方案2 是在相关分析的基础上再进行主成分分析,选择累计贡献率达到90%的前13 项因子进行预测,预测效果良好,对滁州地区7 个站的预测误差分别为122 mm 和144 mm,方案2 优于方案1。
人工神经网络技术在气象预报和气候预测领域已经得到广泛运用, 本研究对环流指数进行相关分析和主成分分析得到预测因子, 在此基础上建立了基于GA-BP 神经网络模型的站点汛期雨量预测方法,在安徽省内的预测效果良好。我国幅员辽阔但影响气候的因素十分复杂,不同地区的气候特点迥异,该方法能否适用于其他地区值得进一步研究。