程亮,刘家峻,刘科峰,余丹丹,余运河
(1.中国人民解放军61741部队,北京市 100081;2.解放军理工大学气象学院,江苏省 南京 211101)
基于小波分解和最小二乘支持向量机的ENSO集成预测
程亮1,刘家峻1,刘科峰2,余丹丹1,余运河1
(1.中国人民解放军61741部队,北京市 100081;2.解放军理工大学气象学院,江苏省 南京 211101)
用小波分解和最小二乘支持向量机相结合的方法,建立了 ENSO的集成预报模型。该方法将复杂海温系统分解为相对简单的带通分量信号,然后建立分量信号的独立预报模型,最后对预报结果进行集成。试验结果表明,模型在保留预报对象主要特征的前提下,有效地降低了预报难度,集成预报准确率和预报时效均较传统方法有明显的改进和提高。
小波分解;最小二乘支持向量机;赤道海温
Abstract:Using the method of combining wavelet decomposition and least squares support vector machine,the integration prediction model of ENSO is established.With this method,the SST system is decomposed into a relatively simple band-pass component signals,then an independent forecasting model of component signals is set up,and the prediction results are integrated.The results show that while retaining the main features of the predicted objects,the model effectively reduces the difficulty of forecasting; integrated forecasting accuracy and forecasting timeliness are significantly improved and enhanced than that of the traditional methods.
Keywords:wavelet decomposition; least squares support vector machines; equatorial sea surface temperature
ENSO是目前为止唯一已经确认的真实的全球尺度振荡,也是迄今为止人类所观测到的全球大气和海洋相互耦合的最强信号之一。ENSO的发生将会对世界许多地区的气候产生重大影响,是引起全球大气环流和水分循环异常的重要原因,因此,近20年来 ENSO研究一直是短期气候变化方面的一个研究焦点[1-4]。ENSO实际上由两个分量组成,第一个分量(主要对海洋)称为El Niño,第二个分量(主要对大气)是指南方涛动(SO: Southern Oscillation)。60 年代中期 Bjerknes的一系列经典著作推进了大气与海洋相互作用的研究,他提出 El Niño和SO事实上是热带太平洋大尺度海气相互作用同一现象的两个方面。另一方面,Philander 也提出 El Niño 和 La Niña 也是互补的,由暖的 El Niño位相和冷的La Niña位相组成一个南方涛动循环[5]。目前,多数学者使用赤道东太平洋的海温距平来表示 El Niño 的 发 生,把 Niño3 区( 5°N~5°S,150°W~90°W)的 SST距平连续 3个月大于 0.5℃为El Niño爆发的标准。南方涛动通常用南方涛动指数(SOI,定义为Darwin与Tahiti间的海面气压差)表示[6]。
以El Niño/La Niña为显著特征的赤道东太平洋海温是复杂的非线性系统,El Niño/La Niña的发生发展机制和影响制约因子及动力作用过程目前尚未彻底弄清,因此对它的准确预测仍是一项十分复杂和困难的工作。鉴于Niño3区海温和南方涛动指数的密切相关性,我们选用超前的Niño3区海温和南方涛动指数作为预报因子,采用小波分解与最小二乘支持向量机相结合的方法,外推预测其后的海温状况。
分析资料为美国国家环境预报中心 NCEP(National Center for Environment Prediction)和美国国家大气研究中心 NCAR (National Center for Atmospheric Research)及美国综合海洋大气资料集COADS (Compositive Ocean and Atmosphere Data Sets)提供的 1958.1-1995.10共 454个月的 Nino3区 5ºS-5ºN,150ºW-90ºW 范围海温月平均距平时间序列。(该区域海温常被用于表示El Niño/La Niña的发生发展。
支持向量机(Support vector machine.SVM)方法是近年国际上开始流行的一种新颖的处理非线性分类和回归的有效方法。它以Vapnik提出的统计学习理论为基础,将样本空间映射到一个更高维以至于无穷维的特征空间,在特征空间中把寻求最优回归超平面问题归结为一个凸约束条件下的二次凸规划问题,从而求得全局最优解。Suykens等[6]提出的最小二乘支持向量机是支持向量机的一种,它是将标准支持向量机算法中的不等式约束转化为等式约束而得到的。对非线性回归问题,设训练样本为。非线性回归函数为:
对于最小二乘支持向量机,优化问题变为
求解式(5)的优化问题,可以引入Lagrange函数
式中,ai为Lagrange乘子;常数 >0,它控制对超出误差的样本的惩罚程度。最优的ai和b可以根据KKT(Karush-Kuhn-Tuchker)条件得到
由式(2),优化问题转化为求解如下的线性方程
最常用的核函数有多项式核函数、RBF核函数、Sigmod核函数等。
1988年S.Mallat在构造正交小波基时提出多分辨分析(Multi-Resolution Analysis)概念,从空间的概念上形象地说明了小波的多分辨率特性,给出了正交小波的构造方法以及正交小波变换的快速算法,即Mallat算法。对多分辨率的理解,可从一个3层分解结构说明,其小波分解树如图3。小波分解的最终目的旨在构造一个在频率上高度逼近原始信号的正交小波基,这些频率分辨率不同的正交小波基相当于带宽各异的带通滤波器[11]。从图3可以看出,小波变换的多分辨分析主要对信号的低频空间作细致的分解,使其低频部分的分辨水平越来越高。分解重构关系为:。若要作进一步分解可继续将低频部份a3分解为低频a4和高频d4,以此类推。
图1 小波频率分解结构Fig.1 Frequency structure of wavelet decomposition
Niño3区海温可看作一个复杂的信号,利用小波分解能够将复杂信号进行频率(周期)分离的特性,将Niño3区海温序列分解为相对简单的低频信号和高频信号,然后,用最小二乘支持向量机分别对低频信号和高频信号建立预测模型。最后将预测得到的各频段信号进行重构,即可得到最终预测值。
采用最小二乘支持向量机对Niño3区海温进行预测,其预测步骤如下:
a)考虑到分解重构会引起累积误差,因此分解水平不宜过高。本文用 sym5小波基对sst进行 5层分解,分别提取 1~5层的高、低频系数,然后对各层高、低频系数进行重构,得到各频带的信号序列。实际副高面积指数变化可通过上述 1~5层高频和第 5层低频的重构信号之和可以精确地获得。
b)分别建立1~5层高频和第5层低频共5个频段信号各自的LS-SVM预测模型,即利用超前3,4,5个月的海温预测第6个月的海温值。设P,T分别为SVM模型的预报因子输入和预报结果输出序列。即:
则每一时次的训练数据对为
c)分别将每个频段的独立检验样本、模型参数代入到对应的每个模型,可得各频段的预测信号,重构各频段的预测信号,并对重构后的信号反归一化,即可得预测的海温值。
为检验最小二乘支持向量机模型的独立预报效果,将454个月的样本分为两部分,第一部分取前355个月,用于模型的建立和测试,在建立模型的过程中,采用k-折交叉检验的方法,其基本思想是把l个样本点随机地分成k个互不相等的子集,即k-折。每个折的大小大致相等,共进行k次训练与测试,即对进行k次迭代,第i次迭代的做法是,选择Si为测试集,其余的合集为训练集。本文取k=10。第二部分为后 89候,用于模型的独立检验和预报优化效果的评估。该部分资料不参与模型的建立。
图2 观测值和预测值比较图Fig.2 Comparison of observed values and predicted values
各频域分量的LS-SVM模型集成结果均比较准确的逼近实际信号(相关系数分别为0.9261,置信度,在总体趋势上和局部细节上均很好的逼近了实际信号。尤其是对海温的几次异常变化的预测均比较准确。
神经网络和线性回归方法是气象资料分析和要素预测中的常用的方法,为了评估和比较最小二乘支持向量机模型的预报效果和技术优势,我们采用同样的数据资料,分别建立了Niño3区海温的神经网络、并与WT~LS-SVM模型的输出结果进行对比。表1为两种预报模型独立检验结果与Niño3区海温的相关系数。从表1的可以看出,最小二乘支持向量机模型的独立检验的相关系数均高于神经网络。上述的对比试验结果表明,本文所采用的小波分解和最小二乘支持向量机相结合的方法对Niño3区海温预报对象的把握和描述较前面较神经网络和线性回归模型更为恰当和准确,表现出较好的预报效果和技术优势。
表1 不同模型预报结果与实际值相关系数Tab.1 Correlation coefficient of predicted results by different models and the actual value
本文首先引入小波分解和最小二乘支持向量机模型相结合的集成预报方法用于Niño3区海温及El Niño/La Niña的预测研究。该方法在保留预报对象主要特征的同时,有效地降低了问题的复杂性,因而显著提高了预报准确率。由于小波方法能够准确分解和重构带通、低通信号,其频域-时域分辨率能够自由伸缩,因此利于简化系统、提取特征,而模糊系统及 ANFIS模型具有高度的非线性、容错性、自适应性和联想学习功能。因此在研究和预测Niño3区海温等复杂现象时,上述方法具有明显的优越性。
试验结果表明,用小波分解重构与最小二乘支持向量机相结合的方法来逼近和预测赤道东太平洋海温及El Niño/La Niña事件,理论上合理、技术上可行,预报效果优于常规的预报方法,预报结果有参考应用意义。
[1]何金海,宇婧婧,沈新勇,等.有关东亚季风的形成及其变率的研究 [J].热带气象学报,2004,20(5): 449-459.
[2]Pan Y H,Oort A.Global climate variations connecled with sea surface temperature anomalies in the eastern equatorial Pacific Ocean for the 1958~73 period [J].Mon Wea Rev.1983,111(6): 1 244-1 258.
[3]陈海山,孙照渤,倪东鸿.Niño C区秋季海温异常对东亚冬季大气环流的影响 [J].热带气象学报,2002,18(2): 148-156.
[4]邹力,吴爱明,倪允琪.在准两年尺度上ENSO与亚洲季风相互作用的研究 [J].热带气象学报,2002,18(1): 19-28.
[5]刘科峰,张韧,余鹏,等.基于小波分解和最小二乘支持向量机的西太平洋副高预测模型 [J].热带气象学报,2007,23(5):491-496.
[6]赵其庚.海洋环流及海气耦合系统的数值模拟 [M].北京: 气象出版社,1999,179-182.
[7]Bart Kosko.模糊工程(黄崇福译)[M].西安: 西安交通大学出版社,1999.
[8]李士勇.模糊控制.神经控制和智能控制论 [M].哈尔滨: 哈尔滨工业大学出版社,1998.
[9]Roger Jang J S,Sun C T,Mizutani E.Neuro-Fuzzy and soft computing: A computational approach to learning and machine intelligence [M].Prentice-Hall,Inc,1997.
[10]T Takagi,M Sugeon.Fuzzy identification and its application to modeling and Control [J].IEEE SMC.15(1),116-132,1985.
[11]胡昌华.基于Matlab的系统分析与设计-小波分析 [M].西安:西安电子科技大学出版社,1999.
[12]李崇银.气候动力学引论 [M].北京: 气象出版社,1995.
ENSO integration prediction based on wavelet decomposition and least squares support vector machine
CHENG Liang1,LIU Jia-jun1,LIU Ke-feng2,YU Dan-dan1,YU Yun-he1
(1.61741 Army Force of PLA,Beijing 100081; 2.Institute of Meteorology,PLA Univ.of Sci.& Tech.,Nanjing 211101,China)
P732
A
1001-6932(2010)04-0367-05
2009-09-18;
2009-12-21
程亮(1981-),男,博士,工程师,主要从事气象水文研究。电子信箱:by_chengliang@yahoo.com.cn