邓小花,魏立新,黄焕卿,张润宇(国家海洋环境预报中心,北京100081)
运用支持向量机方法对数值模拟结果的初步释用
邓小花,魏立新,黄焕卿,张润宇
(国家海洋环境预报中心,北京100081)
摘要:基于获得的海水浴场逐日两次观测资料及同期NCEP数值模拟结果(提取各种相关变量),通过求取两者之间的相互关系,并采用最优子集方法确定了对各预报要素具有重要意义的影响因子。针对海水浴场的气温、降水及能见度等要素的预报,应用支持向量机方法建立了相应的预测模型,最终获得不同海水浴场在不同预报时效、不同预报要素的数值产品释用结果。经过对比分析,各预报要素释用后的结果较释用前在预报准确率方面有较大的提高。
关键词:支持向量机方法;NCEP数值模拟结果;释用;气温;降水;能见度
支持向量机(Support Vector Machines简称SVM)是Vapnik V N等人提出的基于统计学习理论的小样本学习方法[1-2]。该方法的基本思想是把低维样本空间的难于线性划分解决的样本集通过非线性映射到高维特征空间中,在高维特征空间寻求最优划分超平面,从而实现样本空间的非线性分类。在短期的气候预测业务或短期天气预报中,由于大气环流变化的复杂性和非线性性,决定了大部分的预报对象及其对应的预报因子之间为非线性相关关系。目前,国际上应用较为广泛的支持向量机方法则是一种较为新颖的处理非线性分类和回归的有效方法[3-4]。
滕卫平,俞善贤等[5]应用SVM回归方法在汛期旱涝预测中进行了应用研究,通过相关分析从前期大气环流场、海温场中选取了相关性较高的预测因子,建立了浙江省汛期旱涝短期气候预测模型,效果较传统的逐步回归方法有明显的提高。杨淑群,芮景析等[6]也利用多年的74项环流特征量、海温指数、相关区域海平面气压等指数,建立了四川盆地5片区域降水特多或特少的SVM预测模型,并进行了降水分类预测试验;结果显示所建的SVM模型的Ts评分较高。李智才,马文瑞等[7]利用Nino区海温、南方涛动指数、副高面积指数等预报因子,建立了阳泉地区夏季降水正、负距平的SVM非线性分类模型;预报试验表明,预报能力良好。熊秋芬,胡江林等[8]还专门就支持向量机和人工神经网络两种方法,分别建立了云量预报模型;所开展的交叉验证和实例预报的结果显示:两者方法相比而言,SVM的预报能力高于人工神经网络方法,且在计算速度上有后者无法比拟的优势。吴爱敏,郭江勇等[9]应用SVM方法,对甘肃陇东地区冰雹天气的主要环流形势进行了分析,对冰雹分类预报进行了探讨;经检验,主要降雹季节各月有无冰雹分类的正确率大于80%,效果较好。另外,黄玉霞,许东蓓,蒲肃等[10]还应用该方法,建立了甘肃省林区森林火险分类推理模型;结果表明该模型具有良好的预报能力,预报效果明显优于传统的逐步回归方法。众多试验和研究结果表明,不管是针对短期的气象预报还是短期气候预测,运用该方法均能取得较为满意的预报结果。因此,在本文中,针对日最高气温、降水及能见度要素的预报,采用该方法来建模是可行的。
支持向量机(Support Vector Machine,简称为SVM)是一种处理非线性分类和回归的有效方法。该方法中,“机”代表机器学习领域中的一些算法,“支持向量”则是指训练集中的某些训练点的输入系数;该方法也是一种有督促(有导师)学习方法,即已知训练点的类别,求训练点和类别之间的对应关系,以便将训练集按照类别分开,或者是预测新的训练点所对应的类别。
用线性回归函数f(x)=w·x+b拟合数据{xi,yi},i= 1,2,…,n,xi∈Rd,yi∈R的问题,根据SVM理论,若采用线性ε不敏感损失函数
并引入松弛因子ξi≥0和ξ*i≥0,则问题为在约束条件
下,最小化目标函数
常数C>0控制对超过误差ε的样本的惩罚程度。采用优化方法可以得到其对偶问题,即在约束条件
下,对Lagrange因子αi,α*i最大化目标函数
从而获得回归模型:
式中,αi,α*i均不为0,对应的样本则是支持向量。如果用核函数K(xi⋅xj)替代公式(4),(5)中的内积运算,则可确定非线性拟和函数f(x)中的b*,取在边界上的一点,即可确定。有关非线性核函数的种类较多,常用的有多项式核函数、经向基核函数、柯西核函数等,本文采用经向基核函数。图1则为支持向量机分类方法的基本思路。
图2为本文中所建立的各预报要素的释用模型建立流程图,其预报对象包括日最高气温、降水及能见度。
图1 支持向量机分类方法基本思路
图2 释用模型建立流程图
本文选取了青岛、厦门2个海水浴场作为南北海水浴场的示范区,所收集到的观测资料为2011年和2012年海水浴场开放期间所测得。其中,青岛海水浴场观测资料时间段为2011年7月1日—9月30日和2012年7月1日—9月30日,厦门海水浴场观测资料时间段为2011年5月10日—6月12日、2011 年9月1日—10月31日及2012年5月1日—10月20日;观测要素则包括:风向、风速、总云量、过去24 h降水量、过去6 h降水量、气温、视程等。
另外,模式预报场资料为美国NCEP逐6 h一次输出、预报时效为120 h的模式结果,模式的空间分辨率为0.5°×0.5°。受观测资料时间序列限制,针对不同的海水浴场建模,模式所选用的时间段与观测资料时间段一致。所提取的模式变量主要包括:各等压面上的位势高度、温度、风要素、相对湿度、土壤湿度、云水混合比、可降水量等;提取区域为青岛、厦门两个海水浴场及其周边地区模式预报数据。表1列举了释用工作中所用到的主要变量及其具体含义。
由于支持向量机分类方法在预报对象为等级预报时具有一定的优越性,因此,在本部分工作中,日最高气温的预报表现为订正等级预报,即按照表2将模式日最高气温结果与实测日最高气温结果之间的差值进行相应的分类。而所建模型的预报结果-2、-1、0、1或2,则代表了不同的订正类别。例如预报结果为正时,则代表将在模式气温预报的基础上,进行相应的“降温”调整;而当预报结果为负时,则将进行相应的“升温”调整。随后的能见度预报表现为能见度的等级预报,降水预报表现为降水量的等级预报,具体划分标准分别见表3、表4。
表1 变量说明
表2 预报对象的划分标准(日最高气温预报模型)
表3 预报对象的划分标准(能见度预报模型)
表4 预报对象的划分标准(降水预报模型)
4.1气温预报的订正
针对海水浴场的气温要素预报,较为关注的为日最高气温预报,本文以厦门海水浴场为例,因其日最高气温较纬度偏北的青岛海水浴场更为明显。将海水浴场逐日最高气温实测资料(受观测资料限制,取其14时资料代表日最高气温)与对应时刻的模式输出气温结果进行对比后发现:针对预报时效为24 h内的模式结果,57.3%的样本其实测气温值与模拟气温值差值在2℃以内;32.9%的样本两者之间的差值在2<X≤4或-4≤X<-2之间;另外还有9.8%的样本表明实测气温与模拟气温的绝对差值达4℃以上。同时,随着模式的预报时效的延长,实测气温值与模式模拟气温之差在2℃以内的样本比重进一步下降。
为了保证所建模型的“泛化性”,在建模过程中,基于已经归类好的样本(按照表2—4进行归类划分),分别选取各不同等级中的2/3的样本用于建模,其它1/3的样本用于检验。以厦门气温预报模型(24—48 h预报模型)为例,共收集的样本为266个,其中误差等级为-2、-1、0、1、2的样本数分别为6个、19个、151个、68个和22个;因此在建模过程中,分别提取了其中的4个、13个、100个、45个、15个样本构建模型,而其它的样本用于模型的检验。后面的降水和能见度模型在选取构建模型样本或检验样本方面与此类似。
通过求取实测气温与模式各变量之间的相关性,在24—48 h预报时效的厦门浴场气温预报模型的建立中,相关系数达到0.37或以上的因子个数有11项,见表5。通过众多预报模型的预报效果的对比,最终筛选出4个模型用于最终的气温预报模型的集成,所建模型的准确率均大于80%。预报效果见图3。
图3 厦门海水浴场各气温预报模型预报效果检验(model1—modle4误差等级预报)及模式预报效果检验(误差等级分析:real)
图3中,横坐标为检验样本数,纵坐标为误差等级,real代表的是检验样本中模式模拟气温与实测气温之间的误差等级(按照表2进行误差等级划分),其中蓝色虚线以左样本误差等级为-1或-2,表明模式模拟气温较实测气温明显偏低;红色虚线以右样本误差等级为1或2,表明模式模拟气温较实测气温明显偏高;红色虚线和蓝色虚线之间的样本则代表模式模拟气温值与实测气温值之差在2℃以内,即误差等级为0,其样本比例不足60%。
图3中的model1—model4为最终筛选的4个预报模型。从model1给出的误差订正等级可以看出:针对误差等级为1或者2的样本(超过30%),该预报模型总体上给出了较好的趋势订正,其中较多样本都给出了1或者2的误差订正级别;同时可以看出,model2—model4对误差等级达到2的样本其订正效果更为明显。另外,针对较少误差等级为-1 和-2的样本,各预报模型也给出了相应的误差等级订正。
上述所建立的4个预报模型将用于最终的气温预报模型的集成预报,而集成预报结果将有助于预报效果的稳定。其中,各预报模型所用到的具体模式变量见表5。从该表可以看出:各预报模型所应用到的订正因子大部分相同,其中,2 m高度层上的气温(含周边区域)、925 hPa上的气温(含周边区域)、10 m高度层经向风速、相对湿度等变量是构建气温预报模型的主导因子。关于厦门浴场气温0—24 h预报模型、48—72 h预报模型所选用的变量表及对应的预报模型效果图略。
经过气温预报模型对厦门海水浴场模式气温的进一步订正,不管是0—24 h预报时效(图略)还是24—48 h预报时效,其释用结果与观测实况之间的绝对误差≤2℃内的百分率由原来的57%左右提升到80%以上;并且绝对误差≥4℃的样本也较释用前明显减少。
表5 厦门海水浴场气温预报各模型所选用的变量(24—48 h预报时效)
表6 青岛海水浴场降水预报各模型所选用的变量(48—72 h预报时效)
4.2降水预报订正
针对降水预报,本文主要关注降水量等级的预报,下面的预报模型以预报时效为48—72 h的青岛海水浴场为例。通过求取降水量与模式各变量之间的相关性,其相关系数达到0.26以上的因子数为11个,主要包括对流性降水量、云水、整层可降水量、相对湿度等变量,具体情况见表6。通过众多预报模型的预报效果的对比,最终筛选出4个模型用于最终的降水预报模型的集成,预报效果见图4。
图4中,其横坐标为样本数,纵坐标为24 h降水量等级。real代表的是实测降水量等级(按照表3进行划分),其中,33个检验样本中有9个样本为降水样本,在建立的各预报模型中,均能较好的对降水样本给出较为准确的晴雨预报,由于夏季降水具有阵性的特征,所以对降水量的等级较难把握。
为了更好地对各降水预报模型进行检验,本文还特地将NCEP模式预报的相关降水变量进行了提取和进一步处理,将其预报效果与所建立的模型预报效果进行了对比。总得来说,青岛海水浴场降水量的预报经过数值产品释用之后,降水预报的提升效果较为明显,可见图5。图中,绿色柱状为降水释用模型预报结果,蓝色柱状为观测结果,紫色柱状为NCEP模式对流性降水量,而红色柱状为累积过的逐6 h降水量预报结果。需要说明的是,紫色柱状和红色柱状所体现的降水可以直接转换为降水量预报;譬如红色柱状第2个样本的37 kg/m2则相当于37 mm降水量。
根据降水观测资料,在33个检验样本中共有9个降水样本,NCEP模式预报ACPCP(对流性降水)变量对降水样本的预报准确次数为3次,空报0次,漏报6次;而APCP06(6 h累积降水量)对降水样本的预报准确次数也为3次,空报0次,漏报6次;经过数值产品的释用后,模型对降水样本的预报准确次数为8次,空报0次,漏报1次。与NCEP模式预报相比,释用后的降水模型预报准确率大幅提高;其效果不仅体现在晴雨预报方面,在降水等级方面,释用后的降水模型预报也更加贴近观测实况。从图5还可以看出,检验样本中的第8、第9个样本,观测实况显示为中雨和大雨降水过程,NCEP模式预报的相关变量对这两次降水过程均出现了漏报,而释用后的降水模型则不仅对这两次降水过程进行了有效预报,在降水等级上也有较好的体现,预报的降水等级均为中雨。经过对各预报时效的降水预报模型准确率的统计,结果表明:针对青岛海水浴场,0—24 h、24—48 h、48—72 h各预报时效其预报模型综合准确率(晴雨预报TS评分)分别为:88%、89%及84%。关于该浴场降水其它预报时效所建立的预报模型所选用的变量表及对应的预报效果图略。
图4 青岛海水浴场各降水预报模型预报效果检验(model1—modle4降水等级预报)及实测降水分析(降水实况等级分析:real)
4.3能见度预报
针对厦门海水浴场能见度预报模型的建立,首先对收集到的厦门及其周边地区的能见度实况数据进行统计后发现:大、小梅沙、汕尾、厦门、平潭、东山及南澳一带,在每年的5—10月容易出现辐射雾,如图6所示。该图横坐标为日数,纵坐标为能见度值,灰色柱状为08时能见度,蓝色柱状为14时能见度;而其中的箭头所示为辐射雾影响时间段;即天气晴朗少云的清晨容易出现10 km以下的能见度,而至下午时间段,能见度转好,可达15 km以上。由于辐射雾的形成条件主要包括:(1)冷却条件:地面散热迅速,即晴朗少云的夜间或清晨;(2)水汽条件:近低层水汽充沛,湿度越大、湿层越厚,越有利于形成雾;尤其是空气被雨和潮湿的地面增湿厚,对此类雾形成特别有利;可对应模式中的土壤湿度项;(3)层结条件:有逆温层存在;(4)风力不大:微风。因此,后续所开展的工作即从模式中提取了相关的因子以备建模使用。
图5 青岛海水浴场降水释用模型(预报时效为48—72 h)检验效果图
图6 厦门海水浴场能见度实况图(2012年4月26日—5月31日期间逐日两次观测)
根据辐射雾的形成条件,从模式中提取了相关的因子,譬如850 hPa温度与925 hPa温度之间的温度差、925 hPa与2 m高度的温度差、风力、风向、中低层的相对湿度、土壤湿度及土壤湿度的24 h变化情况等等。其中,土壤湿度及土壤湿度的24 h变化情况是一个较好的指标;在土壤湿度已经达到一定的阈值的前提下,由于清晨时间段土壤的温度高于近地面的气温,致使土壤中的水分不断蒸发并遇冷凝结,导致辐射雾的形成。
在具体的建模过程中,通过求取备选因子与能见度之间的相关,将相关性超过一定阈值的因子提取出来,并进行因子的最优因子组合,进而构建了预测模型。
表7 厦门浴场能见度预报各模型所选用的变量(各预报时效)
图7 厦门海水浴场各能见度预报模型预报效果(model1—modle4能见度等级预报)及能见度实况分析(能见度实况等级分析:real)
在0—24 h预报时效的能见度预报模型的建立中,所设置的相关系数阈值为0.34,达到阈值的因子个数为9个。通过众多预报模型的预报效果的对比,最终筛选出4个模型用于最终的能见度预报模型的集成。图7中,横坐标为检验样本数,纵坐标为能见度等级,蓝色虚线是能见度为15 km的分界线(虚线以左的样本能见度小于15 km,以右的样本大于15 km)。图中的real代表了检验样本中各能见度等级的实况,譬如等级3表明样本能见度小于10 km;等级2表明样本能见度在10—15 km之间;而等级1代表样本能见度在15 km以上。从model1—model4的预报效果来看,各预报模型对能见度小于10 km的样本把握较为准确,而对10—15 km的能见度预报较难把握;另外,各预报模型对能见度的预报具有总体“偏差”的趋势,即针对一些能见度在15 km以上的样本,预报模型仍然给出了10 km以下的预报结论。
表7为厦门海水浴场能见度各预报模型在不同预报时效情况下所用到的具体变量。总体来说,0—24 h预报时效能见度预报模型中所用到的变量包括:整层大气可降水量、土壤湿度(含24 h土壤湿度变化情况)、850 hPa经向风速切变等;而24—48 h预报时效能见度预报模型中所用到的变量则包括:整层大气可降水量、土壤湿度(含24 h土壤湿度变化情况)、气温、850 hPa纬向风速切变等;48—72 h预报时效能见度预报模型中所用到的变量包括:地表抬升指数、整层大气可降水量、土壤湿度、气温、850 hPa风速切变等。从各不同预报时效能见度预报模型所选用的影响因子来看,较大一部分是较为一致的,这表明各预报模型总体上可信度较高,并且预报效果比较稳定。关于厦门浴场24—48 h、48—72 h能见度预报模型效果图略。
利用收集到的2011年、2012年青岛、厦门海水浴场开放期间所收集的观测资料及对应时间段内的NCEP模式预报资料,应用SVM方法,分别构建了2个海水浴场不同预报时效内的气温、降水及能见度预报模型。将释用结果与实测资料或者模式输出结果进行比对,主要可以得出以下结论:
(1)应用SVM方法,分别构建的各预报模型,无论是历史样本拟和的精度上(图略)还是模型的实际预测能力,均比较满意;
(2)与模式结果相比,各预报要素释用后的结果较释用前在预报准确率方面有较大的提高。如经过气温、降水模型的进一步释用订正,预报结论与实测结果更为接近;
(3)经过对能见度要素(模式未能进行直接输出的变量)的诊断,其结果总体上较为满意,即各能见度预报模型能够较为准确地把握住能见度低于10 km的情况;但其预报能力仍具有很大的潜力及提升空间。
参考文献:
[1] Vapnik V N. The Nature of Statistical Learning Theory [M]. New York: Springer-Verlag, 2000.
[2] Vapnik V N. Statistical Learning Theory [M]. New York: John wiley & Sons, Inc, 1998: 375-570.
[3]陈永义,俞小鼎,高学浩,等.处理非线性分类和回归问题的一种新方法(Ⅰ)——支持向量机方法简介[J].应用气象学报, 2004, 15 (3): 345-354.
[4]冯汉中,陈永义.处理非线性分类和回归问题的一种新方法(Ⅱ)——支持向量机方法在天气预报中的应用[J].应用气象学报, 2004, 15(3): 355-565.
[5]滕卫平,俞善贤,胡波,等. SVM回归法在汛期旱涝预测中的应用研究[J].浙江大学学报(理学版), 2008, 35(3): 343-347, 354.
[6]杨淑群,芮景析,冯汉中.支持向量机(SVM)方法在降水分类预测中的应用[J].西南农业大学学报(自然科学版), 2006, 28(2): 252-257.
[7]李智才,马文瑞,李素敏,等.支持向量机在短期气候预测中的应用[J].气象, 2006, 32(5): 57-61.
[8]熊秋芬,胡江林,陈永义.天空云量预报及支持向量机和神经网络方法比较研究[J].热带气象学报, 2007, 23(3): 255-260.
[9]吴爱敏,郭江勇,张洪芬,等.支持向量机方法在冰雹预报中的应用[J].干旱气象, 2005, 23(4): 41-45.
[10]黄玉霞,许东蓓,蒲肃. SVM方法在森林火险预测中的应用[J].林业科学, 2007, 43(10): 77-82.
Preliminary interpretation and utilization of NCEP simulation results using the SVM
DENG Xiao-hua, WEI Li-xin, HUANG Huan-qing, ZHANG Run-yu
(National Marine Environmental Forecasting Center, Beijing 100081 China)
Abstract:Based on the correlation between the observed data and the numerical simulation results from NCEP, the main influencing factors for different forecasting objects, for instance, temperature, precipitation, visibility and so on, were obtained. Furthermore, the SVM provided an effective and feasible way to construct the corresponding forecast models. Comparing with the direct outputs of the model, the interpretation and utilization of numerical simulations showed great improvement.
Key words:SVM;numerical simulation results;interpretation;temperature;precipitation;visibility
作者简介:邓小花(1982-),女,工程师,硕士研究生,主要从事海洋气象预报工作。E-mail: dengxh@nmefc.gov.cn
基金项目:国家海洋局海洋公益性行业科研专项(201005036)
收稿日期:2014-03-27
DOI:10.11737/j.issn.1003-0239.2015.02.003
中图分类号:P732
文献标识码:A
文章编号:1003-0239(2015)02-0014-10