时间幂函数与LSF在气温预测中的应用研究

2017-11-01 13:04黄天文
肇庆学院学报 2017年5期
关键词:幂函数肇庆滑动

焦 飞,黄天文

(1.肇庆学院 教育技术与计算机中心,广东 肇庆 526061;2.肇庆市气象局,广东 肇庆 526040)

时间幂函数与LSF在气温预测中的应用研究

焦 飞1,黄天文2

(1.肇庆学院 教育技术与计算机中心,广东 肇庆 526061;2.肇庆市气象局,广东 肇庆 526040)

为将数据挖掘知识应用于气象领域,现将肇庆市高要气象观测站1954—2014年的气温序列,采用滑动平均法进行处理;再利用时间幂函数与最小二乘法分析了肇庆地区气温的变化趋势,得到拟合曲线图和温度变化趋势回归方程.用2014年与2015年的年平均气温实况对预测结果进行检验,发现拟合的相关系数与标准差比较理想;此外,还预测出肇庆的年平均气温呈上升趋势.从20世纪中期到现在,气温上升趋势明显增大,这和全球气候变暖的结论相一致.经实验证明,该方法具备良好的因子信息提取能力,其预报建模方法对气温预报具有一定的价值.

数据挖掘;最小二乘拟合;滑动平均;时间幂函数;气温变化趋势

0 引言

目前,数据挖掘在气象上的应用主要集中于气象预报、气候预测和气象灾害预测等方面,常用的挖掘方法有决策树法[1]、支持向量机[2]、序列模式挖掘技术[3]、降维分析[4]、关联规则挖掘[5]等方法.回顾历史可知,二战以后各国开始致力于发展经济,牺牲了环境,使得全球气候明显变暖.由于大气层中二氧化碳等温室气体急剧增加,大量吸收地面红外线长波辐射,使温室效应增强,这在一定程度上又加剧了厄尔尼诺现象的出现频率和负面影响.因气温的变化将影响到降水,且气温与人类社会及生态系统有着密切关系,因此对气温的长期变化趋势进行研究是很有必要的.对肇庆地区“有器测资料”时间最长的高要气象观测站的气温数据进行研究,希望能用数据挖掘技术开发应用软件,为肇庆地区的气温预测研究工作提供工具,提高预报员对中长期天气的预报能力,从而更好地满足用户和预报服务的需求.

气象数据由于其自身的特点,具有很强的时空关联特性,因此,对气象数据进行时空关联分析,从而进行气象预报是提高预报水平的一个有效方法.数据挖掘中对时间序列的分析与研究,已有相关研究者提供了宝贵资料.王永弟将模糊时间序列模型引入短期气候预报,并与加权集成、人工神经网络集成、数据挖掘集成等模型进行了精度比较和分析[6].潘航、宋敏红、闫俊、徐文慧等[7-10]分别对南京近60年、雅鲁藏布江流域46年、安徽49年、全球近百年的气温数据进行了分析和研究,提供了宝贵的方法与经验.东京航空地方气象台的吉村纯[11]曾就100多年来的全球平均地面气温进行研究,认为平均地面气温呈上升趋势,特别是20世纪80年代气温显著变暖,90年代继续攀升.笔者将肇庆地区高要气象观测站的气温时间序列进行滑动平均预处理后,利用时间幂函数和最小二乘拟合(least square fitting;LSF)分析了气温变化趋势并进行了预测,实验效果良好.数据挖掘方法在气象领域的应用值得推广,特别是在大数据时代,气象服务不断拓宽领域,气象部门需要永久保存的数据不断增长,利用数理方法对这些数据进行挖掘、分析和预测的研究是可行和必要的.

1 资料处理与方法

1.1 资料来源

高要气象观测站是建国后1954年才建立的,观测数据仅有60多年(图1为肇庆市1954—2014年年平均气温变化趋势图).我们要对这些数据进行预处理,并对比处理前后所得实验结果的检验因子,以证明实验方法的可靠性.

图1 肇庆市1954—2014年年平均气温变化趋势图

1.2 处理方法与原理

将气温数据可视化以直观的方式表现出来,有助于发现该时间序列的特征.看对应的散点图,根据经验,气温变化趋势可能是明显增长,也可能是明显减少,且该变化趋势可能是线性的,也可能是二次曲线、三次曲线等.肇庆全年平均气温经过10年滑动平均,所得散点图可以初步估计曲线方程的大致形式,然后利用最小二乘回归方法得到拟合的气温变化趋势方程,并对回归方程的显著性进行检验.

1.3 资料预处理

研究气温的变化趋势,关注的是其长期性变化,首先要消除噪音.为将短期的变化消除掉,本实验采用了滑动平均法.根据时间序列资料进行逐项推移,依次计算包含一定项数的序时平均值,以反映气温长期变化的趋势.当时间序列的数值由于受周期变动和随机波动的影响起伏较大,不易显示出事件的发展趋势时,使用滑动平均法可以消除这些因素的影响.滑动平均法的应用非常普遍,因为它的算法非常简单,在计算机编程上很容易实现,所以它是降低随机噪声的最优选择之一.前人在各种领域都运用了该方法,认为滑动平均可以快速实现目标[12].

对于气温序列x1,x2,…,xn,2项平均为(xn-1+xn)/2,3项平均为(xn-2+xn-1+xn)/3,还有4项、5项等平均,可统一表示为

在式(1)中:m表示由m项构成的滑动平均;k=1,2,3,….按照滑动平均数的数列,利用C#.NET的GDI+作图技术,可点出其散布图.如果通过散点图仍看不出变化趋势,则可以用滑动平均数的数列,求第2次滑动平均数列或加大滑动平均的年数.

1.4 时间幂函数与最小二乘拟合

关于短期气候预测,特别是省级及其以下的台站,主要依靠统计分析方法,其中应用最广泛的是多元回归分析法,其参数估计通常采用最小二乘参数估计法.通过参考相关的文献,发现关于偏最小二乘法(partial least squares;PLS)的应用,很多研究者已做过大量研究[13-14],该方法适用于回归模型自变量之间存在相关性的情况.由于本文的研究只有1个自变量,即年代,因此用最小二乘拟合(LSF)即能满足要求[15-16].

在拟合曲线问题中,确定参数的最常见方法是最小二乘法.它是一种数学优化技术,通过最小化误差的平方和寻找数据的最佳函数匹配.利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小.而气温的变化趋势方程,根据原始数据的散点图,一般认为是时间幂函数[17],其一般形式为

在式(2)中:t代表时间(年份);T代表对应的年平均气温值.若令t=x1,t2=x2,…,tm=xm,T=y′,则式(2)化为y′=b0+b1x1+b2x2+…+bmxm,由原来的非线性回归方程转化为多元线性回归.多元线性回归分析作为一种有效的数据处理方法,在工业、农业、医学、社会调查、生物信息处理等领域被广泛应用[18].所谓多元线性回归预测,即利用历史样本数据,建立多元线性回归模型,研究某一因变量和多个自变量之间关系的定量化分析方法[19].事实上,一种现象常常是与多个因素相联系的,由多个自变量的最优组合共同预测或估计因变量,比只用1个自变量进行预测或估计更有效,更符合实际情况.从这个意义上讲,多元线性回归比一元线性回归的实用意义更大.多元线性回归的方法较为复杂,计算量也很大,一般采用计算机进行处理.

多元线性回归方程建立后,确定参数b0,b1,…,bm.对这些回归系数,需要根据最小二乘原理,寻求误差平方和

2 显著性检验

关于结果的显著性检验,笔者参照早期的实验成果,采用F-分布函数检验法(F-信度检验法).首先根据方程的回归平方和U以及2个自由度(N1,N2)计算F-统计量FR,再根据(N1,N2)和FR,计算F-分布函数值.如果显著性水平设为α,则F-分布函数值就是1-α,若以百分数表示,可称为F-信度,记为FX.设定F-分布函数的临界值为FC,如果FX>FC,则认为趋势方程是显著的;否则,若FX<FC,就认为趋势方程是不显著的[20].

3 结果分析

结合时间幂函数与最小二乘法,通过计算机编程并作图,可得出全年年平均和各月月平均气温变化的拟合曲线图.限于篇幅,本文仅以年平均气温变化趋势方程的研究为例进行探讨.肇庆地区历年年平均地面气温的原始数据,需要经过滑动平均才能消除噪音.由计算机程序对原始数据分别执行项数为0,5,10的滑动平均,结果发现10项滑动平均是最优的.然后经过计算机编程和多次实验,发现气温变化趋势方程的阶数为2时,拟合程度最高,方程拟合的相关系数高达0.93,标准差是0.1,由此设2阶多项式拟合方程为

其中:t代表时间(年份),T代表对应的年平均气温值;各个系数b0,b1和b2的值分别为7.449E+002,-7.490E-001和1.939E-004.作为检验,r为因子t与原总序列的相关系数,S为其标准差.相关系数r的绝对值一般在0.8以上,认为是有强的相关性;0.3~0.8之间,可以认为有弱的相关性;在0.3以下,则认为没有相关性.作为实验,分别把年份t=2014和t=2015依次代入方程,可以得到相应的温度T为23.1℃和23.2℃,而2014年和2015年肇庆高要站年平均气温实况分别为22.8℃和23.4℃,可见方程的拟合效果较好.

方程对应的拟合曲线图如图2所示,由此可知肇庆60多年来气候逐渐变暖,年平均气温呈升高趋势.

图2 肇庆市高要站年平均气温变化趋势

4 结语

时间幂函数结合最小二乘法,通过计算机编程实现对曲线的拟合,得到时间序列变化趋势的回归方程,检验结果令人满意.通过对肇庆地区历年气温资料的分析,认为60多年来肇庆的年平均地面气温呈上升趋势,这与前人所讲的“大气变暖”相一致.特别是建国以后,随着工业的快速发展,“粗犷型”的经济腾飞带来环境的破坏,一方面人类燃烧煤、石油等大量排放二氧化碳;另一方面,砍伐树林等对绿色植物的破坏,减少了植物对二氧化碳的吸收,使得大气中二氧化碳的含量增加.而二氧化碳对大气有保温作用,气温也就随之升高了.以上研究结果对气温的长期预报、超长期预报和制定农业规划,都具有参考价值.今后,还可以研究降雨量、蒸发量等的变化与预测.笔者对数据挖掘在气象数据中的应用展开研究,主要源于气象数据包含了大量信息,需要探索适合气象数据特点的挖掘方法,提高挖掘算法的效率,这对于生产实践和社会生活具有重要意义.

[1] 姜文瑞,王玉英,郝小琪,等.决策树方法在气温预测中的应用[J].计算机应用与软件,2012,29(8):141-144.

[2] 丁世飞,齐丙娟,谭红艳.支持向量机理论与算法研究综述[J].电子科技大学学报,2011,40(1):2-10.

[3] 李亮.序列模式挖掘在入侵检测中的应用研究[J].计算机工程与科学,2012,34(11):68-71.

[4] 黎克波,陈磊,张翼.真比例导引律的降维分析方法[J].国防科技大学学报,2012,34(3):1-5.

[5] 宇星,陈彤兵,施伯乐.一种高效的多层和概化关联规则挖掘方法[J].软件学报,2011,22(12):2 965-2 980.

[6] 王永弟.模糊时间序列模型在短期气候预测中的应用[J].南京信息工程大学学报,2012(4):316-320.

[7] 潘航.近60年来南京季节变化特征分析[J].气象科学,2011,31(6):742-746.

[8] 宋敏红,马耀明,张宇,等.雅鲁藏布江流域气温变化特征及趋势分析[J].气候与环境研究,2011,16(6):760-766.

[9] 徐文慧,李庆祥,杨溯,等.近百年全球地表月气温数据的概况与初步整合[J].气候变化研究进展,2014,10(5):358-364.

[10] 闫俊,王海功,李红梅.气候变暖背景下安徽气温变化趋势分析[J].安徽农业科学,2013,41(36):13 953-13 971.

[11] 吉村纯.近110年来全球地面气温变化[J].气象科技,1994(3):43-47.

[12] 熊波,尹周平.滑动平均和改进权重函数的快速非局部平均图像去噪算法[J].中国图像图形学报,2012,17(5):628-634.

[13] 薛佳辰,冯钧,雷震,等.基于偏最小二乘回归的性别识别[J].计算机工程与设计,2013,34(9):3 226-3 254.

[14] 汪春辉,罗飞,舒红平.偏最小二乘回归在气温预测中的研究与应用[J].微计算机信息,2012,28(5):142-144.

[15] 王燕,吴文峰,梁国龙.基于稳健最小二乘的鲁棒波束形成[J].电子学报,2013(12):2 321-2326.

[16] 曲付勇,孟祥伟.基于约束总体最小二乘方法的到达时差到达频差无源定位算法[J].电子与信息学报,2014,36(5):1 075-1 081.

[17] 魏广彬,徐蕊,孙和平,等.叶龄模型在水稻上应用的检验与比较[J].江苏农业学报,2013,29(4):696-707.

[18] 刘锦萍,郁金祥.基于改进的粒子群算法的多元线性回归模型参数估计[J].计算机工程与科学,2010,32(4):101-105.

[19] 代亮,许宏科,陈婷,等.基于MapReduce的多元线性回归预测模型[J].计算机应用,2014,34(7):1 862-1 866.

[20] 焦飞,黄天文,何华庆.数据挖掘技术在气温长期变化趋势预测中的应用[J].广东气象,2006(2):33-39.

Application of Time Power Function and Least Square in Air Temperature Forecast

JIAO Fei1,HUANG Tianwen2
(1.Information Center,Zhaoqing University,Zhaoqing,Guangdong 526061,China;2.Zhaoqing Meteorological Bureau,Zhaoqing,Guangdong 526040,China)

The air temperature sequence from 1954 to 2014 of Gaoyao weather station in Zhaoqing area is processed by moving average method to apply data mining method in meteorological fields.The fitting curves and the regression of temperature change trend are obtained by using time power function and east square method and the fitting correlation coefficient and the standard deviation are found to be ideal by checking with actual temperature of 2014 and 2015.It is concluded that the yearly mean temperature of Zhaoqing area increases slowly.The trend is obvious especially from 1950s up till the present moment,which is coincided with global warming.It is proved that the method has a good ability to extract factors information and the forecasting modeling methods will be of certain value in temperature prediction.

data mining;least square;moving average;time power function;temperature change trend

TP39

A

1009-8445(2017)05-0001-04

2017-02-27

广东省气象局科学技术研究项目(2016B51);肇庆市气象局科学技术基金资助研究项目(201609)

焦 飞(1980-),男,河南虞城人,肇庆学院教育技术与计算机中心实验师,硕士.

黄天文(1975-),女,广东台山人,肇庆市气象局高级工程师.

(责任编辑:陈 静)

猜你喜欢
幂函数肇庆滑动
大地回春—肇庆十八年林丰俗作品特展
幂函数、指数函数、对数函数(2)
幂函数、指数函数、对数函数(1)
幂函数、指数函数、对数函数(1)
基于指数模型的R = P(Y <X <Z)统计推断
传动轴滑动叉制造工艺革新
Big Little lies: No One Is Perfect
看图说话,揭开幂函数的庐山真面目
用于滑动部件的类金刚石碳覆膜特性及其应用
一种基于变换域的滑动聚束SAR调频率估计方法