基于熵权的年降雨量预报优化组合模型研究

2014-04-29 20:08王宝红康永辉黄伟军孙凯解建仓
安徽农业科学 2014年16期
关键词:熵权ARIMA模型

王宝红 康永辉 黄伟军 孙凯 解建仓

摘要 鉴于单一预测模型在建模时预测值比实际值存在较大偏差问题,为了提高预测精度,在此首先采用自回归综合移动平均ARIMA模型(简称A模型)、Elman神经网络模型(简称B模型)、小波网络分析模型(简称C模型)、灰色系统GM(1,1)模型(简称D模型),利用广西田东县1990~2007年的年降雨量分别进行了模拟计算,然后在各单一模型预测(拟合)的年降雨量偏差值基础上,应用熵权法对4种模型的偏差值进行客观赋权后优化组合,并根据最优组合结果,选用A、B、C单一模型和最优选的A-B-C优化组合模型对广西田东县2008~2010年的年降雨量进行预测对比。结果表明,A、B、C和A-B-C模型得到的均方根误差RMSE和模型效率EF分别为0.018、0.015、0.017、0.013和0.817、0.877、0.843、0.897,优化组合模型的预测精度和拟合度比单一模型的结果得到了提高和改善,该组合方法提高了年降水量的预测精度,为诸如广西田东县以雨养农业为主的区域农业干旱预报提供了新的方法和依据。

关键词 ARIMA模型; Elman神经网络; 小波网络分析; 熵权; 年降雨量; 组合预测

中图分类号 S161.6 文献标识码 A 文章编号 0517-6611(2014)16-05142-04

干旱是一种普遍的自然现象,一般可分为气象干旱、农业干旱、水文干旱、社会经济干旱4种类型[1],为了减少旱灾影响,国内外不少学者对干旱预报展开了研究,干旱预测成果为国家和政府进行科学防旱抗旱提供了决策依据和支撑。当今预测的方法和研究成果较多[2-7],常用的有灰色预测方法、人工神经网络、小波分析理论、蒙特卡洛预测方法、时间序列分析法等[5-7]。但相关文献的研究结果表明,单一的预测模型难以达到理想精度或由于自身建模的行业侧重点和适应领域不同使得预测结果存在不足,因此組合模型[8-10]预测研究成为了热门课题,以便消除单一模型的缺陷并综合单一模型的特性和优点,为能有效提高预测精度,而将各种预测模型进行组合,形成更系统、全面的组合模型。笔者利用熵权的客观赋权方法,根据年降雨量具有的水文复杂特性,如时间、模糊、灰色以及周期等特性,采用了自回归综合移动ARIMA模型、Elman神经网络模型、小波网论模型、灰色系统GM(1,1)模型等进行预测,然后对各单一模型的预测偏差进行赋权优化,把单一预测方法有机结合起来,形成一种新的优化组合预测模型,对广西田东县的年降雨量进行预测,借以用于农业干旱的预报。

1 资料与方法

1.1 预测模型

1.1.1 ARIMA 模型。ARIMA模型是由Box等提出的一种时间序列建模方法[11],其建模的基本思想是对非平稳的时间序列用若干次差分使其成为平稳序列,作差分的次数就是参数d,再用以P、q为参数的ARIMA模型对该平稳序列建模,然后经反变换得到原序列。以P、d、q为参数的ARIMA模型预测方程可以表示为:yt=θ0+φ1y1+φ2y2+…+φpyt-p+εt-θ1εt-1-θ2εt-2-…-θqεt-q,式中,yt为样本值;φi(i=1,2,…,p)和θj(j=1,2,…,q)为模型参数;εt为服从独立正态分布N(0,δ2a)的白噪声序列;p、d、q为模型的阶数,通过对不同的p、d、q组合测试可以优化模型预测结果,并找到合适的模型参数。在进行ARIMA建模和预测时首先需对数据进行平稳化处理,对于非平稳数据序列需进行数据差分处理;进行模型识别和参数估计;根据参数效验后选取合适参数的模型进行预测。

1.1.2 Elman神经网络模型[4]。Elman神经网络模型是典型的局部递归内时延反馈型神经网络。除了输入层、输出层和隐层节点外,还有与隐层节点数相同的反馈层节点,其输入是隐层节点输出的一步延迟。设网络外部输入时间u(t)、反馈层输出yc(t)、网络的输出y(t),网络描述为:x(k)=f(w11xc(k)+w12u(k-1))、xc(k)=αxc(k-1)+x(k-1)、y(k)=g(w13x(k)),式中,w11为反馈层单元与隐含层单元的连接权矩阵;w12为输入单元与隐含层单位的连接权矩阵;w13为隐含层单元与输出单元的连接权矩阵;xc(k)、x(k)、y(k)分别表示k时刻反馈层、隐含层及输出层的输出;0≤α<1为自连接反馈增益因子。f一般为非线性作用函数,常取为sigmoid函数f(x)=11+e-x。

1.1.3 小波网络分析模型。小波分析是一种时、频多分辨率分析方法,是傅立叶分析发展史上的一座里程碑,由法国工程师Morlet于1980年在分析地震资料时提出,目前小波分析在信号处理、图像压缩、语音编码、模式识别、地震勘探、大气科学以及许多非线性科学领域内取得了大量的研究成果[12-14]。小波分析具有时、频同时局部化的优点,被誉为数学“显微镜”,其关键在于引入满足一定条件的基本小波函数ψ(t),再将基本小波函数ψ(t)经伸缩和平移得到一族函数ψa,b(t),公式为ψa,b(t)=|a|-1/2ψt-ba(a、b∈R,a≠0),式中,ψa,b(t)称为分析小波或连续小波;a为尺度因子,反映频域特性;b为时间因子,反映时域特性。一般对于连续小波信号f(t)∈L2(R),其小波变换定义为:Wf(a,b)=|a|-12∫+∞-∞f(t)Ψ(t-ba)dt,式中,Wf(a,b)为小波系数,ψ(t-ba)为ψ(t-ba)的复共轭函数。对于离散信号f(nΔt),其小波变换为:Wf(a,b)=|a|-12ΔtNk=1f(nΔt)Ψ(nΔt-ba),式中,Δt为采样时间间隔,n=1、2、…、N,N为样本容量。Wf(a,b)能同时反映时域参数b和频域参数a的特性,它是时间序列f(t)或f(nΔt)通过单位脉冲相应的滤波器的输出。当a较小时(高频部分),对频域的分辨率低,对时域的分辨率高;当a增大时(低频部分),对频域的分辨率高,对时域的分辨率低。因此,小波变换像显微镜一样,实现了时间序列的时频局部化。当时间序列分解成小波系数后,对时间序列分析就转化为对小波变换系数的研究。

小波变换系数一般不直接进行数值积分,而采用快速小波变换法。快速算法不涉及具体的小波函数,计算简单快捷。Mallat算法是在多分辨分析的基础上提出的一种快速小波变换方法,包括分解算法和重构算法两部分。Mallat小波快速分解算法为Cj+1=HCj

Dj+1=GCj(j=0,1,…,J),Mallat重构合成算法为Cj=H*Cj+1+G*Dj+1(j=J-1,J-2,…,0),式中,H为分解低通滤波器;G为分解高通滤波器;H*为重构低通滤波器;G*为重构高通滤波器;J为尺度数。利用Mallat小波快速分解可以将原始时间序列分解为d1、d2、…、dJ和cJ,分别为原始信号的高频成分和低频成分。可以用t时刻小波分解序列作为人工神经网络的输入,t+T时刻原始序列作为网络输出(T为预见期),来构造人工神经网络模型。ANN模型的结构和权重大小正好体现了时间序列組成成分的重要性和它们之间的映射关系,以此方式建立的人工神经网络模型,称为小波网络模型,简计为WANN。

1.1.4 灰色预测模型[15]。灰色系统理论和方法是由邓聚龙教授于1982年提出的,它主要以“部分信息已知,部分信息未知”的“小样本”、“贫信息”不确定系统为研究对象,通过对“部分”已知信息的生成、开发,提取有价值的信息,实现对系统运行行为的正确认识和有效控制。灰色预测是指灰色系统根据过去与现在确知的或未确知的信息建立一个从过去延伸到未来的模型,从而确定系统在未来发展变化的趋势,不追求个别因素的作用效果,力图通过对原始数据的处理削弱随机因素的影响来寻找其内在规律。一般由原始序列经累加处理生成序列后,用指数关系式拟合,通过构造数据矩阵建立n阶微分方程模型,而在灰色模型中应用最广泛的是GM(1,1)模型,它是单一序列一阶线性动态模型,其基本原理为:设原始数列为X(0)={x(1)(0),x(2)(0),…,x(n)(0)},对原始数据序列进行一次累加得到X(1)={x(1)(1),x(2)(1),…,x(n)(1)},其中,Xi(1)=ik=1x(i)(0),再对X(1)建立白化微分方程dx(1)dt+ax(1)=u,式中,x为一次累加后的新数列,t为时间,a为系统发展灰数,u为系统内生控制灰数。

1.2 熵权理论 在项目评估或多目标决策时,常需考虑各个评价指标的重要程度,最直接和简便的方法是给每个指标赋权,确定权重的方法主要有主观和客观赋权2种。熵权法是客观赋权法的一种,利用指标的信息差异大小来表征指标的重要程度,当某项指标的值相差较大时,熵值较小,而反映该指标的权重较大,反之则表征该指标的熵权较小。

1.2.1 确定指标熵。根据m个评价指标和n个被评价对象,构造指标特征值矩阵,并对特征值进行归一化处理,即可求得m个指标中第i个指标的熵Hi,Hi=-knj=1fijlnfij,式中,fij=yij/nj=1yij,k=1/lnn(假定当时fij=0,fijlnfij=0)。

1.2.2 确定指标的熵权。根据Hi=-knj=1fijlnfij计算出指标i的熵值Hi后,再计算指标i的熵权ψi=1-Him-mi=1Hi,其中,mi=1ψi=1。

1.3 优化组合预测模型 由于单一预测模型得到的预测值与实际值存在较大偏差,为了提高预测精度,因而在此采用熵权法对各预测模型的偏差值赋权后进行优化组合,进而得到优化组合预测模型Z,即Z=mi=1ψiMi(i=1,2,…,m),其中,Mi代表各单一预测模型。

1.4 研究区概况 广西田东县地理位置为106°05′~107°26′ E、23°16′~24°01′ N。太阳辐射强,日照充足,雨量较多,霜雪较少,无霜期长,夏季炎热,冬季温暖,夏湿冬干,属南亚热带季风气候区,常年降雨量为1 100 mm以上,但由于降雨在年内、年际分配不均,境内水利工程措施和非工程措施薄弱,主要为雨养农业地区,干旱频发。因此笔者根据该区域的特征,试图找到一种精度高的预测模型对年降雨量进行预报,以便为当地的抗旱管理机构对抗旱决策和农民生产布局提供依据。

2 实例验证

首先根据田东县1990~2007年的年降雨量序列资料利用ARIMA模型(简称A模型)、Elman神经网络模型(简称B模型)、小波网络分析模型(简称C模型)、灰色系统GM(1,1)模型(简称D模型)4种单一预测模型,采用MATLAB和SPSS等[16-18]进行分析计算,从4种单一模型模拟1990~2007年的年降雨量值结果及偏差百分比(表1)可看出,各单一预测模型结果均存在较大偏差,其中灰色模型的偏差最大,最大偏差达46.48%,ARIMA模型的最大偏差为17.85%,Elman神经网络模型为17.78%,小波网络模型仅有12.66%。从单一模型模拟的结果可以看出降水具有明显的周期性和非线性等特征,因而小波网络模型和Elman神经网络模型的模拟精度相对较高,但整体的模拟精度尚需提高。因此对单一模型模拟的偏差值采用熵权法赋权后进行A-B-C、A-B-D、A-C-D、B-C-D、A-B-C-D 5种组合,并从5种组合模型中优选最佳组合预测模型A-B-C来对田东县2008~2010年的年降雨量进行预测。

限于篇幅,在此仅以A-B-C组合模型利用各单一模型模拟的偏差值为例,采用熵权法对权重计算进行阐述,根据自回归综合移动平均ARIMA模型、Elman神经网络模型、小波网络分析模型分别模拟计算出的偏差值可构造一个Q3×19的评价矩阵,再对特征值进行归一化处理后可得标准化矩阵如下:根据熵权法的有关计算公式,进而可分别得到ψ1=0.338 064、ψ2=0.330 775、ψ3=0.331 161,得到的优化组合预测模型Z=0.338 064A+0.330 775B+0.331 161C。

然后用A、B、C单一模型和优化的A-B-C组合模型对2008~2010年的实际年降雨量进行预测(表2),并对偏差结果进行对比验证(表3和图1),验证标准采用文献[19-20]的检验标准C、均方根误差RMSE、模型效率EF,其中C和RMSE越小越好,EF越大越好,如果EF=1,表明预测值与实际值完全符合。验证结果(表3和图1)表明A-B-C的组合模型精度和拟合度最好。

3 结论

分析结果表明灰色模型的最大偏差达46.48%,ARIMA模型的最大偏差为17.85%,Elman神经网络模型为17.78%,小波网络模型为12.66%,而优化组合模型的最大偏差为

图1 ARIMA、Elman神经网络、小波网络和组合模型的预测值对比11.20%,同时均方根误差(RSME)和模型效率EF的结果是优化组合模型最好。由于单一模型在建模中存在固有的较大偏差问题,而通过熵权法对几种单一模型按照多种方式进行优化组合后,可以充分利用各种模型的自身特性发挥其优势,同时又可以对其模型的固有缺陷进行弥补,以达到对原始数据本身的真实性质体现并按照其发展规律进行拓展,因此优化组合模型的预测精度高于单一模型的精度,且预测结果与实际值拟合更好。基于熵权的优化组合预测模型能更高精度地对年降雨量进行预测,为诸如广西田东县以雨养农业为主的区域干旱预报提供了新的理论支持,为抗旱减灾决策提供科学支撑,是一种行之有效的新方法。

参考文献

[1] 袁文平,周广胜.干旱指标的理论分析与研究展望[J].地球科学进展,2004,19(6):982-991.

[2] 万玉文,苏超,方崇.我国大中型灌区有效灌溉面积的灰色预测[J].人民长江,2011,42(15):96-98.

[3] 陈亚新,屈忠义,高占义.基于ANN技术的大型灌区节水改造后农田水环境预测[J].农业工程学报,2009,25(1):1-5.

[4] 朱益民,孙旭光,陈晓颖.小波分析在长江中下游旱涝气候预测中的应用[J].解放军理工大学学报:自然科学版,2003,4(6):90-93.

[5] 王俊松.基于Elman神经网络的网络流量建模及预测[J].计算机工程,2009,35(9):190-191.

[6] 韦庆,卢文喜,田竹君.运用蒙特卡罗方法预报年降水量研究[J].干旱区资源与环境,2004,18(4):144-146.

[7] 王红瑞,康健,林欣,等.水文序列ARIMA模型应用中存在的问题与改进方式[J].系统工程理论与实践,2008(10):166-176.

[8] 佟长福,史海滨,包小庆,等.基于小波分析理论组合模型的农业需水量预测[J].农业工程学报,2011,27(5):93-97.

[9] 郭其一,路向陽,李维刚,等.基于小波分析和模糊神经网络的水文预测[J].同济大学学报:自然科学版,2005,33(1):130-133.

[10] 王晓玲,孙月峰,梅传书,等.基于组合预测方法的海河流域生活用水量研究[J].天津大学学报,2006,39(6):745-749.

[11] BOX G E P,JENKINS G M.Time Series Analysis,Forecasting and Control [M].San Francisco:Holden-day,1970.

[12] WANG H R,YE L T,LIU C M,et al.Problems existing in wavelet analysis of hydrologic series and some improvement suggestions [J].Progress in Natural Science,2007,17(1):80-86.

[13] 王文圣,丁晶,向红莲.小波分析在水文学中的应用研究及展望[J].水科学进展,2002,13(4):515-520.

[14] 王文圣,黄伟军,丁晶.基于小波消噪和符号动力学的径流变化复杂性研究[J].水科学进展,2005,16(3):380-383.

[15] 张倩,沈利,蔡焕杰,等.基于灰色理论和回归分析的需水量组合预测研究[J].西北农林科技大学学报:自然科学版,2010,38(8):223-227.

16] 杜强,贾丽艳.SPSS统计分析从入门到提高[M].北京:人民邮电出版社,2012.

[17] 丛爽.面向MATLAB工具箱的神经网络理论与应用[M].合肥:中国科学技术大学出版社,2009.

[18] 董长虹,高志,余啸海.MATLAB小波分析工具箱原理与应用[M].北京:国防工业出版社,2004.

[19] 杨建伟.灰色理论在干旱预测中的应用[J].水文,2009,29(2):50-51.

[20] 周鸿飞,陈志斌,关欣.评价回归模型拟合效果的数量化方法[J].沈阳农业大学学报,2001,32(6):455-458.

猜你喜欢
熵权ARIMA模型
江苏省城市土地集约利用与经济社会发展协调评价
基于时间序列模型的中国出口总额分析及预测
湖南地方政府绩效评价及时空演化特征分析
基于R软件的金融时间序列的预测分析
基于Eviews上证综合指数预测
基于熵权TOPSIS法对海口市医疗卫生服务质量的综合评价
基于熵权—TOPSIS法文化创意产业竞争力比较研究
基于ARIMA模型的沪铜期货价格预测研究
对我国进出口总额的预测
组合预测法在我国粮食产量预测中的应用