姚冠新等
摘要:针对农产品价格序列非平稳、非线性的特征,提出一种基于经验模态分解和支持向量机的短期农产品价格组合预测方法。以全国苹果批发价格的周度价格序列为研究对象,首先对价格序列进行非平稳、非线性检验;然后将价格序列分解成一系列具有不同特征尺度的分量;最后针对各分量的特点分别构建支持向量机模型进行预测,得到苹果批发价格的预测值。研究结果表明,该预测模型能够更好地追踪农产品价格的变化,其预测精度与BP(back propagation)神经网络模型相比有显著提高。
关键词:农产品;价格;经验模态分解;支持向量机;短期预测
中图分类号: S11+4;F304.2文献标志码: A文章编号:1002-1302(2014)09-0402-04
收稿日期:2013-12-13
基金项目:江苏省社会科学重点项目(编号:13EYA003)。
作者简介:姚冠新(1961—),男,江苏启东人,教授,博士生导师,研究方向为农产品物流。E-mail:yaogx@ycit.cn。
通信作者:顾晴,硕士研究生,研究方向为农产品价格预测。E-mail:guqing.ujs@foxmail.com。我国农产品价格由于受供求变化、生产资料价格、劳动力成本、流通成本、自然气候以及国际农产品价格等多种因素影响,表现出短期波动大、非平稳、非线性等特点[1]。来自物价部门的信息表明,2004—2012年,国际市场粮价年均波动幅度在20%左右,其中2008年、2012年出现过2次大幅度震荡,全年的波动幅度在40%以上。农产品价格的波动,不仅会影响农业生产的发展、农产品的流通、消费和农民的收入水平,而且会对整个社会经济生活的安定产生重大影响。2013年3月5日,温家宝总理在十二届全国人大一次会议上所作的《政府工作报告》中指出,保持物价总水平基本稳定始终是宏观调控的重要目标。因此,开展农产品价格短期预测,对有效指导农民及时调整生产和规避市场风险,提高政府部门对农产品市场的调控效率、保障农产品市场的有序稳定具有重要意义[2]。
从国内外研究动态来看,学者们在农产品价格短期预测领域提出了多种有效预测方法,如回归分析、指数平滑、自回归移动平均模型(autoregressive integrated moving average,ARIMA)、条件异方差模型(autoregressive conditional heteroskedasticity,ARCH)、神经网络、模糊理论、组合模型等。
刘海清等建立了海南省芒果的价格指数平滑模型,结果表明该模型能够有效地对价格曲线进行拟合和预测[3]。李干琼等基于价格序列数据的ADF检验和ARCH效应检验,结合2008—2009年间的731 d日价格数据分析,利用ARIMA、ARCH、广义条件异方差模型(generalized auotregressive conditional heteroskedasticity,GARCH)等现代时间序列法,分别建立了西红柿日批发价格预测模型,其中GARCH模型在预测中具有更高的精度[4]。董晓霞等通过平稳性、季节性、趋势性以及异方差等一系列检验后,最终选择了3种模型对我国鲜奶零售价格短期预测进行了应用模拟,结果显示ARCH模型预测结果精确度最好,Holt-Winters无季节性模型稳定性最好[5]。李哲敏等根据2000年3月至2009年9月的月度数据,选出4个能够及时、全面获取数据的相关因子作为自变量因子,构建了禽蛋市场价格短期预测模型,并对模型的有效性进行相关检验[6]。罗长寿采用蔬菜市场价格数据分别建立了BP神经网络模型、基于遗传算法的神经网络模型、RBF神经网络模型,结果表明,集成预测模型效果优于单一预测模型[7]。韩延杰提出了一种基于模糊信息粒化和遗传算法的支持向量机(genetic algorithm-support vector machine,GA-SVM)农产品价格预测模型,为提高预测精度,利用遗传算法对支持向量机的参数进行优化,实证分析表明该方法能对农产品价格的变化范围进行有效地预测[8]。刘慧等根据HP和BP滤波方法分析价格波动的特征,利用ARIMA模型预测绿豆价格的短期走势[9]。
综上所述,农产品价格短期预测的研究主要采用计量经济模型,但计量经济模型对于非线性时间序列的预测具有局限性,同时对于数据本身的条件限制较多,造成模型预测结果或多或少存在一些缺憾。由于人工神经网络具有很强的非线性逼近能力,因此被广泛应用到价格短期预测中,但是人工神经网络训练速度慢、容易陷入局部最小点、存在过拟合现象以及泛化能力较差等局限性使其难以达到预期精度[10]。经验模态分解(empirical mode decomposition,EMD)是一种处理非平稳、非线性数据序列的新方法,能够分解出研究对象在不同尺度上的波动信息。该方法从数据自身出发,通过分析本征模态函数(intrinsic mode function,IMF)来揭示数据序列的内在特征。相关研究表明,经验模态分解可以很好地处理非平稳、非线性序列,是提取数据序列趋势的有效方法[11]。
经验模态分解目前已经在地球物理学、生物医学、结构分析、设备诊断等众多自然科学领域得到了应用;经验模态分解在社科领域仅涉及原油价格和股票价格的预测[12]。本研究将经验模态分解方法引入到农产品价格短期预测中,旨在突破农产品价格预测技术,提高预测精度。
1材料与方法
1.1经验模态分解方法
经验模态分解方法的优点是能够对非线性、非平稳过程的数据进行线性化和平稳化处理,分解的最终函数彼此之间是正交的,从而在分解的过程中尽可能地保留了数据本身的特性[13]。其基本思路是用波动上、下包络的平均值去确定“瞬时平衡位置”,进而提取出内在模函数(intrinsic mode function,IMF)[14]。内在模函数,记为I(t),其计算过程主要有以下3个步骤。endprint
(1)找出原序列Y(t)的各个局部极大值,为更好保留原序列的特性,局部极大值定义为时间序列中的某个时刻的值,其前一时刻的值不比它大,后一时刻的值也不比它大。然后用三阶样条函数进行插值,得到原序列Y(t)的上包络序列值Ymax(t)。同理,可以得到下包络序列值Ymin(t)。
对于不同的数据序列,h(t)可能是内在模函数,也可能不是。若h(t)中极值点的数目和跨零点的数目相等或至多只差1个,并且各个瞬时平均值m(t)都等于零,则它就是内在模函数;反之,把h(t)当作原序列,重复以上步骤,直至满足内在模函数的定义,求出内在模函数为止。求出了第一个内在模函数I1(t),即从原序列中分解出第1个分量。然后,用原序列减去I1(t),得到剩余值序列r1(t):
r1(t)=Y(t)-I1(t)。(3)
至此,提取第1个内在模函数的过程全部完成。然后,把r1(t)作为一个新的原序列,按照以上步骤,依次提取第 2、第 3,…,直至第N个内在模函数IN(t)。之后,由于rN(t)变成一个单调序列,再也没有内在模函数能被提取出来。如果把分解后的各分量合并起来,就得到原序列Y(t):
1.2支持向量机方法
支持向量机(support vector machine,SVM)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。支持向量机的基本思想是通过用内积函数定义的非线性变换将输入空间变换到一个高维空间,在这个高维空间中寻找输入变量和输出变量之间的一种非线性关系。SVM有严格的理论基础,是基于结构风险最小化原则的方法,明显优于传统的基于经验风险最小化原则的常规神经网络方法。
给定一数据集G={(xi,di)}ni=1,其中xi是输入向量,di是期望值,n是训练样本个数,需要求解的回归函数如下形式:
1.3EMD-SVM农产品价格预测方法
农产品价格序列具有较强的非线性、非平稳的特点,而常规预测方法在非线性序列上难以取得较好的效果,鉴于EMD分解方法在处理非线性、非平稳数据具有突出优势,因此提出了一种基于EMD-SVM的农产品价格短期预测方法,具体方法如下:
(1)利用EMD方法对农产品价格原始序列进行分解,得到若干个IMF分量Ii(t)和残差项;
(2)分别对归一化处理后的各IMF分量Ii(t)和残差项rN(t) 建立SVM回归模型,选取最佳参数和核函数进行预测;
(3)对预测结果进行反归一化处理,得到各分解序列的预测值;
(4)将各分解序列预测值叠加得到农产品价格的预测值;
(5)与实际值比较,确定误差指标并进行误差分析。
2结果与分析
2.1数据来源说明
本研究选取苹果批发市场价格数据为分析对象,数据来源于商务部的商务预报网站(http://cif.mofcom.gov.cn/),数据类型为周数据。数据周期为2006年7月7日至 2013 年 5月 31 日,共360个样本数据。描述性统计情况见表1,数据分布见图1。
2.2非平稳、非线性检验
由表2可知,t统计量>10% 水平,不能拒绝原假设,即认为苹果批发价格时间序列是非平稳的,进一步验证该序列一阶单整。对一阶差分后的序列作自相关、偏自相关分析,发现自相关系数4阶截尾,偏自相关系数3阶截尾,建立 ARIMA(3,1,4) 模型。剔除不显著变量,得到方程:endprint
(1)找出原序列Y(t)的各个局部极大值,为更好保留原序列的特性,局部极大值定义为时间序列中的某个时刻的值,其前一时刻的值不比它大,后一时刻的值也不比它大。然后用三阶样条函数进行插值,得到原序列Y(t)的上包络序列值Ymax(t)。同理,可以得到下包络序列值Ymin(t)。
对于不同的数据序列,h(t)可能是内在模函数,也可能不是。若h(t)中极值点的数目和跨零点的数目相等或至多只差1个,并且各个瞬时平均值m(t)都等于零,则它就是内在模函数;反之,把h(t)当作原序列,重复以上步骤,直至满足内在模函数的定义,求出内在模函数为止。求出了第一个内在模函数I1(t),即从原序列中分解出第1个分量。然后,用原序列减去I1(t),得到剩余值序列r1(t):
r1(t)=Y(t)-I1(t)。(3)
至此,提取第1个内在模函数的过程全部完成。然后,把r1(t)作为一个新的原序列,按照以上步骤,依次提取第 2、第 3,…,直至第N个内在模函数IN(t)。之后,由于rN(t)变成一个单调序列,再也没有内在模函数能被提取出来。如果把分解后的各分量合并起来,就得到原序列Y(t):
1.2支持向量机方法
支持向量机(support vector machine,SVM)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。支持向量机的基本思想是通过用内积函数定义的非线性变换将输入空间变换到一个高维空间,在这个高维空间中寻找输入变量和输出变量之间的一种非线性关系。SVM有严格的理论基础,是基于结构风险最小化原则的方法,明显优于传统的基于经验风险最小化原则的常规神经网络方法。
给定一数据集G={(xi,di)}ni=1,其中xi是输入向量,di是期望值,n是训练样本个数,需要求解的回归函数如下形式:
1.3EMD-SVM农产品价格预测方法
农产品价格序列具有较强的非线性、非平稳的特点,而常规预测方法在非线性序列上难以取得较好的效果,鉴于EMD分解方法在处理非线性、非平稳数据具有突出优势,因此提出了一种基于EMD-SVM的农产品价格短期预测方法,具体方法如下:
(1)利用EMD方法对农产品价格原始序列进行分解,得到若干个IMF分量Ii(t)和残差项;
(2)分别对归一化处理后的各IMF分量Ii(t)和残差项rN(t) 建立SVM回归模型,选取最佳参数和核函数进行预测;
(3)对预测结果进行反归一化处理,得到各分解序列的预测值;
(4)将各分解序列预测值叠加得到农产品价格的预测值;
(5)与实际值比较,确定误差指标并进行误差分析。
2结果与分析
2.1数据来源说明
本研究选取苹果批发市场价格数据为分析对象,数据来源于商务部的商务预报网站(http://cif.mofcom.gov.cn/),数据类型为周数据。数据周期为2006年7月7日至 2013 年 5月 31 日,共360个样本数据。描述性统计情况见表1,数据分布见图1。
2.2非平稳、非线性检验
由表2可知,t统计量>10% 水平,不能拒绝原假设,即认为苹果批发价格时间序列是非平稳的,进一步验证该序列一阶单整。对一阶差分后的序列作自相关、偏自相关分析,发现自相关系数4阶截尾,偏自相关系数3阶截尾,建立 ARIMA(3,1,4) 模型。剔除不显著变量,得到方程:endprint
(1)找出原序列Y(t)的各个局部极大值,为更好保留原序列的特性,局部极大值定义为时间序列中的某个时刻的值,其前一时刻的值不比它大,后一时刻的值也不比它大。然后用三阶样条函数进行插值,得到原序列Y(t)的上包络序列值Ymax(t)。同理,可以得到下包络序列值Ymin(t)。
对于不同的数据序列,h(t)可能是内在模函数,也可能不是。若h(t)中极值点的数目和跨零点的数目相等或至多只差1个,并且各个瞬时平均值m(t)都等于零,则它就是内在模函数;反之,把h(t)当作原序列,重复以上步骤,直至满足内在模函数的定义,求出内在模函数为止。求出了第一个内在模函数I1(t),即从原序列中分解出第1个分量。然后,用原序列减去I1(t),得到剩余值序列r1(t):
r1(t)=Y(t)-I1(t)。(3)
至此,提取第1个内在模函数的过程全部完成。然后,把r1(t)作为一个新的原序列,按照以上步骤,依次提取第 2、第 3,…,直至第N个内在模函数IN(t)。之后,由于rN(t)变成一个单调序列,再也没有内在模函数能被提取出来。如果把分解后的各分量合并起来,就得到原序列Y(t):
1.2支持向量机方法
支持向量机(support vector machine,SVM)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。支持向量机的基本思想是通过用内积函数定义的非线性变换将输入空间变换到一个高维空间,在这个高维空间中寻找输入变量和输出变量之间的一种非线性关系。SVM有严格的理论基础,是基于结构风险最小化原则的方法,明显优于传统的基于经验风险最小化原则的常规神经网络方法。
给定一数据集G={(xi,di)}ni=1,其中xi是输入向量,di是期望值,n是训练样本个数,需要求解的回归函数如下形式:
1.3EMD-SVM农产品价格预测方法
农产品价格序列具有较强的非线性、非平稳的特点,而常规预测方法在非线性序列上难以取得较好的效果,鉴于EMD分解方法在处理非线性、非平稳数据具有突出优势,因此提出了一种基于EMD-SVM的农产品价格短期预测方法,具体方法如下:
(1)利用EMD方法对农产品价格原始序列进行分解,得到若干个IMF分量Ii(t)和残差项;
(2)分别对归一化处理后的各IMF分量Ii(t)和残差项rN(t) 建立SVM回归模型,选取最佳参数和核函数进行预测;
(3)对预测结果进行反归一化处理,得到各分解序列的预测值;
(4)将各分解序列预测值叠加得到农产品价格的预测值;
(5)与实际值比较,确定误差指标并进行误差分析。
2结果与分析
2.1数据来源说明
本研究选取苹果批发市场价格数据为分析对象,数据来源于商务部的商务预报网站(http://cif.mofcom.gov.cn/),数据类型为周数据。数据周期为2006年7月7日至 2013 年 5月 31 日,共360个样本数据。描述性统计情况见表1,数据分布见图1。
2.2非平稳、非线性检验
由表2可知,t统计量>10% 水平,不能拒绝原假设,即认为苹果批发价格时间序列是非平稳的,进一步验证该序列一阶单整。对一阶差分后的序列作自相关、偏自相关分析,发现自相关系数4阶截尾,偏自相关系数3阶截尾,建立 ARIMA(3,1,4) 模型。剔除不显著变量,得到方程:endprint