基于模糊C-均值的模糊时间序列模型

2014-03-01 06:13王威娜阚中勋
吉林化工学院学报 2014年9期
关键词:预测值聚类有效性

王威娜,阚中勋

(1.吉林化工学院理学院,吉林 吉林 132022;2.中石油东北炼化工程有限公司吉林设计院 设备室,吉林 吉林132002)

从统计意义上讲,所谓时间序列就是将某一个指标在不同时间上的不同数值,按照时间的先后顺序排列而成的数列.时间序列分析是根据历史数据的相互关系和变化趋势预测未来的行为和特征,它在股票和医疗等众多不同的领域都有着广泛的应用[1-4].

1993年Song和Chissom[5-7]首先提出了模糊时间序列模型,由于该模型利用模糊逻辑理论,能够在不确定环境下处理不完整和含糊的数据,使得其在经济、社会生活等领域得到广泛应用[8-10].

发展节约型社会已是我国重要的战略之一,因此如何能准确的预测能源消耗,确保能源供应,已成为现今社会迫切需要解决的问题.针对这一问题,学者们已将神经网络、回归分析、遗传算法及时间序列分析模型引入到能源需要的预测中.本文结合模糊C-均值(FCM)算法提出一个新的模糊时间序列模型,并将其应用到中国的能源预测中,实验结果表明了该方法的可行性和有效性.

1 FCM聚类算法

FCM是一种经典的聚类算法,是目前被广泛采用的一种聚类算法,它能够给出每个样本隶属于某个聚类的隶属度,它通过对目标函数迭代优化从而使得聚类结果体现出每一个数据对聚类中心的隶属程度[11-12].

假设 X={x1,x2,…,xn}是n个数据点,并将其分成c类,聚类中心表示为v={v1,v2,…,vc},u={uij}是隶属度矩阵,uij表示xj属于第i类的隶属度.FCM算法通过最小化目标函数来获得数据样本的最优划分,也即是寻求合适的隶属度和聚类中心,使得目标函数最小.FCM目标函数表达形式为

其中目标函数J(U,V)的值越小聚类效果越好.m是隶属度的模糊加权指数,决定了聚类结果的模糊程度,典型值取m=2,d(xj,vi)=||xj- vi||2表示xj到聚类中心vi的欧式聚类.式(1)满足如下约束条件

模糊C-均值聚类算法的具体步骤如下:

步骤一:初始化聚类中心V0,给定聚类类别数C,设置算法停止阈值ε.

步骤二:根据公式(3)更新隶属度矩阵Ut

步骤四:如果满足||Vt+1-Vt||≤ε,则算法达到停止条件,算法结束并输出聚类中心V和隶属度矩阵U;否则令t=t+1,算法转向步骤二.

2 基于模糊C-均值的模糊时间序列模型

本文基于FCM聚类算法提出一个新的时间序列预测模型.模型分为三个阶段:首先,将观察的时间序列转化为w维的时间序列数据集;然后,利用FCM算法对构造的时间序列数据集进行聚类;最后,根据聚类结果进行预测.得到预测值以后,可以反馈给时间序列继续进行预测,这使得提出的模型能够进行长期预测.模型的流程如图1所示.

图1 算法流程图

具体步骤如下:

步骤一:设时间序列为 Z={z1,z2,……,zn},给定时间窗口的长度为w,构造时间序列数据集

步骤二:由于FCM算法需要预先指定聚类数C,所以先利用PBMF有效性指标确定最优的聚类数.PBMF有效性指标定义如下:

PBMF有效性指标由1/c,E1/Jm和Dc三个部分组成,其中1/c是用聚类数协调有效性指标,E1/Jm和Dc分别反应了聚类的紧致性和分离性.因此,VPBMF的最大值对应最优的聚类数.

然后根据确定的最优聚类数C,利用FCM算法对时间序列数据集进行聚类,得到每个数据的类标号.

步骤三:根据预测点的邻近数据 xn-w+1=[zn-w+1,zn-w+2,……,zn]的类标号,找到与之同类的所有数据及其对应的邻接时间序列点,把这些时间序列点的平均值作为n+1时刻zn+1的预测值,如图2所示.

图2 预测示意图

步骤四:判断是否需要继续预测,如需要继续预测则把预测值反馈给时间序列,执行步骤一,否则算法终止.

3 实验结果

为了验证提出算法的可行性和有效性,该算法应用于中国能源消耗数据的预测中.本文用到从1957年到2007年的中国能源消耗数据,共51个观察值,其中从1961年到1998年的数据作为训练数据(38个观察值),从1999年到2007年的数据作为测试数据(9个观察值).

本文利用均方根误差来度量预测精度,即

其中,Ff(t)和Fr(t)分别代表t时刻的预测值和真实值,n代表待预测的数据个数.

从表1可以看出,本文提出的算法的预测精度要优于传统的时间序列模型-ARIMA,即预测的误差小于ARIMA模型,从而表明了此算法的可行性和有效性.

表1 预测值及预测误差

4 结 论

本文首先利用模糊C-均值(FCM)算法对构造的时间序列数据进行聚类,然后结合模糊时间序列模型构造出一个模糊预测模型,并将此模型应用到了中国能源预测中.实验表明该方法优于传统的时间序列模型,进一步验证了该方法的可行性和有效性.该模型还可以应用到其它领域,例如经济、医疗和天气预报等方面,因此具有较高的实用意义.

[1] Chen S.-M.,Kao P.-Y..TAIEX forecasting based on fuzzy time series,particle swarm optimization techniques and support vector machines[J].Information Sciences,2013,247:62-71.

[2] Pai P.-F.,Lin C.-S..A hybrid ARIMA and support vector machines model in stock price forecasting[J].Omega,2005,33(6):497-505.

[3] Catalano R.,Hansen H.-T..Using time-series analyses to detect the health effects of medical care reforms:a Norwegian example[J].Social Science & Medicine,2001,53(8):1037-1043.

[4] Aach J.,Church G..Aligning gene expression time series with time warping algorithms[J].Bioinfor-matics,2001,17:495-508.

[5] Song Q.,Chissom B.S..Fuzzy time series and its models[J].Fuzzy Sets Syst.,1993,54:269-277.

[6] Song Q.,Chissom B.S..Forecasting enrollments with fuzzy time series-Part I[J].Fuzzy Sets Syst.,1993,54:1-10.

[7] Song Q.,Chissom B.S..Forecasting enrollments with fuzzy time series-Part II[J].Fuzzy Sets Syst.,1993,52:1-8.

[8] Yolcu U.,Aladag C.H..Egrioglu E.,et al.Time series forecasting with a novel fuzzy time series approach:an example for Istanbul stock market[J].J.Stat.Comput.Simul.,2013,83(4):597-610.

[9] Yu T.H.K.,Huarng K.H..A bivariate fuzzy time series model to forecast the TAIEX[J].Expert Syst.Appl.,2008,34:2945-2952.

[10] Lee L.W.,Wang L.H.,Chen S.M..Temperature prediction and TAIFEX forecasting based on high-order fuzzy logical relationships and genetic simulated annealing techniques [J].ExpertSyst.Appl.,2008,34:328-336.

[11] Bezdek J.C..Fuzzy mathematics in pattern classification[D].Ph.D.Dissertation,Cornell University,Ithaca,NY,1973.

[12] Dave R.N.,Bhaswan K..Adaptive fuzzy c-shells clustering and detection of ellipses[J].IEEE Trans.Neural Networks,1992,3(5):643-662.

猜你喜欢
预测值聚类有效性
加拿大农业部下调2021/22年度油菜籽和小麦产量预测值
±800kV直流输电工程合成电场夏季实测值与预测值比对分析
如何提高英语教学的有效性
制造业内部控制有效性的实现
提高家庭作业有效性的理论思考
法电再次修订2020年核发电量预测值
基于DBSACN聚类算法的XML文档聚类
基于高斯混合聚类的阵列干涉SAR三维成像
一种层次初始的聚类个数自适应的聚类方法研究
船舶严重横倾时应急行动的有效性