王亚男 雷英杰 王 毅 郑寇全
一种启发式变阶直觉模糊时间序列预测模型
王亚男*①雷英杰①王 毅①郑寇全②
①(空军工程大学防空反导学院 西安 710051)②(西安通信学院 西安 710106)
论文针对已有高阶模糊时间序列模型在预测精度和预测范围上的限制,结合直觉模糊集理论,提出一种启发式变阶直觉模糊时间序列预测模型。模型首先应用直接模糊聚类算法对论域进行非等分划分;然后,针对直觉模糊时间序列的数据特性,改进现有直觉模糊集隶属度和非隶属度函数的建立方法;最后,采用阶数随序列实时变化的高阶预测规则进行预测,并将历史数据发展趋势的启发知识引入解模糊过程,使模型的预测范围得到扩展。在Alabama大学入学人数和北京市日均气温两组数据集上分别与典型方法进行对比实验,结果表明该模型有效克服了传统模型的缺点,拥有较高的预测精度,证明了模型的有效性和优越性。
直觉模糊集;时间序列预测;启发式;变阶
模糊时间序列(Fuzzy Time Series, FTS)预测理论由文献[1-3]在1993年首次提出并应用于Alabama大学招生人数预测,取得了较好的预测效果。进而该理论在预测领域得到了广泛研究与发展,尤其在不精确数据或模糊数据等问题中预测效果优良,例如城市用电负荷预测[4]、股指交易量预测[5]、景点游客量预测[6]等。对FTS预测模型的改良主要集中在4个方面:论域的划分;模糊关系和预测规则的建立;多元模型;高阶模型。FTS模型中对历史数据模糊化时采用了传统的Zadeh模糊集概念,与直觉模糊集相比,对语言值隶属性质的度量既不够客观也不够全面,这从根本上限制了预测精度的提升。而直觉模糊时间序列(Intuitionistic Fuzzy Time Series, IFTS)预测模型将直觉模糊集理论引入FTS模型,极大地扩展了时间序列对不确定、不完备等模糊信息的处理能力,有效提升了FTS模型的预测效果。
文献[19,21]相继提出了多种高阶FTS模型,但这些模型都有一个共同的特点:模型的阶数固定,即虽然模型可以取不同的阶数,但当阶数取定后,在整个预测过程中都不能改变。我们将这种模型叫做“定阶模型”。对定阶模型的实验结果进行分析发现,它们存在一个缺陷:每个历史数据的最优预测值对应的模型阶数并不相同,即无论模型取何种阶数,得到的预测效果都不是最优的。此外,传统FTS和IFTS模型存在一个共同的缺陷:预测范围固定,即预测值始终位于由历史数据确定的论域之中,这就使得模型永远无法得到历史数据范围之外的预测值。这种缺陷严重影响了模型的预测精度。
鉴于以上分析,本文结合直觉模糊集理论,对阶数可变的高阶模型进行研究,同时通过对历史数据发展趋势的分析,将趋势先验知识引入模型,建立了一个启发式变阶IFTS预测模型。对比实验证明所建模型有效克服了传统模型的缺陷,使预测更贴近实际需求,取得了较好的效果。
定义1[27]设是一给定论域,则上的一个直觉模糊集为
IFTS预测模型可以概括为4个主要步骤:(1)确定论域大小,并对论域进行划分;(2)建立直觉模糊集,将历史数据直觉模糊化;(3)确定预测规则,求得预测值;(4)预测结果去模糊化输出。本节首先介绍论域划分和直觉模糊集的建立方法,然后给出模型的完整步骤。
3.1基于模糊聚类的非等分论域划分
文献[7]的研究已表明,在FTS模型中使用非等分划分方法会产生比等分方法更好的预测结果。本文采取较遗传算法等优化算法更简捷的基于最大生成树的直接模糊聚类算法[27]。设是待分类对象的全体,聚类得到的类数据可记为其中,,,,表示第类数据所含对象个数。记
3.2建立直觉模糊集
3.3模型步骤
为了使预测过程更符合实际需求,首先需要建立以下3条规则:
表1 模型中的变量及含义
步骤1 确定模型的初始阶数。由于在实际计算中,模型阶数过高会带来很大的计算量[19,20],因此为保证模型的实时性,本文限制模型的阶数最大取9。算法1(表2)以序列初始的10个历史数据为训练数据集来确定模型的初始阶数,即当模型阶数依次取时,分别用预测,选取其中预测误差最小的阶数作为。
表2确定初始阶数算法
算法1 确定初始阶数输入:输出:(1) (2) (3) for to 9(4) 按步骤2 -步骤9计算(5) (6) if(7) (8) (9) end if(10) end for(11) (12) return
步骤5 直觉模糊化历史数据差值。计算所有历史数据对每个直觉模糊集的隶属度、非隶属度和直觉指数,历史数据的直觉模糊化值可以用以一对向量表示。
对标准向量和操作矩阵进行运算,得到一对关系矩阵:
表3寻找最优预测阶数算法
算法2 寻找最优预测阶数输入:输出:(1) (2) (3) (4) if(5) for to 9(6) (7) while (8) 按步骤7-步骤 9计算(9) (10) if(11) (12) break(13) end if(14) end while(15) end for(16) while(17) for to 9(18) (19) while (20) 按步骤7-步骤9计算(21) (22) if(23) (24) break(25) end if(26) end while(27) end for(28) end while(29) end if(30) return
其中,
步骤9 预测结果去直觉模糊化。将式(16)中的最大值个数记为,每个最大值对应的直觉模糊集和区间分别记为和,。将趋势先验知识作用到上,得到新的区间为
4.1 Alabama大学入学人数实验
Alabama大学入学人数数据集是文献[2]首次提出FTS模型时使用的一组实验数据,此后该数据集常作为FTS和IFTS模型的测试集,用以检验模型的可行性。将本文的IFTS模型应用在该数据集上,得到各年入学人数预测结果如表4所示。
将文献[2],文献[9],文献[19],文献[24],文献[26]的模型分别应用在Alabama大学入学人数数据集上,利用均方误差(Root Mean Square Error, RMSE)和平均预测误差(Average Forecasting Error, AFE)两项指标将本文的预测结果同其它5种模型的预测结果进行比较。两项指标的计算为
表5列出了各模型的预测结果和预测性能及算法复杂度。其中,文献[2]为传统FTS模型,文献[11]和文献[20]为启发式FTS模型,文献[24]和文献[26]为传统IFTS模型。在文献[19]和文献[26]中,不同的取值对应了不同的预测结果,本文选取其中的最优结果用于比较。代表算法中(直觉)模糊逻辑关系个数,代表历史数据个数,代表(直觉)模糊逻辑关系组个数,代表窗口长度或算法的阶数。
从表5可以看出,与传统模型(即文献[2],文献[24]和文献[26])相比,本文模型扩展了预测值的取值范围,而不是仅仅局限于历史数据范围内。例如,当预测1990年的数据时,历史数据的取值范围是[13000, 19000],而1990年的数据为19328,不在历史数据范围内。文献[2],文献[24]和文献[26]的预测值分别为19000, 18961和19000,由于模型算法的制约它们的预测值始终只能位于区间[13000, 19000]内。而本文模型的预测值为19600,没有受到历史数据取值范围的制约。结合表4和表5的结果可以看出,与启发式模型(即文献[10]和文献[19])相比,本文模型的预测阶数不是固定不变的,而是通过阶数的自适应变化使每一年的预测数据都尽可能接近真实数据,从而得到了更小的平均预测误差。从时间复杂度上看,本文模型的时间复杂度较其它模型相比虽有一定增加,但依然控制在()数量级内,相较其预测结果的提升,这种程度的复杂度牺牲是可以接受的。与其它5种模型相比,本文模型的预测结果有所提升,从而证明该模型不仅是可行的而且预测结果是优良的。
表4 Alabama大学入学人数预测值
表5各模型对Alabama大学入学人数的预测性能
年份真实值预测值 文献[2]模型文献[10]模型文献[19]模型文献[24]模型文献[26]模型本文模型 197113055–––––– 1972135631400014279–14250–– 1973138671400014279–14246–– 1974146961400014279–14246–– 1975154601550015392–15491–– 1976153111600015392–1549115451– 1977156031600015392–1549115530– 1978158611600016467–1634516002– 1979168071600016467–1634516750– 1980169191681317161–1585017321– 198116388168131716116919158501701216986 198215433167891491616188158501622315830 198315497160001539214833154501556015693 198415145160001539215497154501511215329 198515163160001539214745154911511215201 198615984160001547015163154911556415394 198716859160001646716784163451615016780 198818150168131716117659179501742017674 198918970190001925719150189611863419308 199019328190001925719770189611900019600 199119337190001925719728189611957819733 199218876190001925719337189611963019321 RMSE635440508433439377 AFE(%)3.102.282.792.242.031.94 T(n)
4.2 日均气温数据集实验
北京市日均气温数据集是由中国气象信息中心提供的以天为单位对北京市气温进行的统计,本文只选取从2014年6月1日至2014年7月1日的数据作为实验数据集,如表6所示。
在该数据集上应用文献[2],文献[19],文献[24],文献[26]中的模型及本文模型进行预测,预测值及实际值如图1所示。
各模型预测性能的对比如表7所示。由表7可以看出,本文所建IFTS模型能够有效预测通用数据集中的数据,预测效果较现有模型有了较大提升。
表6 2014.6.1-2014.7.1北京市日均气温(℃)
表7各模型对日均气温数据集的预测性能
指标文献[2]模型文献[19]模型文献[24]模型文献[26]模型本文模型 RMSE1.701.531.291.191.00 AFE(%)5.304.593.923.513.35
图1 各模型对日均气温数据集的预测值
本文针对传统模糊时间序列预测模型的不足,利用直觉模糊集理论在处理不确定数据上的优势,建立了一个启发式变阶直觉模糊时间序列模型。采用阶数可变的高阶模型建立预测规则,实时地根据序列数据的发展趋势改变模型的阶数,使得每一次预测都尽可能地接近实际值,从而提升模型的整体预测精度。同时在解模糊阶段,从历史数据中得到数据发展趋势的启发知识,利用其扩展或缩小模型的预测范围,使得模型的预测值不受论域的束缚,更加准确。在两类数据集上与经典算法的对比试验表明模型具有较好的预测性能。但是模型依然存在几点缺陷,需要后续继续研究解决:(1)算法1的模型阶次选择是在一个较小的范围内寻优的,如果不加范围限制,怎样解决算法的收敛问题?(2)如何克服模型中可能存在过拟合的问题?此外,如何建立多元变阶直觉模糊时间序列,进一步提高预测性能,也将是下一步研究的重点。
[1] SONG Q and CHISSOM B S. Fuzzy time series and its models[J]., 1993, 54(1): 269-277. doi: 10.1016/0165-0114(93)90372-O.
[2] SONG Q and CHISSOM B S. Forecasting enrollments with fuzzy time series-Part I[J]., 1993, 54(1): 1-9. doi: 10.1016/0165-0114(93)90355-L.
[3] SONG Q and CHISSOM B S. Forecasting enrollments with fuzzy time seriesPart II[J]., 1994, 62(1): 1-8. doi: 10.1016/0165-0114(94)90067-1.
[4] EFENDI R, ISMAIL Z, and DERIS M M. A new linguistic out-sample approach of fuzzy time series for daily forecasting of Malaysian electricity load demand[J]., 2015, 28(3): 422-430. doi: 10.1016/j.asoc.2014.11.043.
[5] SUN Baiqing, GUO Haifeng, KARIMI H R,. Prediction of stock index futures prices based on fuzzy sets and multivariate fuzzy time series[J]., 2015, 151(3): 1528-1536. doi: 10.1016/j.neucom.2014.09.018.
[6] TSAUR R C and KUO T C. Tourism demand forecasting using a novel high-precision fuzzy time series model[J].,, 2014, 10(2): 695-701.
[7] HUANG K and YU T H-K. Ratio-based lengths of intervals to improve fuzzy time series forecasting[J].,,:, 2006, 36(2): 328-340.doi: 10.1109/TSMCB.2005.857093.
[8] CAI Qisen, ZHANG Defu, ZHENG Wei,. A new fuzzy time series forecasting model combined with ant colony optimization and auto-regression[J]., 2015, 74(1): 61-68. doi: 10.1016/j.knosys.2014.11.003.
[9] IZAKIAN H, PEDRYCZ W, and JAMAL I. Fuzzy clustering of time series data using dynamic time warping distance[J]., 2015, 39(3): 235-244. doi: 10.1016/j.engappai.2014.12.015.
[10] LU Wei, CHEN Xueyan, PEDRYCZ W,. Using interval information granules to improve forecasting in fuzzy time series[J]., 2015, 57(2): 1-18. doi: 10.1016/j.ijar.2014.11.002.
[11] ABDOLLAHZADE M, MIRANIAN A, HASSANI H,. A new hybrid enhanced local linear neuro-fuzzy model basedon the optimized singular spectrum analysis and its applicationfor nonlinear and chaotic time series forecasting[J]., 2015, 295(2): 107-125. doi: 10.1016/ j.ins.2014.09.002.
[12] CHENG S H, CHEN S M, and JIAN W S. Fuzzy time series forecasting based on fuzzy logical relationships and similarity measures[J]., 2016, 327(1): 272-287. doi: 10.1016/j.ins.2015.08.024.
[13] PENG Hungwen, WU Shenfu, WEI Chiaching,. Time series forecasting with a neuro-fuzzy modeling scheme[J].,2015, 32(7): 481-493. doi: 10.1016/ j.asoc.2015.03.059.
[14] CHEN M Y and CHEN B T. Online fuzzy time series analysis based on entropy discretization and a fast Fourier transform[J]., 2014, 14(1): 156-166. doi: 10.1016/j.asoc.2013.07.024.
[15] DENG W, WANG G, and ZHANG X. A novel hybrid water quality time series prediction method based on cloud model and fuzzy forecasting[J]., 2015, 149(12): 39-49. doi: 10.1016/ j.chemolab.2015.09.017.
[16] PEREIRA C M, ALMEIDA N N, and VELLOSO M. Fuzzy modeling to forecast an electric load time series[J]., 2015, 55: 395-404. doi: 10.1016/j.procs. 2015.07.089.
[17] SINGH P and BORAH B. Forecasting stock index price based on M-factors fuzzy time series and particle swarm optimization[J]., 2014, 55(3): 812-833. doi: 10.1016/j.ijar.2013. 09.014.
[18] CHEN S M and CHEN S W. Fuzzy forecasting based on two-factor second-order fuzzy-trend logical relationship groups and the probabilities of trends of fuzzy logical relationships[J]., 2015, 45(3): 405-417.doi: 10.1109/TCYB.2014.2326888.
[19] HWANG J R, CHEN S M, and LEE C H. Handling forecasting problems using fuzzy time series[J]., 1998, 100(1): 217-228. doi: 10.1016/S0165-0114(97)00121-8.
[20] LIU Haotien and WEI Maolen. An improved fuzzy forecasting method for seasonal time series[J]., 2010, 37(9): 6310-6318. doi: 10.1016/ j.eswa.2010.02.090.
[21] SINGH P and BORACH B. High-order fuzzy-neuro expert system for time series forecasting[J]., 2013, 46(7): 12-21. doi: 10.1016/j.knosys.2013. 01.030.
[22] ASKARI S and MONTAZERIN N. A high-order multi-variable fuzzy time series forecasting algorithm based on fuzzy clustering[J]., 2015, 42(4): 2121-2135. doi: 10.1016/j.eswa.2014.09.036.
[23] CASTILLO O, ALANIS A, GARCIA M,. An intuitionistic fuzzy system for time series analysis in plant monitoring and diagnosis[J]., 2007, 7(4): 1227-1233. doi: 10.1016/j.asoc.2006.01.010.
[24] JOSHI B P and KUMAR S. Intuitionistic fuzzy sets based method for fuzzy time series forecasting[J]., 2012, 43(1): 34-47.doi: 10.1080/01969722.2012.637014.
[25] 郑寇全, 雷英杰, 王睿, 等. 直觉模糊时间序列建模及应用[J]. 控制与决策, 2013, 28(10): 1525-1530.
ZHENG Kouquan, LEI Yingjie, WANG Rui,. Modeling and application of IFTS[J]., 2013, 28(10): 1525-1530.
[26] 郑寇全, 雷英杰, 王睿, 等.参数自适应的长期IFTS预测算法[J]. 系统工程与电子技术, 2014, 36(1): 99-104. doi: 10.3969/ j.issn.1001-506X.2014.01.16.
ZHENG Kouquan, LEI Yingjie, WANG Rui,. Method of long-term IFTS forecasting based on parameter adaption[J]., 2014, 36(1): 99-104. doi: 10.3969/j.issn.1001-506X.2014.01.16.
[27] 梁保松, 曹殿立. 模糊数学极其应用[M]. 北京: 科学出版社, 2007: 65-85.
LIANG Baosong and CAO Dianli. Fuzzy Mathematics and Applications[M]. Beijing: Science Press, 2007: 65-85.
[28] 雷英杰, 赵杰, 路艳丽, 等. 直觉模糊集理论及应用[M]. 北京: 科学出版社, 2014: 28-189.
LEI Yingjie, ZHAO Jie, LU Yanli,. Theories and Applications of Intuitionistic Fuzzy Set[M]. Beijing: Science Press, 2014: 28-189.
[29] WANG Yanan, LEI Yingjie, FAN Xiaoshi,. Intuitionistic fuzzy time series forecasting model based on intuitionistic fuzzy reasoning[J]., 2016(2016): 1-12. doi: 10.1155/2016/5035160.
A Heuristic Adaptive-order Intuitionistic Fuzzy Time Series Forecasting Model
WANG Yanan①LEI Yingjie①WANG Yi①ZHENG Kouquan②
①(,,’710051,)②(’,’710106,)
Considering that the existing high-order models have limitations in forecast range and accuracy, a heuristic adaptive-order intuitionistic fuzzy time series forecasting model is built with the combination of the intuitionistic fuzzy sets theory. In this model, a direct fuzzy clustering algorithm is used to partition the universe of discourse into unequal intervals. The traditional method of ascertaining the membership and non-membership functions of intuitionistic fuzzy set are also modified to fit the intuitionistic fuzzy time series data. On these basis, variable high-order forecasting rules are established and the prior knowledge of tendency is used in defuzzification to extend the forecasting range. At last, contrast experiments on the enrollments of the University of Alabama and the daily average temperature of Beijing are carried out. The results show that the new model has a clear advantage of improving the forecast accuracy.
Intuitionistic fuzzy set; Time series forecast; Heuristic; Adaptive order
TP391
A
1009-5896(2016)11-2795-08
10.11999/JEIT160013
2016-01-04;改回日期:2016-05-26;
2016-07-19
王亚男 wyn1988814@163.com
国家自然科学青年基金项目(61402517)
The National Natural Science Foundation of China (61402517)
王亚男: 女,1988年生,博士生,研究方向为网络信息安全.
雷英杰: 男,1956年生,教授,博士生导师,研究方向为网络信息安全、智能信息处理.
王 毅: 男,1979年生,讲师,博士,研究方向为智能信息处理.
郑寇全: 男,1983年生,讲师,博士,研究方向为智能信息处理.