余婷+黎放
摘要: 本文采取了一种基于支持向量机的预测方法对公共事业费的支出情况进行了预测。计算结果证明,这种方法与传统的方法相比,具有更好的泛化能力,可以使神经网络方法出现的过拟合、网络结构难以确定等问题得到有效地解决,因而该方法可以作为一种新途径用于研究此类问题。
Abstract: In this paper, a new forecasting method based on support vector machine is adopted to predict the expenditure of public utilities. The calculation results show that this method, compared with the traditional method, has better generalization ability, can effectively solve over-simulated problem, the network structure difficult to be determined and others which existing in the the neural network method,thus the method can be used as a new approach for the study of such problems.
关键词: 支持向量机;公共事业费;费用预测
Key words: support vector machine;public utilities;cost forecast
中图分类号:F299.24 文献标识码:A 文章编号:1006-4311(2016)29-0009-03
0 引言
目前,在公共事业费预测过程中,人们一般选择使用参数法、时间序列方法、灰色系统理论方法等对公务事业费的支出情况进行预测,事实证明这些方法都取得了良好的预测效果。但在外界环境中公共事业费会受到许多复杂因素的影响,没有一种预测方法可以做到面面俱到,一般只能侧重于问题的某一个或几个方面。因此,可以说一种能够保证在所有情况下都可以得到完美的预测结果的预测方法是基本不存在的。
现行的公务事业费预测过程一般是这样的:分析人员首先选取几种合适的候选模型,分别用这些模型对公务事业费进行初步预测;然后基于上述模型进行预测,结合个人以往的工作经验和通过模型所获得的信息综合分析预测结果的可行性,再在分析结果的基础上优选一个可预测公务事业费的最佳模型进行预测。但事实上,他们只是简单地对几种候选模型进行了一个筛选工作,而没有做到根据每个模型所具有的特点从而将多个模型进行一个有效的组合,使预测结果更加科学可信。
有些专家认为:为了使模型的拟合能力得到有效地改善,同时也使每个预测模型所获得的有用信息能够得到充分的利用,可以将两种无偏的单项预测模型相结合,从而得到出一种新的组合方法,这种新的组合方法结合了两个单项预测模型的特点,提高了预测的精度,得到的结果更加科学可信。并在此基础上提出了最优组合预测方法[1]。目前组合预测方法的相关研究正处于一个火热的状态。
所以,与传统方法相比较用组合预测模型对公共事业费进行预测得到的结果更加科学可信,该方法适合用于对公务事业费的预测。
1 基于熵技术的最优组合预测方法
用yt,t=(1,2,…,n) 表示某一预测问题中某一时段的实际值。就现阶段而言,总共有m种预测该问题的方法,其中利用第i种方法对t时段的预测值为fit。
通过上述分析我们可以发现,最优组合预测方法预测的重点在于先要确定最优组合权系数。对此,许多专家和学者提出了很多套优化标准以及以最小方差法、时变加权最小二乘法、卡尔曼滤波法、目标/多目标规划法、贝叶斯法、AIC准则法、AHP法、小波神经网络法、无约束/有约束最小二乘法、模糊综合评判法等为代表的确定权系数的方法[2]。这些预测方法可以很好地解决不同的问题。在具体应用环节,应该具体问题具体分析从而选择合适的确定权系数方法。
本文从公务事业费消耗预测的实际情况出发,并且综合考虑对预测方法的评价指标,利用评价值所提供的有效信息,认为可以引入熵的概念,提出采用熵技术对组合预测权系数进行确定。
2 基于熵技术的组合权系数确定
2.1 熵
1865年,德国物理学家鲁道夫·克劳修斯(Rudolf Clausius)在其提出的热力学第二定理中第一次提出了熵的概念,他认为熵是物质的状态函数,即状态一定时,物质的熵值也一定。
也可以说熵变只和物质的初末状态有关。此后科学家为此进行了大量的研究。1889年,玻尔兹曼将熵与系统的微观状态函数有机结合来定义熵的统计意义。在他的学说中,熵相当于一个系统混乱度的量度,即玻尔兹曼熵。1948年,美国人Shannon又将玻尔兹曼熵视为随机事件的不确定性或信息量的量度,提出“信息熵”的概念,经典信息论由此应运而生[3]。
基于熵技术确定组合权系数,实际相当于一个针对各种预测方法的多指标评价问题。假设多指标评价问题的方案集是A={A1,A2,…,Am},评价指标集是F={f1,f2,…,fn},X={xij}m×n评价矩阵,其中xij为第i个方案在第j个指标下的属性值。假设全部的决策方案中的指标fj基本一致,说明在排序评价决策方案时指标fj没有任何参考作用,遇到此类情况可将fj指标的权重设为0。
通常情况下,某一指标的指标值变异跨度越明显,其信息熵越小,决策者通过该指标所获得的信息量越大,也就是说对于决策方案的排序,这项指标所拥有的参考价值越大。反之,假设某一指标的指标值变异跨度越不明显,其信息熵就越大,决策者通过这项指标所获得的信息量就越小,也就是说在方案排序时,这项指标的参考价值越小,相应的指标权重也越小。这就是多指标决策时熵指标的应用原理。
评价指标的熵:假设一个评估项目中有n个被评价对象和m个评价指标,则可用下式表示第i个评价指标的熵权wi:
2.2 预测方法权系数的确定
本文拟用熵与判断矩阵相结合的方式来确定各预测方法的权重系数。以下是分析过程[4]:
①经过综合考虑各相关指标等得出n个比较合理的方案,后续将对这n个方案进行分析和评价。
④确定各预测方法的权重。
对规格化矩阵直接加权,得到各预测方法的评价值,再通过归一化处理所获得的预测方法的权重。
1)评价指标的合并。
主要是要综合考虑对某一种方法的各项指标评价值,以此获得对于所研究的预测方法的综合评价值。
具体方法有:直接加权法,理想点距离,与理想点贴近度等。
2)预测方法权重。
主要是依据对各种预测方法的综合评价值,得出预测方法的权重系数。
基本方法有:直接归一化,考虑几种评价指标的合并方法进行综合后再归一化等。
3 应用分析
本文以某单位某10年的公务事业费开支标准为研究对象,通过上述步骤对该单位的公务事业费开支进行预测。
3.1 研究对象的选取
选取某10年的公共事业费开支标准(单位:万元)为研究对象,具体数据如表1所示。
3.2 基本预测方法选取
目前在公共事业费实际预测过程中有许多的预测方法,其中应用频率比较高的是BP神经网络方法,此外还有指数函数方法、幂函数方法和GM(1,1)方法。在下文中,将对这几种方法进行重点分析。
3.3 评价指标集
在指标评价中,有许多预测方法可供选择,并且每种预测方法的评价指标也有一定差别,严格来讲没有一种预测评价方法是相对固定的,也不能说哪一种评价方法是绝对有效的。实际应用时,大部分决策者擅长采用基于误差平方和达到最小或误差绝对值求和达到最小的评价准则。但就本文来看,在预测评价时更应该深入研究一下预测方法。严格来讲,预测模型仅仅是关系预测效果好坏的重要因素之一,除此以外,决策者对预测方法的信赖程度、对预测结果的取舍,都有可能影响预测结果的准确度。鉴于此,对预测方法的综合评价是有必要的。可引入对预测效果的主观评价指标,设定以下评价指标集来评价所采用的预测方法是否准确。
①模型对于预测问题的适用程度。预测模型对所分析问题的适应性,即为模型的适用程度。譬如:选用的预测模型比较适用于短期预测而非中长期预测,但实际上是要对预测对象进行中长期预测时,在该组合预测问题时就有可能出现明显的误差,误差越大,其适应性越差。而对平稳过程的分析以及对非平稳过程的分析也都如此。
②模型拟合值对参与建模数据的偏差。通常情况下评价一个预测模型最一般、最基本的标准就是与传统的基于误差平方和达到最小或误差绝对值求和达到最小的评价准则相一致[5]。
③模型对测试数据的偏差。与仅用参与建模数据的拟合情况来评价显得更为科学,在一定程度上更能体现了预测模型的推广性能。
④决策者的信赖程度。该因素表示的是决策者对预测模型的喜好程度,虽然在一定程度上具有主观性,但也能在一定程度上反映出决策者的实际工作经验,可以做到将专家知识融入预测过程中。
3.4 评价矩阵的确定
对于定量分析出的指标评价值,可直接用其数值进行分析。由于本文引入了定性分析指标,因此需要对定性评价值进行量化处理,根据分析结果,给各方案赋定性评价值:“好”、“一般”等等。对所赋的定性指标的量化方法可采用Bipolar尺度。选10点标度,从终点开始,给最优属性赋10点,给最差属性值赋0点[6]。如图1所示。
通过计算求取以及咨询专家后给出的评价矩阵如表2所示。
3.5 专家意见的综合
计算权重:
BP神经网络网络模型的权重为0.1016,幂函数模型的权重为0.2167,指数函数模型的权重为0.4307,GM(1,1)模型的权重为0.2510.
3.6 预测结果
根据上述方法,对几种预测方法的结果进行加权后得到的结果为1214.8万元。根据上述组合预测模型,计算出该单位下年的公务事业费标准应为1214.8万元。
4 结论
利用基于熵权的最优组合权系数的确定方法与一般的权系数确定方法相比这种方法更侧重于实际的应用效果,因为它较具有能综合考虑到预测过程中多个影响因素,能更加充分地利用每个预测模型所获得的信息,能有效地改善模型的拟合能力并且提高预测的精度等特点。同时这种方法也考虑到了实际过程中预测人员的主观因素的影响,能充分利用专家知识,所以这种利用基于熵权的最优组合权系数的确定方法是较为符合公务事业费费用预测的实际情况的。
参考文献:
[1]韩冬梅,牛文清,杨荣.线性与非线性最优组合预测方法的比较研究[J].情报科学,2007(11):1672-1678.
[2]栗然,刘会兰,卢云,韩彪.基于交叉熵理论的变压器配电变压器寿命组合预测方法[J].电力系统保护与控制,2014(2):97-103.
[3]尹世伟,郭庆伟,李鑫茹,潘龙.从热机到热寂—熵的起源与发展[J].大学化学,2011(1):85-87.
[4]蒋铁军,张怀强.基于信息熵的舰船装备建造费组合预测研究[J].舰船科学技术,2011(1):127-130.
[5]何娇娇.组合预测模型及其在负荷预测中的应用研究[D]. 三峡大学,2013.
[6]任凯.基于设施投资决策系统理论与方法研究[D].天津大学,2008.
[7]索瑞霞,王福林.组合预测模型在能源消费预测中的应用[J].数学的实践与认识,2010(18):80-85.
[8]张学清,梁军,张熙,张峰,张利,徐兵.基于样本熵和极端学习机的超短期风电功率组合预测模型[J].中国电机工程学报,2013(25):33-40.
[9]张栋梁,严健,李晓波.基于马尔科夫链筛选组合预测模型的中长期负荷预测方法[J].电力系统保护与控制,2016(12):63-67.
[10]崔吉峰,乞建勋,杨尚东.基于粒子群改进BP神经网络的组合预测模型及其应用[J].中南大学学报,2009(2):190-194.
[11]李志鹏,李薇,刘志杰.基于组合预测模型的产业总产值的预测研究[J].电脑与电信,2015(3):62-64.
[12]王应明.基于相关性的组合预测方法研究[J].预测,2002(21):448-454.
[13]李景熹,蒋铁军.基于特征加权支持向量机的武器系统效能评定方法[J].2013(05).
[14]向昌盛.基于支持向量机的时间序列组合预测模型[D].湖南农业大学,2011.
[15]杨春波.基于灰色模型与人工神经网络的改进组合预测模型及其应用研究[D].山东师范大学,2009.
[16]王莎莎,陈安,苏静,李硕.组合预测模型在中国GDP预测中的应用[J].山东大学学报(理学版),2009(02).