基于SVM-GA模型的城市天然气长期负荷预测

2017-05-02 06:26董明亮刘培胜文江波李秉繁
辽宁石油化工大学学报 2017年2期
关键词:遗传算法向量天然气

董明亮, 刘培胜, 潘 振, 文江波, 李秉繁

(辽宁石油化工大学 石油天然气工程学院,辽宁 抚顺 113001)

基于SVM-GA模型的城市天然气长期负荷预测

董明亮, 刘培胜, 潘 振, 文江波, 李秉繁

(辽宁石油化工大学 石油天然气工程学院,辽宁 抚顺 113001)

天然气长期负荷预测能够解决城市燃气供需不平衡的问题,为城市燃气公司的管理运行提供帮助。为了提高天然气长期负荷的预测精度,提出了基于SVM-GA(Support Vector Machines-Genetic Algorithm)的天然气长期负荷预测模型。分析确定影响天然气用气量的相关因素,应用遗传算法和交叉验证方法分别对支持向量机模型的惩罚因子c及核函数参数g进行优化,以期提高支持向量机模型的预测精度,将优化后的参数输入支持向量机模型中,进行天然气长期负荷预测。以某省实际的样本数据为例,将SVM-GA模型的预测结果与SVM和交叉验证法结合模型及BP(Back Propagation)神经网络模型的预测结果进行比较分析。结果表明, SVM-GA预测模型分别比SVM和交叉验证法结合预测模型和BP神经网络模型在衡量预测精度的相对均方误差、归一化均方误差、归一化绝对平方误差、归一化均方根误差、最大绝对误差五个指标分别高0.58%、3.98%、2.99%、4.58%、8.64%和6.13%、26.28%、19.71%、21.09%、31.48%。因此支持向量机与遗传算法相结合的模型能够较准确地预测天然气长期负荷。

天然气长期负荷; SVM; BP神经网络; 遗传算法; 交叉验证法; 预测; 精度

随着我国国民经济水平的不断提高,工业生产水平越来越发达,以及对环境保护和低碳节能生活模式的提倡,天然气消费量必然提高。对天然气长期负荷进行预测能够帮助我们确定天然气消费量的变化趋势,因此提出精确的天然气长期负荷预测模型显得尤为重要。

近几年,国内学者在天然气负荷预测方面做了大量研究,包括短期预测及中长期预测。文献[1]运用小波变换数据分析方法对天然气负荷数据进行分解,将分解的高频分量用ARIMA(Autoregressive Integrated Moving Average Model)方法进行预测,低频分量用RBF(Radial Basis Function)预测模型进行预测,将各预测结果重构得到最终的预测结果。文献[2-3]运用时序模型对天然气负荷进行预测,该模型是把非平稳的周期时序模型简化为周期项的数学模型,然后根据数据的趋势,寻找数学模型,该方法随机性比较大,因此得到的模型局限性大。文献[4-5]介绍了灰色理论和灰色预测方法,通过建立GM(1,1)模型得到预测值,使用该模型预测时未考虑影响天然气消费量的因素。文献[6]介绍了BP(Back Propagation)神经网络对天然气短期负荷进行预测的方法,确定输入输出以及隐含层的节点数,把星期、天气情况等作为输入参数,经过BP神经网络得到短期内天然气的用量。文献[7]应用主成分分析与支持向量机相结合的方法对天然气消费量预测,首先通过主成分分析确定对天然气消费量影响较大的一些因素,输入支持向量机模型得出预测结果,该预测方法并没有对支持向量机中的惩罚因子和核函数参数进行优化。

目前国内学者研究天然气负荷预测所用的方法有神经网络、灰色理论、时间序列等,很少有学者把支持向量机模型用在天然气长期负荷预测方面。在使用支持向量机模型进行预测的过程中,需要对惩罚因子c和核函数参数g进行优化选择[8]。传统意义上的支持向量机模型使用的优化方法为交叉验证的方法,而遗传算法是目前用于优化计算方面比较理想的方法。本文拟采用遗传算法和支持向量机相结合的模型进行预测,为城市的合理规划、燃气公司的管网设计及铺设等工程应用提供理论依据。

1 理论基础

1.1 支持向量机算法理论基础

支持向量机(Support Vector Machines,SVM)由C. Cortes等[9]在1995年提出,基于统计学习理论的 VC 维理论结构风险最小化理论基础上的机器学习理论,解决了小样本数据下其他预测方法面临的过学习及欠学习问题、无法预测非线性问题以及局部极小值问题。起初,支持向量机算法主要应用于模式识别的问题,随后在函数的回归和预测领域也有了广泛的应用[10]。

支持向量机是基于统计学习理论满足结构风险最小化原则的预测方法,包括分类预测和回归预测两方面内容。该方法的基本思想为:通过构造损失函数,并基于结构风险最小化的原则,支持向量机通常采用以下极小化优化模型来确定回归函数[10-11]。

(1)

(2)

(3)

(4)

求解上述问题可得到支持向量机回归函数:

(5)

(6)

式中,xi、xj表示向量X中的元素,σ表示核宽度。

由式(3)、式(4)、式(6)可知,在支持向量机计算过程中涉及到两个参数,即惩罚因子c和核函数参数g。本文采用遗传算法对其进行优化。

1.2 优化算法基础

(1)遗传算法理论基础。遗传算法(GeneticAlgorithm,GA)是美国Michigan大学J.Holland教授于1975年创建的。遗传算法的基本思想是基于达尔文进化论和孟德尔遗传学说。遗传算法是一种新的全局优化搜索算法,具有简单通用、鲁棒性强、适于并行处理及应用范围广等特点[15],目前已被广泛应用于不同预测控制的组合优化、机器学习、信号处理等方面。其主要步骤是对需要求解的问题进行编码,生成初始化种群,对问题做适应度评价及选择、重组、变异操作。GA优化SVM预测流程如图1所示。

图1 GA优化SVM预测流程

(2) 交叉验证算法理论基础。交叉验证算法(K-foldCrossValidation)是一种寻优方法。在确定支持向量机的惩罚因子及核函数参数时,将原始数据分为K组,其中一组作为验证集,其余的K-1组作为训练集,这样会得到K组模型,每组模型对应一个均方误差,最小均方误差对应的惩罚因子和核函数参数即为最优的结果[13]。

2 实例研究及结果分析

2.1 影响因素的确定

天然气产业是一个复杂的系统工程,受到来自不同方面因素的影响。在对天然气用量的预测中考虑的因素越全面,得到的模型精确度越高。但短期负荷预测与中长期负荷预测考虑的因素是不同的。对短期负荷预测时,主要考虑的是天气、节假日等因素[16];对长期负荷预测时,考虑的因素有国民经济、能源政策、市场环境、用气人口数量等[17]。

定性选取了国民生产总值、第一产业生产总值、第二产业生产总值、工业生产总值、第三产业生产总值、人均生产总值、能源消费弹性系数、天然气用气人口、能源消费总量、煤炭占能源消费总量比例、石油占能源消费总量比例、天然气占能源消费总量比例及水电占能源消费总量比例13个因素作为城市长期负荷预测影响指标。本文采用Spearman相关系数法对天然气消费影响指标进行相关性分析[18-19],结果如表1所示。

由表1可知,天然气消费量与国民生产总值、第一产业生产总值、第二产业生产总值、工业生产总值、第三产业生产总值、人均生产总值、能源消费总量、天然气用气人口、天然气占能源消费总量比例高度正相关;煤炭占能源消费总量比例、石油占能源消费总量比例与天然气消费量高度负相关;能源消费弹性系数、水电占能源消费总量比例与天然气消费量的相关系数分别为-0.074 20和0.043 50,相关关系不显著。

表1 影响因素与天然气消费量的相关系数

因此,拟采用国民生产总值、第一产业生产总值、第二产业生产总值、工业生产总值、第三产业生产总值、人均生产总值、能源消费总量、煤炭占能源消费总量比例、石油占能源消费总量比例、天然气用气人口及天然气占能源消费总量比例11个因素作为城市中长期负荷预测影响指标。

2.2 支持向量机预测

通过查阅年鉴,整理得到2000—2013年天然气用量,如表2所示。采用支持向量机算法考虑以上11个影响因素对该省的天然气长期负荷进行预测。

表2 2000—2013年天然气用量

为了验证本文提出的组合预测方法的精确度,选取该省2000—2009年的10个样本数据作为训练集,结合支持向量机算法模拟得出训练模型,以2010—2013年的4个样本数据作为测试集,并与用支持向量机算法和交叉验证优化方法相结合得到的模型及BP神经网络算法得出的预测模型进行对比分析。

(1) 交叉验证法参数寻优。对训练集进行初始化分组[13],由于数据样本少,故K取2,参数c和g的初始化搜索区间为[2-8,28]、[2-8,28],搜索范围的步长为20.5[20]。SVM参数选择等高线图如图2所示,SVM参数选择立体图如图3所示。

图2 SVM参数选择等高线图

图3 SVM参数选择立体图

由图2和图3可以看出,交叉验证法寻优过程是把训练集合分成2组,其中一组样本作为模型的训练,另一组样本作为模型的预测,得出模型的均方误差,经过支持向量机模型的训练得到最优的惩罚因子c和核函数参数g的值分别为4.000 0和0.007 810 0,此时的均方误差为0.163 800,将图2、图3中的运算结果记入表3中,便于与遗传算法得出的结果进行比较。

(2) 遗传算法参数寻优。遗传算法对支持向量机的惩罚因子及核函数参数优化算法的参数设置[21]:种群的最大进化代数为200;种群最大数量为20;交叉概率为0.8;变异概率为0.01。把设置的参数带入编写的计算机程序中得到遗传算法迭代计算优化结果,如图4所示。

由图4可知,进化代数到100代停止进化,此时,优化之后的支持向量机的惩罚因子c及核函数参数g的值为12.111 3和0.006 818 8,模型的均方误差为0.093 207,将图4中的运算结果记入表3中。

图4 遗传算法迭代计算优化结果

(3)两种优化算法的结果比较。两种优化方法的优化结果对比如表3所示。

表3 两种优化方法的优化结果对比

由表3可知,两种优化方法利用训练集对模型的参数进行优化后,遗传算法的模型均方误差为0.093 207,比交叉验证法的模型精度高43.1%。

把优化之后的参数输入支持向量机模型中进行预测,即可得出结果。三种模型的预测结果与实际值对比如图5所示。BP神经网络模型、支持向量机模型、支持向量机算法与遗传算法结合模型的预测结果的绝对误差如图6所示。

图5 三种模型的预测结果与实际值对比

图6 不同模型的绝对误差

BP神经网络模型、支持向量机模型、支持向量机算法与遗传算法组合模型的相对误差如表4所示。

表4 不同预测模型预测结果的相对误差 %

对三种模型的预测精度对比分析,采用的定量评价方法为国际上普遍采用的5种误差评价方法,分别为相对均方误差、归一化均方误差、归一化绝对平方误差、归一化均方根误差、最大绝对误差,具体公式可参照文献[22],不同预测模型的各性能指标比较结果如表5所示。

表5 不同预测模型的各性能指标比较结果

2.3 结果分析

由图6和表4可知,BP神经网络预测模型的绝对误差和相对误差明显大于SVM预测模型和SVM-GA预测模型;SVM预测模型的绝对误差和相对误差大于SVM-GA预测模型。主要原因是用支持向量机算法进行预测过程中需要对惩罚因子c和核函数参数g进行选择,本文用到的组合模型采用当前比较优秀的遗传算法对惩罚因子和核函数参数进行优化计算,从而在很大程度上提升了模型的预测精度。

由表5可知,SVM-GA预测模型的相对均方误差、归一化均方误差、归一化绝对平方误差、归一化均方根误差、最大绝对误差分别比单独用SVM预测模型和BP神经网络模型的结果低0.58%、3.98%、2.99%、4.58%、8.64%和6.13%、26.28%、19.71%、21.09%、31.48%。从以上数据可以看出组合模型的预测结果是最理想的,单独用SVM预测模型的结果次之,用BP神经网络模型的结果最差。

3 结 论

用BP神经网络模型、SVM预测模型、SVM-GA预测模型对某省的天然气长期负荷进行预测,通过对结果的比较得出SVM和GA组合预测模型的精度最高,预测结果最理想,从而为天然气长期负荷预测提出了一种新的预测模型。

(1) 由BP神经网络的预测结果和支持向量机模型的预测结果对比可知,BP神经网络预测模型在小样本数据时的预测结果没有支持向量机模型的精度高,对于天然气长期负荷预测来说,样本数据较少,特别适合运用支持向量机模型进行预测。

(2) 由支持向量机模型与支持向量机和遗传算法的结合模型对比可知,支持向量机模型在预测过程中惩罚因子c和核函数参数g对预测结果有较大影响,设定合理的惩罚因子和核函数参数,得到的结果与真实值更接近;而且遗传算法对惩罚因子及核函数参数的优化结果要比交叉验证法得到的结果更能提高支持向量机模型的预测精度。

(3) 支持向量机和遗传算法结合的模型在天然气长期负荷预测中的结果很理想,取得了很好的预测效果,为以后的天然气长期负荷预测提供很好的思路,对工程中的实际应用提供理论依据。

[1] 乔伟彪,陈保东.基于Haar小波变换和ARIMA-RBF的天然气时负荷预测[J].石油化工高等学校学报,2015,28(4):75-80.

[2] 焦文玲,廉乐明,崔建华,等.城市燃气短期周期负荷预测的时序模型[J].天然气工业,2002,22(1):92-94.

[3] 焦文玲,赵林波,秦裕琨.城市燃气负荷非平稳时序预测模型的研究[J].煤气与热力,2003,23(8):451-458.

[4] 焦文玲,严铭卿,廉乐明.城市燃气负荷的灰色预测[J].煤气与热力,2001,21(5):387-389.

[5] 王婷婷,马庆元,郭继平.城市燃气中长期负荷的灰色预测[J].洁净煤技术,2007,13(1):5-14.

[6] 焦文玲,朱宝成,冯玉刚.基于BP神经网络城市燃气短期负荷预测[J].煤气与热力,2006,26(12):12-15.

[7] 江敏.基于主成分分析和支持向量机相结合的天然气消费量预测[J].科技通报,2013,29(12):42-44.

[8]HapelleO,VapnikV,BousqetO,etal.Choosingmultipleparametersforsupportvectormachines[J].MachineLearning,2002,46(1):131-159.

[9]CortesC,VapnikV.Support-vectornetworks[J].MachineLearning, 1995, 20(3): 273-297.

[10] 谭梦羽.基于支持向量机回归与学习的金融数据预测与分类[D].西安:西安电子科技大学,2014.

[11] 王宁,谢敏,邓佳梁,等.基于支持向量机回归组合模型的中长期降温负荷预测[J].电力系统保护与控制,2016,44(3):92-97.

[12] 王东,史晓霞,尹交英.不同核函数的支持向量机用于空调负荷预测的对比研究[J].电工技术学报,2015,30(S1):531-535.

[13] 陈伟根,滕黎,刘军,等.基于遗传优化支持向量机的变压器绕组热点温度预测模型[J].电工技术学报,2014,29(1):44-51.

[14] 刘祥楼,贾东旭,李辉,等.说话人识别中支持向量机核函数参数优化研究[J].科学技术与工程,2010,10(7):1669-1673.

[15] 杨杰,占君,张继传.MATLAB神经网络30例[M].北京:电子工业出版社,2014:22-29.

[16] 乔伟彪,陈保东,吴世娟,等.基于小波变换和LSSVM-DE的天然气日负荷组合预测模型[J].天然气工业,2014,34(9):118-124.

[17] 鲁德宏.我国天然气中长期消费水平的预测[J].油气储运,2002,21(11):1-5.

[18] 王沁,王璐,何平.基于Spearmanρ的时变Copula模型的模拟及应用[J]. 数理统计与管理,2011,30(1):76-84.

[19] 胡军,张超,陈平雁.非参数双变量相关分析方法Spearman和Kendall的MonteCarlo模拟比较[J].中国卫生统计,2008,25(6):590-591.

[20] 王小川.MATLAB神经网络43个案例分析[M].北京:北京航空航天大学出版社,2013:137-143.

[21] 刘国华,包宏,李文超.用MATLAB实现遗传算法编程[J].计算机应用研究,2001,18(8):80-82.

[22] 张学清,梁军.风电功率时间序列混沌特性分析及预测模型研究[J].物理学报,2012,61(19):70-81.

(编辑 陈 雷)

A Forecasting Model of Natural Gas Long-Term Load Based on SVM-GA

Dong Mingliang, Liu Peisheng, Pan Zhen, Wen Jiangbo, Li Bingfan

(CollegeofPetroleumEngineering,LiaoningShihuaUniversity,FushunLiaoning113001,China)

Long-term natural gas load forecasting can solve the problem of the imbalance between supply and demand of city gas and provide assistance for the city gas company's management and running. In order to improve the accuracy of predicting the long-term natural gas load, a forecasting model of natural gas long-term load was built based on SVM-GA(Support Vector Machines-Genetic Algorithm). The relevant factors influencing natural gas consumption was analyzed and determined. In order to improve prediction accuracy, the penalty factorcand the kernel parametergof support vector machines were optimized using genetic algorithm and cross validation methods. Optimized parameters were inputted support vector machines model and long-term natural gas load forecasting was made. In a case study from a certain city, a comparative analysis was made of the forecasting results among SVM-GA, SVM and cross-validation method combined prediction model and BP(Back Propagation) neural networks. The forecasting model based on SVM-GA was validated with a high prediction accuracy and the resulted relative mean square error, normalization mean square error,normalization absolute square error,normalization root-mean square error, maximum absolute error resulted from the SVM-GA were lower than those from SVM and cross-validation method combined prediction model or BP neural networks by 0.58%,3.98%,2.99%,4.58%,8.64% and 6.13%,26.28%,19.71%,21.09%,31.48%. Therefore,the support vector machine and genetic algorithm combined model can accurately predict the long-term natural gas load.

Natural gas long-term load; SVM; BP neural networks; Genetic algorithm; Cross validation; Forecast; Accuracy

1672-6952(2017)02-0031-06

2016-09-26

2016-11-05

辽宁省高等学校优秀人才支持计划项目(LJQ2014038)。

董明亮(1990-),男,硕士研究生,从事城市燃气负荷预测研究;E-mail:463925702@qq.com。

潘振(1981-),男,博士,副教授,从事城市燃气负荷预测研究;E-mail:28335719@qq.com。

TE01

A

10.3969/j.issn.1672-6952.2017.02.007

投稿网址:http://journal.lnpu.edu.cn

猜你喜欢
遗传算法向量天然气
向量的分解
聚焦“向量与三角”创新题
第六章 意外的收获——石油和天然气
石油和天然气
天然气:供暖季在即LNG价格持续走高
天然气:LNG价格已经开始预热了么?
一种基于遗传算法的聚类分析方法在DNA序列比较中的应用
向量垂直在解析几何中的应用
软件发布规划的遗传算法实现与解释
基于改进的遗传算法的模糊聚类算法