基于支持向量回归机的中国碳排放预测模型

2012-01-03 06:10宋杰鲲
关键词:训练样本煤炭向量

宋杰鲲

(中国石油大学经济管理学院,山东青岛 266555)

基于支持向量回归机的中国碳排放预测模型

宋杰鲲

(中国石油大学经济管理学院,山东青岛 266555)

选取人口、城镇化率、人均GDP、服务业增加值比重、单位GDP能耗、煤炭消费比例等6项影响因素作为自变量,运用支持向量回归机方法构建中国碳排放预测模型。以1980—2009年碳排放及影响因素数据为样本,通过训练、测试得到具有良好学习与推广能力的支持向量回归机模型。结合“十二五”规划,设置不同情境下影响因素预测值,对2010—2015年中国碳排放进行预测。预测结果表明,中国可适当降低GDP增速,不断优化能源结构,以确保碳减排目标的有效实现。

碳排放;支持向量回归机;预测模型

中国是世界上能源生产与消费大国。中国非常重视碳排放问题,在“十二五”规划中明确提出要“节约能源,降低温室气体排放强度”。要实现这一目标,需要对碳排放的影响因素进行深入分析,构建科学的预测模型对未来碳排放进行预测,为制定有效的碳减排路径提供决策依据。目前,碳排放预测模型研究大致可以分为两种模式:一是直接构建模式,即基于碳排放与其影响因素之间的相互关系,构建Kaya等式、IPAT或STIRPAT模型对碳排放进行预测[1-3];二是混合构建模式,即基于环境(碳排放)与宏观经济、能源消费、部门技术等因素之间的关联关系构建投入产出、MARKAL-MACRO、CGE等混合能源经济模型对碳排放进行预测[4-6]。混合构建模式具有多元化的研究目的,碳排放通常是在能源消费预测基础上应用碳排放系数法计算获得,需要大量的各部门技术数据。本文中选用直接构建模式对中国碳排放进行预测。为克服偏最小二乘回归和岭回归方法稳定性和可解释性较弱、参数难以确定等不足[7-8],笔者借鉴STIRPAT的相关因素,构建支持向量回归机(support vector regression,SVR)模型对中国碳排放进行预测,以期为碳排放预测提供新的科学工具。

1 碳排放影响因素选取

STIRPAT模型即基于回归方法考察人口、财富和技术对环境随机影响的模型,其中人口、财富、技术等因素均可扩展[9]。借鉴该模型的相关因素,选取人口、城镇化率、人均GDP、服务业增加值比重、单位GDP能耗、煤炭消费比例这6项影响因素作为碳排放预测的自变量。其中,人口和城镇化率分别反映了人口总量和城镇人口(或城镇化水平)的影响,人均GDP和服务业增加值比重分别反映了人均财富和服务业财富(或经济服务化)的影响,单位GDP能耗和煤炭消费比例则反映了能源节约与清洁化利用技术的影响。

2 碳排放预测的SVR模型

2.1 支持向量回归机的基本原理

支持向量回归机是一种基于统计学习理论的机器学习方法,由于其特别适合有限样本,理论上可获得全局最优点,具有良好的推广能力,且计算复杂度与样本维数无关,在函数逼近、回归估计等方面获得较好的应用[10-14]。给定训练集T={(x1,y1),…,(xn,yn)},xi∈Rm,yi∈R,i=1,…,n,如果能够用Rm上的一个线性函数y=f(x)=(w·x)+b推断任一模式x所对应的y值,称之为线性回归问题。线性回归问题可以转换为求如下的最优化问题:

式中,C为惩罚参数;ξi、为松弛变量;ε为不敏感损失函数阈值。

通常并不直接求解模型(1),而是引入它的对偶问题:

不难看出,对偶问题(2)和回归函数(4)均只涉及样本输入间的内积运算(xi·xj),因此可以引入核函数K(xi,xj),将线性回归问题转化为高维空间(Hilbert空间)中的非线性回归问题,构建ε-支持向量回归机模型(ε-SVR):

2.2 SVR碳排放预测模型的构建

已知n年碳排放影响因素和碳排放数据组成样本集(),i=1,…,n,构建碳排放SVR模型。

(1)对所有样本的自变量和因变量分别按照下式进行归一化处理:

使所有数据均处于[0,1]之间。

(2)从中选取m个样本为训练样本,其余n-m个样本为测试样本。对于训练样本,选择径向基核函数:K(xi,x)=exp(-γ xi-x2),构建式(5)所示的ε-SVR模型。设置参数ε较小的初始值,对于参数C和γ,应用格搜索和交叉验证的方法确定[11]:将lbC和lbγ的取值范围均分为若干个网格;将所有样本均分为v组即应用v折交叉验证;固定网格上的一个参数对(C,γ),依次取其中的v-1组样本作为训练样本,代入模型得到最优解和回归函数,将剩下的一组样本代入回归函数输出拟合值,计算其与实际值的误差,得到所有v组n个样本的均方误差;在网格内遍历所有参数对(C,γ),寻求均方误差最小的参数对。如果误差较小,则输出参数最优值ε*、C*和γ*;否则逐步提高参数ε值,一直到满意为止。

(3)运用获得的最佳参数值ε*、C*和γ*对所有训练样本构建ε-SVR模型,得到模型最优解与回归函数f(x)。分别将训练样本和测试样本代入f(x)输出拟合值,并对拟合值与实际值进行线性回归,计算相关系数以检验模型的学习和推广能力。如果模型具有良好的学习和推广能力,则回归函数f(x)即为碳排放预测模型;否则,调整训练样本数m,返回步骤(2)继续求解,一直到满意为止。

即得未来碳排放预测值。

3 中国碳排放SVR预测模型

CDIAC、EIA、IEA、WRI等国际能源机构均给出中国历年碳排放数据,其相差在5%的范围之内,本文中选取目前更新最快的EIA碳排放数据,样本区间为1980—2009年。影响因素数据均来自2010年中国统计年鉴,为消除价格因素的影响,对GDP按照1980年可比价格进行重新计算,并据此测算人均GDP、单位GDP能耗。碳排放及其影响因素数据如表1所示,其中序号1到30分别表示1980年到2009年各年度。

表1 碳排放及其影响因素数据Table 1 Data of carbon emissions and influence factors

按照碳排放SVR模型构建步骤,首先对30个样本数据进行归一化预处理。随机选取20个样本作为训练样本,其余10个为测试样本。设置参数ε=0.01,lbC和lbγ的取值范围均为[-10,10],网格宽度为0.5,对训练样本进行5折交叉验证,得到C和γ最佳参数值分别为5.6569和0.35355,交叉验证均方误差为0.001235,得到的回归函数为

运用该函数分别对训练样本和测试样本进行拟合,得到拟合值与实际值线性回归结果如图1和图2所示。其中,训练结果线性回归方程为R=0.9797A+0.0059,相关系数为0.993 8;测试结果线性回归方程为R=0.9753A+0.0081,相关系数为0.9683。可见,模型具有良好的学习和推广能力,因而回归函数(11)可作为碳排放预测模型。

图1 训练结果线性回归Fig.1 Linear regression of training result

图2 测试结果线性回归Fig.2 Linear regression of testing result

4 未来中国碳排放预测

4.1 影响因素预测值

根据中国“十二五”规划和国家统计局、发改委、能源局等部门公开发布的相关数据,对2010—2015年碳排放的6项影响因素值进行整理或预测。

(1)人口。2010年中国人口为13.41亿,规划到2015年人口低于13.9亿,年均增长低于7.2‰。取年均增长率上限7.2‰,预测2011—2015年中国人口分别为13.51、13.6、13.7、13.8和13.9亿。

(2)城镇化率。2010年城镇化率为47.5%,预期到2015年为51.5%。按照年均提高0.8%计算,预测2011—2015年中国城镇化率分别为48.3%、49.1%、49.9%、50.7%和51.5%。

(3)人均GDP。按可比价格计算,2010年GDP比上年增长10.3%,人均GDP增长9.8%。根据2009年GDP和人均GDP数据,测算2010年GDP和人均GDP按1980年价格分别为81600亿元和6085元。预期“十二五”期间GDP年均增长7%,考虑到当前中国GDP仍然保持较快的增长趋势,设置“十二五”GDP年均增长率分别为7%、7.5%、8%、8.5%、9%,结合GDP预测值和人口预测值测算2011—2015年人均GDP如表2所示。

表2 不同GDP增速下人均GDP预测值Table 2 Prediction value of per capital GDP under different GDP growth speed 元

(4)服务业增加值比重。2010年服务业增加值比重为43%,预期到2015年为47%。按照年均提高0.8%计算,预测2011—2015年服务业增加值比重分别为43.8%、44.6%、45.4%、46.2%和47%。

(5)单位GDP能耗。“十一五”期间全国单位GDP能耗下降19.1%,则2010年单位GDP能耗按1980年价格测算为3.98 t标准煤 /万元。规划到2015年单位 GDP能耗降低16%,按年降低率为3.42%计算,2011—2015年的单位GDP能耗按1980年价格分别为3.84、3.71、3.59、3.46和3.34 t标准煤/万元。

(6)煤炭消费比例。2010年中国能源消费总量为3.25×109t标准煤,比2009年增长5.9%,其中煤炭增长5.3%。按照2009年能源消费总量及煤炭消费比例,测算2010年煤炭消费比例为70%。根据能源“十二五”初步规划,2015年煤炭消费量控制在3.8×109t,石油5×108t,天然气2.3×1011m3,非化石能源占比11.4%,折合为4.8×108t标准煤。结合煤炭、石油、天然气标准煤参考系数即0.714 3 kg标准煤/kg、1.4286 kg标准煤/kg和1.33 kg标准煤/m3,测算2015年煤炭消费比例约为64.4%,年均降低1.12%。考虑到能源产业发展特别是能源结构调整、引入可替代清洁能源的不确定性,同时设置2015年煤炭消费比例为63%和66%两种情景,相应的年均降低1.4%和0.8%。3种情景下“十二五”期间煤炭消费比例如表3所示。

表3 不同降速下“十二五”煤炭消费比例Table 3 Coal consumption ratio under different reduction speed %

4.2 碳排放预测

将2010年碳排放影响因素值以及2011—2015年不同GDP增速和不同煤炭消费比例降速下影响因素预测值归一化后代入碳排放预测模型,并对输出结果进行反归一化,得到2010年中国碳排放预测值为8.062×107t。不同GDP增速、不同煤炭消费比例降速下“十二五”期间的碳排放预测值见表4。

表4 不同情境下2011—2015年碳排放预测值Table 4 Prediction value of carbon emissions in the year 2011—2015 under different situations 104t

可见,在相同GDP增速下,煤炭消费比例降速越大,碳排放越少,而且随着时间推移碳排放增长趋缓,这表明能源结构优化特别是低碳能源的开发利用将有利于降低煤炭在能源消费中的比例,从而减缓碳排放增长趋势。在相同煤炭消费比例降速下,GDP增速越大,碳排放越多,而且随着时间推移碳排放增长越快,这表明若过于追求GDP快速增长将使中国碳排放快速增加。因此,未来中国可适当降低GDP增速目标,持续推进能源结构优化,以确保碳减排目标的有效实现。

[1]聂锐,张涛,王迪.基于IPAT模型的江苏省能源消费与碳排放情景研究[J].自然资源学报,2010,25(9): 1557-1564.

NIE Rui,ZHANG Tao,WANG Di.The scenario analysis on energy consumption and carbon emissions based on environmental loads model[J].Journal of Natural Resources,2010,25(9):1557-1564.

[2]魏一鸣,刘兰翠,范英,等.中国能源报告(2008):碳排放研究[M].北京:科学出版社,2008.

[3]朱勤,彭希哲,陆志明,等.人口与消费对碳排放影响的分析模型与实证[J].中国人口·资源与环境,2010,20(2):98-102.

ZHU Qin,PENG Xi-zhe,LU Zhi-ming,et al.Analysis model and empirical study of impacts from population and consumption on carbon emissions[J].China Population,Resources and Environment,2010,20(2):98-102.

[4]王海建.中国能源消费与温室气体排放预测分析[J].上海环境科学,1999,18(2):67-69.

WANG Hai-jian.Energy consumption and prediction of greenhouse gas emission in China[J].Shanghai Environmental Sciences,1999,18(2):67-69.

[5]陈文颖,高鹏飞,何建坤.用MARKAL-MACRO模型研究碳减排对中国能源系统的影响[J].清华大学学报:自然科学版,2004,44(3):342-346.

CHENWen-ying,GAO Peng-fei,HE Jian-kun.Impact of carbon mitigation on China's energy system using China MARKAL-MACRO model[J].Journal of Tsinghua University(Science and Technology),2004,44(3):342-346.

[6]王灿,陈吉宁,邹骥.基于CGE模型的CO2减排对中国经济的影响[J].清华大学学报:自然科学版,2005,45(12):1621-1624.

WANG Can,CHENJi-ning,ZOU Ji.Impact assessment of CO2mitigation on China economy based on a CGE model[J].Journal of Tsinghua University(Science and Technology),2005,45(12):1621-1624.

[7]王惠文.偏最小二乘回归方法及其应用[M].北京:国防工业出版社,1999.

[8]朱平芳.现代计量经济学[M].上海:上海财经大学出版社,2004.

[9]YORK R,ROSA E A,DIETZ T.STIRPAT,IPAT and impact:analytic tools for unpacking the driving forces of environmental impacts[J].Ecological Economics,2003,46:351-365.

[10]邓乃扬,田英杰.数据挖掘中的新方法——支持向量机[M].北京:科学出版社,2004.

[11]张在旭,宋杰鲲,张宇.一种基于支持向量机的企业财务危机预警新模型[J].中国石油大学学报:自然科学版,2006,30(4):132-136.

ZHANG Zai-xu,SONG Jie-kun,ZHANG Yu.A novel model for pre-warning of enterprise financial crisis based on support vector machine[J].Journal of China University of Petroleum(Edition of Natural Science),2006,30 (4):132-136.

[12]兰浩,张国忠,刘刚,等.应用支持向量回归预测胶凝原油启动屈服应力[J].中国石油大学学报:自然科学版,2008,32(3):119-121,127.

LANHao,ZHANG Guo-zhong,LIU Gang,et al.Prediction of start-up yield stress of gelled crude oil by support vector regression[J].Journal of China University of Petroleum(Edition of Natural Science),2008,32(3): 119-121,127.

[13]邓九英,王钦若,毛宗源,等.基于粗糙集的支持向量回归机混合算法[J].中国石油大学学报:自然科学版,2009,33(5):159-163.

DENG Jiu-ying,WANG Qin-ruo,MAO Zong-yuan,et al.Support vector regression hybrid algorithm based on rough set[J].Journal of China University of Petroleum (Edition of Natural Science),2009,33(5):159-163.

[14]周延军,贾江鸿,李荣华.基于粗糙集理论和支持向量机的套管损坏动态预报方法[J].中国石油大学学报:自然科学版,2010,34(6):71-75.

ZHOU Yan-jun,JIA Jiang-hong,LI Rong-hua.Dynamic prediction method of casing damage based on rough set theory and support vector machine[J].Journal of China University of Petroleum(Edition of Natural Science),2010,34(6):71-75.

China's carbon emissions prediction model based on support vector regression

SONG Jie-kun

(School of Economics&Management in China University of Petroleum,Qingdao266555,China)

Six influnce factors including population,urbanization rate,per capita GDP,added value proportion of service industry,per GDP energy consumption and coal consumption ratio were seleted as independent variables,and a model based on support vector regression(SVR)was established for predicting carbon emissions of China.Using the data of carbon emissions and influence factors from the year 1980 to 2009 as samples,the SVRmodel with good learning and generalization ability was established through training and testing.According to the 12th five-year program,prediction values of influence facors under different situations were set,and the carbon emissions of China from the year 2010 to 2015 were predicted.The results show that China can appropriately reduce GDP growth speed and constantly optimize energy structure so as to achieve carbon reduction target efficiently.

carbon emissions;support vector regression;prediction model

X 192

A

10.3969/j.issn.1673-5005.2012.01.033

1673-5005(2012)01-0182-06

2011-08-15

山东省自然科学基金项目(ZR2011GQ004);山东省高校科研发展计划项目(J10WG94);中央高校基本科研业务费专项资金资助项目(11CX04034B,10CX04012B);教育部人文社科一般项目(10YJC630207)

宋杰鲲(1979-),男(汉族),山东莱阳人,副教授,博士,从事能源经济管理方面的研究。

(编辑 修荣荣)

猜你喜欢
训练样本煤炭向量
8月我国进口煤炭同比增长5.0%
向量的分解
消除煤炭:是时候将煤炭载入史册了 精读
聚焦“向量与三角”创新题
人工智能
煤炭
煤炭:去产能继续 为煤炭正名
基于小波神经网络的网络流量预测研究
宽带光谱成像系统最优训练样本选择方法研究
向量垂直在解析几何中的应用