基于Lasso-XGBoost-Stacking的省域电能替代潜力预测方法

2023-10-08 12:15陆春光葛梦亮宋磊吴继亮潘国兵
浙江电力 2023年9期
关键词:能源价格潜力电能

陆春光,葛梦亮,宋磊,吴继亮,潘国兵

(1.国网浙江省电力有限公司营销服务中心,杭州 310063;2.国网浙江省电力有限公司庆元县供电公司,浙江 丽水 323800;3.浙江工业大学 机械工程学院,杭州 310014)

0 引言

随着社会经济发展,我国能源短缺、气候变化、环境污染等问题日益突出,建设低碳城市的压力也日趋增大。电能替代是终端用能再电气化的重要手段,通过电能对终端煤炭、燃气、石油等化石能源的替代,对于促进大气污染防治、推动能源革命有重大意义[1-4]。电能替代作为提高经济发展,实现节能减排目标的重要方法,具有很高的经济与环境效益。

国家能源局要求加快电能替代发展,但受限于电能替代规划研究及理论支持相对较少,全面分析各领域电能替代潜力具有一定的难度[5-9]。电能替代的影响因素较多,如何量化各因素的影响程度以及寻找到合适的预测模式,是实现电能替代潜力分析的重要基础。在现有的电能替代预测模型中,已取得了相关的研究成果,文献[10]针对LEAP模型需要精确的参数应用需求,提出了针对性的参数分类预测方法,提高了电能替代预测的精确性。文献[11]综合利用传统的粒子群优化算法和深度学习领域的BP(反向传播)神经网络,构建了电能替代潜力预测模型,有助于电能替代工作的推进。文献[12]中因为数据量不足,提出了一种基于迁移学习的单位节能量在线估计方法,有效地应对了样本数目对预测模型的影响。文献[13]为了应对现有的方法对电网中长期负荷预测考虑尚不充分,提出了Logistic模型预测电能替代占终端能源消费的比例,用以指导未来能源规划。文献[14]为了对累计电能替代量进行预测,基于电能替代发展的主要影响因素提出了PSOBP电能替代潜力分析方法。文献[15]为了对冀北地区电能替代潜力进行预测,从技术、经济和环保的可行潜力方面进行分析。以上研究直接根据电能替代数据本身构建模型预测,这样的模型仅包含电能替代历史数据,使得模型可解释性弱。部分研究依据电能替代影响因素分析了电能替代潜力,但各类影响因素的量化方式基本都是基于GDP(国内生产总值)计算,导致各类影响因素之间可能出现多重共线性状况,从而影响电能替代预测结果。同时现有研究集中于神经网络等深度学习模型,模型运算时间长且无法直观显示各类影响因素在模型中的权重占比,无法反映各类影响因素对电能替代潜力的影响程度。

本文综合考虑经济发展、环境保护、能源价格和政策扶持多方面的因素影响,构建了基于Lasso-XGBoost-Stacking(最小绝对收缩和选择算法-分布式梯度增强库-堆栈)的电能替代潜力预测模型。针对各类影响因素的量化,构建了经济、环保、能源价格等因素的交叉特征,从而确保量化后的特征不存在严重的多重共线性。通过Lasso回归模型的权重参数直观展示各类影响因素对电能替代潜力的影响程度,建立了Lasso-XGBoost-Stacking的电能替代潜力预测模型,融合XGBoost能够处理非线性数据、模型精度较高的优点和Lasso模型泛化能力、鲁棒性较强的优点,从而保障模型的泛化能力与预测精度。

1 各类电能替代影响因素的量化分析

1.1 交叉特征量化影响因素

交叉特征主要方法有特征之间的加、减、乘、除,对连续特征进行分箱,对离散特征进行编码等。本文根据各类影响因素各自的侧重点结合其他相关特征,通过这些特征之间的加、减、乘、除来构建量化影响因素,使得各类影响因素之间尽可能不存在多重共线性。

1.2 经济发展因素

一个区域的经济发展情况对于该地区的用电量与石化类能源消耗量影响重大,电能占总能源消费量的比重随着社会经济的发展逐步升高。经济发展因素的重要参考参数是地区的GDP,使用人均GDP来代表经济发展的程度,使用人均GDP与电能占比的乘积来表示经济发展对用电量的影响,具体表达式为:

式中:λei为第i年量化后的经济发展因素;Gi为第i年人均GDP;ei为第i年电能在总能源中的占比。

1.3 环保约束因素

环保约束因素的重要参考指标是碳排放量。在环保约束下,能源结构将会持续优化,电能的占比将会逐步提升,石化能源的占比将会逐渐下降。由于电能替代的实施能够降低煤炭等石化能源的消耗增长速度乃至消耗量,因此工业废气排放总量能实际反映温室气体排放水平和电能替代建设水平,采用工业废气排放总量作为环境指标来反映环保约束对电能替代的影响,如式(2)所示:

式中:μEi为第i年量化后的环保约束因素;Pi为第i年工业废气排放总量。

1.4 能源价格因素

能源价格的重要参考指标是电价与石化能源价格,其中电价的波动幅度相对较小,因此石化能源价格是影响电能替代的重要因素。近年来,随着石化能源价格的上涨与新能源的发展,电能价格相对于石化能源价格的优势进一步扩大,电能在终端市场的竞争力进一步增强。采用石化能源价格上涨量作为环境指标来反映能源价格约束对电能替代的影响,如式(3)所示:

式中:μpi为第i年量化后的能源价格因素;Cpi为第i年石化能源价格上涨量。

1.5 政策扶持因素

政策扶持的重要参考指标是政府投入资金。通常情况下,在政府推出电能替代措施后,不仅宣传力度会加大,电力固定投资也会提高。经过相关性分析可知浙江省电力固定投资与电能替代量的相关性较强。本文采用浙江省历年电力固定投资来表示政策扶持的力度,如式(4)所示:

式中:μ0i为第i年量化后的政策扶持因素;mei为第i年浙江省电力固定投资。

1.6 技术进步因素

技术进步因素的重要参考指标是单位GDP能耗,技术进步因素包括以电代油、以电代气、以电代煤领域的新技术。这些技术使得电能替代的实施更加方便,效益更好。因此,人们更加倾向于使用电能,电能在总能耗中的占比变高,且由于电能更加节能环保,单位GDP的能耗和排污量也会降低。采用单位GDP的能耗与排污量的和来表示技术进步因素,如式(5)所示:

式中:μri为量化后的技术进步因素;Ei为第i年能耗;Gpi为第i年GDP总量。

1.7 电能替代量化

电能替代量与耗电量及能源消耗量有着强相关性。假设从t年起电能消费在总能源消费占比为基准,电能消费占比自然增长采用GDP增长速度来反映,则电能替代量化公式为:

式中:Di为第i年电能替代量;α为修正系数;Qi为第i年耗电量;Qt为第t年耗电量;ρGDP为GDP增长速度。

2 电能替代相关预测模型

2.1 Lasso回归模型

Lasso回归模型能自动筛选出重要变量并剔除造成原始数据多重共线性的特征数据,由于Lasso回归模型能够起到特征压缩的效果,只需注重有限多的特征,因此Lasso回归模型具有良好的泛化能力与鲁棒性[16]。

Lasso回归模型中权值能够直观表现出各个变量在模型中的重要度,基于Lasso回归模型的电能替代预测模型能够分析得到各个影响因素在模型中的权重。Lasso回归模型相较于多元线性回归模型,在计算损失函数时采用了改良后的普通最小二乘估计,通过最小二乘估计改进特征间的共线性影响,其关键点在于在线性回归的损失函数后加一个L1正则化项,如式(7)所示:

式中:X为输入的特征矩阵;y为输出矩阵;w为模型的参数向量;λ为惩罚系数。

Lasso回归的方程解为:

式中:I为单位矩阵。

采用CV准则选择合适的惩罚参数,其中训练集可表示为:

测试集为(xt,yt),在训练集上去拟合Lasso回归模型,在测试集中求得yt的拟合值为,计算均方误差MSE=(yt-)2,这样一直计算n次,得到n个均方误差的均值以此来选择惩罚系数λ。

2.2 XGBoost模型

XGBoost是基于GBDT(梯度提升决策树)的提升算法,其原理是首先基于初始训练集使用初始权重训练出一个基学习器,再根据基学习器的表现对训练样本权重进行调整,使得前一个基分类器错误分类的样本之后受到更多的关注,即增大该样本权重值,并减小被正确分类样本的权重,通过调整初始训练集的样本分布之后再训练下一个基分类器,如此重复,直到达到预定的错误率或者基学习器数目达到指定值才确定最终的强分类器。XGBoost在低维数据表现良好,且能够处理非线性数据[17]。由上一节分析可知,共有5种电能替代影响因素,数据纬度较低且数据中存在非线性的特征量,因此XGBoost能够很好地处理此类数据集。

XGBoost的目标函数如式(10)所示:

式中:l(-yi)为第i个数据样本的预测误差;Ω(fk)为正则化项为树的复杂度函数。

Ω(fk)如式(11)所示:

式中:T为叶子节点个数;γ和a为控制叶子数量权重的参数;v为节点的值。

由于XGBoost是多棵树构成的强学习器,考虑到其损失函数,目标函数变更如下:

式中:n表示树的数量;u为常数;ft(xt)为第t个树模型;为第t-1树模型的预测结果;yi为真实值;为样本预测误差。

训练模型时,目标函数可表达为:

式中:Ij为每棵树分裂节点的候选特征集合;gi=为常数系数。求导得到目标函数的最优解为:

式中:v*j为j节点权值;Hj=∑i∈Ijhi;O为目标函数值。

2.3 Stacking融合模型

由于电能替代潜力的影响因素较为复杂,单一预测模型有时只能反映预测对象的局部信息,使得模型泛化能力偏弱,难以取得令人满意的预测效果。因此,构建组合预测模型,从而利用不同模型的优点可以有效增强电能替代潜力预测模型的泛化能力与预测精度。Stacking能够将不同类型的模型融合在一起,汲取各类模型的优点并提高模型的预测精度与泛化能力。其基本思想是将多个模型的结果进行融合,经过k折交叉后,模型能够更好地拟合训练数据,模型的精度将会得到有效提升。步骤为将数据集划分为若干子集,采用留一法针对每个子集构建模型1得到对应的预测结果,预测结果构成新的特征向量输入到模型2中,得到最终的预测结果。模型原理如图1所示。

图1 Stacking模型原理Fig.1 Schematic diagram of Stacking model

3 浙江省电能替代潜力分析与预测

3.1 电能替代影响因素分析

浙江省电能替代影响因素量化需要经济、能源、人口等多方面的数据调研支持。从浙江省统计年鉴[18]、中国能源统计年鉴[19]、CCTD(中国煤炭市场网)[20]中查阅与电能替代影响因素相关的数据,包括用电量、人均GDP等汇总见表1。

表1 原始数据汇总Table 1 Summary of raw data

通过表1中的数据,根据各类影响因素的量化方法,量化为经济发展因素、环保约束因素、能源价格因素、政策扶持因素、技术进步因素5种量化因素。通过ARIMA模型预估各种电能替代量化因素的走势,模型p、d、q分别为0、2、1,数据汇总见表2。

表2 影响因素汇总Table 2 Summary of influencing factors

首先根据表2中的数据构建Lasso回归模型,模型输入为5类量化后的影响因素,输出为电能替代量,选择模型正则化惩罚参数为0.1。将各类因素进行Max-Min归一化后输入模型,最终得到模型表达式为:

式中:x1为政策扶持因素;x2为经济发展因素;x3为环保约束因素;x4为能源价格因素;x5为技术进步因素;y为电能替代量。可见经济发展因素的权值最大,对电能替代量的影响最深刻。

根据表2中数据与Lasso回归模型预测结果构建基于XGBoost的电能替代潜力预测模型,模型训练集为2019年之前的影响因素数据与电能替代量,测试集为2019年和2020年的相关数据。由于数据量不大,初步设置XGBoost模型参数中树最大深度范围为(2,5),总叶子数范围为(10,32),学习率范围为(0.1,0.5),并用五折交叉-贝叶斯法进行参数寻优,最终构建XGBoost模型。并根据已有的Lasso回归模型与XGBoost模型,采用方法融合模型,其中将影响因素数据与电能替代量数据依据年分成若干子集,从而构建Lasso-XGBoost-Stacking模型。图2为各个模型在测试集上的表现。

图2 各模型预测结果对比Fig.2 Comparison of model predictions

3.2 电能替代多情景潜力分析

在电能替代潜力分析过程中,基于经济发展、环保约束、政策扶持等因素的影响,构建5种替代情景。具体情景设置如表3所示。

表3 电能替代情景Table 3 Power substitution scenarios

每类情景下对应的相关量化因素在原有基础上增加或者减少20%,其他量化因素保持不变,当该量化因素与电能替代量的相关因素大于0时增加20%,小于0时减少20%用以表示每类场景对该因素带来的影响。图3为各情景下Lasso-XGBoost-Stacking模型预测分析结果。

图3 各类情景下电能替代预测结果对比Fig.3 Comparison of power substitution predictions under various scenarios

由图3可知:情景2发生时,即浙江省经济增速加快时,对电能替代潜力的影响最大;其次为技术水平提高时,环保约束与能源价格因素对电能替代潜能起到的作用高度相似,政策扶持因素对电能替代潜力的影响最小。以上5种情景发生时,均能对浙江省电能替代量的增长带来正面效益,提升浙江省电能替代的潜力。

3.3 浙江省各行业电能替代潜力分析

农业领域的电能替代主要集中分析了菌菇烘干和电炒茶等浙江省特色经济作物加工的用能。浙江省2016—2020年茶叶产量为17.7万t左右,统计数据如图4所示,数据来自浙江省政府网。

图4 2016—2020年浙江省茶叶产量Fig.4 Tea production in Zhejiang province,between 2016 and 2020

经调研,理论上每消耗500 kWh电能,可加工200 kg新鲜茶叶,目前茶叶加工大多数还是采用柴薪为主,若是有20%的茶叶通过电加热炒制,耗电量则高达875万kWh,可见农业领域具有较大的电能替代潜力。

以庆元县菌菇生产为例,年食用菌产量约为9万t,占全省产量的10%,理论上每消耗317 kWh电能,可烘干1 t香菇。目前香菇烘干基本采用燃烧木柴的方式,浙江省内若是有20%的菌菇通过热泵烘干加工,则耗电量为5 706万kWh。结合菌菇烘干和电炒茶的电能替代潜能分析,农业领域具有较大的电能替代潜力。

电锅炉是工业领域电能替代的重要组成。但调研显示:高蒸发量产能锅炉中,电锅炉对比传统煤炭锅炉、天然气锅炉经济劣势明显;在低蒸发量锅炉中,电锅炉由于自动化程度高,安装方便等原因有一定的竞争力。但实际应用中由于厂区配电网容量限制,扩容成本较高,且物理空间有限,因此实际电锅炉在负荷侧推广很少,进而浙江省工业方面的电能替代潜能较小。

EV(电动汽车)及其配套的充电设备是浙江省实施电能替代的重中之重。2019年浙江省电动汽车充电基础设施发展白皮书显示,自2016年来,中国新能源汽车产销量、保有量飞速上涨。如图5所示,截至2019年底浙江省电动汽车保有量311 611辆,约占全国的10%,同比增长 68.75%,浙江省充电设施充电量7.87亿kWh,同比增长99.21%。

图5 2016—2019年浙江省电动汽车保有量Fig.5 Total number of electric vehicles Zhejiang province between 2016 and 2019

综上,相较于工业、农业等领域,交通业有着更大的电能替代潜力,电能替代实施也更加方便。

4 结语

本文提出了一种基于Lasso-XGBoost-Stacking的省域电能替代预测模型,收集经济、能源等数据,量化经济、环保、能源、政策、技术等5类影响因素,与历年电能替代量一同构成模型数据集。通过Lasso回归模型的权重参数分析评价各类影响因素对电能替代量的重要性,通过Stacking方法融合XGBoost模型低维数据表现好,预测精度高与Lasso模型鲁棒性强的优点,从而提升模型预测精度与泛化能力。

利用浙江省的调研数据构建模型,在测试集中Lasso-XGBoost-Stacking的预测误差为12.22%,低于Lasso的48.41%与XGBoost的14.76%,五折交叉验证中,Lasso-XGBoost-Stacking的预测精度最高且与测试集上的表现基本一致,因此Lasso-XGBoost-Stacking模型能够对省域电能替代潜力进行准确预测,且模型的泛化性能较强。通过缩放电能替代影响因素对多情境下的浙江省电能替代潜力进行分析,结果显示经济发展因素对电能替代潜力的影响最大,其次为技术进步因素,环保约束与能源价格因素对电能替代潜能起到的作用高度相似,政策扶持因素对电能替代潜力的影响最小。

进一步分析了浙江省各行业的电能替代发展形势,浙江省未来电能替代的主要实施领域为交通行业。

综上所述,随着未来中国经济的进一步发展,对经济发展因素最为敏感的电能替代潜力必将提高,其中EV及其配套的充电设备的发展对电能替代潜力影响最大。

猜你喜欢
能源价格潜力电能
德国
2020全球氮肥市场关键词:能源价格、供需平衡以及北美物流
苹果皮可以产生电能
电能的生产和运输
海风吹来的电能
澎湃电能 助力“四大攻坚”
潜力榜
PPP模式怎样发挥最大潜力?
学习潜力揭秘
12星座