基于近端策略优化算法含碳捕集的综合能源系统低碳经济调度

2024-06-01 10:24王桂兰张海晓刘宏曾康为
计算机应用研究 2024年5期
关键词:不确定性

王桂兰 张海晓 刘宏 曾康为

摘 要:为了实现园区综合能源系统(PIES)的低碳化经济运行和多能源互补,解决碳捕集装置耗电与捕碳需求之间的矛盾,以及不确定性源荷实时响应的问题,提出了基于近端策略优化算法含碳捕集的综合能源系统低碳经济调度方法。该方法通过在PIES中添加碳捕集装置,解决了碳捕集装置耗电和捕碳需求之间的矛盾,进而实现了PIES的低碳化运行;通过采用近端策略优化算法对PIES进行动态调度,解决了源荷的不确定性,平衡了各种能源的供给需求,进而降低了系统的运行成本。实验结果表明:该方法实现了不确定性源荷的实时响应,并相比于DDPG(deep deterministic policy gradient)和DQN(deep Q network)方法在低碳化经济运行方面具有有效性及先进性。

关键词:园区综合能源系统;碳捕集;不确定性;低碳经济调度;近端策略优化算法

中图分类号:TM769   文献标志码:A    文章编号:1001-3695(2024)05-032-1508-07

doi: 10.19734/j.issn.1001-3695.2023.08.0446

Low carbon economic scheduling of integrated energy systems based on proximal policy optimization algorithm with carbon capture

Abstract:In order to achieve low-carbon economic operation and multi energy complementarity of the PIES in the park, solve the contradiction between power consumption and carbon capture demand of carbon capture devices, as well as the problem of real-time response to uncertain source loads, this paper proposed a low-carbon economic scheduling method for the comprehensive energy system with carbon capture based on proximal strategy optimization algorithm. This method solved the contradiction between power consumption and carbon capture demand of carbon capture devices by adding carbon capture devices to PIES, thereby achieving low-carbon operation of PIES. By adopting a proximal strategy optimization algorithm for dynamic scheduling of PIES, it solved the uncertainty of source and load, and balanced the supply and demand of various energy sources, thereby reducing the operating cost of the system. The experimental results show that this method realizes the real-time response of uncertain source loads, and is effective and progressiveness in low-carbon economic operation compared with DDPG and DQN methods.

Key words:park integrated energy system(PIES); carbon capture; uncertainty; low carbon economic dispatch; proximal policy optimization

0 引言

近年來,为应对由于碳排放量的持续增加带来的环境问题,各国开发和利用可再生能源,并结合碳捕集技术,减少碳排放量和对传统化石燃料的依赖[1]。园区综合能源系统具有耦合电能、热能和燃气等多种能源的特点,并能实现多种能源之间的多源互补,成为了高效和清洁利用能源,是实现“双碳”目标的重要抓手[2~4]。但随着PIES中各设备之间的耦合日益紧密,多种能源需求具有不确定性,PIES低碳经济调度优化面临巨大挑战[5],因此有效减少系统碳排放,提升系统的经济效益成为当前热门的研究课题。

目前国内外学者对PIES经济优化调度问题进行了一定的研究。文献[6]以包含电力和热力的区域综合能源系统为研究对象,采用改进粒子群算法对系统进行优化调度,降低系统运行成本。文献[7]采用双λ迭代算法对园区电热综合能源系统优化问题进行求解。文献[8]构建的包含源-荷-网-储的综合能源系统协同优化模型,能够有效降低系统运行成本。虽然上述方法在一定程度上能够解决PIES优化调度问题,但均未考虑碳排放问题。

碳捕集技术的快速发展为PIES实现低碳运行提供了解决方案[1]。文献[9]构建了包含碳捕集系统的虚拟电厂协调调度模型,用于减少系统中的碳排放。文献[10]将碳捕集、利用与封存(carbon capture,utilization and storage,CCUS)装置和电转气(power to gas,P2G)设备作为一个整体运行,CCUS装置捕获的部分CO2作为P2G设备甲烷化反应过程中的碳源,在降低系统碳排放的同时,提升了系统的经济效益。文献[11]考虑到分流式碳捕集电厂在吸收和再生环节之间存在耦合作用,引入储液罐装置结合风电联合调度,使得风电消纳能力和低碳经济效益得到了有效提升。虽然上述文献在低碳经济调度方面具有优越性,但都局限于建立详细的PIES物理模型和固定的调度计划,对源荷不确定性难以作出动态响应。

强化学习在解决PIES动态调度优化问题具有的优势受到了学者越来越多的关注,它不依赖于源荷的精准预测,也不需要建立复杂的物理模型,可以对源荷的不确定性实时作出动态响应。文献[12]以年度最小化运行成本为目标,基于深度Q网络(DQN)算法对综合能源系统进行能量管理,用于找到能实现系统经济效益最大化的目标。文献[13]构建了子系统耗能量、分时电价和各类设备出力的能量管理模型,并采用深度确定性策略梯度(DDPG)算法对系统进行优化调度,仿真结果证实了所提方法能够有效提升系统经济效益。文献[14]使用差分进化的深度Q网络算法提升了PIES的整体经济效益和储能设备的利用率。

综上所述,本文在上述研究的基础上,从低碳和经济效益两个方面出发,提出了一种基于深度强化学习的含碳捕集的综合能源系统低碳经济调度方法。在PIES系统中引入CCUS装置实现减碳目标,并利用近端策略优化算法(proximal policy optimization,PPO)克服对源荷预测的依赖性。具体做法为:a)构建包含碳捕集和电转气设备耦合系统(CCUS-P2G)的PIES优化调度模型,CCUS将捕集的一部分CO2作为电转气设备甲烷化反应的碳源,一部分进行驱油封存,在减少系统碳排放的同时有效减少购碳成本;b)针对CCUS装置中吸收塔和再生塔存在耦合作用的问题,在CCUS装置之间添加一组储液罐(富液罐和贫液罐各一个),有效解决了CCUS耗电量和捕碳量之间的矛盾;c)将PIES低碳调度优化问题描述为马尔可夫决策过程,采用具有连续决策能力的PPO算法进行求解,解决了源荷不确定性问题。

1 园区综合能源系统结构与建模

1.1 园区综合能源系统结构

本文的园区综合能源系统主要包含电能、热能、气能三种能源,管理外部能源和用能负荷之间的能源传输、转换以及存储。在PIES结构中,由上级电网、风电以及燃气轮机提供电负荷,由燃气轮机和沼气锅炉提供热负荷,由天然气站和P2G设备提供气负荷,以及由CCUS-电转气设备(P2G)耦合的碳捕集系统捕获PIES中排放的二氧化碳。PIES的结构如图1所示。

1.2 园区综合能源系统设备建模

1.2.1 CCUS灵活运行方式的数学模型

碳捕集技术可以划分为富氧燃烧捕集、燃烧前捕集和燃烧后捕集[15,16]。在实际应用中多采用燃烧后捕集方法,本文同样采用的是燃烧后捕集技术。为了解决碳捕集过程中吸收塔吸收过程和再生塔再生环节在CO2处理量方面的耦合问题,在CCUS中的吸收塔和再生塔之间添加一组储液罐(富液罐和贫液罐各一个),解除了CO2在吸收过程和再生环节的耦合,使得再生塔CO2中处理量不再需要和吸收塔中CO2吸收量相匹配。碳捕集装置的灵活运行方式如图2所示,系统的碳排放量与CCUS的关系如式(1)所示。

其中:t为时刻;Pccust为碳捕集系统(CCUS)总能耗;Pnort为CCUS的固定耗能,CCUS的固定耗能与CCUS的运行状态无关,通常视为常数;Prt为CCUS的运行耗能;Ect为烟气中的CO2;σc为碳排放强度;Pct为火电机组总的输出功率;υ(t)为烟气分流比;λc为CCUS捕集单位CO2消耗的电功率;γ1和γ2分别为吸收效率和再生效率;Emt和Ent分别为吸收塔吸收的CO2量和再生塔处理的CO2量;Ericht为富液罐中CO2流出量,负值表示CO2从吸收塔流向富液罐,正值表示CO2从富液罐流向再生塔;Eccust为CCUS捕获的CO2量;γc为CCUS的CO2捕集率;ECO2t为系统总碳排放量。

储液罐的数学模型如式(2)所示。

其中:oricht和opoort分别为富液罐和贫液罐中溶液的流出量,同一时刻富液罐中溶液的流出量和贫液罐中溶液的流入量相同;δCO2为富液罐中CO2溶液密度;Iricht和Ipoort分别为富液罐和贫液罐中溶液的储存量;Irichmax和Ipoormax分别为富液罐和贫液罐中最大溶液储存量。

CCUS将捕集来的一部分CO2用于P2G设备生成甲烷过程中的原材料,另一部分进行驱油封存。这样不仅能够促进碳的循环利用,还能够节省购碳和碳封存成本。P2G设备甲烷化反应过程中CO2消耗量如式(3)所示。

其中:ψh-e为热电转换系数;EP2Gt为P2G设备消耗CO2量; ηP2G为P2G设备电气转换效率;μP2G-loss为P2G设备电能损耗率;ρCO2为CO2的密度;HCH4为天然气低位热值。

CCUS驱油封存的CO2量如式(4)所示。

Estot=Eccust-EP2Gt(4)

1.2.2 CCUS靈活运行方式的数学模型

燃气轮机(GT)承担系统中稳定的电热出力,GT设备消耗天然气与产生热能和电能的关系如式(5)(6)所示。

PGTt=GGTtηGT-E(5)

QGTt=GGTt(1-ηGT-E-μGT-loss)(6)

其中:PGTt为GT设备的产电功率;HGTt为GT设备的产热功率;GGTt为GT设备耗气功率;ηGT-E为GT设备发电效率;μGT-loss为GT设备燃气损失率。

1.2.3 生物质供能单元模型

本文使用的生物质能为沼气,通过沼气的燃烧来为系统提供热能供给。沼气锅炉是生物质供能单元的主要供能设备,沼气锅炉通过燃烧沼气产生热能。当燃气轮机和储热罐不能满足系统中热负荷的需求时,使用沼气锅炉来维持系统中热能的供需平衡。沼气锅炉的能量转换如式(7)所示。

QGBt=GBiotηGBHBio(1-μBio-loss)(7)

其中:QGBt为沼气锅炉的产热功率;GBiot为沼气锅炉消耗沼气量;ηGB为沼气锅炉产热效率;HBio为沼气锅炉单位沼气消耗量的低热值;μBio-loss为沼气锅炉沼气损耗率。

1.2.4 储能设备单元模型

PIES中的储能设备包括蓄电池、储热罐、储气罐和储沼气罐,这四种设备分别负责电能、热能、燃气和沼气的存储或释放。储能设备的数学模型如式(8)所示。

其中:X为能源类别;ES、HS、GS、BS分别为蓄电池、储热罐、储气罐、储沼气罐;SXt、SXt+1分别为t时刻和t+1时刻的储能量;μX-loss为储能设备X的自损耗系数;PX,cht、PX,dist分别为储能设备X在t时刻的储能功率、放能功率;ηX,ch、ηX,dis分别为储能设备X的储能效率、放能效率;δX,cht为0-1变量,该变量表示在时隙t时的储能设备X的储能状态;Δt为单位时隙长度。

1.3 园区综合能源系统设备建模

1.3.1 CCUS灵活运行方式的数学模型

园区综合能源系统动态调度的目标是在满足负荷需求的情况下,调整能源系统中各个单元的出力,使系统总经济运行成本最小。系统运行成本包括购能成本Cen、碳封存成本Ccs、系统设备运行维护成本Cfix和碳交易成本Cc四部分,系统运行成本如式(9)所示。

F=min(Cen+Ccs+Cfix+Cc)(9)

1)购能成本

PIES的外部购能成本主要包括对电热、燃气和沼气的购买,外部购能成本如式(10)所示。

其中:cElet、cGast、cBiot分别为t时刻的电能、天然气和沼气的价格;PElet、GGast、GBiot分别为t时刻的购电量、天然气量和沼气量。

2)碳封存成本

其中:φc为驱油封存成本系数[17]。

3)系统设备运行维护成本

其中:ci,fix为设备i运行维护成本系数;Pit为第i台设备出力;M为设备类别,包括风电、燃气轮机、CCUS、沼气锅炉、蓄电池、储热罐、储气罐和储沼气罐。

4)碳交易成本

其中:cc为碳交易成本系数;αi为设备i的碳配额;N为火电机组总类(燃气轮机和沼气锅炉)。

1.3.2 约束条件

园区综合能源系统优化调度模型需要考虑电功率平衡约束、热功率平衡约束、气功率平衡约束、外部能源交互功率约束、CCUS约束和PIES中设备运行约束。

1)电功率平衡约束

Ploadt+PP2Gt+PES,cht+Pccust=PElet+PGTt+PPVt+PES,dist(14)

其中:Ploadt为电负荷;PES,cht和PES,dist分别为蓄电池充电和放电功率;PPVt为光伏阵列输出的电功率。

2)电功率平衡约束

Qloadt+PHS,cht=QGTt+QGBt+PHS,dist(15)

其中:Qloadt为热负荷;PHS,cht和PHS,dist分别为储热罐储热和放热功率。

3)气功率平衡约束

Gloadt+GGTt+PGS,cht=GGast+GP2Gt+PGS,dist(16)

其中:Gloadt为气负荷;PGS,cht和PGS,dist分别为储气罐储气和放气功率。

4)能源交互功率约束

其中:PElet和GGast分别为t时刻下外部电网购电功率和天然气站购气功率;PElemax和GGasmax分别为系统t时刻下与外部电网和天然气站交互功率的上限。

5)CCUS约束

Pccusmin≤Pccust≤Pccusmax(18)

其中:Pccusmin和Pccusmax分別为CCUS电功率的下限和上限。

6)PIES中设备约束

燃气轮机、沼气锅炉和P2G设备出力约束如式(19)所示。

Pimin≤Pit≤Pimax

0≤|Pit-Pit-1|≤ΔPimax(19)

其中:i为设备类别,包含燃气轮机、沼气锅炉和P2G设备;Pit和Pimax分别为设备i在t时刻的出力和输入功率的上限;ΔPimax为设备i爬坡功率的上限。

7)储能设备约束

储能设备X(蓄电池、储热罐、储气罐、储沼气罐)的状态约束、容量约束、储能和放能功率约束分别为

其中:SXmin、SXmax分别为储能设备X的容量下限、容量上限;PX,chmax和PX,dismax分别为储能设备X的最大储能功率或放能功率。

2 PIES动态调度问题的深度强化学习模型

2.1 马尔可夫决策过程

由于深度强化学习在求解包含不确定因素的决策调度问题方面具有优势,本文基于深度强化学习,将PIES动态经济调度问题转换为马尔可夫决策过程,能够准确适应PIES源荷的动态变化,实现问题的快速求解。

马尔可夫决策过程是强化学习的数学基础。马尔可夫决策过程(MDP)包含元素(S,A,R,γ),其中S表示环境的状态集合,A表示智能体的动作集合,R表示回报函数,γ是折扣因子且γ∈(0,1]。状态转换过程是t时刻,智能体根据当前的环境状态st,选择动作at与环境交互,获得奖励rt并进入下一个状态st+1。智能体在每个时间步与环境进行交互时,都会得到一个奖励,直到结束状态。使用回报Gt来表示智能体的长期收益,如式(23)所示。

其中:T为决策序列的长度。

用动作-价值函数Q来评判在状态s下做出动作a的好坏,状态的好坏用状态-价值函数V来评判,并且可以使用Q价值函数的数值来计算V价值函数,定义分别如式(24)(25)所示。

其中:π(a|s)为当前状态s下执行动作a的概率,表示的是智能体的策略。

1) 状态空间描述

智能体观测到的状态st包括电负荷、热负荷、气负荷、光伏发电量、储能设备的状态以及时刻t,状态空间如式(26)所示。

st={Ploadt,Qloadt,Gloadt,PPVt,SESt,SHSt,SGSt,t}(26)

其中:Ploadt、Qloadt和Gloadt分别为电负荷、热负荷和气负荷;

SESt、SHSt和SGSt分别为蓄电池、储热罐和储气罐的状态。

2)改进的动作空间描述

at={PGTt,PP2Gt,QGBt,Pccust,PES,ch/dist,PHS,ch/dist,PGS,ch/dist}(27)

其中:PGTt为GT设备耗电功率;PP2Gt为P2G设备耗电功率;QGBt为GB设备的产热功率;PES,ch/dist、PHS,ch/dist、PHS,ch/dist分别为蓄电池的储/放电功率、储热罐的储/放热功率、储气罐的储/放气功率。

在上层动作空间中增加随机扰动来提升对环境的感知能力,改进后的上层PPO动作空间如式(28)所示。

3)改进的奖励函数

奖励函数用于指导智能体寻得最优调度策略,其

以获得奖励最大化为目标进行参数更新。PIES动态调度的目标是使系统的运行成本最小化,将该目标转换为奖励函数最大化的一部分。另外,为了维持PIES内源荷的供需平衡,在奖励函数惩罚项中加入系统内源荷供需不平衡造成的功率误差,同时为了加快强化学习算法收敛获得最优的控制效果,将智能体动作越限惩罚成本[18]添加奖励函数惩罚项。智能体动作越限惩罚成本如式(29)所示。

其中:ψt为t时刻下,智能体动作越限惩罚成本;κum,i和κdm,i分别为智能体动作爬坡上限和下限的惩罚系数;aum,imax和adm,imin分别为动作变化率的上变化限值和下变化限值;κun,i和κdn,i分别为智能体动作爬坡上限和下限的惩罚系数;aun,imax和adn,imin分别为动作变化率的上变化限值和下变化限值;

智能体奖励函数如式(30)所示。

Rt=-λ(F+ψt+ζEPENBt+ζHQHNBt+ζGGGNBt)+r0(30)

其中:ζE、ζH和ζG分别为电能、热能、燃气供需不平衡量成本系数;PENBt、QHNBt和GGNBt分别为t时刻下电能、热能和燃气供需不平衡量;λ为奖励函数的缩放系数;r0为常数,可以使累积回报由负转正,提高模型的稳定性和收敛速度。

2.2 马尔可夫决策过程

与传统的策略梯度优化算法相比,PPO算法具有对更新步长不敏感、更新时无须重新采样的优势,适用于包含光伏和负荷等连续数据的PIES,可有效避免维数灾难。

PPO是由OpenAI 在2017年提出的一种基于 Actor-Critic(AC)框架的强化学习的基准算法。AC(Actor-Critic)方法包含了基于价值和策略的学习方法。AC框架包含Actor和Critic两个网络。其中:Actor网络又称为策略网络,主要用于生成策略函数;Critic网络又称为价值网络,主要用于对Actor作出的动作进行评估,来使得Actor网络改进策略函数。PPO算法的训练流程如图3所示。

1)Actor网络训练

Actor网络通过优化损失函数JCLIP(θ)来更新网络参数θ。JCLIP(θ)表示为

其中:A(st,at)为优势函数;rt(θ)为重要性采样比;θ為Actor网络参数;ε为裁剪因子,是用于衡量新策略和老策略偏差程度的超参数。由于新策略与旧策略更新距离过大会造成算法不稳定,为了避免上述情况,将重要性采样权重限制在[1-ε,1+ε]。

式(5)中的优势函数定义如式(32)所示。

A(st,at)=yt-Vω(st),

yt=Rt+γVω(st+1)(32)

其中:Vω(st)为t时刻Critic网络的输出值;Rt为 t时刻的奖励;ω为Critic的网络参数;yt为时刻t+1时对Vω(st)的估计值。

重要性采样比为新策略分布函数与旧策略分布函数的比值,如式(33)所示。

使用梯度上升的方法来更新Actor网络参数θ的大小,更新公式如式(34)所示。

θ←θ+σAθJ(θ)(34)

其中:σA为Actor网络的学习率。

2)Critic网络训练

Critic网络通过优化损失函数L(ω)来更新Critic的网络参数ω,L(ω)的定义如式(35)所示。

L(ω)=E[yt-Vω(st)]2(35)

使用梯度下降的方法来更新Critic网络参数ω,更新公式如式(36)所示。

ω←ω-σCωL(ω)(36)

其中:σC为Critic网络的学习率。

2.3 基于PPO算法的动态调度模型

基于PPO算法求解PIES动态调度问题的模型如图4所示。

Critic和Actor网络的初始输入状态都是从经验池中随机抽样获取的状态st,模型每轮训练的初始状态都从经验池中随机抽样的优势是:可以降低训练完成的模型在获取PIES动态调度方案方面的偶然性。同时,Critic网络输出的为Vt值,Actor网络的输出为动作at,智能体按照时段与PIES环境进行交互,并根据当前环境状态st,作出动作at,PIES环境返回给智能体奖励值Rt,经验池用来保存每一个时段的状态st、动作at和奖励Rt。智能体中网络权重更新使用的样本来源于经验池中的随机抽取。利用训练数据对基于PPO算法的DRL模型完成离线训练后,将该模型保存并应用于PIES的动态经济调度。

3 算例仿真及结果分析

3.1 基于PPO算法的动态调度模型

本文PIES中的电负荷、热负荷、气负荷和光伏发电数据来源于国内某小型园区,系统主要设备仿真参数如表1所示,分时电价如表2所示,天然气单价为3.6元/m3,沼气价格为1元/m3。本文实验在TensorFlow平台实现,Actor和Critic网络的隐藏层层数均为3,每层含有200个神经元,激活函数均为ReLU,使用Adam优化器更新网络权重。

3.2 算例仿真分析

为了验证本文所提含有CCUS-P2G耦合系统的PIES和PPO方法均能够有效提升PIES经济效益,降低碳排放。设置了五种不同的方案,方案5为本文方法,方案中的传统场景分析法是采用模型预测控制方法进行求解,各方案分别为

方案1 不考虑CCUS,采用传统场景分析法求解。

方案2 考虑CCUS、P2G非耦合系统,不考虑储液罐,采用传统场景分析法求解。

方案3 考虑CCUS、P2G耦合系统,不考虑储液罐,采用传统场景分析法求解。

方案4 考虑CCUS-P2G耦合系统,不考虑储液罐,采用PPO算法求解。

方案5 考虑CCUS-P2G耦合系统,考虑储液罐,采用PPO算法求解。

3.2.1 各方案调度结果分析

由表3和图5可知,在提升系统经济效益和减少碳排放方面,考虑CCUS-P2G耦合系统、储液罐和PPO算法对PIES进行优化调度的方案5均取得了最优的结果,相比于方案1,总成本和碳交易成本分别下降15.9%和68.8%,净碳排放量下降57.6%,充分验证了本文方法在低碳性和经济性方面均具有显著优越性。

a)方案2相比方案1。引入CCUS系统,该系统捕获燃气轮机和沼气锅炉设备产生的CO2,有效减少了系统的碳排放。

b)方案3相比方案2。采用CCUS-P2G耦合系统,将捕获的CO2一部分作为P2G设备甲烷化反应过程中的碳源,另一部分进行驱油封存,减少系统碳排放量的同时也降低了P2G设备购碳成本,进而降低了系统的总运行成本。

c)方案4相比方案3。采用了PPO算法进行PIES的动态经济调度,该方法相比于传统调度方法,不再依赖于源荷的精确预测和固定的物理模型,能够动态响应PIES中源荷的随机波动,根据分时电价合理调整PIES中各个设备的出力,维持PIES中能源的供需平衡,但由于CCUS能耗和捕碳需求之间存在矛盾,CCUS能耗提升有限,导致碳捕集量降低。

d)方案5相比方案4。通过引入了储液罐的方式解决了方案4中存在的问题,储液罐的引入解除了再生塔和吸收塔CO2处理量之间的耦合关系,使得CCUS耗电和捕碳之间的矛盾得以解决[19]。当高电价时,CCUS几乎不耗电,可以将吸收塔吸收的CO2放入富液罐中暂存;在低电价时,CCUS耗电量提升,将富液罐中的CO2流入贫液罐,增大CCUS耗电量,使得碳再生量得以提升,进而降低系统碳排放量,提升系统经济效益。

3.2.2 方案4、5中PPO算法的收敛性能分析

从图6可以看出,方案4和5均经过约5 000个episode后收敛,充分验证了方案5在方案4的基础上引入储液罐不仅不影响算法的收敛性能,还能有效提升奖励值。

由于最初智能体对环境不熟悉,处于学习过程,初始阶段的奖励值较低,随着智能体不断地与环境进行交互,不断试错,不断积累经验,所以智能体获得的奖励值逐渐增加并最终收敛,这说明智能体能够合理调整PIES中能源的转换、购买和存储行为,进而达到提升系统经济效益的目的。由于系统中源荷具有不确定性,所以奖励值会出现波动性。

3.2.3 方案5动态调度性能分析

本文随机选取PIES中连续30天的能源数据作为测试集,设置时间尺度为15 min。为进一步分析方案5中算法的训练结果,验证CCUS系统中储液罐的有效性,随机选取一天的数据进行分析,动态调度优化结果如图7、8所示。图7中的上、下两部分分别为PIES能源供给功率和需求功率总和的柱状堆积图。

1)PIES电能、热能和燃气供需平衡结果分析

如图7(a)所示,在电价谷时段,电力系统中GT设备几乎不运行,主要通过外部购电来满足电负荷的需求,同时,P2G耗电量增加,蓄电池进行充电操作;如图7(b)所示,热力系统主要通过沼气锅炉产热来满足热功率的供需平衡;如图7(c)所示,燃气系统主要通过P2G设备来支撑气负荷的需求,满足燃气系统的供需平衡。

综合来看,电价平时段和峰时段,电力系统中GT设备运行功率上升,主要由GT设备和光伏来满足电负荷的需求,当GT设备和光伏供能不足时,通过外部购电来弥补电功率的供需缺口;热力系统主要由GT设备和沼气锅炉满足热功率的供需平衡;燃气系统主要通过外部购气满足GT设备和气负荷的需求,来维持燃气系统的供需平衡。

2)碳捕集系统碳再生和能耗结果分析

由图7和8可知:0:00~8:00为电价谷时段,在该时段将前一天富液罐中暂存的CO2流入贫液罐,增加CCUS耗电量,加大CCUS的碳再生力度,有效减少了PIES碳排放;8:00~23:00为电价平时段和峰时段,由于外部购电成本较高,将吸收塔中吸收的CO2放到富液罐中进行暂存,以此来降低CCUS的耗电量,该时段储存的碳在谷时段(23:00~次日8:00)进行碳再生。

3.2.4 方案5能源损耗结果分析

为验证本文方法对能源损耗的自适应能力,将PIES系统中的电负荷Ploadt、热负荷Qloadt和气负荷Gloadt分別增加增量Δh1、Δh2和Δh3后,再次对PIES进行动态调度求解分析,判断其是否满足PIES中电负荷、热负荷和气负荷的能源需求。

a)燃气轮机和沼气锅炉考虑热能损耗后的功率变化如图9所示。

如图9可知,在电价的谷时段,沼气锅炉输出的热功率变化较为明显,在电价的平时段和峰时段,燃气轮机输出的热功率变化比较明显,表明本文方法中的燃气轮机和沼气锅炉均能自适应动态调度决策,维持PIES中热能的供需平衡。

b)燃气轮机考虑电能损耗后的功率变化如图10所示。

如图10所示,在电价的谷时段,燃气轮机输出电功率变化不明显,在电价的平时段和峰时段,燃气轮机输出电功率变化较明显,燃气轮机通过自适应动态调度决策,满足PIES中电负荷的供需平衡。

c)P2G设备考虑燃气损耗后的功率变化如图11所示。

如图11所示,在电价的谷时段,P2G设备输出气功率变化明显,在电价的平时段和峰时段,P2G设备输出气功率变化不明显,P2G设备通过自适应动态调度决策,满足PIES中气负荷的供需平衡。

3.3 不同调度方法对比结果分析

为了进一步验证本文方法的有效性,将本文方法与近几年较流行的基于深度确定性策略梯度(DDPG)算法[9]和基于深度Q网络(DQN)算法的动态调度方法[1]进行了比较。从测试数据集中随机选取连续10日的数据进行测试,其中调度总时段为24 h,时间尺度为15 min,三种深度强化学习方法在学习过程中的奖励曲线如图12所示,调度算法结果如表4所示。

从图12可知,PPO算法相较于DQN和DDPG算法奖励值最高,园区综合能源系统优化效果最佳。

从表4可以看出,PPO算法相比于DQN和DDPG算法总成本低2.3%和3.8%,碳交易成本低3.3%和6.1%,净碳排放量低2.1%和3.7%。由此可见,基于PPO算法的动态调度方法相比于DDPG和DQN方法拥有最低的运行成本和碳排放量。

4 结束语

本文提出了一種考虑碳捕集的园区综合能源系统低碳经济调度方法,构建了包含CCUS-P2G耦合系统的PIES低碳经济调度模型,并在CCUS系统中添加了一组储液罐,采用PPO方法对PIES进行优化调度。仿真结果证明,本文方法能够有效降低系统碳排放,提升系统的经济效益,具体结论如下:

a)在PIES结构中,采用CCUS-P2G耦合系统的运行模式,在减少系统碳排放的同时,能够为P2G设备甲烷化反应过程提供碳源,进一步降低了系统的运行成本;CCUS中储液罐的引入,有效解决了CCUS能耗与捕碳需求之间的矛盾,降低了系统碳排放水平,提升了系统的经济效益。

b)本文采用PPO算法对PIES进行动态调度优化,求解过程不需要建立复杂的物理模型,而是将该问题的求解转换为马尔可夫决策过程,用连续状态空间和动作空间来求解,不仅避免了离散化处理带来的维数灾难问题,还能够有效应对源荷的不确定性,稳定各设备出力,提升系统的可靠性。

c)仿真实验证明,在考虑能源损耗的基础上,本文方法能够进行跟踪学习,PIES中各设备能自适应调度决策,满足系统中能源需求,维持PIES中电能、热能和燃气的供需平衡。同时,本文方法和DDPG、DQN算法相比,拥有最低的运行成本和碳排放量。

本文研究重点为在满足园区综合能源系统能量供需平衡的前提下,验证本文方法在低碳经济调度方面的有效性,仅考虑了园区综合能源系统独立运行的情况。而在实际的园区综合能源系统运行时可能会与电网产生能量交互,影响系统内部设备出力情况,未来将重点研究园区综合能源系统并网互联的运行优化问题,并对单独运行和并网运行能源系统的经济效益及碳排放情况展开进一步的分析。

参考文献:

[1]张沈习,王丹阳,程浩忠,等. 双碳目标下低碳综合能源系统规划关键技术及挑战 [J]. 电力系统自动化,2022,46(8): 189-207. (Zhang Shenxi,Wang Danyang,Cheng Haozhong,et al. Key technolo-gies and challenges of low-carbon integrated energy system planning under the dual-carbon target [J]. Automation of Electric Power Systems,2022,46(8): 189-207.)

[2]Ma Yiming,Wang Haixin,Hong Feng,et al. Modeling and optimization of combined heat and power with power-to-gas and carbon capture system in integrated energy system [J]. Energy,2021(5): 121392.

[3]Ding Xiaoyi,Sun Wei,Gareth P H,et al. Multi-objective optimization for an integrated renewable,power-to-gas and solid oxide fuel cell/gas turbine hybrid system in microgrid [J]. Energy,2020(213): 118804.

[4]Lyu Jiawei,Zhang Shenxi,Cheng Haozhong,et al. Review on district-level integrated energy system planning considering interconnection and interaction [J]. Proceedings of the CSEE,2021,41(12): 4001-4021.

[5]Yu Xiaodan,Xu Xiandong,Chen Shuoyi,et al. A brief review to integrated energy system and energy internet [J]. Trans of China Electrotechnical Society,2016,31(1): 1-13.

[6]王丹,智云强,贾宏杰,等. 基于多能源站协调的区域电力-热力系统日前经济调度 [J]. 电力系统自动化,2018,42(13): 59-67. (Wang Dan,Zhi Yunqiang,Jia Hongjie,et al. Day-ahead economic dispatch strategy of regional electricity-heating integrated energy system based on multiple energy stations [J]. Automation of Electric Power Systems,2018,42(13): 59-67.)

[7]Ali E,Yang Qiang. Scenario-based investment planning of isolated multi-energy microgrids considering electricity,heating and cooling demand [J]. Applied Energy,2019,235(1): 1277-1288.

[8]帅挽澜,朱自伟,李雪萌,等. 考虑风电消纳的综合能源系统“源-网-荷-储”协同优化运行 [J]. 电力系统保护与控制,2021,49(19): 18-26. (Shuai Wanlan,Zhu Ziwei,Li Xunmeng,et al. “Source network load storage” collaborative optimization operation of a comprehensive energy system considering wind power consumption [J]. Power System Protection and Control,2021,49(19): 18-26.)

[9]周任軍,肖钧文,唐夏菲,等. 电转气消纳新能源与碳 捕集电厂碳利用的协调优化 [J]. 电力自动化设备,2018,38(7): 61-67. (Zhou Renjun,Xiao Junwen,Tang Xiafei,et al. Coordinated optimization of carbon utilization between power-to-gas renewable energy accommodation and carbon capture power plant [J]. Electric Power Automation Equipment,2018,38(7): 61-67.)

[10]周任军,孙洪,唐夏菲,等. 双碳量约束下风电-碳捕集虚拟电厂低碳经济调度 [J]. 中国电机工程学报,2018,38(6): 1675-1683. (Zhou Renjun,Sun Hong,Tang Xiafei,et al. Low-carbon economic dispatch based on virtual power plant made up of carbon capture unit and wind power under double carbon constraint [J]. Proceedings of the CSEE,2018,38(6): 1675-1683.)

[11]Sepehr S,Ahmadreza S. A novel energy management method based on deep Q network algorithm for low operating cost of an integrated hybrid system [J]. Energy Reports,2021,7: 2647-2663.

[12]王金锋,王琪,任正某,等. 基于联邦强化学习的电热综合能源系统能量管理策略 [J/OL]. 上海交通大学学报. (2023-03-15) [2023-08-27]. https://doi. org/10. 16183/j. cnki. jsjtu. 2022. 418. (Wang Jinfeng,Wang Qi,Ren Zhengmou,et al. Energy management strategy for electric heating integrated energy systems based on federated reinforcement learning [J/OL]. Journal of Shanghai Jiao Tong University. (2023-03-15) [2023-08-27]. https://doi. org/10. 16183/j. cnki. jsjtu. 2022. 418.)

[13]Xu Zhengwei,Han Guangjie,Liu Li,et al. Multi-energy scheduling of an industrial integrated energy system by reinforcement learning-based differential evolution [J]. IEEE Trans on Green Communications and Networking,2021,5(3): 1077-1090.

[14]程耀华,杜尔顺,田旭,等. 电力系统中的碳捕集电厂: 研究综述及发展新动向 [J]. 全球能源互联网,2020,3(4): 339-350. (Cheng Yaohua,Du Ershun,Tian Xu,et al. Carbon capture power plants in power systems: research review and new development trends [J]. Global Energy Internet,2020,3(4): 339-350.)

[15]康重慶,陈启鑫,夏清. 应用于电力系统的碳捕集技术及其带来的变革 [J]. 电力系统自动化,2010,34(1): 1-7. (Kang Chongqing,Chen Qixin,Xia Qing. Carbon capture technology applied to power systems and its transformation [J]. Automation of Power Systems,2010,34(1): 1-7.)

[16]田贺永,王万福,王任芳,等. 二氧化碳捕集技术研究 [J]. 能源环境保护,2012,26(6): 39-41. (Tian Heyong,Wang Wanfu,Wang Renfang,et al. Research on carbon dioxide capture technology [J]. Energy and Environmental Protection,2012,26(6): 39-41.)

[17]Li Fangyuan,Qin Jiahu,Kang Yu. Closed-loop hierarchical operation for optimal unit commitment and dispatch in microgrids: a hybrid system approach [J]. IEEE Trans on Power Systems,2020,35(1): 516-526.

[18]乔骥,王新迎,张擎,等. 基于柔性行动器-评判器深度 强化学习的电-气综合能源系统优化调度 [J]. 中国电机工程学报,2021,41(3): 819-833. (Qiao Ji,Wang Xinying,Zhang Qing,et al. Optimal dispatch of integrated electricity-gas system with soft actor-critic deep reinforcement learning [J]. Proceedings of the CSEE,2021,41(3): 819-833.)

[19]彭元,娄素华,吴耀武,等. 考虑储液式碳捕集电厂的 含风电系统低碳经济调度 [J]. 电工技术学报,2021,36(21): 4508-4516. (Peng Yuan,Lou Suhua,Wu Yaowu,et al. Low-carbon economic dispatch of power system with wind power considering solvent-storaged carbon capture power plant [J]. Trans of China Electrotechnical Society,2021,36(21): 4508-4516.)

猜你喜欢
不确定性
法律的两种不确定性
不确定性下的生态治理——以三江源草地修复为例
英镑或继续面临不确定性风险
英国“脱欧”不确定性增加 玩具店囤货防涨价
具有凸多面体不确定性的混杂随机微分方程的镇定分析
考虑风电功率与需求响应不确定性的备用容量配置
考虑系统不确定性的高超声速飞行器容错控制
具有不可测动态不确定性非线性系统的控制
个人投资理财中不确定性问题的探讨
不确定性与农民专业合作社纵向一体化经营