多智能体深度强化学习的分布式园区综合能源系统经济调度策略

2023-01-09 03:18武东昊陈玉萍冯文波张有兵张雪松
电力系统及其自动化学报 2022年12期
关键词:储能调度园区

张 帆,武东昊,陈玉萍,冯文波,张有兵,张雪松

(1.浙江华云电力工程设计咨询有限公司,杭州 310026;2.浙江工业大学信息工程学院,杭州 310023;3.国网浙江省电力有限公司电力科学研究院,杭州 310014)

随着环境压力的增加和可再生能源技术的发展,以化石能源为主的传统电力系统正逐渐被化石能源与可再生能源协调使用的综合能源系统IES(integrated energy system)所替代。而IES内的多种类能源在提升系统灵活性、供能多样性的同时,也为系统提高整体的能源利用率及实现经济运行带来了困难。因此,研究IES内的多能协调优化调度策略对于促进可再生能源消纳、提高系统经济性具有重要意义[1-3]。

针对IES的多能互补与经济运行问题,文献[4]研究了含风电设备的热-电-气IES经济调度问题,并采用列约束生成算法进行迭代求解;文献[5-6]在配电网中可再生能源占比不断提高的背景下,对考虑风电消纳的IES日前经济最优调度策略进行了研究;文献[7]通过随机规划处理系统中可再生能源、负荷及实时电价带来的波动,用以解决微电网经济调度问题;文献[8]以区间形式描述风电出力,利用混合整数规划方法将IES中的非线性问题转化为线性问题,然后经CPLEX求解器对问题进行求解。以上文献对IES的研究主要集中在日前调度,依赖于对可再生能源出力、负荷需求等数据的预测,受限于固定的调度计划,不能动态地对源和荷的随机变化做出响应。

为解决上述问题,近年来随着人工智能技术的发展,强化学习RL(reinforcement learning)算法受到越来越多的关注。已有研究将RL用于电力能源系统的经济调度和能量管理中[9-11],但是传统的RL算法在面对IES的复杂环境时,无法合理地从环境中读取状态变量,易发生维数灾难,难以实现在综合能源场景下的应用与推广。因此,同时具备环境感知能力和决策能力的深度强化学习DRL(deep reinforcement learning)算法,逐渐被研究者们关注。已有文献开展了关于DRL算法在电力系统中的应用研究,文献[12]构建了一种考虑孤岛运行的IES,并采用DRL来对所提出的孤岛IES进行控制,使所考虑的IES能合理运行;文献[13]根据负荷及光伏出力结合储能设备供能,采用DRL算法对微电网系统进行最优能量调度;文献[14]借助贝叶斯神经网络对不确定的学习环境建模,将微电网优化运行问题转变为马尔可夫决策问题,并对微能源网进行建模,通过DRL算法寻找最优运行策略。但是,以上研究DRL在IES中应用的文献,大多为集中式决策,这种结构的IES需要控制中心预先建立精确的网络架构,并实时采集IES内各设备运行工况,这对于结构复杂多变的IES来说难以实现。单个主体统一运营的情况也与目前IES内多个能源子系统相对独立运营的现状不相符,在当下的市场机制内存在信息隐私的问题。

在已有的研究基础上,为实现含多个能源子系统的IES优化调度,本文的主要贡献如下。

(1)提出了一种以最优经济运行为目标的分布式园区IES优化调度架构,并对各园区之间的能源交互进行设计。在促进各园区内光伏消纳的同时,提高了IES经济运行的有效性。

(2)在所提架构的基础上,采用基于多智能体的DRL算法解决IES的动态调度问题。以实时奖励函数代替目标函数,利用各园区内的智能体与环境互动,寻找IES最优调度策略,避免了传统能源调度方式中无法实时响应源荷随机变动的问题。

(3)将所提算法与基于IES线性化模型的优化算法进行结果比较,证明了所提算法的有效性。

1 分布式园区IES建模

IES运行优化的目标是在满足用户用能多样性的同时,提高系统整体的能源利用率,实现系统的经济运行。为此,本文提出了一种以最优经济运行为目标的分布式园区IES优化调度架构,通过合理地安排不同时间段园区内设备的出力,促进园区间能源共享,保证了IES的经济运行。

1.1 多园区共享模型

本文研究的分布式园区IES架构如图1所示,包含多园区共享层和单园区消纳层。

图1 分布式园区IESFig.1 IES in distributed parks

在多园区共享层中,不同的多能源园区之间可进行信息交流,并通过电压等级为10 kV的配电线路进行园区间的能源协调互补。园区间进行能源交互时,能源富余的园区优先考虑将多余的能源供给其他园区,若在供给结束后仍有余能,则考虑将余能卖给外部能源供应商;能源不足的园区优先考虑园区间的内部能源互济,若园区间的内部供能仍无法满足用能需求,则考虑向外部能源供应商购能。因为各园区进行能源交互时,热能传递损耗率大、成本高,所以本文提及的园区间能源交互仍以电能交互为主,热能仅用于满足各园区内的能源消耗,其园区间的电能交互可表示为

式中:E为实际获得的其他园区供能;Ei,j为园区i向园区j的供给能源;η为园区间进行电能交互时的能源损耗参数,其由园区间的电压等级和线路参数共同决定。

所提模型中各园区不需要清楚其他园区内的设备运行情况,仅通过本地的信息数据,即可决定调度策略。在保护园区信息隐私的前提下,降低了各园区的运行成本。

1.2 单园区消纳层模型

单园区能源消纳模型如图2所示。单个多能源园区平稳运行所需要的能源由其他园区、上级电网、天然气源共同提供。园区内包含电、热两种类型的负荷和燃气轮机、燃气锅炉、光伏、电锅炉、储能电池等设备,各单元按照能量传输介质用电、热两条能量总线连接。

图2 单园区能源消纳模型Fig.2 Energy absorption model of single park

1.2.1 目标函数

多能源园区优化调度的目标函数是园区运行总成本,主要是从上级电网购电的成本及从燃气供应商处购买天然气的成本之和。目标成本的函数为

式中:C为园区运行总成本;Ce为向电网购电的成本;Cf为向燃气供应商购买天然气的成本;T为系统调度的总时间段数;Δt为时隙长度;εgrid(t)为t时段内园区向电网的购售电价格;Pgird为t时段内园区与电网的交互功率,Pgird为正表示向电网购电,Pgird为负表示向电网售电;εgas(t)为t时段内天然气的单位热值价格;γ(t)为天然气消耗速率。

1.2.2 约束条件

单园区优化调度的约束包括功率平衡约束、电网交互功率约束和设备运行约束。

1)功率平衡约束

多能源园区内包含多种能源类型,但其主要考虑的功率平衡约束包括电功率平衡约束、热功率平衡约束两类,可表示为

式中:Pop(t)为t时段内其他园区供能,Pop(t)为正时表示接受其他园区能量,Pop(t)为负时表示将能量供给其他园区;Ppv(t)为t时段内光伏设备输出功率;Pgt(t)为t时段内燃气轮机输出功率;Peb(t)为t时段内电锅炉需求功率;Pbes(t)为t时段内储能电池的充放电功率,Pbes(t)为正时表示储能电池的放电功率,Pbes(t)为负时表示储能电池的充电功率;heb(t)为t时段内电锅炉输出热功率;hgt(t)为t时段内燃气轮机回收热功率;hbt(t)为t时段内燃气锅炉输出功率;Pload(t)、hload(t)分别为t时段内需求侧电、热负荷。

2)电网交互功率约束

考虑到电网侧的稳定运行,上级电网对多能源园区的功率交互有上下限约束要求,可表示为

3)设备运行约束

多能源园区中各设备均有设备运行上限、下限约束,对于燃气锅炉、燃气轮机、电锅炉的输出功率及储能电池充放电功率存在如下约束:

对于储能电池,还需避免深度充放电对储能电池的损害,因此储能电池的荷电状态需要被限定在一定范围内,即

此外,为保证储能电池能持续稳定运行,1个调度周期始末应保持储能容量相等,所以储能电池充放电应满足

2 分布式园区IES的多智能体DRL框架

在分布式园区IES的优化调度问题中,每时刻的光伏产能、储能设备、用户需求等环境信息都在发生变化,故其是一种具有时变性的动态调度问题。针对这一问题,本文采用一种基于多智能体深度Q网络的DRL算法进行求解。该算法将深度Q网络中的神经网络模型看作智能体,通过神经网络对环境的强大表征能力,读取IES的环境信息作为多智能体的输入;然后,每个智能体根据所得到的环境信息输出对应动作,并根据执行动作获得奖励;最后,通过采取的动作实现IES的优化调度。本节对具体的多智能体DRL设计进行描述。

2.1 状态空间与动作空间设计

IES环境提供给各智能体的信息一般为园区内的光伏设备出力、储能电池的荷电状态及热、电负荷需求。因此IES园区内的状态空间可以定义为

智能体观测到IES园区内的状态信息后,根据自身策略在动作空间A中选择1个动作。本文所考虑园区内的动作设备,包括燃气轮机、储能电池和电锅炉。对于燃气轮机,其动作是t时段内燃气轮机的输出功率Pgt(t);对于储能电池,其动作是t时段内储能电池的充放电功率Pbes(t);对于电锅炉,其动作是t时段内电锅炉的输出功率Peb(t)。因此IES的动作空间为

考虑到深度Q网络算法无法输出连续动作,所以对IES的动作空间做离散化处理,离散后的动作空间为

式中,g为离散化的粒度,粒度越大动作空间包含的动作越少,粒度越小动作空间可以描述的动作越多。

2.2 奖励函数

在DRL中奖励负责引导智能体挖掘状态信息中的决策相关因素并经过提炼后用于动作空间中动作的选取。

在本文考虑的IES模型中,系统运行成本来自于向电网购电的成本和购买天然气的成本。根据式(2)将系统总成本最小化问题转化为RL经典的奖励最大化形式。因此智能体在t时段内奖励rt可以定义为

在智能体学习IES优化调度策略时,有可能会选择不符合系统运行约束条件的动作。面对这种情况需要定义智能体在采取越限动作时的惩罚,通过在奖励函数中增加惩罚项来引导智能体做出正确的决策。

在第1节搭建的IES框架中存在各种设备运行功率上下限约束、储能电池的荷电状态约束,以及储能电池在1个调度周期始末需要保持荷电状态相等的约束条件。在这些约束条件中,燃气轮机的输出功率约束、储能电池的的充放电功率约束及电锅炉的出力约束在设置智能体动作空间时就已经进行过考量,无需再对其额外处理。在面对其他约束条件时,本文通过在奖励函数中增加惩罚项以使智能体学会合理的调度策略。惩罚项可以定义为

式中:d0为各设备出力功率越限时的惩罚,其数值设置为M,M为1个较小的负数;d1为储能电池出现过充或过放时的惩罚,其数值同样设置为M;d2为储能电池在1个调度周期始末保持荷电状态相等的约束的惩罚项。由于深度Q网络所能设定的动作空间内只有离散动作,且储能电池在进行充放电动作时受充放电效率影响,所以在1个调度周期始末储能电池荷电状态无法达到完全相等,因此惩罚项d2可以定义为

若调度周期始末电荷状态存在一定误差,则d2=0,否则d2为1个远小于M的负数。根据以上奖励与惩罚项,奖励函数R可以定义为

3 基于多智能体深度Q网络的求解方法

在多智能体深度Q网络算法中各智能体的神经网络结构如图3所示,其中输入为状态s,输出为该智能体要采取的动作a。基于神经网络的智能体通过最大化奖励来学习状态和动作之间的映射,即动作-奖励Q函数。

图3 单智能体神经网络结构Fig.3 Neural network structure of single agent

3.1 多智能体训练过程

多智能体深度Q网络算法能够通过各智能体间的协作有效地解决复杂任务。在第2节构建的DRL框架中,智能体的训练过程可以概括为“集中学习、分散执行”,属于多智能体训练方案中的并行学习范畴,具有较高的计算效率。此外,多智能体深度Q网络通过探索共享环境,将全局控制动作分配给IES各个分布式园区内执行协调动作的智能体。在这一环节中,每个园区内的智能体不需要知道其他园区的具体信息,仅根据自己局部观察的状态信息即可选取动作,在园区间进行信息交互时,保护了各园区的隐私。

多智能体训练循环如图4所示。在多智能体训练过程中,智能体之间通过共享当前观察到的状态s和动作a来选择最优行动组合。在每条经验轨迹的训练中,各智能体都会根据当前共享得到的环境信息,选取动作组合。在动作确定后,IES将会得到新的奖励与环境信息,并对各园区内智能体进行局部更新。然后,以新的环境信息为基础进行下一轮的动作选择,重复这一循环直至训练结束。

图4 多智能体训练循环Fig.4 Multi-agent training cycle

3.2 各智能体神经网络训练过程

各智能体中神经网络的作用是对在状态s下采取动作a的价值(即动作值函数Q(s,a))进行近似,可表示为

深度Q网络通过Q-learning算法获得神经网络可学习的目标函数,即构建神经网络可优化的损失函数L(θ)为

式中:θ为神经网络的权重参数;QPredict为预测网络输出的预测Q值;QTarget为目标神经网络输出的目标Q值。

QPredict可表示为

式中:θi为智能体i的预测神经网络权重参数;st为t时段的IES环境状态,即各园区内的光伏设备出力、储能电池的荷电状态及热、电负荷需求;at为预测神经网络根据t时段的状态从动作空间A中选取的调度动作。当IES执行动作at时,获得奖励rt,同时系统进入下一时段的环境状态。

QTarget可表示为

在获得损失函数后,采用自适应矩估计算法Adam(adaptive moment estimation)对神经网络损失函数模型L(θ)的权重参数θ进行求解,并将更新后的权重参数θ复制给预测神经网络。经过固定轮次迭代后,将预测神经网络的相关参数复制给目标网络,保持一段时间内目标Q值不变,降低预测Q值和目标Q值的相关性,提高算法稳定性。

深度Q网络算法具有独特的经验池回放机制,在进行每步循环操作时会将神经网络和微能源网环境交互得到的样本数据(即当前状态、当前选取动作、当前动作获得奖励、下一时刻状态及布尔值)存储于经验池中。当需要对预测网络和目标网络训练时,从经验池中随机抽取小批量的历史经验样本数据来对神经网络参数进行训练。

每个经验样本以(st,at,rt,st+1,done)5元组的形式存储到经验池中,其中done为布尔值类型,表示新的状态st+1是否为终止状态。微能源网环境每执行1步后,需要把执行该步所获得的经验信息存储于经验池。在执行数步后,从经验池中随机抽小批量经验样本数据,输入到预测网络和目标网络中。基于抽样的经验样本数据执行式(25),对预测网络和目标网络中的参数θ、进行更新。预测网络和目标网络的具体更新训练流程如图5所示。

图5 基于数据驱动的智能体神经网络参数训练过程Fig.5 Data-driven parameter training process of agent neural network

4 实验验证与分析

4.1 设备参数

为了验证所提基于DRL的分布式园区IES调度策略的有效性,本文以图1所示的分布式园区IES为算例进行仿真。本文设定分布式园区数量为3,各园区配有光伏设备、储能电池、燃气轮机和燃气锅炉等设备参数见表1。实时电价为某小型产业园区实际电价数据,天然气价格固定为0.4¥/(kW·h)。仿真基于Python实现算法编写,计算机配置为CPU Intel Core i5、内存8 GB。

表1 微能源网系统设备相关参数Tab.1 Related equipment parameters of micro energy grid system

4.2 训练数据与多智能体网络超参数设置

本文设计的各智能体在应用于IES前,需要先通过历史数据对其神经网络进行训练,以得到适配于IES环境的网络参数。训练采用的历史数据为某工业园区1月—12月每15 min变动1次的实际光伏设备出力和电、热负荷需求,部分历史样本数据如图6所示。

图6 智能体训练样本数据Fig.6 Agent training sample data

以1月1日00:00为起始,智能体接收来自IES环境的状态信息,然后根据第3节所述的学习过程进行循环迭代,更新神经网络参数,直至训练结束。训练时采用的电价数据如图7所示。

图7 各时段能源价格曲线Fig.7 Energy price curves in each period

经过多次尝试,本文设定多智能体DRL中经验回放的样本存储量为480 000,每次小批量采样规模为32,初始探索率为0.1,最终探索率为0.001,探索步数为1 600 000,学习率为0.01,每训练10次更新一次神经网络网络参数。

4.3 智能体实时调度训练

本文所提各分布式园区内的智能体的神经网络结构相同,两层分别有256、128个神经元。在这种神经网络结构下进行训练时,加入惩罚项对智能体所学策略进行约束。

通过历史数据对智能体神经网络参数进行迭代更新,当固定间隔达到10 000步时,在训练用数据外,采取1组随机光伏设备出力和电、热负荷需求数据为测试集。通过观察智能体在测试集数据上进行实时调度的平均奖励,分析其是否已经学会合理、有效的调度策略,平均奖励的计算公式为

式中:N为调度天数;为在调度天数内各智能体神经网络对测试集进行调度所获得的平均奖励总和。通过观察平均奖励的变化,可以对智能体的学习情况进行了解,其平均奖励变化过程如图8所示。

图8 IES平均奖励总和收敛曲线Fig.8 Convergence curve of sum of average rewards for IES

从平均奖励总和的变化曲线可以看出,园区智能体平均奖励总和在迭代约1 500 000次时趋于稳定,此时可以认为各园区内智能体已学会有效的调度策略。

4.4 结果分析对比

在上述各园区内智能体训练完毕的基础上,采用训练样本外某一日内随机的光伏设备出力和电、热负荷需求数据进行IES的优化调度,得到基于多智能体DRL调度决策下的IES稳定运行的目标成本约为1 120¥。该日各园区内能源转换设备的状态变化如图9所示。可以看出,智能体最终学会的策略使得园区内各设备状态每15 min变动1次,园区内各设备出力在容许范围内,而且储能设备不会采取过度充放电的越限动作,最终会回到调度周期初始的电池荷电状态附近,IES可持续稳定运行。

图9 各园区能源转换设备状态变化Fig.9 State changes of energy conversion equipment in each park

在本文所提数学模型的基础上,采用遗传算法对分布式园区IES经济调度问题进行求解,获得的目标成本约为1 255¥。此外,本文还采用了重拟线性化技术RLT(reformulation linearization technique)技术对所提出的框架进行处理,并通过CPLEX求解获得的目标成本约为1 309¥,具体计算方法见附录A。

不同方法下调度结果对比如表2所示。因为遗传算法相较于多智能体DRL算法在IES调度问题中存在更多的弃光行为,光伏消纳程度较低。而经RLT处理后进行求解的方法相较于多智能体DRL算法,其无法顾及模型中的非线性关系。因此,相较其他两种方法,基于多智能体的DRL算法对IES进行调度的结果更优,验证了所提方法在促进各园区内的光伏消纳的同时,提高了IES经济运行的有效性。

表2 不同方法下调度结果对比Tab.2 Comparison of scheduling results among different methods

5 结语

本文以分布式园区IES为研究对象,提出一种基于多智能体DRL的多能源协调互补优化调度方法,以最优经济运行为目标,用于IES下的能量优化调度。本文基于多智能体DRL的优化调度方法,将IES的动态调度问题即随机序贯决策问题转变为马尔可夫决策过程,用实时奖励函数和惩罚函数代替目标函数和约束条件,利用神经网络与环境互动,寻找系统内的最优调度策略,实现了综合能源网系统中的多能源协调互补优化,有效地避免了传统调度方式中无法实时响应源荷随机变动的问题。最后,通过仿真实验将训练后的智能体用于测试集数据进行调度决策,并将其获得的目标成本和经由传统调度方法求解获得的目标成本进行比较,验证了所提算法的有效性。

本文在实现分布式园区IES协调优化调度时,对于园区间的交互机制及系统内部市场等方面仍然有不足之处。因此后续将继续研究如何构建合理、有效的园区交互市场。

猜你喜欢
储能调度园区
相变储能材料的应用
相变储能材料研究进展
《调度集中系统(CTC)/列车调度指挥系统(TDCS)维护手册》正式出版
苏通园区:激荡开放潮 十年再出发
电力调度自动化中UPS电源的应用探讨
Al3+掺杂MnO2空心纳米球的制备及其在储能上的应用
基于强化学习的时间触发通信调度方法
基于动态窗口的虚拟信道通用调度算法
园区的开放样本
从园区化到国际化