一种基于强化学习的微电网能量管理算法

2022-12-23 03:14张宏涛吴怡之邓开连
物联网技术 2022年12期
关键词:时段储能调度

张宏涛,吴怡之,邓开连,张 磊

(东华大学 信息科学与技术学院,上海 201620)

0 引 言

微电网是由可再生能源、储能系统以及可在孤岛或并网模式下运行的负载组成的独立电网集群,其中,可再生能源发电和储能系统作为推动能源行业可持续发展、满足快速增长能源需求的关键解决方案,是未来电力基础设施建设中的关键技术。然而,可再生能源发电具有间歇性和波动性, 对微电网运营的可靠性、经济性带来了重大挑战[1-3]。服务供应商(Service Provider, SP)通过调度储能系统,能够利用能源价格波动,在需求低迷时期购买相对便宜的能源,并在需求高涨时高价出售来产生利润[4-6]。随着更多本地可再生能源发电机投入使用,供应商能够以由公用事业公司控制的动态价格将能源卖回给公用事业公司,利用分布式可再生能源发电提高电网运营的稳定性和可靠性。

近年来,不少研究者优化了微电网能量管理中的运营成本。Zhong等[7]提出一种基于动态规划(Dynamic Programming, DP)的分布式优化算法,能够在无需与外界进行信息交换的条件下,对储能共享系统实施在线能量管理与运营成本优化。Hafiz等[8]提出一种基于预测文件的DP算法,可以减少微电网运营成本,对各分布式单元进行实时控制。Li等[9]提出一种基于李雅普诺夫优化(Lyapunov Optimization, LO)的负载调度和储能控制算法,提升电网高频能量调度下的储能利用率。Zhang等[10]提出一种基于在线竞争的能量管理算法,优化微电网场景下的运营成本与服务质量(Quality of Service, QoS)。上述工作只考虑了电网层面的运营成本,提出的数学模型与相关算法难以应用于实际微电网场景下的长期能量调度。

本文的主要贡献如下:

(1)对微电网能源管理进行理论建模,将长期优化问题转化为马尔可夫决策过程,通过调度储能装置优化能量管理系统(Energy Management System, EMS)的运营利润。

(2)引入强化学习算法,建立状态空间,充放电动作和奖励函数,通过ε-贪婪策略探索当前环境得出最优能量调度策略。

(3)通过实验仿真,对比所提算法在运营利润上的性能增益。

1 微电网能量管理优化调度模型

实现微电网的经济调度和稳定运行是微电网能量管理的主要目标。本文所述微电网能量管理系统采用并网运行方式为本地负载提供能量,微电网EMS内包含可再生能源发电单元、储能系统、电动汽车负荷与建筑负荷。微电网EMS可与常规电网相连进行双向能量交换,如图1所示。其中,可再生能源发电单元作为供给侧,建筑负荷与电动汽车负荷构成需求侧。在考虑可再生能源发电、实时电价、实时负荷的不确定性情况下,综合考量储能系统充放电与从常规电网购电的经济性,建立了并网运行模式下微电网EMS优化调度模型。

图1 微电网EMS优化调度模型

1.1 微电网EMS运行约束

微电网EMS优化调度的目标是在满足各个分布式单元运行约束、负荷需求和供需平衡的限制下,实现系统运营利润最高。根据微电网EMS运行状况可知,约束如下:

(1)可再生能源发电约束

微电网中可再生能源发电单元受技术、气候条件限制,需满足自身发电出力约束;同时,在任意时间段内满足优先供给本地负载。发电出力约束和供给约束分别表示为:

式中,N(t)为t时段可再生能源发电单元的输出能量;Nmin和Nmax分别为t时段可再生能源发电单元的最小、最大输出能量;min{}运算表示两者取小;G(t)为t时段本地负载总能量需求;Ns(t)为t时段供给本地负载的可再生能源发电单元输出能量。

t时段剩余的可再生能源发电单元输出能量Nw(t)为:

式中,剩余能量Nw(t)通过双边能量流动回售给常规电网。

(2)储能系统运行约束

储能系统需满足其自身的容量限制,充放电出力约束和能量平衡约束。充放电出力约束分别表示为:

式中:Fc(t)和Fd(t)分别为t时段储能系统充电输入能量、放电输出能量;Fcmax为t时段储能系统最大充电输入能量;为t时段储能系统最大放电输出能量。由于电池物理特性,充、放电操作无法同时进行,可表示为:

定义储能系统能量状态[11](State of Energy, SoE),需满足容量约束:

式中:SoE(t)为t时段储能系统的能量状态;Ec为储能系统的额定容量;ζ(t)为t时段储能系统的荷电状态(State of Charge, SoC);ζmax和ζmin分别为储能系统荷电状态最大值和最小值。

储能系统满足能量平衡约束:

式中:SoE(t+1)为t+1时段储能系统的能量状态;ηch和ηdis分别为充放电的能量转换效率。

(3)购电售电定价约束

服务供应商通过购电价格从常规电网侧购电,通过售电价格向本地负载出售能源来获利,购电价格由公用事业公司在t时段开始前公布;服务供应商通过回售价格将t时段剩余的可再生能源发电单元输出能量Nw(t)回售给常规电网。

购电价格、售电价格和回售价格需满足定价约束:

式中:Pb(t)为t时段购电价格;Ps(t)为t时段售电价格;Pw(t)为t时段回售价格;α1为售电折扣参数;α2为回售折扣参数;Pbmax和Pbmin为购电价格的上下限。

(4)供需能量平衡约束

在任意调度时间内,模型都必须满足微电网EMS内部的供需能量平衡约束:

式中:C(t)为t时段从常规电网购入用于满足本地负载的电能;Gb(t)为t时段的建筑负荷;Gev(t)为t时段的电动汽车负荷。

1.2 优化问题

本节提出将最大化微电网EMS运营利润,最小化电池退化成本作为联合优化目标,系统运营净利润定义为:

结合式(18)可知,假设系统运行T个时段,优化问题可以表示为:

由于微电网EMS环境状态时刻变化,式(20)定义的联合优化问题难以直接求得最优解。下节引入强化学习中的Q学习算法,对最优解进行全局探索,使结果逼近最优解。

2 基于强化学习的微电网EMS调度算法

本节提出了Q学习能量调度算法,将强化学习用于微电网场景下的能量调度问题。储能系统与微电网环境实时交互,得出当前环境下的最优决策。该算法能够在减少电池退化成本的同时,提高运营利润。

2.1 Q学习能量调度算法

本系统中储能系统观察到的状态为微电网EMS在t时刻接收到的实时信息,t时刻系统的状态st∈S为:

式中:Pb(t)代表t时刻的电价;G(t)代表t时刻的本地负载;ζ(t)代表t时刻的电池荷电状态;Ns(t)为t时段供给本地负载的可再生能源发电单元输出能量。

根据式(4)~式(6)中充放电动作的大小范围和约束,本文设计出了一组离散的动作空间at∈A。

储能系统在执行完充放电动作后,从微电网EMS环境中得到瞬时奖励Rt:

式中:U(t)为t时刻系统运营净利润;V(t)为t时刻电池退化成本;β为惩罚参数。ζ(t)∈(0.1,0.9)表示微电网EMS满足约束式(8),在电池荷电状态安全条件下运行;U(t)越大且V(t)越小时,储能系统得到的奖励值越高。ζ(t)小于0.1或大于0.9时,电池荷电状态处于过载、危险运行状态,相应的回报函数为负值。

建立运营利润-退化成本联合优化的Q学习模型。Q值采用贝尔曼方程进行更新,即使用后继状态最大Q值估计当前Q值,经过不断迭代,使Q值趋于最优,从而得出最优策略:

式中:α∈(0,1)为学习率,γ为折扣参数;过去的工作[12-15]证明,在马尔可夫决策过程中,若状态空间与动作空间是离散的,动作价值函数Q(st,at)经过无数次迭代会收敛到最优值Qπ*(s, a),通过不断学习更大的Q值,储能系统能得到最优动作at*∈A。

为了使储能系统能够探索到最优动作,智能体需要兼顾已有经验,利用和探索未知动作两个过程,以保证在每个状态下,每个动作都有被选中的可能。Q学习法采用ε-贪婪策略来选择动作,同时用来平衡利用和探索的过程:

式中:X是一个从0到1的随机数,用来选择动作;ε为贪婪值;储能系统以1-ε的概率选择Q值最高的动作进行利用;以ε的概率随机选择动作进行探索。在Q学习初始阶段,储能系统未得出有效调度策略,Q(st, at)大部分数值为零,智能体偏向探索;随着学习的不断进行,Q(st, at)将不断变大直至收敛,从而得出最佳调度策略πt。

2.2 Q学习调度算法实现

由于传统能量管理没有考虑储能系统接入、实时电价、可再生能源输出能量等因素,在面对现实环境时,算法性能随着预测不确定性的提高而不断下降,因此本文引入了在人工智能领域得到广泛应用的强化学习算法,该算法通过学习状态量的变化趋势来对决策值进行实时更新,相比传统能量管理算法具有更强的鲁棒性。Q学习调度算法将储能系统作为智能体,通过调度电池中的能量,来获得微电网EMS中的最大运营利润。Q学习能量调度算法如下所示:

输入 :状态量 {Pb(t),G(t),Ns(t),ζ(t)}

输出:优化的充放电策略π

(1)初始化Q学习算法参数,初始化Q表;

(2)初始化状态量 st0={Pb(t),G(t),Ns(t),ζ(t)};

(3)For 回合数=1,2,…,M;

(4)获取初始状态st0;

(5)For 时刻=1,2,…,T;

(6)观察并计算动作价值函数Q(st, at);

(7)使用ε-贪婪策略选择动作at;

(8)执行所选动作at;

(9)计算退化成本,运营利润;

(10)计算优化目标;

(11)使用贝尔曼方程更新Q(st, at);

(12)将结果存入Q表;

(13)计算累积奖励Rt;

(14)判断累积奖励Rt是否收敛;

(15)输出优化后的充放电策略π。

微电网EMS收集t时刻的外部状态信息Pb(t)、G(t)、Ns(t)和储能系统内部信息ζ(t),将信息传给储能系统;储能系统根据已知信息,使用ε-贪婪策略选择动作加以执行,得到实时反馈;系统计算当前时刻的运营利润和退化成本,使用贝尔曼方程更新Q(st, at),将结果存入Q表;进入下一个时刻后,再重新执行以上步骤,直到奖励函数收敛。

3 仿真结果与分析

本节在仿真中模拟实时变化的微电网EMS环境,对比Q学习能量调度算法与现有基线算法的各个性能指标。

3.1 仿真参数

实验使用Python编译器,使用Torch模块编写算法,模拟真实微电网环境下实时变化的电价、负荷与可再生能源能量。其中,电价、本地负荷与可再生能源发电单元输出能量数据源于澳大利亚新南威尔士州某市两周的电力系统运行数据。表1给出了仿真参数与配置。

表1 仿真参数与配置

3.2 仿真结果

首先,本文评估了Q学习能量调度算法的收敛性表现。所提出算法在10 000个回合内进行了训练,以学习优化的储能系统充电/放电调度,其中惩罚因子β设置为2。累积奖励的演变过程如图2所示。观察可得智能体获得的累积奖励在前1 500个回合不断增加,在第2 000个回合达到80后趋向稳定,之后由于智能体不断以10%的概率选择随机动作,累积奖励曲线呈现轻微振荡。因此,所提出Q学习能量调度算法能在短时间内达到收敛。

图2 累积奖励与回合数变化关系图

图3展示了系统利润随时间的变化情况,3种算法的系统利润随着时间的增加而不断上升。其中,Greedy代表贪心算法,执行贪心算法时,智能体只求得每个时刻的最优收益,并将其累加;执行Uncontrolled策略时,智能体会在电池荷电状态低于0.1时以最大充电速率充电,在荷电状态高于0.9时以最大放电速率放电。Q学习算法从微电网EMS运行开始,其系统利润一直高于Greedy和Uncontrolled策略;微电网EMS在经过336个小时运营之后,Q学习与Greedy算法比提高了8.32%,与Uncontrolled策略比提高了10.54%。

图3 系统利润与时间变化关系图

4 结 语

本文提出了一个微电网储能管理系统,该系统由可再生能源、储能以及进出常规电网的双边能量流组成。本文的目标是在电池容量的约束下,最大化储能管理系统的运营利润。为了解决上述问题,本文提出了一种基于Q学习的强化学习能量调度算法,以根据来自复杂环境的信息即电池的动态变化荷电状态、价格和需求变化、准确的电池退化作为状态,学习优化的控制动作。最后,与基于真实世界数据的性能评估表明,与2个基线算法相比,所提出的方法可以将系统利润提高8.32%~10.54%。

猜你喜欢
时段储能调度
相变储能材料的应用
《调度集中系统(CTC)/列车调度指挥系统(TDCS)维护手册》正式出版
一种基于负载均衡的Kubernetes调度改进算法
虚拟机实时迁移调度算法
四个养生黄金时段,你抓住了吗
储能技术在电力系统中的应用
直流储能型准Z源光伏并网逆变器
傍晚是交通事故高发时段
分时段预约在PICC门诊维护中的应用与探讨
SVC的RTP封装及其在NS2包调度中的应用研究