基于PSO-DDPG算法的光储充电站实时控制策略研究

2023-09-08 08:52:24张帅刘界江苏雨婷

机电信息 2023年17期

张帅刘界江苏雨婷

摘要：“双碳”背景下，光储充电站逐渐成为未来充电站的一种主流形式。为提高光储充电站的经济效益并降低二氧化碳排放，提出了一种基于改进深度强化学习的光储充电站实时控制策略。首先，建立以碳排放最小与运行成本最低为目标的优化模型并将其转换为马尔可夫决策过程；其次，提出了一种基于经验继承机制的粒子群优化-深度确定性策略梯度算法（Particle Swarm Optimization-Deep Deterministic Policy Gradient，PSO-DDPG）；最后，考虑动态碳排放因子开展算例分析，验证了所提PSO-DDPG策略的有效性。

关键词：光储充电站；实时控制策略；深度强化学习；粒子群优化算法；深度确定性策略梯度

中图分类号：U469.72；TM73 文献标志码：A 文章编号：1671-0797（2023）17-0005-04

DOI：10.19514/j.cnki.cn32-1628/tm.2023.17.002

0 引言

随着电动汽车（Electric Vehicle，EV）保有量的快速增长，公共充电设施得到了越来越多的关注[1]。常规的电动汽车充电站（Charging Station，CS）仅通过向电网购电、向电动汽车用户售电来实现盈利，但其充电负荷可调节性差，晚间充电负荷与居民负荷叠加易形成“峰上加峰”现象[2-3]。在此背景下，一种在站内配置了光伏（Photovoltaic，PV）与储能系统（Energy Storage System，ESS）的光储充电站得到了发展。光伏系统的加入提高了充电站的能源自给率与碳减排效益，而储能系统的调节作用起到了平滑配网（Distribution Network，DN）供电功率和削峰填谷的作用。然而，光伏出力受多重因素影响，具有实时波动的特点，而电动汽车的随机充电行为更加大了对光储充电站实时调度的难度[4-5]。因此，本文提出了一种融合启发式算法与深度强化学习算法的光储充电站实时控制策略，通过粒子群算法（Particle Swarm Optimization，PSO）拓展深度确定性策略梯度函数（Deep Deterministic Policy Gradient，DDPG）的探索性能，提高控制策略的求解质量与实时性能。

1 光储充电站能量实时控制策略

为充分发挥光储充电站的节能减排效益，选取充电站碳排放量最小与运行成本最低为优化目标，建立光储充电站能量调度模型。此外，为提高所建立优化模型对复杂工况的实时应对性能，本文进一步将该优化模型建立为马尔可夫决策过程（Markov Decision Process，MDP）[6]。

1.1 光储充电站能量调度模型

1.1.1 目标函数

1）碳排放最小。为充分消纳光伏，提高充电站的能源自给率与碳减排效益，本文考虑电网动态二氧化碳排放因子，将充电站碳排放最小作为优化目标之一。

式中：γ 为电网在不同时间段的碳排放系数；Pt DN为光储充电站向配电网的购电功率；T为一天总时间段；Δt为时间步长。

2）运行成本最低。光储充电站通过能量管理系统对站内能量流动进行控制，从而降低整站的运行成本，其中运行成本可以分为向电网购电成本以及储能损耗成本两部分：

式中：C1与C2为购电成本以及储能损耗成本；γt TOU为电网工业分时电价（Time of Use，TOU）；Pt DN为电网向光储充电站提供的有功功率大小；γESS为由储能充放电带来的损耗系数；Pt ESS为储能系统的充放电功率，充电时为正，放电时为负。

1.1.2 约束条件

1）充電站功率平衡：

式中：Pt EV为t时刻电动汽车充电负荷；Pt PV为光伏出力。

上式中等号左侧代表受电端，右侧代表送电端。

2）储能运行约束：

式中：St ESS与St-1 ESS分别为储能系统t时刻与t-1时刻的电池荷电状态（State of Charge，SOC）；Pt-1 ESS为t-1时刻储能系统充放电功率；EESS为储能电池容量；Smin ESS与Smax ESS分别为储能系统最小与最大SOC。

3）电网供电功率约束：

式中：Ptr与PAD分别为充电站所配置的变压器与AC/DC模块的额定容量[7]。

4）电动汽车充电约束：

式中：Si set与Si end分别为用户i到站设置的期望SOC与离站时的实际车辆SOC；

EV为电动汽车用户集合。

1.2 基于MDP的能量实时控制策略

为提高所提策略的实时性能，本文将所建立的优化模型转换为马尔可夫决策过程，其核心思想如图1所示。在训练过程中，智能体从环境中捕捉实时状态st，依据当前策略做出控制动作at从而改变当前环境，而后通过奖励rt给予智能体实时反馈，引导智能体获得更高的奖励值以及更优越的控制策略。

1）状态st代表MDP模型中环境的实时信息。本文从电网、光伏、储能、用户四个角度构建智能体的状态空间，状态st为：

2）动作at是针对环境状态st所做出的控制决策。本文将储能充放电功率以及用户充电桩功率作为控制动作，即：

式中：Pi，t CH为用户i所接入充电桩的输出功率；χi，t为充电桩开关控制变量：

1，充电状态（13）

3）奖励rt是环境对智能体动作at的及时反馈。依据上文建立的优化模型，本文设计奖励rt包含二氧化碳排放成本C以及运行成本两项，其中运行成本包含购电成本C1与储能损耗成本C2：

式中：π为二氧化碳排放成本系数。

2 基于PSO-DDPG的求解算法

DDPG是一种基于Actor-Critic架构的深度强化学习算法，其在连续动作空间问题上具有良好的学习性能。然而，DDPG算法训练过程中的梯度方向固定，仅与所抽取的mini-batch中的样本有关，这导致算法缺乏探索性，最终训练的智能体容易陷入局部最优。为此，本文提出了一种基于样本继承机制的PSO-DDPG算法，通过引入粒子群算法提高DDPG算法的探索性能。

2.1 PSO算法基本原理

作为一种经典的群体智能算法，PSO算法通过模拟自然界的鸟群捕食来实现优化问题的求解。具体而言，粒子群中的所有粒子都被分配了速度与位置，通过粒子个体在解空间单独寻优Pi，k best，进而求得全局最优解Gk best。在迭代过程中，粒子的位置xi，k与速度vi，k可由下式更新：

式中：ω为惯性因子；c1与c2分别为代表个体学习与群体学习的加速因子；ξ1与ξ2为[0，1]区间的随机数，赋予了PSO算法空间探索能力。

2.2 DDPG算法基本原理

DDPG算法通过Actor网络μ（s|θμ）、目标Actor网络μ′（s|θμ′）、Critic网络Q（s，a|θQ）与目标Critic网络Q′（s，a|θQ′）实现智能体的训练。在训练过程中，Critic网络通过损失函数LQ更新网络参数：

式中：Nb为mini-batch容量；yj为目标Q值；sj、aj、rj、sj+1分别为训练样本（sj，aj，rj，sj+1）中的状态、动作、奖励与下一时刻状态；γ为折扣率。

Actor网络基于确定性策略梯度损失函数[Δ]J更新网络参数：

式中：[Δ]aQ（sj，aj|θQ）表示Critic网络对决策动作求梯度；[Δ] μ（sj|θμ）表示Actor网络对网络参数求梯度。

而后，两个目标网络采用软更新方式更新网络参数，具体如式（21）所示：

式中：τ为软更新系数；θμ，k与θμ′，k分别为Actor与目标Actor网络在第k回合的网络参数；θQ，k与θQ′，k分别为Critic与目标Critic网络在第k回合的网络参数。

2.3 PSO-DDPG算法訓练流程

为解决DDPG算法探索性能不足的局限，本文提出了一种PSO-DDPG算法，其训练流程如图2所示。首先，基于PSO算法对光储充电站随机场景进行求解，将满足精度要求的全局最优解Gk best对应的样本存入经验池中，直至达到PSO模块的最大回合NP。其次，运行DDPG算法模块，智能体观测充电站状态st，做出对储能系统与充电桩的控制动作at，在得到奖励后将样本存入经验池。然后，从PSO与DDPG的混合经验池中随机抽取mini-batch样本（sj，aj，rj，sj+1）更新Critic与Actor，并进一步软更新两个目标网络。最后，重复DDPG的训练流程直至达到最大回合ND。这样，探索性能优越的PSO算法通过经验池将样本继承给DDPG智能体，增强了DDPG的探索性能与全局寻优能力。

3 算例分析

3.1 参数设置

为了便于算例的量化分析，对光储充电站设定如下条件：1）储能容量取300 kW·h，额定充放电功率120 kW，光伏容量200 kW，站内配置了12个60 kW快充桩；2）储能损耗系数取0.06元/（kW·h），电网不同时段碳排放系数如图3所示[7]，二氧化碳排放成本系数为0.04元/kg[8]。

3.2 训练过程分析

设PSO算法的种群规模为100，最大迭代次数为200，惯性因子取0.8，个体与群体加速因子均取1.8。此外，设DDPG算法折扣率为0.99，学习率为0.000 5，mini-batch容量为100，经验池容量为12 000，最大训练次数为1 000，可得所提PSO-DDPG算法的训练曲线如图4所示。从图中可见，智能体训练奖励曲线快速上升，并在300回合左右进入稳定范围，奖励曲线最终在-6.96左右小幅振荡，证明了所提算法能够通过PSO经验继承机制快速帮助智能体探索训练环境。

3.3 策略有效性分析

光储充电站在无序与有序场景下的功率曲线如图5所示，无序与有序场景的成本对比如表1所示。

由图5（a）可见，无序场景的功率控制逻辑是当有充电负荷时先由光伏供电，光伏不足时由储能系统供电，而站内光储无法满足充电需求则由电网供电，这导致充电站未完全发挥光储的协调互补功能，全天向电网购电918.30 kW·h，花费662.78元。而所提策略充分发挥了储能与充电桩的灵活调节能力，不仅削减了最大充电负荷，同时购电费用仅为499.04元，相较于前者降低了24.71%。值得注意的是，所提策略的储能损耗成本要高于无序场景，这主要是由于对储能更频繁的调度，尽管如此，相较于购电成本的降低，储能损耗增加21.94元仍是可以接受的。以上结果验证了所提PSO-DDPG策略能够更好地发挥储能的灵活调整作用，利用峰谷电价降低光储充电站的整体运行成本。

4 结束语

在“双碳”背景下，光伏等分布式可再生能源与电动汽车的协调发展无疑是大势所趋。针对光储充电站，本文提出了一种基于PSO改进深度强化学习的算法，基于经验继承机制提高DDPG智能体的探索性能与求解能力。通过算例结果发现，本文所提PSO-DDPG策略能够有效完成光储充电站的实时能量控制，相较于无序场景降低了24.71%的购电成本，并能够降低二氧化碳排放。下一步将考虑电动汽车集群的V2G能力，进一步优化所提策略。

[参考文献]

[1] 徐昌宝，丁健，宋宏剑，等.计及电能质量约束的充电设施布局优化方法[J].电气传动，2022，52（22）：51-59.

[2] 蒋林洳，龙羿，李兴源，等.基于实测数据的多类型电动汽车充电负荷分析[J].电测与仪表，2023，60（1）：36-41.

[3] DABBAGHJAMANESH M，MOEINI A，KAVOUSI-FARD A.Reinforcement Learning-Based Load Forecasting of Electric Vehicle Charging Station Using Q-Learning Technique[J].IEEE Transactions on Industrial Informatics，2021，17（6）：4229-4237.

[4] KABIR M E，ASSI C，TUSHAR M H K，et al.Optimal Scheduling of EV Charging at a Solar Power-Based Charging Station[J].IEEE Systems Journal，2020，14（3）：4221-4231.

[5] 薛贵挺，汪柳君，刘哲，等.考虑碳排放的光储充一体站日前运行策略[J].电力系统保护与控制，2022，50（7）：103-110.

[6] 倪爽，崔承刚，杨宁，等.基于深度强化学习的配电网多时间尺度在线无功优化[J].电力系统自动化，2021，45（10）：77-85.

[7] 付张杰，王育飞，薛花，等.基于NSGA-Ⅲ与模糊聚类的光储式充电站储能系统优化运行方法[J].电力建设，2021，42（3）：27-34.

[8] 赵乃新，顾文波，美合日阿依·穆太力普.考虑低碳经济运行的四联供综合能源系统优化调度[J].热力发电，2023，52（4）：54-62.

收稿日期：2023-05-18

作者简介：张帅（1995—），女，湖北人，助理工程师，研究方向：电力系统及其自动化。