基于深度强化学习的电动汽车协调充电算法

2022-05-06 01:08张子霖

网络安全与数据管理 2022年4期

张子霖

(中国科学技术大学自动化系，安徽合肥 230026)

0 引言

电动汽车作为一种新型的分布式移动资源，已成为智能电网发展的重要组成部分[1]，越来越多的研究人员开始关注电动汽车在电网中的社会价值。但电动汽车的日益普及也不可避免地给用户和电网带来了一系列的问题和挑战。例如，大量电动汽车的不协调充电，将导致电网承受不可预测的负荷。因此，如何设计多辆电动汽车在整个工作过程中的协调充电策略，以降低能源成本，保证用户对电动汽车荷电状态的满意度，并将对配电网的影响降到最低，是亟需解决的问题。

近年来，为了解决电动汽车的协调充电问题，出现了许多分布式调度方法。例如，为了最大限度地提高电动汽车用户的便利性，开发了一种分散的基于交替方向乘法器的优化算法[2]。为使电动汽车充电成本最小化，使用电动汽车充电概率模型建立了一个严格凸分散系统形式的多人博弈[3]。但上述研究只关注了单一的目标，这在实际应用中往往是受限制的。针对多目标的协调充电问题，通过多智能体自私协同优化的方案，除了实现用户利益以外，也保证避免变压器过载[4]，但它没有充分考虑状态空间泛化和值函数逼近的影响，导致拟合性能较差，计算开销也不理想。针对该问题，文献[5]考虑采用基于机器学习的方法，其以收敛速度快、计算效率高而被广泛应用于大规模数据的高维问题中。

事实上，基于强化学习的数据驱动方法作为机器学习的一个重要分支，已经广泛应用于能源领域，特别是电动汽车充电问题[6-8]。这是因为基于强化学习的方法可以在缺乏明确的数学模型的情况下模拟顺序决策问题，并进一步获得对环境的精确响应[9]。具体来说，通过建立具有可扩展状态表示的马尔可夫决策过程，以直接决策联合控制整个电动汽车集合[6]。此外，文献[7]考虑到电价的随机性和电动汽车的通勤行为，提出了一种结合电价预测的深度强化学习解决方案来优化实时调度。但以上两种基于强化学习的方法是集中实现的，显然不可能处理大规模动态数据的在线计算。针对电动汽车协调充电的分布式强化学习方法，文献[8]引入了一种分散的基于市场的方法，使多辆电动汽车能够积极参与电力市场。但其中采用的Q-learning 是基于表格的方法，随着问题规模的扩大，会受到维数灾难的影响。因此，有必要寻求一种分布式强化学习算法，在保证问题规模可扩展和计算开销可接受的前提下，解决多目标的电动汽车协调充电问题。

基于上述研究，本文提出了一种基于深度强化学习的电动汽车协调充电分布式算法，重点关注降低用户的充电成本，确保日常行驶中足够的电池荷电状态，并且避免变压器过载。

1 问题描述

考虑一个居民区，当地的配电网连接到一定数目的家庭，每家都有一辆私人使用的电动汽车。在本文研究的协调充电问题中，所有参与信息交互的电动汽车之间存在通信链路，从而形成一个全连通的集合 B={1，2，…，N}。整个时间周期为 G={1，2，…，T}，即时间间隔为 1 h。在时间步 t∈G，电动汽车 n ∈B 获取本地状态信息(即电动汽车的位置和电池荷电状态)和电价信息，同时接收变压器的负载信息和相邻电动汽车的状态信息。然后每辆电动汽车根据上述信息进行局部决策，执行充电或不充电的具体行为。

为了电动汽车用户和电网方的利益，本文研究的电动汽车协调充电问题的目标是找寻最优的充电策略，减少电动汽车的充电总成本，确保足够的电池荷电状态，并避免变压器过载。需要注意的是，用户的通勤行为是不确定的，无法精确建模，因此可将电动汽车的充电行为看成一个随机过程。由于当前的信息足以预测未来的状态，故上述随机过程独立于历史，符合马尔可夫特性。基于以上讨论，将本文研究的多目标协调充电问题表示成一个包含五元素(S，A，P，R，γ)的马尔可夫决策过程，以描述不确定性。其中 S 是状态空间，A 是所有可行的行为，P 是状态转移概率，R 是奖励函数，γ 是折扣因子。各元素的详细介绍如下：

在本文研究的多智能体系统中，参数化的策略函数为：

其中 P 为通过参数 θ 将状态 S 映射到行为 A 上的概率分布函数。最后，根据在Sk状态下执行 Ak后的期望回报来评估充电调度的质量：

其中 Qπθ(St，At)表示真实的行为值函数。接下来需要在状态转移概率 P(S′|S，A)未知的情况下，求解上述马尔可夫决策过程。考虑到不能通过直接求解贝尔曼方程的方式来获得最优解，而无模型的深度强化学习算法可以保证智能体在与环境进行多次交互后获得最优策略，故本文开发了一个深度强化学习算法来求解所制定的马尔可夫决策过程问题。

2 策略方法

本节提出了一种基于神经网络模型的深度强化学习算法，来解决马尔可夫决策过程形式下的多目标电动汽车协调充电问题，其中利用通信神经网络(Communication Neural Network，CommNet)模型实现多辆电动汽车上的分布式计算。在后续讨论和分析中，智能体指的是电动汽车，环境指的是与电动汽车交互的住宅充电场景，并设定T=24。

CommNet 是一种神经网络模型，常与多智能体强化学习结合使用。它可以促成多个智能体之间的合作，使它们根据各自的可观察状态采取行动之前进行信息交互。本文利用CommNet 来帮助连接到局部电网的电动汽车学习协调充电策略，以实现设定的多个目标。在调度过程中，每层网络的所有电动汽车向公共的通信信道发送本地状态信息，同时接收来自其他电动汽车的平均状态信息，即所有电动汽车通过访问此广播通信结构共享状态信息，然后将处理后的信息作为下一层网络的输入。

CommNet 的具体结构如图 1 所示。首先，输入所有电动汽车的状态，通过 T1和T2两个通信步骤映射到各自的行为。在每个通信步骤中，模块m=0，1，2 传播隐藏状态向量并在公共信道上广播由取平均值得到的通信向量然后输出向量这两个向量的具体计算如下：

图1 CommNet 结构

其中 Hm和 Cm为对应的系数矩阵。将上述公式合并，可以得到：

3 深度强化学习框架

在机器学习和模式识别中，有许多经典的方法可用于函数逼近[10]。这里采用 Q 网络，它本质上是一个由三个稠密层组成的神经网络。 Q 网络的输入层完全连接到隐藏层，这层的输出值为：

其中 g 为修正后的线性激活函数，W1、B1分别为权重矩阵和偏置向量。类似地，隐藏层完全连接到输出层，输出值为最终近似到的行为值函数：

其中 W2、B2分别为权重矩阵和偏置向量。

本文利用critic 网络估计行为值函数：

同时，actor 网络根据critic 部分获得的值指导策略函数的参数更新。整个算法的网络结构如图2 所示。

图2 完整的算法网络图

值得注意的是，本算法在迭代过程中运用了两个关键技术，一个是用于提高算法稳定性的目标网络，即引入目标 actor 网络和目标 critic 网络来固定参数，并生成与标签数据等价的目标值。另一个关键技术是经验回放，以存储采样的方式打破数据之间的相关性，避免连续一段时间内同一方向的梯度下降，从而保证算法的收敛性[11-12]。

完整的基于CommNet 的深度强化学习算法的伪代码如下：

4 试验验证

本节给出了仿真结果，以验证所提出的基于CommNet 的深度强化学习算法的性能。代码基于Python 和 TensorFlow。

4.1 仿真环境设置

通过调查上海市的私家电动汽车用户在不同时刻的出行情况，模拟状态向量中的电动汽车位置变量。每辆电动汽车每天平均行驶40 km。

假设研究的每个家庭都有一辆电动汽车。电动汽车的电池容量为30 kW·h，平均能源消耗量为0.15 kW·h/km，电动汽车平均充电率为10 kW·h/h[13-14]。

在实现所提出的基于CommNet 的深度强化学习算法时，为了稳定学习阶段，使用Xavier 初始化器初始化由全连接层组成的 CommNet 的权值。另外，隐藏层节点数和通信信道节点数均设置为128。在 critic 网络中，输入单元数等于状态向量、特征向量与行为向量的维数之和，输出单元数等于电动汽车的总数量。在训练过程中，折扣因子设置为0.99，critic 网络和 actor 网络的学习率设置为 0.1，批量采样对的数目设为 8，迭代次数设为 2 000。在 CPU 为i3-8100 的计算机上，训练过程大约在 1 250 次迭代后收敛，训练时间为10 s 左右。

4.2 性能评估

4.2.1 多目标协调充电

首先评估包含3 辆电动汽车的小规模多智能体系统的性能。在某住宅的局部电网覆盖下，变压器为附近的 3 户家庭提供 30 kW·h 的电力。假设仿真的每个阶段都在一天内进行，时间间隔为1 h。

图3 显示了总奖励值随迭代次数的收敛情况。从中可看出奖励值在1 500 次迭代左右开始收敛。下面验证本文提出的方法分别针对用户和电网的相关目标的实现效果。

图3 所有电动汽车的总奖励值

一方面，对于用户，图 4(a)～图 4(c)依次显示了在算法达到收敛后的某一天内，每辆电动汽车观察到的实时电价和电动汽车位置，以及各自的行为决策曲线。从图中可以看出，如果电动汽车到达目的地时正处于谷时电价时段，且有足够的停车时长使荷电状态充至较饱和状态，则用户的充电意愿较强烈，如图 4(b)中 1～4 时、图 4(c)中 3～5 时显示的情况；反之，若电动汽车在区域的停驻时间较短，且正处于峰时电价时段，考虑到用户充电成本和停车时长的敏感程度，此时用户的充电概率相对较低，如图4(a)中 14～16 时、图 4(b)中 16～18 时的情况。

图4 各电动汽车的位置、电价与充电行为

另一方面，对于电网，图 5(a)～5(c)依次显示了在算法达到收敛后的某一天内，每辆电动汽车接收到的变压器负载以及各自的行为决策曲线。如果变压器离满载还有足够的空间，则用户的充电意愿较强烈，如图 5(a)中 11 ～14 时、图 5(c)中 13 ～18 时的情况；反之，若变压器负载较高，那么此时用户的充电概率相对较低，如图 5(b)中 4 ～7 时、图 5(c)中19～21 时显示的情况。

图5 各电动汽车的变压器负载与充电行为

为了表明所提方法的优势，将其与Q-learning进行对比，结果如图6 所示。可以看出，后者的总奖励值收敛速度比CommNet 方法慢很多，而且整体值也偏低。

图6 CommNet 和 Q-learning 的奖励值收敛对比

通过以上讨论，可以充分说明本文提出的基于DRL 的分布式算法是解决带有多个目标的协调电动汽车充电问题的有效方法。

4.2.2 系统可扩展性

为了验证所提方法的可扩展性，将电动汽车的数量从 3 辆线性扩展到 30 辆。图 7 显示了随着电动汽车数量的增加，算法收敛所需的迭代次数。可以明显看出迭代次数呈现线性增长而非指数增长趋势，说明了该算法在处理大规模多智能体系统时的有效性。

图7 电动汽车数量与算法收敛所需的迭代次数

接下来将基于CommNet 的分布式方法与以下两种集中式基准方法做比较，进一步说明将CommNet网络作为策略方案的性能优势。

随机策略：在该模型中，每辆电动汽车有50%的概率不考虑系统状态，即其他电动汽车的状态，进行充电动作。

贪婪策略：它是最具代表性的一种传统策略，每个状态有ε 的概率进行探索(即随机选取充或不充)，而剩下的 1-ε 的概率则进行开发(选取当前状态下效用值较大的那个动作)[15]。

对于上述三种算法，在相同的驾驶模式下，设置相同的目标，模拟了2 000 次的电动汽车协调充电训练来定义平均性能。为此，评估了在 3 辆、10 辆和30 辆电动汽车的情况下，不同方法对奖励值收敛情况的影响，结果分别如图 8(a)～8(c)所示。可以看出，在三条曲线中，贪婪策略对应的曲线在训练初期波动较大，最终发散，未能收敛。而随机策略的训练曲线缓慢衰减，且对应的奖励值远小于CommNet方法下的奖励值。以上结果表明，基于 CommNet 的算法在收敛稳定性方面比其他两种集中式基准方法更加突出。此外，随着电动汽车数目的不断增多，所提算法的奖励值能在线性迭代次数内达到收敛。

图8 不同数量电动汽车下三种策略的奖励值收敛情况

综上所述，本文提出的基于CommNet 的深度强化学习方法最终学习到了能达到预定多目标的充电策略，并取得了更好的性能。因此，它能有效地应用于多电动汽车协调充电系统，对电动汽车的动态充电数据进行实时处理。

5 结论

本文针对包含多目标的多电动汽车协调充电问题，提出了一种分布式的多智能体深度强化学习方法。该方法的主要创新之处在于：首先，分别从用户和电网角度考虑，同时实现多个目标；其次，调度策略采用分布式方法，利用多辆电动汽车的局部信息，借助策略网络进行分布式计算以达成全局目标。通过数据密集仿真的性能评估，验证了所提算法的有效性和可扩展性。在未来，这项工作可以沿着不同的路线进一步扩展。