范培潇,杨军,肖金星,徐冰雁,叶影,李勇汇,李蕊
(1.武汉大学电气与自动化学院,武汉市 430072;2.国网上海市电力公司,上海市 200122)
微电网能够解决形式多样的分布式电源灵活、高效并网的问题,实现对负荷多种能源形式的高可靠供给,是实现主动式配电网的有效途径。
微电网既可以运行在并网模式,也可以运行在孤岛模式;在孤岛模式下,其频率稳定是保障微电网安全运行的关键。文献[1]针对光柴储孤岛微电网提出一种鲁棒自适应协调控制,通过对光伏系统输出功率精细化设定,并将功率输出参考值反馈到逆变器功率控制环中,使其能够根据自身容量响应微电网频率偏差。文献[2]提出了一种基于PI 控制的分布式二次控制技术,可以根据微电网的运行情况调整PI 控制器系数,大大提高控制效果和全局可控性,并保证了功率的均分。文献[3]提出了一种利用模糊逻辑表对孤岛微电网发电机组模型进行负荷频率控制的方法,该方法在暂态性能方面优于PI 控制器。
储能模块是微电网负荷频率控制模型中的重要组成部分,而电动汽车(electric-vehicle,EV)凭借其节能环保与灵活性,成为了一种新式的分布式储能单元[4-6]。通过车辆到电网(vehicle-to-grid,V2G)技术,电动汽车能够为孤岛微电网的频率提供功率支撑,但其移动性与用户随机性也给孤岛微电网的调频带来了新的挑战[7]。文献[8]建立了包含微型燃气轮机、电动汽车及约束条件的孤岛微电网负荷频率控制(load frequency control,LFC)模型,但文中电动汽车充电站模型的输出功率增量约束为固定值;而文献[9]考虑了用户出行需求的随机性,并对充电站中的电动汽车进行了荷电状态(state of charge,SOC)约束,但没有从电动汽车单体与集群的角度对随机输出功率增量进行细化建模。而实际情况中,充电站的功率增量约束会受到用户充电行为随机性以及电动汽车集群特性的影响。此外,随着具有高比例分布式新能源的接入,上述微电网中的传统控制器在面对孤岛微电网中的大量随机性扰动、系统参数和结构变化等复杂工况时,其控制性能有待进一步提升[10]。
因此,微电网控制中也出现了智能算法[11-12],文献[13]研究了基于Q(λ)学习算法的集控式微电网控制器,在微电网负荷频率控制方面具有较好的控制效果。文献[14]提出了一种基于平均报酬模型的多步R(λ)学习算法的ACG 控制器,能够实现对微电网的频率调整。文献[15]提出了基于多智能体相关均衡强化学习(CEQ(λ))的微电网智能发电控制方法,有着比PI 控制、单智能体R(λ)控制更好的学习能力,显著增强孤岛微电网的频率稳定性。但是,上述LFC 模型均没有考虑EV的接入,且没有将EV 输出功率增量作为状态空间,即上述控制器的设计思路、收敛特性与动态性能也均存在着进一步优化的空间。
综上,本文提出基于深度Q 学习的含电动汽车孤岛微电网负荷频率控制策略:1)分析用户充电行为的随机性,通过电动汽车的充放电约束边界构建出电动汽车的SOC 模型,以此划分出单体EV的各类充电状态,并考虑单体EV的电池性能以及充电站内的EV 数量等参数,设计了随机输出功率增量约束下的电动汽车频率控制模型,从而建立一个包含各类分布式电源、电动汽车及其随机输出功率增量约束条件的孤岛微电网LFC 模型。2)将卷积神经网络和Q 学习算法相结合作为控制器算法,采用经验回放机制,固定目标Q 值网络,并缩小奖赏值范围[16],能够很好地应对含有电动汽车的孤岛微电网负荷频率控制问题。3)在设计了基于DQN的频率控制器后,依次完成了状态空间、动作空间以及奖励函数的定义,并通过调节得到了最优超参数。本文提出的DQN 控制器收敛特性和模型适应性好,能适应孤岛微电网中强随机性干扰和网络拓扑参数改变等复杂工况。
微型燃气轮机具有起动速度快、耐用、效率高等特点,在微电网中得到了极为广泛的应用。因此本文将其作为主调频机组,构建了微型燃气轮机(microturbines,MT)的LFC 模型,其连续时间传递函数模型如图1 所示。
图1 微型燃气轮机负荷频率控制响应模型Fig.1 Load frequency control response model of micro gas turbine
图1 表现了MT 输出功率增量跟随负荷频率控制信号变化的过程,包含了调速器、燃料系统以及涡轮机。其中,燃料系统和涡轮机的等值模型均采用一阶惯性环节来表示[17]。图中:Δf为频率偏差;ΔuMT为控制器发送至燃气轮机的LFC 信号;ΔXMT是燃料系统的阀门位置变化的增量;Tf、Tt分别为燃料系统和涡轮机的时间常数;R为调速器系数;±δmt为功率爬坡约束的上下限;±μmt为功率增量约束的上下限;ΔPMT是燃气轮机功率输出的增量。
当ΔPMT=0 时,MT的输出功率等于额定功率;当ΔPMT>0 时,MT的输出功率大于额定功率;当ΔPMT<0 时,MT的输出功率小于额定功率。
电动汽车在微电网调控中作为储能与调频装置,输出功率增量也具有限幅约束。而本节将考虑到用户充电行为的随机性,即车辆电池的性能参数、车辆电池所处的充电状态以及充电站的车辆数量会发生变化,因此充电站的等效储能容量也会发生变化,从而影响充电站在调频过程中的可控功率。本文接下来将对上述3 种因素进行分别讨论。
首先,车辆的电池性能将影响到充电时长,进而影响到系统的可控功率,但是考虑到固定地理位置充电站内的车辆品牌以及数量在一定时间内相对固定,可以利用平均值来简化计算过程的复杂度,因此,可先得到电池平均容量C以及平均初始充电状态Si,再通过充电站的平均额定充电功率,从而得到充电站内的单体EV 平均充电时长Tav。
其次,对于车辆电池所处的充电状态,本文根据文献[9]建立了EV 充放电约束模型,车站里的电动汽车SOC的范围为[Smin,Smax],并且有足够的Sm来确保未来电动汽车离开充电站后的行驶里程。因此,EV 充放电约束边界如图2 所示。
图2 电动汽车的充放电约束边界Fig.2 Boundary of charging and discharging constraints of electric vehicle
图2 中:实心红线代表充电边界;绿色虚线代表放电边界;实蓝线代表强制充电边界,即电动汽车在离开充电站前将进行强制充电,以确保其有足够的Sm来完成拔掉电源后的行驶里程。由此,可以将不同车辆所处的充电状态进行分类,从而得到控制器指令在充电站内的分布如图3 所示。
图3 控制指令在充电站内的分布Fig.3 Distribution of control commands in charging stations
图4 单体EV的输出功率增量约束Fig.4 Output power increment constraint of single EV
最后,对于充电站内的车辆数量,本文设置充电站最大容量为nEV,当单个EV 满足时位于充电站内,不满足时则不在充电站内。因此,可由单个EV的充电功率约束得到:集群EV的充电功率ΔPEV及其上、下限约束如下。
综上所述,随机容量约束下的电动汽车频率控制模型如图5 所示。图中:ΔuE是控制器发送至电动汽车充电站的LFC 信号;Te为电动汽车充电站的时间常数;±μe为车载电池逆变器的容量约束,不随时间发生变化;±δe为电动汽车充电站输出功率增量的最大约束,而实时上、下限约束与受到充电站内车辆数量nEV、单体EV的SOC 容量以及所处的充放电状态等因素的影响;Emax为最大的可控容量;Emin为最小的可控容量;ΔPE为电动汽车充电站的输出功率增量。
图5 随机功率增量约束下的电动汽车频率控制模型Fig.5 Frequency control model of electric vehicle under random power increment constraint
综上所述,本文所构建的微电网负荷频率控制模型如图6 所示,风力发电与光伏发电共同作为不可控(随机)电源[19],与负载一同向系统输入扰动功率,而微型燃气轮机与电动汽车充放电站一起作为微电网的调频机组。图中:ΔPL是负荷扰动功率;ΔPw是风电扰动功率;ΔPpv是光伏扰动功率;ΔPw与ΔPpv组成了随机电源扰动功率ΔPS;而ΔPS与ΔPL共同组成了总扰动功率ΔPD;ΔPMT是微型燃气轮机的输出功率增量;ΔPE是EV 充电站的输出功率增量;Ht是微电网的惯性常量。
图6 含电动汽车的微电网负荷频率控制模型Fig.6 Load frequency control model of microgrid with electric vehicle
本文选择DQN 作为微电网控制器的算法模型,其主要流程如图7 所示[20]。
图7 深度Q 学习的主要流程Fig.7 The main process of deep Q learning
本文在考虑MT与EV 输出功率增量限幅约束的情况下,提出一种基于深度Q 学习的LFC 控制器结构,如图8 所示。
图8 基于DQN的微电网LFC 控制器结构Fig.8 Microgrid LFC controller structure based on DQN
该控制器由协调控制层和频率控制层两层组成。协调控制层首先根据频率偏差Δf与充电功率的实时上、下限约束与,向频率控制层提供实时LFC 信号Δu,进而对MT 和EV的输出功率进行控制,以快速抑制系统频率振荡。同时,该控制器的设计流程可以分为:状态空间与动作空间的定义、奖励函数的定义、超参数的选取[21]。
如上所述,本文微电网负荷频率控制系统的状态集为系统实时的频率偏差ΔF(t)与充电功率的上、下限约束与,故可定义状态空间为:
而DQN 控制器的联合动作集A,即控制器的输出,应为联合调度指令(ΔuMT,ΔuE)的实时集合,故可定义动作空间为:
同时,由于Q 学习算法无法对连续信号处理,因此需要对上述动作空间离散化处理,且为防止离散化程度过高引起的“维数灾”问题以及离散化程度不足导致频率品质降低,应合理地安排状态空间离散集S与控制动作集A的离散化程度[14]。
但是我国暂未对含多种分布式电源的微电网频率范围制定标准,因此本文选取较为保守的电力安全工作规程原则,即电力系统在正常运行状态下的频率应当在(50±0.2)Hz的范围之内[15],并在此基础上考虑一定的调节死区,即可设置实时的频率偏差ΔF(t)的离散集为(-∞,-0.2),[ -0.2,-0.15),[ -0.15,-0.10),[ -0.10,-0.05),[ -0.05,0.05],(0.05,0.10],(0.10,0.15],(0.15,0.2],(0.2,+∞)。
此外,根据电动车最大功率增量限制±0.16 pu,并根据实际情况可设置实时的充电功率的上、下限约束与的离散集分为:[0,0.4),[0.4,0.8),[0.8,0.12),[0.12,0.16],以及[ -0.16,-0.12],(-0.12,-0.08],(-0.08,-0.04],(-0.04,0]。
进而,可同理设置AMT和AEV分别为微型燃气轮机与电动汽车充电站的离散输出动作集,并且令AMT=AEV=(-0.010,-0.005,-0.003,-0.001,0,0.001,0.003,0.005,0.010)。
根据上述微电网频率的考核标准,能够设计出奖励函数rf为:
其中,当|Δf|处于调节死区[ -0.05,0.05] 时,频率满足正常运行的最小误差要求,故此时赋予DQN 控制器最大奖励值为0;当|Δf|分别处于正常控制区(0.05,0.10]与(0.10,0.15]、辅助控制区(0.15,0.2]、紧急控制区(0.2,+∞) 时,控制器将会获得相应的负奖励,即惩罚值;μ1、μ2、μ3为与μ4各控制区域奖励函数对应的权值,确定奖励函数时应该注意,过大的奖励值会影响学习的收敛速度,因此,本文通过大量的仿真研究,分别取μ1、μ2、μ3与μ4为1、5、10与20。
在深度强化学习中,超参数是在训练之前就设置的参数。通常情况下,需要对超参数进行合理的选择,给智能体提供一组最优超参数,以提高学习的性能和效果。折扣因子γ越大,智能体就越重视以往经验,能够放弃当前利益而追求全局利益。但是,若折扣因子过大,也会导致智能体的训练无法收敛。而学习率α越大,收敛速度越快,但稳定性越差;α越小,则稳定性越好,但收敛速度越慢[22]。
因此,在保证智能体训练能够收敛的前提下,通过测算与验证,选取折扣因子γ为0.9,学习率α为0.001,并设置迭代次数为500 次,且每次500 步。
此外,用于储存策略集的深度神经网络也是超参数调节的重点。对于网络结构的调节,可从网络类型与网络深度两个方面进行讨论。
1)网络类型的选择主要取决于状态空间。若状态空间为一维向量,智能体应选取全连接网络;若状态空间为二维信息(例如图像、视频),则应选取卷积神经网络。
2)网络深度决定了神经网络的泛化能力,其包含神经网络的层数h与每层的神经元数量u。
而本文微电网的负荷频率控制对象是一维向量问题,因此,选取全连接层即能满足储存策略集的需求。同时,设置6 组(h,u)的参数设置来进行收敛测试,学习结果如表1 所示。
表1 不同参数设置下的收敛测试结果Table 1 Convergence test results under different parameters
综上所述,本文为智能体选取的一组超参数为:折扣因子γ=0.9、学习率α=0.01 以及h=5,u=50的全连接层网络结构,并设置迭代次数为500 次,每次500 步,且步长为0.1 s。
本文的孤岛微电网模型采用Simulink 平台搭建,如图9 所示,该微电网由母线、风力涡轮机、光伏阵列、微型燃气轮机、电动汽车和负荷组成。
图9 含电动汽车的孤岛微电网LFC 结构Fig.9 LFC structure of island microgrid with electric vehicles
此外,本文所构建的微电网负荷频率控制模型的系统参数如表2 所示。
表2 微电网LFC 模型的系统参数Table 2 System parameters of microgrid LFC model
在深度强化学习中,各控制器在使用之前均需要接受一段随机试错的学习过程,称为预学习阶段。在预学习的初期阶段,控制器尚未积累任何经验,不具备智能控制能力,只有在接受各种状态动作后,才能得到最优值函数Q网络Qφ(s,a)。因此,本文设置了由不同幅值、不同类型函数叠加而成的负荷扰动来对控制器进行训练。同时,根据某电动汽车充电站输出功率增量变化数据设置了一组随时间发生概率随机变化的约束函数。截取上述各函数在某次迭代中的过程,如图10 所示。
图10 预学习阶段的随机输入函数Fig.10 Random perturbation function in the pre-learning phase
智能体的预学习过程如图11 所示。图11 显示,预学习过程在迭代180 次左右便基本收敛了,并在471次完成并停止了训练,且在预学习阶段结束后,平均奖励值为-10.195,最终奖励值为-0.407 54。可见具有较高的在线学习能力,收敛特性较好,此时控制器能够完成接下来的仿真。
图11 智能体的预学习过程Fig.11 Pre-learning process of agent
为了更好地体现出深度Q 学习控制器的性能,本节将引入传统PID 控制与FUZZY 控制作为对比,分析三者在强随机扰动下的控制性能。
如前文所述,假设初始状态为稳态的孤岛微电网受到的随机扰动由负载扰动与随机电源扰动组成:在t=35 s 时施加-0.03 pu、在t=88 s 时施加-0.03 pu的负载阶跃扰动;而风电与光伏输出功率扰动的数据来源于文献[23],由此可得到仿真结果如图12—14 所示。
图12 孤岛微电网受到的强随机扰动Fig.12 Strong random disturbance to island microgrid
图13 强随机扰动下的微电网频率偏差Fig.13 Frequency deviation of microgridunder strong random disturbance
图14 强随机扰动下的MT、EV 输出功率增量Fig.14 Output power increment of MT and EV under strong random disturbance
同时,可以根据上述仿真结果,以频率偏差的绝对值|Δf|为考核对象,设置频率偏差考核优秀率阀限值为±0.05 Hz,统计出强随机扰动下的对照试验结果,如表3 所示。
表3 强随机扰动下的频率偏差仿真结果Table 3 Simulation results under strong random disturbance
由图13与表3 分析可见,将本文所设计的DQN控制器用于孤岛微电网的频率控制时,微电网在受到随机扰动与负载扰动时的频率偏差可以控制在0.05 Hz的范围内,达到100%的优秀率,调节时间也明显短于传统控制器。而在传统PI、FUZZY 控制下,频率偏差最大达到了0.191 8 Hz与0.061 1 Hz,特别传统 PI 控制,频率调控的优秀率仅达到62.5%。这一仿真结果表明了DQN 控制器具备在线学习和经验回放能力,在应对强随机性扰动时,有更好的稳定性和鲁棒性,调节时间短、对扰动响应快。
前文针对孤岛微电网在受到随机性扰动的工况进行了较为全面的仿真设计,而本节将针对孤岛微电网系统参数和结构变化的复杂工况进行仿真设计[24]:在3.3 节的仿真基础上,假设80 s 时EV 调频机组突然因故障失去调节能力,对比PI、FUZZY与DQN 三组控制器的频率调节性能,结果如图15 所示。同时,与前文同理,以频率偏差的绝对值|Δf|为考核对象,可统计出EV 调频机组故障情况下的对照试验结果如表4 所示。
图15 调频机组故障情况下的微电网频率偏差Fig.15 Frequency deviation of microgrid under fault condition of FM unit
由图15、表4 分析可见,在EV 调频机组故障退出运行的情况下,PI与FUZZY 控制器的控制性能受到较大影响,最大频率偏差达到0.287 3 Hz与0.087 9 Hz,其中PID 控制器下的频率偏差已经远远超过了电网频率的合格标准(|Δf| <0.2 Hz),优秀率仅达到58.2%。而具备在线学习和自适应特性的DQN 控制器调控下的微电网系统,仍能较好地保持频率的稳定运行,频率偏差依然能控制在0.05 Hz的范围内,达到100%的优秀率。这一仿真结果表明了DQN 控制器将电动汽车随机输出功率增量作为状态空间量之一,能够更好地适应系统参数和结构变化的复杂运行工况。
表4 调频机组故障情况下的频率偏差仿真结果Table 4 Simulation results under fault condition of FM unit
本文提出了一种基于深度Q 学习的含电动汽车孤岛微电网负荷频率控制策略。与传统PI 控制、FUZZY 控制相比,DQN 控制具备在线学习和经验回放能力,更能有效应对强随机性扰动、系统参数和结构变化等复杂运行工况。当施加随机扰动后,在调节速度与效果上均明显优于传统控制器,同时,在面对调频机组失去调节能力的严重事故时,依然能保证系统频率的平稳,显著增强了孤岛微电网的鲁棒性和适应性。与传统智能控制方法相比,本文所提出的DQN 控制器将电动汽车随机输出功率增量作为状态空间量之一,很好地适应了电动汽车充电站所具有的用户随机性,更适用于含电动汽车的孤岛微电网的负荷频率控制。而对于结构更为复杂、体量更大的互联多微网系统,本文的DQN 控制器将难以满足多个微网之间的协调控制问题,后续工作将着力对此方向进行深入分析研究。