俞 虹,唐诚旋,蒋群群,陈珏伊,张 秀
(1.中国南方电网有限责任公司贵阳供电局,贵州贵阳 550002;2.中国南方电网有限责任公司贵阳金阳供电局,贵州贵阳 550081;3.中国南方电网有限责任公司贵阳开阳供电局,贵州开阳 550300)
电力系统断电后快速恢复至关重要,合理的电力应急电源调度是灾后电力系统快速恢复的重要环节[1-2]。目前常应用的电力系统应急物资调度算法主要有基于节点综合权值的电力应急物资调度算法[3]和基于改进飞蛾扑火算法求解多需求点的应急物资调度算法[4]。然而传统调度算法常因动态电力信息的影响而存在调度时间不精准的问题。针对这一问题,该研究提出并设计了基于强化学习的电力系统应急物资调度算法。在特定策略下,通过与外部环境的交互作用,完成电力系统应急物资调度。
在电力系统应急物资调度应用中,采用强化学习算法,需要解决行为选择和行为价值函数存储与推广问题。为了保证强化学习在实际调度中更加具有针对性,需确定基本调度要素:电力系统状态集合、行为集合、报酬函数、平均性能指标和行为值函数。
电力系统状态集合s:主要是指电力系统中紧急情况下的运行信息,如紧急工况的位置、调度时间、系统状态选择等,系统以每离散时刻的状态信息为决策依据[5]。
行为集合a:包括电网应急物资调度行为序列,用于实现电力系统紧急调集物资调度[6]。
报酬函数r()s,a:对于电力系统中紧急供电问题,需通过该函数配合强化学习框架,保证计算所得报酬为负值,能够有效保证电力系统应急物资调度费用最小[7-9]。每观测到一个系统状态,就根据这个状态计算一个报酬函数。
平均性能指标ρπ:平均性能指标中的质量指数是指策略计划下各阶段无限时间内平均回复数:
对于系统紧急补给问题,其意义在于系统在无限时间内,最大化了系统报酬函数r()s,a,该函数用负值表示,即电力系统应急电源的运行费用最低[10]。
行为值函数R(s,a):该函数在学习中所用的行为值函数为Rπ()s,a,其在状态s选择a学习行为,并保持为π 的平均调整值,其计算公式为:
在强化学习算法中,不需要具体模型,而是通过迭代方法求得R(s,a)[11-12]。根据迭代规则,行为值函数在每一时刻都要迭代,迭代过程如式(3)所示:
依据该公式,可确定行为值函数所能满足的具体条件:
依据式(4)迭代处理平均性能指标,得到迭代公式如式(5)所示:
式(5)中,α、β为学习率。
在强化学习调度算法模型支持下,电网大面积停电后,对应急物资进行调度是电网恢复的重要任务之一。科学合理的调度方案能保证电力系统迅速恢复负荷,减少因故障造成的损失。
应急物资在应急恢复初期往往供应不足,为此,从物料和时间角度出发,建立以物料满足度和时间满足度为目标函数的多目标优化调度模型。材料满足度是指紧急情况下获得材料数量与需要量之比[13-15],以此为基础,构建电力系统应急物资调度模型,如图1所示。同时,算法假定如下:
图1 电力系统应急物资调度模型
1)这些信息是可靠的,即已知各节点的材料供应和材料需求。
2)将调度节点划分为3 个层次:供给点、调度点和应急点。其中,调度点起到转运的作用,可实现对供给点与应急点之间物资供应情况的查询。
3)假定供应地点的物资供应不能完全满足紧急情况的需要[16]。
电力系统应急物资调度模型目标函数需从物资满意度和时间满意度两个角度展开分析。
物资满意度Z1为:
式(6)中,I表示电力系统应急供应点数量;L表示应急供应中转点数量;J表示应急点数量。时间满意度Z2为:
式中,fj(∙)的函数表达式为:
式(7)、(8)中,ωj表示应急点j处的重要性权值;Nj表示应急点j处所需物资量;fj(∙)表示应急点j处时间满意度函数;tij表示从应急点i到应急点j所耗费时间;xij表示从应急点i到应急点j全部供应物资量;ai表示供应点i储存物资量;θj表示应急点j对运输时间紧急程度,θj越小,表示应急点j对物资需求越紧急;Lj、Uj分别表示应急点j对物资运输时间满意度的下限及上限值,为已知量。
为了提高物料输送速度,必须从以下两个方面进行决策:第一,选择合适物料存放地点;第二,在每一个物料存放地点对物料数量进行分配,在处理多个物料的分配时,必须考虑到物料数量的多样性。每个仓库在获得物料满足度和时间满足度后,都必须按照最优路径进行物料分配。物联网技术将在这一过程中发挥其作用,极大地提高物料调配效率。设定材料分配计划,通过分配中心将通信系统中的分配指令发给各设备管理中心。该中心涉及到的管理内容包含要部署的物料类型、数量和目的地。管理中心要保证每一个物料仓库都能接收到指令,智能仓储系统能自动找到相应物料在仓库中的位置,迅速地取出需要的物料,安排好运输车辆。
将跟踪设备安装到所有运输车上,部署中心可以实时获取运输车位置信息。如此,既保证了材料安全性,又能采取一定措施加速材料运输,如联系运输部门联动、安排材料运输绿色通道等;或者根据交通管理部门提供的交通信息,选择一条更顺畅的路线。运输车到达指定地点后,将任务完成信息发送到调度中心。任务完成后,由调度中心确认部署结束,物资调度流程如图2 所示。
图2 物资调度流程
在调度过程中,物联网技术应用主要体现在两个环节上。该系统首先利用RFID 技术,在物料仓库出库过程中,快速查找物料位置信息;与此同时,各种自动化机器人在智能仓储系统中能精确到达物料位置并装载车辆,与传统人工查找、人工运送物料方式相比,物联网在节省人力的同时大大提高了效率。而且在物资运输过程中,调度中心通过对运输车安装无线传输网和跟踪设备,实时获取运输车准确位置,从而向社会传递信息。通过部门间联动,可以加速材料运输,确保运输过程中材料安全。除上述两点外,物联网通信系统还能为整个部署过程提供通信服务,保证信息实时、准确,并能为整个应急过程提供通信保障。
为验证基于强化学习的电力系统应急物资调度算法的实际应用性能,设计如下仿真实验。
由于地理位置特殊,广东省经常发生台风灾害。台风"彩虹"横扫湛江并向珠江三角洲传播,对广东省电力系统造成严重影响。假定电网节点与地理上的应急点重合。以粤西地区某地方电网为例,对SF6 型系统电力应急的补给调度任务展开研究。图3 为电力应急电源的拓扑结构和部分参数。
图3 电力应急物资调度拓扑及部分参数
假设在0~10 之间的整数表示节点之间的传输时间,其值越大,表明节点之间的距离越远,所需的时间越多。节点间物资调度的子网时间值如表1 所示。
表1 电力应急物资调度期望时间(min)
在此基础上,分别使用传统的基于节点综合权值的电力系统应急物资调度算法、基于改进飞蛾扑火算法的电力应急物资调度算法和基于强化学习的电力系统应急物资调度算法对物资展开调度,以调度时间为测试指标,对比不同算法的应用性能,结果分别如表2~4 所示。
表2 节点综合权值算法调度时间(min)
表3 改进飞蛾扑火算法调度时间(min)
通过上述结果可知,两种传统的调度算法的调度时间与期望时间均有所出入,而基于强化学习调度算法的调度时间与期望时间一致,说明了该方法的有效性。
该研究建立了电力应急物资调度模型,通过该模型将物资调度问题转化为目标优化问题,确定满足物资需求与时间需求的关系函数,从而设计出满足应急物资需求的调度算法。然而因实验环境有限,还存在许多不能深入研究的问题。在接下来的研究中,将考虑进一步优化材料分配制度,如分配路径的阻塞和解除阻塞等意外情况的处理等问题,进一步提高物资分配效率。
表4 强化学习算法调度时间(min)