李吉峰,何星瑭,宋奎铮,王浩嘉,郭思辰
(1.国网大连供电公司,大连 116001;2.智能电网教育部重点实验室(天津大学),天津 300072;3.国网辽宁省电力有限公司电力调度控制中心,沈阳 110000;4.国网扎鲁特旗供电公司,通辽 028000)
随着新型电力系统建设的不断深入[1],系统供需平衡方式由传统的源随荷动向源荷双向互动模式转变,而系统能量流交互的改变也促进了现金流即新型电力交易模式的发展[2]。因此,如何制定有效的交易机制并采取更为智能的决策管理方法是当前亟待解决的重要问题。在众多的新型交易模式与示范中,端对端(peer-to-peer,P2P)交易[3]因其相对便捷的参与方式以及相对灵活的交易模式,被大量研究用于构建对等、透明的分布式电力交易市场,在提升本地清洁能源消纳率的同时,提升本地能源系统的效率,目前也已经取得了一些示范与应用[4]。
目前,针对多用户之间的P2P 分布式交易主要采取两种出清定价策略[5],第一种是由聚合商作为市场联盟的组织者与协调者,进而从联盟宏观的角度促成供需平衡。例如,文献[6]提出并对比了包括供需比(supply and demand ratio,SDR)、中间市场率(mid-market rate,MMR)以及账单分享(bill sharing,BS)在内的3 种典型的“联盟式”交易价格清算机制。文献[7]建立了包含能源市场、区域能源运营商、微网系统以及负荷用户在内的多能源系统四层运营框架,从而协调区域能量平衡,降低微网系统的运行成本。文献[8]考虑了建筑热平衡特性对市场参与者用电行为的影响,制定了多用户电能共享优化策略,并采用Shapley 算法对用户集群所获取的效益进行再分配。第二种是市场参与个体可以根据自身的实际供/用能情况,并随着交易环境信号实施动态调整的P2P 交易市场。例如,文献[3]通过引入非合作博弈与主从博弈理论对P2P 交易模式的内在博弈关系进行了全面分析。文献[9]研究在P2P 交易中引入主从博弈理论,并验证主从博弈交易对降低交易成本以及减少二氧化碳排放等方面的效果。文献[10]提出配电系统内部的多微网博弈交易议价方法。文献[11]提出时间与交易电量均为灵活性选择因素的能量块概念,解决了现有P2P 能源交易易出现的源荷不匹配问题。
在出清算法方面,目前对于P2P 交易的求解大多采用集中式优化算法或结合博弈理论的优化算法,虽然可以在一定程度上解决交易获利分配以及用户的隐私保护问题[12],然而,随着交易参与者数量的增加,物理设备、能量交互与现金交易等数据量也会急剧增加,传统的集中式优化算法可能会面临维数灾难问题。然而,如何将机器学习智能方法[13]应用在电力市场交易领域,相关的研究仍存在空白。
针对上述存在问题,以多微网之间的电力P2P交易作为研究切入点,首先构建了P2P 交易市场的参与主体即微网的自治运行调度模型;其次,分析了多微网间P2P 交易的博弈关系,并采用分布式强化学习算法对交易策略进行求解;最后,通过算例仿真验证了所提理论及算法在降低用户交易成本、提高本地清洁能源消纳以及算法性能等方面的有效性与适用性,进而对人工智能算法在电力市场交易领域中的应用与适用性进行了探索,也为大数据背景下的多主体交易提供了算法参考。
所构建的多微网电力P2P 交易整体架构如图1所示,市场交易的主体,即微网(microgrid,MG)由不同类型的负荷和分布式电源组成,微网配置有储能设备。系统内的微网通过自身的联络线与外部上级电网相连,并通过本地配电网实现互联,配电网网架均能够支持双向交易。每个微网的微网能源服务商通过合理化的P2P 交易、储能设备调度,以实现微网系统内的电能供需平衡及运行经济性最优。
图1 多微网P2P交易框架Fig.1 P2P trading framework for multi-microgrids
假定本地配电网存在P2P 交易平台,负责协助微网之间进行P2P 交易,该平台可以是一个没有实体的互联网交易平台,也可以是配电网运营商职责的一部分。在进行分布式P2P 交易的过程中,每一个微网能源服务商首先会对网供负荷需求、储能设备充放电状态、P2P 交易电量、上网电量进行优化调度;其次,基于内部自治优化调度结果,同时考虑配电网的实时电价波动,微网能源服务商向交易平台提交待交易电量及报价;平台会对相关信息进行公示,同时考虑微网能源服务商之间的博弈行为,平台会不断更新交易信息,并在考虑配电网实际运行的安全性约束的前提下,协助微网能源服务商之间实现最终的P2P 交易。
需要说明的是,鉴于P2P 分布式交易属于本地用户间的就近交易,未考虑交易所产生的服务费以及损耗问题[14]。
作为P2P 交易市场的主要参与主体,以第i个MG 为例,微网能源服务商会通过调节微网内部的可调控资源以及交易策略,以实现微网系统的总运行成本Ctotal,i,t最优,总运行成本主要包括与上级电网的交易成本Cutility,i,t、P2P 交易成本CP2P,i,t以及设备运行维护成本COM,i,t,故第i个MG 自治调度的目标函数为
上文中,式(4)与式(5)为综合考虑了设备建设成本、维修费用、人力成本、政府补贴以及净残值等因素所计算出的分布式电源发电折算成本[15];式(6)为储能设备的运行成本。
除此之外,微网自治运行调度模型还包括微网内电力供需平衡约束、储能设备的容量约束、充放电功率约束等约束条件[15],在此不再赘述。
在P2P 分布式交易市场中,参与交易的微网都试图通过更多地出售电能来提升自身收益,且各个微网由各自的能源服务商管理,不具有联盟关系。因此,采用非合作博弈模型来分析P2P 交易中各个微网之间的竞争博弈关系。具体依照博弈三要素定义对博弈关系进行具体分析,博弈参与者为参与P2P 交易的微网;博弈策略为每个微网在P2P 交易中制定的交易电价及交易电量;博弈效用为各微网的总运行成本或收益,对应式(1)。
微网之间的博弈过程是一个动态过程,博弈结束的标志包括交易达到Nash 均衡状态或最大迭代次数;博弈的均衡状态包括微网制定的P2P 交易电价及交易电量。具体的迭代过程如下。
在第1 轮迭代中,各微网首先进行自治运行调度,并依据自治调度后电能过剩或不足情况,向P2P 交易平台提交初始化交易电价及电量信息,平台依据所处系统的安全运行约束条件,结合微网的自治调度情况,公布首轮电量与价格的报送结果,各微网根据结果反馈信息对P2P 交易投标策略进行修改后进行再次投标报价,进而完成一轮迭代。假设第k轮迭代中各微网的投标电量及价格如下。
当两轮迭代可交易电量及价格相等,即
表示没有任何一个参与P2P 交易的微网可以通过改变自身的调度结果及报价信息而获得更高的博弈效用,此时的结果可看作博弈的Nash 均衡解。需要说明的是,如果微网之间博弈无法达到Nash 均衡,则微网将按照与上级电网进行双向交易的传统交易模式以实现微网内的供需平衡。
常规的机器学习方法虽然不要求具体抽象的数学模型,仅通过环境模型即可实现问题的求解,然而,常规的机器学习方法无论采用什么方法来更新环境模型,都会在某个时刻聚合出一个全局环境模型,这种处理思路对于所构建的多微网多极值点优化问题而言,难以同时达到最优的效果。因此,采用弹性平均随机梯度下降(stochastic gradient descent,SGD)算法这种非完全一致的分布式机器学习算法来求解多微网的自治调度与P2P 交易问题。算法的具体原理如下。
定义ωi为第i个工作节点的模型,在特指第i个微网的经济效益模型;为全局环境模型,则不同微网的分布式优化函数为
基于式(9)所示的分布式优化函数,所提出的分布式机器学习算法主要包括两方面的优化目标:一是使得各微网的风险损失函数最小,进而体现出与其他微网之间的博弈关系;二是使得本地模型与环境模型之间的差距最小,进而体现出微网的自治调度特性。基于上述优化思路,分别对ωi与进行求导,即可得到环境模型的更新公式为
因此,所提出的弹性平均SGD 算法流程及伪代码如下。
算法1:弹性平均随机梯度下降算法伪代码
从训练集S中随机抽取或在线获取动作与策略样本
计算动作与策略样本的随机梯度∇fi(ωr)
完成本地模型的更新,更新时考虑最新的梯度和当前模型与全局环境模型的差异为
基于上述交易原理分析及求解算法介绍,所提出的基于分布式机器学习的多微网P2P 交易流程主要包括微网自治调度与基于非合作博弈的多微网P2P 交易两个模块,具体流程如图2 所示。
图2 基于非合作博弈与分布式机器学习的多微网端对端交易流程Fig.2 Multi-microgrids P2P transaction process based on non-cooperative games and distributed machine learning
以改进的IEEE 33 节点配电系统作为主体系统结构,其中部分节点接有可进行P2P 交易的微网[3],具体架构如图3 所示。不同微网内的设备配置情况如表1 所示。典型日的负荷曲线及分布式电源的出力曲线分别如图4 及图5 所示。储能设备参数及所在地区的电价信息参见文献[3]。
图3 系统架构Fig.3 System architecture
图4 典型日负荷曲线Fig.4 Typical daily load curves
图5 典型日分布式电源出力曲线Fig.5 Typical daily distributed power generation output curves
基于算例设置,将储能设备的初始容量与最大充放电功率分别选取设备容量的50%与20%[15],调度时间步长设定为Δt=1 h。基于所提出的微网自治调度及P2P 博弈交易模型,得到典型时刻的P2P 交易结果如图6 所示。
具体地,在01:00 时刻,MG2 与MG3 拥有可交易电量,属于P2P 交易中的卖方,而MG1 与MG4 在该时段有购电需求,属于P2P 交易中的买方。在博弈交易过程的初始阶段,MG2 与MG3 均会通过降低报价以尽可能多地促成P2P 交易,然而,相比较于MG2,考虑到MG3 拥有的可交易电量较多,买方更倾向于同MG3 进行交易以尽可能多地降低购电成本,因此,在博弈过程的后期,MG2 会在可行区域内提升交易价格以获取更大的收益。在04:00 时刻,MG2 与MG3 拥有可交易电量,而MG1 与MG4 在该时段有购电需求,然而,在该时段MG2 与MG3 拥有的可交易电量无法满足MG1 与MG4 全部的购电需求,因此,在博弈交易过程的初始阶段,MG2 与MG3会在可行区域内提升交易价格以获取更大的收益,MG1 与MG4 额外的购电需求将通过与外部电网进行交易以满足供需平衡。在13:00 时刻,MG1、MG3与MG4 拥有可交易电量,而MG2 在该时段有购电需求,因此,在博弈交易过程中,卖方们会在可行区间内通过降低报价以尽可能多地促成P2P 交易,进而提升交易的收益。在19:00 时刻,MG2 拥有可交易电量,而MG1 与MG4 在该时段有购电需求,考虑到MG2 拥有的可交易电量无法同时满足此时系统内其他微网的全部购电需求,因此,MG2 会倾向于同购电需求较大的MG4 进行交易,MG1 与MG4 额外的购电需求将通过与外部电网进行交易以满足供需平衡。综上所述,所提出的P2P 博弈交易理论可以有效促成多微网之间的P2P 交易。
在对典型时刻P2P 交易结果进行分析的基础上,进一步从交易成本/收益以及清洁能源消纳的角度对不同交易模式进行分析,如表2 所示。通过对表2 的分析可知,相比较于同上级电网进行直接双向交易的传统交易模式,P2P 交易模式在交易主体的经济性与促进新能源的本地消纳方面均有一定的优势。
表2 不同交易模式对比Table 2 Comparison of different trading models
为进一步验证算法的有效性,分别选取启发式算法[16]、改进的次梯度迭代法[17],通过优化微网内部的可调控资源及交易策略从而实现经济性最优,并与本文介绍的分布式机器学习方法进行对比,基于4.1 节的在线学习环境,以MG4 的购电成本优化为例,不同算法的迭代收敛过程如图7 所示。
图7 不同算法收敛过程Fig.7 Convergence process of different algorithms
具体对图7 分析可知,对于所构建的多主体高维度解空间的分布式优化问题,启发式算法虽然迭代进程较短,但是易陷入局部最优,未能挖掘到最优解。改进次梯度迭代算法受到算法参数的影响,搜索解空间的波动范围较大,迭代过程较长。而所提出的分布式机器学习算法可以缩小解空间范围,迭代过程较短,求解效率较高。
合理有效的交易机制是加快推进电力体制改革与能源转型的重要保障,提出基于非合作博弈与分布式强化学习的多微网P2P 交易方法,通过理论分析与算例仿真验证,得到的主要结论如下:
1)相比较于传统的双向交易模式,基于非合作博弈理论的P2P 交易模式在降低用户购电成本,提升用户售电收益的同时,还可以有效提升本地分布式电源的消纳率。
2)相比较于启发式算法与梯度迭代算法,分布式机器学习方法在迭代收敛进程与解空间精准确定方面均具有一定的优势,提升了求解效率。
未来的研究将会进一步挖掘微网内部用户需求响应特性与灵活性负荷对市场交易产生的影响。