基于多智能体Nash-Q强化学习的综合能源市场交易优化决策

2021-08-23 02:37孙庆凯王小君张义志和敬涵
电力系统自动化 2021年16期
关键词:竞价电能供应商

孙庆凯,王小君,王 怡,张义志,刘 曌,和敬涵

(北京交通大学电气工程学院,北京市 100044)

0 引言

随着经济的发展,低效、粗犷的能源利用方式与资源、环境间的矛盾逐步加深。打破现有能源体系行业壁垒,构建综合能源交易市场,从市场角度切入,以价格激励为手段,通过实际供需关系促进能源综合利用和高效配置具有重要意义[1-2]。

综合能源市场涉及多主体间的利益关系,影响因素众多,各主体既会相互影响,又会不断观察和学习来调整自身行为,进而推动整个系统交易演化,整体是一个复杂适应性问题[3-5]。针对该问题,已有学者采用博弈理论构建市场交易竞价框架[6-11],其中文献[8]建立综合能源服务商双层博弈模型,通过Karush-Kuhn-Tucker(KKT)条件转化为单层模型优化求解。文献[9]提出综合能源市场出清机制,采用对角算法研究计及供应侧策略投标的市场均衡。文献[10]采用双层粒子群算法求解多方博弈竞价均衡问题。文献[11]基于Stackelberg博弈理论建立不同能源交易决策模型并利用改进粒子群算法求解。

上述研究普遍采用数学推导法和启发式算法优化求解,其中前者忽略市场参与主体非凸非线性属性,通过KKT条件将双层模型转换为具有平衡约束的单层模型求解,致使与实际问题间存在建模残差[12]。后者虽无须建立精确博弈关系模型,但仅基于简单生物群体行为寻优易陷入局部最优解,无法保证与Nash均衡解的一致性[13]。同时两类方法均存在以下弊端:①须以完全信息环境作为前提假设,与实际交易存在差异;②不具有记忆特性,无法充分利用历史信息,每次求解均为独立过程。

强化学习作为新型人工智能算法,可通过在动态环境中反复探索与试错的方式求解问题,对精确数学模型、完整信息以及参数设置要求较低,这为求解复杂系统优化决策问题提供了可能[14-16]。文献[17]提出了基于强化学习的并网型综合能源微网调度模型。文献[18]采用强化学习研究综合能源系统(integrated energy system,IES)动态经济调度。文献[19]基于强化学习研究家庭IES需求响应优化。虽然强化学习为复杂系统决策提供了重要求解工具,但目前未见其在综合能源交易领域有详细研究,同时已有研究普遍将对象简化为单一智能体与固定环境间的交互学习,然而实际综合能源交易市场是多主体复杂交互适应系统,如何将多智能体强化学习应用于综合能源交易市场尚有不足。

为此,本文在多智能体强化学习基础上结合博弈论,利用博弈强化学习协调综合能源市场交易。主要贡献归纳如下:①构建了“竞价博弈-市场出清”电-气综合能源市场双层交易框架;②利用多智能体Nash-Q强化学习优化求解电-气综合能源市场竞价博弈问题。

1 电-气综合能源市场多智能体划分及交易框架

市场环境下能源供给、交易、消耗过程存在多个参与主体。供给层面中电能、天然气供应商满足能源供给;交易层面中电-气综合能源交易市场服务商作为纽带,汇集能源供应商的投标价格与综合能源系统运营商(integrated energy system operator,IESO)的能源需求,按社会福利最大化进行市场出清。消耗层面中IESO聚合多个IES的能源需求,在市场上购买能源。鉴于多参与主体分属于不同利益集团,有着各自运行目标、用户需求、控制手段等,但彼此之间利益联系紧密;同时为配合后续强化学习应用,将市场参与者划分为以下智能体:电能供应商、天然气供应商、电-气综合能源交易市场服务商以及IESO。

依据功能定位将能源市场设定为竞价决策层和市场出清层,如图1所示。

图1 市场交易框架Fig.1 Market transaction framework

1)竞价决策层中能源供应商报价过程、运行成本、收益函数等信息不公布,是在不完全信息环境下向市场服务商提交投标价格与容量以进行非合作竞价博弈。

2)市场出清层中市场服务商汇集能源供应商报价信息和IESO能源需求信息进行市场出清,决定各能源供应商中标容量及收益。

基于上述交易机制作如下假设:①参与主体皆为理性,即合理寻求自身决策目标最大化;②短时间内能源供应和负荷不产生变化;③博弈过程中仅考虑价格影响,暂不考虑其他因素。

2 电-气综合能源市场双层优化决策模型

2.1 竞价决策层

综合能源市场由多参与主体构成,各方更多地考虑自身经济性,致使传统集中优化方法难以执行。鉴于博弈论作为解决不同主体利益冲突的有效工具[20],本文在竞价决策层中建立多智能体非合作博弈决策模型:

式中:G为博弈均衡点;g(·)为博弈函数;N为智能体数量;S为策略集合;U为效益函数集合。

2.1.1 博弈参与者

依据智能体划分标准将竞价决策层中的博弈参与主体确定为电能供应商和天然气供应商。

2.1.2 博弈策略

电能供应商博弈策略为电能投标价格和投标电量;天然气供应商博弈策略为天然气投标价格和投标气量。

2.1.3 效益函数

2.1.3.1 电能供应商

1)投标价格制定

园区IES是中国用户侧参与市场交易的改革试点,采用包含利润和边际成本的功率价格曲线竞价有助于提高能源利用率[21]。电能供应商运行边际成本随出力上升而增大,须针对不同类型机组按自身边际成本函数制定功率-价格曲线[22]。同时考虑到调节斜率使得竞价变动较大,故而采用了变截距方式,即交易中电能供应商通过市场服务商接收IESO的能源购买信息,以自身效益最大化来改变功率-价格曲线截距se(t),并将新曲线传递给市场服务商,其功率-价格曲线如式(2)所示。

式中:λe(t)为t时刻电能出售价格;ae为电能供应商考虑运行成本的二次项系数;Pe(t)为t时刻电能供应商出售功率。

2)效益函数

为清晰模拟能源供应商与IESO互动过程,目标函数只考虑出售给IESO的收入,向其他刚性负荷售能收入暂不考虑。电能供应商采用二次运行成本函数,如式(3)所示;以效益最大化构建决策目标,如式(4)所示。

式中:fe(t)为t时刻电能供应商运行成本;Ue为电能供应商的效益函数;be和ce分别为电能供应商考虑运行成本的一次项系数和常数项,均为不小于0的常 数;cnet为过网费 用;T为24 h总时 段 数;Δt为1 h时间长度。

2.1.3.2 天然气供应商

1)投标价格制定

鉴于本文天然气供应商并非大型天然气交易商,而是拥有配气站的区域天然气供应商,故而出于对上述电能供应商价格制定的考虑,天然气商也采用相似方式,其功率-价格曲线如式(5)所示。

式中:λg(t)为t时刻天然气出售价格;ag为天然气供应商考虑运行成本的二次项系数;Pg(t)为t时刻天然气供应商出售功率;sg(t)为天然气供应商的功率-价格曲线截距。

2)效益函数

天然气供应商在满足用户需求前提下应尽可能提升自身效益,其成本函数如式(6)所示,目标函数如式(7)所示。

式中:fg(t)为t时刻天然气商运行成本;Ug为天然气供应商的效益函数;bg和cg分别为天然气供应商考虑运行成本的一次项系数和常数项,均为不小于0的常数。

2.1.4 竞价决策约束条件

1)价格截距约束

价格截距约束既要考虑削价影响市场交易秩序不可过低报价,又要遵守市场规定不可过高报价。

2)投标容量约束

能源供应商向综合能源市场服务商提供能源,其值不小于0,也不大于供应商机组出力容量限制。

2.2 市场出清层

2.2.1 市场出清决策模型

相较于竞价决策层寡头博弈,市场出清层中园区IES数量较多,结构规模相对简单,致使存在以下问题。

1)部分园区IES不满足市场准入条件,无法进入市场交易。

2)所有园区IES参与市场交易导致市场参与者过多,难以管理。

故而采用市场分层管理模式,暂不考虑单一园区IES策略性投标,而是将多个园区IES经由Energyhub形式构建成一个聚合IES,该IES参与竞价博弈-市场出清双层模型优化求解;其次聚合IES内部存在能源分配环节,将获得的能源按策略分配给各个园区IES。

在此基础上,电-气综合能源市场服务商汇集各参与主体投标信息,以最大化电、气供需总体社会福利作为市场出清目标。

2.2.2 市场出清约束条件

1)电力供需约束

式中:Ns为聚合的园区IES个数;De,s(t)为t时刻第s个IES短期电力负荷预测;Pmaxe,l为输 电线路 最大输送功率。

2)天然气供需约束

在竞价决策层中考虑式(3)和式(6)引入能源供应商二次非线性成本函数;在市场出清层中考虑式(10)、式(16)至式(18)引入机组决策变量非凸特性,致使传统求解算法具有一定困难,故而本文采用了多智能体Nash-Q强化学习算法。

3 多智能体Nash-Q强化学习求解流程

3.1 应用框架

将多智能体强化学习与博弈理论相结合,采用多智能体Nash-Q强化学习构建电-气综合能源市场多参与主体竞价博弈应用框架,如附录A图A1所示。

首先利用历史统计数据构建模拟环境,基于Nash-Q强化学习算法对多智能体进行预训练,初步建立智能体对环境的认知和决策能力;其次借助文献[23]迁移学习将学习到的经验库迁移到实际环境中,提高智能体对实际环境的快速适应和准确决策能力。同时可利用实际环境数据定期更新经验库,持续优化智能体Q表,不断强化智能体实时决策性能。

3.2 学习过程

3.2.1 联合状态空间

区别于单一智能体强化学习,多智能体Nash-Q强化学习需通过联合状态空间表示,将电能、天然气供应商价格截距se(t)和sg(t)作为状态变量,依据文献[24]将其离散化为区间形式,每段区间定义为一个状态,可确定多智能体联合状态空间S(t)={se(t),sg(t)}。

3.2.2 联合动作空间

动作主要表现为能源供应商售能价格调整,依据市场运营限定的售能价格上下限,以步长为1在上一轮售能价格基础上浮动,第m+1次博弈过程中可选择动作集合Am+1={am-1,am,am+1},其中am表示第m次博弈过程所选动作。

实际交易过程为不完全信息下非合作博弈,故而动作选择策略采用竞争对手历史数据描述。以电能供应商为例,假设bg(S(t),a)为天然气供应商在联合状态S(t)下采取动作a(a∈Am+1)的历史次数,则天然气供应商选择动作a的概率为:

电能供应商依据联合状态S(t)以及预测对手动作来调整自身动作选择概率,规则如下:

式 中:pam+1、pam、pam-1分 别 为 电 能 供 应 商 选 择am+1、am、am-1动作的基础概率;Δp为概率调整常数。

依据当前联合状态和动作选择策略即可确定联合 动 作 空 间AS(t)={ae,S(t),ag,S(t)},其 中ae,S(t),ag,S(t)∈Am+1分别为联合状态S(t)下电能、天然气供应商所选动作。

3.2.3 奖惩机制能源供应商对交易过程持续学习以优化各自效益函数,将供应商效益函数最大化转化为强化学习奖励最大化形式,可表示为:

3.2.4 Nash-Q函数更新

多智能体强化学习依赖博弈Nash均衡结果,在Nash均衡中每个智能体的策略对于其他智能体都是最佳反应,在联合状态S(t)下有:

式中:α为学习步长;QNash,e(S(t+1))为电能供应商在联合状态S(t+1)下根据所选择Nash均衡策略得到的收益;←表示更新Q值。

3.2 .5学习流程

竞价决策层属于复杂优化决策问题,采用多智能体Nash-Q强化学习求解;市场出清层属于线性问题,借用求解器Cplex计算。具体求解流程和步骤如附录A图A2所示。

4 算例分析

4.1 算例概况

在Python编译环境中构建模型,数据来源于国内某重点项目园区,其中以Energyhub形式构建的IES见附录A图A3,电、热、气负荷需求曲线见图A4;光伏、风电日前预测出力曲线见图A5;IES所含设备类型和参数见附录B表B1;设备运行维护费用见表B2;能源供应商运行成本系数见表B3;多智能体Nash-Q强化学习算法参数见表B4。强化学习训练数据通过设定不同的能源供应商初始状态持续与环境交互来模拟获得。以1 h为一个时段进行日前市场交易决策与电、热、气供需平衡分析。

4.2 预学习结果分析

4.2.1 Nash均衡存在性证明

在预学习过程中能源供应商不断交互,不同能源供应商的Q值Qe和Qg最终会收敛到Nash均衡,具体Nash均衡证明过程详见附录C。

4.2.2 预学习结果分析

1)竞价决策博弈分析

以第10 h为例进行电能、天然气供应商竞价博弈分析,该时刻IESO聚合的电负荷为6.69 MW,热负荷为3.44 MW,气负荷为3.19 MW。进行6轮博弈,每轮博弈60次,将天然气等效转化为电能形式结算后供应商价格截距博弈情况如图2所示。Nash-Q强化学习过程中对应的Q表迭代完善情况如附录A图A6所示。

图2 能源供应商竞价博弈过程Fig.2 Bidding game process of energy suppliers

第1、2轮博弈中由于信息不完整,智能体仅能依据联合状态和对手历史数据做出自身最佳动作策略选择。随着博弈的进行,双方均增大了己方降低价格动作的概率,最终在低价格区间内竞价博弈,此时双方希望通过降价抢占市场来获得利润。经过盲目降价抢占市场后,强化学习奖励值较低,供能商盈利处于较低水平,故而智能体在随后第3轮学习过程中尝试提高价格,但鉴于此阶段智能体Q表尚未完全建立,无法经由Q表指引竞价寻优,致使策略选择波动性较大,并未达到均衡稳定。

随着博弈的进行,智能体不断与外界环境进行交互,逐渐完善Q表,初步建立起对环境的认知和决策能力,可通过环境反馈调整自身策略,故而在第4、5、6轮博弈初始阶段智能体通过降低价格以求获得利益失败后能够立即提高价格并分别于第54、50和46次博弈时达到Nash均衡,此时电能供应商策略为se=58,将天然气等效转化为电能形式结算后天然气供应商策略为sg=54。

2)市场出清分析

经竞价决策-市场出清后能源供应商收益与出清量收敛情况如图3所示。

图3 市场出清迭代收敛过程Fig.3 Iterative convergence process of market clearing

可知博弈双方收益均受对方策略影响,供应商通过调整se和sg来改变功率-价格曲线,其收益从较大波动逐渐到达均衡点。初始阶段各供应商趋于降价,抢占市场获益,故而在该阶段内供应商收益波动较大且出现收益下降,但随着博弈进行各供应商在各自轮次优化自身策略可明显改变收益分配,提高自身收益,当任意供应商难以独自改变收益格局时逐步收敛,策略接近均衡策略。此时电能供应商电能售价为203.59美元/(MW·h),出清量为4.33 MW;收益为344.38美元。天然气供应商将博弈价格转换为天然气售价后为144.94美元/(MW·h),出清量为6.78 MW,收益为383.09美元。

4.3 在线应用

4.3.1 在线应用结果分析

为进一步验证方法的在线决策能力,选择另外某一时刻,该时刻聚合后的电负荷为6.12 MW,热负荷为4.03 MW,气负荷为2.61 MW。经迁移学习计算新、源任务动态欧氏距离可知,新任务与源任务可划归为同一类型。故而可采用预学习阶段已经训练好的智能体对该时刻竞价环节进行博弈分析,能源供应商在线应用竞价博弈过程如图4所示,Q表迭代完善情况如附录A图A7所示。

图4 能源供应商在线应用竞价博弈过程Fig.4 Bidding game process of energy suppliers in online application

由图4可知,智能体在博弈11次时即可达到收敛,在此后过程中智能体仍旧尝试通过改变自身价格来提高收益,但简单尝试后便会回归稳定。因为经预学习后智能体Q表已训练充分,具备了一定的环境认知和决策能力,在线学习过程中再次遇到相似任务时可在Q表指引下快速做出自身博弈策略调整。

4.3.2 基于Nash均衡的IES能源供需平衡分析

考虑到聚合IES能源分配环节并不影响竞价博弈-市场出清模型求解结果,为简化分析选取聚合IES进行电、热、气供需平衡分析,以验证市场博弈Nash均衡解合理性。聚合IES经由Energyhub方式建模,通过市场交易获得电能和天然气,可依据价格优势选择内部设备进行能源转化与利用。24 h能源供应商售能情况和基于Nash均衡的IES电、热、气供需平衡如附录A图A8所示。

结合图A4、图A5和图A8分析可知,22:00—07:00时段风电出力较大,超出电负荷需求,IES可利用电转气(P2G)设备将多余电量转换以弥补气负荷需求,此时无须过多向能源市场购买能源,供应商售能均处于较低水平。在10:00—22:00时段光伏和风机总体出力较小,但用户电负荷需求较大,依据市场博弈可知此时气价更便宜,IESO更趋向于购买天然气,利用热电联产(CHP)机组产电、产热。在07:00—10:00时段用户电、气需求呈上升趋势,此时IESO趋于削减天然气购买,而加大电能购买,经由电转热(P2H)设备弥补热需求。博弈过程中IESO可依据市场博弈Nash均衡结果及时调整外部购能计划,并优化内部设备出力,经过多次博弈后可获得较为合理的Nash均衡解和机组出力结果。

4.4 算法性能对比

4.4.1 计算精度对比

为验证本文方法求解综合能源市场多参与主体竞价博弈问题的优势,与数学推导方法(以对角算法为例)、启发式算法(以粒子群算法为例)进行对比分析,并设置以下2种情形。

情形1:简化模型非凸非线性属性,在完全信息环境下进行市场交易竞价博弈。

情形2:考虑模型非凸非线性属性,在不完全信息环境下进行市场交易竞价博弈。

4.4.1.1 情形1

附录B表B5基于3类算法对比分析能源供应商收益,可知对角算法利润最大,因为在完全信息与简化模型情况下原始的双层优化问题经由KKT条件转换为单层封闭形式的优化问题,可使用商业优化求解器有效解决。同时可知多智能体Nash-Q强化学习方法获得的利润与对角算法非常接近,电能、天然气供应商利润仅低了2.39%、3.14%;而粒子群算法结果与其他2种算法有所差距。

4.4.1.2 情形2

图5对比分析基于不同算法的能源供应商24 h收益。附录B表B6对比了不同算法在连续时刻下详细出清结果。

图5 基于不同优化算法的能源供应商24 h收益Fig.5 24 h income of energy suppliers based on different optimization algorithms

1)初期IES内部风电出力较大,可将多余电量转换以弥补气负荷需求,此时无须过多购买能源;同时鉴于初期历史数据匮乏,不易采用竞争对手历史数据预测其动作选择概率,因此3类算法优化结果相似。

随着博弈的进行,3类算法出现差异,以10 h为例,对角算法中电能、天然气供应商投标价格分别为195.61美 元/MW、141.77美 元/MW,收 益 为309.48美元、359.33美元,比粒子群算法收益分别减少了5.41%、3.73%,比Nash-Q强化学习算法分别减少了10.13%、6.21%。由此可知,供应商仍有改变售能价格提升自身收益的空间,该解并非实际问题Nash均衡解。因为在不完全信息环境下参与主体不会将自身报价过程、运行成本、收益函数等信息公布;同时考虑参与主体非凸非线性属性,使得实际交易为复杂优化决策问题。在此情况下对角算法并不直接适用,简化处理后会产生建模残差持续影响智能体策略选择,在没有人为修正的情况下无法形成持续优化闭环,只能获得大致反映市场交易结果的优化解。

对12 h分析可知,粒子群算法中电能、天然气供应商投标价格分别为171.39美元/MW、128.35美元/MW,收益分别为214.15美元、254.25美元。与其余2种算法以及自身10 h、11 h结果相比具有明显差异,因为粒子群算法虽然对模型要求相对较低,但本质上是一种随机搜索算法,在优化过程中初值与随机性设置不当易陷入局部最优解;在未设置跳出机制情况下会逐渐收敛于局部最优解,与实际Nash均衡解产生差异。

2)分析所选3个连续时刻与全天收益可知,Nash-Q强化学习算法在每个时刻所得Nash均衡解相比其余2种算法更加精确;同时3个连续时刻所得电能供应商和天然气供应商的总收益相较于对角算法、粒子群算法分别提升了11.12%、8.91%和11.30%、10.05%。

相比之下经由多智能体Nash-Q强化学习得到的供应商收益更高,其优势在于不完全信息环境下可通过历史数据预测对手动作选择概率,进而调整自身策略;求解过程中对模型依赖程度较低,即便模型因简化处理存在建模残差,仍可通过在环境中反复探索与试错方式更新自身策略,逐渐减少残差对决策影响,形成持续优化闭环。强化学习算法也展现良好的记忆性和演化性,不会像其他2种算法一样贪婪地追求静态时间断面上的最优操作,智能体会学习市场交易演化过程以获得长远收益。

4.4.2 计算量对比

在同等计算资源下对比3类方法在线应用环节计算量,以收敛累计时间、迭代次数以及平均计算时间3个指标表征计算量,附录B表B7对比分析了在线应用环节的3个指标。

由表B7可知,在线应用环节3个指标下粒子群算法均处于最高,对角算法次之,Nash-Q强化学习算法最低。针对算例涉及的复杂优化决策问题,粒子群算法为保证解的有效性,须产生大量粒子,经反复迭代搜索才能找到最优解;对角算法求解过程中仍须固定一个智能体竞价策略来寻找另一个智能体的最优竞价策略,并经由多个智能体反复迭代。上述2种方法均须迭代计算才能求得最优解,同时不具有记忆特性,每次优化求解都是一次全新过程,无法利用历史数据作为指导,致使在线应用求解速度较为缓慢。

相比之下Nash-Q强化学习算法具有记忆特性,预训练后Q表已经具备了指导交易行为的功能,在线应用中可依据实际交易情形调用Q表寻优,无须迭代计算,明显减少了计算量与计算时间。同时在线应用交易数据可持续优化Q表,不断强化智能体实时决策性能,具有更高的实际应用价值。

5 结语

本文构建了“竞价决策-市场出清”综合能源市场交易框架,经由“离线训练+在线应用”方式验证了多智能体Nash-Q强化学习方法的有效性,最后经由算例分析得出如下结论。

1)基于Nash-Q强化学习方法构建的智能体可在不完全信息环境中通过反复探索与试错方式求解综合能源市场交易博弈问题。

2)多智能体Nash-Q强化学习方法与数学推导算法、启发式算法相比,在求解精度和时间方面具有更高的实际应用价值。

随着人工智能技术不断发展,使用人工智能进行能源市场交易决策必将得到越来越多的重视。未来可在本文基础上,进一步研究多智能体深度强化学习在综合能源市场交易领域中的应用。

猜你喜欢
竞价电能供应商
苹果皮可以产生电能
电能的生产和运输
海风吹来的电能
澎湃电能 助力“四大攻坚”
管道天然气竞价交易引发的思考
碰撞:恶意竞价与隐孕求职
供应商汇总
供应商汇总
供应商汇总
推荐供应商