基于深度强化学习的激励型需求响应决策优化模型

2021-07-30 03:26徐弘升陆继翔杨志宏陆进军
电力系统自动化 2021年14期
关键词:时段补贴决策

徐弘升,陆继翔,2,杨志宏,2,李 昀,陆进军,2,黄 华,2

(1. 南瑞集团有限公司(国网电力科学研究院有限公司),江苏省南京市 211106;2. 智能电网保护与运行控制国家重点实验室,江苏省南京市 211106)

0 引言

在大规模可再生能源接入电网以及电力市场化改革不断深化的背景下,需求响应(demand response,DR)正向着常态化、多元化和精细化发展[1-3]。随着售电侧市场逐步开放[4],出现了售电商、集成商等多元化的参与主体,它们与用户签订协议,把大量分散负荷整合成可控容量巨大的聚合负荷,以此参与电力市场环境下的DR,实现与用户的双赢[5-7]。DR 分为价格型和激励型2 类[8-9],价格型DR 通过时变电价来引导用户调整用电行为,而激励型DR 则通过补贴或折扣来鼓励用户削减用电量[2]。相比于价格型DR,激励型DR 对于售电商来说实施起来更加灵活[10],对于用户来说也更有吸引力[11-12]。

国内外对激励型DR 的运行机理、决策优化、收益评价等方面进行了大量研究。文献[13]提出适用于离散制造型工业负荷的激励型DR,基于混合整数线性规划建模并求解。文献[14]基于主从博弈模型对激励型DR 建模并求解。上述文献采用规划或博弈等传统方法,属于基于模型(model-based)的方法,其依赖于精心设计的模型,需要已知全部或者大部分的环境信息,算法复杂,可扩展性和灵活性不高。

在DR 模型中,对用户响应度的准确建模非常关键[2]。对于价格型和激励型DR,可以采用电力需求价格弹性来定量描述用户的响应度[15-17]。文献[18]提出了申报负荷弹性化修正方法,并基于此建立了用户报量不报价模式下电力现货市场DR 模型。文献[19]应用电量电价弹性矩阵对用户侧进行建模,并进一步构建了售电公司日前小时电价决策模型。

强化学习(reinforcement learning,RL)作为机器学习的范式之一[20],已经被广泛应用于DR 优化决策问题[21-23]。文献[23]应用Q 学习求解微电网动态定价优化问题,但使用的是查表(Q-table)法,随着问题规模的增长容易出现维数灾难[24]。文献[25]基于价格弹性系数建立用户响应模型,使用深度神经网络(deep neural network,DNN)预测用户负荷和批发市场电价,应用Q 学习求解激励型DR 的最优决策;但其使用的仍然是Q-table 法,并且在制定策略时只考虑了当前单次响应的收益最大化,而忽略了前次响应对当前响应的影响。文献[26]建立了一种考虑售电商长期收益最大化的激励型DR 模型,并使用浅层神经网络逼近Q 值函数。

深度RL(deep RL,DRL)是人工智能领域的研究热点之一[27],已经在电脑游戏和围棋等复杂决策应用场景中获得了成功[28-29]。深度Q 学习网络(deep Q-learning network,DQN)[28]作为DRL 领域重要的开创性工作,引起了众多研究团队的关注,得到了持续的扩展和完善[30]。本文基于一种分层电力市场环境下综合考虑售电商和用户收益的激励型DR,借助时间-价格弹性系数,改进了用户响应模型,考虑了前次响应对当前响应的影响,建立了相应的马尔可夫决策过程模型,设计了基于DQN 求解的算法,以离线学习在线评估的方式,实现了激励型DR 的最优决策。通过对算例的求解证明了模型的合理性和算法的有效性。

1 激励型DR 模型

1.1 售电商模型

本文基于分层电力市场构建激励型DR 模型。如图1 所示,在该分层电力市场架构中,售电商一方面通过发布激励措施引导用户积极参与DR;另一方面通过参与电力批发市场(主要是现货市场)的竞价出售聚合资源(如电能削减),以此获得自身的收益。因此,作为一个营利性组织,售电商通过寻求最优的激励价格,达到最大化自身收益的目的,可表示为如下的优化问题。

式中:ct,i为售电商向用户i在t时段提供的补贴价格,且cmin≤ct,i≤cmax,其中cmin和cmax分别为补贴价格的下限和上限,该约束范围由售电商和客户通过合同的形式确定[14];pt=pw,t−pd,t,其中pw,t和pd,t分别为现货市场实时电价和中长期市场电价;Δdt,i为用户i在t时段的负荷削减量;I为所有用户的集合;H为一天中所有时段的集合。

图1 分层电力市场架构Fig.1 Framework of hierarchical electricity market

1.2 用户响应模型

激励型DR 用户在收到售电商发布的补贴信号后会综合考虑获得的经济补偿和付出的舒适成本,做出使自身收益最大化的响应行为,可建模为如下的优化问题。

式中:η为用户在获得经济补偿和付出舒适成本之间的权衡因子,η∈[0,1];pr,t为售电商制定的零售电价;(ct,i+pr,t)Δdt,i为用户i在t时段以Δdt,i获得的补偿收益和减少的电量成本;φt,i为不满意度函数,用以表征用户付出的舒适成本。

Δdt,i反应的是用户对补贴价格信号的响应度。对于Δdt,i的估算,现有用户响应模型认为其仅与t时段的补贴价格有关,并基于自弹性系数进行建模[25],但现有模型忽略了用户对相邻时段补贴价格差的反应。在电力现货市场环境下,售电商根据时前公布的批发电价和预估的用户用电需求计算出最优补贴价格,并在t时段之前发布给用户,用户除了根据刚发布的本次补贴价格做出响应,还与前次补贴价格进行对比,并根据价格差对响应做出调整。如果本次补贴价格比前次补贴价格高,则会额外激发出用户参与响应的热情,Δdt,i相应增加;反之,Δdt,i相应减少。因此,本文引入负荷的时间-价格弹性的概念[31],对现有用户响应模型做如下修正。

式中:εt,i为用户i在t时段的自弹性系数,其含义为t时段补贴发生1%的偏差而引起该时段负荷需求调整的百分数;ξt,t−1,i为用户i在t时段相对于t−1 时段的时间-价格弹性系数,其含义为时段间存在价格差时,从前时段“转移”到当前时段的负荷削减量;Δdt,i的约束范围是Dmin≤Δdt,i≤Dmax,其中Dmin和Dmax分别为用户负荷削减量的下限和上限,由售电商和客户在激励型DR 的合同中约定[32];dt,i为用户i在t时段的用电需求量;cˉ为各时段的平均补贴价格。

用户不满意度函数也被称为响应成本函数或负效益函数[23],是对用户在削减自身用电量时承受的不舒适代价的量化。该函数一般被认为是一个随着负荷削减量增加而函数值快速增大的凸函数。本文采用被广泛使用的二次函数来表示用户不满意度函数φt,i。

式中:αi为大于0 的常数,用以表征用户i对于舒适性的敏感度,该值越大则表示用户愿意牺牲的舒适性越低,削减负荷的意愿也越低,反之亦然;βi为辅助系数,用户的不舒适度越高该系数值越大[14]。

1.3 目标函数

目标函数的设计综合考虑了售电商和用户的收益[25],其表达式为:

式中:rt,i为t时段售电商在用户i上的收益和用户i自身收益之和;ρ为售电商收益和用户收益的重要性比例,ρ∈[0,1]。

2 基于DRL 的最优激励决策

2.1 马尔可夫决策过程和RL 建模

RL 的基本思想是通过智能体(agent)和环境的交互,学习到达成累计奖励值最大化或实现特定目标的最优策略[20]。在RL 求解问题中,环境通常被规范为马尔可夫决策过程(Markov decision process,MDP)。MDP 是一种序贯决策的数学模型,由状态、动作和奖励3 个基本元素构成,其特性可以理解为当前状态下智能体采取的动作不仅影响当前的反馈,还会对下一个状态以及反馈造成影响[20]。本文将所关注的激励型DR 的补贴价格决策优化问题建模成一个以售电商为智能体进行学习的有限MDP。如图2 所示,在t时段即将到来之前,售电商获取用户i的状态信息st,i=(dt,i,εt,i,ξt,t−1,i,ct−1,i),并基于该状态信息做出动作决策at,i=ct,i,即售电商为用户i在t时段提供的补贴,s0,i为用户i的初始状态信息。用户根据发布的补贴信息决定自身的响应行为,由式(6)可得出整个系统(包含售电商和用户)所获得的奖励rt,i。接着,售电商继续获取下一时段的状态信息st+1,i,并做出t+1 时段的动作决策at+1,i。

图2 MDP 流程示意图Fig.2 Flow chart of MDP

综上所述,该模型的最终目标是寻求系统长期收益的最大化,该长期收益定义为Gt。

式中:K为一个完整的优化周期被分割成的时段总数;γ为折扣因子,表示未来奖励的重要性,即未来第k时段获得的奖励等于当前时段获得的奖励的γk倍,γ∈[0,1],γ的值为0 意味着智能体只考虑当前奖励。

2.2 基于DQN 的求解算法

RL 中最经典且被最广泛应用的方法是Q 学习算法,其基本思想是通过状态-动作对的值函数进行估计以求得最优策略,Q 值函数依据贝尔曼方程(Bellman equation)进行迭代更新直至最终收敛,该方程可以按照以下形式表述[20]。

式中:Q(st,at)为t时段下的动作值函数;α为学习率,表示Q 值迭代的速度;a为st+1下Q 值最大的动作决策;A为所有动作决策的集合。

Q 学习最基本的求解方法是Q-table 法,该方法通过建立一个表格来存储每一个状态-动作对的Q值,并依据式(8)更新表格直至最终收敛。但是Qtable 法不适用连续状态和动作问题,且即便是求解离散状态和动作问题,当状态和动作空间过大时,Q-table 法需要巨大的存储和计算资源,限制了其应用性。本文提出一种基于DQN 的求解算法,并为此设计了一个深度前馈网络,即多层感知机(multilayer perceptron,MLP)用以逼近最优Q 值函数。如图3 所示,该网络由1 个输入层、1 个输出层和若干个隐层组成,层与层之间均是由权重Wi和偏置bi所定义的全连接结构,激活函数采用修正线性单元(rectified linear unit,ReLU)[33]。

图3 Q 值函数逼近DNN 结构Fig.3 Structure of DNN for approximating Q-value function

基于DQN 的求解算法的伪码表述如表1 所示。该算法使用了经验回放和目标网络分离技术来提升收敛性和稳定性[28],经验回放如表1 中第10 至11 行所述,先将智能体与环境交互得到的四元组转移样本存储到记忆单元D中,训练时每次从D中随机抽取批量的样本。目标网络分离如表1 中第13 至14行所述,该方法建立了2 个独立的DNN,分别记为网络Q和目标网络Q͂,其中网络Q的权重θ是实时更新的,而网络Q͂的权重θ͂则每经过C轮迭代才通过复制当前值网络的权重θ实现延迟更新。

表1 基于DQN 的求解算法Table 1 Solution algorithm based on DQN

3 算例分析

3.1 算例数据和参数设置

实验考虑由1 个售电商和多个用户组成的激励型DR,以一天24 h 作为一个完整的优化周期,共分为24 个时段,每个时段1 h。用户负荷数据和同一天的批发市场电价数据参考文献[34]。用户弹性系数的设置参考文献[35],设为谷(01:00—06:00)、平(07:00—16:00,23:00—24:00)、峰(17:00—22:00)3 个区间,具体的参数设置如表2 所示,其中ε和ξ分别为式(3)中定义的自弹性系数和时间-价格弹性系数。其他与用户相关的参数的具体设置情况如表3 所示,其中pmin为式(1)中pt的最小值。

表2 不同时刻下的弹性系数Table 2 Elasticity coefficients at different moments

3.2 结果及分析

表3 用户相关参数Table 3 Related parameters of customers

为了对比本文提出的改进用户响应模型和现有模型的应用效果,附录A 图A2 展示了采用相同DQN 算法求解不同模型的补贴价格和削减电量的结果。用户1 相比于用户2,自弹性系数和时间-价格弹性系数均较低。对比补贴价格的结果可以看出,谷、峰区间价格变化不大,平区间价格则略有提升;对比削减电量的结果可以看出,采用改进模型后2 种类型用户的总削减电量都有所提升,特别值得注意的是,峰值区间(17:00—22:00)部分时段的负荷削减量得到提升。这说明改进后的DR 模型考虑到用户负荷在相邻时段之间的转移能力,可以获得比现有模型更好的用户响应,从而获得更高的收益。

为了验证改进模型和设计算法的应用有效性,以自弹性系数和时间-价格弹性系数均适中的用户3 为例,分析不同的用户舒适权衡因子η对补贴价格决策和用户响应行为的影响。从附录A 图A3 中可以看出,补贴价格随时间变化的整体趋势和批发电价相似,这是因为批发电价的峰值区间也是用户负荷的高峰期,同样的负荷削减量需要增加更多的补贴来激励用户。此外,较高的用户舒适权衡因子(如η=0.9)下得出的补贴价格平均值要比较低的用户舒适权衡因子(如η=0.1)的补贴价格平均值要高,进而增加了负荷削减总量;这是因为相对较高的用户舒适权衡因子意味着用户对削减电量换取补贴的意愿更强烈,忍受因削减电量带来的不适的能力更强。附录A 图A4 展示了以用户1 和用户2 为例的不同用户参与激励型DR 的不同结果。可以看出,售电商给予不同用户以不同的补贴价格,虽然补贴价格曲线的趋势相似,但是用户2 的补贴价格比用户1 的高,这也导致了用户2 的负荷削减量明显大于用户1。这是因为用户2 不仅自弹性系数和时间-价格弹性系数高于用户1,而且有着更低的不满意度系数(α1=0.8,α2=0.3)。因此,相比之下,用户1 更加保守,响应能力有限,而用户2 对补贴价格更敏感,更容易在高补贴的激励下响应更多的负荷削减量。

最后,对比在不同权衡因子η下得到的售电商支出成本,该成本包括了购电成本和补贴成本,如附录A 图A5 所示。可以看出,随着权衡因子η的增大,售电商节省的支出成本越多,分别节省了12.3%、20.9%和31.4%。

4 结语

本文针对电力现货市场环境下售电商、集成商等参与主体,提出一个基于DRL 的激励型DR 决策优化模型和求解算法,售电商通过向不同的用户发布不同的补贴价格来引导用户减少其用电负荷,以实现某一规定时间范围内售电商和用户的综合收益最大化。引入时间-价格弹性以刻画用户对相邻时段补贴价格差的反应,改进现有仅考虑当前时段价格弹性的用户响应模型,构建了有限MDP 问题。在此基础上设计了一个基于DQN 的补贴价格优化决策求解算法,并选取了3 个不同类型用户的实际用电数据进行训练,算例结果验证了基于DQN 的DRL 算法的收敛性和有效性,同时证明了使用改进模型求解得出的最优补贴价格相比现有模型的最优解,可以提高部分时段尤其是用电高峰时段的负荷削减量,并有效提高售电商和用户的综合效益。

本文基于简化的市场结构和激励型DR 决策机制,后续应寻找更完善的购售电决策机制进行优化,考虑多个售电商之间竞争作用的影响。本文采用的DQN 方法虽然能很好地解决连续状态空间问题,但是仍然需要离散动作空间,因此基于策略搜索的DRL 方法值得进一步的研究和应用。此外,本文采用需求价格弹性系数来描述用户的响应,难以反映出实际情况中用户响应的不确定性,因此如何更准确地把握用户负荷需求的不确定性需要进一步的研究。

附录见本刊网络版(http://www.aeps-info.com/aeps/ch/index.aspx),扫英文摘要后二维码可以阅读网络全文。

猜你喜欢
时段补贴决策
新增200亿元列入耕地地力保护补贴支出
为可持续决策提供依据
养阳的黄金时段到了
决策为什么失误了
“三清一改”农民能得到哪些补贴?
四个养生黄金时段,你抓住了吗
“二孩补贴”难抵养娃成本
晏平要补贴有多难
分时段预约在PICC门诊维护中的应用与探讨
分时段预约挂号的实现与应用