基于狼爬山快速多智能体学习策略的电力系统智能发电控制方法

2015-10-25 02:34席磊余涛张孝顺张泽宇谭敏
电工技术学报 2015年23期
关键词:混合策略模糊化爬山

席磊余涛张孝顺张泽宇谭敏

(华南理工大学电力学院广州510641)

基于狼爬山快速多智能体学习策略的电力系统智能发电控制方法

席磊余涛张孝顺张泽宇谭敏

(华南理工大学电力学院广州510641)

为了解决互联复杂电力系统环境下自动发电协调控制问题,提出了一种多智能体智能发电控制策略。提出了一种具有多步回溯及变学习率的多智能体新算法——“狼爬山”算法。该算法可根据据CPS标准求解各种复杂运行环境下的平均策略。基于混合策略及平均策略,此算法不仅在非马尔可夫环境及大时延系统中具有高度适应性,而且能解决新能源电源接入所带来的互联复杂电力系统环境下自动发电协调控制问题。对标准两区域负荷频率控制电力系统模型及南网模型进行仿真,结果显示该算法能获得最优平均策略,闭环系统性能优异,与已有智能算法相比具有更高的学习能力及快速收敛速率。

智能发电控制狼爬山变学习率平均策略

3 引言

互联电网自动发电控制(Automatic Generation Control,AGC)是电网能量管理系统的基本功能之一,是保证电力系统有功功率平衡和频率稳定的基本手段[1-3]。研究模型一般是以经典的两区域IEEE负荷频率控制(Load-Frequency Control,LFC)为基础的频域线性模型,电力系统LFC问题同时也是控制理论界研究的一个经典问题,控制理论新方法也常会被引入到LFC问题中来,文献[4]对半个世纪以来LFC在理论与技术研究中的进展进行了全面的回顾。为了计算区域发电速率,近两年,欧美电力系统开始采用区域控制误差(Area Control Error,ACE)差异互换(ACE Diversity Interchange,ADI)方法[5]。2000年以来,国内两大电网公司开始采用北美电力可靠性委员会建议的CPS标准,以对所有控制区域进行协调。在智能电网发展的大背景下,开发具有自主学习能力和厂网协调能力的智能发电控制(Smart Generation Control,SGC)逐渐成为一种趋势[6-8]。

近几年来,多智能体强化学习算法已成为机器学习领域研究的热点,特别是基于经典Q学习的算法框架体系得到了不断充实和发展。文献[9,10]已经用多个应用实例证明了多智能强化学习中的每个智能体能追踪其他智能体的决策以动态协调自身动作。数种以博弈论为基础,并用Q学习方法来实现的分布式强化学习方法被陆续提出,如Minimax-Q[11]、Nash-Q[12]和Friend-or-Foe Q[13]。然而由于Minimax_Q是零和博弈、Nash-Q占用空间大、FF-Q的Agent必须知道其他Agent是敌是友使得FF-Q只具有个体理性等缺陷,限制了这些算法的应用。文献[14]提出了一种基于相关均衡的分布式多智能体学习算法——DCE Q(λ)算法,以解决互联电网AGC协调控制问题,取得了较为满意的控制效果。然而,当智能体数量增加时,DCE Q(λ)算法在搜索多智能体均衡解时间呈几何数增加,限制了其方法在更大规模的电网系统中广泛应用。文献[15]于2002年开发了“赢”或“快速学习”的爬山策略算法(Win or Learn Fast Policy Hill-Climbing,WoLFPHC)。学习中,每个Agent采用混合策略,且只保存自身的Q值表。所以,一方面,它避免了一般Q学习中需要解决的探索和利用这一矛盾问题;另一方面,它可解决多Agent系统的异步决策问题。

本文融合了WoLF-PHC算法、资格迹[16]和SARSA算法[17],提出了分布式WoLF-PHC(λ)算法,即Distributed WoLF-PHC(λ)(称为“狼爬山”算法),并将该方法应用于求解多智能体SGC中的均衡解。标准两区域负荷频率控制的电力系统模型及南网模型的两个实例研究证明了此算法的有效性。由于WoLF学习率随环境适应性地变化,与其他SGC方法相比,狼爬山算法具有更高的快速收敛速率。

3 狼爬山算法

1.1Q(λ)学习

狼爬山算法可以基于Q学习和TD等强化学习算法。所提出的方法也是基于经典Q学习算法框架体系。Q学习算法是由文献[18]提出的具有普遍性的强化学习算法,其中状态动作对由值函数Q(s,a)进行评估。最优目标值函数Vπ*(s)及策略π*(s)为

式中A为动作集。

资格迹(Eligibility Trace)详细记录各联合动作策略发生的频率,并依此对各动作策略的迭代Q值进行更新。在每次迭代过程中,联合状态与动作会被记录到资格迹中,对于学习过程中多步历史决策给予奖励和惩罚。Q函数与资格迹以二维状态动作对的形式被记录下来。资格迹将历史决策过程的频度及渐新度联系在一起,以获得AGC控制器的最优Q函数。Q函数的多步信息更新机制是通过资格迹的后向评估来获得。常用的资格迹算法有4种:TD(λ)[19]、SARSA(λ)[17]、Watkin's Q(λ)[18]和Peng's Q(λ)[16]。由于计算量的限制,选择基于SARSA(λ)的资格迹

式中:ek(s,a)为在状态s动作a下第k步迭代的资格迹;γ为折扣因子;λ为迹衰减因子。Q(λ)值函数的回溯更新规则利用资格迹来获取控制器行为的频度和渐新度两种启发信息。当前值函数误差的评估分别由式(4)和式(5)计算。

式中:R(sk,sk+1,ak)为在选定的动作ak下,状态从sk到sk+1的智能体奖励函数;ag为贪婪动作策略;ρk为智能体在第k步迭代过程中的Q函数误差;δk为Q函数误差的评估。Q函数更新为

式中α为Q学习率。随着充分的试错迭代,状态值函数Qk(s,a)能收敛到由具有概率1的Q*矩阵表示的最优联合动作策略。

1.2狼爬山算法原理

1.2.1WoLF原理

学者们已经对具有启发式方法的WoLF原理在对手问题上的应用进行了深入研究,失败时加快学习速度,赢时降低学习速度[15]。和其他智能体当前策略相反的平均策略相比,如果一个游戏者更喜欢当前策略,或当前的期望奖励比博弈的均衡值大,那么游戏者便赢了。然而文献[15]对WoLF原理的游戏者所需要的知识给出了严格要求,这也限制了WoLF原理的普适性。

1.2.2PHC

爬山策略(Policy Hill-Climbing,PHC)算法是WoLF原理的扩展,以使其更具普适性,根据爬山策略算法,Q学习能获得混合策略以及保存Q值。由于PHC具有理性及收敛特性,当其他智能体选择固定策略时,它能获得最优解。文献[15]已经证明通过合适的探索策略,Q值会收敛到最优值Q*,并且通过贪婪策略Q*,U能获得最优解。虽然此方法是理性且能获得混合策略,但其收敛特性不明显。

1.2.3WoLF-PHC

文献[15]于2002年提出了具有变学习率φ的WoLF-PHC算法,与此同时满足理性和收敛特性。两个学习参数φlose和φwin用来表明智能体的赢与输。WoLF-PHC是基于虚拟博弈,它能通过近似均衡的平均贪婪策略取代未知的均衡策略。

对于一个已知的智能体,基于混合策略集U(sk,ak),它会在状态sk过渡到sk+1,且具有奖励函数R的情况下执行探索动作ak,Q函数将根据式(6)和式(7)进行更新,U(sk,ak)的更新律为

式中φi为变学习率,且φlose>φwin。如果平均混合策略值比当前的策略值低,则智能体赢了,选择φwin,否则选择φlose。它的更新律为

执行动作ak后,对sk状态下所有动作的混合策略表进行更新

式中visit(sk)为从初始状态到当前状态所经历的sk次数。

3 基于多智能强化学习的SGC设计

设计一种新颖的基于多智能强化学习的狼爬山算法,以寻求自适应协调的SGC。在每个迭代步,每个控制区域的狼爬山都将在线观察当前的运行状态以更新值函数和Q函数,然后执行一个基于平均混合策略的动作。设计包括奖励函数的选择、动作间隔的模糊化和参数设置等。

2.1奖励函数的选择

本文中智能控制器所追求的是CPS控制长期收益最大和尽可能避免频繁大幅度升降调节功率两个目标,奖励函数中需综合考虑这两种指标的线性加权和。某i区域电网的评价奖励函数Ri详见文献[14]。

2.2动作间隔的模糊化

动作区间模糊化能加快狼爬山算法收敛速度,避免不必要的学习。动作模糊化规则参见表1,表中各符号表示为负大(NB)、负中(NM)、负小(NS)、零(Z)、正小(PS)、正中(PM)和正大(PB)。

表1 动作模糊化部分具体规则Tab.1 Specific rule for the action fuzzification

实际应用中,需要规定各区域各自状态、动作所代表符号的含义,并根据动作上下限确定区间动作数和各动作值。南网模型仿真实例中,动作区间模糊化共有49条规则,每条规则规定有7个离散动作,仅列取7条规则,如表1所示。表1中,最后一条规则NB/PB不需要学习即可判断最优动作为0,因此动作空间均为0,NB、NM等输入状态符号的定义见表2。

表2 动作模糊化ACE状态划分Tab.2 The fuzzy rules of the state division of ACE

2.3参数设置

如前文所述,控制系统的设计需要对4个参数λ、γ、α、和φ进行合理设置[15-17,20]。

资格迹衰减因子λ设置为0<λ<1,其作用是在状态动作对间分配信誉。对于长时延系统,它影响收敛速度及非马尔可夫效果。一般来说,回溯法中λ能被看作为时间标度因素。对于Q函数误差来说,小的λ意味着很少的信誉被赋予到历史状态动作对,而大的λ表明分配到了更多的信誉。

折扣因子γ设置为0<γ<1,为Q函数将来的奖励提供折扣。在以热电厂为主导的LFC控制过程中,由于最新的奖励最重要,所以应该选取近似1的值[20]。实验证明0.6<γ<0.95具有更好的效果,选取γ=0.9。

Q学习率α设置为0<α<1,对Q函数的收敛速率即算法稳定性进行权衡。更大的α可以加快学习速度,而更小的α能提高系统的稳定性。在预学习过程中,我们选择α的初始值为0.1,以获得总体的探索[17],然后为了逐渐提高系统的稳定性,它将以线性方式减少。

2.4狼爬山算法流程

狼爬山算法流程如图1所示,嵌入了狼爬山算法的SGC控制器具有如下特性:①某一区域的控制策略仅在本区域有效;②在所有区域不能与此同时更新值函数Qk+1(s,a),因此对于所获得的最优策略不可避免地产生了时延。

图1 基于狼爬山的第i个智能体的SGC执行流程Fig.1 Execution steps of the DWoLF-PHC(λ)-based SGC for agent i

3 算例研究

3.1两区域LFC电力系统

所提出的多智能体SGC策略已在两区域LFC电力系统中进行了测试[20],系统参数设置可参见文献[21]。SCG的运行周期是3 s,且在二次调频中具有20 s时延Ts。对于狼爬山来说,在最终的在线运行之前通过离线试错而进行充分的预学习是必要的,包括在CPS状态空间中的大量探索以优化Q函数和状态值函数[22]。图2为由一个连续10 min正弦扰动而产生的每个区域的预学习。由图可发现狼爬山收敛到两个区域都具有合格CPS1(CPS1的10 min平均值)和EAVE-10-min(ACE的10 min平均值)的最优策略。

然而使用一个2范数的Q矩阵‖Qik(s,a)-Qi(k-1)(s,a)‖2≤ζ(ζ为已知常量)作为最优策略预学习的终止标准[20]。图3为预学习期间A区域Q函数差分的收敛结果。与DCE Q(λ)相比收敛速度提高了40%。

图2 两区域所获得的狼爬山的预学习Fig.2 The pre-learning of DWoLF-PHC(λ)obtained in two area

图3 预学习期间A区域Q函数差分的收敛结果Fig.3 Q-function differences convergence result obtained in area A during the pre-learning

为了评估算法的鲁棒性,A区域在阶跃负荷扰动下,对Q学习、Q(λ)学习、DCE Q(λ)和WoLF-PHC与狼爬山进行对比分析。对于狼爬山算法,在两个区域中根据式(11)选择相同的奖励函数,权重因子选取为η1=1,η2=10,μ1=μ2=10。图4a显示它们的超调量分别为22.5%、18%、6%、2.5%和0%,并且它们的稳态时间分别为450 s、350 s、320 s、150 s和100 s,与DCE Q(λ)相比,狼爬山的收敛速度提高68%。图4b和图4c显示CPS1和ACE的最小值也是狼爬山算法表现最佳。

图4 5种SGC控制器的控制性能对比图Fig.4 Control performance obtained by five SGC controllers

表3列出了A、B区域不同的非马尔可夫环境下每个算法的控制性能,选取具有不同二次调频时延Ts及不同爬坡速率(Generation Rate Constraint,GRC)的8个火电机组进行测试。表中,Tc为预学习的平均收敛时间,ΔF和CPS1取预学习之后24 h的平均值,(CPS2)表示1 min ACE绝对值的平均值。由表3可看出,随着Ts的变大Tc明显增长,因此需要更多的迭代次数以获得最优策略。然而,当Ts增加或GRC较少时,CPS指标仅轻微地弱化,因此火电占优的非马尔可夫LFC问题可有效得到解决。

表3 不同时延所获得的统计特性Tab.3 Statistic performances obtained under different time-delays

3.2南方电网模型

采用的南方电网四省区互联负荷频率响应模型可参见文献[14,20,23,24]。通过超过30天的扰动统计实验对多智能体SGC的长期性能进行评估。分别对4种控制器,即Q(λ)学习、R(λ)[22]学习、DCE Q(λ)和狼爬山进行测试。表4和表5分别列出了在标称参数和扰动参数下所获得的统计结果。

为了设计变学习率以获得SGC协调,多智能体SGC提供了平均策略值。根据Tc、CPS值、顺调次数、反调次数,从表4和表5可发现,狼爬山与其他算法相比具有更优的控制性能。

表4 南网模型在标称参数下所获得的统计性能Tab.4 Statistic experiment results obtained under the nominal parameter in the CSGmodel

3 结论

对于狼爬山算法,每个区域智能体不会减少与其他智能体之间的信息交换,而是时刻感知到其他智能体的动作引起的状态变化。控制系统是多智能体系统,每个区域都嵌入了狼爬山算法,与DCE Q算法相比,看似Q学习一样的单智能体算法,每个算法中都只有一个智能体,其他智能体动作会对当前的状态及下一时刻状态产生影响,这也就是所谓的智能体联合动作,而智能体会随状态的变化而随时变化学习率,这是狼爬山比Q学习优越的地方。事实上,如前言中所列举的Minimax-Q、Nash-Q、Friend-or-Foe Q和DCE Q等多智能体学习算法本质上都是属于多智能体之间的博弈,都可以归纳为纳什均衡博弈。但不同于静态博弈场景,对于属于动态博弈的控制过程,纳什均衡解在每个控制时间间隔的搜索速度并不一定都能满足控制的实时性要求。所提出的狼爬山方法是通过平均策略取代多智能体动态博弈的均衡点求解,因此从博弈论的观点来看,狼爬山方法可以看作是一种高效、独立的自我博弈,降低了与其他智能体之间实时信息交换和联合控制策略的求解难度。总的来说,主要贡献如下:

表5 南网模型在10%白噪声参数下所获得的统计性能Tab.5 Statistic experiment results obtained under a 10%white noise parameter perturbation in the CSGmodel

1)基于WoLF-PHC,融合SARSA(λ)和资格迹开发了一种新颖的狼爬山算法,能有效解决随机博弈求解和在非马尔可夫环境的应用问题。

2)通过随机动态博弈的一种合适的赢输标准,引入变学习率及平均策略以提高狼爬山动态性能。

3)基于标准两区域负荷频率控制电力系统模型及南网模型,对多种智能算法进行了SGC协调的仿真实例研究。仿真结果表明,与其他智能算法相比,狼爬山能够获得快速的收敛特性及学习效率,在多区域强随机互联复杂电网环境下具有高度适应性和鲁棒性。

[1]温步瀛.计及调速器死区影响的两区域互联电力系统AGC研究[J].电工技术学报,2010,25(9):176-182.

Wen Buying.Research on AGC of two-area interconnected power system considering the effect of the governor dead band[J].Transactions of China Electrotechnical Society,2010,25(9):176-182.

[2]付鹏武,周念成,王强钢,等.基于时滞模型预测控制算法的网络化AGC研究[J].电工技术学报,2014,29(4):188-195.

Fu Pengwu,Zhou Niancheng,Wang Qianggang,et al. Research on networked AGC system based on delay model predictive control algorithm[J].Transactions of China Electrotechnical Society,2014,29(4):188-195.

[3]赵旋宇.南方电网直调机组AGC研究[J].电力系统保护与控制,2008,36(7):54-58.

Zhao Xuanyu.Research on AGC for generations directly controlled by CSG[J].Power System Protection and Control,2008,36(7):54-58.

[4]Pandey S K,Mohanty S R,Kishor N.A literature survey on load-frequency control for conventional and distribution generation power systems[J].Renewable and Sustainable Energy Reviews,2013,25(5):318-334.

[5]Oneal A R.A simplemethod for improving control area performance:area control error(ACE)diversity interchange[J].IEEE Transactions on Power Systems,1995,10(2):1071-1076.

[6]杜贵和,王正风.智能电网调度一体化设计与研究[J].电力系统保护与控制,2010,38(15):127-131.

Du Guihe,Wang Zhengfeng.Design and research on power network dispatching integration of smart grid[J]. Power System Protection and Control,2010,38(15):127-131.

[7]吴国沛,刘育权.智能配电网技术支持系统的研究与应用[J].电力系统保护与控制,2010,38(21):162-166,172.

Wu Guopei,Liu Yuquan.Research and application of technology support system for smart distribute grid[J]. Power System Protection and Control,2010,38(21):162-166,172.

[8]尹明,王成山,葛旭波,等.中德风电发展的比较与分析[J].电工技术学报,2010,25(9):157-163.

Yin Ming,Wang Chengshan,Ge Xubo,et al. Comparison and analysis of wind power development between China and Germany[J].Transactions of China Electrotechnical Society,2010,25(9):157-163.

[9]Daneshfar F,Bevrani H.Load-frequency control:a GA-based multi-agent reinforcement learning[J].IET Generation Transmission&Distribution,2010,4(1):13-26.

[10]Bevrani H,Daneshfar F,Hiyama T.A new intelligent agent-based AGC design with real-time application[J]. IEEE Transactions on Systems,Man,and Cybernetics,Part C:Applications and Reviews,2012,42(6):994-1002.

[11]Littman M.A generalized reinforcement-learningmodel:convergence and applications[C].Proceedings of the 13th International Conference on Machine Learning,Bari,Italy,1996:310-318.

[12]Hu J,Wellman M P.Multiagent reinforcement learning:Theoretical framework and an algorithm[C].Proceedings of 15th International Conference on Machine Learning,Madison,1999:242-250.

[13]Littman M L.Friend or foe Q-learning in general-sum Markov games[C].Proceedings of the 18th International Conference on Machine Learning,Williamstown,Massachusetts,2001:322-328.

[14]Yu Tao,Xi Lei,Yang Bo,et al.Multi-agent stochastic dynamic game for smart generation control[J].Journal of Energy Engineering,2015,DOI:10.1061/(ASCE)EY.1943-7897.0000275:04015012.

[15]Bowling M,Veloso M.Multiagent learning using a variable learning rate[J].Artificial Intelligence,2002,136(2):215-250.

[16]Peng Jing,Williams R J.Incremental multi-step Q-learning[J].Machine Learning,1996,22(1-3):283-290.

[17]Sutton R S,Barto A G.Reinforcement Learning:An Introduction[M].Cambridge:MIT Press,1998.

[18]Watkins C J H,Dayan P.Q-learning[J].Machine Learning,1992,8(3/4):279-292.

[19]Sutton R S.Learning to predict by the methods of temporal differences[J].Machine Learning,1988,3(1):9-44.

[20]Yu T,Zhou B,Chan K W,et al.Stochastic optimal relaxed automatic generation control in Non-Markov environment based on multi-step Q(λ)learning[J]. IEEE Transactions on Power Systems,2011,26(3):1272-1282.

[21]Elgerd O I.Electric Energy System Theory-An Introduction[M].2nd ed.New York:McGraw-Hill,1982.

[22]Ernst D,Glavic M,Wehenkel L.Power systems stability control:reinforcement learning framework[J]. IEEE Transactions on Power Systems,2004,19(1):427-435.

[23]Yu T,Zhou B,Chan K W,et al.R(λ)imitation learning for automatic generation control of interconnected power grids[J].Automatica,2012,48(9):2130-2136.

[24]Xi Lei,Yu Tao,Yang Bo,et al.A novelmulti-agent decentralized win or learn fast policy hill-climbing with eligibility trace algorithm for smart generation control of interconnected complex power grids[J].Energy Conversion and Management,2015,103(10):82-93.

A Fast M ulti-agent Learning Strategy Base on DW oLF-PHC(λ)for Smart Generation Control of Power System s

Xi Lei Yu Tao Zhang Xiaoshun Zhang Zeyu Tan Min
(School of Electric Power South China University of Technology Guangzhou 510641 China)

This paper proposes amulti-agent(MA)smart generation control scheme for the coordination of automatic generation control(AGC)in the power grid with system uncertainties.A novel MA new algorithm,i.e.DWoLF-PHC(λ)with a multi-step backtracking and a variable learning rate,is developed,which can effectively identify the optimal average policies under various operating conditions by the control performance standard(CPS).Based on the mixed strategy and the average policy,the algorithm is highly adaptive in stochastic Non-Markov environments and large time-delay systems and can also achieve AGC coordination in interconnected complex power systems in the presence of increasing penetration of renewable energies.Simulation studies on both a two-area load-frequency control(LFC)power system and the China Southern Power Grid model have been done respectively.The results show that the algorithm can achieve the optimal average policies,the closed-loop system has excellent properties,and the algorithm has a fast convergence rate and a higher learning ability compared with other existing intelligentmethods.

Smart generation control,DWoLF-PHC(λ),variable learning rate,average policy

TM732

席磊男,1982年生,博士研究生,研究方向为电力系统优化运行与控制。(通信作者)

余涛男,1974年生,教授,博士生导师,研究方向为复杂电力系统的非线性控制理论和仿真。

国家自然科学基金(51177051、51477055)、国家重点基础研究发展(973)计划项目(2013CB228205)和广东省绿色能源技术重点实验室项目(2008A060301002)资助。

2015-01-05改稿日期2015-08-24

猜你喜欢
混合策略模糊化爬山
([0,1],[0,1])-模糊拟阵的基和秩函数
餐饮娱乐空间的“边界模糊化”态势探讨——餐饮娱乐空间设计专辑
难忘那次爬山
三角模糊数去模糊化对VIKOR妥协解的影响研究
爬山
爬山
混合策略的汉维辅助翻译系统的设计与实现
基于连续混合策略对长期蜈蚣博弈的分析①
注册制背景下上市公司与投资者的博弈分析
有趣的爬山