陈载宇,李 阳,殷明慧,顾伟峰,刘建坤,邹 云
(1.南京理工大学自动化学院,江苏南京 210094;2.北京金风科创风电设备有限公司,北京 100176;3.国网江苏省电力有限公司电力科学研究院,江苏南京 211103)
在额定风速以下,变速风电机组(以下简称风机)的最大化风能捕获依靠最大功率点跟踪(maximum power point tracking,MPPT)控制实现.MPPT控制可分为叶尖速比法、最优转矩法和爬山法等几类方法[1-2],其原理均是通过风机的转速调节使叶尖速比能够始终维持在最优值,进而使风能利用系数最大.
早期的MPPT控制大多未考虑风速及受其影响的最优转速的波动特性[3-4],而实际中不断变化的风速使风机难以始终运行于最优叶尖速比,导致风能捕获效率低于理论上的最大值[5-6],并造成跟踪损失[7].随着低风速地区风能资源的开发利用以及单机容量的不断增大,上述问题愈加凸显.更低的平均风速、更高的湍流强度和更大的转动惯量都给依靠MPPT控制实现最大化风能捕获带来了挑战.
叶尖速比法直接依据MPPT思想,以最优叶尖速比对应的最优转速为跟踪目标,通过闭环反馈控制实现MPPT.近年来,为改善湍流风速条件下MPPT控制效果,非线性反馈控制[8-9]、滑模控制[10-12]、预测控制[13]等方法在叶尖速比法框架下得到应用,提升了风机在湍流风下的转速跟踪性能.本质上,上述方法均聚焦于通过减小转速跟踪误差来提升风机的风能捕获效率.
但从执行器的角度看,转速跟踪误差的减小通常依赖于不平衡转矩的增大,在工程实施时存在风机设备运行方面的限制:一方面,发电机有限的电磁转矩调节范围使不平衡转矩不可能无限地增大,限制了风机转速的变化率,导致大惯量风机难以实时精确地跟踪快速变化的最优转速[14];另一方面,激进的电磁转矩调节会增大风机各部位的载荷[9],同时更加剧烈的电磁功率波动也不利于风电并网和消纳[15].
上述问题使得大惯量风机的MPPT存在不可避免的慢动态特性.针对这一问题,文献[14]提出了参考输入优化的思想,通过设定匹配风机慢动态特性的参考转速提升风机在湍流风下的风能捕获效率.在此基础上,本文研究进一步发现,平均转速跟踪误差与整体的风能捕获效率并非单调关系,即前者的减小并不一定意味着后者的增大.究其原因在于,高/低风速下转速跟踪误差的减小对于风能捕获提升作用存在明显差异.因此,当前关注减小转速跟踪误差的MPPT控制器设计难以适用于大惯量风机的最大化风能捕获.
为此,本文针对叶尖速比法提出了一种基于参考输入优化的最大化风能捕获方法,直接以提升风能捕获效率为目标对参考转速进行优化.区别于传统的参数优化,该方法需要优化的是参考转速的时序轨迹.考虑到当前控制理论中尚缺少适用于参考输入优化的成熟理论,且参考转速对风能捕获效率的复杂影响难以准确建模,本文利用深度确定性策略梯度(deep deterministic policy gradient,DDPG)强化学习算法实现参考输入优化.仿真结果表明,在奖励函数的引导下,智能体能够生成匹配风机慢动态特性且尽可能减小跟踪损失的转速跟踪目标,进而有效提升湍流风下风机的风能捕获效率.
本节主要介绍风机模型和叶尖速比法实现风机MPPT控制的原理,作为后文论述的基础.
风机捕获的气动功率Pa可表示为
式中:ρ为空气密度;R为风轮半径;v为风速;CP为风能利用系数.
风能利用系数CP反映了风机捕获风功率的多少,由风机的气动特性决定,随叶尖速比λ和桨距角β变化.其中:叶尖速比表示叶尖线速度与风速的比值,即
式中:ωr为风机转速.额定风速以下桨距角一般保持恒定,因此该阶段风能利用系数可视为叶尖速比的函数.如图1所示,风机的最优叶尖速比λopt对应最大风能利用系数即当叶尖速比达到最优值时风机能够最大限度地捕获风能.而当叶尖速比偏离最优叶尖速比时,风能利用系数也会随之减小.
图1 风能利用系数-叶尖速比关系曲线Fig.1 CP-λ curve
风机的传动链可由包括双质量块模型、三质量块模型和六质量块模型在内的多种模型描述.但若将传动链近似看作是刚性的,即假设轴上各部位的转速始终相同,则可以简化得到如下的单质量块模型[10]:
其中:
式中:Dt为传动链等效阻尼,Dr和Dg分别表示齿轮箱低速侧和高速侧的外阻尼;Jt为风机等效转动惯量,Jr和Jg分别表示风轮和发电机的转动惯量;Tr为气动转矩,与气动功率Pa的关系为PaTrωr;Tg为发电机电磁转矩;ng为齿轮箱变速比.
在MPPT控制中,从时间尺度上看电磁动态要远远快于机电动态,因此可以将二者分别视为快慢子系统解耦处理[16].本文内容主要针对机电动态,因此忽略发电机电磁转矩调节的电磁动态,直接将发电机电磁转矩视为系统的控制输入[8].
MPPT控制以最大化风能捕获为最终目标.风机捕获的总能量E可表示为
叶尖速比法将该最大化风能捕获问题转化为跟踪控制问题,以闭环系统的稳定为前提,通过反馈调节使风机转速跟踪最优叶尖速比对应的最优转速[1].根据式(2),最优转速可表示为
在此基础上,针对叶尖速比法的MPPT控制研究主要关注转速跟踪控制器的设计,目的是使风机在变化的风速下能够尽可能精确地跟踪最优转速.
本节首先分析风机慢动态特性对转速跟踪的影响,进而阐述传统以减小转速跟踪误差为目标的MPPT控制器设计存在的局限性,即平均转速跟踪误差与整体的风能捕获效率并非单调关系.在此基础上,提出基于参考输入优化实现最大化风能捕获的原理和框架.
传统的叶尖速比法将最优转速作为跟踪目标,转速跟踪效果关系着风机能否高效率地捕获风能.而由式(5)可知,最优转速随风速变化.若要精确跟踪最优转速,则需要保证风机能够及时地加速和减速以响应风速变化.
然而,风机的加速和减速受转动链上的不平衡转矩影响,其转速控制依赖于电磁转矩调节实现.受限于发电机的电磁转矩有限的调节范围,风机转速变化率也相应地存在一定的范围,且该范围可根据式(3)计算得到[14]
可以发现,风机转速变化率的范围主要受风速条件、结构参数和电磁转矩调节范围的影响.值得注意的是,风机的转动惯量与转速变化率成反比,显著影响转速变化率的范围.因此对于大型风机的MPPT控制,转速跟踪效果不仅取决于跟踪控制器的性能,同时也受限于风机自身的结构参数.
风机的慢动态特性在当前MPPT控制研究中已受到关注[17-19],但相关问题的讨论往往只针对某一特定的控制器.而事实上,上述问题从控制视角来看可视为存在执行器饱和,改进控制器很难改变风机慢动态特性,仅可在一定程度上减小饱和对控制效果的不利影响.当控制器下达的电磁转矩指令超过发电机的可执行范围时,控制系统便难以实现预期的控制效果,甚至影响系统的稳定性.
由于湍流风速在不断变化,风机需要不断地调整转速以跟踪随风速变化的最优转速.由第3.1节的分析可知,受自身慢动态特性影响,风机难以精确跟踪最优转速,会不可避免地出现转速跟踪误差.
由图1可知,当由转速决定的叶尖速比偏离最优值时,风能利用系数会相应地减小,并因此造成式(4)表示的风机捕获的总能量无法达到理论上的最大值.由式(4)可知,风机偏离最优转速所造成的跟踪损失可表示为
式中:Eloss为跟踪损失;Ploss为气动功率损失;Pmax为风机理论上可捕获的最大功率.
由式(7)-(8)可知,跟踪过程中任意时刻的气动功率损失都会对跟踪损失造成影响,且气动功率损失和转速跟踪误差之间呈单调关系,因此可以通过减小转速跟踪误差的方式减小气动功率损失.但不同时刻因风速不同,转速偏差对气动功率损失的影响程度也不同,使得湍流风下平均转速跟踪误差和跟踪损失之间呈现出复杂的非线性关系:一方面,由式(2)和图1可知,相同的转速偏差会在更高的风速下对应着更小的叶尖速比偏差,因此对风能利用系数的影响也更小;而另一方面,由式(7)-(8)可知,由于气动功率与风速的三次方成正比,减小相同的风能利用系数则会在更高的风速下造成更大的跟踪损失.
上述问题导致平均转速跟踪误差和跟踪损失之间并非单调关系,相同的转速偏差会在更高风速下对跟踪损失造成更为显著的影响,因此减小平均转速跟踪误差未必能够提高风能捕获效率.
为阐述这一发现,图2和表1展示了一组在5 m/s和9 m/s之间周期变化风速下的仿真算例,仿真模型采用CART3风机[20],其风能利用系数曲线如图1所示.分别计算不同转速轨迹下的平均转速跟踪误差和风能捕获效率,其中风能捕获效率[8]通过式(9)计算得到
表1 不同转速轨迹下的转速跟踪和风能捕获比较Table 1 Comparison of tracking and wind energy extraction under different speed trajectories
图2 周期风速(5-9 m/s)下的仿真算例Fig.2 Example under periodic wind speed(5-9 m/s)
式中t0和tf分别为仿真的初始时刻和终止时刻.对比式(8)-(9)可以看出,跟踪损失和风能捕获效率均是由风机捕获的气动功率与其理论上的最大值共同决定的,且二者负相关,都可用于描述风机的风能捕获效果.
仿真算例中,首先以一条风机MPPT控制得到的转速轨迹为基准(标记为“基准转速”).在此基础上,一方面通过更加激进地跟踪最优转速得到一条更快趋于最优转速的转速轨迹(标记为“激进跟踪”),从而减小转速跟踪误差;另一方面通过将基准转速轨迹向上平移,得到一条平均转速跟踪误差与基准转速完全相同的转速轨迹(标记为“上移转速”).
对比3条转速轨迹下风机的平均跟踪误差和跟踪损失可以发现,虽然更加激进的转速跟踪使平均转速跟踪误差和跟踪损失有所减小,但上移转速却在未减小转速跟踪误差的情况下进一步减小了跟踪损失.由此可见,当转速跟踪误差不可避免时,转速跟踪误差的大小并不能真正反映跟踪损失的大小.
由第3.2节可知,受转速跟踪误差与跟踪损失非线性关系的影响,单纯依靠减小转速跟踪误差来减小跟踪损失、提高风能捕获效率的做法是值得商榷的.
然而,不同于以减小转速跟踪误差为目标的控制器设计,减小跟踪损失的目标难以在叶尖速比法框架上实现.其原因在于,反馈控制系统主要关注误差值而非实际物理量,导致对于风机这类具有时变参考输入的系统,面向实际系统状态的优化难以基于最优控制理论实现.而参考输入优化则为该问题提供了一条可行的解决途径.其原理是在保证参考输入能够被控制系统准确、快速响应的前提下,通过优化参考输入实现对系统动态过程的优化.
具体到风机MPPT控制,当参考输入匹配风机慢动态特性时,可以依靠跟踪控制使实际转速跟踪上参考转速.此时,改变参考转速会直接改变风机的转速动态,可以通过参考输入优化使风机运行于最小化跟踪损失的转速上.值得注意的是,上述参考输入优化是以参考转速能够被跟踪上为前提条件的.若该条件尚未满足,即存在较大的转速跟踪误差,则难以通过调整参考转速改变转速动态.
基于参考输入优化的最大化风能捕获方法的原理框图如图3所示.在传统叶尖速比法控制框架的基础上,通过参考输入优化模块生成参考转速,替代气动理论上的最优转速,作为转速跟踪目标.
图3 参考输入优化的控制原理框图Fig.3 Block diagram of reference optimization
在此框架下,参考输入优化的目标是在转速变化速率存在限制的情况下使跟踪损失最小化,即
式中ωref(t)为参考转速轨迹,全时间段的参考转速组成决策变量,在影响风机转速动态的同时决定了风机的跟踪损失.
但在实际中,该目标函数很难被直接应用,主要有如下两方面原因:
1) 决策变量实际上是参考转速的时序轨迹,其优化求解依赖于全时间段的风速.但由于风速在不断变化,很难根据未来时刻风速确定当前时刻的参考转速;
2) 式(10)中转速变化率范围可由式(6)计算得到,但该范围与当前时刻的气动转矩相关,存在复杂的非线性.
因此,实际应用过程中参考输入优化的目标函数需要根据采用的优化方法进行相应的处理,具体参见第4节.
当前控制理论中尚缺少适用于上述参考输入优化问题的成熟理论或方法.同时,受风机气动特性的强非线性和转速跟踪控制器的实际性能的影响,参考转速与风能捕获效率之间的关系难以准确建模,因此很难直接求解最优参考输入.
深度强化学习结合了深度学习和强化学习的特点,既能实现有效的特征提取,也能根据奖励自主决策,因此具有自趋优能力,不需要利用已知的参考转速最优值或风能损失最小值为输入进行训练,有助于实现参考输入优化.目前,深度强化学习已被应用于电网自主控制与决策[21]、动态经济调度[22]、自动发电控制[23]、微电网控制[24]和光储能源站调度[25]等电力系统相关领域.
考虑到参考输入优化需要在连续动作空间内探索并获取参考转速、实际转速和风能捕获量之间的复杂非线性关系,本文采用基于DDPG[26-27]的强化学习算法对参考输入进行优化.在第3.3节的基础上,对深度强化学习进行如下设计:
1) 状态空间包括风机转速ωr,等效风速v,分别用于描述风机当前的转速动态以及所处的运行环境;
2) 动作空间仅含参考转速的变化量Δωref,表示对当前参考转速的修正量;
3) 奖励函数是对增大风能捕获量进行正奖励,同时对增大参考转速变化量进行负奖励,即
其中:
式中:Δωr表示相邻两个时刻风机转速变化量;奖励系数k1>0,k2<0.
在式(10)的基础上,基于DDPG算法的特点分别设计了体现最小化跟踪损失的正奖励和体现参考转速变化率约束的负奖励.
1) 对减小跟踪损失进行正奖励.
式(12)所蕴含的物理意义是:当智能体通过修改参考转速影响风机转速动态后,风机所能捕获的气动功率会发生相应的改变.这种改变刻画了参考转速改变对减小跟踪损失、增大风能捕获的贡献,因而将其作为奖励函数的一部分.值得注意的是,式(12)中的风速需为动作发生时刻的风速,以确保奖励函数能够准确评价该动作的优劣.
2) 对增大参考转速变化进行负奖励.
式(13)将参考转速变化量作为奖励函数的一部分,以避免参考转速出现大幅变化.考虑到式(10)中的约束条件具有强非线性,且并未考虑激进的转速调节对风机载荷的影响,因此将该约束条件转化为针对参考转速变化量的负奖励,并可以通过设置合理的和使生成的参考转速满足式(10)的约束条件.
上述处理主要是为了克服第3.3节所述目标函数难以被直接应用的问题,因此具有一定的保守性:一方面,与叶尖速比法通常只针对当前风速进行转速调节类似,正奖励中仅考虑了当前风速下转速跟踪对气动功率损失的影响;另一方面,负奖励通过抑制参考转速变化间接满足约束条件.然而,虽然智能体难以在该奖励函数的引导下获得式(8)的最优解,但由于其关注风能捕获提升量而非跟踪误差减小量,使智能体根据参考转速变化量对跟踪损失的影响进行决策,因此能够使风机运行在有利于减小跟踪损失的转速轨迹上,更有助于减小跟踪损失.
基于DDPG算法的参考输入优化的实现框图如图4所示,同时将训练后的智能体作为参考输入优化模块.
图4(a)展示了智能体(即参考输入优化模块)与环境(即风机及其转速跟踪控制器)之间的交互过程.算法从智能体与环境交互中学习,即智能体输出探索动作到环境,环境反馈给智能体观测状态与奖励,智能体再通过评价探索动作好坏的奖励更新内部神经网络.通过在环境中不断探索以及内部网络不断更新,智能体趋于学习到使奖励最大的决策.
图4(b)为智能体内部训练的实现原理.DDPG算法利用评价网络和执行网络进行训练,其中评价网络输入状态和动作信号,输出价值函数[26]信号,并利用奖励和价值函数值进行网络参数更新;执行网络输入状态信号,输出动作信号,通过评价网络输出的价值函数值进行网络参数更新.其中:价值函数用于表征智能体在当前状态和动作下平均奖励值的大小.
图4 基于DDPG算法的参考输入优化实现框图Fig.4 Block diagram of reference optimization based on DDPG algorithm
通过不断地训练,各网络参数不断稳定,即智能体不断“成熟”.最终,将训练“成熟”的智能体嵌入系统中进行验证与应用.
本节基于MATLAB/Simulink平台,对基于参考输入优化的最大化风能捕获方法进行仿真验证.
本节选择3 MW机型[28]进行仿真验证,其主要参数如表2所示.转速跟踪控制器采用文献[8]提出的非线性静态反馈控制实现,控制器的控制周期为40 ms.
表2 3 MW风机的主要参数[18,28]Table 2 Parameters of the 3 MW wind turbine
仿真使用的湍流风速序列如图5所示,由Bladed软件基于Kaimal功率谱模拟生成,符合IEC-61400-1标准[29]的A类湍流级别,包括1条训练用风速(平均风速6 m/s,时长200 s)和2条验证用风速(平均风速分别为5 m/s和6 m/s,时长600 s).
图5 湍流风速序列Fig.5 Turbulent wind speed profiles
1) 算法参数的设置.
本文使用的DDPG算法基于MATLAB提供的深度强化学习工具箱实现,算法中的超参数设置根据工具箱中提供的深度强化学习案例和文献[27]确定,并利用试错法进行一定程度的微调,主要参数如表3所示.需要说明的是,智能体中的评价网络和执行网络均为包含3层隐藏层的全连接深度神经网络,各隐藏层神经元个数均为48,且均采用ReLU激活函数.
表3 DDPG算法的主要参数Table 3 Parameters of the DDPG algorithm
系数k1和k2的取值根据风机容量和转动惯量等因素确定,需要在能够得到易于被跟踪的转速跟踪目标的同时避免参考转速难以响应最优转速的变化.在此基础上,系数k1和k2可以依照实际需求和偏好在一定范围内调整,且均可以达到提升风能捕获的效果.为验证不同系数取值下的实际效果,这里分别采用两组不同的系数对智能体进行训练,其中第1组系数为k10.05,k2-100(以下称为智能体1),相对偏向风能捕获效率提升;第2组系数为k10.01,k2-100(以下称为智能体2),相对偏向减小参考转速变化量.
2) 算法的收敛结果.
将上述构建的智能体放入仿真模型中训练,获得训练曲线如图6所示.智能体在环境中完成1次200 s训练即为迭代1个回合,同时获得此回合的回合奖励.计算从第1回合到当前回合的回合奖励平均值获得平均奖励.
从图6曲线可以看出,智能体的训练过程可以分为两个阶段.第1个阶段从第1回合开始,智能体通过与环境的交互以及内部神经网络的更新,不断探索获得最大的奖励值.第2阶段从第110回合(智能体1)和第220回合(智能体2)开始,智能体获得较高的奖励值,已经探索到接近最优参考输入.经过200回合(智能体1)和350回合(智能体2)的训练,曲线收敛并停止训练.考虑到动作探索本身的随机性,奖励曲线在收敛后存在一定程度的波动,这一现象是合理的.在此基础上,针对图5(b)所示的风速序列,使用训练后的智能体对参考输入进行优化,进一步验证本文所提方法.
图6 智能体训练曲线Fig.6 Training curve of the agents
1) 算法有效性和智能体泛化能力验证.
首先验证不同风速下智能体的参考输入优化效果.利用智能体1对参考输入进行优化,得到风机在不同风速下的转速轨迹(如图7所示),同时计算参考输入优化前后效率(如表4所示).结果表明,跟踪经优化后的参考转速有效提升了风机的风能捕获效率.与此同时,不同风速场景下智能体都能够实现参考输入优化,体现出智能体的泛化能力.
表4 不同风速下优化参考输入前后的捕获效率对比Table 4 Comparison of aerodynamic efficiency before and after reference optimization under different wind speed profiles
值得注意的是,图7(a)中展示了由6 m/s到9 m/s的阶跃风速下的风机转速轨迹,从中可以看出在参考输入优化前后,风机稳态下转速近似相同.虽然本文提出的方法并未向智能体直接提供最优叶尖速比信息,但智能体依然能通过训练自行搜索得到不同风速下能够使风能捕获效率最大的转速值,从而引导风机在稳态时运行于最优转速.
图7 不同风速下优化参考输入后的风机转速轨迹Fig.7 Rotor speed trajectory after reference optimization under different wind speed profiles
2) 风能捕获效率的比较.
以文献[8]中的非线性静态反馈控制作为初始的方法(以下称为改进前方法),应用文献[10]中的一阶滑模控制和二阶滑模控制(以下分别称为控制器改进1和控制器改进2),用于观察转速跟踪控制器改进对风能捕获效率的提升效果.同时,利用训练后的智能体1和2分别优化参考输入(以下分别称为参考输入优化1和参考输入优化2),用于观察本文方法的风能捕获效率.仿真结果如图8和表5所示.
如图8(a)所示,受限于风机的慢动态特性,改进转速跟踪控制器仅能小幅减小风机的转速跟踪误差,因此风能捕获效率略有提升.与之相反,图8(b)所示的基于参考转速优化的本文方法,由于限制了参考转速的变化率,转速跟踪误差相较于改进前有所增大.
但正如第3.2节所述,转速跟踪误差的大小并不能反映跟踪损失的多少.由表5可以发现,本文方法在增大转速跟踪误差的同时,反而有效提升了风能捕获效率.由图8(b)的转速轨迹可进一步看出,该方法使风机更加偏重于高风速区间的风能捕获,在风速降低时主动放弃风速跟踪而维持较高的转速.这就减小了风速再次回升时风机因无法及时加速而造成的跟踪损失,体现了智能体的自主决策.可见,相较于改进跟踪控制器蕴含的提升机理(即加速转速跟踪),优化参考输入的风能捕获提升机理是截然不同的.
3) 奖励系数取值的影响分析.
从图8(b)和表5中可以看出,侧重风能捕获效率提升的智能体1会使转速跟踪目标在更大范围内变化,以获得更高的风能捕获效率.相较而言,对于偏向减小参考转速变化的智能体2,转速跟踪目标更加平滑,但风能捕获效率略有降低.总得来说,相较于改进前方法和转速跟踪控制器改进方法,两组系数下智能体生成的参考转速均能够有效提升风能捕获效率.
表5 不同方法转速跟踪误差和风能捕获效率对比Table 5 Comparison of tracking error and aerodynamic efficiency with different methods
图8 不同方法的转速轨迹Fig.8 Rotor speed trajectory with different methods
不同于以往专注减小转速跟踪误差的MPPT控制研究,本文从优化参考输入的视角,研究实现最大化风能捕获的方法,即以减小跟踪损失为目标,借助DDPG算法对参考输入进行优化.该方法实质上是在承认大惯量风机在MPPT过程中存在不可避免、不容忽视的跟踪损失的基础上,以提升风能捕获效率(而非减小转速跟踪误差)为目标,通过优化参考转速(而非改进跟踪控制律),引导风机运行于有利于捕获更多风能的转速上.仿真结果表明,本文方法有效提升了湍流风下大型风机的风能捕获效率.