风光储制氢下多台制氢机组优化调度研究①

2022-03-09 07:17:38雷兆明康学斌

高技术通讯 2022年1期

董砚卢禹雷兆明康学斌

(河北工业大学电气工程学院天津 300130)

0 引言

人们已经愈发重视能源危机和环境问题,清洁的可再生能源作为可持续发展的重要组成,对传统的化石燃料的替代作用也日益凸显。我国风能和太阳能分布广泛、资源丰富并且在时空上有天然的互补性,越来越受到人们重视[1]。随着我国大力推进绿色低碳能源,以风能、太阳能为代表的新能源将继续保持快速发展[2]。

风能和太阳能的间歇性和波动性使得对其消纳变得困难,所以常结合储能装置形成微电网[3]。文献[4]采用混合储能系统降低可再生能源输出功率的波动程度,提高了输出功率的质量,使风电更容易被消纳。文献[5]通过对储能电池的控制解决风电场短期计划出力的跟踪问题,能够促进风电消纳。文献[6]采用一种煤风氢能源网结构,通过制氢的方式消纳风电。文献[7]利用抽水蓄能电站来抑制可再生能源发电的波动,最大化可再生能源的消纳。文献[8]对微电网源荷储协调优化调度进行研究,改善了源荷两侧的匹配度并能提高系统的风光消纳量。

上述文献中都通过各种方式促进可再生能源的消纳,其中平抑波动和追踪计划出力曲线研究较多,制氢与储能结合的调度研究较少。制氢已成为当下热点,但研究重点放在系统的整体性能上,并未对制氢环节进行扩展。因此,本文研究含有多台制氢机组的风光储制氢系统,采用改进时序差分算法和多目标粒子群优化算法分别对多台制氢机组和储能电池调度来追求经济效益,其中储能电池的调度为辅助作用,用来使风光出力曲线匹配制氢出力曲线,并通过算例分析测试算法性能。

1 问题描述及数学模型

本文在给定风电、光伏功率下,对储能电池和多台制氢机组进行调度。制氢机组的功率-效率曲线[9-11]是调度的基础(见图1)。制氢机组效率随着输入功率增加而变小,在调度多台制氢机组时平均分配功率会使整体效率最大,因此对多台制氢机组的调度为机组的运行-待机间的切换调度,即运-待调度。

图1 PEM 制氢机组功率-效率曲线

1.1 目标函数

1.1.1 多台制氢机组调度目标函数

多台制氢机组调度的目标是经济效益最高。

其中,T 为总时段数;Nt为t 时段机组运行个数;Put为t 时段风光出力功率;F 为收益函数,F(Put/Nt)=cΔtFH2(Put/Nt);c 为氢气售价;Δt 为时间间隔;FH2为氢气产量函数;α 为机组使用代价,为负值。

1.1.2 储能电池调度目标函数

储能电池调度为多目标优化调度,目标分别是制氢机组出力曲线与储能电池调节后风光出力曲线最大可能的匹配和储能电池参与下经济效益最高。

其中,Pbt为t 时段储能电池功率,电池放电为正值,充电为负值;Pet为t 时段多台制氢机组所耗功率,当Put+Pbt在其出力范围内时取Put+Pbt值,否则取边界值;函数中(Put+Pbt)/Nt值超出制氢机组出力上限时取上限值,低于下限时该时段收益为F(Pmin)(Put+Pbt)/Pmin+αNt。

1.2 约束条件

1.2.1 功率平衡约束与制氢机组运行约束

功率平衡约束为

制氢机组出力上下限约束为

制氢机组运-待时间约束为

其中,To,min和Ts,min分别是最小运-待时间,To和Ts分别是机组运行和待机时间。

1.2.2 储能电池运行约束

储能电池充放电功率约束[12]为

其中,Pbmin为最大充电功率,为负值;Pbmax为最大放电功率,为正值。

储能电池荷电状态约束[12]为

其中,Emin为电池最小剩余电量,Emax为电池最大剩余电量,Et为第t 个时段末电池的剩余电量。各时段剩余电量的递推关系如下所示。

其中,ρ 为蓄电池的自持放电率;ΔEt为第t 个时段的电量变化,正值表示放电,负值表示充电;ηc和ηd分别为外部电网对电池的充电效率和电池内部的放电效率;Δt 为时间间隔。

储能电池剩余电量约束为

其中,E0为初始剩余电量,ET为最终剩余电量。储能电池需要连续使用,因此最终剩余电量与初始剩余电量差距应尽可能得小,此处设置罚函数处理为λ(ET-E0)2,其中λ 为惩罚因子,为负值。

2 模型求解

调度目标为储能电池和多台制氢机组,其中对多台制氢机组的调度是离散解区间的调度问题,采用改进时序差分算法。储能电池的调度是连续解区间的调度问题,采用多目标粒子群优化算法。

2.1 改进时序差分算法

时序差分算法(temporal-difference algorithm,TDA)是强化学习中最为核心的算法,是蒙特卡洛思想和动态规划(dynamic programing,DP)思想的结合。与蒙特卡洛方法类似,TDA 不需要环境动态模型,可以直接从原始经验中学习。与DP 一样,TDA根据其他学习估计更新估计,而无需等待最终结果[13]。改进时序差分算法(improved temporal-difference algorithm,ITDA)将蒙特卡罗思想融入动态规划,用样本表征环境。

2.1.1 状态空间

将各制氢机组每个时段的不同运-待安排设定为环境的一个状态,表示为Stn,每个时段的任一状态的任一动作都只指向下一个时段的各个状态(见图2)。

图2 状态空间

2.1.2 样本采集

按时段随机生成方案,同时考虑制氢机组运-待约束和出力约束,将不满足约束的方案剔除并重新生成。第1 个时段运-待方案生成后,考虑历史运-待情况下,再生成第2 个时段。以此类推,得到方案样本。其中若某一时段重复一定次数仍不能得到方案,则重新生成。将方案样本带入目标函数求出各个状态的奖励R 并记录,重复上述过程得到改进时序差分算法的样本集。

2.1.3 重要性采样率

改进时序差分算法用样本表征环境,环境的发生概率由样本表现,所以随着策略更新需要重复采样,这加大了算法的复杂性,因此引入重要性采样率来避免这个问题,仅使用同一样本集即可完成算法。重要性采样率为

其中,π(a| s) 为目标策略,b(a | s) 为行为策略。目标策略采用ε-greedy 策略求得,行为策略为均等概率选择动作。ε-greedy 策略即大多数时间选择有最大动作价值的动作,但是有ε 的概率选择随机的动作。对所有非贪心的动作,选择它的概率是ε/A(s),其中A(s) 是动作总数,对于贪心的动作,选择它的概率是1 -ε+ε/A(s)。

2.1.4 价值函数更新

随着重要性采样率的引入,状态价值函数V(s)更新式有所改变,如下所示:

其中,α1为状态步长因子;γ 为衰减因子;ρ 为重要性采样率;R 为奖励,其值为该时段的收益;β 为原式中步长因子α1的替代,用于适应ρ 驱动下状态价值函数额更新,当ρ 为1 时,β=α1。

动作价值函数Q(s,a) 更新如下:

其中,α2为动作步长因子,V(s) 为状态价值函数。

2.2 多目标粒子群优化算法

多目标粒子群优化(multi-objective particle swarm optimization,MOPSO)算法[14]是在粒子群优化(particle swarm optimization,PSO)算法[15]基础上建立的,于2004 年被提出。其保留了PSO 使用简单的速度-位置模型实现对整个解空间寻优的方式,对个体极值和全局极值的选取做了如下变动:(1)对于个体极值,MOPSO 算法在不能严格对比出哪个更好的情况下随机选择其中的一个;(2)对于全局极值,MOPSO 算法在外部存档中根据拥挤程度选择,拥挤程度越小,选择概率越大。

2.2.1 速度-位置更新公式

粒子的速度和位置按式(15)进行更新。

其中,ω 为惯性权重,c1和c2为学习因子,r1和r2为[0,1]之间的随机数,vi和xi为第i 个粒子的速度和位置,pi为第i 个粒子的个体极值,pg为全局极值,d 为维数。

较大的惯性权重有利于全局寻优,较小的则有利于局部寻优。为了使算法在开始时具有较好的全局搜索能力,在迭代后期具有较好的收敛效果,采用变动惯性权重ω,其更新公式为

其中,ωs为初始惯性权重,ωe为终止惯性权重,t 为当前迭代次数,tmax为最大迭代次数。

2.2.2 粒子的设定与更新及种群初始化

粒子的设定将调度时段数设定为粒子的维度,将各个时段的储能电池出力情况值设定为对应维度的值。

粒子的更新每次迭代更新粒子的速度和位置,如果速度超出限制则取边界值,同时位置超出限制则重新生成。重复一定次数后依然没有可行解则采用原值。

种群初始化每个时段的充放电功率都会影响以后时段的充放电,首先从第1 个时段开始,根据初始电量和储能电池出力约束确定第1 个时段储能的充放电功率范围。然后从这个范围内随机取一个值作为本段的充放电功率,求出本段末的剩余电量作为下一时段的初始电量。第2 个时段同第1 时段一样,以此类推产生一个粒子。用同样的方式产生种群。

2.3 算法整体流程

结合改进时序差分算法和多目标粒子群优化算法得到具体的算法流程如图3 所示。

图3 算法流程图

3 算例分析

本文研究内容为实际工程研究项目的预研任务,根据实际项目的设备参数建立了含有5 台制氢机组的风光储制氢模型,进行仿真实验验证调度算法。由于工程项目还在建设中,对实体机组的调度需要待工程建设完成后验证。其中风电装机容量为4 MW,光伏装机容量为2 MW;储能电池最大充放电功率为0.6 MW,最大电量为2 MW·h,最小电量为0.2 MW·h,初始电量为1.2 MW·h,充放电效率均为0.87,放电率为0.005[12];制氢机组最大出力功率和最小出力功率分别为2 MW 和0.8 MW,最小运-待时间均为2 h,使用代价为40 元/h;氢气售价为40 元/kg[6]。风光预测出力曲线如图4 所示。

图4 风光预测出力曲线

将风光预测出力曲线分成24 时段对多台制氢机组进行调度,每个时段值为该时段平均值。改进时序差分算法参数为步长因子α1为0.01,步长因子α2为0.2,衰减因子γ 为0.9,ε-greedy 策略中ε 为0.1,样本数为2 万个。与分布估计算法(estimation of distribution algorithm,EDA)进行对比,分布估计算法有随机性,所以运行50 次结果取平均值。本文方法在样本集确定后结果将不会改变,所以在10 个样本集下运行结果取平均值,如图5 所示。可以看出,2 种算法下收益随着迭代次数的增加而增加。改进时序差分算法(ITDA)仅需5 次迭代便可收敛,而EDA 算法需要16 次才能收敛,并且改进时序差分算法的最终收敛值也要高于EDA 算法,改进时序差分算法有更好的收敛性和收敛值。

图5 改进时序差分算法与分布估计算法收敛曲线

多台制氢机组的调度是在24 个时段下,并且每个时段为该段平均值,将得到的方案作用于96 个时段下可能出现某些时段匹配不好的情况,如图6 所示。调度储能电池可以优化这个问题。

图6 风光出力与制氢出力曲线

MOPSO 算法参数为种群规模为40,迭代次数为500,粒子的速度范围为[-0.06,0.06],初始惯性权重ωs为0.8,终止惯性权重ωe为0.5,学习因子c1和c2均为2。算法运算效果如图7 所示。可以看出,随着迭代次数增加,收益整体呈上升趋势,匹配误差呈下降趋势。图中收益值并未加入罚函数,在算法运算的时候,为了使储能电池最后剩余电量趋近于初始电量,在目标函数上引入罚函数,匹配结果如图8 所示。可以看出,储能电池优化后2 条曲线匹配程度远优于图6,但是在30 时段附近仍有较大出入,这是因为储能电池的出力限制导致的。

图7 多目标粒子群优化算法收敛曲线

图8 风光储出力与制氢出力曲线

储能电池的调度同时考虑了连续使用性,其各时段剩余电量如图9 所示。可以看出,储能电池各时段剩余电量均满足荷电状态约束,最终剩余电量也十分接近初始电量,有很好的连续使用性。

图9 储能剩余电量

4 结论

本文研究调度多台制氢机组和储能电池来消纳风电和光伏。需要面对风电和光伏的间歇性和波动性以及制氢设备和储能电池的出力限制和使用限制。采用文中所述改进时序差分算法对多台制氢机组调度具备更好的算法收敛性和收敛值,更具有经济性。但随着时段数的扩大,制氢设备出力难以很好地匹配风光出力,储能电池的加入并通过多目标粒子群算法调度在处理这个问题上取得了很好的效果。

能动地调度多台制氢机组可以调节制氢效率,扩大出力区间,更具备经济性和消纳性。储能电池的参与也能进一步提高系统的消纳能力。本文所述风光储制氢系统可以兼顾经济性和消纳性,能够适应风能和太阳能的间歇性和波动性,为风电和光伏消纳方案的制定提供了新的思路。