基于近似动态规划的海上风电制氢微网实时能量管理策略

2022-12-12 01:29:54陈鸿琳刘新苗余浩钟治垚刘文昕艾小猛

电力建设 2022年12期

陈鸿琳，刘新苗，余浩，钟治垚，刘文昕，艾小猛

(1.广东电网有限责任公司电网规划研究中心，广州市 510080；2.广东电网有限责任公司，广州市 510080；3.华中科技大学电气与电子工程学院，武汉市 430074)

0 引言

构建新型电力系统是实现碳达峰和碳中和目标的核心环节[1]。海上风电的年利用小时数高、占地面积小，是一种快速发展的新能源利用模式[2]。但其出力具有随机性和间歇性，对海上风电并网和消纳提出挑战[3]。电解水制氢(power-to-hydrogen,PtH)作为一类无碳化产氢技术，在近年来受到广泛关注[4]。在海上风电系统中引入电解水制氢装置，不仅可以消纳过剩的电功率，还能制备作为工业生产关键原料的氢气[5]，是提高海上风电利用率的重要途径。

目前海上风电制氢技术根据与电网的连接关系可分为并网型和离网型2类[6]。并网型中，电制氢装置可安装于海上或陆上，用于提升并网友好性；离网型中，海上风能经电制氢装置转换成氢气，后续可由输气管道或船舶运输，一定程度降低供电建设成本[7]。由国内外示范项目总结可得，离网型技术更适合深远海范围的海上风电制氢，其制氢及运氢方案的全生命周期经济性评价最高[8]。现有海上风电制氢系统的项目和研究，主要关注点集中在电制氢装置的性能优化。在适应波动功率的电解槽、电力电子变换器以及控制策略等关键技术上取得了突破性进展[9]。然而，鲜有文献关注海上风电制氢系统内部各元件之间的能量分配问题，导致系统整体的能量利用效率偏低[10]。

海上风电制氢系统的能量管理策略指在电制氢装置与加热器等辅助设备之间合理分配海上风电功率，形成多种能源的协同，提高能源利用率。文献[11]建立了海上风电制氢系统的配置优化模型，在全清洁供能的绿氢生产模式下，系统的电能成本可能增大，降低运行经济性。文献[12]建立了海岛微网的能量管理优化模型，电制氢装置不仅提升海上风电利用率，还可以通过出售制备的氢气增加系统收益。

在上述有关能量管理的研究中，海上风电制氢系统运行在确定性场景，即海上风电、电负荷等外部条件固定。然而，在实时运行阶段，系统内海上风电出力、电负荷功率等因素具有不确定性，导致日内实际值与日前预测值存在差异，上述能量管理策略难以达到其效果。所以，亟需开展计及不确定性的海上风电制氢系统的实时能量管理研究。近似动态规划算法(approximate dynamic programming,ADP)作为一类实时优化方法，通过值函数近似来避免动态规划的维数灾问题，已经应用于数据中心[13]和工业园区[14]的能量管理。在满足海上风电制氢系统供需平衡的前提下，ADP可用于应对海上风电出力、氢负荷质量、电负荷功率等因素的不确定性，在随机环境下给出安全、稳定、经济的实时能量管理策略。

综上，本文以海上风电制氢微网系统为对象，针对该系统的实时能量管理策略开展研究。在海上风电出力波动的情形下，协调微网内的各元件以满足电负荷与氢负荷的需求，同时提高海上风电的消纳能力和微网运行的经济性。首先，根据所提海上风电制氢微网的运行原理，建立其能量管理优化模型，并且基于马尔科夫过程进行模型重构。然后，基于近似动态规划提出海上风电制氢微网的实时能量管理策略，采用分段线性函数近似状态值函数，包含离线训练和实时优化两阶段。最后，通过算例分析验证所提实时能量管理策略的有效性和优越性。

1 海上风电制氢微网实时能量管理模型

1.1 海上风电制氢微网运行原理

本文所研究的海上风电制氢微网结构如图1所示，包含海上风电(offshore wind,OW)、电制氢装置、储氢罐、电负荷以及柴油发电机(diesel generator,DG)。在该微网中，海上风电是主要的电能来源，向电制氢装置提供电功率。在电制氢装置内发生电解水反应，电能转换为氢气中的化学能。产生的氢气可存储在储氢罐内，后续再通过运氢船运输至岸上氢负荷，例如炼油或化工合成等。此外，电制氢过程需要一系列辅助设备，如加热器、循环泵等。这些设备与微网内其他用电设备一同构成海上风电制氢微网的电负荷。然而，由于海上风电出力具备不确定性，电制氢装置以及电负荷难以获得稳定的电能供应。考虑使用柴油发电机和外部电网在海上风电出力不足时作为微网的备用电源提供电功率。同时，当海上风电制氢经运氢船运输的氢气不足以满足氢负荷需求时，可以从外部氢源购买氢气来弥补缺额。

图1 海上风电制氢微网结构Fig.1 Structure of offshore wind power-to-hydrogen microgrid

在海上风电制氢微网的运行过程中，海上风电由传统的并网送出模式转变为就地消纳模式，将电能转化为氢能，实现海上风电的柔性接入，促进海上风电消纳。同时，海上风电制氢全过程无碳排放，产生绿色氢能。绿氢在炼油和化工合成等工业领域的应用，将显著加快脱碳进程，促进我国“双碳”目标的达成。

1.2 海上风电制氢微网能量管理优化模型

根据上述的海上风电制氢微网运行原理，可构建该微网的能量管理优化模型，包括约束条件和目标函数两部分。

1.2.1 约束条件

在下列约束条件中，涉及到功率P的变量单位均为kW，涉及到质量M的变量单位均为kg。

海上风电作为海上风电制氢微网的主要能量来源，其出力需满足上下限约束：

(1)

在电制氢装置内，来自海上风电或柴油发电机的电功率被消耗并转换成氢气，其功率需满足上下限约束式(2)。电制氢装置的电-氢能量关系如式(3)所示。氢气存储在储氢罐内，后续可通过运氢船输送至岸上，储氢罐的压力pHS,t用于表示氢气存储的多少，其相邻时刻间的变化关系如式(4)所示。储氢罐的压力也需要满足上下限约束式(5)。

(2)

MPtH,t=ηPtHPPtH,tΔt

(3)

(4)

(5)

柴油发电机和外部电网作为备用电源，其出力PDG,t和Pgrid,t均需要满足上下限约束式(6)和(7)。发电机还受到机组爬坡能力的限制，即爬坡功率约束式(8)。

(6)

(7)

RDG,down≤PDG,t-PDG,t-1≤RDG,up

(8)

本文所提系统包含电能和氢能两部分，需要分别满足电功率平衡式(9)和氢气质量平衡式(10)约束。

POW,t+PDG,t+Pgrid,t=Pload,t+PPtH,t

(9)

Mship,t+Msource,t=Mload,t

(10)

式中：Pload,t、Msource,t、Mload,t分别表示海上风电制氢微网电负荷功率、从外部氢源购买的氢气质量以及岸上氢负荷质量。

1.2.2 目标函数

海上风电制氢微网能量管理的优化目标是最小化运行周期(T个时段)内的总运行成本J，其中单时段的运行成本Ct，包括柴油发电机的发电成本CDG,t、外部电网的购电成本Cgrid,t、外部氢源的购气成本CH2,t以及弃风惩罚成本Cc,t，如式(11)—(16)所示。

(11)

Ct=CDG,t+Cgrid,t+CH2,t+Cc,t

(12)

CDG,t=kDGPDG,tΔt

(13)

Cgrid,t=kgrid,tPgrid,tΔt

(14)

CH2,t=kH2Msource,t

(15)

(16)

式中：kDG表示柴油发电机的成本系数，元/(kW·h)；kgrid,t表示t时刻的外部电网电价，元/(kW·h)；kH2表示从外部氢源购买的氢气单价，元/kg；kwcur表示弃风惩罚系数，本文参考文献[15]，取1元/(kW·h)。

1.3 马尔科夫决策过程重构

上述海上风电制氢微网能量管理优化模型是线性规划(linear programming，LP)问题。虽然可以求解得到该优化问题的最优解，但是这需要在优化决策时获得海上风电制氢微网的全时段精确状态信息。在实时能量管理阶段，这一要求难以得到满足。故本节基于马尔科夫决策过程(Markov decision process,MDP)对海上风电制氢微网能量管理模型进行重构，用于该微网的实时优化。

St={Wt,pHS,t,PDG,t-1}

(17)

xt={POW,t,PDG,t,Pgrid,t,PPtH,t,MPtH,t,Mship,t,Msource,t}

(18)

除外部状态信息外，海上风电制氢微网的状态变量St还包括储氢罐t时刻的压力pHS,t和柴油发电机在t-1时刻的输出功率PDG,t-1，如式(17)所示。上述两者分别受到时段间耦合约束的影响：压力变化约束式(4)和爬坡功率约束式(8)。海上风电制氢微网的决策变量如式(18)所示。

海上风电制氢微网的实时能量管理过程如图2示。

图2 海上风电制氢微网的马尔科夫决策过程Fig.2 The MDP framework of offshore wind PtH microgrid

(19)

然而，在实际问题中，外部状态信息的不确定性具有高维度的特点，容易造成状态变量和决策变量的空间极其庞大，计算负担大，即动态规划方法的“维数灾”问题。

2 基于ADP的实时能量管理策略

针对海上风电制氢微网实时能量管理的“维数灾”问题，本文提出基于ADP的实时能量管理运行策略。在所提策略下，分段线性函数(piece-wise linear function,PLF)用于近似状态值函数，进而求解贝尔曼方程，获得近似最优的决策序列。

2.1 基于PLF的值函数近似方法

首先，ADP的核心思想是采用值函数近似(value function approximation,VFA)方法来降低计算负担，而近似的准确性对决策效果有显著影响。在诸多近似方法中，分段线性函数近似具有数学性质好、易收敛等特点[16]。本文选择基于储氢罐压力的PLF来近似决策后状态值函数，如式(20)所示。

(20)

(21)

(22)

(23)

vm-1,t≤vm,t

(24)

最后，海上风电制氢微网的实时能量管理决策可通过求解式(25)获得，其中Ct由式(11)—(16)决定，而xt需要满足约束式(1)—(10)和式(21)—(24)。

(25)

在所提ADP方法中，实时能量管理决策的最优性受到值函数近似准确性的显著影响。而对于采用PLF近似，影响准确性的关键是PLF各分段的斜率。通过训练和更新PLF斜率，可以减小近似值函数与原值函数的误差，提升近似精度。以第n次迭代过程的t时刻为例，PLF的训练和更新过程如图3所示。

图3 分段线性函数训练和更新过程Fig.3 The training and update of piece-wise linear functions

(26)

然后，基于该采样估计值更新t时刻PLF的第m分段斜率，如式(27)所示。

(27)

式中：β表示斜率更新步长。

更新后的斜率如图3中红色虚线所示，当更新前后斜率相等时，即红色实线与虚线重合时，说明此时近似值函数可以较为精确地拟合原值函数。从物理意义的角度看，分段线性函数的斜率表示单位储氢罐压力变化对系统后续时段总运行成本的影响。如果斜率训练良好，在实时能量管理时，决策可以考虑到储氢罐压力对后续时段的影响，更有可能得到近似的全局最优解。针对其他分段，采用Leveling算法检查和更新其斜率，确保斜率随分段序号增大保持单调递增，PLF仍为凸函数，如式(28)所示[17]。

(28)

最后，经过N次迭代训练，可得到一组准确拟合值函数的分段线性函数斜率，用于海上风电制氢微网的实时能量管理，其可获得近似最优的实时决策。

2.2 基于ADP的海上风电制氢微网能量管理流程

上述值函数近似方法和斜率训练与更新方法为获得海上风电制氢微网的近似最优实时能量管理决策提供基础。基于此，本节提出海上风电制氢微网的能量管理流程，如图4所示，其包含离线训练和实时优化两阶段。

图4 基于ADP的海上风电制氢微网能量管理流程Fig.4 ADP based energy management procedure of offshore wind PtH microgrid

在离线训练阶段，根据训练场景数量确定总迭代次数，在每一次迭代过程中，从第一个时刻开始模拟海上风电制氢微网的实时能量管理。在每一决策时刻，首先，根据1.3节所述内容，由上一时刻的状态变量和当前时刻的外部状态信息更新得到当前时刻的微网状态变量。然后，根据1.2节所述内容，求解能量管理优化模型，得到当前时刻的决策变量。最后，根据2.1节所述内容，对分段线性函数的斜率进行更新，再进入下一决策时刻。

在实时优化阶段，实时能量管理流程与离线训练阶段的一次迭代过程相似，区别在于：实时优化的PLF斜率是经离线训练得到的，不需要再进行训练，决策结束后输出实时能量管理策略，并且直接进入下一决策时刻。综上，本文所提的海上风电制氢微网能量管理优化模型是能量管理策略决策的基础，马尔科夫决策过程重构是相邻时刻间状态转移的基础，而分段线性函数训练和更新过程用于提升实时能量管理策略的优化效果。此外，图4所示能量管理流程中的离线训练和实时优化两阶段不是完全独立的，例如，在完成时长一天的实时优化后，相关变量信息可作为离线训练的场景输入，进一步提升PLF斜率的近似效果，提高能量管理的全局最优性。

3 算例分析

本节通过算例验证所提的海上风电制氢微网实时能量管理策略，并且对比现有的实时能量管理方法，即短视方法(myopic)和模型预测控制方法(model predictive control,MPC)，说明ADP方法的优越性。算例仅考虑分布式离网型海上风电制氢系统的一个单元，即由1台海上风力发电机和电制氢装置以及其他元件构成的微网，海上风电单机容量取300 kW[18]，其余微网参数如表1所示。优化时段总数T=24，分段线性函数共4段，其初始斜率设置等于0，更新步长β=0.1。本文中，MATLAB/YALMIP用于建立所提优化模型并采用GUROBI求解。计算机配置如下：CPU是Intel Core i7 3.80 GHz，内存容量为16 GB。

表1 海上风电制氢微网参数Table 1 Parameters of offshore wind PtH microgrid

(29)

假设海上风电出力、电负荷功率、外部电网电价和氢负荷质量的预测误差服从正态分布，并且标准差分别是10%、5%、5%和5%。基于蒙特卡洛方法生成100组离线训练场景和500组实时测试场景，如图5所示。其中黑实线表示上述物理量的日前预测值，阴影部分表示所有场景的分布范围。

图5 海上风电制氢微网的外部状态信息Fig.5 The external information of offshore wind PtH microgrid

经过100组离线训练场景的迭代后，可以得到一组经训练的分段线性函数斜率，如表2所示。由表2中数据可知，经训练的分段线性函数斜率均为负值，说明提前存储氢气，增大储氢罐压力，可以降低后续时刻的运行成本。同时，斜率逐渐增加保证分段线性函数是凸函数。

为分析在所提基于ADP的实时能量管理策略下，海上风电制氢微网的实时运行状态，从实时测试场景集中选择一个场景，其外部状态信息的日内实际值如图5中的带标记实线所示。

图6为在所选实时场景下，海上风电制氢微网的电功率分配情况。除所提ADP方法外，图中增加由短视方法和MPC方法获得的优化结果，用于不同实时方法的对比。在所选场景下，海上风电实现就地消纳，无弃风现象发生。但在负荷高峰期，海上风电出力降低，难以满足电功率的实时平衡，需要柴油发电机或外部电网来弥补功率缺额。上述两电源的发电决策取决于柴油发电机成本系数和外部电网电价之间的大小关系。当外部电网电价高于柴油发电机的成本系数(0.075元/(kW·h))，即11～22时段，柴油发电机优先发电弥补功率缺额，微网运行成本更低，反之亦然。

图6 海上风电制氢微网的电功率分配Fig.6 The electrical power distribution in offshore wind PtH microgird

电制氢装置作为海上风电制氢微网内的灵活性负荷，其消耗的电功率受到实时能量管理方法的影响。在所提ADP方法下，电制氢装置的总功率最多，达到588.95 kW，说明制备的氢气质量最多。由于微网内电功率总需求增加，电源出力对应增加，发电成本上升。但是，从总运行成本来看，所提ADP方法下，微网总运行成本最低(313.66元)，说明购气成本下降，即多制备的氢气可减少从外部氢源购买的氢气。

图7为在所选实时场景下，各实时能量管理方法的岸上氢负荷质量平衡关系。虽然氢负荷质量一定，但在不同方法下，运氢船和外部氢源的氢气质量占比不同。以外部氢源购买为例，在所提ADP方法下，氢气购买总质量是3.84 kg；在MPC方法下，氢气购买总质量是4.15 kg；在短视方法下，氢气购买总质量是4.96 kg。上述结果说明，在所提ADP方法下，电制氢装置消耗电能制备氢气，可以减少海上风电制氢微网从外部氢源购买的氢气，从而降低购气成本。

图7 岸上氢负荷的质量平衡Fig.7 The mass balance of onshore hydrogen demand

电制氢装置制备的氢气可以存储在储氢罐内，而储氢罐内的氢气可以通过运氢船输送至陆上，上述过程将导致储氢罐压力实时变化。在所选实时场景下，各实时能量管理方法决策的储氢罐压力变化曲线如图8所示。

短视方法在实时优化中仅考虑当前时刻的能量管理，不考虑当前时刻决策对后续时刻的影响。因此，陆上氢负荷的需求优先由储氢罐内已存储的氢气满足，储氢罐压力下降。此时，储氢罐的灵活性没有得到充分发挥，即从全时段运行来看，短视方法的运行成本最高。模型预测控制方法虽然在实时优化决策时考虑未来时段，即提前制备氢气并存储，减少从外部购买的氢气，降低全时段运行成本。但是，其决策的最优性取决于预测的时段数及精度，两者难以取得权衡。

图8 海上风电制氢微网内储氢罐压力Fig.8 The pressure of hydrogen storage tank in offshore wind PtH microgird

与上述实时能量管理方法相比，本文所提的ADP方法选取储氢罐压力为变量，利用分段线性函数来近似贝尔曼方程中的值函数，用于表示压力对后续时刻微网运行的影响。而通过离线训练阶段，所提实时能量管理策略已得到一组训练良好的分段线性函数斜率，其可以较为准确地反映储氢罐压力对海上风电制氢微网运行成本的影响。当微网发电成本较低并且氢负荷需求较少时，根据PLF的斜率，电制氢装置将制备氢气并存储于储氢罐内，储氢罐压力上升，近似值函数下降。在氢负荷较高时，存储的氢气可通过运氢船输送至岸上，避免从外部氢源购买。因此，所提实时能量管理策略在满足微网电负荷和氢负荷的基础上，调度电制氢装置提前制备氢气并存储，利用储氢罐的灵活性，减少氢气的购买量，降低全时段微网的运行成本。

为对比所提策略与现有方法在海上风电制氢微网实时能量管理的效果，以具备精确预测技术的理想算例为基准，根据式(29)计算500组实时测试场景下，采用所提ADP方法、MPC方法和短视方法的实时优化准确率，其频率分布如图9所示。

图9 实时优化准确率对比Fig.9 Accuracy comparison of the real-time optimization between ADP and MPC

统计结果表明：对于算例生成的实时测试场景，本文所提基于ADP的实时能量管理策略在实时优化阶段具有99.80%的平均准确率。上述结果说明离线训练得到的PLF斜率在不同测试场景下均可以提升贝尔曼方程解的最优性，说明所提实时能量管理策略可得到近似全局最优解，具备可复现性。与之相比，短视方法仅考虑当前时刻的决策，运行周期内总运行成本较高，因此实时优化准确率偏低，平均值仅为95.14%。MPC方法可考虑未来有限时段，故其优化准确率高于短视方法，但低于可考虑全时段影响的ADP方法，在实时测试场景下，MPC方法的优化准确率平均值是98.03%。虽然在部分场景下，MPC方法的实时优化准确率高于所提ADP方法，但是所提ADP方法具有更窄的优化准确率分布范围。这说明面对不同的测试场景，所提ADP方法均可以获得最优决策，实现海上风电制氢微网的高效能量管理。

综上所述，本节通过算例分析验证所提基于ADP的海上风电制氢微网实时能量管理策略。该策略在满足微网电负荷和氢负荷需求的前提下，充分利用储氢罐的灵活性，电制氢装置提前消耗电功率制备氢气，然后存储在储氢罐中。当氢负荷较高时，通过运氢船输送至岸上氢负荷，减少从外部氢源购买氢气，从而降低微网的总运行成本。此外，与现有的短视方法和MPC方法相比，所提ADP方法具有更高的实时优化准确率，并且在不同测试场景下可以保持优化性能。

4 结论

本文针对海上风电制氢微网的实时能量管理展开研究。首先，建立海上风电制氢微网的能量管理优化模型并基于马尔科夫决策过程重构。然后，提出基于近似动态规划的实时能量管理策略以计及海上风电出力、电负荷功率、氢负荷质量和外部电网电价等不确定性因素。最后，通过仿真算例说明所提基于ADP的海上风电制氢微网实时能量管理策略可以在海上风电就地消纳的情形下，提前通过电制氢装置制备并存储氢气，用于应对高氢负荷需求，减少从外部氢源购买氢气，降低运行成本。同时，离线训练得到的分段线性函数斜率可以帮助所提ADP方法在实时优化阶段得到近似最优的能量管理决策，以具备精确预测技术的理想算例为基准，即线性规划的优化结果，在本文的测试场景下，所提ADP方法的优化准确率平均值是99.80%，对比现有的实时能量管理方法，优化准确率至少提升1.8%。