高文忠, 张毅
(上海海事大学商船学院,上海 201306)
在全球范围内,建筑物能耗约占一次能源总能耗的40%,其中60%与热舒适度有关[1]。当前,农业机械化水平越来越高,随之而来的环境污染、能源匮乏等问题日益严重。农业设施的主要能源消耗为供能能耗,因此,能源稳定性和能耗成本是农业设施升级面临的主要压力。减少供能能耗可以有效降低农业中的能源消耗,减少环境污染。冷热电三联供(combined cold, hot and power,CCHP)系统可以充分利用一次能源,实现冷、热、电分级利用[2],综合能源利用率可达80%。它的发展和应用将有效提高能源效率及经济效益[3],是实现能源可持续发展的重要途径[4]。通过CCHP系统为农业设施供能将有效降低供能能耗。然而,在使用CCHP时,建筑的外部天气环境、内部负荷动态变化、各机组之间耦合等为CCHP的协调运行带来了很多不确定性[5],致使CCHP系统运行策略很难适应这些变化,导致用户舒适度和供能经济性难以达到预期设计。因此,通过优化控制来实现CCHP供能与负荷需求之间的高效匹配、最大限度地挖掘CCHP系统的固有优势是当前CCHP系统的研究重点。
传统CCHP系统的运行优化多采用启发式算法,如遗传算法[6]、粒子群算法[7-8]、混合整数线性规划[9]等。虽然传统的优化算法在CCHP稳定工况时有着一定的优化能力,但当工况环境发生变化时,只能重新对新环境训练以给出优化策略,无法做出实时反应,这导致其在实际系统运用中,需要较高的时间成本。此外,针对CCHP系统的优化目标主要以多目标优化为主[10-13],而对于商业建筑,更关注运行成本[14-16]。需要特别指出的是,需量电费也是影响系统运行费用的关键因素之一。需量电费不同于电费,它是累计用电量的计算方式,通过整个计费周期内电网用电功率的峰值计算。这就导致了CCHP系统运行方案不仅会影响当前优化日,还会对连续多日优化产生影响,显著增加了系统运行优化的难度[17-18]。
针对这种情况,深度强化学习(deep reinforcement learning,DRL)提供了一种新的思路和方法,它是通过对环境和策略的学习,获得策略对于环境的价值,可以根据环境的变化实时改变策略,适合用于CCHP系统的运行优化。目前,针对能源系统的DRL算法应用已经有一些开创性的探索,如利用deep Q-network(DQN)算法、double DQN算法[19]、dueling double DQN算法[20]等进行离散动作的优化控制。此外,针对连续动作空间算法的应用,Du等[21]对比了DQN与deep deterministic policy gradient(DDPG)在多区域暖通空调连续控制下的热舒适度和能耗成本,表明经过良好训练的DDPG在该问题上有泛化性和适应性,实际应用性强;董雷等[22]和Zhang等[23]分别将Multi-Agent DDPG应用于电力、天然气、淡水子系统中可再生能源驱动的多能源枢纽系统和电热联合系统的优化运行;蔺伟山等[24]和阮应君等[25]分别将proximal policy optimization(PPO)和distributed proximal policy optimization(DPPO)应用于分布式能源系统与综合能源系统的运行优化,其结果优于DQN和DDPG算法。
由于需量电费是通过周期内电网峰值用电功率的计价方式,导致给优化运行带来了较多限制,提高了CCHP系统优化控制的复杂性。因此,本研究以投入使用的大型CCHP系统为研究对象,使用双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient, TD3)算法,来实现CCHP系统夏季供能优化控制,以期在考虑需量电费的情况下达到最小化运行成本的目标,验证TD3代理在CCHP系统优化运行上的有效性和泛化性,以期为农业设施供能提供一种优化运行策略的方法,从而降低供能成本、提高系统经济性。
研究对象为上海市世博B片区某公共建筑群供能的大型CCHP系统。它由内燃机(internal combustion engine, ICE)、双效溴化锂吸收式制冷机组(lithium bromide absorption chiller, AC)、离心式电制冷机组(centrifugal electric refrigeration chillers, EC)、锅炉(boiler)和蓄能罐(thermal energy tank, TET)及配套辅助设施(auxiliary units,AU)共同组成。其能量流如图1所示。
图1 CCHP系统能量流图Fig. 1 Energy flow for the CCHP system
该系统夏季运行的主要功能是为满足区域性写字楼群的冷负荷需求,ICE产生的电力提供给系统本身,而非外部建筑,所以整个系统采取以热定电的运行模式,即优先满足冷负荷,再平衡系统电力消耗和电网供电。电网供电包括购电和卖电2种形式:当系统内部电量不足时,从电网购电;当系统内部电量富余时,上网出售。
1.2.1 能量约束 电力约束包括电制冷和其他电消耗设备的电力需求,由ICE和电网供给。
式中,EC,t为系统总耗电功率(kW);EEC,i,t为EC耗电功率(kW);nEC为EC机组数量;EAC,t为辅助机组耗电功率(kW);EICE,i,t为ICE发电功率(kW);nICE为ICE机组数量;EGrid,t大于0时为从电网购电功率,小于0时为向电网卖电功率(kW)。
热量约束:在供冷模式下,冷负荷由AC、EC和TET供给。
式中,QCCHP,CL,t为CCHP系统供冷功率(kW);QTET,t为TET在t时刻蓄入释放的冷功率(kW);QEC,i,t为EC制冷功率(kW);QAC,CL,i,t为AC制冷功率(kW);nEC为AC机组数量;QCL,t为冷负荷(kW)。
1.2.2 内燃机 ICE发电效率ηICE,i,t随其运行部分负荷率pICE,i,t变化如式(3)所示。
式中,a0、a1、a2、a3是经验系数。
ICE实际发电功率EICE,i,t的计算公式如下。
式中,EICE,max为ICE额定发电功率(kW)。
ICE的天然气消耗量SICE,i,t(m3)计算公式如下。
式中,LNG为天然气低燃烧值(kWh·m-3)。
1.2.3 双效溴化锂制冷机组 ICE产生的高温烟气在AC中换热,为楼宇夏季供冷。当ICE的负荷率发生变化时,ICE排出烟气中的能量也发生变化,导致AC可利用的烟气量发生变化。因此,AC制冷功率QAC,CL,i,t的计算公式如下。
式中,COPAC,CL为AC制冷工况下的制冷系数(coefficient of performance,COP)。
1.2.4 离心式电制冷机组 EC消耗电能为外部建筑供冷。EC的COP与电制冷部分负荷率之间的关系如式(7)所示。
式中,COPEC,i,t为EC的COP;pEC,i,t为EC的部分负荷率;b0、b1、b2、b3是经验系数。
EC的制冷功率和耗电功率的计算如式(8)、(9)所示。
式中,QEC,max为EC额定制冷功率(kW)。
1.2.5 蓄能罐 TET在供冷工况下将存储的冷量按照系统需要释放。由于TET的蓄冷泵出力限制,故TET有每小时出力限制,如式(10)所示;TET容量限制如式(11)所示;TET下一时刻的蓄冷量QTET,CL,t+1(kWh)如式(12)所示。
式中,QTET,max为TET每小时最大蓄冷或释冷功率(kW);QTET,CL,t为TET内蓄冷量(kWh);QTET,CL,max为TET最大蓄冷量(kWh)。
CCHP系统夏季优化的目标是:在满足冷负荷的情况下,制定最低考虑需量电费的运行成本的运行方案。
实时运行费用Ct(元)由电网电力费用和天然气成本组成。电网电力费用根据EGrid,t分为购电和售电2部分,其中,购电时采用阶梯电价cGrid,buy,t(元·kWh-1);卖电时为固定价格cGrid,sell(元·kWh-1)。天然气成本根据天然气消耗量SICE,i,t计算得到,天然气单价cNG(元·m-3)为固定值。实时运行成本Ct如公式(13)所示。
需量电费是每月结算的电费,它是为了限制每月峰值用电功率的计价方式,根据用户当月每小时平均电网用电功率峰值,即最大需量,计算得到。为了便于后续优化中多日运行费用的计算,每日根据该优化周期内的最大需量计算当日需量电费。电功率最大需量(kW)和需量电费(元)的计算如式(14)(15)所示。
式中,cDC为需量电价(元·kW-1);dmonth为该月天数。
因此,考虑需量电费的目标函数Ctotal如式(16)所示。
1.4.1 CCHP系统控制优化映射到马尔卡夫决策过程 马尔卡夫决策过程是一种针对下一个状态仅与当前状态有关、与之前状态无关的系统决策过程,通常被描述为一个五元组(S,A,P,R,γ)。其中,S是状态空间;A是动作空间;S×A×S′→P是状态转移矩阵;S×A→R是奖励函数;γ为折扣因子[25]。针对该CCHP系统的要素定义如下。
① 状态空间。状态空间是智能体获取的环境信息。选取归一化后的冷负荷、时刻、TET蓄冷量和最大需量作为状态空间S,如式(17)所示。
式中,QCL,max为设计最大冷负荷(kW);EDC,max为系统设计最大需量(kW)。
② 动作空间。动作空间是智能体在状态s下能选择的动作。动作为EC和ICE的部分负荷率。因此动作空间如式(18)所示。
③ 奖励函数。当智能体根据状态空间选择动作空间后,环境会给予奖励,也会对不符合约束和表现不良好的动作空间给予惩罚。智能体为了获得最大化奖励会逐渐约束动作空间。奖励函数分为局部奖励函数和全局奖励函数。其中,局部奖励函数是对每个时刻的运行情况进行评价;全局奖励函数是对优化周期优化完成后,对整个优化周期的运行状况进行评估。由于不同时间的冷负荷变化较大,为了对不同负荷给予相近的奖励,采取单位制冷量的运行成本作为奖励函数的评价指标。局部奖励函数Rt和全局奖励函数RF如式(19)和式(20)所示。
式中,rP为违反供冷约束时的惩罚;Qmin为在没有实际供冷情况下设置的假定供冷量;rF为当前运行周期完成时的奖励。
当CCHP系统状态st确定时,动作at的优劣程度可以使用动作值函数Q(s,a),即Q值来评估。
式中,Eπ(·)为策略π下的奖励期望。
CCHP系统优化调度的目的是找到最优策略π*,如式(22)所示。
1.4.2 TD3算法 CCHP系统在连续控制问题上,由于TET冷量受前一时间点TET冷量和机组运行情况的影响、冷负荷受到室外天气因素和内部负荷动态变化等因素影响,故马尔卡夫决策过程中获得准确的转移概率较为困难。在无法获得准确状态转移概率的情况下,基于模型的算法无法解决此类问题。DRL不需要事先了解环境或转移概率,可以通过不断与环境交互逐渐改进策略。为此,本研究采用DRL方法解决CCHP控制问题,具体采用TD3算法。
TD3算法是一种连续空间中的DRL算法,可用于优化马尔卡夫决策过程。TD3是由DDPG改进得到。DDPG可以很好地工作,但存在高估价值的问题,因此,TD3可通过引入3种方式解决DDPG的问题:①使用2套Critic网络评估动作的Q值,并采用其中较小的值来计算目标Q值,以解决Critic网络对Q值过估计的问题;②使用延迟更新策略,即Critic网络更新一定次数后再对Actor网络进行更新,即Actor网络的更新频率低于Critic网络,使Actor网络训练更稳定;③在更新过程中计算动作Q值时,对actor目标网络输出的动作添加噪音,让更新时的动作产生一定波动,以达到对动作波动的学习,从而增加算法稳定性。
TD3算法使用3个神经网络,包括1个Actor网络(ϕ)和2个Critic网络(θ1,θ2),且每个网络均有各自的目标网络πϕ′和分别为目标动作和目标Q值。
①Critic网络更新。Critic网络的更新如式(23)~(25)所示。
式中,a′为在状态s′下的动作;ε为添加的噪声;N为批量大小;y为目标Q值。
②Actor网络更新。Actor网络的更新如式(26)所示。
③ 目标网络更新。目标网络的软更新如式(27)(28)所示。
式中,τ为软更新系数。
研究的大型CCHP系统总供能面积为65.7万m2,设计最大每小时供冷量为56.8 MW,系统最大每小时耗电量为1.2 MW。该系统历史运行数据来自数据库实时记录,包括负荷情况、机组出力、TET蓄冷量、购电量、天然气消耗量等参数。该数据库运行时的运行策略称为历史运行策略。系统的机组、参数、经济性参数分别如表1和表2所示。
表1 机组参数Table 1 Parameters of units
表2 经济性参数Table 2 Economic parameters
TD3代理中的Actor和Critic网络详细参数如表3所示。为了减少各机组之间的频繁启停,将DRL给出的方案按EC和ICE的部分负荷率分别排序后作为实际运行策略。
表3 DRL的DNN结构Table 3 DNN structure of DRL
DRL的控制间隔设置为60 min。在训练阶段,采取24 h作为1个训练集,连续控制优化5 d。模型训练时,初始时刻蓄能罐的蓄冷量为0 MWh,最大需量为0 kW,连续优化中后续天数的初始参数为前1 d运行后TET中的剩余蓄冷量和最大需量。训练完成后将其应用于不同的负荷下进行测试,由该时刻数据库中TET的蓄冷量和最大需量作为初始值,进行连续5 d优化控制。
选取2020年7月27—31日数据进行控制优化。根据历史数据库中记录的数据,初始时刻采取蓄能罐蓄冷量40 MWh,最大需量0 kW。TD3代理给出的不考虑需量电费和考虑需量电费的运行策略和历史运行策略的运行成本和负荷供给状况如表4所示。历史运行策略的运行成本为415 417.9元;TD3代理给出的不考虑需量电费和考虑需量电费运行策略的运行成本分别为265 680.0和242 892.0 元。
表4 不同运行策略结果Table 4 Results for different strategies
不同运行策略下的电功率和机组出力图如图2所示。历史运行策略下,在电价低谷期对TET进行蓄能,冷负荷高峰期根据负荷大小控制EC运行数量;由于没有ICE辅助供电,EC运行时直接电网购电量明显较高,因此需量电费也较高;溢出冷量主要来自于蓄冷阶段的过量供冷,引发了额外运行成本。因此,历史运行策略的经济性较差。不考虑需量电费的TD3代理给出的运行策略下,在供冷阶段中,根据冷负荷大小开启EC和AC,在电价高峰期通过ICE供给整个CCHP系统,通过降低用电成本方式来减少总体运行成本;在电价低峰期且TET蓄冷量过少时,会通过EC对TET进行蓄冷,电力购入费用主要来自于该时段;这表明TD3代理掌握了由时间带来的电价变化,从而降低了运行成本,其实时运行成本相较于历史运行策略降低了34.1%。考虑需量电费的TD3代理给出的运行策略下,在电价低峰期、且TET蓄冷量过少时没有单独开启EC蓄冷,显著降低了单独运行EC引起的最大需量,所以需量电费很少;相较于历史运行策略,考虑需量电费的TD3代理给出的运行策略的需量电费降低了92.6%,总运行成本降低了41.5%;与不考虑需量电费的TD3代理相比较,考虑需量电费的TD3代理给出的运行策略的实时运行成本增加0.35%,但降低了85.5%最大需量,总运行成本降低了8.6%。由此表明,TD3代理可以充分实现需量电费的优化目标,优化过程平衡了需量电费和实时运行成本。
图2 不同运行策略下的电功率和机组出力图Fig. 2 Electrical power and units outputs under different operating strategies
将训练好的考虑需量电费的TD3代理应用到不同特征的冷负荷中,以验证TD3代理对于不同特征负荷的泛化性。于2021年7月26日至8月27日连续5周冷负荷,将其中连续5个工作日作为1组测试周数据(图3)。相较于训练负荷数据,该测试负荷每日供冷时间更长,且不同测试周之间,峰值冷负荷有较大幅度变化。优化结果(表5)表明,TD3代理结果相较于历史运行策略有着明显的成本优势,首先,所有测试周期均无溢出冷量,从而没有因过度供冷而导致的费用;其次,最大需量都保持在较低水平,且均低于历史运行策略,从而需量电费较低。因此,经过良好训练的考虑需量电费的TD3代理,可以给出满足负荷的低运行成本方案,具有良好的泛化性。
表5 不同特征负荷的优化结果Table 5 Results for different characteristic loads
图3 多周冷负荷Fig. 3 Multi-weekly cooling load
在农业节能改革的当下,大力发展低碳农业是必然趋势。作为农业设施主要能耗的供能能耗,减少供能能耗能有效减少碳排放。由CCHP系统为农业设施供能,可以同时供给电能和冷、热能,有效降低农业能耗。为了解决考虑需量电费CCHP系统夏季控制优化的问题,本研究提出了一种基于TD3算法的优化运行方案。该方案以考虑需量电费的运行成本为优化目标,实现了对CCHP系统各机组负荷率的调度优化,有利于为农业供能设施提供良好的运行策略,减少供能成本,达到降低运行成本、提高经济性的目的。本研究结果表明,在满足负荷的前提下,不考虑需量电费的TD3代理给出的运行策略的实时运行成本较历史运行策略降低了34.1%;考虑需量电费的TD3代理平衡了实时运行成本和需量电费,其总运行成本较不考虑需量电费的TD3代理降低了8.6%。对不同特征负荷的实验表明,经过训练的TD3代理对冷负荷特征变化有一定的适应性,具有泛化性;相较于历史运行策略,运行成本和最大需量更低。