燃料电池混合电动汽车智能能量管理

2023-09-18 13:29陶发展卢泓鑫付主木孙昊琛马浩翔
关键词:输出功率锂电池燃料电池

陶发展,卢泓鑫,付主木,孙昊琛,马浩翔

(河南科技大学 a.信息工程学院; b.河南省机器人与智能系统重点实验室,河南 洛阳 471023)

0 引言

近年来,新能源汽车由于能够有效缓解传统内燃机汽车造成的环境污染和能源短缺问题而被广大学者深入研究。其中,在新能源汽车中燃料电池混合电动汽车(fuel cell hybrid electric vehicle, FCHEV)以长续航、零污染以及填充燃料时间短等优点被认为是未来发展的首选[1-2]。面对混合动力汽车复杂的拓扑结构,合理的能量管理策略在燃料经济性和整车动力性方面起着举足轻重的作用[3]。

近十年来,伴随着能量管理策略研究的不断深入,一条相对清晰的脉络也逐渐形成,即从基于规则的策略[4-5]到基于优化的策略[6-7],再到如今基于学习的策略[8-12]。其中,基于学习的策略以其强大的实时自学习能力逐渐被广大的研究者关注。文献[13]提出了一种基于Q-learning算法的混合动力电动履带车(hybrid electric track vehicle,HETV)自适应能量管理方法,结果表明,与随机动态规划相比,基于强化学习(reinforcement learning, RL)的方法在最优性方面有显著提高,能够有效减少计算时间。文献[14]提出了一种FCHEV分层Q-learning算法,该算法采用自适应模糊滤波器实现总功率需求的频率解耦,并利用等效消耗最小策略(equivalent consumption minimization strategy, ECMS)的思想在全局学习和实时实现之间找到折衷。结果表明,由于Q-learning的特性,所提出的方法可以显著提高计算效率和燃油经济性,提高动力源的寿命,而学习状态-动作空间是离散的。然而,值得注意的是,在现实场景中,状态-动作空间通常是连续的,但随着状态-动作空间的维数不断增加,Q-learning将面临一个名为维数诅咒的棘手问题[15]。为了解决这一问题,文献[16]引入了深度Q-learning (deep Q-learning, DQL)算法,与基于Q-learning的能量管理策略(energy management strategy, EMS)相比,获得了更好的燃油经济性。考虑到DQL算法无法求解具有连续动作变量的环境管理问题,文献[17]进一步研究了具有处理连续状态-动作空间优化问题的深度确定性策略梯度(deep deterministic policy gradient, DDPG)优化算法,并引入优先经验回放机制。实验结果表明:所提策略在计算时间和燃料消耗方面均明显优于动态规划(dynamic programming, DP)。文献[18-19]针对不同的目标,分别考虑了历史累积的驾驶信息和地形信息,提出了一种改进的DDPG算法来获得最优EMS。结果表明:前者能在最优参考轨迹下有效实现电池荷电状态(state of charge, SoC)的合理下降,而后者与DP相比,能显著减少发动机启停时间,提高燃油经济性。

由于DDPG训练的是一种确定性策略,即对每一个状态都只有唯一对应的最优动作,这就导致DDPG在面临诸多干扰的实际运行中缺乏鲁棒性。针对这个问题,相关研究者在深度强化学习中引入最大熵的概念,提出了软执行者-评论者(soft actor-critic, SAC)算法。基于此,本文提出一种基于功率分层框架的改进SAC能量管理策略。针对复杂多干扰的驾驶工况,首先,利用自适应模糊滤波器对需求功率进行频率解耦,将其中的高频功率交由超级电容来吸收/提供,这样可以为燃料电池和锂电池的正常运行提供良好的环境;其次,设计基于SAC的能量管理策略,并利用基于ECMS的思想构造SAC的奖励函数;同时,为提高SAC的训练效果和收敛性能,引入基于启发式的经验回放机制;最后,进行仿真与试验验证。

1 能量管理系统

本文研究对象的拓扑结构如图1所示,其中,燃料电池作为主动力源提供车辆所需功率,而超级电容和锂电池则作为辅助动力源,用于保护燃料电池和恢复制动能量,从而达到提升车辆整体性能的目的。此外,本文研究对象的各部件参数如表1所示。

图1 3能量源燃料电池混合电动汽车的拓扑结构

表1 研究对象各部件参数

2 基于功率分层与SAC的能量管理策略

为保护燃料电池和锂电池免受峰值功率的影响,以及降低深度强化学习算法的动作空间维数,本节首先利用自适应模糊滤波完成对车辆需求功率的分层处理,即把车辆需求功率中的高频正功率交由超级电容进行负责,而剩余的中低频正功率则交由燃料电池和锂电池共同负责;然后,通过将需求功率视作连续的马尔可夫问题,建立马尔可夫决策过程框架;最后,利用SAC优化算法进行求解,以实现提高燃料电池运行效率、提升整车燃料经济性以及延长锂电池使用寿命的目的。

2.1 功率分层

虽然燃料电池具有高能量密度的优点,但是功率密度低的缺点也很明显。因此,为了给燃料电池提供良好的“工作条件”,本文采用功率解耦将需求功率中峰值功率进行分离,并合理利用超级电容的高功率密度特性,提高车辆的整体动态性能,其中滤波器的传递函数G(s)可以表示为:

(1)

其中:μf是可调频率,由模糊推理系统(fuzzy inference system,FIS)根据需求功率Pdemand和综合电荷状态SoCESS进行调整。模糊规则如表2所示,其中N, P, S, M, B, Z分别表示负,正,小,中,大,零,均用以表示偏差变化的幅度。

表2 模糊规则

2.2 基于SAC的能量管理策略

本文采用基于随机性策略的SAC优化算法对功率解耦后的中低频功率进行处理,同时,利用车辆的真实数据通过最邻近法和最大似然估计法计算不同速度下的转移概率矩阵[14]。为了合理地对多目标优化问题进行运算,本文利用基于等效消耗最小的思想构建SAC中的奖励机制,以总等效氢耗最小为优化目标进行构建奖励函数,具体表示如下[20]:

(2)

其中:Htotal(t)为车辆总瞬时等效氢耗,HFC(t)为燃料电池的直接氢耗,HBAT(t)为锂电池的等效氢耗,HUC(t)为超级电容的等效氢耗,L/100 km;λFC、λBAT和λUC分别为燃料电池、锂电池以及超级电容的惩罚系数;ΔSoCBAT当前锂电池SoC与参考SoC的偏差;SoCref为锂电池的参考SoC值。结合实际平台的相关参数,所构建的奖励机制具体约束如下[14]

(3)

其中:SoCBAT(t)和SoCUC(t)分别为锂电池和超级电容在t时刻下的SoC值;SoCBAT, ch和SoCBAT, disch分别为锂电池的充电速率和放电速率,C;PFC.min和PFC.max分别为燃料电池的最小输出功率和最大输出功率,W;PFC(t)和PBAT(t)分别为燃料电池和锂电池在t时刻下的输出功率,W;Pdemand(t)为车辆在行使过程中t时刻下的需求功率,W。以上的约束条件均是基于已有试验平台所获得[14]。

基于式(2),并结合本文的优化目标,则SAC优化算法的奖励函数R可以设置为:

R=-[Htotal(t)+β(ΔSoCBAT)2],

(4)

其中:β为调整系数,主要作用是使Htotal(t)和(ΔSoCBAT)2处于相同量级。

值得注意的是,传统深度强化学习算法以累计奖励期望最大作为自身的学习目标,即:

(5)

其中:E[·]为期望运算;γ为奖励的折扣系数;π(sk)为在状态sk下所执行的策略;R(sk,π(sk))为在状态sk下执行策略π(sk)后所获得的奖励值。

本文所使用的基于随机性策略的SAC算法则是在原本的基础上引入最大熵的概念,不仅要累计期望最大,同时还要求策略每次输出动作的熵值最大。

(6)

其中:H(π(·|sk))为动作的熵值,其目的是为了让动作随机化,以实现SAC算法的核心思想,即不遗落任何一个有用的动作;α为权重系数,本文取值为0.2。

基于随机性策略的SAC算法框架中一共包含5个网络:1个策略网络、2个状态价值网络以及2个动作价值网络。各个网络间的更新公式详见文献[21]。本文算法框架如图2所示。

图2 算法框架图

2.3 基于启发式的经验回放机制

由于SAC算法是一种基于随机策略的深度强化学习算法,与基于确定性策略的DDPG算法相比,在探索性和鲁棒性方面具有一定的优势,但是随机策略也给网络收敛带来了巨大的挑战。这是因为在网络训练初期,偶尔的几次糟糕经验就足以让网络训练失败,这就使得网络训练初期对于经验回放区的经验要求比较严格。然而,传统的SAC并没有对经验回放进行特别处理,就会导致SAC在训练时非常容易失败。

针对传统SAC经验回放区中经验良莠不齐的缺点,本文提出一种基于启发式的经验回放机制,即利用实验室的研究平台,并根据平台以往训练的历史数据,通过对数据进行筛选、整理和分析,将状态所对应的策略进行合理的区分,即在网络训练时针对某一个状态,当SAC的随机策略给出一个明显不合理的策略,这时基于启发式的经验回放就会禁止这样的经验进入经验回放区,并重新指定SAC再给出一个合理的策略,这样就使得网络在训练初期经验回放区中的经验质量得到了有效的保证,进一步提高了网络的收敛速度和优化效果。

3 仿真实验及分析

3.1 算法收敛对比分析

将改进SAC策略与传统SAC策略进行对比测试,即通过在网络收敛性能和算法优化能力上进行对比,以表明所提改进算法在离线优化过程中的优势。图3为两种策略的对比曲线。图3a为不同策略的损失曲线对比图,图3b为不同策略下的奖励曲线对比图。可以明显观察到,在相同的迭代次数下,传统SAC策略由于随机策略的不确定性,会在一定程度上影响算法的收敛性能,这一点在图3a中有明显的体现,即在迭代次数为300×2 000和900×2 000左右时,传统SAC策略的平均损失曲线明显受到了严重的波动。虽然后续网络的收敛性能有所好转,并趋于收敛,但是从图3b中可以观察到传统SAC策略的奖励曲线并没有得到明显改善。而引入启发式经验回放机制后,可以显著观察到网络的收敛性能和优化效果都得到有效保证。这也进一步说明引入启发式经验回放可以提高算法的收敛性能和优化能力。

(a) 损失曲线对比图

3.2 工况测试仿真及分析

本节将通过以下4种典型驾驶工况进行测试仿真以验证所提改进SAC策略的有效性:城市测功机行驶计划(urban dynamometer driving schedule,UDDS)、高速公路燃油经济性测试(highway fuel economy test,HWFET)、新标欧洲循环测试 (new european driving cycle,NEDC)、西弗吉尼亚郊区循环工况(West Virginia University suburban cycle,WVUSUB)。需要注意的是基于试验平台先前研究以及各项性能测试统计,本文锂电池和超级电容的初始SoC值将统一设置为0.7[14]。

图4为所提能量管理策略在UDDS工况下的仿真结果图。图4a为UDDS工况信息。图4b为所提策略在UDDS工况下3能量源的功率分配图,可以明显看出车辆在急加/减速的情况下产生的峰值功率主要由超级电容来承担/吸收,这给燃料电池和锂电池提供了良好的运行环境,这也从侧面验证了引入超级电容的有效性和必要性。图4c为传统SAC策略与改进SAC策略在UDDS工况下的燃料电池输出功率对比图,可以明显发现本文所提改进SAC策略在燃料电池输出功率的波动幅度方面要明显优于传统SAC策略,这也说明启发式经验回放机制能够避免“不佳”的经验影响算法的训练,进而有效提升所得策略的最优性。同时,从图4c中也可以发现,与传统SAC策略相比,车辆在低速区(0~20 km/h)行驶时改进SAC策略更倾向于让燃料电池尽可能多的承担需求功率,以避免燃料电池输出功率波动幅度过大,同时也能够有效提高燃料电池的运行效率。图4d为两种策略在UDDS工况下燃料电池的运行效率对比图,可以从图中发现相较于传统的SAC策略,所提改进SAC策略在车辆需求功率波动剧烈的情况下依旧能够较好地保持燃料电池的运行效率。需要注意的是,在图4c中所提策略在燃料电池的输出功率方面存在小范围的波动,这是因为基于SAC的策略在针对某一运行状态时给出的是一个包含最优策略的集合,因此会产生些许的功率波动,但这些轻微的功率波动都在可以接受的范围内。

(a) UDDS工况信息

为进一步验证改进SAC策略在延长锂电池使用寿命方面的有效性,本文以传统SAC策略作为对比测试组。图5为传统SAC策略与改进SAC策略在UDDS工况下锂电池SoC的对比图,从图5中可以明显发现: 相较于传统SAC策略,本文所提策略的SoC变化更为稳定,特别在600 s后尤为明显。并且在锂电池初始SoC值设置为0.7的前提下,改进SAC策略的SoC值最终下降到0.59,平均电量消耗为每600 s消耗6.9%,而基于传统的SAC策略锂电池最终SoC值下降到0.58,平均电量消耗为每600 s消耗7.5%。基于以上的分析,可以发现改进SAC策略能够通过合理协调燃料电池与锂电池的功率输出,实现在燃料电池运行效率保持在高效率区间的同时,有效延长锂电池的使用寿命。

通过对上述仿真结果的分析,可以明显地观察到本文所提出改进SAC策略能够实现对燃料电池混合电动汽车的能量管理,并且能够在保证燃料电池运行效率的基础上,合理降低锂电池的能量效率。同时,为验证改进SAC策略在燃料经济性的最优性,本文利用传统SAC策略作为对比组在4种典型驾驶工况下进行测试验证。具体数据详见表3所示。

图5 UDDS工况下两种策略锂电池SoC对比图

表3 典型驾驶工况下燃料经济性对比

从表3中可以发现: 与传统SAC策略相比,改进SAC策略在四种典型驾驶工况测试下燃料经济性平均提升了6.4%,同时,改进SAC策略也能够有效延长锂电池的使用寿命。值得注意的是,四种典型驾驶工况中UDDS、HWFET与WVUSUB相较于HWFET而言提升较为明显,这主要是因为相较于HWFET,其余3种驾驶工况更为复杂且多变,甚至包含许多极端工况,这也进一步验证了所提策略在极端驾驶工况下的有效性和最优性。

3.3 试验验证

为合理验证本文所提改进策略的适用性和实时性,本文利用以测功机、燃料电池系统、超级电容、锂电池及集控系统等构成的试验平台进行台架试验。同时将在LabVIEW的开发环境下将所提策略设置在集控系统上,具体试验平台及集控系统如图6所示。

图6 试验平台实物图

图7为试验测试工况的结果。其中,图7a为试验工况信息。为更直观的表现出燃料电池运行效率的变化,引入了燃料电池的效率-功率关系图,如图7b所示。图7c为传统SAC策略与改进SAC策略在试验测试工况下燃料电池输出功率对比图,可以明显发现无论是燃料电池输出功率的稳定性还是输出功率的波动幅度,改进SAC策略都要显著优于传统SAC策略,并且在车辆行驶在低速区(0~20 km/h)时,改进SAC策略倾向于让燃料电池承担输出功率,在稳定燃料电池输出功率的同时,也能够有效保证燃料电池的高效运行。图7d为两种策略下燃料电池运行效率的对比图,可以明显发现改进SAC策略的燃料电池运行效率几乎一直运行在高效率区间(0.5~0.6),并且在车辆需求功率急剧变化(900~1 100 s)时,燃料电池在超级电容和锂电池的协助下依旧可以保持在高效率区间运行。图7e为两者策略下锂电池SoC的对比图,可以发现相较于传统SAC策略,改进SAC策略锂电池SoC始终保持缓慢下降的趋势,并且其电量消耗为每600 s消耗6.9%。需要注意的是在图7e中由于超级电容承担/吸收大量峰值功率的原因,致使超级电容的SoC波动较大,但这属于正常可接受范围。

(a) 试验工况信息

(d) 燃料电池效率对比图

4 结束语

鉴于研究对象的3种能量源(燃料电池、锂电池和超级电容)之间工作特性各异,本文设计基于频率解耦的功率分层框架与改进SAC的能量管理策略,并基于等效消耗最小策略的思想搭建SAC优化算法的奖励函数,同时引入启发式经验回放机制提升SAC算法的收敛性能和优化能力。与传统SAC策略相比,所提改进SAC策略能够在保证燃料电池高效运行的同时,有效延长锂电池的使用寿命,并且在燃料经济性方面提升了6.4%。

值得注意的是,本文仅是通过合理降低锂电池的能量消耗实现延长锂电池的使用寿命,而并没有对锂电池的性能退化进行精确建模。因此,如何合理量化锂电池的性能退化程度,并将其纳入到能量管理策略框架的搭建中,这将是未来的工作重点之一。

猜你喜欢
输出功率锂电池燃料电池
燃料电池题解法分析
试驾丰田氢燃料电池车“MIRAI未来”后的六个疑问?
燃料电池的维护与保养
基于SVM的锂电池SOC估算
一种多采样率EKF的锂电池SOC估计
适用于智能电网的任意波形输出功率源
基于双层BP神经网络的光伏电站输出功率预测
分布式发电系统并网逆变器输出功率的自适应控制
Hyundai公司的iX35燃料电池车
锂电池百篇论文点评(2014.6.1—2014.7.31)