基于强化学习的混合动力汽车能量管理策略

2024-04-22 07:18孔泽慧刘港吴慧

时代汽车 2024年3期

孔泽慧　刘港　吴慧

摘要：文章针对一串联式混合动力汽车，提出了一种基于强化学习的能量管理策略。首先为了便于分析，对该串联式混合动力汽车动力学模型进行简化，包括汽车功率需求模型、电池模型和发动机-发电机模型等。其次，基于强化学习算法，建立串联式混合动力汽车能量管理策略优化模型。最后，基于目标工况进行仿真分析，求解控制策略，获得燃油消耗。结果表明，基于强化学习的能量管理策略相比于基于规则的能量管理策略，其燃油经济性提升了12%。

关键词：混合动力车辆能量管理策略强化学习

1 引言

随着汽车保有量的持续增加，全世界所面临的能源紧缺和环境恶化等问题日趋严重。在节能减排和车辆驱动系统电气化发展的背景下，新能源汽车得到飞速发展[1-2]。其中，混合动力汽车将传统的内燃机、电动机和能量存儲装置等组合在一起，结合了电驱动系统和传的内燃机驱动系统，充分发挥了二者的优势，一方面，混合动力汽车可以节省燃油消耗，另一方面不受电池续驶里程和充电桩等建设设备的制约[3]。混合动力汽车已成为传统车辆向纯电动车辆过渡的必然阶段，是最具实际开发意义的低油耗、低排放汽车。

目前混合动力汽车实际应用的能量管理策略主要分为基于规则的能量管理策略、基于优化的能量管理策略和基于学习的能量管理策略三种[4]。基于规则的能量管理策略是目前应用最广泛的能量管理策略，T Hofman提出了一种基于规则的灰狼优化能量管理方法，改善了基于规则的控制性能，有效降低了一插电式混合动力汽车控制算法的复杂性和计算量，同时提升了汽车的燃油经济性[5]。然而，基于规则的能量管理策略依赖工程经验等，无法实时调整控制参数，适应性差[6]。基于优化的能量管理策略又可以分为全局优化和实时优化的能量管理策略。杨超等基于智能网联，采用最小值原理实现了插电式混合动力汽车的能量优化，其可适应多种工况，实现了全局与瞬时优化的有效融合[7]。但是，基于优化的能量管理策略，如动态规划等无法用于实时控制，或是达不到优化效果。因此，基于学习的能量管理策略成为研究热点。张松[8]，Qi C[9]等为了防止自监督模型陷入“自我良好”的境地，采用强化学习进行校准，实现了燃油消耗的优化性。强化学习算法不仅可以减少汽车的燃油消耗，提升汽车的燃油经济性，而且可以用于实时控制。本课题主要针对一串联式混合动力车辆，研究了一种基于强化学习的能量管理策略。同时，通过仿真分析验证了该能量管理策略的有效性。

2 混合动力车辆数学模型

图1为串联式混合动力车辆结构示意图，两侧驱动轮由电机独立驱动，由发动机-发电机组和动力电池组共同为整车提供动力。发动机通过发电机产生电能，给两个驱动电机提供电能，进而驱动车辆行驶，发动机并不直接参与车辆驱动。表1为该串联式混合动力汽车的关键参数。

2.1 车辆动力学模型

为便于进行动力学分析，根据动力学定律，在保证足够准确的前提下，简化串联式混合动力车辆的功率需求模型，如下所示：

（1）

式中，F1，F2为两驱动轮的驱动力，Fr1，Fr2为车辆的滚动阻力，Fw与Fi分别代表车辆行驶过程中所收到的行驶过程中所受到的空气阻力与坡度阻力，m为混合动力汽车的整车质量，a为汽车加速度。

空气阻力为：

式中，CD代表空气阻力系数，A为混合动力车辆迎风面积，v为车辆平均速度。

坡度阻力为：

式中，θ为路面坡度角，g是重力加速度。

滚动阻力为：

式中，f为滚动阻力系数。

2.2 动力电池组模型

忽略动力电池的温度影响，简化动力电池组模型。动力电池组采用开路电压和等效内阻的电池模型[10]，其荷电状态SOC为：

式中，Ib是电池的实际电流，Cb为电池的额定容量。

电池的电流Ib为：

式中，VOC为电池开路电压，Rint为电池内阻，Pb表示电池的输出功率。

根据上式，则可以求出电池的荷电状态SOC的微分，如下所示：

2.3 发动机-发电机模型

对于该串联式混合动力汽车，发动机只通过发电机产生电能，因此可将发动机-发电机简化为一个整体，建立发动机-发电机等效电路模型，简化模型如图2所示。其中，发电机的电磁转矩用Tg表示，Ug代表发动机-发电机组的输出电压，Keωg是发动机的等效电动势，ωg代表电机的同步角速度，Kxωg表示发动机的等效阻抗，发电机的输出电流用Ig代表。发动机-发电机组的输出电压与发电机的电磁转矩计算方程为[10]：

在串联式混合动力汽车中，发动机和发电机为机械连接，二者的转速是一样的。因此，发动机的转矩和转速可以由以下公式计算得出。其中，发电机和发动机的转速用ng，neng表示；Teng表示发动机的转矩；Jeng为发动机的转动惯量；Jg表示发电机的转动惯量；

3 基于强化学习建立串联式混合动力汽车能量管理策略优化模型

3.1 强化学习算法

强化学习是通过研究智能主体（Agent）在环境中应该怎样采取行动以最大化所获得的累积奖励[5-6]。智能主体在学习时，会根据环境对行为的反馈，即奖励或惩罚，来不断优化不同状态下所应该采取的行动，不断去使智能主体更加适应环境，以获得最大化累积奖励，进而获得最优的控制策略[11]。

Q-learning是常用的强化学习方法之一，在已知控制策略π，在状态st下执行动作at时的动作值函数可以用下表示：

式中，γ表示取值范围为[0，1]的折扣因子，将未来回报折算入当前的Q值，r是单步回报。

最优动作值函数Q*定义为以下表达式：

基于最优动作值函数反推得出最优控制策略，如下所示[12]：

3.2 串联式混合动力车辆能量管理策略问题建模

选择发动机转速neng和电池的荷电状态SOC作为状态变量，选择发动机的节气门开度作为控制变量thr。为了便于计算，将状态变量和控制变量进行离散化处理，其中发动机转速neng等分为30份，范围为neng∈[1200，6000]，电池SOC也等分为30份，范围为SOC∈[0.6，0.9]，节气门开度thr等分为10份，范围为thr∈[0，1]。

选择发动机的燃油消耗量与电池SOC变化量的函数作为目标函数，如方程（13）所示，其中SOC的变化量指的是在整个行驶工况中，动力电池SOC在初始和结束的差值。目的是将SOC的差值等效为燃油消耗量计入到目标函数中，并乘以一定的惩罚因子β。

（14）

式中，用f（k）代表每一步的發动机燃油消耗量。

4 仿真分析

选取图3为目标工况，根据强化学习算法，求解串联式混合动力车辆的最优控制序列。选取发电机的初始转速ng为1200 r/min，动力电池SOC的初始值为0.75。

图4为基于强化学习算法获得的SOC的变化曲线。从图中可以看出，在整个目标工况下，动力电池的SOC始终在0.70-0.76之间变动。图5 为发动机和电池的功率分配曲线。

图6为在目标工况下，采用强化学习得出的最优控制策略获得的发动机的工作点。该发动机工作点主要分布在转速3000-4000r/min。发动机多工作在最佳工作区间，以减少燃油消耗。

表2为基于强化学习和基于动态规划的能量管理策略的燃油消耗，可以看出，基于强化学习的能量管理策略的燃油消耗可十分接近于基于动态规划的能量管理方法。

5 结论

文章首先建立了串联式混合动力车辆的动力学模型、电池模型和发动机-发电机模型等。其次，基于强化学习算法，建立了串联式混合动力汽车的能量管理控制优化模型，求解混合动力汽车的最优控制策略。最后，通过仿真分析，求解特定工况下，采用该策略的燃油消耗。结果表明，基于强化学习的能量管理策略相比于基于规则的能量管理策略，燃油消耗减小，燃油经济性提升了12%。

基金项目：广西高校中青年教师（科研）基础能力提升项目——基于机器学习的混合动力汽车预测能量管理策略研究项目资助（项目编号：2022KY1073）。

参考文献：

[1]邓文娟，吴彤峰，谢冰.油电并联混合动力系统能量管理策略研究[J]. 2022（6）.

[2]曾晓帆，胡明辉，徐磊.基于实车试验大数据分析的插电式混合动力汽车能量管理策略解析[J].重庆大学学报，2023，46（2）：11-29.

[3]唐香蕉，高祖成，曾令全，等.城市道路下混合动力汽车双层能量管理策略[J].中国机械工程，2022（016）：033.

[4]张瑞轩黄晨王猛猛.混合动力汽车能量管理策略研究现状与发展趋势[J].林业机械与木工设备，2022，50（10）：50-55.

[5]Pritam Keshavdas GujarathiVarsha A. ShahMakarand M. Lokhande.Combined Rule Based-Grey Wolf Optimization Energy Management Algorithm for Emission Reduction of Converted Plug-In Hybrid Electric Vehicle[J].SAE International Journal of Passenger Cars-Electronic and Electrical Systems，2019，12（2）.

[6]彭靖宇.智能网联插电式混合动力汽车协同优化能量管理策略研究[D].重庆：重庆大学，2019.

[7]杨超，杜雪龙，王伟达，等.智能网联环境下的PHEV实时优化能量管理策略法[J].汽车安全与节能学报，2021，12（2）：9.

[8]张松，王坤羽，杨蓉，等.混合动力公交车深度强化学习能量管理策略研究[J].2021.

[9]Qi C，Zhu Y，Song C，et al.Self-supervised reinforcement learning-based energy management for a hybrid electric vehicle[J].Journal of Power Sources，2021（Dec.1）：514.

[10]Kong Z，Zou Y，Liu T .Implementation of real-time energy management strategy based on reinforcement learning for hybrid electric vehicles and simulation validation[J].Plos One，2017，12（7）.

[11]王冬黎，高阳，陈世福.强化学习综述[C]//中国人工智能学会第10届全国学术年会.0[2023-08-23].

[12]赖晨光，庞玉涵，胡博，等.基于深度强化学习的混合动力汽车能量管理策略[J].[2023-08-23].