基于大数据的车用动力电池开路电压估计方法研究

2022-04-09 07:36潘垂宇李雪许立超张志陈雷

汽车文摘 2022年4期

关键词：开路电压电动汽车

潘垂宇李雪许立超张志陈雷

（1.中国第一汽车股份有限公司新能源开发院，长春 130013；2.汽车振动噪声与安全控制综合技术国家重点实验室，长春 130013）

主题词：动力电池大数据充电电压恢复率开路电压

1 引言

近年来，电动汽车发展迅速，更是成为了国家十四五战略规划的一部分。但是新能源汽车仍然有很多需要解决的问题，电动汽车开路电压预测是其中之一。

锂离子电池在开路状态下的端电压称为开路电压（OCV）。电池的开路电压等于电池在断路时（即没有电流通过两极时）电池的正极电极电势与负极电极电势之差。

开路电压的估计是电池荷电状态（SOC）预估的重要基础。当电池处于静态或无负载状态时，电池端电压和SOC存在一定的数学比例关系，而SOC对于电池特性分析、自放电特性预估、电池管理系统设计都有着重要作用。

当电动汽车处于行驶状态时，很难准确测量到开路电压，因此，开路电压的估计就非常重要。

目前主要流行的开路电压的估计方法可分为试验法、基于模型法、数据驱动法等。

（1）试验法

试验法的方法是在试验中的“充分静置法”，将充放电后的锂电池进行充分静置，让其端电压恢复至开路电压。该方法存在着无法规避的缺点，即在进行OCV估算之前电池必须经过长时间静置。

该试验法得出开路电压的标准方法为：分别在对应温度下，以1C/1C充放电倍率对电池当前温度下的可用容量进行测试。以0.1C倍率放电，每放出可用容量的10%，静置3 h，静置后电池端电压即为对应SOC状态开路电压。

上述方法表明，电池经过长期静置，其开路电压稳定且可与SOC对应。但是，新能源汽车实车很难按照该试验状态使用，所以试验法并不能适用于实车的开路电压预估。

（2）基于模型法

汽车在行驶过程中经历反复的放电-回馈过程，即使出现汽车在红灯时驻车情况，由于停歇时间很短，因此也很难达到稳态开路电压。

武国良等提出非稳态开路电压模型，利用等效电路模型参数辨识电池的一阶等效电路模型，来分析包括充电停歇状态和放电停歇状态的非稳态开路电压模型。

付浪等提出一种新的办法，通过对电池放电曲线及恢复曲线分析，结合电池等效模型，拟合出开路电压的计算公式。将放电停止后的某时刻电压用卡尔曼滤波法估计电池的开路电压。不但解决了传统估算中开路电压法用时长的问题，而且提高了开路电压值的准确性。

但是，卡尔曼滤波算法是基于最小方差误差的思想提出的一种递推算法，其本身也是以电池的Thevenin为模型和基于模型法有类似的问题，同时卡尔曼滤波的运算复杂，也有一定缺点。

综上，基于模型法需要模拟出电池的各种参数，但是随着电池的衰减及不同电池的一致性差异，也很难做到非常精确的预测开路电压。

（3）基于数据驱动法

这类方法主要可用于以下3类情况：被控系统的数学模型完全未知；被控系统的模型不确定较大；被控系统结构过于复杂或模型阶数过高等类型系统。常用的数据驱动类算法如神经网络(Neural Network，NN)等。可以在不了解电池内部结构的情况下，利用大量电池在实际工况下的数据作为训练数据集。但是，目前通过数据驱动对于开路电压的预估，还处于探索阶段。

现在的新能源汽车的远程服务均基于GB/T 32960.3—2016《电动汽车远程服务与管理系统技术规范第3部分：通信协议及数据格式》的数据资源，所以使用基于数据驱动法是很好的预测手段，同时最新的新能源汽车具有空中下载技术（OTA）功能，通过该功能可以将云端学习的结果写入汽车之中，对汽车的电池管理系统（BMS）实现不断迭代，预测越来越准确。

本文基于数据驱动法对电动汽车的OCV进行预估，其步骤包括数据准备、数据预处理、电池开路电压预测特征构建、机器学习及结果分析4部分进行阐述。

2 电动汽车数据准备

2.1 电动汽车数据采集流程

所使用数据为某新能源公司投放使用的某款纯电动汽车在2021年的数据，数据采集频率为0.1 Hz。数据由安装在汽车上的车载数据采集设备获取，数据传输按照GB/T 32960.3—2016执行，数据由车载TBox传输至后台服务器。

2.2 电动汽车数据筛选

电动汽车在停车后一般就会停止数据上传。但是此时车辆的SOC、极化、温度、自放电特性均不稳定，下电时刻的电压值不能作为开路电压。

在停车时长满足充分静置后的车辆在启动时，电流和车速均为0，理论上可以认为此时的端电压为开路电压，但是每次车辆的停放时长、车辆状态是不确定的，对于数据应用，仍然需要对开路电压进行预测。

为了预测该值，需要对上述各因素进行总结和大量数据的有监督机器学习分析。

本文采用智协慧同（北京）科技有限公司的EXD软件作为服务器端数据筛选的工具。为了满足车辆充分静置的条件，采用了电动汽车停放超过1 h的数据。因此，电动汽车停放工况相应的数据特征需同时满足表1所示所有条件。

表1 电动汽车停放工况条件

统计时间为2021年的数据，经上述简单判定后，符合条件的车辆有974台。

为了缩小数据范围，提升数据计算效率，拟从里程占比、月行驶次数占比两个维度对数据进行二次筛选。图1是974台车运行里程的统计，从图1可以看出车辆里程分布普遍低于30 000 km，超过30 000 km的数据舍弃。图2是对月行驶次数的分布统计，为了统计相对活跃车辆，舍弃月行驶次数5次以下的车辆。

图1 电动汽车里程占比

图2 电动汽车月行驶次数占比

3 电动汽车数据预处理

根据上述分布，将数据范围进一步规范，方法如下表2所示：

表2 数据条件范围精确表

进一步对数据进行清洗，发现如“SOC大幅下降，绝缘值下降，温度上升”、“里程不变的情况下，SOC下降明显”、“SOC为100不变，但是总电压有明显降低”等状态异常车辆，通过数据分析和实车监控，将异常车辆排除。

同时发现如表3的混淆数据。

表3 数据质量异常表

将上述表3车辆清洗去除后，还有850台车辆的运行数据符合条件。

4 电池开路电压预测特征构建

机器学习中，为使算法达到最优性能，须通过特征工程对数据进行处理使原始数据转化为特征，从而对数据中所包含的信息进行充分挖掘，使模型能够更好地进行学习。因此须构造车辆起动瞬间及车辆下电前的相关特征，以便模型进行学习与训练。

4.1 电池开路电压预测影响因素分析

影响开路电压的预测可能包含电池极化、电池自放电、电池寿命、电池温度等原因。

蔡信等分析了影响动力电池SOC的因素，描述了动力电池极化、电池迟滞效应对OCV的影响。由于迟滞效应的存在，电池OCV根据电流大小、环境温度、充放电历史因素的不同，同一SOC点，会得到不同的与之对应的OCV值。

根据上述影响因素，本文选取了里程、电流、车速、温度、电压和停车前状态信息进行特征构建。

4.2 电池开路电压预测特征选取及构建

为保证动力电池开路电压的预测精度，且保证计算负荷在可接受的范围内，本文选取的特征值如表4所示。

表4 开路电压预测特征表

值得说明的是，序号2的车辆累计里程代表车辆到目前为止的累计里程；

序号3~4的车辆停放前/后电池最高温度，为车辆在停车前后的温度。用于分析温度对电池自放电的影响；

序号5的车辆停放的时间间隔，用于从时间维度分析自放电的影响；

序号6~7的车辆停放前后的总电压及电压，用于判断自放电，同时车辆停放后的电压也是机器学习的预测值；

序号8的停车前6帧的状态，车辆前6帧一般可以认为是停车前1 min的情况。用于分析车辆在停车前是处于充电、行驶还是静止状态；

序号9~11的停车前6帧的电流最大、最小和平均值，用于获取停车前1 min内的电流变化；

序号12~14的停车前6帧的车速，用于获取停车前1 min的车速变化。

5 机器学习及结果分析

5.1 机器学习方法的选择

机器学习当前采用的技术主要包括分类、回归分析、聚类、关联规则和特征分析，在数据挖掘过程中根据不同分析目标选择不同的手段进行模型构建。

其中回归是数据挖掘最常采用的分析方式之一，回归算法包括分类回归树（CART）、线性回归、多项式回归和岭回归。

线性回归法适合特征之间高度线性相关的场景，而电池开路电压预估各因素之间存在着复杂的、动态的非线性关系，导致模型拟合效果不理想。

多项式回归相较于线性回归可以更好的表达复杂关系，但是对于非线性数据或者数据特征间具有相关性多项式回归难以建模。

岭回归相较于多项式回归更不容易过拟合，但是解释性很差。

对开路电压预测，从车速、温度、电流、停放时间维度进行非线性分析，且基于工程开发中对于各项参数的贡献度可解释性的原则，本文采用随机森林回归算法。该算法即集成了CART算法中的可解释性及非线性特点，又通过引导聚集算法（Bagging）避免了过拟合和稳定性差的缺点。

随机森林回归算法采用CART作为元分类器，用Bagging方法生成每棵决策树的随机训练样本集，并且在构建单棵树时，随机地选择训练样本中的特征来决定决策树的节点分裂。Bagging方法和CART的结合，再加上随机选择特征进行属性分裂，使得RFR能较好容忍噪声。

随机森林回归算法是由多个决策树{(,),=1,2,…,}组成的组合分类器，其中{}是独立同分布随机向量，通过对所有决策树结果进行综合投票，而产生输出结果。

一个随机森林回归算法由N棵决策树构成，每棵决策树（如决策树T1，T2，…，TN）是一个分类器，随机森林回归算法的决策结果由所有决策树分类结果的组合策略得出，如图3所示。

图3 随机森林回归算法决策树

5.2 机器学习结果的验证方法

机器学习回归的评价常用决定系数R-Squared（R）来表示。Jason D.Rights等描述R通常理解为预测方差与结果方差的比例，观测值与真实值的残差平方和比例，可表示两变数间的线性相关程度拟合程度，R的值越接近1，说明回归预测的拟合程度越好；反之，R的值越小，说明回归预测对实际值的拟合程度越差，见式（1）。

5.3 全体状态的机器学习

全体状态的机器学习选取整体数据的75%作为测试集，另外的25%作为验证集。

经过计算，其R为0.77，拟合度并不好，见图4。

图4 所有状态随机森林预测曲线

对此，本文提出将停车前为充电和行驶的状态单独进行分析，全量数据集中根据车辆静止前的状态，可分为“停车前为充电状态”与“停车前为行驶状态”两种状态。因此使用2种的全量数据集进行机器学习训练。效果如下2节所示。

5.4 停车前为充电状态的机器学习

将停车前为充电状态的数据整理出来，单独进行分析（图5），可以发现其R为0.87，充电状态可以较好的拟合预测电压的下降情况，即结合了电压恢复率和自放电率的情况。

图5 充电状态随机森林回归算法预测

同时，在充电完成的状态下，温度和电压差下降曲线如图6所示，发现有明显规律。

图6中圈内的点均为大于10 A的电流充电导致。将上述数据剔除后可以发现一个明显的回归曲线（图7）。

图6 温度和电压差下降曲线

图7 温度和电压差下降曲线

通过分析该曲线可以预估，目前在项目内的车辆，符合温度-电压下降差曲线的规律，没有明显自放电异常的车辆，且大多由于电池极化造成。

通过皮尔森相关性计算得出，停车前、后的电池温度和电压下降的相关性分别为-0.54、-0.59，电流和电压下降的相关性为-0.43。

5.5 停车前为行驶状态的机器学习

将停车前为行驶状态的数据整理出来，单独进行分析（图8），可以发现其R为0.47没有明显相关性，行驶和停止状态不能有效预测电压恢复情况。

图8 行驶状态随机森林预测曲线

6 结论

本文通过数据驱动的方式对电动汽车的开路电压进行了预测，本方法不需要搭建复杂的模型及进行长时间的静置实验，是非常适合现有大规模车辆实际应用的一种方法。

根据目前的数据来源，停车前为充电状态的车辆片段，可以使用本文所提出的特征架构与随机森林回归算法开展符合实车使用需求的开路电压预估，且有较高的准确性。该方法既不影响实车使用，同时成本很低，易于推广普及。然而，目前的GB/T 32960.3—2016数据上传频率及本文所整理的特征信号，暂不能在停车前为行驶状态进行预估。

同时，通过电压下降对比温度曲线发现，该数据范围内车辆与温度和电流相关性很高，根据电池的自放电特性，没有发现明显的自放电导致的电压异常下降情况。

后续会通过增加数据样本数量、对特征进一步归类调整参数、提升上传数据密度的方式，进一步提升预测准确性。