基于特征选择和机器学习的锂电池寿命早期预测

2024-11-21 00:00:00史云峰韩晓明王利红戴震涛任密蜂张文杰
现代电子技术 2024年22期
关键词:锂离子电池机器学习特征提取

摘" 要: 在早期预测锂电池剩余使用寿命时,因为电池初期循环时的性能衰退并不显著,面临着特征选取的问题。确保选取的特征集合在数量、相关性和冗余性上的相互平衡是降低测试成本、提升预测准确度的关键,目前的研究很难全面平衡这些方面,故提出一种结合多目标特征选择和机器学习的方法。从MIT数据集中提取前100周期的特征,利用Spearman相关系数法分析特征的相关性,得到相关度高的特征子集。采用多目标粒子群优化(MOPSO)算法,根据设定的三个目标进行迭代优化,从帕累托前沿集中选出最优特征组合,输入到多种机器学习模型中,极限梯度提升(XGBoost)模型显示出最好的预测性能。实验结果显示,Spearman⁃MOPSO⁃XGBoost方法在仅使用4个特征条件下,预测均方根误差(RMSE)最小,为80.65个循环,平均绝对百分比误差(MAPE)为8.68%。

关键词: 电池寿命预测; 锂离子电池; 多目标特征选择; 机器学习; 多目标粒子群优化算法; 特征提取

中图分类号: TN919⁃34; TM912" " " " " " " " " "文献标识码: A" " " " " " " " " " "文章编号: 1004⁃373X(2024)22⁃0090⁃09

Lithium battery life early prediction based on feature selection and machine learning

Abstract: In early prediction of the remaining useful life (RUL) of lithium batteries, feature selection becomes challenging due to performance decline of the battery in the initial cycle is not significant. Ensuring the balance between the number, correlation and redundancy of the selected feature set is the key to reducing the test cost and improving the prediction accuracy. The current research is difficult to balance these aspects comprehensively, so a method combining multi⁃objective feature selection and machine learning is proposed. The features of the first 100 cycles were extracted from the MIT data set, the Spearman correlation coefficient method was used to analyze the correlation of the features, and the feature subset with high correlation was obtained. The multi⁃objective particle swarm optimization (MOPSO) algorithm is used to perform iterative optimization according to the three goals set. The optimal feature combination is selected from the Pareto front set and input into various machine learning models. The extreme gradient Boost (XGBoost) model shows the best prediction performance. The experimental results show that the Spearman⁃MOPSO⁃XGBoost method can realize the smallest root mean square error (RMSE) of 80.65 cycles and mean absolute percentage error (MAPE) of 8.68% when only four features were used.

Keywords: battery life prediction; lithium⁃ion battery; multi⁃objective feature selection; machine learning; multi⁃objective particle swarm optimization algorithm; feature extraction

0" 引" 言

锂离子电池凭借其高能量密度、低自放电、无环境污染和长使用寿命等优势,已成为电动汽车和储能系统的主流技术解决方案[1],在现代生活中发挥着越来越重要的作用。然而,随着使用时间的增加,当电池容量降至其额定容量的80%以下时,电池稳定性下降[2],可能导致充放电性能降低甚至引起灾难性事故。准确预测剩余使用寿命(RUL)可以指导电池的健康管理和系统维护。

目前,国内外广泛采用的锂电池RUL预测方法主要分为两类:基于模型的方法和基于数据驱动的方法。前者综合考虑电池材料属性、失效机理及容量衰减规律等因素,构建电池性能退化模型[3];后者从原始数据中提取反映退化趋势的健康因子(电压、电流、容量等),构建机器学习模型进行预测。基于数据驱动的方法不需要考虑复杂的电化学特性,模型具有较高的可迁移性、鲁棒性与泛化性[4],在锂电池RUL的早期预测效果表现很好,但对数据和特征的要求比较高。许多研究从电池循环初期数据中提取到多样的老化特征,但部分特征是不相关的或冗余的,会导致预测准确性差或模型过拟合。文献[5]手动选取6个特征,输入到弹性网络预测,而这需要深厚的专业经验知识。文献[6]采用灰色关联分析评估特征与寿命的相关性自动选择特征,但没有考虑到特征间的冗余性,导致过度拟合问题。文献[7]利用遗传算法选出12个特征,但仅以预测准确性作为评估指标,忽略了特征数量和特征冗余性,导致电池测试成本上升和模型泛化能力下降。在电池寿命预测的特征选择中,实现特征数量、相关性和冗余性之间的平衡是一个主要挑战。大多数现有研究只能针对这些因素中的单一方面进行优化,难以全面考虑。本研究采用了多目标进化算法来进行特征选择,将模型准确性、特征数量和特征冗余性设定为优化目标。此外,还融合了过滤法策略,提前筛选出高相关性的特征子集,这不仅提升了模型的性能,也有效减少了成本。本文贡献如下。

1) 在MIT数据集中电池的前100个循环周期内,基于电压、容量、温度、内阻等参数,提取了反映老化趋势的50种特征。

2) 提出基于Spearman⁃MOPSO的融合多目标特征选择方法,设计多目标策略筛选出高相关性、低冗余的特征子集。

3) 对比6种机器学习模型,确定了最适合本文特征子集的模型,在仅用少量特征的情况下实现了更好的预测结果。

1" 数据集及方法框架

1.1" 数据集

采用麻省理工⁃斯坦福⁃丰田研究中心(MIT)的电池数据集[5],重点研究用前100个循环的退化数据进行早期电池寿命预测,在这个阶段,大多数电池尚未显示出容量下降的迹象。

数据集包含124节可用电池,标称容量为1.1 A·h的商用磷酸铁锂/石墨A123 APR18650M1A电池。电池容量衰减曲线如图1所示,电池寿命终止(EOL)设定为80%(0.88 A·h),寿命范围从150个循环到2 300个循环不等。数据集中记录了温度、电流、电压、充放电容量的周期内测量数值,以及每个周期测量的容量、内阻和充电时间。这些电池使用了72种不同的快速充电条件,包括单步或两步快速充电协议,充电及恒流放电曲线如图2所示。

1.2" 方法框架

锂电池寿命早期预测框架分为三部分:建立特征库、融合特征选择和机器学习,如图3所示。第一阶段从电池循环初期数据中提取50个不同类型的特征,构建早期寿命预测特征库。第二阶段将过滤法与包装法结合,采用Spearman相关系数法和MOPSO算法进行特征选择,选取最佳特征子集。第三阶段将特征子集输入到不同的机器学习模型中,确定预测效果最好的模型。

2" 特征提取

为了提前预测电池寿命,研究仅使用前100个周期的循环数据。由于数据量有限,需要选取不同类型的特征,从不同角度反映电池的老化情况[8]。图4为电池数据生成的曲线图,展示了随着循环次数增加,曲线发生的变化。对电池老化动态进行分析提取,提取出50个特征,如表1~表7所示,分为7类。

1) QV曲线。如图4a)所示,显示了Q(V)不同周期的曲线,Q(V)是放电容量和放电电压的函数关系。从图中可以看出,随着循环次数的增加,曲线下移,覆盖面积减少,这些差异可以反映出电池随着循环次数的老化现象。选取第10次循环和第100次循环Q(V)的差值Q100(V)-Q10(V),记为ΔQ100−10(V),如表1所示,F1~F8为QV曲线相关特征序号。

2) ICA及DVA。如图4b)所示,绘制了多个周期的电池IC曲线,曲线随着循环次数的增加,峰值及其电压和覆盖面积都在降低。增量容量(IC)曲线是通过微分小电压步长内放电容量的变化与电压的变化来计算的,可以检测由于容量损失而导致的电化学过程的细微变化。而差分电压(DV)定义为IC的倒数,通过小容量区间的电压差获得,DV曲线显示了DV值与容量的关系。如表2所示,F9~F16为IC/DV曲线相关特征序号。

3) 容量相关。如图4c)所示,绘制了多个电池的前100周期的容量衰退曲线。容量衰退可以直接反映电池的老化行为。用不同模型去拟合容量衰减曲线,得到拟合参数,作为电池寿命预测的特征。考虑三种模型,即线性模型、时间平方根模型和基于库仑效率的模型(CE模型),将三个模型对应的拟合参数定义为容量相关特征。线性模型为最简单的退化模型。

[Cl=p1l+p2] (1)

时间平方根模型:通过考虑锂电池的锂库存损失来模拟锂电池的退化。

CE模型:通过考虑库伦效率与电池衰减率之间的关系来模拟电池容量退化[9]。

[Cl=p5pl6+p7] (3)

式(1)~式(3)中:[Cl]是第[l]次循环的电池放电容量;[p1~p7]是三个模型拟合容量衰减曲线的7个参数。容量相关特征如表3所示,F17~F26为容量相关特征序号。

4) 温度相关。图4d)绘制了电池不同周期的温度变化,随着循环次数的增加,温度的高低、出现峰值的时间和曲线的覆盖面积都发生了变化。图4e)绘制了电池的最高温度、最低温度和平均温度随着循环周期的变化趋势。

在充放电老化循环中,由于内部的化学和物理反应,温度会升高和降低,高温会加速电池老化,因此温度也是反映电池老化动态的重要指标。如表4所示,F27~F33为温度相关特征序号。

5) 内阻相关。如图4f)所示,绘制了不同寿命电池内阻的变化曲线图。电池退化最重要的两个表现是内阻增加和容量减少,内阻的变化与电池老化密切相关,在电池接近使用寿命时,内阻呈指数级上升。如表5所示,F34~F39为内阻相关特征序号。

6) 时间相关。电池充放电时间与充放电倍率、充放电深度、老化条件密切相关。老化实验中,速率和深度始终保持恒定,充电和放电时间随着老化周期而改变。随着循环次数的增加,电池充放电曲线随之发生偏移,充电和放电时间也会增加或者缩短。本文选择充放电时间作为预测锂电池RUL的特征,如表6所示,F40~F44为充放电时间相关特征序号。

7) 电压电流曲线斜率。如图4g)和图4h)所示,绘制了多个周期的电压曲线图和电流曲线。随着循环次数的增加,电池充放电曲线发生偏移,电池恒流和恒压时对应的电压和电流曲线的斜率也会随之发生改变。如表7所示,F45~F50为电压电流曲线斜率相关特征序号。

3" 特征选择和机器学习

3.1" 特征选择方法

特征选择方法分为过滤法、包装法和嵌入法[10],本文使用过滤法和包装法结合的融合方法。

3.1.1" 过滤法

过滤法使用不同的标准或指标,根据数据的内在特征对特征变量进行排序,图5是过滤法的流程。过滤法的优点是运算速度快,但其缺点是无法考虑特征之间的相互关系。基于Filter的特征选择方法包括灰色关联分析、Pearson相关系数等。

Spearman方法:考虑到锂电池早期的非线性退化特性,使用非线性相关性分析方法。用Spearman相关系数来测量单调关系[11],特征选择的过程如下:将所有特征转换为相应的等级,并计算它们之间的排名差异;根据排名差异的大小来确定特征之间的相关性,取值范围在-1~1。相关性的计算公式如下:

式中:[ρ(X,Y)]是相关系数;[R(Xi)]和[R(Yi)]分别是X和Y中每个变量的排名;n是样本数。

3.1.2" 包装法

包装法是一种比较耗时但准确率较高的特征选择方法,由搜索算法和评估模型组成。搜索算法用来选取特征子集,输入到评估模型里;评估模型反馈结果给算法,算法迭代,在所有特征组合中选择出最佳子集[12]。图6是包装法的流程。搜索算法包括序列前向选择(SFS)、蚁群优化(ACO)等。

MOPSO算法:粒子群优化算法(PSO)在特征选择中表现效果较好,计算成本低,收敛速度快[13],本文基于PSO加入多目标策略,采用多目标粒子群优化(MOPSO)算法。

MOPSO是基于PSO算法的一种多目标优化算法,能够同时优化多个目标函数[14]。与PSO算法相比,MOPSO算法加入非支配排序、拥挤度计算等,通过维护帕累托最优集合来实现多目标优化,这个集合包含了所有不同的、非支配的解。MOPSO算法流程如图7所示。

MOPSO算法中重要公式如下。

1) 速度与位置更新公式如下:

[vt+1=wvt+c1r1(Pt-xt)+c2r2(Gt-xt)] (5)

[xt+1=xt+vt] (6)

式中:[w]为惯性权重;[c1]、[c2]为加速因子;[r1]、[r2]为[(0,1)]之间的随机数;[Pt]是t时刻的个体最优位置;[Gt]是t时刻的全局最优位置;[vt]和[xt]分别为粒子t时刻的速度和位置。

2) Pareto支配。对于[x1]和[x2]两个解,如果满足以下两个条件,则称解[x1]帕累托支配解[x2]。

式中:[x1]、[x2]为两个不同的解;[fi(x)]、[fj(x)]为第i个和第j个目标函数值。引入多目标策略,设置三个目标函数。目标1为最小化特征子集的数量;目标2为最大化模型的预测准确性;目标3为最小化特征子集之间的相关度。目标函数公式如下:

[num_feature=size(x_train)] (9)

[error_rate=rmse(y_valid,y_pred)] (10)

[correlation_feature=corr(x_train)] (11)

式中:[x_train]是训练集中的输入数据;[y_valid]和[y_pred]是目标值的真实值和预测值。

3.1.3" 融合法

基于Filter的特征选择方法需要较少的计算时间,计算速度快,可以用于高维数据集,但是未能考虑到特征之间的冗余性。基于Wrapper的特征选择方法选择的特征子集在预测性能方面具有更高的准确性,但是在相关性较低的特征筛选方面存在不足,且消耗更多的时间,计算成本高,不适合高维数据集。本文采用过滤式和包装式融合的特征选择方法。图8是融合特征选择方法的流程。首先使用过滤法(Spearman相关系数)去除低相关性的健康因子(HI),然后使用包装法(MOPSO+XGBoost)去除冗余的HI,从而达到降低计算需求、减少特征选择过程中的时间消耗并提高预测准确性的目的。

3.2" 机器学习模型

本文使用6种机器学习模型,包括人工神经网络(ANN)、相关向量机(RVM)、决策树(Decision Tree)、弹性网络(Elastic Net)、随机森林(RF)和极限梯度提升(XGBoost),选择输入最佳的特征进行对比。

4" 结果与讨论

4.1" 评价指标

本文所用评价指标有RMSE(均方根误差)、MAE(平均绝对误差)、MAPE(平均绝对百分比误差)、R2决定系数(R⁃squared)、计算时间Time。

4.2" 特征筛选

使用不同特征选择方法对50个特征进行筛选。

1) 使用Spearman相关系数法对特征库中的特征进行相关性分析,具体结果如表8所示。

表8中:加粗代表过滤特征;横线标注的是最终选定特征;F为特征(Feature);R为相关度(Relativity)。设定过滤阈值为0.5,筛选出了14个特征作为过滤特征。

2) 使用MOPSO算法结合XGBoost模型对特征库中50个特征进行筛选,算法不断迭代优化,得到16个特征,作为包装特征。

3) 采用融合法,在过滤特征的基础上,由MOPSO算法对14个特征进一步进行选择,使特征冗余性减少,最终选出4个特征作为融合特征。F3:ΔQ100−10(V)的平均值;F4:ΔQ100−10(V)的方差;F28:周期10和100的放电温度差值的最小值;F42:周期10的放电时间。

MOPSO算法特征选择的具体过程如图9所示。

设置10个粒子表示不同的特征集合,初始位置如图9a)所示,x、y、z三个坐标轴代表不同的目标值,分别表示预测误差、特征冗余和特征数量。经过100次循环,剩下两个最优粒子,如图9b)所示,粒子的三个目标已经优化到最佳值。由此得到全特征、过滤特征、包装特征、融合特征4类不同的特征。

4.3" 特征比较

将4类特征输入到同一机器学习模型中,评估预测的准确性,结果如表9所示。

经过比较分析,在过滤特征和包装特征的对比中,包装特征表现稍好,但两者差距不大,特征数量也接近。从整体来看,全特征展现出最佳的预测效果,但其所需的50个特征维度较高。与全特征相比,融合特征仅采用了4个特征,且各项指标的准确性表现接近。

上述分析表明,使用融合多目标特征选择方法(Spearman⁃MOPSO)显著减少了特征之间的冗余性,并保持了预测的准确性水平。

4.4" 机器学习模型预测

将融合特征输入到6种不同的机器学习模型中进行分析对比,结果如表10所示。

通过对比各模型的预测表现,发现XGBoost在RMSE、MAE、MAPE和R2等指标上表现出色,而RVM和Elastic Net的表现较差,准确性低。此外,ANN和Elastic Net的计算时间较长。分析结果可知,XGBoost模型在预测准确性和效率方面表现出色,适合作为融合特征的最佳机器学习模型。

4.5" 方法比较

为了进一步验证方法的有效性,在表11中选择使用相同数据集的5篇文献进行对比。这些文献采用不同的特征选择策略和模型进行预测。

文献[5]选取6个特征输入到弹性网络中进行预测;文献[7]利用遗传算法选出12个特征输入SVM进行预测;文献[15]根据梯度提升回归树(GBRT)选择排名前20的特征;文献[16]采用递归特征消除(RFE)选择了8个特征,应用于混合深度学习网络;文献[17]使用随机森林(RF)方法筛选出4个特征,应用于GRNN网络。

通过结果分析,在特征数量较少的情况下,例如文献[5]方法、文献[16]方法和文献[17]方法,本文方法取得了最佳结果,其RMSE和MAPE值均最低,且显示出了较大的差距;而与本文预测结果接近的文献[7]方法和文献[15]方法,分别采用了12个和20个特征作为输入特征。

综上所述,所提方法(Spearman⁃MOPSO⁃XGBoost)表现出较高的预测准确性,且仅利用少量特征就实现了更好的预测结果。

5" 结" 论

针对电池寿命预测中存在的特征数量多、不相关和冗余问题,提出了Spearman⁃MOPSO⁃XGBoost锂电池寿命早期预测方法。经过实验证明:提取的特征能正确反映电池的老化趋势;融合多目标特征选择方法不仅去除了不相关的特征,还消除了冗余;与其他文献方法相比,本文方法仅利用少量特征就可以实现更好的预测结果。在未来可考虑使用多个电池数据集进行验证,以提高该方法的泛化性和效果。

参考文献

[1] LI X, YU D, BYG V S, et al. The development of machine learning⁃based remaining useful life prediction for lithium⁃ion batteries [J]. Journal of energy chemistry, 2023, 82: 103⁃121.

[2] 王瀛洲,倪裕隆,郑宇清,等.基于ALO⁃SVR的锂离子电池剩余使用寿命预测[J].中国电机工程学报,2021,41(4):1445⁃1457.

[3] LIN X, LU W. A battery model that enables consideration of realistic anisotropic environment surrounding an active material particle and its application [J]. Journal of power sources, 2017, 357: 220⁃229.

[4] QU X D, SHI D P, ZHAO J Y, et al. Insights and reviews on battery lifetime prediction from research to practice [J]. Journal of energy chemistry, 2024, 94: 716⁃739.

[5] SEVERSON K A, ATTIA P M, JIN N, et al. Data⁃driven prediction of battery cycle life before capacity degradation [J]. Nature energy, 2019, 4(5): 383⁃391.

[6] GUO P, CHENG Z, YANG L. A data⁃driven remaining capacity estimation approach for lithium⁃ion batteries based on charging health feature extraction [J]. Journal of power sources, 2019, 412: 442⁃450.

[7] FEI Z, YANG F, TSUI K L, et al. Early prediction of battery lifetime via a machine learning based framework [J]. Energy, 2021, 225: 120205.

[8] HU X, CHE Y, LIN X, et al. Battery health prediction using fusion⁃based feature selection and machine learning [J]. IEEE transactions on transportation electrification, 2020, 7(2): 382⁃398.

[9] YANG F F, SONG X B, DONG G Z, et al. A coulombic efficiency⁃based model for prognostics and health estimation of lithium⁃ion batteries [J]. Energy, 2019, 171: 1173⁃1182.

[10] CHANDRASHEKAR G, SAHIN F. A survey on feature selection methods [J]. Computers amp; electrical engineering, 2014, 40(1): 16⁃28.

[11] LIU J, CHEN Z. Remaining useful life prediction of lithium⁃ion batteries based on health indicator and Gaussian process regression model [J]. IEEE access, 2019, 7: 39474⁃39484.

[12] GONG D, GAO Y, KOU Y, et al. Early prediction of cycle life for lithium⁃ion batteries based on evolutionary computation and machine learning [J]. Journal of energy storage, 2022, 51: 104376.

[13] LI F, ZUO W, ZHOU K, et al. State of charge estimation of lithium⁃ion batteries based on PSO⁃TCN⁃Attention neural network [J]. Journal of energy storage, 2024, 84: 110806.

[14] COELLO C A C, PULIDO G T, LECHUGA M S. Handling multiple objectives with particle swarm optimization [J]. IEEE transactions on evolutionary computation, 2004, 8(3): 256⁃279.

[15] YANG F, WANG D, XU F, et al. Lifespan prediction of lithium⁃ion batteries based on various extracted features and gradient boosting regression tree model [J]. Journal of power sources, 2020, 476: 228654.

[16] XU Q, WU M, KHOO E, et al. A hybrid ensemble deep learning approach for early prediction of battery remaining useful life [J]. IEEE/CAA journal of automatica sinica, 2023, 10(1): 177⁃187.

[17] ZHANG Y, PENG Z, GUAN Y, et al. Prognostics of battery cycle life in the early⁃cycle stage based on hybrid model [J]. Energy, 2021, 221: 119901.

猜你喜欢
锂离子电池机器学习特征提取
基于Daubechies(dbN)的飞行器音频特征提取
电子制作(2018年19期)2018-11-14 02:37:08
Bagging RCSP脑电特征提取算法
溶剂—凝胶法制备锂离子电池的阴极材料LiMn2O4及其性能研究
基于机器学习的图像特征提取技术在图像版权保护中的应用
基于网络搜索数据的平遥旅游客流量预测分析
时代金融(2016年27期)2016-11-25 17:51:36
前缀字母为特征在维吾尔语文本情感分类中的研究
科教导刊(2016年26期)2016-11-15 20:19:33
锂离子电池的安全性能评价技术
锂离子电池石墨烯复合电极材料专利分析
基于支持向量机的金融数据分析研究
手机锂离子电池充电电路的设计与实现