集成算法在工程核心部件剩余寿命预测中的应用

2021-02-24 10:17龙胜平李铮伟陈建萍
设备管理与维修 2021年2期
关键词:使用寿命部件精度

龙胜平,袁 戟,李铮伟,陈建萍,宁 可,孙 奥

(1.华东师范大学工商学院,上海 200241;2.上海东方低碳科技产业股份有限公司,上海 200052;3.同济大学机械与能源工程学院,上海 200092)

0 引言

工程核心部件RUL(Remaining Useful Life,剩余使用寿命)预测是设备全生命周期健康和运维的核心内容之一,基于数据驱动的算法,可在很大程度上克服试验成本高、周期长的局限性,并逐渐成为剩余使用寿命预测和维护的重要而有效的解决方案。

由于预测的准确性对保障设备安全运行、降低维护成本意义重大,近年来树模型强大的泛化性和鲁棒性,尤其是XGB(极限梯度增强)、LGB(非对称加密)等算法在工程应用中优势凸显,使得树模型在研究领域备受重视。Li Fei等[1](2018)为了更充分地抓取退化信息,以时间序列窗口的原始数据和涡扇引擎运行时间为输入项,应用LGB模型在C-MAPSS数据集上进行有效性验证。Li Yiming[2](2019)采用了特征优化降维方法,并应用局部线性嵌入和LGB预测工具使用寿命。本文中选取LGB为基本模型,结合遗传规划的优势,提升LGB算法的预测精度。

通过Stacking的算法集成方式提升模型精度,现正成为RUL预测领域的一大研究热点。Shamaei Ehsan等[3](2016)通过对GP(Genetic programming,遗传规划)算法和模糊神经网络进行算法集成(Stacking),提升单模型的预测精度,在泥沙沉积预测中进行了应用,并在实际数据集上做了有效性验证。在调研中发现,GP算法是一种比较有效的非线性拟合算法,它能够给出具体的预测值对应的解析表达式,相比其他算法,有较强的解释性[4]。Liao Linxia等[5](2014)通过GP算法对原数据集进行预兆特征挖掘,从而提升剩余使用寿命计算精度。Qin Aisong等[6](2017)基于首次预测时间,应用GP算法找寻更佳退化因子,并结合维纳过程退化模型预测旋转机器的剩余使用寿命。

在调研过程中发现通过Bagging的抽样和样本匹配,也能实现模型精度的提升[7]。Wang Tianyi等[8](2008)通过找寻疲劳裂纹扩展测试集相似的训练集样本,对样本的剩余使用寿命(RUL)进行了估计,改进的模型有更好的预测精度。李劲松等[9](2016)提出一种基于K-Means的聚类匹配曲线相似性的方法,估计航空涡扇发动机剩余使用寿命,并验证了方法的有效性。武斌等[10](2016)提出了基于相似性的轴承剩余使用寿命预测方法,准确率高达81.8%。

本文考虑训练集到测试集之间的匹配性,选取特征相似的样本,应用Bagging采样方式保证模型精度提升。并通过GP算法实现强特征的提取,采用和LGB算法Stacking的集成方式,提升单模型的预测精度。本文在竞赛数据集上对模型的有效性进行了验证,对相关研究具有一定的借鉴意义。

1 基本原理

1.1 预测模型

本节重点介绍LGB和GP算法。其中,LGB是微软开发的基于梯度下降的Boosting算法。LGB通过基于梯度的单边采样和互斥特征捆绑,有效地降低处理样本的时间复杂度。此外,在大量的数据实验和实践应用中都证明LGB在计算精度上有明显优势,特别适用于大型数据集的情况。

假设训练集(xs,ys)和测试集(xt,yt),其中xs和xt分别表示训练集和测试集特征,ys和yt分别表示训练集和测试集的部件真实的剩余使用寿命(RUL)。通过LGB对测试集的RUL进行估计,可表示为[1]:

GP算法是一种基于遗传算法原理构建的非线性拟合算法,有着明显的设置参数少、模型适应性强、运算效率高、模型可解释性强等特点[5]。由于GP算法中应用了遗传算法的基本原理,解析表达式会随遗传的代数会发生变异,通常迭代更新20~50代后结果较为稳定。

本文采用Stacking算法集成方式来实现LGB和GP算法的集成。首先通过GP算法从原特征数据抽取得到新的特征,即g(xt)=xt+,将变换后的训练集和测试集({xs;xs+},ys)和({xt;xt+},yt),应用LGB进行RUL预测,代入式(1)可得:

其中,fk(·)通过训练集数据({xs;xs+},ys)确定。

1.2 特征匹配和采样

由于LGB中通过互斥特征捆绑(EPB)的方式来实现特征的选取,是通过训练集样本特征来实现的,未考虑测试集和训练集样本特征的相似性和匹配性问题。

训练集特征xs和测试集特征xt样本总计分别为M和N,且M>>N。计算每个训练集样本xtj(j=1,2,…,N)到训练集特征的距离,并以最小距离对应的训练样本重新构建M个训练样本集{xs'}:

其中,dj(·,·)表示距离算子,可表示为:

为确保通过若干弱学习器集成后降低原模型的预测误差[7],本文采用Bagging方式随机采样,将训练集(xs,ys)抽样为n个训练子集,即(xsi,ysi),i=1,2,…,n,然后再进行特征匹配计算,重构新的训练子集。

2 算法设计

为了简化表达,本文以下忽略剩余使用寿命的标签子集ysi,用xsi表示训练集子集,其他表达式以此类推。根据上一章所述,通过选取特征集中的若干特征作为特征子集,并以此为基础计算和测试集最为匹配的训练集样本作为训练样本{xsi'}。然后通过GP算法进行新特征提取,得到计算结果{xsi+},同样操作可应用于测试集特征{xt},获得新的特征{xt+}。将新特征和原特征匹配后的子集合并,即{xsi';xsi+},代入LGB进行模型训练,得到对应的k轮迭代的决策树模型fki。在n个训练新子集上获得的模型,可应用于测试集对应的新特征,并代入式(3)预测部件的剩余使用寿命:

经过若干个弱学习器的学习,取得期望值,根据Bagging算法的基本原理,得到的计算结果误差应当小于原有单个LGB模型的计算结果误差,图1为算法的大致架构和计算流程。

3 案例分析

3.1 背景信息

研究案例源自2019科大讯飞工程核心部件剩余寿命预测赛题。已知某类工程机械设备的核心耗损性部件的特征数据字段包括:部件工作时长、累计量参数1和2、转速信号1和2、压力信号1和2、温度信号、流量信号、电流信号、开关信号1和2、告警信号1,以及设备类型。训练和测试数据文件分别为1100个和890个,每个文件对应一个工程部件的分时监测数据,需要预测测试部件的剩余使用寿命。预测准确性的评估函数定义如下:

图1 算法流程架构

其中,yt和分别表示样本真实的使用寿命和预测值;N表示测试集样本数量,即N=890。

3.2 特征提取和匹配

本文主要是在原有的特征的基础上,通过总使用寿命0.35~0.85每隔0.01的比例进行切片,并提取对应时间切片中的最大值、最小值、中位数、均值、25%分位数(下分位数)、75%分位数(上分位数)、complexity、标准差、偏度、峰度等统计学特征。此外,提取观测时序中的突变点作为特征,即时间序列中变化超过±20%的数据点。

此时特征已将近1200维,考虑到占用的计算资源,且并非所有的特征都是有效的,根据缺失值和零值所占的比例,剔除占比超过50%的特征,并对非开关信号1、告警信号1进行差分处理,变换为one-hot形式的数据格式,这两种方式提升预测精度3%以上。随后采用Bagging的方式对50%的训练集样本进行随机抽样,随机抽取其中若干条特征进行匹配(20~50维效果最佳),其中部件当前使用寿命为非常重要的参考特征。

3.3 结果分析

LGB算法在训练集上用2折交叉验证,迭代次数为800,早停迭代次数为200,学习率为0.01,最大叶子数量为250,最大树深为5,boosting方式选择gbdt,损失函数选择regression,随机种子选取1024。GP算法繁衍代数为50,提取新特征时繁衍代数为20,其他参数遵循默认设置[12]。

在Bagging算法获取的训练子集{xsi}上,GP和LGB算法得到的最终分数略有差异,约为0.008。而在通过特征匹配的训练子集{xsi'}上两种算法分别有0.024和0.03的精度提升。通过特征匹配和GP+LGB算法集成,预测寿命的精度相比只是基于Bagging训练集{xsi} 的模型效果有将近0.025~0.03的精度提升(表1)。

部件当前使用寿命对剩余使用寿命预测的影响较为显著。图2所示为实验5部件当前使用时长和剩余寿命之间的分布关系,可观察到部件当前使用寿命约为4000以下时,剩余和当前使用寿命存在一定线性比例关系,而当前寿命大于4000时,剩余使用寿命类似于渐近线,但分布较为发散。这可能是由于测试集给出的部件当前使用寿命时间越短,预测的不确定性越大。在实验过程中发现当前使用寿命已大于4000时,通过Bagging、特征匹配、Stacking方式生成的预测模型,预测得到结果的离散程度越大,而实际精度也越高。

表1 基于训练集和算法的反馈结果

4 结语

图2 部件当前和剩余使用寿命分布

工程核心部件寿命预测对于预测性维护意义重大,本文在GP和LGB的Stacking集成算法的基础上应用Bagging以及特征匹配算法,通过数据实验论证该方法在的有效性,对相似工程问题能够提供较好的解决方案。运用该方法和一些数据预处理技术,东方低碳算法团队在2019科大讯飞比赛工程机械核心部件寿命预测挑战赛决赛中取得了团队第四名的成绩,并荣获了算法菁英奖。

感谢在2019科大讯飞比赛工程机械核心部件寿命预测挑战赛中孙奥、袁戟、王尉同、熊乔枫、李敬杰等参赛选手的努力付出和出色表现。

猜你喜欢
使用寿命部件精度
筒间密封装置使用寿命研究
热连轧机组粗轧机精度控制
加工中心若干典型失效部件缺陷的改进
奥迪e-tron纯电动汽车的高电压部件(下)
超高精度计时器——原子钟
基于BP与GA对非标部件结构对比研究
分析误差提精度
基于DSPIC33F微处理器的采集精度的提高
切削刀具刃口形貌对刀具使用寿命的影响
提高齿轮对辊式破碎机滚齿使用寿命的探讨