贾歆莹
摘 要:针对汽车生产线电机设备中滚动轴承故障预测困难的问题,提出一种基于主成分分析法(PCA)降维和随机森林预测方法的故障预测模型。首先从原始数据中提取若干能够有效反应轴承退化趋势的数据特征量,利用PCA方法缩减特征量的维数,最后将降维后得到的主成分作为输入,输入到随机森林预测模型中进行预测分析。并且选取BP神经网络作为对比实验,通过多种评价指标将随机森林与BP神经网络进行对比,结果表明提出的故障预测模型具有更高的预测精度。
关键词:滚动轴承;故障预测;主成分分析;随机森林
中图分类号:TH133 文献标识码:A
引言
在汽车生产中,电机设备是汽车生产线运转的动力源泉。由于生产线复杂且恶劣的运行环境,电机常常处于高转速、高负荷的工作状态之下,极易引发各种故障。而一旦电机设备出现故障,生产线将被迫停止,这对于如今强竞争、高产量的汽车制造生产线来说,将导致巨大的经济损失。而导致电机发生故障的根本原因,往往是电机中的滚动轴承导致的。因此,对电机设备中的滚动轴承进行故障趋势预测[1-2]是非常有意义的,这样能够有效防止故障的发生。
1 特征提取与降维
在电机滚动轴承故障趋势预测中,由于工作条件通常都非常恶劣,轴承在运行过程中通常伴有强噪声等干扰因素。因此从轴承运行中提取的原始振动信号并不能有效的反映出轴承的健康状况,所以需要从原始信号中提取大量的时域、频域以及时频域的特征,这些特征往往能够反映轴承的运行状态。但是通常在分析过程中,需要提取的物理量即特征数量很多,这些特征对于故障预测的贡献也参差不齐,这就需要对物理量的维数进行缩减,将有利于故障预测的成分集中到少数的主成分之中,这将极大缩短计算时间,并且能够提高分析的精度。
2 决策树与随机森林算法
2.1 决策树
决策树是一种非常有效的分类及预测算法。该算法通过对实例问题的归纳总结,计算目标对象在特定条件下发生的概率,从而进行决策。决策树的一个重要优势就是它在构造过程中并不需要设置参数,且无需相关领域先验知识的支撑。决策树顾名思义就是从根节点出发,根据对象的属性是否符合节点条件,发散出若干个分支节点。每个节点即代表对所属对象的预测结果,同时每个分支也表示对象值与对象属性之间的一种映射关系。在决策树算法中,关键在于构建分支的分裂判别条件,即分裂属性。分裂属性表示所有对象从根节点开始是否能成为有效的分支节点。
2.2 随机森林
以下是随机森林的具体步骤:
(1)假设一个数据样本集,样本个数为N,变量数目为M;
(2)在决策树生成过程中,每个分支节点都会随机从M个变量中随机选择m(m<M)个变量,用于确定该分支节点是否为最佳的分裂点,并且m值在分裂过程中值保持不变;
(3)采用可放回的方式从N个样本中取样N次(bootstrap取样),形成训练集。由此形成一颗决策树,该树也被用于预测分析剩余的样本类别及其误差情况。
(4)每个分支节点根据步骤(2)中选择的m个变量,计算相应的最佳分裂点;
(5)在决策树的分裂过程中不进行剪枝(Pruning)操作,这样保证了决策树能够最大程度的进行生长,最终汇总所有生成的决策数预测新的数据。
3 基于随机森林的故障趋势预测
3.1 实验数据
本文的实验数据来源于美国辛辛那提大学智能系统维护中心提供的实验数据进行趋势预测实验,该实验为滚动轴承全壽命周期加速性能退化实验。其中实验的采样间隔为10分钟一次,频率20,000Hz,每次采样的点数目为2048个,实验总共记录了984条数据。本文为证明提出方法的有效性,从中截取轴承中后期由正常逐渐衰退的过程数据。
3.2 特征提取与降维处理
如前文所述,原始数据种类与数据量繁多,且伴有强噪声干扰,因此需要对原始数据进行预处理。首先将原始的时域数据经过傅里叶变换转换为频域数据,分别从时域与频域数据中提取有效的特征量,本文实验中提取时域特征15个,频域特征10个,总共提取25个特征,并对其进行主成分分析。
数据从大约520点开始具有上升趋势,且在大概700左右的位置出现第一个波峰,即该均方根值能够反映轴承的退化趋势。大概在700点左右轴承也开始有了退化趋势。因此,根据对所有25个特征的形态判断,实际能够反映轴承退化情况的特征有20个。同时为了进一步减少干扰因素与计算量,提高分析的精度,利用PCA算法对这20个特征进行降维处理。经过主成分分析过后,得到前5个主成分的贡献率情况,根据PCA算法中特征分量的选取原则,高于85%的分量可以作为主成分进行进一步的分析,因此选取分量1和分量2作为输入,用于随机森林算法的预测分析。
3.3 实验方案与分析结果
根据随机森林算法的结构以及实验数据情况确定训练集和预测集的大小,这里将主成分分析后得到的984个具有轴承退化趋势判断能力的数据点中选取两部分,其中训练集为701-900数据点的区间段,预测集为901-920数据点的区间段。然后建立训练集的特征空间S,S=[X,Y],具体样本空间表示如下:
其中预测步长X为26列,而实验中选择10、15、20、25以及30为步长分别输入模型观察预测效果,结果表明25为最佳步长,因此调整预测步长为25。随机森林数的数量选取是从100开始,以100为步长逐步步进分别输入模型中预测,结果表明数量为500时预测精度更高。另外模型的参数均为默认值即可。
同时,为了进一步验证本文提出的方法,选取BP神经网络预测模型作为对比实验。分别选取RMSE、MSE以及R方作为指标,衡量实际值与预测值的契合程度。BP神经网络在预测初期就与实际情况值出现了较大的偏差,而后实际值出现波动的时候也未能准确反映出波动情况。而随机森林算法在整个预测过程中与实际值都保持有较高的契合度,当实际值出现波动时,随机森林也能够将波动情况大致的反映出来,能够较好的起到预测的效果,具备较高的预测精度。
4 结论
提出一种基于PCA与随机森林的滚动轴承故障预测模型。在详细推导PCA降维算法与随机森林预测算法的原理之后,使用实际故障数据对提出的模型进行故障预测,并且利用BP神经网络模型作为对比实验,使用RMSE、MSE以及R方作为指标进行近一步对比分析。最终实验结果表明,提出的故障预测模型具有更高的预测精度,与实际情况具有更高的契合度,能够更好的反映出故障轴承的性能退化趋势。
参考文献:
[1]丁秋月,和尧,董超.故障预测与健康管理体系结构综述[J].航空维修与工程,2021(01):70-74.
[2]董楠.机械设备故障规律及运行趋势预测方法研究[J].建材与装饰,2018(06):224-225.
[3]赵腾,王林童,张焰,田世明.采用互信息与随机森林算法的用户用电关联因素辨识及用电量预测方法[J].中国电机工程学报,2016,36(03):604-614.