基于梯度提升决策树的工程机械核心部件寿命预测

2020-02-07 13:03洪忠铖
物联网技术 2020年1期
关键词:机器学习工程机械物联网

洪忠铖

摘 要:大型工程机械设备的核心部件故障通常会造成计划位停机,致使整个生产现场其他配套设施等待发生故障的核心部件的修复,从而导致很大的经济损失。对核心部件进行寿命预测可以提前安排相关部件的停机计划和维护,可以很大程度上减少整个设备的非计划停机时间,极大地减少停机带来的经济损失。有鉴于此,文中借助梯度提升决策树对某类工程机械设备的核心损耗部件进行建模,实现了工程机械核心部件的剩余寿命预测,有助于实现预测性维护,从而减低大型机械设备的维护成本。

关键词:机器学习;工程机械;寿命预测;梯度提升决策树;物联网;非计划停机

中图分类号:TP391.73文献标识码:A文章编号:2095-1302(2020)01-0-04

0 引 言

随着生产技术的快速发展和人类社会分工的进一步细化,在许多领域出现了复杂的大型工程机械设备及其配套设施[1-2]。这些大型工程设备极大地提升了人类生产活动的效率。图1所示为由我国中铁科工集团机械院自主研制的高铁施工装备—40 m跨1 000 t运输与架设成套设备,其已成功架设了100榀千吨级高铁箱梁,可以极大的提升高速铁路建设的速度和降低建设成本。然而,随之而来的是大型机械工程设备由于自身结构复杂、外部因素影响大、配套设施繁多等,容易造成大型机械设备的一些损耗性的核心部件的性能及健康状态产生衰退或甚至出现故障和完全报废[3]。由于大型机械工程设备在生产过程中通常起着关键作用,只要核心部件发生了计划外的故障或报废,就很容易给整个设备带来严重后果,给生产活动带来巨大的经济损失。同时,由于大型机械故障本身的复杂结构和受到的外部影响及配套设施的繁多,其故障表现形式呈现多样化、故障发生机理呈现复杂化。特别是核心部件的损耗导致的寿命变化,目前尚无合适的模型来刻画其演变机理。因此,如何保障大型工程机械设备在实际生产环境下的安全、稳定、可靠、经济的运行成为了当前的热点研究问题。对于大型工程机械设备而言,科学评估好损耗性的核心部件的寿命,并以此安排好生产和维护计划,可以极大的减少计划外停机造成的生产事故和经济损失。因此,通过物联网技术来收集大型机械设备的损耗性的核心部件的全生命周期的运行数据,借助机器学习和大数据分析技术,建立科学合理的模型预测出核心部件的寿命,对大型机械设备的运行和维护有着非常重要的意义。

1 相关研究工作

现有的机械部件的寿命预测研究主要分为基于物理模型的预测方法和基于数据驱动的寿命预测方法等。基于物理模型的剩余寿命预测方法起步比较早。随着对机械部件的物理模型的寿命实验和失效退化机制研究的不断深入,一些具有较大研究价值的常用核心部件的物理模型及其失效退化機制的研究已经较为成熟,并获得了精度很高的预测结果。然而,在实际工程应用中,建立起种类众多的核心部件的物理模型及其失效机制模型难度非常高而且费时费力,因此基于物理模型的只适用于一些使用普遍、对寿命预测精度要求非常高的少量关键的核心部件的寿命预测。在基于物理模型的剩余寿命研究方面,针对材料的低周疲劳寿命问题,商体松等人在基于三参数幂函数公式对比分析的基础上,分析了引起材料疲劳损伤的原因,建立了一种能够直观反应设备的损伤能量密度跟疲劳寿命之间的关联关系的剩余寿命预测模型[4]。范磊等人则针对行星架的剩余寿命预测问题,提出了一种以裂纹长度为指标的剩余寿命预测方法[5]。谢吉伟等人则针对产品的衰退模式的动态转移现象,在IMM算法的基础上提出了一种新的剩余寿命预测模型[6]。这些方法都是在分析设备本身的性能衰退等的机理的基础上建立的剩余寿命预测模型,需要对设备的物理模型、性能衰退机制等非常熟悉。

基于数据驱动的剩余寿命预测方法是借助物联网技术大量收集核心部件整个全生命周期内的运行工况数据,以机器学习和大数据分析技术来在大量数据的基础上建立核心部件的寿命预测模型,并根据要预测的核心部件现有的运行工况数据,预测其剩余寿命。基于数据驱动的方法主要难点在于需要大量的核心部件全生命周期的运行工况数据作为训练集来构建模型。随着物联网技术和云计算技术的快速发展和普及,核心部件的历史运行工况数据的采集与收集已经变得越来越容易,使得数据驱动的剩余寿命预测方法越来越成为研究的主流。在基于数据驱动的剩余寿命研究方面,蔡忠义等人在发现性能退化过程服从Wiener过程,在此基础上提出了基于贝叶斯估计的融合线上线下产品失效数据的寿命预测方法[7]。胡姚刚等人则针对电轴承构建温度特征量的性能退化模型,提出一种基于温度特征量的风电轴承性能退化建模及其实时剩余寿命预测方法[8]。这些方法都是在对设备运行工况数据的分布规律进行分析的基础上,利用了机器学习方法来建立剩余寿命预测模型。

大型工程机械的核心部件寿命预测问题本质上是一个典型的回归预测问题,因此可以采用目前主流的回归预测算法,如线性回归、随机森林[9]、朴素贝叶斯[10]、梯度提升决策树等算法。其中,岭回归和逻辑回归算法运算速度快,但在泛化能力和鲁棒性等方面不如随机深林和梯度提升决策树等算法。随机深林对噪声数据不敏感、泛化能力和鲁棒性都很强,但参数设置不当很容易出现过拟合的问题。而梯度提升决策树算法在模型的鲁棒性、泛化能力、运算速度、抗干扰能力以及对枚举型参量的支持能力等方面都表现优异,因此综合考虑核心部件寿命预测问题的需求,本文采用梯度提升决策树算法作为构建预测模型使用的回归算法。

2 任务描述

2.1 数据格式

为了实现对某工程机械设备的核心部件进行剩余寿命预测,需要采集一批该类设备的历史全生命周期的运行数据,包括该部件的工作时长、温度、转速、电流、电压等多类工况数据,其数据表的结构见表1所列。

由于大型工程机械设备的损耗性的核心部件的运行数据涉及到整个工程机械运行的安全以及商业机密,因此在本文中使用的设备类型、工况数据等的具体值都是经过一定脱敏处理后的数据。在脱敏过程中已考虑了尽量不影响数据之间蕴含的关系。数据集共采集了916个核心部件的全生命周期的运行工况数据共计约2 600万条。

2.2 任务描述

基于表1中916个核心部件的约2 600万条全生命周期的运行工况数据,通过数据分析,建立一个机器学习模型,获取对于给定的一批损耗性的核心部件的历史运行过程中的工况数据,预测每个核心部件的剩余寿命,即通过每个给定的损耗性的核心部件的历史运行过程的工况数据预测表2所列的数据。

3 基于梯度提升决策树的剩余寿命预测模型

3.1 整体框架

本文提出的基于梯度提升决策树(Gradient Boosting Decision Tree,GBDT)的整体框架如图2所示。首先,对利用物联网技术采集的核心部件的全生命周期的运行数据进行初步的预处理,修订缺失值或异常值等;随后,根据要预测的任务,通过设定不同的设备运行时间和剩余寿命的标签值来将训练集的数据扩充4倍,实现数据增强。其次,对核心设备历史运行过程中的工况数据进行统计分析,提取刻画核心设备历史运行状态和运行过程的特征。然后再进行数据集划分、构建GBDT模型和进行模型评估。

3.2 数据预处理与数据增强

实际生产过程中采集的数据通常都有不同程度的数据质量问题,包括数据缺失、数据异常等,因此需要先对这些数据进行预处理。此外,由于采集大型机械设备的损耗性的核心部件的全生命周期的运行数据需要长时间的积累,导致所能收集到的样本的数量非常少,因此必须根据数据和问题的特点来使用合理的数据增强方式,扩充数据集的大小。在数据预处理方面,主要是针对该列数据的含义,将缺失值填充为0、均值、中值、前一个有效值等。考虑到核心部件的寿命预测是一个回归问题,因此采用了将训练集的全生命周期数据截取不同比例来产生不同的样本:比如分别截取前面25%,50%,75%和100%的运行数据分别作为不同的样本。这些样本的剩余寿命(标签)都会存在差异,从而形成有效的新样本。采用截取方式进行数据增强的方式如图3所示。

3.3 特征工程

给定的损耗性的核心设备的运行数据是借助物联网技术采集的每个时刻的运行工况数据,无法直接用于刻画该设备的历史运行状况和磨损等的整体情况,因此需要借助统计分析来提取有效的数值化的统计特征作为机器学习模型的输入数据。通过分析可能对核心部件的剩余寿命产生影响的因素,这里提取了表3所列的特征来构建GBDT模型。

表3中,“xxx”为核心部件的运行工况数据中的工作时长、累积量参数、转速、压力、温度、流量等,即对这些工况数据中的每一种都提取其最大值、最小值、中值、均方差和标准差等统计特征。

3.4 梯度提升决策树模型

通过上述的数据预处理、数据增强和特征工程,提取出损耗性的核心部件历史运行过程中的工况信息的统计特征。将核心部件的某个时刻的数据转化为对该部件的整个历史运行过程进行刻画的数值化特征信息,从而只需借助现有的机器学习回归算法如梯度提升决策树即可利用标注好的训练集数据进行训练,构建出预测模型。考虑到现有的梯度提升决策树模型的不同实现之间的易用性、性能等,本文采用微软开源的LightGBM[11]作为梯度提升决策树模型的算法实现,基于上述特征工程部分提取的特征来构建预测模型。

4 实验评估

4.1 评测方案

为验证所提出的基于梯度提升决策树的核心部件的寿命预测模型的性能,本文使用了某公司提供的某类机械设备的损耗性的核心部件的全生命周期的实际运行工况数据共计约2 600万条,涉及核心部件约900个,该数据的分布情况见表4所列。

从表4中可以看出,work_time字段表示的是工作时长,应该都是大于或等于0的数值,但在实际环境中由于各种原因导致了数据错误或异常,出现了负数,因此必须要进行数据预处理。

4.2 评价指标

为了了解所建立的机器学习模型的性能指标,考虑到大型工程机械的损耗性的核心部件的寿命预测问题的特点,采用如下的评价指标作为模型的评价函数:

式中:ri表示第i个样本的真实剩余寿命;表示第i个样本的剩余寿命的预测值。

4.3 评测结果及分析

为检验所建立的核心部件的预测模型的效果,对数据增强后获得的4 580个样本分别按10%,20%和30%的比例划归为测试样本,另外部分的90%,80%和70%作为训练样本,分别构建随机森林和GBDT模型进行了对别测试,其评测得分结果见表5所列。

由表5可见,基于梯度提升决策树构建的机器学习模型在大型机械工程设备的损耗性的核心部件的剩余寿命预测中获得了较好的效果。

5 结 语

大型工程机械的损耗性的核心部件的剩余寿命预测是对机械设备进行预测性维护的基础,可极大的减低大型工程机械设备的计划外停机时间和次数、减低维护成本。本文提出了基于梯度提升决策树的大型机械设备的损耗性的核心部件的预测模型,采用按设备使用时长进行截断来扩展数据的数据增强方法和基于统计分析提取特征的特征工程技术,基于梯度提升决策树来构建机器学习模型,实现了对核心设备的剩余寿命预测,取得了较好的效果。

参 考 文 献

[1]马建,孙守增,芮海田,等.中国筑路机械学术研究综述·2018[J].中国公路学报,2018,31(6):1-164.

[2]杨青.我国工程机械行业发展的机遇与挑战[J].科技风,2018(29):220.

[3]徐宁.公路工程机械发动机的主要零件耗损及维护[J].交通世界,2019(9):112-113.

[4]商体松,赵明,陈养惠.基于三参数幂函数的低周疲劳寿命预测方法研究[J].推进技术,2015,36(6):907-911.

[5]范磊,王少萍,張超,等.直升机行星架疲劳裂纹扩展寿命预测[J].北京航空航天大学学报,2016,42(9):1927-1935.

[6]谢吉伟,刘君强,王小磊.应用交互式多模型算法的设备剩余寿命预测[J].空军工程大学学报(自然科学版),2016,17(2):98-102.

[7]蔡忠义,陈云翔,李韶亮,等.考虑随机退化和信息融合的剩余寿命预测方法[J].上海交通大学学报,2016,50(11):1778-1783.

[8]胡姚刚,李辉,廖兴林,等.风电轴承性能退化建模及其实时剩余寿命预测[J].中国电机工程学报,2016,36(6):1643-1649.

[9] LING Gan,FU Chen. Human action recognition using apj3d and random forests [J]. Journal of software,2013,8(9):188-198.

[10] FLASH Peter A,LACHICHE Nicolas. Naive bayesian classification of structured data. [J]. Mach learn,2004,57(3):233-269.

猜你喜欢
机器学习工程机械物联网
工程机械自动化中节能设计理念的应用
邵阳三一工程机械与零部件再制造工程项目开工
工程机械雄安遇冷
前缀字母为特征在维吾尔语文本情感分类中的研究
基于支持向量机的金融数据分析研究
中国或成“物联网”领军者
工程机械展览中韵重卡风采