基于机器学习的工业机械设备故障预测方法

2023-09-08 02:52范国栋李博涵
自动化与信息工程 2023年4期
关键词:室温机械设备机器

范国栋 李博涵

基于机器学习的工业机械设备故障预测方法

范国栋 李博涵

(重庆交通大学机电与车辆工程学院,重庆 400074)

为提高工业生产效率和安全性,研究基于机器学习的工业机械设备故障预测方法。首先,利用斯皮尔曼等级相关系数分析工业机械设备故障特征之间的相关性,并过滤冗余特征;然后,采用随机森林算法筛选影响工业机械设备故障的3个核心特征;最后,基于逻辑回归、朴素贝叶斯、XGBoost、决策树等机器学习算法分别建立工业机械设备的故障预测模型和故障类型预测模型。经实验验证,基于XGBoost算法构建的工业机械设备故障预测模型和决策树训练出来的工业机械设备故障类型预测模型具有较高的准确性。该方法具有实际的应用价值,可有效地预测不同工业机械设备的故障类型,为工业安全生产提供技术支持。

机器学习;工业机械设备;故障预测;斯皮尔曼相关性分析;随机森林算法;预测模型

0 引言

工业机械设备故障的突发性和不可预见性,会影响生产效率和生产成本。通过对工业机械设备进行预测性维护,可减少故障损失、提高生产效率、降低生产成本。传统的工业机械设备故障预测大多通过专业的传感器进行监测和分析,如高海军[1]利用电气类机械设备运行过程中产生的异常声音和表面温度升高进行故障诊断;张益沛[2]利用振动监测仪和温度传感器等,提高旋转类机械设备的故障检测效率;马梁[3]采用状态检测和故障诊断平台对煤矿机电设备进行故障预测。以上方法主要基于声发射、热成像、振动分析、超声波检测等技术,存在成本高、动态响应差等问题。

随着人工智能技术的不断进步,越来越多的学者将其应用于工业机械设备故障预测领域。李玉吉等[4]利用机器学习算法诊断煤矿汽车机械设备的故障,实验结果表明,故障诊断的准确性和效率都优于传统方法。

本文基于机器学习技术,利用工业机械设备作业的信息数据进行故障预测和故障类型诊断,不仅能提高设备的安全性和可靠性,还能实现更精准的故障预测和诊断。

1 数据描述及预处理

1.1 数据预处理

本文使用的数据集是由某行业协会提供的工业机械设备故障预测数据集和工业机械设备故障类型预测数据集。工业机械设备故障预测数据集主要包括机器编码(工业机器人型号、电动机序列号等)、统一规范代码、机器质量等级(机械、电气、液压等机器的性能指标和品质等级)、厂房室温(整个厂房内的平均温度,在数据集中用室温(K)表示)、设备室温(设备存放和工作的环境温度,在数据集中用室温(K).1表示)、转速、扭矩、使用时长、是否发生故障、具体故障类型等10个数据标签。其中,机器编码、厂房室温、设备室温、转速、扭矩、使用时长6个数据标签是连续变量;统一规范代码、机器质量等级、是否发生故障、具体故障类型4个数据标签是离散变量。因为机器编码和统一规范代码这2个数据标签与设备故障无关,所以排除在设备故障预测的相关变量之外[5]。

利用统计分析软件(SPSS、Excel等)可了解连续变量的数据分布和集中程度。箱型图可清晰地展示数据的分布情况,包括中位数、四分位数、极值和异常值等信息。利用箱型图对厂房室温、设备室温、转速、扭矩的异常值进行可视化处理,分别如图1~ 4所示。

图1 厂房室温异常值箱型图

图2 设备室温异常值箱型图

图3 转速异常值箱型图

图4 扭矩异常值箱型图

由图1~4可知,转速和扭矩的个别异常值超出了箱型图下界。通过分析设备的运行状态和性能,进一步判断这些异常值是因为不同机械设备的转速和扭矩存在差异而导致的,因此不删除这些异常值。

1.2 数据类型转换

机器质量等级(L级、M级、H级)是离散数据,采用文字描述表示。然而,机器学习模型在训练和预测过程中,只能处理连续数据。因此,需将离散数据转换为连续数据。本文采用独热编码技术,将离散数据转换为二元数据,即用0、1、2分别替换L级、M级、H级,转换后的数据如表1所示。

表1 机器质量等级离散数据转换为连续数据

1.3 过采样处理

本文使用的数据集包含了9 000条工业机械设备的信息,其中无故障和有故障的工业机械设备信息分别有8 697条和303条。无故障的工业机械设备信息数量远多于有故障的工业机械设备信息数量,导致训练后的模型偏差较大。

利用合成少数类过采样技术(synthetic minority oversampling technique, SMOTE)算法,通过样本合成的方法,生成与原始样本相似的新样本,达到扩充数据集的目的。利用SMOTE算法的过采样方法,将有故障和无故障的工业机械设备信息数量均衡化,提升预测模型的准确性。均衡和扩充后的数据集中,无故障和有故障的工业机械设备信息数量均为6 300条。

2 机械设备故障预测相关变量分析与筛选

2.1 是否故障的相关变量分析与筛选

斯皮尔曼相关性分析是一种非参数检验方法,用于评估两个连续变量之间的相关性。通过热力图,可直观地看出变量之间的相关性指数,颜色越深表示相关性越强,颜色越浅表示相关性越弱。对均衡和扩充后的无故障和有故障的工业机械设备信息进行相关变量影响因素的可视化处理,如图5所示。

图5 是否故障热力图

由图5可知:室温(K)(厂房室温)和室温(K).1(设备室温)的相关性指数为0.84;转速和扭矩的相关性指数为−0.92,说明它们之间的相关性较强,删除室温(K)(厂房室温)和扭矩这2个变量,以避免信息冗余和多重共线性的问题。

根据每个变量在随机森林中对模型预测结果的影响程度,得出变量的重要性评分[6]如图6所示。

由图6可知,机器质量等级变量对工业机械设备是否发生故障的影响较低,对该变量进行删除处理。

通过对厂房室温、设备室温、扭矩、转速、使用时长和机器质量等级等变量进行斯皮尔曼相关性分析和随机森林重要性评分后,本文选择室温(K).1(设备室温)、转速、使用时长3个变量为预测工业机械设备故障的指标。

图6 是否故障重要性评分

2.2 故障类型的相关变量分析与筛选

工业机械设备故障类型预测数据集主要包括扭矩扳手故障(torque wrench fault, TWF)、高频设备故障(high-frequency device fault, HDF)、电源故障(power supply fault, PWF)、规格超标故障(oversized specification fault, OSF)、随机非重复故障(random non-repetitive fault, RNF)等5种故障类型。为预测工业机械设备故障类型,需删除没有故障的机械设备信息,保留有故障的机械设备信息,并将离散的具体故障类型转换为连续数据,即用0、1、2、3、4分别替换TWF、HDF、PWF、OSF、RNF。通过斯皮尔曼相关性分析和随机森林重要性评分,选出与故障类型预测相关的变量,如图7、图8所示。

图7 具体故障类型热力图

图8 故障类型重要性评分

由图7可知,室温(K)(厂房室温)和室温(K).1(设备室温)的相关性较高,删除室温(K)(厂房室温)。

由图8可知,机器质量等级变量对工业机械设备故障类型预测的影响程度最小[7],对其进行删除处理。

3 模型建立及评估

3.1 建立故障预测模型

将工业机械设备故障预测数据集按1:1的比例随机划分为训练集和测试集。其中,训练集用于故障预测模型的训练和优化;测试集用于评估故障预测模型的性能和泛化能力。采用交叉验证的方法进行多次实验,以减少随机误差,提高模型的稳定性。利用随机森林、XGBoost、逻辑回归和朴素贝叶斯模型对故障预测模型进行性能评估。

利用训练好的模型进行预测,采用准确率、精确率、召回率和F1值等4个指标来评价模型的预测性能[7]。混淆矩阵可直观地表现预测模型的误差。随机森林、XGBoost、逻辑回归和朴素贝叶斯模型的混淆矩阵分别如图9~12所示,评价指标如表2所示。

图9 随机森林混淆矩阵

图10 XGBoost混淆矩阵

图11 逻辑回归混淆矩阵

图12 朴素贝叶斯混淆矩阵

表2 4个模型的评价指标

ROC曲线下面积(area under curve, AUC)是评估分类器性能的一个指标,取值范围为0.5~1,指标数值越接近1,说明分类器的性能越好。根据4个模型的混淆矩阵绘制ROC曲线,可直观地看出模型效果,如图13所示。

图13 4个模型的ROC曲线

由图13、表2可知,XGBoost训练出来的故障预测模型准确率、精确率、召回率、F1值较高,AUC值也最高,说明该模型的预测效果最好[8]。

3.2 建立故障类型预测模型

工业机械设备故障类型预测数据集按1:1的比例随机划分为训练集和测试集。工业机械设备故障类型预测模型的性能评估利用决策树、梯度提升树、支持向量机等模型,采用准确率、精确率、召回率和F1值作为评价指标。

决策树、梯度提升树、支持向量机3个模型的混淆矩阵分别如图14~16所示,评价指标如表3所示。

图14 决策树混淆矩阵

图15 梯度提升树混淆矩阵

图16 支持向量机混淆矩阵

表3 3个模型的评价指标表

由表3可知,由决策树训练出来的故障类型预测模型的准确率、精确率、召回率、F1值最高,说明该模型预测故障类型的效果最好[9]。

对基于决策树算法构建的故障类型预测模型进行调参时,易出现过拟合现象。因此,需先选择合适的正则化参数,本文通过交叉验证的方法确定了正则化参数为0.07,再定义超参数搜索范围。本文定义max_depth(表示决策树的最大深度)范围为1~10,min_samples_split(表示节点在分裂之前所需的最小样本数)范围为2~10,min_samples_leaf(表示叶节点上的最小样本数)范围为1~5,max_features(表示在每个节点中考虑的最大特征数)范围为1~10。将预测结果进行比较,具体结果如表4所示。

由表4可以看出,基于决策树算法构建的故障类型预测模型调参后,其性能指标均有所提升。调整和优化基于决策树算法构建的故障类型预测模型,能够提高模型的识别准确率、泛化能力和稳定性,降低误差率和资源占用率。

4 结论

本文基于机器学习算法建立了工业机械设备故障的预测模型和类型预测模型,具有较高的准确性,可为工业机械维护部门提供有效的参考。然而,本研究还存在不足之处:首先,只考虑了室温、转速、使用时长等少量特征,对其他可能影响工业机械设备故障的特征,如湿度、负载等没有进行探究;其次,仅针对单一类型的工业机械设备故障进行预测,对于不同类型的机械设备模型还需进一步探究[10];最后,该研究可扩展到工业互联网领域,使各种工业设备实现数据的共享和交互,为工业设备的智能维护提供更多的可能性。

[1] 高海军.化工电气常见故障分析及处理方法[C].//中国机电一体化技术应用协会.第七届全国石油和化工电气技术大会论文集.[出版者不详],2023:193-195.

[2] 张益沛.旋转机械故障诊断技术在炼钢设备中的运用分析[J].冶金与材料,2023,43(1):71-73.

[3] 马梁.煤矿机电设备实时监测故障诊断技术研究应用[J].煤炭科技,2023,44(1):64-68.

[4] 李玉吉,曹旭辉,王江宏,等.基于机器学习算法的煤矿汽车机械设备故障诊断模型[J].能源与环保,2021,43(10):241-245.

[5] 盛建龙,乔宇,王平,等.基于LOF-SMOTE算法的地下水影响下矿山岩溶塌陷风险预测研究[J].有色金属科学与工程,2023,14(3):372-380;399.

[6] 张文涛,龚振宇,令凡琳,等.基于随机森林算法的盾构改良渣土渗透系数预测及工程应用[J].隧道建设(中英文), 2022, 42(11):1863-1870.

[7] 刘偲,刘道星.XGBoost算法在塔式起重机传感器故障诊断中的应用[J].建设机械技术与管理,2022,35(5):115-117.

[8] 陈天锴,王贵勇,申立中,等.基于GBDT算法的柴油机性能预测[J].车用发动机,2022(5):51-58.

[9] 蒋琳,徐猛.基于朴素贝叶斯分类的交通枢纽内移动时间估计——以北京南站为例[C]//中国科学技术协会,交通运输部,中国工程院,湖北省人民政府.2022世界交通运输大会(WTC2022)论文集(运输规划与交叉学科篇).人民交通出版社股份有限公司,2022:556-562.

[10] 任利娟.滚动轴承性能退化评估与剩余寿命预测[D].济南:山东大学,2019.

Fault Prediction Method of Industrial Machinery Equipment Based on Machine Learning

FAN Guodong LI Bohan

(School of Electromechanical and Vehicle Engineering, Chongqing Traffic University, Chongqing 400074, China)

To improve industrial production efficiency and safety, a machine learning based fault prediction method for industrial machinery and equipment is studied. Firstly, the Spearman rank correlation coefficient is used to analyze the correlation between fault features of industrial machinery equipment, and redundant features are filtered; Then, the random forest algorithm is used to screen the three core features that affect the faults of industrial machinery and equipment; Finally, based on machine learning algorithms such as logistic regression, naive Bayes, XGBoost, and decision tree, a fault prediction model and a fault type prediction model for industrial machinery equipment are established. Through experimental verification, the industrial machinery equipment fault prediction model constructed based on XGBoost algorithm and the industrial machinery equipment fault type prediction model trained from decision trees have high accuracy. This method has practical application value and can effectively predict the fault types of different industrial machinery and equipment, providing technical support for industrial safety production.

machine learning; industrial machinery and equipment; fault prediction; Spearman correlation analysis; random forest algorithm; prediction model

TP399

A

1674-2605(2023)04-0003-07

10.3969/j.issn.1674-2605.2023.04.003

范国栋,男,1998年生,硕士研究生,主要研究方向:大数据分析与人工智能。E-mail: 1009569161@qq.com

李博涵,男,1999年生,硕士研究生,主要研究方向:数据挖掘与人工智能。E-mail: 290444608@qq.com

:范国栋,李博涵.基于机器学习的工业机械设备故障预测方法[J].自动化与信息工程,2023,44(4):13-18;50.

FAN Guodong, LI Bohan. Fault prediction method of industrial machinery equipment based on machine learning[J]. Automation & Information Engineering, 2023,44(4):13-18;50.

猜你喜欢
室温机械设备机器
超导追求
机电机械设备安装中的安全隐患及其处理对策
机器狗
机器狗
室温采集装置及供热二级管网智能化改造
广州钰铂机械设备制造有限公司
广州钰铂机械设备制造有限公司
未来机器城
做好机械设备维护与保养的措施
一种在室温合成具有宽带隙CdS的简单方法