王喆 徐曦 张毕生 黄晓玮 胡万里
摘 要:汽车零部件的齿轮装配过程中往往伴随着多种类型的故障,快速且精准地判断故障类型,对保证齿轮装配工位稳定运行具有重要意义。因此,提出一种基于SMOTE采样方法和随机森林(RF)分类方法的故障诊断模型——SMOTE-RF。首先,在实际齿轮装配过程中,故障数据是不平衡的,可以使用SMOTE算法生成平衡的故障数据;其次,将平衡后的数据作为随机森林算法的输入实现故障分类;最后,对模型进行性能评估。实验结果表明,SMOTE-RF模型的分类效果优于SVM和XGBoost。
关键词:故障诊断;不平衡数据;SMOTE算法;随机森林
中图分类号:TP391.4;TP181 文献标识码:A 文章编号:2096-4706(2023)06-0139-05
Fault Diagnosis Method of Gear Assembly under Imbalanced Data Set
WANG Zhe1,2, XU Xi1,2, ZHANG Bisheng3, HUANG Xiaowei3, HU Wanli4
(1.School of Computer Science, Hunan University of Technology, Zhuzhou 412007, China; 2.Key Laboratory of Intelligent Information Perception and Processing Technology of Hunan Province, Hunan University of Technology, Zhuzhou 412007, China; 3.Bosch Automotive Products (Changsha) Co., Ltd, Changsha 410100, China; 4.Changsha Robot Technology Co., Ltd., Changsha 410100, China)
Abstract: The gear assembly process of automobile parts is often accompanied by various types of faults. It is of great significance to quickly and accurately determine the fault type to ensure the stable operation of the gear assembly station. Therefore, a fault diagnosis model based on SMOTE sampling method and Random Forest (RF) classification method, SMOTE-RF, is proposed. Firstly, in the actual gear assembly process, the fault data is unbalanced, and the SMOTE algorithm can be used to generate balanced fault data. Secondly, the balanced data is used as the input of Random Forest algorithm to realize fault classification. Finally, the performance of the model is evaluated. The experimental results show that the classification effect of SMOTE-RF model is better than that of SVM and XGBoost.
Keywords: fault diagnosis; imbalanced data; SMOTE algorithm; Random Forest
0 引 言
装配是将各种零部件按照一定顺序组合在一起以实现产品预定的功能,它不仅是制造过程中的最后一个环节,还是保证产品质量的重要一环,所以确保产品装配过程中的可靠性、持续性是提高产品质量的有效方法之一[1]。在汽车装配线中,零部件的装配是一个很重要的过程,而齿轮装配正是汽车零部件装配的重要组成部分之一[2]。在齿轮装配的过程中,难免会发生异常或故障,如果不能迅速正确地处理好这些故障问题,不仅影响产线的生产,还可能造成严重的安全事故。因此为了保证齿轮装配能够安全、有效地运行,对其进行故障检测与诊断是很有必要的。
故障诊断在寻找设备监测数据和设备健康状态之间的关系时尤为重要。传统上,这种关系是由经验丰富的工程师用专业知识来把握的[3]。例如目前长沙某汽车零部件公司的IPB产线中的齿轮装配工位在装配过程中发生故障后,需要相关专家根据设备的压装曲线图进行分析,判断故障类型。然而,在工程场景中,更需要有一种自动化的方法能够在提高诊断准确率的前提下,尽可能缩短诊断时间。同时,随着5G技术及AIoT解决方案在该公司的不断落地,数字化转型的推进进一步深入,建立基于实时数据镜像映射的工业数字孪生被提上日程,而齿轮装配工位的故障诊断正是其中的重要组成部分之一。因此,通过分析历史故障数据信息,采用有监督学习方法将其相关属性与故障类型标签进行映射,以实现故障类型的识别,可有效提高故障诊断的效率,對齿轮装配稳定运行具有重要意义。
随着机器学习的快速发展,在智能故障诊断领域中多类别的故障分类技术是非常重要的研究方向之一,目前主流的分类方法包括支持向量机(Support Vector machine, SVM)[4]、决策和回归树(Classification and Regression Tree, CART)[5]以及神经网络[6]等。在大数据样本下,单个分类器的性能已经难以达到分类精度需求,所以需要将多个分类器组合在一起,集成分类器拥有更高的准确率。随机森林(Random Forest, RF)[7]是一种有监督的集成学习算法,它是由Leo Breiman等在2001年提出的一种机器学习方法。该算法具备分类性能好、不易过拟合、训练效率高等优点,因此常常应用于故障诊断领域,如徐佳庆提出的对高性能互连网络阻塞故障检测方法[8]。
此外,在齿轮装配过程中不同故障出现的频率相差很大,会出现部分故障样本过少的情况,导致在进行故障分类时,分类模型无法准确识别出故障样本过少的故障类别,反而对多数样本类型过于敏感,使得分类模型泛化能力较差。因此,在训练分类模型之前需要解决样本不平衡的问题。通常我们会对原始数据集进行重采样,分为过采样、欠采样和混合采样[9]。合成少数类过采样(Synthetic Minority Oversampling, SMOTE)是Chawla等[10]在2002年提出的,该算法是基于K-最近邻算法(K-Nearest-Neighbors, KNN)[11]在邻近样本中随机插值,在不平衡问题中常常采用SMOTE对少数类样本过采样来平衡数据集。
本文针对齿轮装配过程中不同故障类型样本数据不平衡的问题,提出了首先利用SMOTE算法对不平衡的原始数据集进行处理生成新的均衡数据集,然后将均衡数据集放入随机森林模型进行训练,构建SMOTE与随机森林结合的算法模型,即SMOTE-RF模型。最后为了避免在对模型性能评估时偏向于多数类,使用综合考虑所有类别各自的召回率和准确率的评估指标来对分类模型进行评价。结果表明SMOTE-RF模型的分类效果优于不进行平衡处理的模型,同时也验证了在分类效果方面,相较于SVM和XGBoost,随机森林的分类效果更优。
1 基于SMOTE-RF的故障诊断
1.1 SMOTE算法
SMOTE算法的基本思想是通过少量样本与其相邻样本之间的随机线性内插来获得新样本。SMOTE算法为少数类中的每个样本搜索其最近的相邻样本。通过合成一定数量的人工少数样本使类别分布平衡,降低过拟合的可能性,从而提高不平衡数据集的分类效果,并且提高分类器的泛化性能。SMOTE的具体过程如下:
Step1:对于每个少数类样本xi (i=1, 2,…, n),按照一定的规则计算其与少数样本中其他样本的距离,得到其k个最近邻域。
Step2:根据过采样放大倍数,选择每个样本x的随机m个最近邻作为k个最近邻集合的子集,记为xij ( j=1, 2,…, m),然后用式(1)计算人工构造的少数样本pij:
pij=xi+rand(0, 1)×(xij-xi), i=1, 2,…, N (1)
其中,rand(0, 1)是在[0, 1]范围内均匀分布的随机数。直到新生成的少数类数据与多数类数据达到一定的不平衡比才停止式(1)的运算。
1.2 随机森林算法
随着机器学习领域的快速发展,随机森林因其高容错性和强分类性能而得到广泛应用。传统的随机森林算法被用来处理平衡数据集,但在实际问题中,不平衡数据集更为常见。随机森林是由多棵相互之间独立的决策树组合在一起的一种袋装集成学习算法。随机森林中的每一颗决策树都是通过Boostrap进行有放回的抽样方法从原始样本中抽取多个样本得到的,然后将这些决策树组合在一起,并行的完成学习任务,通过投票的方式得到最终的预测和分类结果。随机森林的构建过程如下:
Step1:构建训练子集。给定原始数据集D,总样本数为M,特征属性总数为R;利用Boostrap有放回的随机抽样方法从原始数据D中抽取n个样本,并重复n次,构建训练子集,其中训练子集小于M,其余的构建为袋外测试集OOB。
Step2:构建决策树。从R个特征属性中随机抽取r个(r<R),利用训练子集构建完全分裂的决策树。
Step3:生成随机森林。重复Step2步骤K次,直至构建K棵决策树,以组成随机森林{ti, i=1, 2, …, K}。
Step4:结果预测。通过K棵决策树分别对OOB测试集进行分类,汇总K次决策树分类的结果{ti, i=1, 2, …, K}。
{t1(x), t2(x),…, tk(x)},用少数服从多数的投票方式得出最终的分类结果,该结果即为随机森林的分类结果:
(2)
1.3 SMOTE算法与随机森林算法组合
将RF算法应用于齿轮压装故障诊断时,诊断结果通常会倾向于多数类,尽管整体的分类准确率较高,但是对少数类样本分类的准确率很低。在齿轮压装运行的实际数据中,故障样本远远少于正常样本,但是在故障诊断模型中对少数类的故障样本的分类精度更为重要。为了解决上述问题,本文提出了基于SMOTE-RF的齿轮压装故障诊断模型,模型的整体结构如图1所示,具体步骤为:
(1)数据预处理。对数据进行筛选,剔除异常数据,去除冗余数据,提取合适的特征来构建原始数据集。
(2)SMOTE过采样。通过SMOTE算法对原始数据集中少数类的故障数据进行过采样,并把过采样所生成的新的数据与多数类样本合并,以此得到类别均衡的数据集。
(3)随机森林算法训练。将处理后产生的均衡数据集使用随机森林进行训练,利用网格搜索算法对随机森林模型進行参数优化,来提升分类结果的准确率。
(4)模型评估。构建齿轮装配故障诊断模型评估指标,将测试集输入到已经训练好的模型中进行故障类别的分类,然后再将分类结果与测试集对应数据的真实类别对比,以此来验证模型的准确性。
2 实验结果与分析
2.1 数据集
本文实验所采用的数据源自长沙某汽车部件公司IPB产线的齿轮压装工位2022年4月11日至2022年4月15日的实际运行数据。其中包含齿轮压装的正常运行状态和故障状态。数据特征包括齿轮类型、压装时间、压装位移和压装力矩。检定的故障原因包括压入力超过上限、压入力超过下线、无压入力或压入力很小以及其他故障,为了方便表示,下文将各类故障名替换为类别编码。
本文所用模型为有监督学习,因此需要将部分缺失故障样本或者故障样本数量不足10个的故障类别进行舍去,经过处理后数据集共有10 177条数据,包括4个输入特征和4种故障类别,各类故障样本数量如表1所示。
由表1可得,其中正常类别的样本量最多,故障类别2的样本量最少,相对于正常类别来说,故障类别1、2、3不平衡率均较高,都属于少数类样本,需要在实验分析时更为关注。
2.2 评价指标
常用的分类评价标准是针对平衡数据集的。但这些评价标准并不适用于不平衡的数据集。例如,分类的正确率。考虑一个极端情况,假如一个数据集中有99个负样本和1个正样本,即使分类器判断所有样本都是负样本,分类器的整体预测准确率也能够达到99%。但这个分类器显然是没有意义的。
为了有效地评估分类器对不平衡数据集的效果,本人使用的指标为F1-Score值、AUC(Area Under the Curve)值[12]和ROC(Receiver Operating Characteristic)[13]曲线,这三类评价指标都是基于混淆矩阵得到的,混淆矩阵如表2所示。
F1-Score值是一个从正样本的角度评价不平衡集的分类性能的指标。F1-Score值越高,模型的分類效果就越好。AUC表示被正确分类的样本总数与样本总数的比率。AUC一般在0到1之间,AUC越高,表示分类器的性能越好。如果AUC为0.5,则完全是随机猜测的结果。ROC曲线则是不平衡数据分类问题最为常见的评价指标,在评价随机森林的整体分类性能,可以通过ROC曲线来展现。ROC曲线在坐标轴上的位置越靠近左上方就代表该分类器的处理不平衡数据的性能越出色。同时ROC曲线下的面积即为AUC值,AUC值也可以更为直观的反应分类器的效果:
(3)
(4)
其中β∈(0, 1),但β通常为1。并且:
(5)
(6)
2.3 实验结果与分析
为了验证本文所用SMOTE-RF算法的有效性,将本文提出的方法与支持向量机(SVM)和极端梯度提升(XGBoost)算法进行实验对比与分析,分别测试在原始数据集下随机森林算法的分类效果、在SMOTE过采样的数据集下SVM和XGBoost的分类效果,比较他们的分类性能。实验环境均是在PyCharm基于Python 3.9的sklearn库来实现。其中原始数据集和均衡数据集均按照4:1的比例随机分为训练集和测试集。
首先用原始数据集输入到随机森林进行训练,然后再将过采样后的数据集逐次输入到SVM、XGBoost和随机森林中进行训练,可以得到各分类器的F1-Score值,如表3所示,该值越高所对应的分类器故障分类的性能就越好。
从表3可以看出:
(1)通过SMOTE算法对少数类进行插值来平衡数据,一定程度上提上了随机森林的分类性能,相比于未经过不平衡数据处理的原始数据集放入随机森林中训练后模型的分类效果,均衡数据集下模型分类效果更好。
(2)在均衡数据集下,将随机森林、SVM和XGBoost分别进行训练后,SMOTE-RF的F1-Score值可以达到0.997 0,和SVM和XGBoost两种分类器相比,随机森林的分类效果明显优于他们。
ROC曲线图的横轴为负正类率,纵轴为真正类率。根据图2的ROC曲线可以看出,相比于原始数据集训练的随机森林,通过SMOTE算法对原始数据集过采样之后的随机森林AUC提高了2.19%,说明经过SMOTE过采样后,均衡的数据集能够一定程度上提高随机森林的分类性能。
由图3可以得出,在相同的经过SMOTE过采样的均衡数据集下,随机森林算法的AUC值比SVM和XGBoost的分别高了1.88%和2.6%,随机森林的ROC曲线整体在其他两种算法之上。
通过实验结果表明,经过SMOTE过采样之后随机森林的分类性能很优异,说明本文所提的方法可以在让随机森林的分类性能进一步得到提升;从分类器来看,在同一均衡数据集下,随机森林的分类性能明显高于SVM和XGBoost,具有较强的综合分类能力,在齿轮装配的故障分类的问题会更有效。
2.4 应用场景
本文所提出的基于SMOTE-RF的故障诊断模型可以用于汽车零部件中齿轮装配的工位上,对数据实时采集,将压装的实时数据输入到故障诊断模型中,通过故障诊断模型对每一次的压装数据进行判断,如若出现故障,则迅速在显示屏上显示故障类型和故障原因,及时告知产线工作人员出现故障的原因,方便工作人员能够及时地解决故障问题,保证产线的正常、可靠的运行。现场效果图如图4和图5所示。
3 结 论
考虑到齿轮装配的实际情况下数据不平衡问题,本文提出了一种考虑到多种类型数据不平衡的齿轮装配故障诊断方法,通过SMOTE过采样方法降低原始数据集的不平衡性,再将经过处理后的数据作为随机森林的输入以提高算法分类的精度。本文利用长沙某汽车部件公司IPB产线的齿轮压装工位的故障数据对所提方法进行验证,实验表明本文方法能够有效提高齿轮装配故障分类的精度,同时证明了相比于SVM和XGBoost的故障分类精度,SMOTE方法和随机森林的结合具有显著的优势。后续将收集更多齿轮装配的故障样本数据,可以研究在不同样本量分别进行采样时分类器的性能变化;同时还需要寻找更多潜在的数据特征,以提高分类器的泛化性。
参考文献:
[1] 吴清伟,葛茂根,王强.面向机械产品装配过程的在线故障诊断策略研究 [J].机械工程师,2014(7):60-62.
[2] 谢宇婵.基于物联网的汽车装配线智慧电动工具控制研究 [D].长春:长春工业大学,2022.
[3] LEI Y G,YANG B,JIANG X W,et al. Applications of machine learning to machine fault diagnosis:A review and roadmap [J/OL].Mechanical Systems and Signal Processing,2020,138:106587[2022-09-20].https://doi.org/10.1016/j.ymssp.2019.106587.
[4] KANG Q,SHI L,ZHOU M C,et al. A distance-based weighted undersampling scheme for support vector machines and its application to imbalanced classification [J].IEEE transactions on neural networks and learning systems,2017,29(9):4152-4165.
[5] LIU W,CHAWLA S,CIESLAK D A,et al. A Robust Decision Tree Algorithm for Imbalanced Data Sets [C]//Proceedings of the 2010 SIAM International Conference on Data Mining. Society for Industrial and Applied MathematicsA Robust Decision Tree Algorithm for Imbalanced Data Sets,2010:766-777.
[6] JIANG G Q,HE H B,YAN J,et al. Multiscale convolutional neural networks for fault diagnosis of wind turbine gearbox [J].IEEE Transactions on Industrial Electronics,2018,66(4):3196-3207.
[7] BREIMAN L. Random Forests [J].Machine learning,2001,45(1):5-32.
[8] 徐佳慶,胡小月,唐付桥,等.基于随机森林的高性能互连网络阻塞故障检测 [J].计算机科学,2021,48(6):246-252.
[9] 翟嘉琪,杨希祥,程玉强,等.机器学习在故障检测与诊断领域应用综述 [J].计算机测量与控制,2021,29(3):1-9.
[10] CHAWLA N V,BOWYER K W,HALL L O,et al. SMOTE:synthetic minority over-sampling technique [J].Journal of artificial intelligence research,2002,16(1):321-357.
[11] GUO G D,WANG H,BELL D,et al. KNN Model-Based Approach in Classification [C]//OTM 2003:On The Move to Meaningful Internet Systems 2003:CoopIS,DOA,and ODBASE.Catania:Springer,2003:986-996.
[12] 王诚,赵晓培.基于混合采样的改进随机森林算法研究 [J].计算机技术与发展,2021,31(12):50-54+91.
[13] 汪力纯,刘水生.基于混合采样和特征选择的改进随机森林算法研究 [J].南京邮电大学学报:自然科学版,2022,42(1):81-89.
作者简介:王喆(1997—),男,汉族,湖南长沙人,硕士在读,研究方向:工业物联网。
收稿日期:2022-10-20
基金项目:湖南省教委科研基金(19K026);湖南省重点实验室建设项目(2020KF02)