陈浩威, 战洪飞*,, 林颖俊, 余军合, 王 瑞
(1.宁波大学 机械工程与力学学院, 浙江 宁波 315211, E-mail:15757173087@163.com;2.中银(宁波)电池有限公司, 浙江 宁波 315040)
对于制造企业来说,提高产品的质量、降低次品率是企业的基本目标之一。随着产品功能的日益增加、产品精细化程度不断加深及客户的要求不断提高,在制造过程中对产品的质量进行控制变的越来越困难。智能制造技术的飞速发展,引领全球制造业的进一步变革[1],很多企业投入了巨额的资金对工厂进行智能化改造,他们将大量的传感器引入到生产中,通过传感器对制造过程中的信息进行记录,通过对大量的工业数据进行分析从而获取知识,对质量进行控制,提高生产线的水平[2]。但是由于工业大数据普遍存在的多源、复杂、冗余及不平衡等问题,给制造企业数据分析带来了巨大的挑战。
随着机器学习等数据处理分析技术的进步,应用大数据分析方法来对生产情况进行预测,进而降低次品率且提高生产线效率已成为可能。李孟虔等[3]提出一种基于模糊神经网络的深孔加工刀具磨损率预测方法,以预测刀具磨损情况进而保证产品的质量。裘镓荣等[4]利用PSO粒子群算法优化LSSVM最小二乘支持向量机参数,建立基于PSO-LSSVM弹药装配质量预测模型,实现弹药装配质量的预测。于勇等[5]利用多种机器学习分类器构建基于工艺参数与质量分类标签的质量预测模型,实现机加零件的质量预测和工艺参数优化。Moschos等[6]将新的测量数据或信息与基于机器学习的预测信息相结合的过程,采用贝叶斯方法获得最终产品质量的最新后验分布,在制造中实现更有效的产品状态监测。Wahb等[7]重点量化了SVM中每个参数对质量预测模型性能的影响,从而使SVM模型更好的应用于质量预测中。Sepideh等[8]通过将ANN和PSO多功能优化技术相结合开发了一种车削制造表面粗糙度预测模型模型,且预测值与实验值吻合良好,证明所提模型可以准确的预测表面粗糙度。Fan等[9]结合XGBoost算法,通过卡方检验和Pearson相关系数筛选相关性较高的特征,降低质量一致性预测模型的过拟合程度,提高预测精度。Sun等[10]提出了一种叠加多路随机森林算法,建立了相位相关临界变量与多个质量指标之间的预测关系。Hu等[11]提出了一种基于特征选择的改进支持向量机模型,其改进了支持向量机中的径向基函数,结合决斗算法和可变邻域搜索算法进行特征选择和参数优化从而预测产品质量。Gellrich等深度将迁移学习应用到铝重力压铸的质量预测中,克服了数据的稀疏和不平衡等问题[12]。在制品质量预测方面,Wang等[13]提出了一种生成神经网络模型,将无监督特征提取步骤与监督学习方法相结合,用于自动预测在制品的质量。Mattila等[14]提出了一种基于梯度提升树的钢铁质量预测系统,能够在制造过程的早期阶段检测到可能的表面缺陷,从而减少处理缺陷产品的成本。Bak等[15]将浅神经网络作为回归分类器引擎,用于预测制造过程中的产品质量,以铝压铸过程数据集为例进行了验证。
从国内外文献资料分析发现,现有的质量预测模型对生产过程中的在制品质量问题预测研究不够深入,主要集中在产品表面缺陷研究方面,对生产线上流转中的在制品研究较少,且质量预测效果有待进一步提升。实现在制品的质量问题预测对智能工厂的建设有重要的现实意义,工厂生产产品过程往往由多工位多工艺组成,对在制品进行质量预测可以在生产制造过程中根据不完整的工艺参数对产品的最终质量进行预测,以提前发现可能存在质量问题的产品,采取相应的措施,从而减少不良品率,降低工厂生产成本,提高生产线效率。
针对以上问题,本文提出了一种基于RFECV- LightGBM-TPE联合模型的在制品质量问题预测方法。该方法通过RFE(recursive feature elimination)递归特征消除和CV(cross validation)交叉验证结合并以RF(random forest)作为基模型,自动完成特征筛选,解决特征筛选维度难以确定的问题。针对在制品采集的工艺参数不充分的情况,通过结合特征重要性的方法改进KNN(k-nearest neighbor)模型以填补其尚未采集的工艺参数,解决了生产过程中的产品难以进行质量预测的问题。然后利用TPE(tree-structured parzen estimator)超参数寻优算法优化LightGBM中的超参数以构建产品质量预测模型,并对训练样本进行SMOTE过采样以使数据达到平衡,进而提高预测效果。将填补完全的工艺参数输入上述LightGBM-TPE质量预测模型,实现在制品的质量问题预测。
针对现有质量预测模型对在制品进行质量问题预测研究不够深入的情况,本文提出了一种基于RFECV-LightGBM-TPE联合模型的在制品质量问题预测方法,即将生产现场实时采集的生产数据输入训练好的模型中获得质量预测结果的过程。本文的在制品质量问题预测总体方案将由数据预处理和RFECV特征筛选、改进KNN的在制品剩余工艺参数补全、基于TPE优化的LightGBM质量预测模型、对在制品进行质量问题预测等部分组成,整体方案设计如图1所示。
图1 在制品质量问题预测总体方案
首先使用传感器、RFID等设备对产品的工艺数据进行采集记录,并将其存储在MES、PDM等生产管理系统中。为保证数据质量,对工艺数据进行预处理操作,如数据清洗、异常值处理、缺失值处理等。针对生产数据中易出现的高复杂度高冗余性问题,通过RFE递归特征消除和CV交叉验证结合,以RF作为基模型自动完成特征筛选,避免了人工干预的情况。该方法利用RF算法和CV交叉验证获得当前数据集的训练得分并计算各个特征的重要性,剔除重要性最低的特征后重复上述训练和剔除重要性最低特征的步骤直至数据集为空,取训练得分最高的数据集为特征筛选后的特征子集。该特征筛选方法在剔除冗余特征、缩短模型训练时长的同时保证了数据的质量。
由于在制品未完成所有工位的生产工作,尚未采集完整的工艺参数,因此不能直接将实时工艺参数输入质量预测模型中进行质量预测。本文结合上述特征筛选过程中计算得到的特征重要性改进KNN缺失值填补算法,通过特征重要性对KNN中的欧氏距离进行加权计算。然后利用改进的KNN算法寻找历史数据库中最相似的k个案例,对这些案例的工艺参数分别求均值作为当前在制品的未测得工艺参数以对其缺失工艺参数进行补全。
将历史工艺数据划分为训练集和验证集并利用LightGBM分类算法进行训练,将质量预测问题转化为数据分类问题,为了解决LightGBM超参数难以设置的问题,引入TPE超参数寻优算法对LightGBM中的超参数进行寻优,同时对训练集数据进行SMOTE过采样以解决因数据不平衡而导致的过拟合问题。通过这些方法训练获得质量预测模型,相较于其他常见模型可以更高好的对质量进行预测。将填补完成的在制品工艺参数输入LightGBM-TPE质量预测中实现对在制品的质量预测,并将预测结果以可视化的形式呈现给质量管理人员。
以上过程即在制品质量问题预测总体方案,也是产品制造生产过程的知识发现体系,将产生的重要工艺、重要工位等知识和规则存入质量知识库当中,企业质量工程师结合质量知识库中的知识对生产过程进行指导和改进,以提高生产线水平。
本文从生产制造现场工位采集的工艺数据入手,然后通过机器学习算法实现对在制品的质量预测,即将实时采集的在制品的工艺参数输入已经训练好的质量预测模型中实现对在制品质量问题的预测,提前预测生产线中的不合格品,提高生产线性能。因此首先要对采集的工艺数据进行数据清洗、异常值处理、缺失值处理等操作确保数据质量。
由于产品生产制造过程中工艺数据的度量单位多、差异大,会导致模型精度降低并且使收敛速度变慢[16],因此需要针对量纲对模型的影响对数据进行处理。常见的方法有最大最小值归一化方法和将利用均值和方差对数值进行缩放的标准化方法[17],由于标准化方法可以更好的保持样本间距,减少噪音的影响。因此本文选用标准化方法消除量纲对模型的影响,为接下来的特征工程做铺垫。标准化的公式为:
x′=(x-μ)/σ
其中:x′为标准化后的数据,x为原始数据,μ为均值,σ为标准差。
工业数据的高复杂性和高冗余性导致会有很多与目标不相关或者关系较小的特征,这些特征可能会引入不必要的特征,对模型性能产生负面影响[18]。为了降低模型复杂度,减少冗余特征对质量预测模型的影响,缩短训练时间,避免维度灾难,需要对产品生产过程采集的历史工艺数据集进行特征筛选,从而选择合适的相关度高的特征进行训练和预测。常见的特征选择方法有方差选择法、相关系数法等,这些方法可以有效的进行特征筛选,但是需要人工确定保留特征的数量,无法确定保留多少特征是最合适的。生产中的工艺数据特征维度较大,如果特征保留太多会造成生产数据的冗余,特征保留太少会丢失重要生产数据,造成质量预测模型性能下降。考虑到以上情况,本文选择结合RFE递归式特征消除和CV交叉验证的RFECV自动进行工艺数据的特征筛选,相比于其他方法可以解决质量预测模型中特征维度难以确定的问题。
(1)
为了解决工艺参数维度较大,冗余特征较多,难以人工确定筛选后特征维度的问题,RFECV在利用RF基模型对数据集完成训练后,除了获取不同工艺参数的特征重要性,还利用CV交叉验证获得当前模型的性能得分,然后剔除特征重要性较低的工艺参数形成新的特征子集,重新进行训练并获取当前模型的性能得分,不断的重复上述的剔除和训练步骤,直至数据集为空。然后比较不同特征子集的得分,将得分最高的特征子集作为筛选后的特征子集,整体流程如图2所示。
图2 基于RFECV的工艺参数特征筛选流程
对于已经完成全部工位生产的产品,可以直接对其进行质量预测,判断其是否为不合格品。但由于在制品只采集了部分工位上的工艺参数,不能直接输入质量预测模型中进行预测,需要对其尚未采集的剩余特征参数进行补全。本文结合上文获得的产品特征重要性值对KNN缺失值补全算法进行改进,从而完成剩余工艺参数的补全,流程如图3所示。
图3 基于改进KNN模型的在制品剩余工艺参数补全
(2)
(3)
通过上式获得产品剩余的工艺参数后,与已测得的工艺参数合并,即形成当前在制品完整的工艺参数。
若要实现对在制品进行质量预测,即需要将上文中补全的在制品工艺参数输入到构建好的质量预测模型中得到相应的预测结果,因此需要利用历史数据训练出合格的质量数据分类算法,将质量预测问题转化为数据分类问题。将特征筛选后的工艺数据集按比例划分为训练集和验证集,并对训练集数据进行过采样以避免因质量数据不平衡而导致的过拟合问题,然后利用LightGBM[21]构建质量预测模型,并引入TPE[22]超参数寻优方法对LightGBM的超参数进行寻优解决其超参数寻优难的问题,提高质量预测的效果,整体流程如图4所示。
图4 基于TPE优化的LightGBM质量预测模型流程
2.4.1 不平衡质量数据处理
由于产品的生产过程中不合格品往往只占较少的部分,因此质量数据会具有高度的不平衡性,从而导致质量预测模型出现过拟合现象,影响模型的训练。因此采用SMOTE[23]算法对不合格样本的数据进行过采样,即利用质量不合格的样本数据生成新的数据缓解数据不平衡度。新数据的构造方式为:
xnew=xi+rand(0,1)*(xj-xi)
(4)
式中:xnew为新生成的数据,xi为随机选取的质量不合格样本中的一个数据,xj为xi附近随机挑选的一个数据,rand(0,1) 表示0到1之间的随机数。
2.4.2 LightGBM质量预测模型
考虑到产品生产过程中采集的工艺数据的高复杂性和高数据量等特点,并且在实际质量预测过程中,对质量预测模型的精确度和运行速度都有很高的要求,因此需要找到合适的分类算法对产品生产过程进行质量预测。
LightGBM是一种以梯度提升决策树为基础的集成学习算法,相比于其他梯度提升决策树算法,LightGBM模型使用了如直方图算法和Leaf-wise决策树生长策略等优化方法使其更适合处理工业大数据。这些优化方法可以让LightGBM在不影响精度的前提下加速梯度提升模型的训练,使其具有更快的训练速度和更少的内存消耗。在处理工业大数据等大规模数据集时高效迅速的同时保证高准确度,对硬件资源要求不高,并且有较强的鲁棒性,因此本文选用LightGBM算法适合构件质量预测模型。
(5)
设为h(x)弱学习器,使用h(x)来拟合损失函数的负梯度,以找到如下的最佳拟合值:
ht(x)=argminL[yi,fj-1(xi)+ghj(xi)]
(6)
算法的更新公式可以被定义为:
fj(x)=fj-1(x)+gjhj(x)
(7)
(8)
如果采用人工的方式来调整质量预测模型的超参数,会导致很难找到最优的超参数组合,并且会浪费大量的时间。因此需要找到合适的超参数寻优算法自动对LightGBM进行超参数优化。
2.4.3 利用TPE进行LightGBM质量预测模型超参数寻优
为了使质量预测模型在对产品进行质量预测的时候达到更好的效果,需要找到合适的机器学习超参数寻优算法对LightGBM的learning_rate等超参数进行自动寻优。贝叶斯优化是一种高效的超参数寻优方法,其通过基于目标函数的过去评估结果建立概率模型,来找到最小化目标函数的值,相比于常见的Grid Search、Random Search[24]等超参数寻优算法,在尝试下一组超参数时,会参考之前的评估结果,因此可以省去很多无用功,提升超参数寻优效率。因此本文选用基于树状结构 Parzen 密度估计的非标准贝叶斯优化算法TPE对质量预测模型中的学习率、lambda等超参数进行寻优,这种算法比其他变种贝叶斯优化算法的寻优效果更好效率更高。
本文质量预测模型中TPE寻优算法定义p(x|y)的两种表达形式:
(9)
式中:y*表示观测阈上的最优值,l(x)和g(x)分别表示观测值x的损失函数小于或大于等于y*的密度估计。采用预期改进EI作为采样函数,选择对目标函数值有优化作用的下一个评估点。
(10)
(11)
当超参数x使l(x)最大,g(x)最小时,EI取得最大值。通过l(x)和g(x)构造样本超参数合集,以l(x)/g(x)的形式对x进行评估,每次迭代都会返回一个使最大EI的x*,经过多次迭代,选择其中性能最优的超参数组合作为最终质量预测模型的超参数组合。然后将验证集数据输入构建完成的LightGBM-TPE质量预测模型验证模型预测效果。
2.4.4 在制品质量问题预测流程
图5 在制品质量问题预测流程
质量预测结果以两种颜色的质量标签的形式呈现。当预测结果为合格品时,输出绿色的合格标签,表示当前产品质量良好;当预测结果为不合格品时,输出红色的不合格标签,表示当前产品可能存在质量问题,应对其采取相应措施,如返工或舍弃等。具体如表1所示。
表1 质量预测标签
为了验证本文提出的在制品质量问题预测方法的有效性,以对博世生产线上的在制品质量问题预测为例进行实例验证。利用RFECV完成工艺数据的特征筛选,结合特征重要性改进KNN完成在制品的剩余工艺参数补全,利用LightGBM-TPE模型进行质量预测并与传统模型进行对比,验证本文提出的在制品质量问题预测方法的有效性和可行性。实验在Windows10系统上进行,电脑CPU型号为Intel(R) Core(TM) i5-10300H 2.50 GHz,显卡型号为:GeForce GTX 1650,内存为16.0GB,运行环境为tensorflow2.0。
本次实例验证使用数据为Kaggle中博世提供的大型公开生产线数据集,目标是对产品质量进行预测,提高生产线性能。该数据集包含超过100万个观测数据和超过4 000个特征。其中数值特征的命名由生产线编号、工位编号及测量编号组合而成,例如一个名为L3_S50_F4243的特征表示该产品在3号生产线50号工位测量的特征,并且特征编号为4243。部分数据如表2所示。图6以其中4个特征为例展示了同一特征下特征参数的分布。
表2 部分产品生产过程采集特征参数
图6 部分特征参数数据分布
由于该数据集过于巨大,对产品的不合格率进行分析,发现该产品不合格率为0.58%,数据分布极为不平衡,负样本占比较小,本文随机选取其中一个子集,缓解不平衡度,并对数据的缺失值和异常值进行处理。
对数据处理完成后,利用RFECV算法筛选出224个特征构建特征筛选后的特征子集,并计算了各个特征的重要性,由大到小进行排序,如图7所示。
图7 特征参数重要性排序
由图7可以对产品质量影响最大的10个参数特征如表3所示。
表3 部分特征重要性排序表
使用SMOTE算法对数据进行过采样,缓解数据不平衡度。对处理好的数据集按照5∶1的比例为训练集和验证集,训练本文提出的LightGBM-TPE质量预测模型。采用精确率Pre、召回率Recall及F1值对模型有效性进行验证,并与SVM、LR等常见的算法进行对比,如表4所示。
表4 模型性能对比/%
通过上述实验可以发现本文所提出的质量预测模型对产品质量预测的效果优于其他常见模型,因此可以得出本文所提出的LightGBM-TPE质量预测模型可以较为准确的利用产品生产的特征参数对最终质量进行预测。
为了验证本文所提在制品质量问题预测方法的有效性,本文选用较为重要的S24和S33作为质量预测点。对产品完成这两个工位生产的在制品进行特征加权改进KNN的工艺参数补全并输入LightGBM-TPE质量预测模型进行质量预测。预测效果如表5所示。从实验结果可得本文所提的在制品质量问题预测方法可以较为准确的对在制品进行质量预测。
表5 在制品质量问题预测效果验证
随着产品功能的日益增加、产品精细化程度不断加深及客户的要求不断提高,在制造生产过程中对产品的质量进行控制变的越来越困难。为了利用产品制造过程中采集的数据对在制品进行质量问题预测,本文提出了一种基于RFECV-LightGBM-TPE联合模型的在制品质量问题预测方法。该方法通过RFECV自动完成特征筛选,针对在制品采集数据不充分的问题,通过结合特征重要性的方法改进KNN模型补全未采集的剩余工艺参数,然后利用TPE优化LightGBM构建了质量预测模型,并对训练样本进行过采样解决了数据不平衡问题,提高预测效果。最后以博世生产线采集的工艺参数为例将本文所提模型与常见模型进行对比,结果表明本文所提模型可以更好的对质量进行预测。本文给智能工厂的建设提供了一点参考价值。