周可杰 吴丰顺 杨卓坪
(华中科技大学材料科学与工程学院 材料加工与模具技术国家重点实验室,湖北 武汉 430074)
高团芬
(华宇华源电子科技(深圳)有限公司,广东 深圳 518118)
万 杨
(微纳米晶体加工技术湖北省重点实验室,湖北 随州 441300)
近年来,印制电路板(PCB)市场为以订单需求为导向,企业也从大规模生产模式,转变为针对特定的客户需求,主动提供个性化、定制化的产品和服务[1]。对于PCB生产企业精准确定投料面积,将是影响企业上下游生产成本的重点。
每个订单的投料量需要综合考虑车间物料、生产过程、产品库存、废料回收、余料入库和延期的成本。企业工程师通过分析产品的历史报废率来预测新订单的预投料面积。但是随着个性化需求的提升,由人工分析的方式导致的超投与补投现象造成了企业成本居高不下。
刘东[2]等人利用数学模型来实现精准预投料的研究,根据统计学的方法,计算得到预大率预测数学公式,对投料预大率进行预测。
张学功[3]采用大数据技术对PCB投料系统进行优化,通过采用多元线性回归的方法,结合ERP系统中的PCB的详细生产参数进行数学建模。该方法得到了线性回归计算表达式,有效地降低了企业的报废率,为企业节约了成本。
吕盛坪[4]基于车间的历史生产数据展开数据挖掘,利用假设检验的方法选择报废率建模的最优参数,根据补投率与余数入库率设计加权评价指标,对比了多元线性回归、卡方自动相互作用检测器、人工神经网络和支持向量机等模型的预测能力。郑彬彬[5]在吕盛坪的基础上对算法进行了改进,提出结合自组织映射(SOM)——反向传播网络的预测机制,通过SOM对生产数据进行聚类分析,设计特征优选算法提取影响报废率的关键属性,在各个评价指标上均有明显的提升。
机器学习建模过程通常可以分为特征工程与模型训练的阶段。机器学习的算法决定了预测结果的下限,而数据的特征工程可以决定模型预测的上限。
本文将着重分析预大率数据集的特征工程方法,获得最优化的预测模型。
PCB企业具有良好的信息化基础,ERP系统中存有完整的生产参数数据集。报废率是企业生产过程中直接的统计指标,企业通过报废率来确定合理的投料预大率。因此针对企业报废率采用机器学习算法建模,预测PCB生产的平均报废率。报废率主要考虑历史报废率与干扰因素伴随的噪声两个方面的影响。
针对复投订单,可以结合该产品的历史报废率进行分析预测,但是订单数量以及其他不可控的噪声因素也可能导致报废率出现误差波动。而对于新投订单,由于缺少相应的历史报废率的参考,只能结合结构与工艺相似的订单做出分析预测。企业历史报废率的统计计算公式如式(1)。
式中,bfmj为订单报废面积的累计值,klmj为订单开料面积的累计值。
虽然ERP系统中详细的生产资料数据能为建模提供数据支撑,但是ERP中导出的数据集特征参数较多。
因此需要分析数据集的特征,提取有价值的特征,对特征降维,减少模型的训练成本并增强模型的泛化能力。对于影响模型准确度的干扰因素,应对训练数据筛选去噪,减少数据噪声造成的模型准确度的波动。
模型在提供预测报废率后,对于复投订单,预投量还需考虑客户订单数量、赠品数量、余料数量等仓储因素。而PCB在生产时,投料面积将按照整块板生产,需要对预投数量按照PNL进行向上取整。设计的投料预大率预测算法中也需要加入相应的处理流程。
本文的投料预大率数据集来源为某企业ERP系统。首先根据该数据集训练获得基于LightGBM[6]的模型基线(Baseline)。再对数据集数据进行数据分析、特征工程,以均方误差(Mean Squared Error,MSE)为评价指标,对Baseline进行不断优化,获得最优化的投料预大率模型。
从ERP系统直接导出的数据集量大、信息复杂。故首先在小数据集的基础上进行分析,设计投料预大率的建模流程。抽取企业某个月的投料预大率数据集Data,数据集中含有订单数量、订单面积、单元面积、工序数等48类特征参数。
对于需要预测的报废率,数据集并未记录实际投产数量,而是对实际生产面积以及入库面积进行了记录。因此将首次入库面积、首次投料面积、报废面积、投料面积四个参数根据式(2)计算平均报废率。
式中pjbfl为平均报废率;scbfmj为首次报废面积;sctlmj为首次投料面积;bfmj为报废面积;tlmj为投料面积。
对于单次投料生产的订单,由于其单次投产面积已经满足所有生产面积的需求,不需要进行二次投料,即首次报废率等于平均报废率。对于需要补投的二次投料订单,采用首次报废率与总报废率进行平均的方法,得到pjbfl平均报废率。将预测目标平均报废率标记为Target。首先对特征进行相关性分析,分析影响平均报废率的特征的相关性强弱。计算得到数据集的相关系数后发现,特征的总体相关性较弱。选取相关系数绝对值较大的特征,绘制相关系数热力图1。
图1 数据相关性热力图
从热力图1中看出,外层最小间隙、外层最小线宽等对产品报废率相关性较大的结构特征,反而与预测目标Target的相关性系数较小。分析数据后发现,该数据集直接来源于ERP数据库,完整记录了生产过程中的所有参数,但导致数据集存在较多的数据缺失值与数据异常值。图2为预大率数据集中部分空缺特征统计柱状图。
图2 预大率数据集空缺值统计柱状图
其中赠品数、复合表面处理特征列为空,即ERP系统中存在但未记录该特征,因此直接将该类特征删除。余数数量的大范围空缺,分析后判断是ERP系统输出零值格式问题,因此将空缺值按0值进行填充。针对孔到线、历史报废率、人员流程率、外层铜厚等少量的空缺值数据,由于LightGBM算法可以直接对空缺值数据处理,暂时不对其做处理。而针对孔径比、外层最小间隙、外层最小线宽、内层最小线宽、内层最小间隙、孔铜厚度等出现大范围缺失且较为重要的特征,需要进行具体分析,探究填充空缺值的最佳方案。且该类存在大量缺失特征的特征列,其同样存在较多的异常值。因此为选取最优化的空缺值与异常值处理方法,直接对预处理后的数据集采用基于LightGBM算法初步建模,采用十折交叉验证训练得到建模基线Baseline,Baseline的MSE为0.0142。
对数据集的特征工程方法,将直接影响到投料预大率预测模型预测能力的上限。在初步对该数据集的分析后发现,数据集复杂,其中存在大量的空缺值与异常值。因此以Baseline作为基准,在Baseline的基础上对模型进行优化,确定优化的特征工程方法。将孔径比、外层最小间隙、外层最小线宽、内层最小线宽、内层最小间隙、孔铜厚度六个特征删除异常点并绘制箱型图如图3(a)所示。其中孔径比的数据分布较为均衡,而孔铜厚度特征,在样本中出现了少量特殊的样本点,为减少特殊样本对模型训练的影响,将该类特殊样本直接剔除。其中外层最小间隙、外层最小线宽、内层最小间隙、内层最小线宽为明显的长尾偏态分布,数据明显“左偏”。针对长尾分布的特征,采用Log化进行处理,处理后的特征数据分布如图3(b)所示。
图3 特征工程前后结构特征变化箱式图
处理后的特征的箱式图的分布更接近与正态分布,未出现明显的偏态分布,将处理后的数据集采用十折交叉验证,模型的MSE从0.0142提升至0.0114,模型的预测误差减小19.72%。
同样呈现偏态分布的还有模型的预测目标平均报废率。同样采用Log的方法处理,图4为初始报废率与Log处理后的报废率分布柱状图,经过Log处理后,数据的分布更加稳定。
图4 预测目标Target分布柱状图
LightGBM模型可以对空缺值数据自动的分割子树节点,但是算法对空缺值的处理方法并不一定能够得到最优化的算法模型,因此采用穷举的方法研究数据集空缺值的填充方法。常见的数据集填充方法有直接填充零值、填充平均值、填充中位数。将关键的数值型特征填充空缺值分析,结果如表1所示。根据表1的结果,对各类特征值选取最优的特征填充方法,将数据集进行填充,最终得到了可以用于建模的特征工程后的预处理数据集。最后通过对算法模型进行参数调优,选取合适的模型调优手段,获得模型的最优化训练参数。在投料预大率预测的模型调优的过程中,模型的评价函数MSE变化趋势如图5所示。经过对特征工程与模型优化,模型在验证集上的误差不断下降,模型的预测能力得以提升。
图5 均方误差变化柱状图
表1 不同填充方法的模型的预测误差MSE
将数据处理、特征工程、模型训练、超参数调优的过程进行封装。编写输入输出接口,良好的图形展示与人机交互界面,并将模型部署至客户端数据分析主机。将机器学习建模数据集输入程序中,程序将自动对数据集进行数据处理与分析,在后台进行机器学习建模。当有新订单时,工程师可以将数据输入界面,通过手工输入或者EXCEL批量导入数据。选取测试集数据测试,经测试后,算法模型能够稳定运行,软件界面中直接显示预测投料片数,能够完成PCB投料预测流程。
针对投料预大率预测问题,设计并实现了基于机器学习的投料预大率预测程序。通过对基于LightGBM算法的Baseline的优化,获得了最优化的投料预大率预测算法。并将该预测流程封装为预测软件,完成对预测算法的测试。合适的数据分析方法,可以深度挖掘PCB企业现有数据集的数据价值。PCB企业坚实的数据基础,能够为PCB企业的智能化转型提供重要指导。
本研究感谢国家自然科学基金资助(62074062),感谢湖北省重点研发计划资助“高性能、超高频石英晶体器件(VCXO)制造工艺研发”(2020BAA4)基金资助。