改进的Z-C4.5算法在S钢铁厂板带生产过程辅助全流程质量数据分析研究

2022-06-10 04:50吴玉国陈梦凯

南阳理工学院学报 2022年2期

赵峰，尹琛，吴玉国，陈梦凯，李轶

(1.安徽工业大学管理科学与工程学院安徽马鞍山 243032；2.安徽工业大学复杂系统多学科管理与控制安徽普通高校重点实验室安徽马鞍山 243032； 3.马鞍山市烟草专卖局安徽马鞍山 243032)

0 引言

板带产品有着“通用钢材”之称，用途极为广泛，板带材可根据需要进行剪裁，弯曲冲压或焊接成各种构件和制品，所以拥有着大量的客户。板带产品的客户个性化需求比较多，且通过“识别-转化-验证-固化”转而进入生产及产品交付的过程极其复杂[1]，到目前为止板带材的制备仍然面临着外形尺寸与内部性能控制稳定性差，出现内外部质量问题的时候各工序各参数的“交互”影响因素过多的情况。国务院在《中国制造2025》中提出了质量体系TS16949，对过程能力指数评价、流程管控及关键工艺参数的查验要求很高。而板带高端产品供给能力不足，全流程一体化设计与个性化定制数字孪生模型的验证讨论亟待建立。回顾以往的前三次工业革命，他们的主要目的是为了提高生产效率，但是这种价值创造模式在供大于求的市场中正遭受严峻的挑战。所以在S钢铁厂智能制造工业4.0的升级改造的项目中，应紧紧抓住3点：产品质量、生产成本和供货时间。在需求小于供给时，精准供货与产品质量将成为产品竞争力的主要组成部分，而全流程的大数据分析质量监测手段可以及时发现残次产品，避免交付到客户手中，最终实现提升效益的目的。

关于工业4.0具体技术的实施方案世界各国的研究水平参差不齐，SzilárdJaskó、AdriennSkrop等(2020)[2]在关于MES的文献综述提到下一代(即工业4.0后时代的)MES解决方案将需要具有机器学习(ML)数据挖掘功能。但是本文的项目实施团队在研究中发现，MES具有他固有的无法突破的局限性，针对单工厂单车间无法考虑全局，采用的基本上是单变量的统计处理模型工具(层别法、检查表、柏拉图、因果图、管制图、散布图和直方图)。Manabu Kano、Yoshiaki Nakagawa[3]在2008年通过住友金属公司与京都大学的合作项目中对未来钢铁行业展望时就指出，统计学模型不适用于大数据量级的处理，所以基于统计学理论的控制图的研究方法并不是未来钢铁企业的实际应用发展方向。

那么是否要推倒以往的所有质量管理信息系统，重新设计和架构一个全流程的信息化管理系统且非闭环(MES管理在单车间中闭环)，以包容以后企业因为不断扩大(钢铁行业未来趋势，不断联合重组)所导致增加的新工厂中新的工序的数据变量从而来完成工业4.0彻底的革命。

依据S Joe Qin (2012)[4]在质量诊断领域文献综述提出由于Statistical Process Monitoring (SPM)方法基于数据的性质，与基于系统理论或严格过程模型的其他方法相比，SPM相对容易应用于大规模的实际生产过程。现有MES系统并不适用于大规模的工业级数据量的处理，且MES中的QC工具大部分是单变量控制图法，他们的主要机理是基于统计学理论的，所以必须在工业工程管理工具开发过程中逐渐舍弃，也符合机器学习理论将来的研究热度，这将超过统计学理论的学术趋势，并将广泛运用于工业大数据分析。经过工信部指定专家以及相应的科研研究单位的认真讨论，考虑到信息系统建设投入巨大，且短期经济收益回报小的因素，决定重新建立一套全流程的数据采集分析系统(开环平台)，辅助工艺专家使用，利用工艺专家经验共同开发，同时适配原有的MES、ERP系统，将原有专家系统搭载于全流程平台下(等后续全流程数据系统不断完善后逐步将原MES系统下线)，利于前后工序的工厂的专家工程师在线参与分析，提高效率，以解决多工艺多变量耦合，数据之间互相影响的问题。

本文的研究认为数据的好坏决定了一个模型效果的上限，而无论如何改进的机器学习算法也只是为了让数据驱动分析的效果不断的逼近这个上限。工业大数据分析的算法最终会回归小范围而高价值的数据研究。由于生产线上的工艺变量非常多，钢铁厂的单日二级系统同步数据量达数十万级别，非人脑力可以进行跨流程分析，即使通过冶金工艺的经验缩小了范围，也需要进一步去确定主要变量，所以选用决策树算法是为了能够处理大批量的数据，筛选出主要工艺变量，再通过分析主要工艺变量(此时也要根据不同变量的数据特征)如过钢速率含的拉速设定值、实际值及相关值做监控模型，或者如轧机料形尺寸问题，可直接做料型尺寸分析运用PDCA循环优化人机料法解决异常源。

本文决定采用引入惩罚函数Z改进的ID3算法形成新的Z-C4.5算法去筛选主要工艺变量，惩罚函数Z的作用就是根据冶金数据量工艺采集数据的特征设定的一个取值函数，数据变化范围过大的数据不具备分析价值可能是设备损坏也可能是PLC工作不正常。据此提出的Z-C4.5算法就是当某个特征对应的取值过多时，此时惩罚函数 Z会取一个相应值去乘以信息增益使得信息增益比偏小，从而使模型自动将该工艺变量排除分析范围。

冶金工艺变量的数据有自己特定的特征值与目标值，而决策树算法的属性节点则可以进行相应的设置，便于以后根据目标值(标签值)与特征值的变化进行代码的调整。目标值就比如说我想掌握过钢速率的影响，可以此作为标签值也就是目标值设置在属性节点的代码位置，通过下一步判断循环我们进一步收集拉速的设定值、实际值等5个因素。过钢速率就是他们的标签(如图1所示)。

图1 过钢速率为标签值的5个相关监控变量

而有些冶金工艺数据就只有特征值而没有目标值，这也可以通过属性节点去设置。

但是无论是PCA主成分还是核熵成分分析算法的代码设置没有这样便捷的属性分类，且都会进行数据降维(模糊了原有数据)，然后做贡献指标来进一步做主要成分判断，这都会影响后续的分析，一般其余模型会采取一部分数据模型用来训练，另一部分数据用来测试模型好坏。

决策树算法代码通俗简便，且容易增删参数和改进公式去优化算法，由于工艺变量数据的属性划分本身也是通过树状图进行归类分析，所以改进决策树算法比较合适。

1 S钢铁厂现有板带工艺质量管控系统及其局限性

1.1 现有板带工艺质量体系存在的问题

图2为S钢铁厂现有质量管控系统建设情况。

图2 S 钢厂ERP、MES、PCS系统

(1)现有各管控系统对于最重要的质量判定过程数据缺乏关注，在板带的整个工序流程作业过程中各数据相对孤立，影响产品质量的变量具有高维、多变量耦合的特点[5]，只通过简单的阈值测度难以发现问题根源，外部问题如表面质量、板型质量缺陷经常发生, 板带生产质量缺乏长期稳定性，数据追溯效率低下，工序与部门之间界限不清，热轧、冷轧、炼钢跟连铸，由于部门划分的原因，导致质量问题无法进行有效追溯分析。热轧出现的问题与炼钢之间的关系，冷轧出现的问题与热轧之间的关系等都需要进一步对过程数据进行聚类分析、跨流程关联分析。

(2)客户对于板带的需求与整个产品质量生产的过程缺乏对接，现在主要还是依据纸质协议来交换意见，板带一种型号提供给不同客户，各客户的质量需求是不一样的，而整个的板带生产过程中无法针对不同需求实现相应的质量控制。

(3)工艺输入条件的外部扰动对于质量的影响依然很难控制，在生产现场，工艺窗口的制定如速度、温度、加热温度、到站时间、到站成分等都仍然依靠经验判定，这些对于板带表面质量的影响一直未纳入关联分析。

1.2 S钢厂现有设备信息系统

板带的制备过程流程长、工艺工序复杂[6]，全国大部分钢铁厂板带产品基本的工艺工序如图3所示。图中所示所有的工艺都会单独建立一个厂区，一般间隔比较远。

图3 基本板带产品冶炼过程涉及的工艺

S钢厂现有设备信息系统主要包含两部分。第一部分是基础自动化系统(L1)，主要在板带生产线上用于设备自动化控制的PLC控制单元，该类系统主要用于记录工艺曲线数据、关键事件状态数据。第二部分是过程自动化系统(L2)，主要是指板带生产线上各数学模型及一些物料跟踪系统，存储物料与工艺参数设定值、实测值(反馈值)、统计量等逻辑对应关系，同时记录产品在各设备加工处理的时间信息。

炼钢区包括(转炉-脱硫-倒灌-KR-精炼-火焰清理机-1、2#连铸机、3#连铸机)-热轧区-冷轧区(酸轧-1号镀锌-2号镀锌-罩退-平整-剪切)。

本文对于全流程质量管控的数据追溯目标设想是通过大量的数据采集、数据标准化、数据分析工作形成一键获取制造全生命周期多源异构强关联数据，实现产品的全息数字化，且该模型可以推广应用至大部分板带产品钢铁生产厂。

1.3 板带产品工艺流程质量问题分析

板带钢材如热轧、冷轧钢卷、板坯在连续化生产过程中，由于操作控制不当，比如断面温度不均或高温轧制过程操作问题，就会给带钢表面带来各种各样的缺陷[7]。板带钢材的质量问题各种各样，主要可以分为几个大类：表面氧化行为、析出行为、再结晶行为。这些主要可以通过氧化铁皮结构与氧化铁皮厚度的对应关系来研究。而相变行为则是成分-工艺-组织-性能的互相对应关系，还有诸如轧机轧辊等设备物理磨损导致的表面损伤。而且客户对于带钢的力学性能要求也各有不同。

冶金工艺过程造成的各种质量问题千变万化，客户的个性化的需求越来越难以达到，例如某高端品牌车企提出汽车板的力学性能要求，需要数位专家根据多年的工作经验来分析，并不断调整和控制设备。近年来，因为钢铁行业的周期性变化与调整，一些企业逐渐整合成立了特大型联合的企业，生产线从最初的钢水处理，一直到后续的生产工序越来越多，但是相应的工厂可能间隔非常远，有时甚至在不同的地区。随着工业4.0模式的到来，原有的MES系统已经不能满足现有的信息化工厂管理的要求[8], 而且如冷轧工艺专家也可能只熟悉冷轧厂的工序和设备，对于前一工厂的生产工序缺乏分析与认识，对于新增设的后一工序生产厂无法快速地建立起有效的质量管理经验。

工业4.0的实现需要通过一系列的建模、设备仿真。数据是数字孪生模型的血液，本文只是介绍了初期的数据处理方法，后续针对不同的需求会相应地运用各种改进的算法去适配数据实现功能。

2 全流程大数据算法处理数据工具(辅助工艺专家使用)开发研究

板带表面质量的判定一直是质量预测的难点，主要是因为表检仪的各供应商不一，提供的数据接口以及识别的准确率不一且缺陷识别准确率较低[9]。本文尝试通过大量的实测样本数据进行数据挖掘测度，从而推断可能产生问题的工序过程，尝试利用改进决策树算法来处理全流程数据，为以后板带质量的判定预警和在线评级研究奠定基础。

(1)首先将采集的数据按照工序段进行归档(包含设定数据、实测数据)，主要是因为钢铁企业中，收集的为多源异构数据，大部分来源于ERP、MES、L2、L1(L1中的PLC或DCS数据)、大型仪表(多功能仪、表检仪、线材中的测径仪)，还有一些特殊的数据采集系统(如S钢厂的iba系统)，对这些数据进行重整后才能进行相应的分析。

(2)改进决策树模型：惩罚参数Z改进的ID3算法形成新的Z- C4.5算法更适合于工艺变量筛选。本文选用决策树算法对从S钢铁厂获取的历史数据进行处理，工艺专家根据经验选择13个生产工艺参数操作变量进行特征选择，从这些变量中筛选出3个最具代表性和独立性的操作变量，从而为下一步的模型训练保留主要特征，忽略一些次要因素。根据实际生产环境需要，各操作变量实际数据都被限定在一定范围。依据60000个样本数据，记录合格样本的品质为1,不合格品的品质为0，节选部分数据如表1所示。

表1 板带产线工艺参数

本文在筛选关键因素时使用的决策树算法是一种非常经典的机器学习算法，适合集成学习如随机森林算法，可作为回归算法，同时也可被用作分类。决策树模型是典型的树状结构，其学习的过程由特征选择、决策树生成和剪枝3部分组成。由于本文将决策树算法应用于筛选对质量问题起主要影响的工艺变量，因此文中不考虑剪枝过程。

决策树算法采用的是树形模型。线性模型是所有特征给予权重相加得到一个新的值，而树形模型是一个一个特征进行处理。决策树与逻辑回归的分类区别也在于此，逻辑回归是将所有特征变换为概率后，大于某一概率阈值的划分为一类，小于某一概率阈值的为另一类；而决策树是对每一个特征做一个划分。另外逻辑回归只能找到线性分割(输入特征x与logit之间是线性的，除非对x进行多维映射)，而决策树可以找到非线性分割，树形模型更加接近人的思维方式，可以产生可视化的分类规则，产生的模型具有可解释性(可以抽取规则)，树模型拟合出来的函数其实是分区间的阶梯函数。这非常适合用于对各工序属性的不同引起板带质量问题的数据进行分析。

决策树从根节点开始，树的最高层就是根节点，自顶向下经过迭代会产生多个内部节点和叶子结点。树内部的每一个节点代表的是对一个特征的测试，树的分支代表该特征的每一个测试结果，而树的每一个叶子节点代表一个类别。

通常情况下，每个内部节点都会进行最优属性的选择，并据此划分出多个样本子集，每个样本子集作为新的父节点再次进行特征选择并划分，直至不能分裂，最终形成的不能分裂的子节点就称为叶子结点，能代表最终的类别。由上可知，决策树算法的核心在于如何进行最优属性的选择，目前决策树的最优选择标准主要有3个，它们是最大信息增益、最大信息增益比和基尼系数。与此三大准则相对应的算法分别为ID3算法、C4.5 算法以及CART算法。

信息增益定义为集合D的经验熵与特征A给定条件下集合D的经验条件熵H(D|A)之差。H(D)表示数据集D的经验熵，H(D|A)表示特征A给定条件下集合D的经验条件熵，g(D,A)表示信息增益，信息增益的计算如下。

设A是其中一个工艺变量取有限个值，其概率分布为

P(A=xi)=pi,i=1,2,…,n

(1)

则此时随机变量A的熵的定义为

(2)

条件熵函数定义为：随机变量A的条件下随机变量样本集合D的不确定性——H(D∣A)

H(D∣A)即A在给定条件下D的条件概率分布的熵对A的数学期望

(3)

其中p(a)表示A=a发生的概率

g(D,A)=H(D)-H(D∣A)

(4)

(5)

(6)

对于样本集合D来说，随机变量A是样本的类别，即，假设样本有k个类别，每个类别的概率是|Ck|/|D|，其中|Ck|表示类别k的样本个数，|D|表示样本总数。H(D)表示数据集label类别的熵，即每个label取不同类别的值的时候的不确定性。H(D|A)表示在选择特征A的条件下，数据集label类别的熵。此时也可以表示类别label与特征的互信息。

信息增益——G(D,A)表示由选择特征A而使得对数据集分类的不确定性减少的程度，减少的越多，数据集分类的不确定性越低。表示特征A对数据集D 分类影响效果越好。

ID3算法计算所有节点技术特征的信息增益，并选取信息增益最大的特征进行分裂。ID3算法倾向于选择有更多取值的特征，而有时这种倾向会在决策树的构造时带来一定的误差。Wang Hongbin等(2019)[10]提出了一种RLBOR算法，该算法考虑了决策树模型中的节点数去优化该决策树优化比率(Decision Tree Optimization Ratio)但是仍然避免不了误差，如极端条件下，依据某个属性分裂后,一个子集对应一个数据，此时信息增益最大，信息熵为0，但这种划分没有价值。因为冶金工艺变量由于变量本身的原因，数据变化的范围比较小，出现了连续的数据，ID3会倾向于该特征A，为了校正ID3算法存在的这一误差，提出了使用信息增益比作为最优属性选择指标的C4.5算法。Mu YS 等(2017)[11]提到了C4.5算法的应用，并且指出在监督分类中，大型训练数据非常普遍，决策树被广泛使用[12]。但是，由于内存限制、时间复杂度或数据复杂度等一些瓶颈，许多监督分类器(包括经典的 C4.5 树)无法直接处理大数据。他提出的解决方案是设计一个高度并行化的学习算法。而本文需要C4.5算法对冶金工艺变量进行特征选择，然后结合冶金数据的特性选用其他机器学习算法进行大数据处理。提出的Z-C4.5算法的就是当某个特征对应的取值过多时，会取一个改进的惩罚参数Z去乘以信息增益使得信息增益比偏小。定义信息增益比为特征A带给集合D的信息增益与特征A本身的熵之比。信息增益比的计算如下

(7)

(8)

gr(D,A)=Info*G(D,A)

(9)

惩罚参数：Info=1/HA(D)*Z

公式中，R(range)表示所取冶金工艺变量中数据变化范围，n表示依据特征A分裂后的子集个数，Di表示每个子集的样本个数。

当采集数据的数值变化范围小于1%时(即极差R<1%)，代码设定Z=0，方便写成模型代码计算的时候自动筛选无效的工艺变量，减少计算压力。

当采集数据的数值变化范围大于30%(此PLC出现错误)，此时代码设定，Z=Null，当Z的数值变化范围大于30%(此PLC出现错误)，此时代码设定，Z=Null提示数据模型该PLC出现错误。

当采集数据的数值变化范围在1%～30%，表示数据特征正常可以运算，Z=1。

利用C4.5分类树对上述样本数据进行特征选择。由于样本被分为合格品(记为1)和不合格品(记为0)，因此采用二叉分类树作为训练模型。计算出13个特征变量对应的信息增益比，并按从大到小的顺序进行排序，根据各特征变量的信息增益比选择3个主要因素。

本次实验环境设置为Intel(R)Core(TM)i5-5200U_CPU_@3.60 GHz，操作系统为Windows 10，使用Python语言jupter notebook编译器中实现。分析结果如表2所示。

表2 信息增益分析结果

为了更好地去验证算法的有效性，与现场运管质检部工作人员的沟通交流调取了该部分的历史样本记录并且进行人工统计数据，针对该组合工序板带生产的产品采样的60000个样本统计不合格产品约为1730个，不合格率在3%左右。(与节选的样本不合格概率大致一样，13个工艺变量的样本量在4630个左右)此时通过工艺专家经验判断设定的阈值，(工业4.0的升级后续项目中将通过数据挖掘算法实现数据的动态阈值实现动态监控)，判断超限的数据个数，统计的超限变量的次数如图4所示。

图4 不合格品工艺变量超阈值数据个数的统计

图4中显示 1、 3、9样本超阈值的情况较多，分别对应2#轧机料形尺寸、过钢速率、1#～5#活套套高这3个工艺变量。针对决策树筛选的异常变量我们进行了现场调查，例如1#～5#活套套高变量的立式活套器是为了避免轧件在易形成活套的地方造成产品最终出现头尾耳子，一般由活套扫描传感器实时扫描活套高度，确定此时人为设定的活套套量与实际活套套量之间的误差。因为具有活套控制的连轧机组，轧件的速度比较快所以此时系统惯量较大引起产生动态力矩，所以人为设置的固定的套量，是不能解决这个异常的，这是个固有的表面质量异常源，这一结论得到了现场专家的肯定答复。

节选部分工艺变量数据的超工艺专家给定阈值的监控情况如图5所示。

由于历史样本中4630多个样本的监控图过于密集，无法分辨。所以截取了同一时间窗口的300个样本进行观察。可以看出2#轧机料形尺寸、过钢速率、1#～5#活套套高3个工艺变量的超阈值情况明显多于其他变量。

此处的阈值一般是由工艺专家根据经验得出固定值，如之前给定的活套误差，这是不够准确的。生产是动态的过程，将来应该要通过算法(目前考虑使用KECA-DISSIM组合算法)实现前一批次正常批次与异常批次的比较来动态控制阈值，由人工根据动态阈值调整设定值，计算机系统直接通过指令下达给现场的二级自动化设备实时调整。解放现在的人工现场操作。这将解决实时性的操作误差。但是仅这一步就需要计算机系统与自动化设备的进一步升级，需要大量的资金投入，不是光靠算法能够解决的。

1#～5#活套套高该工艺变量位于预精轧厂，2#轧机料形尺寸该工艺变量在炼钢厂，过钢速率该工艺变量采样来自冷轧厂。位于不同厂区的工艺变量被筛选了出来，已经初步达到了全流程质量管控数据分析的要求。对于异常工艺变量之间是否会相互影响造成特殊的板带质量问题还需要与工艺专家一起研究。

此处只统计了不合格品工艺变量数据超阈值的情况，合格品也有数据超阈值的将来可以做对比分析，排除不重要的工艺变量。但是冶金工艺变量变化复杂，可能同时受到人工操作、设备、高温的影响导致数据采集设备的工作波动导致异常，所以通过大量数据分析可以得到一个基本较为准确的主要变量问题的判断。

在该批次设备生产过程中影响表面质量的因素主要为2#轧机料形尺寸、过钢速率、1#～5#活套套高，上线运用到实时数据时主要监控该3项工艺特征变量的变化情况并且进行记录，设定阈值，超过阈值进行报警，进行事中控制从而来降低该类工艺参数出现问题所形成耳子、氧化铁皮、裂纹等表面质量问题。

图5 截选部分工艺变量超阈值监控图

3 结语

在钢铁行业供过于求的状况短期不会改变的大背景下，工业和信息化局在2020年之前制定的目标是去除粗钢产能1～1.5亿吨，而根据本文的项目团队研究预计我国粗钢消费在2020年后每年还将下滑3%左右，钢铁产业未来发展的核心矛盾在于供给侧改革落实情况及全球经济的复苏水平，所以目前提高产品核心竞争力是最迫切的需求，全流程质量管理思想的提出与实践使企业质量管理水平不断升级[13]。现在，工业互联网的发展是新的契机，我国钢铁企业要实现弯道超车，就需要将信息化的过程与生产工艺进行深度的融合，从而帮助我国在产线自动化信息化进程中开发掌握更多核心自主技术。我们目前想解决的主要问题在于客户需求的精准落地、多模块协同实现产品质量事中控制和质量一贯制，借助AI技术和可视化技术如数字孪生，实现缺陷一键式追溯、工艺参数快速整定和优化，提供定制化业务实现质量、工艺、设备运营协同制造。现在国内钢厂通用的信息化构架主要为5层层级化的质量信息系统构架而我们的研究方向是随着工业互联网的发展，将其做成扁平化的质量信息系统构架，这样既能满足管理上的生产要求，也能满足生产上的质量需求，符合目前公认较为主流的钢厂信息化发展趋势。