基于最大互信息系数属性选择的冷轧产品机械性能预测

2020-02-25 00:45颜弋凡安路达吕志民

中南大学学报（自然科学版） 2020年1期

颜弋凡，安路达，吕志民

(北京科技大学钢铁共性技术协同创新中心，北京，100083)

随着市场对钢铁产品的质量要求不断升级，客户对板形、几何精度、表面质量等产品外观质量以及屈服强度、抗拉强度和伸长率等机械性能指标以及金相组织等质量指标要求越来越趋于定制化。对产品机械性能进行准确预测，减少抽样检测成本成为企业提高产品稳定性的重要手段[1]。冷轧产品作为一类重要的钢材产品，其生产流程长、产品质量好、附加值高，已经成为企业体现企业竞争力的重要产品。钢铁生产全流程中影响产品质量的工艺数据具有多源异构、高维、强相关、工序间遗传等特点[2]，预测建模时必须先从众多的属性集中选择出合适的特征子集，才能提高机械性能预测模型的精确度和计算效率[3]。目前已有许多学者针对数据建模过程提出了一些不同的属性选择方法。BERETTA 等[4]比较了原始Relief F算法和改进的Relief F 算法选择正确属性的能力，并分析了具体原因；针对属性与标签的非线性影响关系，GUYON 等[5]采用了核方法对模型的输入变量进行选择；ALIFERIS 等[6]讨论了解决多分类问题的属性选择方法。一些研究表明，不同的属性选择方法对特定的分类器获得良好的性能影响不同[7]；还有一些研究尝试解决针对样本或属性数量庞大或属性多样本少的高维数据问题[8]。但是目前对于冷轧产品的机械性能预测建模多是基于传统的经验知识确定影响的工艺参数进行建模，常用方法是通过轧钢原理结合物理模型来研究工艺参数与性能指标之间的关系或者将机理模型与智能算法的结合进行改进[9]。由于数据和经验等因素影响，这些机理模型基于简化的抽象和经验，对一些工艺参数关注明显不足。另外，与传统方法相比，一些根据实际生产过程特点采用多输入层遗传神经网络建立机械性能预报模型的研究虽然效果有所改进[10]，但多数仍采用传统经验知识进行属性选择所得到的特征子集。针对目前许多企业构建产品质量大数据或全流程质量数据平台情况下，冷轧产品制造全流程中可能影响产品质量的工艺参数可以方便获取的前提，如何利用数据之间关系从更多属性选择更有效的产品质量影响因素，提高预测模型预测精度问题成为可能，本文作者提出采用最大互信息系数(maximal information coefficient，MIC)的方法对某钢铁企业冷轧产品制造全流程中的工艺参数进行选择进行机械性能预测建模的方法。该方法的特点是通过计算每个工艺参数与机械性能之间的MIC，根据MIC 选择出最优特征子集后再进行后续的机器学习工作。对比其他方法得到的特征子集的预测结果，验证基于MIC 方法的属性选择得到的工艺参数最优特征子集可以明显提高冷轧产品机械性能预测精度。

1 最大互信息系数及其计算方法

1.1 互信息

互信息(mutual information，MI)是衡量2 个随机变量X和Y中一个随机变量由于另一个随机变量发生改变而自身随之改变的程度[11-12]，其计算方式为

式中：p(x,y)为X和Y的联合概率分布；p(x)和p(y)分别为X和Y的边缘概率分布。

互信息(MI)可以量化2 个随机变量间相关程度，当互信息为0时说明X和Y相互独立；互信息越大，说明X和Y两者之间的相关程度越高[13]。但是互信息并没有上界，所以不能简单地通过互信息来划分特征子集的选择范围，对于属性选择过程则需要将互信息的上限固定才能应用。

1.2 最大互信息系数及其计算方法

RESHEF 等[14]提出用最大互信息系数(maximum information coefficient，MIC)来衡量变量之间线性或非线性相关的程度。MIC 是互信息的推广，由于MIC 的范围为[0,1]，因此，它比互信息更具有一般性和公平性。

MIC计算采用非等间隔寻优的方法求出2个变量之间的互信息，然后对求出的值进行归一化处理[15]。对于随机变量X和Y之间MIC 的计算方法为：

1)将随机变量X和Y两者的数据取出来组成数据集D，并将数据集D按一定的顺序进行排序；

2)将随机变量X等分为x份，将Y等分为y份，不同的间隔划分方法可以得到不同数量的网格，网格数量越多互信息也会越大，但总的网格数量xy应满足：

为了简化计算过程，先将x和y初始值分别取为

3)在计算完当前的划分方式后将x增加1，则：

当y=2时停止网格的划分。

4)在每种划分情况下，通过第(xi,yj)位置格子里面点的数量除以总点数的计算方式求出该格子的概率p(xi,yj)，该格子所在列的概率p(xi)则为落在该列里面的点的数量除以总点数，同理也可以求出所在行的概率p(yj)，当前划分方式下的概率分布则为D|x*y，通过互信息计算公式求出当前划分的互信息I(D|x*y)，找出所有划分情况下互信息的最大值maxI(D|x*y)，令I'[D(x,y)]=maxI(D|x*y)，对其进行标准化：

之后就可求出随机变量X和Y在不同分割尺度下的最大互信息系数M(X,Y)：

当M(X,Y)=0时，说明两者之间不存在任何相关性，其值越接近1则越说明两者之间的相关性越强；当M(X,Y)=1 时，说明X和Y之间存在着线性或非线性相关关系。

2 基于MIC工艺参数选择的冷轧产品机械性能模型

2.1 冷轧产品机械性能预测建模

图1所示为冷轧产品生产全流程是一个典型的多工序顺序加工过程[16]，整个生产过程具有多变量、多种数据来源，在产品生产过程中会涉及到许多个变量，例如冶炼成分、轧制温度、轧制速度以及轧制力等，它们来源多样、数据类型不同、相互之间的耦合关系复杂[17]。而由于制造过程中冶金、物理过程的复杂影响，工艺参数与机械性能之间的关系往往是非线性的，难以用简单的线性模型表征[18]，另外，变量之间的相关性也增加了预测建模的复杂性。假设冷轧产品定量质量指标集为Y=可获取产品制造过程{冶炼，连铸，热轧，冷轧}等工序的工艺参数分别表示为X={XB,XC,XH,XP}，其中每个阶段又由许多具体工艺参数构成，例如由l个参数构成。这样全面考虑工艺参数对质量指标的影响的质量建模可抽象为

图1 冷轧产品制造流程Fig.1 Cold rolled product manufacturing process

在实际应用中，一般产品机械性能多为下屈服强度、抗拉强度和伸长率等。可以针对单一的性能指标分别构建形如式(7)所示的预测模型，但这样的模型虽然有很好的预测精度但不能统一考虑各工艺参数之间对多质量指标的耦合影响。

2.2 基于MIC工艺参数选择的冷轧产品机械性能预测模型及算法

2.2.1 问题定义

设可以获取{冶炼，连铸，热轧，冷轧}各工序的工艺参数{XB,XC,XH,XP}，每个工序的参数个数分别为j，k，l和m，共有(j+k+l+m)个工艺参数。由于这些工艺参数中有一些并不与质量指标集Y={y1,y2,y3…}中的指标相关联，并且相互之间可能因耦合等因素给建模带来非必要的难度，降低了预测模型的准确度。要解决这个问题，可利用某种评价指标从工艺参数集{XB,XC,XH,XP} 中选择出适合的子集使得利用子属性构建的YT=f(x1,x2,…,xn)的预测精度更高[19]。

对于线性关联问题，Pearson 相关系数、协方差和最小二乘回归误差等方法可以进行比较好的描述[20]，但是在冷轧生产实际中许多变量之间是非线性关系，使用线性分析方法会遗失许多重要的非线性关联参数，最大互信息系数则可以有效避免这个问题。

2.2.2 基于MIC参数选择的预测模型和算法

通过MIC 方法将整个冷轧过程中涉及的所有工艺参数与机械性能指标之间的关联程度进行量化，根据MIC 分辨出关键工艺参数、重要工艺参数、一般工艺参数以及影响因素小或无影响的工艺参数。以不同的MIC 阈值筛选出不同的工艺参数特征子集进行冷轧产品的机械性能预测。

在划分阈值范围进行特征子集选择时要考虑到这3个机械性能指标的影响参数之间是部分重叠但不完全相同的，在使用多输出回归模型时就需要将这3个机械性能指标所对应的3个特征子集取并集处理，即特征子集：

本文预测建模中考虑到工艺参数和性能指标之变的非线性影响关系，以及多性能指标之间的影响，采用多输出支持向量回归机(MSVR)作为预测模型，如图2所示。

3 实验与结果分析

为了验证本文提出模型的有效性，利用某钢厂经过清洗处理后实际生产数据，总计1 607条样本，数据集共含有210个工艺参数和3个机械性能质量指标，其中工艺参数包括：钢卷长度、宽度、厚度和质量、轧机出入口张力、酸洗槽温度、酸质量浓度、冶炼成分、拉速、液位、液位波动量、塞棒位置、上水口氩气流量、内外弧热流、结晶器进水温度等；3 个机械性能指标为：下屈服强度、抗拉强度和伸长率。表1所示为各个工序包含的工艺参数数量统计。

在建模中，按照8:2 的比例，将1 607 条样本数据划分为训练集和测试集，采用随机抽取的方式从样本中选出1 285条数据作为训练样本集，将剩下的322条作为测试集。以模型的平均相对误差作为评价指标：

图2 基于MIC参数选择的预测模型流程Fig.2 Predictive model flow based on MIC parameter selection

表1 各工序工艺参数数量Table 1 Number of process parameters in each process

式中：d为质量指标数量；Ntest为测试集的样本数量；为样本实际值；为模型预测值。

3.1 不同MIC阈值下模型预测结果

图3所示为利用本文提出方法计算各个工艺参数与质量指标之间的MIC结果的分布情况。从图3可以看出：与机械性能指标之间的MIC在0.2以下的工艺参数数量很大，这种情况下会对机械性能预测模型造成不良影响。

图3 各个变量与机械性能之间的MIC分布Fig.3 Distribution of MIC between individual variables and mechanical properties

采用2.2节中提出的预测模型以0.1，0.2，…，0.7 为阈值来划分特征子集，表2所示为获得的不同MIC阈值下特征子集所包含的特征数量。

表2 不同MIC阈值下特征子集的特征数量Table 2 Number of features of feature subsets under different MIC thresholds 个

图4所示为采用MSVR 模型在不同MIC 阈值下特征子集预测效果的平均相对误差，其中MIC阈值为0的特征子集代表原始特征集。从图4可以看出：当MIC 阈值为0.2 时，平均相对误差最小。图5所示为针对每项具体的机械性能指标的平均绝对误差。

图4 各子集的特征数量和平均相对误差Fig.4 Number of features and mean relative error of each subset

图5 各子集的机械性能平均绝对误差Fig.5 Mean absolute error of mechanical properties of each subset

从图4和图5可知：用工艺参数与机械性能指标之间的MIC 来判定相关程度进行特征选择，对单个输出维度以及整体的预测效果有明显的影响。将平均相对误差作为模型的评价指标，MIC 阈值为0.2时特征子集的下屈服强度、抗拉强度以及整体的平均相对误差最小。

3.2 与其他属性选择方法对比

为了对比最大互信息系数方法选择的最优子集更能合理地用于冷轧产品的机械性能预测模型，选用Pearson 相关系数进行选择的特征子集以及基于传统机理和经验所选择的传统子集进行对比试验。

Pearson 相关系数是一种比较经典的相关性度量方法。与MIC 的特征子集选择过程一样，它通过不同的阈值范围来划分不同的特征子集，表3所示为得到的不同Pearson 相关系数阈值下特征子集的构成。

图6所示为利用与2.2 节的模型进行预测得出不同阈值下得到的特征子集所得到的平均相对误差。

表3 不同Pearson相关系数阈值下特征子集的特征数量Table 3 Number of features of feature subsets under different Pearson correlation coefficient thresholds 个

图6 Pearson系数选择子集的特征数量和平均相对误差Fig.6 Number of features and MRE error of each subset selected by Pearson coefficient

在模型最优时，通过Pearson 相关系数作为相关性度量对冷轧产品的工艺参数进行特征选择，找出了71 个与机械性能指标有线性相关的工艺参数。表5所示为以该特征子集建立的回归预测模型精度与最大互信息系数的最优子集以及基于经验知识选择的工艺参数子集的结果对比。

从表5可以看出：与Pearson 和经验知识方法相比，MIC方法可以获得更准确的预测结果。

表4 经验知识子集中各工序工艺参数数量Table 4 Number of process parameters in each process of experience knowledge subset

3.3 基于MIC方法发现的非线性影响关系

Pearson 相关系数法对于变量之间的非线性关系不能很好识别，而MIC 方法能够找出与机械性能指标之间非线性关联的工艺参数，对比MIC 和Pearson 方法选择出来的特征子集，可以发现通过MIC 方法获得的特征子集中还含有许多非线性关系的变量是Pearson 方法不能找出的。例如，原料成分工艺参数中的“Cu”被MIC 方法选中而被Pearson 方法排除，它与3 个机械性能指标之间的关联程度通过MIC 方法和Pearson 方法的计算值，如图7所示。

图7 工艺参数Cu的计算结果Fig.7 Calculation results of process parameter Cu

表5 3种方法下模型的预测结果Table 5 Prediction results of models under three methods %

铜元素能够提高奥氏体稳定性，强化铁素体，对机械性能有影响，但过量的铜元素还会导致钢具有热脆性，通过MIC方法识别出工艺参数“Cu”和机械性能之间的非线性关系使特征子集能更有效提高模型的预测质量。

图8所示为工艺参数酸洗槽酸质量浓度的计算结果。从图8可知：变量“酸洗槽酸质量浓度”在MIC 和Pearson 下的计算值差异明显，其与屈服强度、抗拉强度和伸长率的MIC 下的计算值分别为0.605，0.369 和0.280，其Pearson 下的计算值分别为0.149，0.098和0.148。图9所示为酸洗槽酸质量浓度与3个机械性能指标之间的散点图。

图8 工艺参数酸洗槽酸质量浓度的计算结果Fig.8 Calculation results of process parameter acid mass concentration of pickling tank

图9 酸洗槽酸质量浓度与机械性能的散点图Fig.9 Scatter plot of acid mass concentration and mechanical properties in pickling tank

从图9可以看出：酸洗槽酸质量浓度与机械性能指标之间存在着非线性的相关性，这一关系却并没有被Pearson选择出来。将它从MIC方法选择出来的最优特征子集中剔除后，模型的预测精度下降，尤其对于酸洗槽酸质量浓度在区间[118，137]g/L 的部分，整体平均相对误差从剔除前的2.31%上升到3.90%。

通过这些基于实际生产数据的实验表明，最大互信息系数能够识别与机械性能相关性较大的线性及非线性相关的工艺参数，通过最大互信息系数选择出的最优特征子集使得预测模型的精度更好。

4 结论

1）提出的基于最大互信息系数选择冷轧产品机械性能预测建模过程中工艺参数特征子集的方法可有效解决面对大量工艺参数特征建模时如何进行属性特征选择的问题。

2）采用最大互信息系数作为相关性度量进行特征选择，能够更有效地辨识冷轧产品的各个生产过程中与其机械性能指标之间存在的线性及非线性相关的工艺参数。

3）最大互信息系数获得的最优特征子集使回归模型具有更高的预测精度：冷轧产品机械性能预测模型的平均相对误差从使用原始数据集作为输入的2.90%下降到了2.30%。