黄国樑 张荪毅 樊盛炯 谭衍冬 叶 盛
(上海烟草集团有限责任公司,上海 200082)
风选后烟丝的填充值水平一直是影响后续卷接包质量的重要关联指标,与烟丝的填充、烟支空头、吸阻等物测指标存在显著的相关性。对此笔者针对上海卷烟厂中华专线81#的风选后烟丝填充值进行了专题研究。
该文主要介绍了烟丝填充值稳定性控制模式中的特征降维、层级关联性数据的分析手法。数据降维是将原来较多的特征重新计算组合,从而形成少量新特征的过程。将特征降维和聚类挖掘技术应用于“烟丝填充值稳定性控制模式”的关键指标特征甄选上,其目的是以尽可能用可视化的呈现方式,快速发现特征参数间的内部关联性与因果关系,方便用户后期对各层级指标组织树的快速钻取;关联性分析是在大规模数据中集中寻找数据间的关联性。数据间的这些联系可以看作为两种抽象主体之间的递进关系,其中前者是后者的抽象基础,代表了共现关系的频繁项集。频繁项集是经常出现在一处的物品的集合,它暗示了某些事物之间总是结伴或成对出现的现象。
该文选取上海卷烟厂中华专线81#内从制叶预处理段至烟丝风选段内2021年3月—10月为期半年的制丝批次参数数据。收集81#厂内工序段对应的该时间段内的环境温湿度检测点原始数据。获取81#风选出口烟丝批次检测填充值质检数据。
该文根据每个批次的相应工序的生产时间,统计对应时间段内的多位点的环境温、湿度原始数据,利用加权平均的方法进行统计整理,得出对应批次的松散段温度、松散段湿度、加料段温度、加料段湿度、烘丝前温度、烘丝前湿度的数据;针对数据样本中存在的缺失值,应用参数数据均值填补的方法进行数据填补;选取研究对象填充值进行偏度分析,结果显示呈现偏右分布;于是采用BOX-COX变换转化为正态分布。采用Z-score标准化方法对整体数据样本进行参数标准化,并剔除相对异常范围以外的数据点。
该文将81#预处理段至风选段的所有质量参数进行工序归位和性质分类,分类规则为各类别内参数可以交叉出现,共分为蒸汽、温度、水分、风度、气压、流量六个特征大类(即六大簇),以便为后续因子分析和降维分析做准备。
通过分析计算蒸汽簇、温度簇等六大簇内所有参数之间的相关系数,并对相关系数进行排序、筛选后发现,其中21个蒸汽系列参数之间的相关性较强,于是便将此21个参数作为后续因子特征降维的参数研究范围。然后对参数簇进行KMO检验和巴特利球形检验(Bartlett's test),以验证数据用于因子分析的有效性。该文以温度簇作为示例,见表1。
表1 KMO检验和巴特利球形检验数值表
其中KMO检验和巴特利球形检验值达到79.4%线性相关,即大于50%,说明了变量间的相关程度无太大差异,验证了数据用于因子分析是有效的。
对于2.1节经类别参数相关性分析后筛选出的相关性较强的21个具体参数名目,该文仅认为这21个参数具有较高的代表性质,但是它们之间的交互作用、具体工段位置和参数效应是混乱且不一致的。为了便于后续分析,参数需要进一步精简。
因此笔者采用数据压缩方法,利用因子分析计算出了21个参数的公因子贡献率以及相应公因子数对应的累计贡献率等数值。该21个参数的因子贡献率与累计贡献率分别为31.63%、31.63%;13.75%、45.37%;10.73%、56.10%;7.16%、63.27%;6.85%、70.12%;5.28%、75.40%;5.00%、80.39%;3.86%、84.25%;3.58%、87.83%;2.72%、90.55%;2.55%、93.10%;2.48%、95.58%;1.46%、97.04%;0.81%、97.85%;0.61%、98.46%;0.47%、98.93%;0.40%、99.33%;0.28%、99.62%;0.16%、99.78%;0.14%、99.91%;0.09%、100.00%。
根据该计算数据,可提取前6个公因子代表该21个参数75%的信息。但是由于因子间相关性较低,在数据压缩时对其提取度有可能达不到60%,因此该文需要进一步计算因子载荷矩阵数值,为接下来的参数降维提供依据。
通过对因子载荷矩阵数据进行偏维度分类,并按照计算出来的因子载荷矩阵数值的绝对值大小,该文最终将蒸汽簇内21个参数压缩至四个维度的四小参数簇,依次命名为叶丝增温增湿(HT)蒸汽(HT蒸汽压力A、B,HT蒸汽阀门开度A、B,蒸汽温度A、B和蒸汽流量A、B)、加料HT蒸汽(二次加料机HT蒸汽压力、蒸汽温度和蒸汽流量)、加料筒蒸汽(二次加料机筒壁蒸汽温度、加蒸汽流量体积和进滚筒散热器薄膜阀阀门开度)和加料助喷蒸汽(二次加料机加料助喷蒸汽压力)。其他五大参数簇均按照类似该数据压缩方式进行压缩,最终形成烟丝填充性能-六大参数簇(一级性能指标)-二级压缩指标簇-三级底层参数指标。压缩成果如下所示:
一级性能指标为六大类:水分、风度、气压、流量、蒸汽、温度;二级压缩指标为根据六大类进行的详细划分,详情见表2。
表2 二级压缩指标
三级底层参数指标分别对应二级压缩指标,一个二级指标下对应多个三级参数指标,详细对应关系与因子相关系数见表3。
在利用特征降维和因子分析方法将81#整体参数数据进行维度降维,将蒸汽、温度、风度、气压、流量和水分作为第一维度。其次,利用因子分析方法,将各个一级维度进一步划分为二级维度自定义参数。最后,利用相关性分析建立起实际制丝工序中具体参数与二级自定义参数对应的逻辑关系,进而形成了可用于决策树模型预测的数据样本。
该文运用决策树的基尼指数 CART算法对81#整体参数与填充值进行决策树决策划分。其中CART决策树使用“基尼指数”来选择划分属性。数据集D的纯度可用基尼值来度量,如公式(1)所示。
式中:D代表为数据分析样本;k代表为序号;y为数据样
表3 三级底层参数指标与二级压缩指标的对应关系与因子相关系数
然后利用CART算法来进行81#的填充值决策,切分质量的评价准则使用均方误差(MSE),切分原则splitter使用最优切分原则(best),最大树深度选择3层。进行决策后,模型预测性能在85%以上。
在81#填充值的影响模式下,因子水平优化顺序见表4。
表4 81#填充值影响模式下的因子水平优化顺序
在输出填充值影响控制模式下的决策树决策后,依据模型推荐算法得出因子重要性排序,从低到高依次为:F61工序水分、F53功能风、F水汽压力、F21工序温度、F63加水量、F振动温度。详细排序如下所示: F61工序水分占11.31%、F53功能风占10.5%、F41水汽压力占10.4%、F21工序温度占9.06%、F63加水量占7.82%、F22振动温度占6.17%、F52风速占4.43%、F32总路流量规模占4.1%、F33加水量占3.95%、F25风温占3.83%、F31分路流量规模占3.58%、F24排潮温度占3.37%、F12综合蒸汽占3.34%、F42拔风罩压力占3.2%、F43筒气压占3.06%、F34加蒸汽量占2.85%、F62烘后水分占2.77%、F23主动温度占2.73%、F51风压占2.42%、F11分后蒸汽占1.1%。
在进行填充值决策以及因子重要性排序之后,结合表3,进行底部溯源分析,从填充值的最佳水平设置数值区间出发,根据决策树推荐决策,将一级参数、二级自定义参数全部化归到第三级工序指标,利用置信区间算法,得出在95%置信度下,因子参数对应不同填充值上、下界数值的各自应该控制的上、下界范围如表5所示。
表5 中罗列了制丝流程中可控或者间接可控参数的最佳控制区间范围,而“-”代表在对应填充性能下不做参数范围的明确要求。
后续可结合车间对风选后叶丝填充值控制标准,利用平行坐标原理将相关参数进行区间监控,做到及时预判与调整叶丝质量的趋势性偏移。
该文通过制丝流程全参数的决策模型运算,得出按照层级关系与填充性能相对应的参数控制范围。为了后续运用模型的有效性、准确性,该文采用分割测试(AB test)验证方法,选取相邻两天完全一样的生产工况与计划作为一组AB test试验,验证在中、高填充性能下,并根据模型预测的参数设置水平范围进行设置,分析最终叶丝填充性能是否有显著性差异。
由于筒壁温度是被动控制的设备参数,无法直接调节,最终的验证参数为松散回潮加水比例、松散回潮工艺气体温度、松散回潮拔风压力、松散回潮加蒸汽比例。验证试验方案见表6。
根据表6的试验方案进行AB test验证试验时,第一天正常生产,第二天调整试验参数水平设置,并保持其他参数不变,该2组试验的试验结果见表7。
对表7的2组试验结果分别进行成对双样本t检验,P≤0.05、泊松相关系数≥0.8,结果显示:1组根据模型预测的高填充性能对应的参数调整后,得到的试验填充值结果相比正常生产的对照组填充值均值有显著性地提升;2组根据中水平填充性能对应的参数调整后,得到的填充值结果相对正常生产对照组并无明显差异。
该文通过AB test验证试验,验证了利用决策预测模型得到的填充值关键参数的控制体系,可以有效、及时地调整与控制风选后烟丝填充性能的变化。
表5 因子参数对应填充值水平的填充性能
表6 验证试验方案
表7 AB test 验证结果
该文利用特征降维和决策树预测等分析方法,找寻出了影响风选后填充值稳定性的全工序参数控制体系,并且通过因子置信区间分析得出了各参数对应的控制范围,通过ABtest验证试验,验证了参数控制体系可以有效地调整、控制填充值的变化趋势,并且证明了相关的重点参数对风选后制丝质量的影响,便于生产管理人员重点监控,为保持制丝质量稳定性提供了明确的方向。