烟草制造过程中工艺管控大数据的运用前景初探

2017-02-17 17:24袁湘云李达葛文许仁杰袁鹏崔宇翔
中国管理信息化 2017年2期
关键词:数据质量自适应数据挖掘

袁湘云+李达+葛文+许仁杰+袁鹏+崔宇翔+李立刚+陈珍

[摘 要]本文通过分析大数据时代对烟草行业的影响,以烟草制造过程中大数据工艺管控和常规数理统计工艺管控的差异分析为切入点,从预测精度对比、数据挖掘能力对比、自适应能力对比、数据质量分析能力对比四个维度,充分说明了大数据分析相比常规数理统计分析在烟草行业制造过程中工艺管控的优势,表明大数据技术是今后烟草制造过程中工艺管控提升的一种有效手段,并为其今后的发展奠定了基础。

[关键词]大数据;预测精度;数据挖掘;自适应;数据质量

doi:10.3969/j.issn.1673 - 0194.2017.02.031

[中图分类号]F273 [文献标识码]A [文章编号]1673-0194(2017)02-00-07

1 大数据时代对烟草行业的影响

大数据应用于烟草信息研发,能使烟草行业充分了解、及时掌握当今世界的烟草信息,有效调整烟草战略、市场决策,使行业立于不败之地。

凌成兴在2014年全国烟草工作会议上提出烟草行业要深入思考、积极谋划、努力实践“三大课题”,即深入思考、积极谋划、努力实践改革的红利在哪里?发展的潜力在哪里?追赶的目标在哪里?这是我国烟草行业今后一段时期内努力发展的方向和奋斗的目标。

烟草企业借助大数据研发应用的分析,可以随时掌握世界新的烟草信息,捕捉其技术要领,了解其发展的先进性与适应性,并为我所用,从而可以积极有效地推动我国烟草行业的发展,促进“三大课题”的努力实践和圆满成功,为我国烟草行业快速、高效地发展提供坚实的信息技术后盾,奠定快速、高效发展的坚实基础。第一,它可以进一步优化烟草市场的资源配置,建立统一开放、竞争有序的市场体系,创造和释放烟草改革的红利空间。因为大数据的研发应用本身就是一次全新的信息技术改革。第二,它能不断地挖掘结构调整、国际市场、货币资金保值增值所蕴藏的发展潜能,努力实现烟草“十三五”的奋斗目标。第三,它能早日实现我国追赶烟草跨国公司前三名、烟机制造公司的“排头兵”、原材料与辅助材料生产的大集团的新目標、新理想、新要求,实现中国烟草行业进入新的发展格局的目标。

大数据的应用分析,是当今信息时代又一次全新的、更高的、更庞大的与更复杂的信息化技术革命。它对提高现代经济分析能力和管理水平、提高一个行业或一个单位的准确决策和经济实力的能力,有着不可估量的积极作用,蕴藏着巨大的潜力和能量。

2 烟草制造过程中大数据工艺管控和常规数理统计工艺管控的差异分析

现阶段行业内卷烟厂工艺管控主要以常规数理统计算法为主,辅助以信息化的手段实现预警控制。例如上海卷烟厂通过加入SPC对应的判异准则,固化至信息化系统中,创新地提出了SPCD的管控方法。青岛卷烟厂通过将6 sigma分析的指标权重纳入信息化实时预警管控分析,创新性地提出了卷烟制造过程能力信息化预警分析的管控方法。迄今为止,烟草行业内还没有卷烟厂实现了以大数据算法为核心的工艺管控实例,即通过大数据分析方法全面补充和完善常规数理统计的短板,实现工艺智能化管控水平的螺旋式上升。本文将从四个方面对大数据分析与常规数理统计在工艺管控层面的差异进行对比,旨在全面凸显大数据分析的优势,进而对烟草制造过程中信息化工艺管控的前景进行探索。

2.1 预测精度对比

大数据预测有别于常规数理统计的回归分析,常规数理统计的回归分析是建立在数据均满足正态性和样本独立性两个条件为前提的,同时在回归过程中要通过逐步回归剔除对应的异常点,方能进行回归算法的计算。而大数据预测则无需这些条件的限制,可直接根据特征样本进行训练,直接得出对应的预测结果。

2.1.1 常规数理统计分析

以某卷烟厂烘丝出口水分为例进行说明。

对影响烘丝出口水分对应的过程参数建立对应的回归方程表如表1所示。

由图1可以看出,叶丝冷却出料含水率的四合一残差图以及各自变量残差图分布均匀,满足齐次、正态等特点。

根据回归方程对测试集数据进行预测,如表4所示。

将预测值与真实值进行偏差计算,如表5所示。

2.1.2 大数据分析

首先,对影响烘丝出口水分对应的过程参数建立随机树模型,如图2所示。

从图2中可以看出,参数4离线程度最大,因此参数4重要度最高,根据离线度得出其参数重要性排序为参数4(叶丝干燥出料含水率)>参数1(叶丝干燥Ⅰ区筒壁温度)>参数2(叶丝干燥Ⅱ区筒壁温度)>参数3(叶丝干燥热风温度)>参数5(叶丝干燥出料温度)。

再进行决策树分析,根据决策树得出如下对应的过程参数与关键质量特性二叉树(如图3所示)。

然后根据随机树运算结果进行预测,如表6所示。

最后将预测值与真实值进行偏差计算,如表7所示。

2.1.3 大数据分析与常规数理统计预测精度对比

大数据分析与常规数理统计预测精度对比,如图4所示。

通过绘制时间序列图,将常规梳理统计预测值、大数据预测值分别与真实值进行偏差对比,可以看出,大数据预测精度远大于常规梳理统计的预测精度。

2.2 数据挖掘能力对比

常规数理统计需要挖掘数据隐含的信息,需要借助相应的现场分析为手段,例如需分析出结果指标的异常是因为哪类过程指标异常导致的。其需要建立各级过程指标对结果指标的影响程度,其次在结果指标异常时通过现场人员从影响程度高的指标进行逐一排查。而大数据分析可直接通过结果指标的允许范围得出各级过程指标的取值范围,自动进行预测分析并得出对应的结论。

2.2.1 常规数理统计分析

以某卷烟厂加料出口水分为例进行说明。

第一步:计算各级参数的Pearson系数,形成对应的Pearson矩阵,如表8、表9所示。

第二步:将各级参数的R值进行排列。

由以上的Pearson矩阵可以得出,各级参数与结果指标P值均小于0.05,表明各级参数均与结果指标相关,并得出各级参数的相关性R值大小,如表10所示。

绘制出如图5的饼图。

2.2.2 大数据分析

第一步:通过决策树形成重要度排列图,如图6所示。

第二步:通过神经网络求出结果指标对应的过程指标的相应范围。

基于结果指标的望目特性(中心值是18.20%)的允差上下限为[17.20%,19.20%],运用大数据预测技术得出各级过程参数对应的有效取值范围。

运用R语言分析,一级加料入口含水率预测有效范围如图7所示。

通过大数据预测结果可以看出,为保证一级加料出口含水率满足标准,一级加料入口含水率有效取值范围应为[16.07%,16.75%]。

运用R语言分析,一级加料工艺热风温度预测范围如图8所示。

通过大数据预测结果可以看出,为保证一级加料出口含水率满足标准,一级加料工艺热风温度有效取值范围应为[52.06%,51.90%]。

运用R语言分析,一级加料蒸汽自动阀门开度预测有效范围如图9所示。

通过大数据预测结果可以看出,为保证一级加料出口含水率满足标准,一级加料蒸汽自动阀门开度有效取值范围应为[51.70%,53.63%]。

运用R语言分析,一级加料出料温度预测有效范围如图10所示。

通过大数据预测结果可以看出,为保证一级加料出口含水率满足标准,一级加料出料温度有效取值范围应为[51.27℃,53.59℃]。

运用R语言分析,一级加料工艺流量预测有效范围如图11所示。

通过大数据预测结果可以看出,为保证一级加料出口含水率满足标准,一级加料工艺流量有效取值范围应为[2 946kg/h,3 000kg/h]。

小结:通过对比大数据分析和常规梳理统计分析,可以看出,大数据能够实现通过结果指标的取值范围挖掘出过程指标的取值范围。而常规梳理统计只能做到重要度的排序,因此,大数据分析对应的数据挖掘能力远大于常规数理统计分析对应的数据挖掘能力。

2.3 自适应能力对比

常规数理统计不具备自适应的算法,所谓的自适应算法,是指处理和分析过程中,能够根据被处理数据的数据特征自动调整处理方法、处理顺序、处理参数、边界条件或约束条件,使其与所处理数据的统计分布特征、结构特征相适应,以取得最佳的处理效果。

大数据分析由于加载了自适应分析模块,通过加载机器自学习算法,能够实现“松耦合、高扩展、低成本”的柔性化控制,即能够通过机器自学习自动根据数据特性的变化得出对应的新的控制标准,避免了卷烟厂的重复、不必要的投资,实现系统由原先的“封闭式”转变为“自我更新,自我优化”,提升系统的竞争力。图12为自适应分析算法流程图。

第一步:加載自适应算法

能够加载自适应算法,按照自适应模型进行机器自学习,确保其能不断满足生产的实际情况。

第二步:根据数据质量特性运用机器自学习形成新的标准

以松散回潮出口水分为例,其2015年和2016年通过机器自学习得出控制标准,运用R语言分析,得出结果,如图13所示。

图13 松散回潮出口水分标准自适应结果

从机器自学算法可以看出,2015年松散回潮出料含水率标准为[15.41%,18.32%],而2016年松散回潮出料含水率标准自适应变更为[14.30%,17.29%]。

2.4 数据质量分析能力对比

常规数理统计无法通过对应的方法实现对数据真实性、完整性、及时性与是否进行加载的平滑算法进行验证。需要从别的角度进行分析和验证。例如需要从底层PLC程序、上位WINCC程序进行解读才能知道是否加载了平滑算法。对数采点时间是否对应进行数据及时性的分析。大数据分析由于集成了拟合分布、AdaBoost、延迟有效性判断等算法,可实现数据真实性、完整性、及时性与是否采用平滑算法进行全面的分析和判断。

数据真实性判断:数据真实性判断通过拟合分布来实现。通过自适应建立各关键工序对应的拟合分布情况,进行拟合分布检验,当检验结果存在显著差异时,其数据的真实性就有待质疑。

数据完整性判断:数据完整性判断通过AdaBoost管控来实现。以历史数据为依据,建立以来料重量为依据的数采样本量预测区间,当实际数采样本数据量不在置信区间时,其数据的完整性就有待质疑。

数据及时性判断:数据及时性判断通过延迟判断有效性来实现。以历史数据为依据,建立各关键工序的数采延迟库,进行单样本T检验,当检验结果存在显著差异时,其数据的及时性就有待质疑。

数据是否采用平滑算法判断:建立数据质量验证功能库,加载多种算法,对数据是否采用平滑算法进行验证,通过以下两种方法根据实际情况进行筛选,得出数据质量验证可信度。

第一种对每种算法加载不同的权重,采用加权的方式得出最终的可信度得分。

第二种对某种基本算法加入一票否决项,当某种算法无法通过时,则直接将数据可信度置为0。其他算法无法通过时,采用扣分的形式得出最终的可信度得分。

当可信度低时,则认为数据可能存在平滑处理的可能。

以数据真实判断为示例进行说明,进而说明大数据的数据质量分析能力。

以某烟厂制丝烘丝工序为例进行演示。

通过大数据进行拟合优度检验。

伽马分布判断,如图14所示。

由图14可知,数据归集不全聚类于伽马分布的线性要求,因此数据特性分布不满足伽马分布。

对数正态分布判断,如图15所示。

由图15可知,数据归集聚类于对数正态分布的线性要求,因此数据特性分布满足对数正态分布。

Weibull(威布尔)分布判断,如图16所示。

由图16可知,数据归集不全聚类于Weibull分布的线性要求,因此数据特性分布不满足Weibull分布。

正态分布判断,如图17所示。

由图17可知,数据归集不全聚类于正态分布的线性要求,因此数据特性分布不满足正态分布。

通过检验可以看出,其烘丝出口水分历史数据满足对数正态分布。

通过对实际某批次烘丝出口水分进行分析,情况如图18所示。

由圖18可知,数据归集聚类于正态分布的线性要求,因此数据特性分布满足正态分布。与历史数据的分布不同(传统数据服从对数正态分布),因此判断其数据的真实性有待商榷。

3 大数据技术在烟草制造过程中工艺管控的运用前景

大数据技术在烟草制造过程中工艺管控的运用前景可概括为以下3点。

3.1 可实现工艺管控“三级联动”的智能诊断分析

运用大数据技术,建立生产技术标准执行力的三级联动诊断机制,形成标准执行力评价与结果指标评价相结合的纽带,当结果指标异常时能智能诊断出是哪个过程指标异常导致的,这是一级诊断。除了分析过程指标以外,还能针对“5M1E”(人、机、料、法、环、测)保障因素进行联动诊断分析,深入挖掘原因,这是第二级诊断。在找到原因后,还能通过专家库自动发送对应的解决方案,这是第三级诊断。通过三级诊断分析全面建立一个包含“发现问题、分析问题、解决问题”的智能化PDCA循环,全面提升工艺管控智能化的管控水平。

3.2 可实现智能化料头与料尾的自动截取

运用大数据技术,以历史数据为依据,通过对历史数据的分布运用聚类分析方法,将数据值区分为待机值、临界值、稳态值三类,同时结合差分方法,更为准确地判断料头与料尾的位置,进一步实现非稳态数据的智能筛选。

例如,通过对一段时间内“叶丝干燥出料含水率”的生产数采数据进行聚类分析,分类结果如图19所示,第一类为稳态数据,第二类为料头料尾数据,第三类为待机数据。

根据以上分析,加载对应的自适应算法,即可实现对所有批次的智能化料头与料尾的自动截取功能。

3.3 可实现生产技术标准适用性自适应分析

运用大数据技术,能够根据大数据的方法对关键质量特性的相关性进行实时更新,并与生产技术的标准进行全面对比,提供生产技术标准适用性分析结果,如图20所示。

能够根据大数据随机森林(树)的方法对关键质量特性的重要度(当需要处理的数据庞大和实时性要求较高时,普通随机树建模过程耗时长,因此在部署“云”平台的稚嫩诊断模型时,在随机树建模过程中加入了数据集特征提取)进行实时更新,通过与生产技术标准实时对比:①若关键质量特性与生产技术标准一致,则运行生产技术标准执行力自适应分析功能;②若关键质量特性与生产技术标准出现不一致的情况,则选择一定周期内稳态数据运行关键质量特性自适应相关性拟合分析,形成生产技术标准执行力自适应分析结果,为生产技术标准的变更或换版提供数据支撑。

4 结 语

通过以上运用前景的初探,充分说明了大数据在烟草制造过程工艺管控发展前景较为广阔,相信不久的将来,基于大数据分析的烟草制造过程中工艺管控的卷烟厂数量也将大幅提升,大数据技术将帮助卷烟厂的工艺控制水平实现螺旋式上升。

注:李达,通讯作者

主要参考文献

[1]闫磊.烟草行业分销管理系统[D].济南:山东大学 2008.

[2]段永光.中国烟草工业兼并重组绩效研究[D].长沙:中南大学,2008.

[3]罗民军.株洲市烟草公司财务管理模式优化研究[D].长沙:中南大学,2008.

[4]李民灯.HH市烟草公司人力资源管理体系诊断与优化研究[D]. 长沙:中南大学,2008.

[5]刘兆茜.企业信息化评价指标体系研究与应用[D].上海:复旦大学,2008.

[6]梁忠伟.制度变迁视角下的我国烟草专卖制改革[D].广州:暨南大学, 2008.

[7]陈军.上海烟草集团公司生产计划管理发展探讨[D].上海:复旦大学, 2008.

[8]徐英杰.制造业企业信息化评价研究[D].沈阳:沈阳工业大学,2008.

[9]王敏.我国烟草集团公司资金集中管理模式研究[D].青岛:中国海洋大学,2007.

猜你喜欢
数据质量自适应数据挖掘
探讨人工智能与数据挖掘发展趋势
基于并行计算的大数据挖掘在电网中的应用
自适应的智能搬运路径规划算法
浅析统计数据质量
金融统计数据质量管理的国际借鉴与中国实践
浅谈统计数据质量控制
Ka频段卫星通信自适应抗雨衰控制系统设计
电子节气门非线性控制策略
多天线波束成形的MIMO-OFDM跨层自适应资源分配
一种基于Hadoop的大数据挖掘云服务及应用