王荥 卓亮 何林洋 谢正全 张晖
摘要:烟草制丝过程中烟丝的加水量对制丝质量起着重要的作用,而影响加水量的因素众多。为了定量研究各影响因素对生丝水分的影响程度,通过对绵阳卷烟厂生丝水分历史数据,运用多种机器学习树模型算法进行学习,并对结果进行对比分析。分析结果表明,不同模型所获得的预测精度存在差别,在现有数据上极端梯度提升树获得了最高的预测精度。通过极端梯度提升树模型计算了各影响因素对生丝水分的影响程度。
关键词: 生丝水分;极端梯度提升树;机器学习;树模型;特征重要性
中图分类号:TP181 文献标识码:A
文章编号:1009-3044(2022)04-0010-02
烟丝含水率是卷烟生产过程中最重要的质量参数之一,只有含水率在正常范围内的烟丝才允许包装出厂。制丝过程中水分主要由润叶加料工序和烘丝工序决定,烘丝工序需要润叶加料工序生丝含水率在规定范围内的同时稳定一致,才能精确控制烘丝的时间和强度,生产出合格的烟丝,因此润叶加料工序加水量对生丝含水率影响极大[1-3]。目前生丝润叶加料工段总加水量的控制通常采用人工方式根据经验进行调控,由于多班制的影响,难免因为班与班、人与人之间判定和操作不一致,以及外部环境不稳定性导致生丝含水率不佳的情况发生。而影响生丝水分的因素较多,包含储叶温湿度,加水量等可控因素和外部天气情况、储叶时间等不可控因素,人工调控润叶加料工段总加水量高度依赖操作工个人经验,存在一定难度,缺乏稳定性与精确性,并且不能快速应对外部环境的变化。本文采用绵阳卷烟厂制造执行系统(Manufacturing Execution System,MES)系统中提取的近三年生丝水分数据采用机器学习方法进行模型构建,将不同模型的预测结果与实际数据进行对比,进而确定影响生丝水分的因素。
机器学习是从数据中发现知识的技术,近年来由于其在图像识别、语音识别上的进展而广受关注。对已标注的数据,根據标记是数值型数据或离散型数据分为回归和分类算法。本研究的主要目标是对润叶加料工段总加水量这一数值型数据进行预测和分析,采用回归算法。常用的回归算法有线性回归、支持向量回归、深度回归、基于树的回归算法等。本项目不仅需要获得较高的预测精度,同时也需要对预测的结果进行评估,需要模型具有可解释性。因此,本项目选择回归树算法来建立模型,对润叶加料工段总加水量进行预测。回归树的另一个优点是可以在高精度预测的同时,获得特征对结果的重要性影响程度,从而帮助理解各影响因素的影响程度。
1 相关工作
由于生丝水分预测和控制对烟丝质量影响的重要性,目前已经有卷烟生产企业开展了生丝水分影响因素分析工作。金发岗等对制丝生产过程数据通过随机森林进行特征选择,使用差分进化优化的极限学习机进行含水率预测 [2]。李自娟等采用神经网络和多元回归模型建立烘丝出口水分预测模型[3]。钟文焱等采用Pearson相关分析的方法,确定烘丝机入口含水率的主要影响因素,并用神经网络算法和多元回归分析方法建立含水率预测模型,保障制丝过程中烘丝机入口含水率的稳定性[4]。刘穗君等对松散回潮数据通过回归分析建立统计模型,并通过自适应学习进行含水率精确控制[5]。何毅等采用梯度提升树对烟草回潮机出料含水率进行了预测[6]。
这些研究工作表明,烘丝的出口水分主要受入口水分影响,因此控制好生丝的水分对最终制成烟丝质量影响重大。由于生丝需要在仓库中存储4小时~36小时才检测出口水分,本质上生丝水分控制系统属于大滞后控制系统,而大滞后系统的控制对控制界来讲一直是一个难题。传统的大滞后控制采用斯密斯预估,其缺点是需要控制对象的精确数学模型,而对生丝水分控制系统来讲,其影响因素太多,很难建立精确数学模型。各烟厂开展的相关工作主要采用各种统计方法找到自变量和因变量的线性模型,或是采用神经网络建立预测模型。与本文最相似的工作是文献[2]和文献[6],他们也采用树模型来对生丝水分进行预测,本文与他们最重要的区别是本文采用了包括随机森林、梯度提升树在内的多种树学习模型并对预测精度进行了比较,在此基础上确定了精度最高的模型,并用其进行特征分析。
2 数据预处理
2.1 数据介绍
本文数据来自从MES系统中提取的四川中烟工业有限责任公司绵阳卷烟厂“利群(新版)”牌号烟叶2017年6月至2020年5月生丝水分历史数据。三年总共有近6000条(一批次为一条)生丝水分历史数据,共186个维度,主要包括松散回潮、润叶加料、Sirox增温增湿、烘丝、掺配加香五个生产环节。本项目考虑烘丝前的水分预测,所以只选用了松散回潮、润叶加料、Sirox增温增湿三个环节的数据,具体属性如图1所示。
其中多个数据存在子属性未包括在图1中,分别为均值、标准偏差(Standard Deviation, SD)、过程能力指数(Process Capability Index,CPK)、合格率四个子属性,为了数据分析的方便性,本文只采用各属性的均值进行计算。模型预测值为润叶加料工段的累积加水量。
2.2 数据预处理算法
生丝水分原始数据存在部分数据记录缺失(如润叶加料工段的贮叶时间等属性的数据未存入数据库),每批次数据也存在部分缺漏,同时数据表里部分特征对生丝水分加水量无影响。所以在数据预处理过程中,先合并所有批次的数据,并对有缺失属性的数据项进行了删除。处理后的数据包括25个维度,它们是:“松散回潮皮带秤实时流量均值”“松散回潮出口水分均值”“松散回潮出口温度均值”“松散回潮回风温度均值”“润叶加料皮带秤实时流量均值”“润叶加料入口水分均值”“润叶加料出口水分均值”“润叶加料出口温度均值”“润叶加料料液实时流量均值”“润叶加料累计加料量”“润叶加料料液温度均值”“润叶加料瞬时精度均值”“润叶加料累计精度”“Sirox增温增湿皮带秤实时流量均值”“Sirox入口水分均值”“Sirox入口水分SD”“Sirox蒸汽薄膜阀开度均值”“Sirox蒸汽减压阀后压力均值”“Sirox出口温度均值”“整丝率”“碎丝率”“填充值”“纯净度”“储叶房温度”“储叶房湿度”。
2.3数据标准化
由于数据特征量级、量纲均不一致,而不一致的量纲对机器学习算法具有较大影响,需要对特征数量级进行归一化。笔者使用的归一化计算公式如式(1)所示。
x=(x-maxx)/(maxx-minx) (1)
归一化后所有数据被缩放至0~1区间,再输入到算法模型中进行学习预测。
3 特征选择
3.1 模型选择
将数据集按9:1比例随机分为训练集和测试集,训练集用来训练模型,测试集用来评估训练好的模型。将训练集输入给不同算法进行训练,通过网格搜索和交叉验证寻找机器学习模型的最优参数,网格搜索用于系统遍历多种参数组合,其目的是搜寻模型中的最优超参数,再通过交叉验证确定最佳参数。
本文分别采用了回归树(Classification And Regression Trees, CART)[7]、梯度提升决策树(Gradient Boosting Decision Tree,GBDT)[8]、随机森林[9]、极端梯度提升树(Extreme Gradient Boosting, XGBoost)[10]、Lightgbm[11]、Catboost[12] 六种基于树的回归算法建模,对比预测精度,选取精度最高的模型。
各模型在测试集上预测精度结果如表1所示。从表1可以看出,在六种树模型中,XGBoost的精度最高,因此笔者选择Xgboost来具体分析特征间的关系。
3.2 特征重要性分析
使用XGboost计算出的特性影响权重如图2所示。从图2可以看出,润叶加料入口水分均值的特征影响权重占比超过45%,仍占主要影响地位;储叶房温湿度、润叶加料出口水分、松散回潮出口水分、松散回潮出口温度和松散回潮累计加水量的特征影响权重占比占据重要影响地位。
4 结论
为掌握制丝工序中各影响因素对生丝水分的影响情况,本文对数据进行了预处理并筛选特征,通过使用回归树、GBDT、随机森林、XGBoost、Lightgbm、Catboost多种常用树学习模型对历史数据的预测精度进行研究。通过对比选取的六个树模型预测精度,选取精度最高的Xgboost作为本项目研究模型。
通过特征重要性计算和特征相关性分析,可以知道润叶加料入口水分均值对总加水量影响最大,润叶加料出口水分均值占据重要影响,润叶加料累计加料量、润叶加料皮带秤累计值、松散回潮皮带秤累计值、润叶加料瞬时精度均值、润叶加料出口水分、松散回潮出口水分和松散回潮出口温度分别占据较为重要的影响。
参考文献:
[1] 范羿,王锡莹,何晓莹,等.烟丝风送过程含水率变化趋势研究[J].云南化工,2020,47(8):74-76.
[2] 金发岗,王雅琳,张鹏程,等.随机森林和DE-ELM的烘丝机入口含水率预测[J].控制工程,2020,27(3):532-539.
[3] 李自娟,刘博,高杨,等.卷烟制丝环节关键工序水分预测模型的建立与检验[J].食品與机械,2020,36(10):190-195,205.
[4] 钟文焱,陈晓杜,马庆文,等.基于多因素分析的烘丝机入口含水率预测模型的建立与应用[J].烟草科技,2015,48(5):67-73.
[5] 刘穗君,王玉芳,李超,等.基于统计回归分析的松散回潮出口含水率精准控制系统[J].烟草科技,2017,50(3):88-93.
[6] 何毅,李斌,普轶,等.基于梯度提升树的烟草回潮机出料含水率预测[J].软件,2020,41(6):151-157.
[7] 1Breiman L, Friedman J H, Olshen R A, et al. Classification and Regression Trees[M]. Monterey, CA: Wadsworth & Brooks/Cole Advanced Books & Software, 1984.
[8] Friedman J H.Greedy function approximation:a gradient boosting machine[J].The Annals of Statistics,2001,29(5):1189-1232.
[9] Breiman L. Random forests[J]. Machine learning, 2001, 45(1): 5-32.
[10] Chen T Q,Guestrin C.XGBoost:a scalable tree boosting system[C]//KDD '16:Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.2016:785-794.
[11] Ke G, Meng Q, Finley T, et al. Lightgbm: A highly efficient gradient boosting decision tree[C]. Advances in neural information processing systems, 2017 : 3146- 3154.
[12] Dorogush A V,Ershov V,Gulin A.CatBoost:gradient boosting with categorical features support[J]. arXiv preprint arXiv:2018:1810-11363.
收稿日期:2021-10-15
基金项目:四川中烟工业科研项目“基于数据相关性分析的生丝水分控制智能决策系统”(202005)
作者简介: 王荥(1986—),女,四川乐山人,工程师,本科,主要研究方向为工业自动化及智能制造;卓亮(1984—),男,四川绵阳人,工程师,硕士,主要研究方向为工业自动化;何林洋(1985—),男,四川绵阳人,工程师,本科,主要研究方向为工业自动化及仪器仪表;谢正全(1977—),男,吉林德惠人,工程师,硕士,主要研究方向为软件工程;张晖(1972—),男,安徽宿松人,教授, 博士,主要研究方向为大数据技术。