基于大数据技术的烘丝机出口水分影响因素研究

2016-03-22 21:53陆琨薛训明唐皓辰徐永虎姜华叶为
电脑知识与技术 2016年2期

陆琨 薛训明 唐皓辰 徐永虎 姜华 叶为全

摘要:众所周知,影响烘丝机出口水分的主要因素是来料流量、来料水分、滚筒温度和热风温度等,具体到这些因素的重要性排序尚无明确的研究结论。该文在系统研究的基础上了构建其数学模型,并采用多元线性回归算法、神经网络算法、决策树算法三种监督学习算法对此问题进行了系统研究,从而确定烘丝机影响因素的重要性排序。

关键词:烘丝机出口水分;因素重要性排序;多元线性回归算法;神经网络算法;决策树算法

中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2016)02-0191-03

Abstract: The moisture in the tobacco dryers outlet is affected by the quantity of materials, water content of materials, the temperature of roller and the temperature of hot wind, etc. But the order of these factors importance can not be determined. Using multiple linear regression algorithm, neural network algorithm and decision tree algorithm to train several batches of data, the difference betweenthe predicted water content near outlet and the actual water content can be compared. Then the optimum model is determined. Therefore we can determine the order of the importance of factors which affects the moisture in the dryers outlet.

Key words: the moisture in the dryers outlet; the order of the factors importance; multiple linear regression algorithm; neural network algorithm; decision tree algorithm

大数据(bigdata)挖掘已经成为当今信息技术发展的典型代表,是整个社会和企业的“新宝藏”。在烟草行业“精益管理”的浪潮中,充分利用数据分析技术,提升管理水平,是企业制胜的关键。对合肥卷烟厂来说,企业取消法人资格后,更加关注的是产品质量和制造力的提升。合肥卷烟厂从2014年开始大数据智能管理平台建设,旨在通过企业数据仓库集成所有系统数据,通过业务链数据流分析提升管理水平。烘丝机出口水分作为影响卷烟质量与感官的重要因素,是衡量企业制造能力的重要指标。本文以烘丝机出口水分的影响因素重要性排序研究为例,探讨了如何利用大数据思维和数据挖掘技术确定烘丝机出口水分影响因素的重要性排序。此研究成果对减少产品质量波动,提升产品品质有重要的指导意义。

1 影响烘丝机出口水分的因素

烘丝的主要目的是降低烟丝的含水率,并将其控制在工艺要求范围内,尽可能减少水分波动。烘丝的手法主要有气流式和薄板式两种。

合肥卷烟厂选用的是HAUNI薄板式烘丝机,该设备采用“滚筒+饱和蒸汽”方式,让烟丝在筒内薄板上均匀缓慢移动蒸发水分,同时辅以对流热风干燥,实现对烟丝含水率的精准控制[2]。

本文结合专家分析法和长期生产实践,认为影响烘丝出口水分的因素主要有:

1)来料水分:烘丝机入口烟丝流量由流量秤精准控制,在入口烟丝流量稳定的情况下,烘丝机滚筒转速、热风温度、蒸汽压力、筒壁温度等核心指标均稳定的情况下,出口水分和入口水分呈正向相关关系;

2) 进料烟丝流量:在烘丝机滚筒转速、热风温度、蒸汽压力、筒壁温度等核心指标均稳定的情况下,烘丝机流量秤设定流量值越高且流量稳定,出口水分越大,反之越低;

3)热风温度:在入口烟丝流量、蒸汽压力、筒壁温度、滚筒转速均不变的情况下,热风温度越低,出口水分越高,反之则越低;

4) 筒壁温度越高,出口水分越低;筒壁温度越低,出口水分越高。

2 重要性分析的算法选择

在选择算法的时候分为两种类型,一种是监督学习,一种是无监督学习。监督学习是在被告知训练样本属于“哪个”类的监督下学习,数据会使用训练数据集中得到的规则进行学习。无监督学习是在学习的类集合和数量都是事先未知的情况下,通过一系列数据观察来建立数据中类。已知烟草流量、入口水分、热风温度、筒壁温度是影响烘丝机出口水分的因素,因此选择了监督学习的算法。监督学习算法分为概率统计分类法、线性分类法、非线性分类法。

2.1 概率统计分类法

贝叶斯后验概率公式是概率统计分类方法的基础和核心。其主要思想是计算样本在不同类别中存在的可能性,并预测样本所属类别[3]。

如公式(1)所示,它是贝叶斯理论的后验概率公式。其中[PCi]是贝叶斯决策理论的先验概率,[Px|ci]的是每个类的条件概率,依据[Px|ci]的大小,即可断定X属于那个类。

2.2 线性分类法

线性分类就是通过一个或者多个超平面,将特征空间按类别划分为独立子空间。用来表示超平面的决策函数可以表示为[gX=WTX+WO],其中W表示权值向量,WO被称为偏置(bias)。对于[gx>0,]被划分为正类,其他的被划分为负类。由于本次训练集中具备多个数据影响因素,因此需采用多元线性回归,由多个自变量的最优组合共同来预测或估计因变量。

2.3 非线性分类法

当两类样本分布具有多峰性质并互相交错时,简单的线性判别函数往往会带来较大的分类错误。常采用多平面多迭代的非线性分类法。非线性分类法中最常用的就是神经网络算法。

一个简单的神经网络由三部分组成:输入层()、隐含层以及输出层[y=f(net)=11+e(-net)]。作为一个可以适应复杂问题的自发式的统计模式识别技术,神经网络算法具有强大功能,只要给出足够数量的隐含层的神经单元、适当的非线性函数以及权值,任何判决都可以利用三层神经网络来实现。

2.3.1 挖掘流程与结果评估

数据样本为烘丝机每批次叶丝流量、入口水分、热风温度、筒壁温度的CPK值。由于上述数据的数据源为PLC采集的实时数据,在数据处理上,首先通过TAG点采集各项指标的实时数据,采集频率为10秒/次,存入实时数据库,并计算得到各项数据CPK值,存入Hadoop数据仓库,得到8000批样本数据,部分数据如表1。由于各点数据来自PLC通信的实时数据采集,难免出现异常数据,因此,在数据建模过程中,首先对样本数据执行异常值剔除操作。

通过对数据样本特征的分析和对业务的理解,选取多元线性回归分析模型、神经网络模型和C&R树算法模型[4]进行数学建模,并利用 IBM SPSS工具进行数据挖掘,得到模拟的烘丝机出口水分值,表中-1是垃圾数据,在挖掘过程中已剔除。如表2所示:

评判三种模型优劣的指标为误差、标准差和线性相关度。其中误差表示出口水分预测值与实际值之间的差异,标准差反应预测出口水分数据的离散程度,线性相关表示出口水分的预测值和实际值的线性相关程度的大小(正数表示正相关)。评判指标结果如表3所示:

由此确定烘丝机出口水分最重要的影响因素为烘丝机筒壁温度,影响权重为0.6,热风温度影响权重为0.21,入口水分影响权重为0.14,叶丝流量影响因素为0.05。

3 结束语

此项研究对指导烘丝机操作具有重要的指导意义,在此研究结果的指导下,合肥卷烟厂烘丝机出口水分偏差从2013年的0.03提升至2014年的0.01,效果显著。上述案例是合肥卷烟厂大数据智能管理平台应用的一个典型案例,在深化量化融合、挖掘数据价值的道路上,合肥卷烟厂继续探索。

参考文献:

[1] 徐俊山, 康惠骏. 烘丝机烟丝含水率的预测PI控制[J]. 电气传动自动化, 2007(29).

[2] 许龙. 减小烘丝机出口烟丝水分瞬间波动幅值[J]. 企业技术开发, 2011(2).

[3] 裴治捷. 浅析统计学中贝叶斯估计方法和经典频率学派估计方法的不同[J]. 科技视界, 2014(28).

[4] 刘亚秋, 李海涛, 景维鹏. 基于Hadoop的海量嘈杂数据决策树算法的实现[J]. 计算机应用, 2015(4).