孔祥昊 裘哲勇 赵纪政 沈梓崴 李冠华
摘 要:文章采用统计学理论分析了卷烟过程中烟支重量反馈控制系统所监测的多项指标的海量数据。首先,对海量数据进行预处理,并通过假设检验得出数据服从正态分布。其次,计算各项指标间的灰关联度,得到各项指标间的关联度矩阵。最后,通过逐步回归分析得到各项指标间具有显著相关性的最优回归方程,并给出能够根据各监测指标的变化对烟支重量进行反馈调节的控制系统模型。
关键词:海量数据;正态分布;灰关联度分析;逐步回归分析
中图分类号:TS47 文献标志码:A 文章编号:2095-2945(2018)21-0012-04
Abstract: In this paper, the statistical theory is used to analyze the mass data of many indexes monitored by cigarette weight feedback control system in the course of cigarette production. First of all, the massive data are preprocessed, and the hypothetical test shows that the data obeys the normal distribution. Secondly, the grey correlation degree of each index is calculated, and the correlation degree matrix of each index is obtained. Finally, through stepwise regression analysis, the optimal regression equation with significant correlation among the indicators is obtained, and the control system model which can adjust the cigarette weight feedback according to the changes of each monitoring index is given.
Keywords: mass data; normal distribution; grey relational analysis; stepwise regression analysis
1 概述
煙支卷制是现代的烟支制造过程中十分关键的一个步骤,而烟支重量在卷烟过程中是一个被严格控制的物理量,是卷烟生产厂商非常关注的重要指标,其直接影响着烟支填充密度、卷烟吸阻、硬度等,对烟支的燃烧与吸食质量也产生一定的影响。将烟支的重量控制在合理的范围内,不仅能够在保证烟支的质量的前提下提升吸食体验,还能够减少不合格率从而降低生产成本。本实验以卷烟重量为中心,对卷烟生产过程中,烟支重量反馈控制系统所监测的重量偏差、车速、风室压力和吸丝带目标位置等指标的海量数据进行数理分析,得出各指标之间的关系。
2 数据预处理
由于采集数据的异步性,数据需要进行预处理,其过程主要遵循以下5个原则:
(1)由于车速和风室负压的采集频率为1s/次,而吸丝带的目标位置、当前位置以及烟支的重量偏差的采集频率为1ms/次,认为车速、风室负压在1s内不会改变,将1s内的数据补全。
(2)车速不超过7990支/分时,认为卷烟系统处于不平稳状态,将该部分采集到的数据丢弃。
(3)丢弃指标残缺的样本,不做分析。
(4)计算平整器移动量:
平整器移动量=平整器目标位置-平整器当前位置。
4 各参数之间的相关性分析
经过正态分析,烟支重量符合均值为μ=2.8503,方差为σ=55.5935的正态分布,能够很好地预测出烟支加工过程中落在误差设定在任何一个区间的烟支数量,即能够有效地辅助预测出烟支的合格率,以便及时调整卷烟系统。但是,具体应该调整卷烟系统的哪一个部分,才能减小烟支重量的误差,需要进一步考察各监测指标对烟支重量的影响。同时,由于烟支重量反馈控制系统较为复杂,仅仅用几个监测指标来衡量整个系统已经将系统简化,所以不能单纯考虑其余监测指标对烟支重量的影响,还应该分析这些指标之间有何种相互制约关系,以及烟支重量是如何反过来影响这些监测指标的。
4.1 灰关联度分析
灰关联度分析法是衡量在系统发展过程中变量间关联程度的一种有效方法,若两个因素同步变化程度较高,则可谓二者关联程度较高;反之,则较低。代劲等人[4]提出灰理论缺乏行之有效的针对大数据集及多粒度的灰关联分析方法,导致其使用不够广泛。本文基于烟支生产过程中产生的海量数据,使用吴祖堂等人[5]在机械设备故障诊断中使用的灰关联度分析方法,探究出烟支重量反馈控制系统中格监测指标之间的关系强弱,并用灰关联度矩阵定量直观地展示出来。具体步骤如下:
(1)确定参考变量和比较变量,将参考变量记作:
从表1的灰关联度矩阵中可以得出结论:
(1)平整器当前位置和目标位置之间存在很强的相互制约关系。
(2)烟支的重量偏差与平整器的位置偏移量之间存在较强的相互制约关系。
(3)风室压力对平整器的位置偏移量有较大的影响。
4.3 逐步回归分析
确立了各监测指标之间的关联程度之后,若要想知道各指标之间具体的函数化关系还需对数据进一步分析。游士兵等人[6]使用了逐步回归分析法建立了中国农村居民收入预测模型,并阐明了逐步回归分析法在多元线性回归中的可行性和有效性。郑晗等人[7]也使用逐步回归的方法对影响烟支燃烧温度的因素进行了分析,再次证明了逐步回归分析法得出的模型的实用性。
为了能够得到较为简化又能准确预测的烟支重量反馈控制模型,本文使用逐步回归分析法,按照自变量对因变量的影响程度,从大到小将自变量逐个引入回归方程。具体步骤如下:
(1)确定显著的F检验水平:
由于本文使用的数据量多达2500000条,则α取0.1时,F0.1(1,∞)<2.71,所以可指定F=5。
(2)计算各变量的平均数
4.4 逐步回归结果分析
将各监测指标分别作为参考变量,计算出5个最优回归方程,但是经过最优方程可信度检测之后,只有两个方程通过检验,如式(27)和式(28)所示,其中,x1为平整器目标位置,x2为平整器当前位置,x3为烟支重量偏差,x4为风室压力。
其中复相关系数为R=0.9954,df>1000,查显著性检验表自由度为1000得出R0.05=0.062(显著性水平α=0.05)。复相关系数显著,故x2、x3、x4与x1之间存在极为显著的线性关系。回归方程估计标准误差S=0.2083,回归方程估测误差仅为0.2083%,故样本所建立的最优回归方程可靠性极高。于是我们可知:当前位置、重量偏差、风室负压对目標位置的影响都很显著。
其中复相关系数R=0.9954远大于0.062,故变量x1、x3与变量x4存在显著的线性关系。回归方程估计标准误差S=0.2089,回归方程估测误差仅为0.2089%,故样本所建立的最优回归方程可靠性极高。于是我们可知:目标位置、重量偏差对风室压力的影响都很显著。
经过逐步回归分析之后,我们能够得到基于监测指标的烟支重量反馈控制系统模型,如图2所示:
5 结束语
通过以上分析可知,烟支重量反馈控制系统所检测的各项指标中,平整器目标位置参数与其他几项指标参数间具有较强的相关性,以及其他指标参数间也有一定的关联度。经过一系列的数学分析方法,最终得出了一个烟支重量反馈控制系统模型。
但本模型只是粗略地给出了各检测指标之间的相关权重,在实际运用过程中权重会随着监测烟支指标的波动而发生相应的调整。因此,坚持对烟支重量反馈控制系统进行常规的参数检验,及时调整卷烟系统,才能保证烟支重量的精度,提高卷烟的质量。
参考文献:
[1]何凤霞. 对于大数定理和中心极限定理的分析与探讨[A]. Information Engineering Research Institute, USA.Proceedings of 2015 3rd International Conference on Social Science and Education(ICSSE 2015 V75)[C].Information Engineering Research Institute, USA:,2015:4.
[2]陈常琦.大数定律和中心极限定理的思考与应用[J].考试周刊,2017(50):9.
[3]张蒙生,赵保国,张振华,等.烟支质量计量抽检方案的设计[J].工业计量,2007(S1):37-39.
[4]代劲,胡峰,刘歆.基于数据分布的快速灰关联分析[J].吉林大学学报(工学版),2015,45(01):283-290.
[5]吴祖堂,李岳,温熙森.灰关联分析在机械设备故障诊断中的应用[J].系统工程理论与实践,1999(06):127-133.
[6]游士兵,严研.逐步回归分析法及其应用[J].统计与决策,2017(14):31-35.
[7]郑晗,张莹,李赓,等.烟支燃烧温度影响因素的多因素方差与逐步回归分析[J].中国烟草学报,2016,22(05):26-32.