宁晓盼,莫柳珍,孙 潇,高俊永,黄向阳,许广球
(1.广西大学轻工与食品工程学院,广西 南宁 530004;2.广州甘蔗研究所 广东省甘蔗改良与生物炼制重点实验室,广东 广州 510316)
数据分析法在制糖生产中的应用
宁晓盼1,莫柳珍2,孙潇2,高俊永2,黄向阳2,许广球2
(1.广西大学轻工与食品工程学院,广西南宁530004;2.广州甘蔗研究所广东省甘蔗改良与生物炼制重点实验室,广东广州510316)
制糖生产过程中每天产生的数据多且处理复杂,文章主要介绍了几种常用的数据分析法在制糖生产中的应用,包括:聚类分析法、控制图法、灰色关联法、回归分析法。在现今的信息化、知识化、大数据时代,制糖生产过程的数据分析。可为生产者提供辅助决策,提高管理效率,更好地控制好生产成本,提高产品质量等。
制糖生产;聚类分析法;灰色关联法;控制图法;回归分析法
随着信息产业的快速发展,越来越多的应用将会涉及到大数据,而这些数据都呈现了大数据不断增长的复杂性,数据分析方法在大数据领域起到至关重要的作用。大数据已经不再是简简单单的数据大的事实,最重要的是实现对大数据进行分析,只有通过分析才能获得更多潜在的、深入的、有价值的信息。大数据分析的理论核心是数据挖掘。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取隐含在其中人们事先不知道,但又是潜在的、有用的信息和知识的过程[1]。大数据分析已涉及到医药、电力、化工、金融等行业,然而制糖行业对生产数据的分析利用水平还明显落后于其它行业。
制糖行业是我国传统的农副产品加工业,糖厂每天产生成千上百个数据,主要包括农务砍运甘蔗数据、生产过程数据、化验报表数据等,这些数据相互交叉,密切关联,构成了制糖生产大数据系统。制糖生产过程包括压榨、澄清、蒸发、煮糖等工段,每一个工段都有严格的工艺要求。糖厂生产管理工作的关键之一是对各工段生产指标数据进行严格的控制,确保生产在良好的工艺条件下平稳进行。制糖过程产生大量数据背后隐藏着许多重要的信息,分析并找出数据与数据之间的潜在联系,获取对生产有效的信息,对提高生产管理效能、保证产品质量、节能减排都有重要意义。
目前在甘蔗制糖企业生产管理过程中,应用数据分析法对生产过程管理的研究较少,但数据分析对制糖生产管理具有重要意义。数据分析可分为描述性数据分析、预测性数据分析和验证性数据分析,数据处理的一般过程有确定目的和思路、数据收集、数据处理、数据分析、数据展现等步骤。数据分析的分类方法有很多,预测性数据分析和验证性数据分析一般有关联规则法、控制图法、分类规则、聚类分析、回归分析、偏差分析等。
2.1聚类分析法
聚类分析是依据样本之间的特征差异,即通过度量研究对象的某种特殊属性的相似程度,使同一类样品中的相似度最大,不同样品的相似度最小[2]。聚类分析的过程主要依赖于样本之间的差异。常用的聚类分析方法主要有5大类,即基于划分、基于层次、基于密度、基于网格和基于模型的聚类分析方法[3,4]。
聚类分析能够挖掘客户管理关系,制糖企业与蔗农之间就存在着一定的客户管理关系。廖燕玲[5]等以广西为例采用模糊聚类技术对甘蔗种植户信息进行分析处理,集中提取甘蔗种植户的信息,如种植的总面积、优质土地面积、亩产高于当年总平均亩产的产率等,获取隐藏着的具有重要价值的种植户信息,以便于发现有价值的、较大潜力的种植户。同时依据甘蔗品种在不同生长期糖分的积累不同,利用蔗糖分数据的时序性和糖分积累曲线的特点,通过聚类分析选择优质高产及高蔗糖分的甘蔗进行压榨。具体方法依据不同品种之间的糖分曲线不同,峰值糖不同;以及同一品种中不同种蔗单位之间的种植条件不同、管理方法不同使得早中晚期的糖分高低也不同;可通过聚类分析优化收割蔗糖分高的甘蔗。
通过上述研究可以看出聚类分析法可以应用于农务管理,能够实现对不同种植行为特征的农户进行分类,优化收割次序,提高甘蔗糖分、产量和质量,促进糖业发展,提高经济效益。
2.2控制图法
控制图法是质量管理常用的分析方法之一,是记录过程质量随时间变化进程的一种形式,它建立在数理统计学的基础之上,利用有效数据建立控制界限,一般分为上控制界限和下控制界限[6]。若控制图中的描点落在控制界限外或控制界限内的排列不随机,则表示出现异常,若控制图的描点在控制界限内则表示正常。控制图在质量诊断方面,可以用来度量过程的稳定性;在质量控制方面,可以用来确定何时对生产数据进行调整;在质量改进方面,可以用来确认过程是否得到改进。
廖玉[7]等为判别澄清工序与蒸发工序中色值的问题,针对亚硫酸法甘蔗糖厂生产过程将控制图中的“单值—移动极差控制图”与“选控单值—选控移动极差控制图”联合运用于澄清工序和蒸发工序。分别收集了30个批次澄清汁色值和粗糖浆色值原始数据,制作控制图,并针对每个批次异常原因进行分析,判别相应的岗位责任,并提出了各工段相对应的解决措施。如其中一个批次澄清汁色值和粗糖浆色值均偏高,蒸发工序未出现异常警报而澄清工序出现异常警报;原因分析及采取的相应措施:澄清汁色值偏高致粗糖浆色值也相应偏高,由于蒸发工序正常,因此只需要解决澄清工序存在异常问题即可。这里如果不使用选控图,就难以分清哪个工序造成影响。
通过应用控制图法进行日常生产质量管理是提高企业经济效益的重要手段。控制图法可以分清上下工序之间的责任,加强中间制品的质量管理,便于针对性解决工序中存在的问题,提高产品质量使过程控制趋于稳定。控制图法有助于抓住生产主要矛盾,及时发现异常原因,快速解决问题,起到预防为主的作用,便于进一步严格控制生产指标,使产品白砂糖的一级品率逐步提高。
2.3灰色关联法
灰色关联分析是通过对数据几何关系和曲线几何形状的相似度进行比较,来分析系统各因素之间的关联程度[8]。灰色关联分析是数据挖掘内部规律的主要方法,灰色关联系统适应于部分信息明确,部分信息不明确的研究。在经济、管理等领域得到了广泛的应用。目前针对亚硫酸法糖厂生产过程,糖汁中二氧化硫的残存机理并不十分明晰,白砂糖含硫量的影响因素多且内在联系变化不定,有的因素通过监测可以掌握其影响程度,有的因素难以测量或未被人们所认识。据研究决定白砂糖中二氧化硫残留量的首要因素是生产过程中加入二氧化硫量[9]。
张思源[10]等以亚硫酸法糖厂的清汁pH、清糖浆pH、清汁的含硫量、清糖浆的含硫量等四个因素作为主要影响因子,基于生产查定数据,运用灰色系统关联理论,分析它们对白砂糖二氧化硫含量的影响主次。通过数据分析得出对白砂糖二氧化硫残留量的影响主次为:清汁含硫量、清汁pH值、清糖浆含硫量、清糖浆pH值。清汁SO2含量和清汁pH值是影响白砂糖质量的重要指标,且是澄清工段全面的影响指标。关联结果与定性分析一致,结果可信。灰色理论认为,尽管客观系统表象复杂,数据杂乱,但它总是有整体功能的,因此必然蕴含某种内在规律。
灰色关联分析是一种研究数据少、信息不确定性的有效方法。由于不考虑样本序列的统计规律,对样本容量没有过高要求,应用广泛且定量与定性分析的结果一般能够相吻合。
在甘蔗制糖废蜜中所含主要成分为蔗糖、还原糖、有机非糖分、无机盐灰分及水分等,而废蜜糖分因其他成分含量的不同而有所增减,如还原糖逐渐下降,而非糖分量逐渐上升进而影响废蜜纯度及产率。因此可通过灰色关联法分析废蜜中的成分与废蜜糖度之间的数量关系,并采取适当方法降低废蜜糖分的损失率,提高产糖率。
2.4回归分析法
回归分析是一种基于统计相关量误差分析的统计工具,是误差方差最小化的最优估计[11],是利用回归显著性置信度估计,获取回归曲线的置信区间,用点迹拟合回归方程,得到相互关系的经验公式。
李东生[12]等通过大量的历史资料和数据应用回归分析法,分析了东莞糖厂两个榨季白糖灰份异常的因素,找出特定工艺条件下白糖灰分与原料蔗非糖分的相关关系,通过检测数据整理计算。
得出方程y=0.0257+0.0218x,并作出相关检验。得出白糖灰分与原料蔗非糖分相关,两者相关关系在95%的显著水平。
原料蔗非糖分和白糖灰分都是随机变量,他们之间具有一定的相关关系,难以求得确定的函数式,但可用确定的回归分析的方法找出相互关系的经验公式。指导生产,提高产品质量。回归分析法还可应用于白砂糖色值影响因素的分析。白砂糖色值是衡量产品质量的重要指标之一,清汁色值、清汁pH值、糖浆色值、糖浆pH值是影响其色值的主要因素,可通过回归分析法找出四者相关关系,提高白砂糖品质。
大数据隐含着巨大的社会、经济、科研价值,已引起了各行各业的高度重视,我们在利用数据分析的过程中,也常常会遇到一些问题。糖厂数据分析中常见的主要问题有。
一是数据采集不全。数据分析的基础是数据量,糖厂数据的主要来源包括化验室数据、生产过程数据、农务数据等,目前国内大部分糖厂生产自动化程度不高,对生产数据的采集,存在数据采集量小、数据采集不全等问题,这在一定程度上影响对汁糖生产数据的分析。
二是数据利用效率低。糖厂的化验室系统和生产数据系统、及农务系统之间一般是相对孤立的,现有数据之间未建立具体的关联性,不能够快速、充分利用数据,使数据利用效率降低。
三是数据的可靠性。制糖生产过程中部分数据易受到人为操作不当、环境条件、设备故障、仪表故障等因素影响,在此条件下,获得的数据可能会失真,此时对数据不加分析评判而直接使用,毫无意义。
四是实际应用不多。糖厂实际生产中数据量大、数据之间的关系复杂、生产管理指标多、关联度复杂,目前对糖厂数据分析的研究较少,具有一定的难度,数据分析理论与实际的应用需要进一步结合,在实践中提高糖厂数据分析的水平。
大数据时代已经来临,社会各行各业都面临着前所未有的数据量和数据分析需求,数据分析方法众多,根据不同需求选取适当方法,对糖厂实际生产数据进行分析,挖掘潜在的、有意义的、有价值的信息,对指导生产,加强管理生产工序中遇到的问题,提高产品质量,减少原料消耗和节能减排都将有重要意义。
[1]梁剑,李晓.智能化数据挖掘系统的设计与实现[J].计算机应用研究,2002,19(5):89-91.
[2]戴危艳,李少华,王军,等.利用聚类分析方法进行模型优选[J].断块油气田,2015,,22(4):492-496.
[3]Bandyopadhyay S,Coyle E J.An energy efficient hierarchical clustering algorithm for wireless sensor networks [C]//INFOCOM 2003.Twenty-Second Annual Joint Conference of the IEEE Computer and Communications.IEEE Societies.IEEE,2003,3:1713-1723.
[4]Kriegel H P,Pfeifle M.Density-based clustering of uncertaindata[C]//Proceedings of the eleventhACM SIGKDD international conference on Knowledge discovery in datamining.ACM,2005:672-677.
[5]廖燕玲.模糊聚类技术在甘蔗种植户信息分析中的应用[J].安徽农业科学,2007,35(28):9098-9099.
[6]苗同畅,刘杰.控制图技术在糖化生产中的应用[J].啤酒科技,2010,6:023.
[7]廖玉.初探Xcs-Rs选控图在甘蔗制糖生产线上的应用[A].第二届糖业科技与发展高峰论坛论文录[C].2015年.
[8]Azzeh M,Neagu D,Cowling P I.Analogy-based software effort estimation using Fuzzy numbers[J].Journal of Systems and Software,2011,84(2):270-284.
[9]霍汉镇.现代制糖化学与工艺学[M].化学工业出版社,2008.
[10]张思原,郭海蓉,容玲.白砂糖二氧化硫含量影响因素的灰色关联度分析[J].食品科技,2008,33(10):93-95.
[11]M.·费史,Fisz M,王福保.概率论及数理统计[M].科学技术出版社,1962.
[12]李东生.白糖灰份与原料甘蔗非糖分在特定条件下相关的探索[J].甘蔗糖业,1983,6:006.
TS242.1
B
2095-820X(2016)02-04
2016-04-05