王 军,王 晶
(北京航空航天大学 经济管理学院,北京 100083)
大数据应用起源于互联网,正在向以数据生产、流通和利用为核心的各个产业渗透,主要呈现两种发展方向:一是积极整合行业和机构内部的各种数据源,通过对整合后的数据进行挖掘分析 ,从而发展大数据应用。二是积极借助外部数据,主要是互联网数据,来实现相关应用[1]。
传统的制造业在向智慧生产迈进的过程中采用了大量的传感设备,构建了企业物联网。物联网的兴起使得当前数据增长比以往任何一个时期都要快,增长速度也非常迅猛,其创造的数据将远多于传统的业务数据。物联网所创造数据,描绘的是工厂设备、物质运动的规律、状态变化的规律等,更加真实、可靠、有价值,可以从中挖掘出更丰富、更有用的知识[2]。
有文献介绍,大数据分析在国外制造业中显示出巨大的潜力[3]。Gentrica是英国最大的燃气、供电企业。Gentrica该企业计划到2014年上半年为止,为家用客户和商用客户安装总计350万台智能电表。Gentrica通过内存型数据库对每30分钟的来自客户的数据进行分析,客户通过家中安装的显示屏确认电力、燃气的使用量和费用,提高节约能源的意识。而Gentrica对客户的能源消耗模式进行分析,设置自动电费规则和基于用电需求的变化进行用电需求进行移峰操作。小松是居世界第二位的建筑机械制造商,建立了一个名为KOMRTAX的,能够对建筑机械的工作状况进行远程监控的系统。KOMRTAX系统通过安装在建筑机械上的GPS和各种传感器,对机械当前所处位置、工作时间、工作状况、燃油余量、耗材更换时间等数据进行收集。通过数据分析给客户提供设备优化运行的建议,并可受托监控设备安全。
某特种印制企业是国家法定流通货币的定点生产单位。显而易见,该企业对生产过程质量控制及在制品跟踪有严格的要求:在制品在整个生产过程中一定要确保数字不出任何差错,以及产品质量的万无一失。由于印制过程中印制设备和印制材料的不完善以及一些不可避免的随机因素的影响,在生产过程中经常会出现颜色深浅失真、油墨污点、文字模糊、起皱、漏印(缺版)、刮伤、套印不准(走版)等各种缺陷。以往,企业使用大量有经验的检查工通过肉眼人工进行缺陷检查,但存在效率低、不稳定、品质不统一等致命的缺点[4]。且人工直接接触产品,容易引发安全方面的事故。随着机器视觉技术的快速发展,很多应用案例将其应用缺陷检测中。为此,企业引进了大量的在线图像检测设备。通过对每张产品喷写标识码,并在后续生产过程中实时采集、跟踪每张在制品的标识码、印制图像,将图像与缺陷特征信息进行比对,提示生产过程中的存在的质量缺陷。但系统大范围投运后,常规的技术架构及关系型数据库系统,不能有效及时处理系统所产生的大数据量,尤其是非结构的图像数据,也就无法形成全工序的质量数据共享与打通。
本文采用基于Hadoop的大数据处理技术,通过分析业务需求,建立大数据存贮管理模型,并在此基础上,建立数据分析、实时查询模型,通过数据可视化技术进行实时展现,实现全工序质量信息的自动采集、集成管理与质量预警、分析即时化。并在此基础上,针对产品的不同质量等级,支持多生产工艺的动态调度。
特种印制生产多规格并线生产,生产投料及组织按批进行,常规每批次约10000大张(每一大张包括多个数量的最终产品,简称为小枚,包含数量取决于不同的小枚的尺寸规格)。典型的生产工艺如图1所示。胶印工序会在每个大张上喷写唯一的“大张ID码”,这是实现每一大张的独立跟踪的基础。包括胶印工序在内的每个工序将进行图像采集,与各工序标准化缺陷特征模型进行模式对比分析,产生该大张中每个小枚的工序质量检测信息,在物料流转时同步传送到下游工序。下游工序根据上游工序的质量检测信息来调整本工序的生产,或进行全废品兑换操作。同时,将前三个工序的质量信息汇总起来,由人工对再对大张检查机器的判废信息进行再次确认(当前,由于检测及模式识别等因素,以及经济性的考虑,还不能做到完全由机器判废),生成指导后续生产的综合质量信息报告。综合质量信息报告再结合印码工序产生的新质量信息,形成指导后续清分生产工序所需的质量清单。根据该清单所表示的在制品质量等级信息,由人工调度选择后续裁封自动线,或小张清分机全检。其判断依据是质量等级高的产品执行裁封自动线,以提高生产效率。质量等级低的产品执行小张清分机全检,防范废品流出,但生产效率低。
在自动线生产过程中,设备将根据传递来的质量清单,自动剔除有质量缺陷的小枚产品,并用好品来补充生产数量。这一过程的效率及质量完全取决于质量清单。
图1 质量信息采集与生产工艺的选择
生产质量跟踪要求简单明了,其基本思路是:流通货币上都有唯一的标识号(业内称之为冠字),根据该标识号能够还原生产的全过程,包括产品装箱的箱号、批次号、大张号。根据批次号,就能从相应的生产系统准确追溯出相关的生产机台、人员、辅助物资批号、质量信息、生产时间等。这对质量改进及提升服务水平具有重要意义。图2为质量跟踪的框架。
图2 全过程质量跟踪信息框架
大数据的特征,可以用三个V开头的关键词来描述:Volume(容量)、Variety(多样性)、Velocity(速度)[5]。
每个路灯获取随机值,当随机值计算的时间到时,进行入网或状态上报,例如公式:上电时间+随机值(不大于3秒)
1)Volume(容量)分析
表1 数据量评估表
从上表可以看到,日均产生10G的业务数据和130G图像数据,年数据总计为51100G,约51T之巨。而该行业管理要求数据至少保存三年以上。因此,该数据量称得上是大数据。
2)Variety(多样性)分析
用于质量跟踪的数据主要有三种数据,两大类型:一是表征生产组织及物料的结构化数据,包括生产工单、批次号、物料清单、设备标识号、大张标识号、生产时间、生产数量等信息。二是结构化的质量缺陷类型数据。对于不同的模式的质量缺陷给出结构化的定义,通过人工预先设定,机器视觉设备将会与标准模型进行比较后自动给出。三是无法结构化的原始图像文件。由于数据量巨大,设备将只保留存在疑问的局部细节图像。
3)Velocity(速度)分析
受生产日历及生产安排的影响,数据产生的速度也不均衡。一般来说,生产时间为AM8:00~PM5:00,数据将会在AM8:00~AM9:00集中同步产生,形成每天的数据高峰。
从另一方面看,速度还表现在数据使用的高效性及实时性上。图1所示的图像判废环节,人工检查给定批次的图像信息时,人机交互的时间不能大于3秒。在路径选择及后续裁封自动线环节,系统将能够实时地、准确地给出每批次在制品特定小枚的质量信息,供生产线自动处理。
所设计的大数据平台(图3)部署于企业私有云环境上。主要的客户端全部在企业局域网范围内,客户应用分两类:一类是企业生产调度中心,进行实时查询及调度决策。二类是机台上的操作人员,随时查看生产产品的历史质量记录。
图3 拓扑及部署示意图
Hadoop是Apache开源组织的一个分布式计算框架,可以在大量廉价的硬件设备组成的集群上运行应用程序,构建一个具有高可靠性和良好扩展性的并行分布式系统,Hadoop分布式文件系统HDFS、MapReduce并行处理编程模型和HBase分布式数据库是其三大核心技术[6]。本文采用该核心技术搭建适合特种印制质量信息管理的大数据平台系统。
设计的大数据平台总体框架如图4所示。
本文还采用Hive、Impala组成大数据查询、统计、挖掘、分析平台,分别应用于不同的数据挖掘需求。采用Pentaho实现图表展示平台。
图4 大数据平台总体框架
数据迁移系统迁移分散数据到大数据平台的HBase数据库中,迁移过程中对数据进行了初步的ETL。比如HBase中的表不能太多,也不能太大,要设计合理,一般在数据迁移过程合并一个月的相应生产系统中业务数据库表格数据到一张HBase表中。对于实时数据分析的场合则需要每隔数分钟即迁移当天的新增数据到HBase表中。
集群管理监控系统对集群和任务进行管理和监控,通过Oozie可以对计算或处理任务进行轮询,从而保证能够完成任务,这样可以保证数据迁移和数据分析过程的稳定性。
针对特定数据源和数据特征设计的数据迁移系统实现从各机台的机器视觉系统中迁移数据到大数据平台的HBase数据库中,并按照预定的模型进行统一存储与管理。迁移过程中数据结构要发生变化,因而需要保证数据的完整性。
数据迁移系统需要实现一次性的历史数据的迁移以及每天增量数据的迁移。迁移系统需要基于Sqoop和Flume这两种建立在本Hadoop集群分布式计算环境下的分布式、高可用迁移系统的API进行开发。迁移系统支持反向操作,即从Hadoop中迁移数据到关系型数据库中。这一点将在裁封自动线后自动剔除出得到应用。
图5 数据迁移操作
针对部分BMP格式的图像文件,由于数据量过大,在数据迁移过程中,直接通过JPEG编码方法进行了转换[7],压缩比相当可观,但图像人工辨识性没有影响。
采用基于Hadoop的HBase数据库来进行存储,HBase的一张Table通过划分不同的Key区间可以有不同的Region Server来保存,类似如图6所示。
缺陷图像经ETL处理后,JPEG格式的大小一般不足100K,是一系列小文件的集合。其存贮管理非常适合文献[8]介绍的“海量图片存贮技术”建立的数据存贮模型[8]。
图6 分布在不同Server上的HBase表
HBase数据库中表示印刷中作废的缺陷币表的逻辑结构如图7所示。
图7 缺陷信息表数据模型
其中作废币信息列族存储作废币的基础信息,如小枚位置、生产日期、作废类型、图像大小、图像序列号等。批次信息列族存储作废币的批次信息,如发现缺陷币的车号、时间等。机台、工序信息列族存储作废币的机台和工序信息,如发现缺陷币的机台号、工序号、时间等。大张信息列族存储作废币的大张信息,如大张号,大张图像序列号等。相关物料信息列族存储质量跟踪的其他资源信息,如物料清单、机台人员等。
在HBase表中以不同的关键字进行排序统计,再对得到的统计信息进行分析,就可以实现对缺陷币的全程跟踪。在HBase中查询数据时,根据请求数据的不同会出现以下三种情况:全表扫描、区间扫描及行键扫描。其中行键扫描是根据所给的键值取得一张表中行键对应的单条数据,所以具有非常高的查询统计性能。
显然,数据在表格中比在图中更难让人洞悉其中的关键信息。根据两类客户端对数据的访问需求,提供基于Impala的即席查询和以Pertaho为核心技术的BI分析,技术路线如图8所示。
图8 即时查询分析和可视化技术路线
Hive适合于长时间的批处理查询分析,而Impala适合于实时交互式SQL查询,Impala给数据分析人员提供了快速实验、验证想法的大数据分析工具。对于经常应用查询分析,可以先使用Hive进行数据的ETL,之后使用Impala在Hive处理后的结果数据集上进行快速的数据分析。利用Impala,通过使用熟悉的SQL,像操作传统关系型数据库一样,很容易给出复杂查询、统计分析的SQL设计,同时用户熟悉的传统的数据分析工具也可以使用。
针对印制生产的特点,分析形成可视化的“大张生产路线跟踪图(跟踪每一大张的生产路径,形成准确的质量跟踪,截图略)”;分析形成“工序设备质量缺陷热点图(以设备布局为背景,按质量缺陷数量形成热点,叠加在设备布局图上,截图略)”。产品分工序缺占比分析如图9所示。
图9 产品分工序缺陷占比图
将本文的研究成果应用于某特种印制企业生产管理中,改变了传统上由于上下游工序质量信息不畅,只能按工序的调度的策略,而是采取全工艺、大质量的调度策略,切实将最终产品能够落实分解到每个生产环节,提高了管理的精细化水平。主要效果体现在:一是提高质量控制的精细化水平,尽可能杜绝废品流出,减低漏废率。二是提高客户服务及质量管理水平,实现全过程的质量追溯。三是只针对机器判废品二次人工确认,有效降低人工工作强度,虽然印制行业的特殊性要求使得企业不能完全依赖计算机的判废结果来生产,但人工确认判废工作则调整为通过计算机系统远程进行,改善了工作环境,切实提升生产效率及稳定了工作质量。
传统制造企业应用物联网后,产生了海量的数据。本文采用基于Hadoop的大数据处理技术,建立了面向特种印制生产的质量跟踪数据模型,进行大数据采集、管理、与可视化分析,实践结果证明设计合理、技术架构可行,切实提升了企业调度与决策的智能化水平,是将大数据分析技术应用于制造行业的典型示范。
[1] 工业和信息化部电信研究院.大数据应用发展[R].大数据白皮书(2014年),北京:工业和信息化部电信研究院,2014.
[2] 孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,01:146-169.
[3] 城田真琴.大数据的冲击[M].北京:人民邮电出版社,2013.
[4] 吴炜.基于机器视觉的纸币缺陷检测系统[D].西安电子科技大学,2011.
[5] 周品.云时代的大数据[M].北京:电子工业出版社,2013.
[6] 陈吉荣,乐嘉锦.基于Hadoop生态系统的大数据解决方案综述[J].计算机工程与科学,2013,10:25-35.
[7] 邱磊.JPEG算法研究及实现[J].计算机时代,2009,9:57-58.
[8] 朱晓丽,赵志刚.一种基于HBase的海量图片存储技术[J].信息系统工程,2013,8:23-24.