孙镇江
(青岛职业技术学院 信息学院,山东 青岛 266555)
随着大数据、物联网等技术的快速发展,两者成为实现工业智能化的有力手段。企业融合创新发展成为大趋势,企业应以开放的心态,抓住大数据、物联网等技术带来的机遇,实现高质量发展,搭建工业物联网大数据服务平台便是实现企业融合创新发展有效途径之一。研究与设计工业物联网大数据服务平台的意义在于将工业物联网将生产过程中的每一个环节和设备变成数据供给侧,全面采集底层基础数据,进而进行深层次的数据挖掘和分析,发现各个生产环节潜在的关联关系。构建工业物联网大数据服务平台,以数据驱动智能制造的科学决策和智能控制,最终实现智能化生产、网络化协同、个性化定制和服务化转型,推动传统工业进入智能化新阶段的目标。
随着工业化与信息化的深度融合,企业内部及企业间生产控制系统和生产管理系统互联互通的需求渐增,通过接入网络进而达到提高产品质量和运营效率的需求更为强烈,工业物联网应运而生。工业物联网是物联网在工业领域的应用,主要是通过工业资源的网络互联、数据互通和系统相互操作,实现制造原料的灵活配合、制造过程的按需执行、制造工艺的合理优化和制造环境的快速适应,以达到资源的高效利用,从而构建服务驱动型的新工业生态体系。据《2019年中国工业物联网市场前景研究报告》的研究显示,2018年全球工业物联网的市场规模约640亿美元,期望在2023年超900亿美元规模,并且设备联网数量也将超过消费物联网设备联网数量,预计在2025年全球工业物联网设备联网数量将达到138亿。我国工业物联网的发展将逐步转变为以工业应用需求为主导,预计2020年,在新工业时代背景影响下,工业物联网产业占整体物联网产业比重将达到25%,突破4500亿元规模。[1]
对于物联网大数据服务平台的搭建应从数据应用的价值与功能为根本,以需求确定采集和分析的数据内容,注重数据采集的准确性、高效性和易用性,而不仅仅是数据量大,进而构造出满足实际应用的工业物联网大数据服务平台。[2]
作为国家战略的《中国制造2025》提出的“互联网+”战略,主要是将现有的物联网技术、互联网技术以及云计算等技术与传统的工业制造进行深度融合。目前,我国的制造行业虽然在智能化和数字化两个方面取得了一定的发展,但主要集中在物联网设备的感知上,即通过硬件设备和软件的部署收集并传输数据,如采集设备及生产线上的温度、压力、振动等信息,这仅仅是物联网应用的开始,这样生产制造业很难有效挖掘有价值的信息来指导工业生产经营。[3]当今,针对工业大数据的研究主要集中以下两个方面:第一个方面是根据真实的工业生产环境,如何利用现有的大数据处理技术高效存储和管理海量的工业数据;另一个方面是如何在海量的工业数据中进行挖掘分析,找出关联关系,帮助企业优化生产工艺。
国内外工业巨头们纷纷推出了工业物联网应用和平台,通用电气推出了工业物联网软件平台 Predix,作为全球第一个专业工业数据与分析开发的云服务平台,Predix 平台主要用于连接各类工业资产设备和供应商并接入云端,并对采集的工业数据进行实时分析,从而优化业务;西门子推出了基于云的开放式工业物联网平台MindSphere,提供设备连接、数据采集、传输和安全存储,能够处理和分析设备产生的海量数据,实现设备状态监测、数据管理以及资源优化等;海尔推出卡奥斯工业互联网平台(COSMOPlat),打造面向智能制造的工业物联网平台,为中小企业提供一体化智能制造解决方案,赋能企业发展。[4]
相对于传统的数据服务平台,工业物联网服务平台不仅仅面对海量数据存储压力,而且还需面对工业数据具有多源异构、分布广泛、动态增长等特性;同时,还需要解决数据实时处理和分析。这些都是工业物联网大数据服务平台建设需解决的问题,具体如下。
工业的数据存储结构已由传统的结构化数据转变为结构化、半结构化和非结构化三种类型并存的形式,这就面临着如何将这些多源异构数据的集成,并保持数据的完整性。如在机械制造行业,采集生产线数据主要包括设备数据、产品数据、过程数据、环境数据、作业数据以及能耗数据等不同形式数据,这就导致原有的解决方案不能满足现有的数据处理要求,例如对于非结构化数据存储在传统数据库中通常采用BLOB 类型,通过建索引的方式来进行全局查询。这种方式能够一定程度上解决异构数据集成和存储的问题,但如果数据源发生变化,不能灵活的转换,迁移工作会非常繁琐。
工业生产数据的体量大且变化频率很快,这主要是由于工业生产过程中数据是实时高速变化的,采集系统实时运转采集,例如设备工况、环境参数等。在机械制造行业中,生产设备的生产数据是快速变化的,拥有大量的检测点和传感器,在大数据计算分析时,面对这些实时变化的数据,对计算单元和存储单元需要极高吞吐量和性能要求,单纯的传统关系型数据库无法满足需求。
实时处理分为两部分:数据的实时存储和实时计算。对于实时计算是指在数据不断变化的过程中进行实时计算分析,以发现有用的信息,为决策分析提供支持。传统处理方法因其采集来源单一、计算分析数据量有限,可利用关系型数据库和并行数据仓库进行处理。对于关系型数据库的存在问题前面已介绍,采用并行数据仓库处理方式存在以下问题:一是构建数据仓库需要花费较长时间;二是在数据库服务器出现宕机之后无法避免数据丢失问题;三是对于依赖并行计算提升数据处理速度方面而言,传统的并行数据库技术难以满足要求。
如何利用数据挖掘算法挖掘工业数据中潜在的关联关系,打破信息壁垒,充分发挥数据价值。面对像机械行业生产的海量异构多源的工业数据,传统的数据分析手段将也需要调整以满足挖掘要求。
工业物联网大数据服务平台是基于分布式的高性能、高可用的一体化工业物联网的大数据产品,该服务平台包括工业数据采集、工业数据存储、工业数据智能挖掘和平台上层软件。服务平台整体架构如图1 所示。在服务平台架构中主要包含三大层,分别是:感知层、大数据服务平台层和应用层。感知层利用智能仪器仪表和设备开放接口,以及传感器(网)等手段实现信息采集;大数据服务平台层为核心,主要提供多源异构数据集成;工业物联网数据的处理,包括实时计算和离线批量计算;工业数据的存储以及工业数据智能挖掘分析等服务。平台上层软件主要提供数据查询接口,即通过查询接口获取大数据服务平台层中已经处理过的数据并进行可视化,还能提供智能决策辅助信息。
图1 服务平台整体架构
工业数据采集是对生产现场各种工业数据的实时采集和整理,利用泛在感知技术对多源设备和异构系统等信息进行实时高效采集。工业数据采集是实现智能制造和工业物联网的重要基础,是信息化和工业化融合的先决条件,也是工业转型升级和智能化的必要条件。
工业数据因其设备数据种类多、信号源不同、分布广泛,各类数据的采集方法不同。本文中的工业数据采集主要涉及到仪器仪表数据采集和数控设备运行数据采集。对于仪器仪表数据采集,主要通过RS485串口通信总线标准和接口技术将数据汇集到工业计算机,再通过WIFI模块将数据传到数据服务器上。对于设备老旧等原因不能进行数据采集的仪器仪表,在保持原有生产工艺下,将其进行更换为智能仪表或安装传感器,确保数据能够顺利采集。对于数控设备数据采集,目前机械制造行业主流的数控生产商发那科(FANUC)、西门子(SIEMENS)、马扎克(MAZAK)等,纷纷推出了具有以太网功能的数控系统,并提供开发软件包和开放以太网接口支持基于TCP/IP协议的二次开发,允许直接接入互联网或者局域网。以本文研究的机械制造企业为例,高级型数控系统基本来源于国外供应商,主要数控系统的型号有发那科、马扎克、广州数控,其中发那科占到80%左右,本文将主要研究发那科数控系统,利用发那科(FANUC)数控系统的数据服务器板(Fast Data Server Board)和快速以太网板(Fast Ethernet Board)两种以太网硬件,基于FANUC公司的FOCAS(FANUC Open CNC Application Software)进行基于以太网功能的二次开发,实现FANUC数控系统的联网通信、程序管理、状态采集、屏幕显示以及效能分析。数控系统采集信息,包括基本信息(开机时间、关机时间、报警状态、报警号、报警信息、报警时长),数控(NC)数据(设备状态、程序号、加工时长、产量),加工数据(进给F、进给倍率、主轴转速、主轴倍率、主轴负载、各轴负载),以及刀具寿命等。[5]
由于感知层中的数据源是由不同的系统定义并存在于不同的使用环境中,这些数据源中的数据必然具有多源异构的特性,因此,采集数据的速度和后台数据处理的速度并不一定保持同步;同时,可能存在“脏数据”,需要对数据进行转换和清洗,所以在物联网服务平台工业数据采集的过程中对多源异构的数据进行数据集成。对于实时的数据流数据,可利用分布式发布订阅消息系统Kafka 对采集的数据进行缓冲整理,协调实时数据的传入与传出。将采集的数据作为Kafka 的生产者,在平台数据处理模块将Storm实时数据流处理作为Kafka 的消费者。经过采集后,将数据导入到消息中间件Kafka,建立可靠的高性能分布式消息处理机制支持平台数据交换,以解决数据采集与数据处理阶段不同步的问题。[6]
工业物联网大数据服务平台数据存储形式分为结构化存储和非结构化数据存储。结构化数据主要是仪器仪表数据和数控设备运行数据;非结构化数据如数控(NC)程序等。工业物联网大数据服务平台的数据存储采用关系型数据库MySQL与数据仓库基础框架Hive以及分布式数据库(HBase)并用的混合数据库,服务平台数据存储处理流程如图2所示。
Apache Hive是基于 Hadoop(分布式系统基础架构)的一个数据仓库分析工具,依赖于Hadoop分布式文件系统(HDFS)和MapReduce编程模型,使用类SQL语句管理分布式数据集,进行数据提取转化加载。Apache HBase 是一个架构在 Apache Hadoop 上具有高可靠性、高性能、面向列、可伸缩的、开源的非关系型分布式数据库(NoSQL)。与Hive不同的是,HBase具备随机读写功能,按列存储数据,方便数据压缩,对某一列或者某几列的查询有非常大的 I/O 优势,查找速度快、可扩展性强、更容易进行分布式扩展。
图2 服务平台数据存储处理流程
根据工业数据的时效性,服务平台分为两种数据计算分析模块 :实时流处理计算分析模块与离线数据批处理计算分析模块。数控机床运行数据是典型的流数据,对于流数据采用实时流计算框架Storm进行持续处理。Storm作为Twitter 的开源分布式实时计算系统,能够可靠地处理持续的流数据,进行实时分析和计算等。在Storm的集群有两种节点:控制节点和工作节点。控制节点运行一个后台程序:Nimbus,其负责在集群中分布代码、分配任务和监测状态。每个工作节点运行一个后台程序:Supervisor,监听分配给它那台机器的工作,根据需要启动或停止工作者进程。Supervisor和Nimbus之间分布式协调工作由Zookeeper来完成。
服务平台中的数据经Storm实时流处理计算分析后,根据业务需求分别选择不同的方式进行存储。如:在数控机床运行数据监测分析模块中,经过Storm实时处理后的运行数据,如:数控(NC)数据、加工数据以及刀具寿命等,皆为结构化数据,因其规模相对较小且查询操作多,可以选择传统的关系型数据库MySQL进行数据存储。Storm计算后处理部分数据(如设备日志数据)和部分数控(NC)程序监控数据等,根据数据形式选择HBase、Hive 等方式进行存储,同时,采用Sqoop将Hadoop分布式文件系统或Hive上的数据与传统数据库中的数据进行数据迁移,实现不同类型的数据转换。[7]
工业数据的采集、集成和存储为企业的信息系统(如ERP、MES等)提供大量的数据支持,针对积累的海量工业数据,设计合理的智能挖掘分析算法,挖掘工业数据的潜在价值,帮助企业优化生产流程,促进企业向更加智能化方向发展,为企业转型升级提供支持。以本文研究的机械制造企业,其涂装车间采用磷化和漆面烘干工艺受温度影响,温度的控制是保证喷涂质量的一个重要环节。结合温度采集的历史数据以及能耗数据,利用Apriori算法等经典关联算法,通过设置合理关联规则的支持度和置信度,挖掘数据间关联关系,不断优化生产工艺和提升效能。
工业物联网大数据服务平台硬件设备方面由5台服务器和30台联网的FAUNC数控设备、喷涂车间的智能仪表以及多功能电表等硬件共同组建。其中,数据计算2 台服务器,数据采集1 台服务器,分布式协调和数据存储共用2台服务器。通过数据的实时采集,监测数控机床等设备运行状态、能耗等指标,结合历史数据,提供可视化平台上层软件,其主要由数控机床效能数据分析、数据可视化看板等功能模块构成,如图3所示。
图3 平台上层软件
1.数控机床效能数据分析。统计服务平台中数控机床的运行工作数据,能够分析数控机床的运行情况,具备生成并导出任意机床设备的利用率和故障率等报表信息的功能,为上层进行决策制定和生产计划提供数据支持;它还可以统计各机床的能耗信息,为数据可视化提供数据来源和支持。
2.数据可视化看板。对采集的数控机床运行数据利用看板进行可视化显示,实现对机床工作状态进行实时监控,并提供定制化和通用两种数据可视化服务,数据包括当前执行生产计划信息、数控机床运行数据、仪表温度信息以及多功能电表能耗数据,温度和能效云场以及用能场所用3D 呈现。
3.信息化统一管理。服务平台实现对所有数控设备进行信息化统一管理,能够随时查询任意机床内的数控程序,同时具备与数控机床同时传输程序的能力,管理员对数控程序有访问编写权限,对其使用日志和修改情况等做统一的数据资源管理,交互界面与数控机床设备端的操作保持同步。
本文提出的工业物联网大数据服务平台,可广泛应用于可用机械行业支持以太网进行数据采集的远程监控与智能分析的应用场景。通过对数控机床等智能机械设备的状态、温度、能耗以及性能等运行数据采集分析,实现设备远程监控和性能优化分析等功能,推动企业向信息化和智能化融合发展。这对提高机械制造业的水平和竞争力具有十分重要的意义。