文|徐 康
(作者单位:中国石化巴陵石油化工有限公司IT 中心)
企业信息化建设过程中出现了多个独立的信息系统,不能实现数据的统一录入和统一管理,无法实现统一的数据分析和数据查询。企业信息一体化平台将多个系统兼容到一个平台中,并在此基础上对海量数据进行数据挖掘,对企业的计划和生产提供有力的支持。企业信息一体化数据平台将多数据源、多种结构、多种时态、多种主题、多尺度的海量数据,科学有效地采集、转换、存储、管理和分发,并在此之上进行数据挖掘,以获取有用的信息用于指导企业的计划和生产。本文以某石化企业为案例,介绍了企业信息一体化数据平台的实现技术和方法。
企业信息化建设经过十几年的发展,采集了大量的工业应用数据,其中包括调度排产计划、工况数据、生产数据、能耗数据以及生产设备基础参数等。这些数据涉及不同的系统,并且有一些数据需要手工输入。平台需要从各独立系统中采集数据,各系统在设计时自成体系,彼此之间的业务处理标准、软件和网络操作平台都存在很大差异,因而不能实现数据共享,无法满足平台数据收集、模型训练等业务需要,难以进行多系统、跨平台的综合数据分析工作,同时这些存放在异构环境中的不同类型数据和可能处于离线状态的大量历史数据也不便于统一查询。平台需要根据管理需求分析和业务描述,将多数据源、多种结构、多种时态、多种主题、多尺度的海量数据,科学有效地采集、转换、存储、管理和分发,并在此之上进行数据挖掘,以获取有用的管道工艺信息。因此,平台建立基于数据管理及利用的综合性技术,具有既保证密集的数据更新处理性能、又满足查询快捷性、支持多维分析的能力。
以ESB 和ODS 为基础,建设集中集成数据平台,实现应用集成和数据集成,消除数据孤岛、实现数据共享和业务协同,满足生产管理、综合分析等数据使用需求。如图1 所示。
图1 总体框架图
1.企业运营数据仓库(ODS)
企业数据仓库功能模块包括数据采集、数据整合、数据服务、数据管控。数据采集实现通过数据接口将源业务系统数据采集到企业数据仓库缓存区。数据整合实现工厂模型、数据标准化、数据按主题进行清洗转换整合。数据服务实现对外共享数据,包括数据查询服务、模型服务和预测预警服务等。数据管控实现元数据管理、系统运行监控等功能。
2.企业服务总线(ESB)
在服务集成方面,将通过企业服务总线,实现对经营管理平台、生产运营平台及其他系统的融合和集成,完成数据信息的交换,规避了点对点和基于数据库的数据交换的模式。
把各专业系统产生的结果数据,从源头增量抽取至数据缓冲区,并对数据进行标准化清洗、整合等数据加工过程,最终将数据沉淀至企业数据仓库中,为数据共享、数据分析提供支撑。
1.数据源头至缓冲数据区流程
企业业务系统产生的不定时、班、日、周、旬、月等业务数据,ODS 需要按照数据产生时间的将业务数据迁移至ODS 缓冲数据区。缓冲数据区采用oracle 进行存储(包括非结构化数据的结构化属性信息),采用与数据源一致的数据结构进行同步存储,并扩展时间戳(数据产生时间、数据更新时间、数据采集时间)、数据操作状态、数据处理状态等属性。
2.缓冲数据区至集成数据区流程
按照集成数据区设计的业务模型,将缓冲区存放的各专业业务数据进行标准化、清洗、加工、整合,并把结果写入集成数据区。集成数据区采用oracle 进行存储,按照工厂模型设计物理模型,并扩展时间戳(数据产生时间、数据更新时间、数据采集时间)等属性。
基于工厂模型,充分利用成熟数据库技术(MV+ETL),采集业务数据,经过加工、转换,达到标准存储,标准共享的效果;采用元数据管理的理念,加强对业务模型、数据加工过程等管理和监控,支持数据的血缘追踪及影响分析。
数据抽取、转换和加载(Extraction-Transformation-Loading),是数据仓库的核心,按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤。数据流是按照一定逻辑组成的从源到目标的完整的数据处理过程,数据流的执行过程改变了数据流的内容和形式。对于一个数据处理流程,往往不可能在一个Job 中完成,需要多个Job 的执行,执行顺序需要被合理的安排。
Kettle 是个ETL 工具集,可以管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述需求,支持图形化的GUI 设计界面,可以以工作流的形式流转,在数据抽取、质量检测、数据清洗、数据转换、数据过滤等方面有着比较稳定的表现。
Echarts(Enterprise Charts,商业级数据图表),用于数据的分析服务。一个纯Javascript 的图表库,可以流畅地运行在PC 和移动设备上,兼容当前绝大部分浏览器(IE6/7/8/9/10/11,chrome,firefox,Safari 等),底 层 依赖轻量级的Canvas 类库ZRender,提供直观,生动,可交互,可高度个性化定制的数据可视化图表。创新的拖拽重计算、数据视图、值域漫游等特性大大增强了用户体验,赋予了用户对数据进行挖掘、整合的能力。
某石化企业经过多年的信息化建设,取得了显著的成果,形成了经营管理层、生产管控层和基础设施层三大平台化应用,对企业生产核心业务领域建成了多套应用系统,取得了良好的应用成效。随着企业优化产品结构、转型升级、降本增效发展需求日益迫切,企业希望数据与业务流的彻底贯通,强化集中集成,挖掘数据价值,进一步提升管理效率和管控力。
为此企业建设了一体化数据平台,基于ODS 建立了生产、质量、财务等6 大主题库,实现了ERP、MES、LIMS 等系统的数据集中集成,在数据仓库内进行了业务整合。通过ESB,实现相关系统间数据交换由“插管式”转变为“集中式”,确保了数据的一致性和准确性。在数据平台基础上,开发专用报表平台,实现了与生产经营紧密相关的生产、销售、库存等综合类报表的自动生成,广泛应用于生产调度、经营计划等业务域,为经营决策提供了有力支撑。
本文首先介绍了企业信息一体化数据平台建设的意义,然后重点介绍了平台数据仓库的实现技术,最后分析了某石化企业一体化数据平台的实现方式,为其他一体化数据平台的搭建提供了典型的参考案例。