胡致涌,张国安
(福建工程学院 计算机与信息科学系,福州 350108)
企业各业务部门前期购置的业务系统中的数据库是各自分散独立的,其数据格式和存储方式也不尽相同,很难实现系统间的信息交换和共享,不便于对业务数据的收集管理和分析评估,也无法满足跨部门业务整合和信息安全规范等方面的需要。现有的业务系统大致包括企业决策涉及的业务流、资金流、信息流等,因此在这些系统基础上建立数据中心平台,是提高企业信息集成管理的重要环节,实现数据的共享转换和关联处理对科学决策至关重要。
以分层次原则为基础进行数据中心平台的设计。在统一规划的前提下,不同业务系统的数据具有相对独立性,重点解决跨部门、跨系统数据共享交换和数据一致性的问题。数据结构设计既具有扩充性,又要保证业务系统的稳定性,建立共同遵守的统一标准和规范,解决系统间信息的互连互通,支持业务开展、横向的信息交换和宏观管理的要求。数据中心平台的逻辑体系架构图如图1所示。
从纵向看,中心平台是一个多层结构,主要分为数据转换与存储层、数据获取层、数据访问层三大层次。数据转换与存储层包括第一次ETL、ODS、第二次ETL、DW和数据仓库接口;数据获取层将各业务系统传送来的数据文件进行预处理和格式检查,然后分类存放在临时存储区中;数据访问层通过数据仓库接口使用DW中的数据,向外提供统计报表、OLAP分析、即席查询、数据挖掘等应用。从系统外部看,应用逻辑层负责提供所有应用,其分布式结构可以由应用服务器(OLAP服务器、统计型报表服务器等)和WEB服务器构成,通过图形用户界面(GUI)、Web浏览器等多种方式为用户提供友好的界面访问。
图1 数据中心逻辑体系架构图
从横向看,中心平台还包括了系统管理和元数据管理。系统管理则负责整个系统的管理工作,主要有用户权限管理、系统监视和接口管理。其中,用户权限管理负责用户基本信息管理、权限管理、用户权限分配;系统监测负责日志管理、系统管理任务提示、系统服务进程监测和数据存储空间的监视;接口管理负责对数据仓库接口、数据文件接口进行管理。元数据管理主要对各种元数据进行添加、删除、查询和修改操作,包括数据源元数据管理、ETL规则管理、ODS元数据管理、数据仓库元数据管理和应用逻辑元数据管理。
数据获取的数据源主要是各业务管理系统。数据获取的方法是多样化的,通过授权访问的方式可以实现部门预算编制系统、预算执行系统等的联机读取,OA系统可通过系统专用接口抽取数据,其他业务系统的数据如excel表格等可采取FTP方式进行上传。此外,数据获取还支持用户手工录入数据,包括文件载入和界面录入。
数据获取层的模型如图2所示。用数据获取模块来监控源数据的到来,并记录源数据的采集日志。采集数据时,模块对源数据文件进行的预处理和格式检查通过激活数据接口协议实现,将源数据接口文件装载入接口数据缓冲区。当发现源数据文件有错误时,形成错误文件的接口状态报告,并将信息反馈给数据源端。
数据获取调度管理模块统一调度整个采集和数据接口的检查。源数据超过保存期限后,将其转换为历史接口数据文件并脱机保存。
图2 数据获取层
数据转换及存储层负责数据清洗、生成数据仓库和应用数据、存储数据仓库数据和应用数据。在本层中,数据仓库包括分析型数据库和操作型数据库,应用数据包括数据集市和数据挖掘样本数据。
图3为数据转换及存储层的模型。本层次包括三次ETL过程:从数据缓冲区到操作型数据库的第一次ETL过程,将经过清洁、集成和轻度的综合后的数据装载到ODS数据存储区,形成明细的单位信息、项目信息、科目信息、业务信息和文档信息等。从操作型数据库到分析型数据库的第二次ETL过程,通过ODS数据存储区抽取数据,以面向主题方式将数据重新组织、转换、综合后装载到DW数据存储区中。从仓库数据到应用数据的第三次ETL过程,包含了从仓库数据到数据集市和从仓库数据到数据挖掘样本数据的ETL过程,从DW抽取数据后,以面向应用方式为管理业务提供数据支持。
本层次的存储还包括数据仓库元数据、ETL日志、ETL调度规则、ETL规则和ETL前后置处理程序等。
图3 数据转换及存储层
数据访问层是用户通过数据访问层来获取数据中心的信息与系统进行对话的界面。该层是一个典型的层次体系结构,由界面层、业务逻辑层和数据层组成,基于J2EE架构的MVC开发模式结构如图4所示。
1)界面层:主要是Web Portal和知识管理,Web Portal将用户接入到系统中,由知识管理负责为客户生成定制化的访问界面,同时辅助用户进行决策分析;
2)业务逻辑层:包括统计分析应用(如:统计报表、OLAP、数据挖掘、即席查询)和KPI、EIS、专题分析等应用逻辑组织;
3)数据层:包括数据挖掘样本数据、数据集市等。
应用接口是信息访问的另外一个功能,根据通用接口应用协议制定的规范接收外部应用请求,并按照规范生成接口数据。
图4 数据访问层
数据访问层是用户获取分析数据和提取数据过程中包含的知识窗口。本系统提供了多种数据访问方式,具体数据访问方式包括:多维分析、预定义报表、即席查询、数据挖掘和Web查询等。
数据中心对数据交换与共享机制予以支持,所有参与数据交换与共享的分布式应用系统都被视为交换节点,数据中心为中心节点。其实现的模式如图5所示。
1)节点必须首先在中心进行注册,取得节点标识。节点与中心进行数据交换时,中心通过节点标识信息确认消息的来源方(即发送方)和目的地(即接收方);
2)数据中心的数据采集由节点通过数据上传的方式来实现;
3)数据中心的数据来源于各节点,节点负责维护业务上归属本节点的信息数据,成为该数据业务归属节点;
4)当节点的数据更新后,通过定时或实时方式将更新数据上传到数据中心;
5)数据校验是为了保证数据中心采集的数据与该数据业务归属方数据的一致性。中心作为数据校验的发起方,将校验数据发送到该数据业务归属节点进行数据校验,校验结果由节点返回;
6)节点可以在中心订阅所需数据,当订阅数据发生更改后,中心将更新数据发送到订阅节点,从广义上实现异步方式的数据同步;
7)中心可以通过广播方式向各节点发送管理类信息;
8)数据中心向各节点提供数据的查询服务,实现信息共享。
图5 数据交换与共享机制
本文所设计的数据中心平台规范了统一的数据标准,通过先进的数据采集转换技术,以松耦合的方式实现了各业务系统的业务流、资金流与信息流数据有效的采集与共享,形成统一的信息资源体系。数据中心平台支持OLAP(联机分析处理),可以把非实时要求的分析查询功能从各个业务系统中分离出来,从而明显减轻对业务数据库的压力,提高各个业务系统的响应速度和处理性能。
数据中心平台作为共享数据管理的中心,为联机分析处理、报表分析、数据挖掘等应用提供了重要的数据支撑的服务。通过数据中心平台,企业的管理系统可以对各业务系统数据源进行有效整合,形成数据集市,为企业的科学决策提供有力的支持。
[1] 陈启买, 贺超波, 刘海. 基于OLAP的高校教学协同决策[J].计算机应用, 2009, 29(1): 304-305, 333.
[2] 屈霞, 刘自强, 张小鸣. 基于J2EE/MVC Model2的公共图书管理系统的研究[J]. 计算机工程与设计, 2009, 20:4651-4653, 4657.
[3] 姚家奕. 数据仓库与数据挖掘技术原理及应用[M]. 北京: 电子工业出版社, 2009.
[4] 刘明德, 陈湘. 数据挖掘与OLAP理论与实务[M]. 北京:清华大学出版社, 2003.