广东省水利数据中心数据架构研究

2014-12-24 06:52夏宁宁
科技视界 2014年20期
关键词:数据仓库数据挖掘数据中心

夏宁宁

(广东省防汛抢险技术保障中心,广东 广州510000)

0 前言

随着广东水利信息化事业的快速发展,先后启动了省三防指挥系统等骨干项目和实际应用,内涵涵盖多个职能部门和专业领域,并形成了海量水利数据信息, 由于缺乏有效的整合利用手段和共享平台,许多业务应用系统开发附带的具有公共价值的数据资源处于独立专用状态,形成“信息孤岛”。 广东省水利数据中心是一项大型信息系统工程,通过建立完善的水利数据库,有效汇聚全省水雨情信息,并按照一数一源的原则,优化数据库表结构,解决数据资源整合及共享问题,更好的为广东水利事业提供信息共享交换服务。

1 数据存储设计

数据中心的数据架构图如图所示,主要由ODS 区、数据仓库区、数据缓冲区(交换数据临时存储区)、非结构化数据存储区、元数据及资源信息目录等区域构成,并通过数据对上接口区与水利部进行数据交换,通过数据对下接口区实现与各地市及流域局的数据交换。

1.1 ODS 区

ODS 区即操作型数据存储区(Operational Data Store,ODS),存放集成的、可更新的、近实时的业务数据,用于业务系统与数据仓库之间的数据迁移,支持基于主题域的实时查询,省数据中心的ODS 区主要存放25 类数据库以及水利普查数据库。

为最大程度地集成既有业务系统完整的数据信息源,降低对业务系统的影响,ODS 区还辟有业务数据暂存区, 主要存放既有业务系统数据库的全量备份,并以此作为25 类数据库的数据来源。

图1 数据中心数据架构图

1.2 数据仓库区

数据仓库(Data Warehouse,DW)存放面向主题的、集成的、相对稳定的、反映历史变化的数据。数据仓库统一存放与管理经整合后、具有分析价值的历史数据与现状数据,支持基于大量历史数据的企业决策分析。 数据仓库区分两个层次,第一层次为Master 库,该库中的数据是面向主题存放的基础明细数据, 可用于决策支持。 第二层次为Master 库的子集,包含数据集市、数据挖掘库和共享信息库,数据集市面向特定的分析应用,数据挖掘库提供深层次的数据挖掘服务,共享信息库是根据特定需求从Master 库抽取的可共享的数据库。

1.3 元数据及资源信息目录存储区

本项目中,元数据用于存放ODS 和DW 中基础库、专题库、Master库中数据的机构信息,资源目录用于存放数据资源信息,通过资源目录体系建设,形成全省水利行业统一管理和服务的资源目录体系。

2 数据库设计

2.1 数据库架构

广东省水利数据中心数据架构ODS 存储区中,ODS 存储区如图2 所示,主要包含基础数据库、专业数据库、数据暂存区数据库和水利普查数据库,数据仓库中主要包含Master 数据库、主题数据库、数据挖掘库和共享信息库,其中Master 数据库对用户屏蔽,数据仓库通过主题数据库对外提供服务。主题数据库主要为基于数据中心的辅助决策类业务应用提供服务,由业务部门提出服务需求,数据中心根据需求信息生成业务模型,形成对应于业务需求的数据信息。 主题数据库提供的服务基于OLAP 业务应用,以海量数据为基础,能对数据进行汇总,建立多维度分析、 查询和报表, 侧重于决策支持。

2.2 数据整合设计

数据整合主要包括横向数据整合和纵向数据整合两个部分, 横向数据整合主要针对省厅各业务处室的现有业务系统数据整合, 该部分业务系统通过全量复制数据在ODS 层落地, 与标准数据库建立映射关系, 对数据进行标准化转换后存入标准化数据库中。 其中ODS 区的数据需要经过清洗、 转换后按照相应规则抽取到Master 库中, 再经过二次ETL得到面向应用主题的主题数据库以提供辅助决策功能。 纵向数据整合主要指地市系统与省系统、 国家系统与省系统的数据交换, 地市水利数据通过数据交换服务将数据发送到数据仓库的临时存储区, 然后再经过ETL 方式将数据载入数据中心ODS 层对应数据库。 省级系统与国家系统的数据交换同样通过数据交换平台按照水利部提供的业务数据需求实现数据上报。

图2 ODS 存储区结构图

3 元数据

元数据被称为“关于数据的数据”目的是使数据能够被正确理解和解释。 广东省水利数据中心覆盖到端到端的元数据体系如图3 所示。

图3 数据中心元数据分布图

元数据主要分布在以下几个环节:

数据建模工具的元数据: 其数据项包含以下对象 (包括但不限于):Model,ValidationRule,DefaultValue,Transform,Table,Column,Key(primaryKey,forei-gnKey,NonUniqueKey),Relationship。

数据库(ODS&DW)元数据:用来存储数据仓库的数据实体信息,该部分包含的元数据项至少有以下对象(包括但不限于):Catalog,Schema,Table,View,Column,Procedure,SQLIndex,Trigger,CheckConstraint。

ETL 工具元数据:该工具的核心作用是对数据的处理,包括数据抽取、转换、清洗、装载的过程。 ETL 工具的元数据体现为一些数据流图,其描述数据处理过程(Transformation),分析数据的来源及输出等。ETL 元数据包含以下对象(包括但不限于):repository;task(包括的类型 有Workflow,Session,Command,Email,Worklet,Decision,Event ait,Event Raise,Timer,Assignment,Control);Task (Mapping 里 的Sources,TargetTransformations) 等。OLAP 工具元数据:OLAP 展现在用户面前是一幅幅多维视图。 其元数据主要包括维的层次、 维的成员、度量的信息等。

BI 前端工具元数据:BI 工具属于业务层面的工具,其主要包含的元数据是对统计分析指标的业务定义、 统计口径定义等。

4 数据服务设计

数据中心ODS 区各类数据库资源以及数据仓库中Master 库对用户屏蔽,用户通过共享信息库和主题数据库访问数据中心的数据资源。

共享信息库是指通过将实体数据根据业务需要抽象出来可供多个业务应用访问的可共享信息仓库,用户并不能直接访问Master 数据库中的数据资源,在一定程度上保证了数据安全,又可以保证业务系统的基本稳定。

主题数据库为基于数据中心的辅助决策类业务应用提供服务,由业务应用向数据中心提出申请,数据中心根据申请主题形成业务模型,生成对应于业务的事实表和应用与模型的维信息,主题数据库的数据主要通过ETL 工具生成。

事实表(Fact Table),数据仓库架构中的中央表,是存储可度量的值的详细数值或实际数值的关系数据库中的表格,包含联系事实与维表的数字度量值和键。

维表(Dimension Table),数据仓库中的表,其条目描述事实数据表中的数据,维表包含创建维度所需的数据。

5 结语

广东省水利数据中心是全国首个省级水利数据中心,通过对数据中心数据架构的分析和研究,总结数据架构设计和汇交方式,通过存储分区结构,实现数据的快速查询、数据挖掘和信息共享,通过数据整合设计实现数据的横向整合和纵向整合, 为主题数据库提供辅助决策,并实现地市和省级节点向国家节点的数据上报,通过数据库及数据服务设计,定义数据库结构和元数据体系,确定数据中心对外提供服务的方式。 目前对水利数据中心的研究还存在很多难点,下一步要解决的问题是如何利用数据中心中的大量数据为为预测洪涝灾害提供决策支持,希望通过本次研究能对广大同行有所帮助。

[1]刘晓茜.云计算数据中心结构及其调度机制研究[D].合肥:中国科技大学,2011.

[2]邓维.云计算数据中心的新能源应用:研究现状与趋势[J].计算机学报,2013,(3).

[3]郑华锋.宁德市水电开发[M].北京:水利水电出版社,2008.

[4]刘志强,潘志德,蔡阳.等.水利信息化[M].长沙:中南大学出版社,2007.

猜你喜欢
数据仓库数据挖掘数据中心
酒泉云计算大数据中心
基于数据仓库的住房城乡建设信息系统整合研究
民航绿色云数据中心PUE控制
基于并行计算的大数据挖掘在电网中的应用
分布式存储系统在液晶面板制造数据仓库中的设计
探析电力系统调度中数据仓库技术的应用
一种基于Hadoop的大数据挖掘云服务及应用
基于数据仓库的数据分析探索与实践
基于云计算的交通运输数据中心实现与应用
Overlay Network技术在云计算数据中心中的应用