数据集市技术在高校信息管理中的研究与开发*

2014-11-27 12:12孙淼洋
中国教育信息化 2014年5期
关键词:关键字数据仓库集市

陈 锋,孙淼洋

(1.辽宁医学院 现代教育技术中心,辽宁 沈阳121001;2.辽宁铁道职业技术学院 电气工程系,辽宁 沈阳121001)

一、前言

对于高校以往信息管理中所沉淀的海量历史信息,亟待一个全新的技术方案对其进行整合集成以便发挥其应有作用,这种技术方案一般会以创建数据仓库的方式来实现。

数据仓库项目结构复杂、人力物力投入大、开发周期长,难以满足高校的实际应用需求。与数据仓库理论基础同出一辙的数据集市通过构造面向主题的多维数据集,进而实现一个或多个部门的决策支持与数据挖掘。数据集市与数据仓库项目相比具有如下优势:(1)数据集市管理的数据规模较小;(2)用户可根据需要定制数据;(3)数据集市项目建设周期短,开发成本较低;(4)数据集市允许用户根据需求增减数据规模,具有良好的拓展性能;(5)数据集市可将计算任务部署于多个工作站,实现分布式计算,能够提升系统稳定性和自治性。

二、方案论证及项目总体架构

信息系统的开发主要有自顶向下与自底向上两个基本建设方案。其中自顶向下建设数据仓库能最大限度减少信息集成所带来的技术问题,是较理想化的技术解决方案。但自顶向下建设模式往往导致项目开发周期过长、难以产生阶段性研究成果,且开发出来的系统灵活性和扩展性都较差。因此,高校在构建数据仓库时应遵循渐进、分阶段、分步骤的建设策略:即采取自底向上的建设方案,可先开发高校内部某一主题的数据集市,待建设成功后再陆续开发其他主题的数据集市,最后通过系统集成构建一个相对完整的高校数据仓库体系。

数据集市项目涵盖信息集成、信息处理、数据建模、数据挖掘与数据展现等诸多复杂的软件行为活动。本文结合高校成本办学数据集市的具体工程实践介绍一下有关数据集市项目的创建过程。基于高校办学成本的数据集市项目具有多层体系架构如图1所示,即分别是数据准备层、数据处理层、数据集市创建层、数据展现层及数据仓库与数据挖掘层。

图1 项目系统总体结构

第一层:数据准备层,该层主要负责数据集市筹建前期的数据准备工作,业务信息系统的数据库,外部文档及残留系统数据要经过此层进行收集整理。第二层:数据处理层,在整个体系结构中,数据处理层起着承上启下的重要作用,负责接收从数据准备层传递过来的数据,并完成对上一层数据的清洗、转换工作,为数据集市的创建做数据准备。第三层:数据集市创建层,该层主要负责数据集市的创建活动,包括维度、基本事实表的生成,数据集市逻辑结构的架构等。第四层:数据展现层,该层通过访问数据集市,并利用软件工具对其多维数据集进行数据展现,为用户提供基本的视图查询功能,同时也为下一层数据仓库的创建提供数据源。第五层:数据仓库与数据挖掘层,该层通过上一层的数据汇总与集成,创建数据仓库并在此基础上开展相关数据挖掘活动。

三、数据集市项目的总体建设原则

数据集市的创建与设计应遵循如下几项基本原则:数据仓库体系架构中的重要组成部分:(1)开放性:在创建数据集市项目过程中,需要规范完备各类设计开发文档,建立、评估创建数据集市的标准化流程,明确创建数据集市所需的数据源,系统的软硬件运行参数,保证整个项目活动做到开放、透明。(2)扩展性:数据集市的创建应具备良好的扩展性,创建数目可随工程项目的实际需要动态剪裁,允许设计者删减数据集市,而不影响整个项目总体设计的架构及实施进度。(3)可靠性:采取多种手段,保证项目设计可靠、实施可靠、运行可靠及维护可靠。(4)阶段性:在设计过程中充分发挥多层体系结构的优势,使系统架构中的每个层次都能产生相应的阶段性成果,保证系统能够提供不同粒度级别的统计分析及决策支持。

四、数据集市创建的流程与步骤

目前,学术界对于数据库的创建与设计有成熟的理论基础,但有关创建数据仓库(集市)的理论和方法学尚不完善。本文结合高校成本办学数据集市的具体工程实践,整理出一套有关数据集市创建流程。如图2即是数据集市项目创建流程示意。

图2 数据集市创建流程示意图

基于高校信息系统下的数据集市在创建过程中主要有如下几大步骤:(1)首先要确立高校数据环境下数据集市的研究主题;(2)寻找高校核心业务部门的数据源:包括业务数据库,外部报表、文档等;(3)运用ETL及建模软件将高校已有的联机业务信息系统转换为联机事务分析系统,此环节是构建数据集市项目中的最复杂、最重要的工程实践环节,在实际项目中还可将此步骤分解为具体的五个软件行为活动:1)分析OLTP的实体关系图;2)构建数据集市逻辑模型;3)划出数据集市中基本事实表、维度关系表和元数据;4)评审当前逻辑结构;5)将OLAP的逻辑结构转换成物理结构。(4)利用商业智能环境将联机事务分析系统转换为数据集市,并在此基础上开展相关数据挖掘。

五、多维数据集建模规范及适用性技术

在构建数据仓库(集市)过程中,人们注重系统的架构、逻辑模型选型,对于数据的存储格式并未给予太多关注,在实际工程实践中,数据结构类型选取的正确与否,将直接影响到数据集市的设计、实施及日后的维护工作。所以,在筹建项目之初就应对数据类型的选取加以重视,本文结合数据集市建设的实际情况,提出有关数据建模的一些基本技术准则和数据规范。

1.其中有关维表的一般通用性适用数据准则

(1)维表的属性应大多是文本型且是可离散化的;(2)维表的关键字最好是数组型的,以满足事实表海量数据代理关键字要求;(3)维表的关键字必须能够可维护的;(4)维表的关键字集合必须包含事实表中的代理关键字集合。

2.有关事实表的一般通用性适用数据准则如下

(1)事实表的关键字一般应是数值型;(2)事实表的度量一般应是数值型、逻辑型,不宜用字符型;(3)事实表结构应尽量简洁,不应存储冗余文本;(4)事实表中的代理关键字集合必须包含于对应维表关键字集合。

六、结束语

数据集市技术在高校信息管理中有独特的地位和应用。首先,数据集市技术能够实现学校各部门内数据的集成与汇聚,能够将多个孤立的数据源整合为统一的数据分析模型;其次,数据集市技术可充分满足校园用户定制数据的要求,能够支持不同粒度、不同层级的数据查询与统计报表,能够显著提升整个学校的信息管理水平;再次,随着高校内部的信息资源日益庞大,数据挖掘等信息的应用将越来越被高校管理层所期待和重视,数据集市的介入则能够为高校开展数据挖掘与知识发现奠定良好数据环境和技术基础。

[1]张雅茜.独立数据集市若干关键技术的研究[D].沈阳航空工业学院,2007.

[2]杨雪峰.数据集市系统的分析与设计[D].北京邮电大学,2011.

[3]李原.基于数据仓库的高职院校教学质量评测研究[D].湖南大学,2011.

[4]潘宝娟.数据仓库/数据集市体系结构的改进[J].现代计算机,2006(12).

[5]李聘.元数据在数据仓库中的研究与应用[D].西北石油大学,2007.

[6]杨晓,任清珍,苏灵.数据仓库、数据集市和数据挖掘[J].现代计算机,1998,01.

[7]高亮.高校数据仓库建设研究[J].武汉大学学报(理学版),2012,S1.

[8]陈树胜.数据仓库和OLAP在高校人事信息管理中的应用研究[D].上海师范大学,2010.

猜你喜欢
关键字数据仓库集市
履职尽责求实效 真抓实干勇作为——十个关键字,盘点江苏统战的2021
基于数据仓库的数据倾斜解决方案研究
热闹的集市
成功避开“关键字”
基于数据仓库的住房城乡建设信息系统整合研究
探访于山“相亲集市”
探析电力系统调度中数据仓库技术的应用
基于数据仓库的数据分析探索与实践
热闹的集市
智能垃圾箱