文/聂明辉
数据仓库支持高校管理决策
文/聂明辉
校园数据应实现有选择的整合,形成多维数据立方体。当然,我们需要的不仅仅是这个数据立方体,更重要的是挖掘出隐藏在立方体中的信息资源。而要获得信息资源,我们必须制定详细的数据挖掘策略。
纵观十几年的发展历程,我国数字化校园建设大体上经过了以下三个阶段:
第一阶段,校园网络化。即通过大量购置网络基础设备组建互联网。
第二阶段,资源数字化。网络的特性决定了只有数字化的资源才能在其上运行,也只有数字化资源才能更好地发挥网络的优势。所以第二阶段的主要工作就是应用软件和资源数据库的建设。
第三阶段,应用“集成化”。“集成化”是数字化校园建设的必然,包括门户集成、应用集成、数据集成等。“集成和整合”是目前各高校数字化校园建设的主要目标和方向。
江苏警官学院于2002年开始进行数字化校园建设,一期主要是架构校园网络;2006年开始数字化校园二期建设,主要是教务、教学、OA办公等应用软件的建设;2011年规划数字化校园三期建设,主要是门户以及各应用系统的集成和整合。目前,此项工作由笔者负责。
随着数字化校园建设的逐步深入,未来我们必将面临的一个重要问题就是海量数据的有效存储和优化处理。事实上,经过几年的运行,我院的数字化校园已经积累了大量的数据,而这些数据的价值并没有被充分地利用起来,甚至都没有引起足够的重视。如何更好地存储和利用这些数据是数字化校园三期建设必须重点解决的一个问题。经过一番研究和分析后,我院决定借用数据库领域成熟的研究成果,构建一套基于数据仓库技术的数字化校园信息平台。
图1 江苏警官学院数字化校园信息平台总体架构
设计目标和原则
江苏警官学院数字化校园信息平台规划有以下三大目标:
1. 集成教务、教学、科研、人事等多个业务系统,归于校园门户统一身份认证,进行单点登录;
2. 制定统一的信息标准,规范数据的维护、管理和使用;
3. 构建以数据仓库系统为核心的数据中心,优化数据的存储和使用,为学院各部门的持续发展提供数据支持,为学院领导的重大决策提供信息参考。
设计原则是统一规划、整体设计、界面易操作、系统可扩展、统一数据标准、重要数据永久保存及按需提取。
如图1所示,我院数字化校园信息平台采用的是SOA软件系统架构。SOA架构提供三方面的集成能力:数据、流程和界面。其中,数据集成是我院数字化校园信息平台建设的重点,也是难点。为此,我们考虑构建以数据仓库为核心的数据中心平台,将我院数字化校园的建设理念从单纯应用跃升到以信息促教学、以信息促科研、以信息促管理的更高层次。
数据仓库之父William H. Inmon在1991年出版的“Building the Data Warehouse”一书中提出:“数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。”数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定性和时变性。
图2是斯坦福大学“WHPS”课题组提出的一个数据仓库基本体系结构模型。事实上,我们目前所研究的任何一种相对复杂的数据仓库结构,都是由此基本结构发展而来。此结构的基本组成包括:
1. 外部数据源。为数据仓库提供最底层的操作数据库系统;
2. 监视器。负责感知外部数据源发生的变化,并按设定的需求抽取相关数据;
3. 中间集成器。将从操作数据库中抽取经过清洗、转换、加载等操作的数据,集成到数据仓库中;
4. 数据仓库。存储经过清洗、转换后的干净数据供分析处理用。根据不同需求,数据能够按不同深度进行存储。数据仓库中还存储元数据,元数据记录了数据的结构和数据仓库的变化等重要信息;
5. 客户应用。供用户对数据仓库中的数据进行访问查询,并以直观的方式展示分析结果。
构建数据仓库通常采用CLDS方法。所谓CLDS方法,是指与传统的数据库系统设计方法SDLC(Systems Development Life Cycle)截然相反的一种设计方法。通常,我们也把这种从已有数据出发的数据仓库设计方法称为“数据驱动”的系统设计方法。“数据驱动”的系统设计方法不再是面向应用的,而是从应用需求出发。这些工作已经在数据库系统设计时完成,其成果就是现有的数据库系统及其在数据库系统中的数据资源。数据仓库的设计其实就是从这些已有的数据库系统出发,按照分析领域对数据及数据之间的联系重新考察,组织数据仓库中的主题。
为了解决数据仓库架构的选择问题并清除所有的干扰,人们制定了DW2.0(全称是Data Warehousing 2.0)。DW2.0中有很多重要的构架特征。这些构架特征代表了DW2.0相对于第一代数据仓库在技术和构架上的进步:
1. 认识到数据仓库中数据的生命周期,按照数据的访问概率设立了仓库分区;
2. 认识到元数据的重要性,并按实际需要采取不同的方式进行存储;
3. 对于非结构化数据有了更好的处理方法。
数据中心以数据仓库为核心,整合相关业务系统数据库,实现统一的维护管理。主要流程架构如图3所示。
江苏警官学院数字化校园信息平台的数据仓库在设计时,尝试性地确立了三大主题,分别是学生、教工和科研。各主题及其相关建模分析如下:
1. 学生
学生是学校教学活动的两大主体之一,通过收集学生日常的学习、生活等各方面信息,我们能够直观地发现某些规律和趋向,为学院的管理和教学工作提供参考。以学生为实体,我们考虑用星型结构辅助雪花型结构设立五个维度,分别是基本信息(细分为年龄、籍贯、性别等个体相关的数据资料)、在校时间、在校成绩、生活消费(细分为校园内的吃、用等日常消费记录信息)、资源使用(细分为书籍借阅、上网时长、资源下载等记录信息)。
2. 教工
除了学生,学校教学活动的另一大主体就是教工,学校的正常管理和运作都需要教工来具体实施。以教工为实体,同样设计五个维度,分别是基本信息(细分为年龄、籍贯、职称等个体相关的数据资料)、资源使用、在校时间、科研成果、工作考核。
3. 科研
科研活动是学校除教学活动之外的另一个重要工作,而科研成果情况也是评价一个学校发展状况的重要指标。以科研为实体,我们考虑设计三个维度,分别是时间、人员(细分为基本履历、所属机构、学术档案等信息)、项目(细分为名称、经费、成果等信息)。
三大主题并不独立,而是相互关联的,它们的模型结构如图4所示。
数据粒度方面,我们按照数据产生年限,遵循由细到粗的处理原则。例如,交互区的数据在时间维方面,我们可以划分到周、日,而在整合区则为月、旬,到了归档区则以年、季作为时间单位。
有了详细的概念模型后,我们就能设计出具体的逻辑模型。以学生主题为例,我们可以设计如图5的逻辑模型。
最后,我们利用Oracle数据库开发工具,按照逻辑模型创建表格,完成整个数据仓库的物理设计。
信息平台的数据仓库按照数据访问概率设置数据生命周期“分区”。分区包括交互区、整合区和归档区。交互区同时又是业务系统共享库,为学院不同部门提供交叉数据调用,所以交互区的访问最为频繁。其次是整合区,经过按主题需要筛选后的数据就存储在这个区。通常情况下,整合区的有效访问数据被控制在3至4年内,此后,随着访问概率的下降,自动存储到归档区进行长期保存。
在整合区,校园数据实现了有选择的整合,形成了多维数据立方体。当然,我们需要的不仅仅是这个数据立方体,更重要的是挖掘出隐藏在立方体中的信息资源。而要获得信息资源,我们必须要做的一步重要工作就是制定详细的数据挖掘策略。
以学生主题为例。通过制定一系列的策略,借助多维数据分析工具,我们能够迅速了解到一个或一类学生在学院的生活学习情况。了解到他们在几个学年内的变化情况,而后通过这些变化所透漏的信息及时掌握学生的思想状况,采取相应的疏堵措施。
当然,策略的制定是因人、因部门、因需求而异的,并没有统一的规则,只有合适、合理地挖掘策略才能获取更有效的数据信息,也才能为学院教学和科研的持续发展提供更有价值的参考。
数据的存储和有效利用问题,是我国深入建设数字化校园必然要面对的一个重要问题,而数据仓库技术是未来我们解决数据问题的一个很好的手段和方法。本文所提出的基于数据仓库技术的数字化校园信息平台方案,还需要未来实践的检验,以及在后续工作中不断地充实和完善。
(作者单位为江苏警官学院现代教育技术中心)
备注:本文来自江苏警官学院青年项目(批准号:11Q02)