一种基于共享数据平台的高校数据集成方法

2013-03-14 06:07黄健荣邹木春黄玉健
梧州学院学报 2013年3期
关键词:教务梧州数据源

黄健荣,邹木春,黄玉健

(1.2.3.梧州学院现代教育技术中心,广西梧州543002)

一种基于共享数据平台的高校数据集成方法

黄健荣1,邹木春2,黄玉健3

(1.2.3.梧州学院现代教育技术中心,广西梧州543002)

阐述共享数据平台的基本工作原理,根据梧州学院实际需求对共享数据平台的概念模型、数据源选择和数据抽取进行研究分析,提出一个实现高校数据集成的方法。

信息孤岛;共享数据平台;数据集成;数据抽取

1 引言

随着计算机技术和校园网络的发展,高校信息化管理也有了很大的发展。以梧州学院为例,梧州学院现有教务管理系统、学生缴费管理系统、图书管理系统和针对教职工用户的院内信息管理系统等,这些系统除了院内信息系统是自行开发的之外,其他应用系统都是由不同厂商开发的商业软件,经过数年的运行,这些系统已经积累了宝贵的数据资源。但是,由于各个应用系统运行在不同的环境中,使用不同的数据库,彼此间没有数据访问接口,无法自行实现数据交换,各系统彼此独立运行,形成了一个个“信息孤岛”。随着学校的发展,新的需求不断提出,“信息孤岛”所引发的矛盾日益突出,严重制约了学校信息化建设。信息系统集成是解决现存信息孤岛问题的一个有效方式,而数据集成是信息系统集成的核心问题[1],本文通过构建共享数据平台在梧州学院实现了数据集成。

2 共享数据平台

2.1 共享数据平台模型

共享数据平台是对信息管理系统数据进行组织、存储、查询、通信等管理服务的数据库系统,其目标是为学校提供一个统一的数据存储模式[2],建立跨系统异构数据库的数据交换平台,使全校各信息系统的基础数据保持一致,避免数据的重复录入,同时对学校跨部门的数据统计分析提供数据支持,结构如图1所示。

图1 共享数据平台结构图

2.2 共享数据库

共享数据库主要保存各信息系统中重复使用率比较高和对学校管理决策有影响的公共数据,共享数据的目的就是与其他信息系统进行数据交互,因此共享数据库应采用统一的数据格式,格式符合《国家经济信息系统设计与应用标准化规范》和《高等学校管理基本信息集》等规范[3]。共享数据库概念模型和数据来源有以下几个方面。

2.2.1 用户角色信息集:用户角色信息集用于保存统一用户认证登录所需的用户名、密码以及原有应用系统中的用户、密码和系统名称。

2.2.2 学生信息集:学生是高校信息管理中最大的主体之一,高校信息管理系统很大一部分功能是对学生的管理,如学工管理、教务管理、校园一卡通等等,学生信息是重复使用率最高的信息之一,学生信息集主要是学生的学籍信息。学生信息的来源可以是学工管理系统或者教务管理系统,由于梧州学院当前没有学工管理系统,因此学生信息来源从教务系统中抽取。

2.2.3 教职工信息集:教职工是高校信息管理中最大两个主体的另一个,教职工信息也是重复使用率最高的信息之一,如教务管理、科研管理、人事管理等都与教职工相关。教工信息主要包含教职工的职工号、专业、学历、职称、职务等基本信息。梧州学院教职工信息集的来源由院内信息系统和教务系统联合生成。

2.2.4 教学信息集:教学工作是学校最大的活动,教学信息是教学质量监督的重要数据来源,对学校决策有重要的影响作用,教学信息包含学生选课记录、教师教学任务、课程表信息、学生成绩信息,调停课信息等;教学信息的主要来源是教务管理系统。

2.2.5 科研信息集:科研工作是学校除了教学活动之外的最大活动,科研工作是高校教师的主要工作之一,科研信息也影响着学校的决策,科研信息主要为教师的论文发表信息、项目信息、获奖信息等,但由于梧州学院还没有科研管理系统,科研信息集为预留项目。

2.2.6 财务信息集:财务信息主要为学生学费缴费信息,学生欠费是各高校都存在的问题,其数据对学校决策有着重要的作用,财务信息集的数据来源为学生缴费系统。财务信息的另一重要内容是学校的财政数据和教职工的工资数据。

2.2.7 其他。

2.3 数据交换中心

数据交换中心是共享数据平台的核心部件,其主要任务是协调各数据源使其基础数据统一,即对数据源进行数据抽取、清洗、加载(ETL)和数据订阅工作。数据交换中心位于异构数据源系统和共享数据库之间,向下对异构数据源进行抽取,向上将抽取到的数据清洗后加载到共享数据库,或者通过数据订阅的方式将共享数据库的数据按需要转换后加载到需要用到的数据库中。数据交换中心对数据源系统和接受数据的系统来说是透明的,数据的获取和订阅工作不影响原有系统的正常运行。

2.3.1 数据的抽取清洗加载实质是对连接数据源、读取源数据、根据规范转换数据、写入目标数据库的过程,其难点是对数据源的抽取。抽取数据源或数据订阅前都需要做大量的调研工作,调研工作需要了解哪些表格是存储所需数据,是否存在非结构化数据等问题。共享数据平台的数据来自不同的系统,不同的数据源有不同的抽取方法,对数据源的抽取通常有全量抽取和增量抽取两种方式。全量抽取是将数据源读取后按照规定格式写入到共享数据库中,数据量不大或者更新频率较小的数据,或者是非结构化的数据都可以使用全量抽取,例如机构设置表就可以使用全量抽取,全量抽取前应删除共享数据库中相应的数据。增量抽取是抽取上一次抽取后发生改变的数据,增量数据包括新增、修改和删除过的数据,数据源数据量较大,而且更新频率较大时可以使用增量抽取。获取发生改变的数据是增量抽取的关键,获取增量数据常用的方法有以下4种[4]。

第一种是扫描时间截数据法:对含有更新时间的数据源,可以通过对比上次更新时间来判断哪些数据是新增数据,比如教务信息的调停课申请表可以按照审批时间进行增量判断。

第二种是触发器及数据的复制法:通过在数据源的表上建立触发器,将发生改变的记录保存到临时表上,再从临时表上定期抽取数据,触发器及数据的复制法是比较有效和常用的数据抽取方法,如用户角色集、学生信息集、教师信息集等均用此方法抽取数据,但对数据源系统会有一定的性能影响。

第三种是日志对比法:日志对比法是通过对源数据库日志文件分析获取增量数据。

第四种是全表对比法:全表对比法是源数据表与目标数据表的记录逐条对比判断发生变化的记录。

对数据的抽取工作可根据数据的性质采取定期自动抽取和手工抽取模式进行,对更新频率大或者更新频率无章可循的数据采用定期自动抽取,对数据更新周期较长的数据采用手工抽取,如用户角色信息和教务信息中的调停课信息可以每2小时左右抽取一次,学生信息集和教工信息集可以每7天左右抽取一次,而教务信息中的教师教学任务和学生成绩等信息则可以3个月或6个月才抽取,对自动抽取周期较长的数据同时提供手动抽取模式。

2.3.2 数据的订阅是将共享数据库中的数据按使用数据的系统要求格式转换后加载到其数据库中,是数据抽取的逆向过程,各系统通过数据订阅实现数据的统一。数据订阅对共享数据的抽取使用时间截方式获取更新数据源。

3 总结

“信息孤岛”是各高校普遍存在的现象,本文描述的方法已在梧州学院实现了数据共享和集成,为学校信息管理系统的集成奠定了基础,也为新的业务系统的开发提供基础数据支持。本方法具有建设周期短、开发成本低的特点,既保存了原有信息系统的独立性,又实现了数据资源共享,为高校解决信息孤岛问题、实现数据集成提供参考方案。

[1]龚尚福,席曼,李雅玲.信息系统集成与数据集成策略[J].西安科技大学学报,2008(6).

[2]裘慧奇,陈世平.数字校园共享数据平台模型探讨[J].科技信息,2008(11).

[3]徐荣.复旦大学共享数据平台的分析与设计[D].复旦大学硕士学位论文,2005.

[4]王天亮,陈刚,徐宏炳.基于共享数据库的数据共享技术[J].计算机工程与设计,2007(4).

A University Data Integration M ethod Based on Shared Data Platform

Huang Jianrong1,Zou M uchun2,Huang Yujian3
(1.2.3.M odern Educational Technology Center,W uzhou University,W uzhou 543002,China)

Expounding the basic working principle of shared data platform,researching and analyzing the conceptualmodel of the shared data platform,data source selection and data extraction according to the actual needs of Wuzhou University,this paper proposes a university data integrationmethod.

islands of information;shared data platform;data integration;data extraction

TP393.09

A

1673-8535(2013)03-0020-04

黄健荣(1978-),男,广西桂平人,梧州学院工程师,研究方向:软件工程与计算机网络。

邹木春(1969-),男,广西苍梧人,梧州学院副教授,研究方向:无损检测。

(责任编辑:覃华巧)

2013-04-23

黄玉健(1975-),男,广西藤县人,梧州学院讲师,研究方向:软件工程。

猜你喜欢
教务梧州数据源
中共梧州城工委
教务排课对高等院校教学运行的作用分析
浅析新时期高校教务管理工作创新探讨
梧州工人运动的急先锋
Web 大数据系统数据源选择*
基于不同网络数据源的期刊评价研究
八十多载后寻访梧州
梦梧州(外两首)
浅谈新形势下高校教务管理人员的素质与培养
基于真值发现的冲突数据源质量评价算法