基于ODI的高校数据中心研究与实践

2015-11-24 11:05林华治虞铭辉
中国教育信息化·高教职教 2015年6期
关键词:高校信息化信息孤岛数据流

林华治 虞铭辉

摘 要:目前高校业务系统不断丰富,同时也形成了“信息孤岛”,通过构建数据中心可以解决该类问题,本文分析了目前高校业务系统建设中存在的主要问题、高校数据中心建设的模式和主要技术路线,提出了基于ODI的数据中心建设模式,在浙江树人大学加以实践,并选取教工流进行深入研究。

关键词:ODI;数据中心;信息孤岛;数据流;高校信息化

中图分类号:TP315 文献标志码:A 文章编号:1673-8454(2015)11-0086-04

一、前言

随着高校信息化建设不断深入,各类应用系统产生的大量数据形成了各自的“信息孤岛”,使各个应用系统之间无法互联互通,产生了大量问题,这些应用系统的建立给学校的管理带来负面影响,主要存在以下问题:

(1)很多业务系统的建立是遵循老的业务规则,往往会以部门为边界或者按部门内分工进行,各自维护自身的系统和数据,形成了屏障,使数据无法良性共享,这样当业务需要进行跨系统交互时就会很困难,而学校大量业务流程需要跨部门开展,这样业务系统对于全校性的业务支撑力度不够,现实的情况是,很多业务系统在建设初期设想了很多功能点,但是到最后能用上的寥寥无几。

(2)没有统一的信息标准,每个业务系统在建设的时候采用自己的命名规则和代码集,这样在系统设计的时候对于数据规范性就缺乏考究,即便有数据但由于格式不对也无法顺利地传递给其他业务。

(3)数据以不同的形式广泛分散于各个部门、业务系统、人员,在业务系统中以结构化的数据为主,很多还未纳入信息系统的业务产生了非结构化的数据,并且这些数据还是存放在个人电脑上,无法确保信息安全、必要冗余和高可用性。[1]

(4)各业务系统一般只建设面向该业务的简单查询,实际过程中真正有价值和迫切需查询的数据是面向全校的,而不局限于单一业务本身,但由于全校重要的信息没有唯一和统一的存放点,例如学校领导一般比较关心学生信息,而学生基本信息在学工系统,学籍信息在教务处,住宿信息在后勤部门,图书借阅信息在图书馆,单个业务系统势必无法满足全面的信息查询和使用需求。

(5)缺乏信息积累机制,数据无法得到有效的搜集、存放和利用,世界的本质是信息,在高等教育过程中产生的各类信息无法记录下来,在信息社会和大数据时代是很可怕的事情,数据资源对学校今后的发展有着极具重要的战略意义和指导意义,例如分析学生的行为记录与成长轨迹的关联可以为学生培养模式的制定提供非常好的决策支持。[2]

上述问题在各个高校中基本都存在,程度不一,一般高校的解决方式都是在门户层统一信息、展示入口,关键在于数据层依据信息标准构建全校性的数据中心来实现数据交互、沉淀和挖掘,选择好的数据中心技术框架、建设模式特别重要。本文通过分析传统的数据中心模式,提出了基于ODI(Oracle Data Integrator)的数据中心解决方案,从数据中心架构模型、应用效果等几个方面进行了深入的研究和实践。

二、高校数据中心现状

目前来说各大高校都在进行数据中心建设,对于高校数据中心的研究也在不断深入,截止到2015年1月27日,在中国期刊全文数据库中以数据中心为主题作为关键词检索,有 4707条记录,其中关于高校数据中心建设有746条,可见数据中心的建设是高校信息化的核心点、热点,同时也是难点。目前来说高校数据中心建设模式上大部分高校采用纯外包或者半外包的形式,即公开招标找社会上的软件公司为其设计和建设数据中心,但是每个学校的情况差异比较大,数据中心很难作为一种成熟的产品实施,它要求校方深入参与期间的每个过程,同时需要全校其他部门全力配合才能构建一个较为完善的数据中心;从技术路线上来说目前较为热门的是基于SOA架构的数据中心,该架构的特点是高内聚低耦合,实现了功能点的分离,但是现实的情况是如何界定功能点、原有的业务系统如何融入SOA架构、总线如何编排都是很大的挑战,实施起来难度比较大。[3][4]

三、浙江树人大学解决方案

1.信息化现状

和绝大部分高校一样,树人大学现有业务系统繁多,业务系统之间相互独立,数据无法共享,形成了数据孤岛,而且没有全校性的数据标准,数据质量堪忧,在这样的背景下,启动了数据中心建设,经过多方考察和研究,确定了用ODI作为数据中心的核心技术平台,并参照教育部2012年最新信息标准制定了学校标准。

2.解决思路

我们提出了基于ODI构建数据中心的思路,该模型的特点在于关注数据流,而不拘泥于展示技术,打通最底层的数据流,实现业务系统的互联互通。在高校中有三项核心数据流——人员流、物流、财流,这是高校所有业务系统的根本,大部分业务都是以其为载体,很多业务系统的交互和共享也与其有关,我们用商业化、成熟稳定的软件工具ODI作为基础平台,该平台具有强大的数据整合能力,可以抽取、下发、编排各种数据,支持绝大部分的数据库,并且是充分利用数据库系统自身的能力进行数据转换,减少网络流量、平衡和提高性能的同时降低投入总成本。[5]

3.ODI技术架构

基于ODI的数据中心整体架构如图1所示,通过数据交换平台将各类数据源进行清洗、转化后形成符合数据标准的范式进入数据中心库,数据中心库采用的是与ODI同家厂商的ORACLE,常见的数据源有关系型数据库,如ORACLE、MYSQL、SQLSERVER、DB2等,常见文本有WORD、EXCEL等,还有其他数据源例如TXT文件,ODI均支持,ODI支持断点续传,即当发生异常,常见的是网络不稳定导致的数据交换过程中断,当网络恢复正常可以延续异常前的工作,这样确保了数据的一致性和数据中心的稳定性。

ODI主要定位于在ETL和数据集成的场景里使用。ODI和Oracle原来的ETL(Extract-Transform-Load)工具OWB(ORACLE另外一个数据抽取工具)相比有一些显著的特点,比如和OWB一样是ETL架构,但是比OWB支持更多的异构的数据源。

ODI提出了知识模块的概念(Knowledge Module),通过知识模块可以复用原有的项目的过程,因为大部分的数据转换过程类似,都是从一个数据源到另一个数据源,ODI里有100多种常见的知识模块,同时也可以自定义知识模块,这样可以实现模块的复用,ODI知识模块是由Jython脚本语言结合数据库的SQL语句录成。[5]

四、以树人大学教职工流为例

本文以树人大学教职工流为例来说明ODI的实际场景的运作过程,树人大学原有人员归口比较繁杂,没有统一归口,通过整合梳理后使所有教职工都归到人事系统,原先业务系统之间没有联动,经常会发生教职工已经离校但是其他业务系统里还有该人员,并且账号还能正常使用等情况,这是由于部门之间沟通不够顺畅导致或者说没有一个机制来管理这个过程,我们通过构建基于数据中心的教职工流可以很好地解决该问题,实现人员的自动化和全生命周期管理。[6][7]

教职工涉及的主要业务系统有办公自动化系统、教务系统、财务系统、资产管理系统、人事管理系统、图书馆系统、一卡通系统、档案系统等,教职工相关业务有入职、校内信息变更和离职三大类,通过基于ODI的数据中心构建的数据流如图2所示,该图列出了两种流形式——新教工入职流和信息变更流(涵盖离职)。

1.新教工入职

新的教职工的进校,在人事系统录入相应的数据,则马上将数据发送到中间库,对于符合数据中心质量要求的数据将通过ODI直接抽取到标准库,数据质量要求主要指数据的长度和格式是否符合数据标准、必要字段是否齐全等,进入到标准库后,数据中心将数据推送到各个业务系统的中间库,然后由各个业务系统根据需要将数据抽取到业务系统,在这里使用中间库的原因在于,各个业务系统一般都是由不同厂商完成的,为了避免公司间的推诿和不对原有系统造成破坏采用中间库机制,其中离职流中数据中心同步到业务系统时一般以改变教工的在校状态达到账户冻结而不是进行物理删除,因为用户在业务系统中有相关的使用记录数据,如删除会对业务系统产生无法预见的影响。

2.教工流数据标准

人事系统到数据中心阶段按照前期制定数据标准,有23项数据需提交给数据中心,其中与人员流有关的主要数据表有教职工基础数据子类表、个人通讯方式子类,这些数据是其他系统迫切需要的,教职工基础数据子类表如表1所示,列出比较重要的一些字段,其中工号、单位号、证件类型、证件号、教职工类别码和教职工当前状态不能为空,因为其他业务系统接收到数据时如这些字段不全则无法成功添加和更新人员信息,如表1所示,人事系统表对应到人事中间库,ODI实时监测人事中间库的变化,并同步到数据中心,并下发各个相关业务系统。

3.人员下发规则

以数据中心到教务系统为例,教务系统仅针对需要使用教务系统的教师开通,要对人员进行过滤筛选,如表2所示,表中标明“是”的教工类型,将自动下发到教务系统,默认开通普通用户权限,特殊权限由教务管理员单独授予,选取了其中主要几个对应关系。

4.ODI教职工流配置

在ODI中对于数据流的配置是由程序包和接口组成,程序包由多个接口组成,每个接口完成各自的数据交换工作,本项目采用的命名规则是取业务系统的拼音,例如BZK代表的是标准库,图3的程序包实现的是人事系统的数据抽取到数据中心,然后下发到教务系统、一卡通系统、OA系统、科研系统、图书馆系统等,在这里与一卡通系统对接过程存在数据的双向交换,实现教职工一卡通物理卡号的分配,因为图书馆管理系统的子系统门禁管理系统需要物理卡号,该程序包设置成一秒钟轮询执行一次,如在一秒钟内发现数据异常该程序包便会启动。

五、成效与展望

目前数据中心已经运行2年多,总体平稳,已经累计实现了102934条信息的新增和更新,实现了人员自动化管理,教工数据源头人事系统一旦改变人员状态其他业务系统便做相应调整,同理教务系统的学生学籍状态改变也会及时同步到各个业务系统,这样大大减低了人工的误操作率,优化了学校管理流程,提高了整体的服务水平。

数据中心建设实现了人员的统一归口管理,但是对于业务间的关联操作还未进行系统梳理以及数据积累后还没有得到很好的利用分析,这将是今后努力的方向。

参考文献:

[1]王磊,李林林,周学理.浅析高校数据中心建设的问题及对策[J].科技与管理,2006(6):144-146.

[2]史鑫,朱巧明,李培峰,孔芳.面向数字化校园的共享数据库中心的设计[J].苏州大学学报(自然科学版),2006 (3):37-41.

[3]彭小斌,陈晨,邓可君,闫保桦,史诗.高校信息化现状分析[J].武汉大学学报(理学版),2012(s1) :27-31.

[4]杨利军,朱闯.高校信息化开发模式实证研究[J].情报科学,2008(12):1848-1850.

[5]Laura Hofman Miquel.Getting Started with Oracle Data Integrator[EB/OL][2014-10-11]. http://www.oracle.com/technetwork/middleware/data-integrator/overview/odigs-11g-168072.pdf.

[6]周长春,徐宏炳,张小伟.基于共享数据库的数据集成方案的改进[J].计算机工程与设计,2007(8):1917-1918.

[7]冀鑫.高校数字化校园建设实践探索[J].计算机光盘软件与应用,2012(18):67-70.

(编辑:王天鹏)

猜你喜欢
高校信息化信息孤岛数据流
一种提高TCP与UDP数据流公平性的拥塞控制机制
移动技术在高校信息化建设中应用现状分析
会计信息化条件下企业的成本与效益分析
检验系统门诊流程的研究与设计
基于ASP技术的实验室网站系统建设
基于数据挖掘的网络营销系统研究
浅谈基于Web在线教学系统设计
信息化建设促进高校人才培养质量提高的思考
基于数据流聚类的多目标跟踪算法
北医三院 数据流疏通就诊量