罗永有 梁超香
摘 要:文章通过高校信息建设的现状分析,研究多业务系统异构数据库在数据集成中的关键问题及技术,给出了通过利用ODI技术结合高校实际情况、实现异构数据库逻辑上或物理上的集成,该集成模式可以有效地打通原本业务系统中的“零散数据”,消除“信息孤岛”现象,实现数据格式标准化、数据访问一致化、数据存储集中化的信息同步和共享,推进高校信息化的建设。
关键词:数据标准;数据集成;ETL
1 研究背景及现状分析
随着高校信息化建设的不断深入,信息技术在各领域的应用也越来越广泛,为了提高工作效率,各职能部门正在采用各种业务系统来满足工作需要。在这个过程中,由于各个应用系统相对独立,产生了大量凌乱、重复、歧义的数据,形成了一个个的“信息孤岛”。随着高校对数据的深层次需求越发强烈,越来越多的应用场景对数据的诉求也越来越高,比如教师课程安排就离不开教师人事信息,学生成绩录入离不开学生信息,这些场景都离不开数据共享,离不开数据集成。这就迫切地需要一套高效、准确、可行性高的数据集成方案来实现高效的信息集成和共享[1]。
在实际情况中,各个部门由于业务和功能归属不同,在多年的信息化建设过程中,采用了不同的软硬件环境,使用独立的业务系统管理,这就导致了系统之间难以实现信息的互联互通、信息共享和有效利用,给维护和管理造成很大的障碍。主要体现在以下几个方面[2]。
(1)信息共享意识淡薄,缺乏整体顶层规划和统一标准。
学校信息化建设的整体规划跟不上教师在教育教学中对信息化的需求,未营造良好的信息环境,未完善推动信息化强有力发展的政策环境,采购决策者对信息系统建设的特点认识不够,信息流向已经从部门内部走向部门之间,但是很多业务系统的建立还是遵循老的业务规则,以部门为边界或者按部门内部分工进行,只建设满足特定需求,建设特定的业务系统,实现各自维护自身系统和数据。同时,由于没有统一的数据标准规范,购置的这些业务管理系统来自不同的软件提供商,各自遵循不同的信息编码规范和数据标准,这就难以实现信息共享、业务联动以及部门之间的协同工作。
(2)受限于部门利益隔阂,业务联动性差。
学校在设置职责和部门中体现了更专业化,但也增加了协调的难度,各个部门受不同利益的驱使,各自为政,都优先考虑自己的利益。在信息化建设中,不愿意公開自己部门业务信息,不愿意在业务信息交集点进行统筹优化管理,担心业务信息受到安全威胁,更愿意使用独立的专业管理系统,这样只能达到部门的目标而不是整体的目标,阻碍了内部信息的传递,降低工作效率。
(3)业务系统分散,数据冗余和源头的不统一。
经过多年的信息化建设,高校不同业务部门纷纷购置了满足各自业务需求的专业管理系统,各系统之间相互独立,存在了大量的公有信息,由于独立采购独立运维,如果某个系统中的基础数据发生变化,其他业务系统仍然使用原来的数据,如教务、人事、财务系统中对教师数据描述一致吗?为什么我的个人信息在这些系统中不一样呢?我们学校的师生数到底是多少?是以教务数据为准还是人事数据为准?这样就造成了数据重复录入及重复管理,且存在大量不一致,无法在数据统计和上报时提供准确的数据,无法给领导决策提供有效的数据支持,还会造成新的困惑,更难以谈及对全局数据的应用与辅助策略。
在高校信息化建设中的问题远不止以上提及的几项,但是它们却是如何解决整合、集成校园内众多应用系统数据的关键,包括已有的和即将购置的专业管理系统,使用户能够得到一个统一的应用环境,统一的服务界面,统一的数据资源。
2 基于ODI技术的数据集成介绍
数据集成,主要是将基于分散的信息系统的业务数据进行再集中、再统一管理的过程,是一个渐进的过程。
在实施数据集成的过程中,由于业务系统不同,采用的数据库及结构也不尽相同,它们提供的数据内容、格式和质量千差万别,有时甚至会遇到数据格式不能转换或数据转换格式后丢失信息等棘手问题,所以首要问题就是如何解决异构数据源的整合,使其形成互联互通的整体,形成有效数据在各部门和各业务系统中流动和共享,同时能进行有效的集成管理。ETL(Extract,Transform,Load)是实现数据集成的主要技术。
ETL是构建数据仓库的重要一环,将来源端的数据经过抽取、清洗转换,加载到目的端的过程,目的是将分散、凌乱、标准不统一的数据按照预先定义好的数据仓库模型整合到一起,成为联机分析处理、数据挖掘的基础,为学校的决策提供分析依据。
ETL处理方式如图1所示。在整个数据仓库的构建中,ETL工作占整个工作的50%~70%,主要是为了解决数据异构的问题,负责完成从数据源(各种业务系统)中找到并取出当前主题所需要的那部分数据,输入统一的数据存储中,也就是我们常说的中间库,由于数据仓库中各个主题的数据都是按照前端业务需求存放,因此,需要在抽取的过程中按照预先设计好的数据规则进行清洗或转换,使本来异构的数据格式能统一起来适应新的标准需求,最后,将处理后的数据从统一的数据存储平台按增量或全量的形式加载到目的端的数据仓库中,在数据加载过程中定时进行,并且不同主题的数据加载任务有各自不同的调度时间[3]。
3 柳州城市职业学院解决方案
信息系统集成要解决的首要问题是由于各部门业务管理不同产生的信息的异构性问题,集成能否成功的关键不仅取决于基础平台的建设是否完善,更多的是在于信息化组织体系是否完备,管理制度是其迈向规范化的前提,是规避建设风险的保障。下文讨论的是数据集成中几个关键问题,需要各部门通力配合,协调完成[4]。
3.1 信息标准
高校信息化建设已经从单一的部门内部数据流通进入跨业务领域数据共享、实现业务联动、建立统一信息系统集成阶段。因此,为了使信息有序流通,保证信息的一致性和权威性,必须制定统一的信息标准。
信息标准为学校业务数据“如何存、存什么、存哪儿”提供了详细的规范,标准是否规范决定了信息的交流与共享等性能。因此,在建立标准之前应首先考虑几点内容:(1)要充分采用目前已有的国家标准和教育部教育管理信息化标准以及其他相关行业的标准,建立适合自身特点的校内信息标准体系。(2)尽量使用学校已发布的数据标准,使学校已有的信息资源得到最大程度的利用。(3)把局部的业务系统应用问题放在整体系统架构中考虑,达到全局优化,符合整体的效果。除此之外,信息标准必须遵循唯一性(一个代码只唯一表示一个编码对象)、实用性(要尽可能地反映分类对象的特点,便于记忆和填写)、可扩展性(为新的编码对象留有足够的备用码)等基本原则。在标准应用中,原则上学校制定的数据标准应首先遵从国家标准、教育部标准和相关行业标准。
根据学校实际情况,我们在建立信息标准中,大致建立了如下几个规则。
(1)机构编码:采用4位编码分别表示其中的机构属性、流水号以及内设机构编号。
(2)教职工编码:采用10位编码,其中包含了入校年份、岗位属性以及流水号。职工号为教职工在学校工作期间唯一标识编号,不随教职工的身份变更而发生变化。
(3)专业编码:采用4位编码表示系部、专业、学历属性等。
(4)学号编码:采用9位编码,包含了入学年份、专业编码以及流水号。便于管理及集成的可靠性,学号是学生在学校内的唯一标识编码,学生一经入学取得学号后,直至离校学号保持不变。不会因休学、转专业等学籍异动而发生变化。
(5)班级编码:采用7位编码,包含入学年份,专业编码前3位(因与学历无关,故只取前3位),流水号。
学校公共数据标准具有权威性和唯一性,在编制好后,为确保信息化项目和学校整体教育教学信息化的正常运转,应采用统一的数据标准进行数据修改或按照系统集成要求开发数据交换接口。
3.2 数据清洗
数据清洗是一个减少错误和不一致性、解决对象识别的过程,是利用相关技术过滤那些不符合要求的数据,将过滤的结果交给业务部门,确认是否过滤掉还是由业务部门修正,以提取出满足数据质量要求的数据。数据的不符合性,主要体现在不完整的、错误的和重复的数据,表现形式在一些应有的信息缺失,比如身份证号,在教务系统中此字段可能不是必须的,但是在学工系统、一卡通消费系统中,它就是必填字段。表1给出几个常用的清洗项及处理方法。
数据清洗是一个反复的过程,不可能在几天内完成,在集成项目的建设初期、中期、建设完成之后都需要进行。数据清洗还需要特别注意的是不要将有用的数据过滤掉,在ETL开发初期可以定期向业务部门进行修正确认,每个过滤规则都要认真地进行验证。
3.3 业务流程规范
数据集成中一个重要问题就是数据冲突问题,主要表现为来源不同的应用系统具有不同的数据源头。因此,首先要规范数据来源的唯一性和权威性,而要确定源头,必须要考虑的是该数据在整个集成项目中的活动生命周期,要从学校行政职能的划分上去明确业务系统拥有的权威数据,如学生信息数据源头应来自教务系统,教职工基本信息则由人事管理系统负责采集,这就确定了该系统作为其他系统的唯一数据源。数据集成平台的数据流向如图2所示。
凡是要集成到“中间库”中的业务系统数据,我们都需要明确该业务系统的权威数据是哪些,并且该业务系统需要“中间库”提供哪些数据,同时,数据源数据的添加或更改必须按照实际应用需求进行各种相应方式的同步更新,以确保公有基础数据更新的及时性、准确性,为各业务系统的运行保驾护航。
3.4 实现思路
我们进行数据集成的一个目的就是维护数据源整体上的数据一致性、提高信息共享利用的效率,以较低的代价高效率地使用异构的数据,而数据源就是学校各个业务系统的数据库,是集成到中心库的数据抽取的来源。集成中心库中所有的数据都来自于各应用系统,并保持同步更新。由于业务系统在集成之前都采用自己系统内部的编码标准和字段类型,因此,采用ETL数据集成工具,从多个数据源中抽取數据,然后对数据进行必要的转换、清洗和加载,最终得到统一的、完备的主题数据进入集成中心库。在集成中,为了确保数据在交换过程中的安全性,保证原来分散的应用仍能独立运作,需要在集成中心库中根据业务需求建立中间表,将来自于业务系统的数据先加载到中间表,然后经ODI工具转换、清洗后再放入集成中心库的生产表中[5]。
各业务系统之间不直接进行数据交换,业务系统需要的公共数据先集成到中间库中,再由中间库根据预先设定的对应关系推送这些数据到其他业务系统中。这样做的好处是:降低各个业务系统的耦合度、增加项目的可扩展性、保证了数据质量,并能有效地管理各业务系统间相互访问的权限控制,同时保证了数据的安全性,确保了业务系统在中间库短暂失效时依然能够独立运行。
3.5 集成方案
系统集成必须围绕信息需求制定数据集成方案,并需结合信息标准数据流向规划以及业务系统建设使用情况来确定集成边界。需要集成方、信息技术中心、业务部门,第三方公司通力配合完成。
在进行集成同步方案时有两种方式可以选择,即全量和增量。全量集成指每次在数据同步时都将数据源上的所有数据一次性集成到目标数据库中,以保证数据源和目标数据的一致性。增量集成每次只将业务系统上发生变化了的数据同步到目标库中,以减轻数据库服务器和网络的负担。选择哪种方式多是以数据量的多少来决策,当数据量小的时候,可以采用全量更新数据,但随着业务增长,数据量成几何方式增长时,每次更新的工作将是耗时耗力的,也是业务方无法忍受的。此时,就需要一种解决方案将全量同步更改为增量同步。
另外,集成的周期选择,对实时性不强或一次同步数据量较大的数据集成,通常选择定期集成,且常将执行计划设定在服务器压力较小,网络使用率较低的半夜或凌晨。无论是同步方式还是集成周期的选择中,应根据业务需求确定,够用即可[6]。
4 結语
在高校信息化建设的过程中,应用系统的集成是一项十分复杂且极具挑战性的工作,同时也是一项必不可少的环节。只有各个部门通力合作,规范业务流程,确立数据标准,明确数据的权威来源,才能清除“信息孤岛”,实现各个应用系统业务数据的互联互通,推动信息化建设的快速发展。
[参考文献]
[1]刘静萍.数字化校园建设中基于ODI的数据集成平台研究[J].青海师范大学学报(自然科学版),2016(2):16-20.
[2]孙玮.基于ODI技术搭建高校数字化校园公共数据平台[J].软件工程师,2014(7):56-68.
[3]王超,吴萨.高校异构系统数据整合的设计与实现[J].四川文理学院学报,2015(3):39-41.
[4]徐琦.基于大数据的高校数据整合模式研究[J].中国教育信息化,2015(15):60-63.
[5]孙歆,卓荣庆,王蜜.基于ODI的高校异构系统数据整合模型研究[J].中国教育信息化,2015(5):54-57.
[6]李恒贝,唐惠燕,毛莉菊.基于数据整合的高校信息标准构建研究[J].中国教育信息化,2011(15):13-15.
Abstract:This paper analyzes the status quo of information construction in colleges and universities, and studies the key issues and technologies of multi-service system heterogeneous database in data integration. It gives the logical or physical realization of heterogeneous database by using ODI technology combined with the actual situation of colleges and universities. Integration, the integration mode can effectively break up the “fragmented data” in the original business system, eliminate the “information island” phenomenon, realize data synchronization, data access consistency, data storage centralized information synchronization and sharing, and promote university informatization construction.
Key words:data standard; data integration; ETL