数据质量分析与整合在高校信息系统的应用

2015-11-13 12:04彭琳李勇军等
电脑知识与技术 2015年23期
关键词:数据整合数据质量信息系统

彭琳++李勇军等

摘要:信息系统的出现为高校管理提供了巨大的便捷,它也是数字化校园的一部分。随着时间的推移和系统之间存在的历史原因,海量数据的涌现引起了人们对数据质量和数据整合的思考。由于信息系统的使用效果直接与数据质量相关,而且不同的系统之间存在“信息孤岛”,导致数据不一致,无法达到信息共享。因此,需要对现有数据的质量进行分析,提出相关的基本概念;并以上海海洋大学数字化校园二期建设为例,展现高校信息系统的数据整合案例的实际应用。

关键词: 数据质量;数据整合;信息系统

中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2015)23-0051-02

1 概述

在数字校园的发展中,由于历史原因,各个信息系统之间存在着不同的开发技术、系统框架、信息标准。因此,建立一个高校综合服务平台尤(以下简称为“服务平台”)为重要,它能够对高校原有的信息系统进行充分数据整合,全方位地实现数字化校园建设,保障了高效有序的数据、服务、认证等多方面的管理。然而,在建设服务平台之前,需要对数据质量进行分析,将数据质量分析与数据整合有机地结合起来。同时,本文以上海海洋大学为例提出现有的数据整合应用方案。

2 数据质量分析

数据质量分析包括:1)数据质量的定义;2)域分析与过滤器分析;3)基于数据仓库的ETL分析。

2.1 数据质量的定义

数据质量在不同行业与组织中具有不同的定义,但总体可以用以下的6个性质来描述,并结合相关例子阐述。

正确性:反应数据呈现客观世界的程度,取值应该在对应的数据域中。例如,有关博士、硕士学位专业代码必须符合教育部标准代码子集。

准确性:在正确性的基础上,准确性反应数据与客观世界的匹配程度;需要注意的是,正确的数据未必准确。例如,在教职工聘任职务标准代码对应字典表中011代表教授,012代表副教授;若将一名副教授对应为011就不准确了,但代码011本身是正确的。

完整性:在一定范围内,根据特定的需求和相关的数据,保证数据集中的数据既不缺少应有的部分也不增加多余的部分。例如,公共数据库中的数据应排除非法数值的存在和尽量减少非空数值的出现。前者的例子有学历信息应为本科,而不是大学,后者空值的出现会带来统计与决策支持上的不便。

及时性:表示数据在一定时间内的时效性,不同的数据有着不同的时间有效性。例如,一个系统在长期运行下,数据库会产生废弃表,留下冗余和无效数据。此时,应对这些表进行连续监测,通过数据量的变化来排查,排除变化量小的字典表和变化量大的表,剩余的就是过了时效性的废弃表。

一致性:表示在数据集中的特定规则表达是否相同的衡量依据。例如,在数据库中用“M”表示男性、“F”表示女性,在其他表中是否会以“男”表示男性、“女”表示女性。

集成性:在传统的高校信息系统中,早期的数字化校园在人事、教务、财务、学生管理等多个方面建设,但这导致了数据分散存储和处理,使得各个系统中数据库表的对应字段没有相应联系,主键不匹配甚至没有键码,这也是后期数据整合要解决的问题。

2.2 域分析与过滤器分析

域分析和过滤器分析对数据质量的保证体现在对“脏数据”的清洗,数据清洗这一环节又是属于数据仓库的ETL技术。这两种分析对控制数据质量起着很大的作用,它们是从数据质量定义的基础上,通过对数据库的结构进行的另一种数据质量分析的方法。

域分析的功能是通过列来分析数据库表,包括:1)数据类别分析,涉及标示量、枚举量、时间、文本等;2)统计分析,涉及频率、方差、百分比等针对数值类型的相关分析;3)格式分析,主要涉及模式匹配的针对字符类型的相关分析。域分析可以使数据环境得到充分的了解,以便数据质量的有效管理与评估。

过滤器分析主要是通过对不同规则的组合进行分析评价。过滤器的基本规则有三类:一是包含规则(CONTAINS);二是等于规则(EQUALS);三是存在规则(EXISTS)。除此之外,过滤器定义的规则还有范围规则、正则表达式规则、频率规则、类型规则以及唯一规则等。分析评价包括符合规则的记录数、规则明细、总记录数以及正确率等。

2.3 基于数据仓库的ETL分析

在每一个信息系统的背后都有相应的数据库系统,另外与数据库系统相关的一个概念就是数据仓库。数据仓库是基于数据库技术的,它是支持管理决策过程的、面向主题的、集成的、随时间变化的持久的数据集合,它是研究如何将大规模复杂的数据更有效得组织、用于方便使用的技术。

在数据装入数据仓库之前,要进行一系列操作来保证数据质量,这个操作就称为ETL,即有关数据的抽取(Extract)、转换(Transform)、装载(Load)。在此之前进行数据清洗(Data Cleansing),主要是对数据中的错误进行自动或人工纠正,以提高数据质量。ETL实际上是数据流动的过程,与此同时ETL的数据集成服务可以提供相应的解析功能,实现对集成规则的解析。

ETL往往与大型数据仓库、管理决策系统相配合使用,在信息系统的数据整合中也起着重要的作用。

3 数据整合

数据质量分析完后,就要对数据进行整合。以上海海洋大学为例,为了能给全校师生、教职员工、领导提供全方位的信息化服务支撑环境,同时伴随以SOA、云计算、物联网、智能决策分析为代表的新一代信息技术,亟需创造一个信息化、网络化、数字化、服务化的新型校园环境,做到统一的业务规划、消除信息孤岛、提高原有系统的开放性与扩展性、突破单一的应用模式。

3.1 服务平台数据整合内容

上海海洋大学数字化校园一期建设于2003年,一期项目实现了校内外网门户的统一集成建设,内容主要包括服务门户平台、统一认证平台、公共数据平台、相关业务系统等,实施的是点对点的数据交换模式,使得数据脉络繁杂、不易扩展,系统相互耦合,重复登入导致存在资源浪费。

因此数据整合针对高校的应用系统进行改造升级,包括信息整合、认证整合、服务整合这三个方面。其中,信息整合将定义数字校园的信息标准与规范,通过建立公共数据库来构建数据交换平台,做到数据共享、数据管理与服务。认证整合实现统一身份认证,同时达到统一账户的管理,尤其是用户权限的管理。服务整合主要是对各系统应用服务、资源整合,能在面向不同角色用户时提供主动、个性的一站式服务窗口。

3.2 数据整合设计

3.2.1 整合体系框架设计

我校原有应用系统运行情况良好,在此基础上为了不影响学校各关键业务应用的正常运行,所以采用面向管理、服务的架构,应用间是松耦合的。由下至上,数字化校园基础平台层次架构分为IT基础设施、共享数据层、应用支撑层、应用服务层和服务展现层五个层次,如图1所示。

图1显示了服务平台的系统体系框架,全校各业务处理和业务信息存储不会集中在单一的服务器和数据库上,而是采用分布式层次型的处理和信息结构,各应用系统拥有其独立的业务数据(资源)库和业务处理,通过数据集成平台实现信息共享和交换,采用数据交换工具实现跨部门、跨应用的共享互联互通,既能保证信息的全校共享,又符合各业务系统处理分布、信息分布的特性。

3.2.2 建立数据集成平台

为集成应用系统,需要通过统一的信息交换标准和数据交换接口来构建数据集成平台。通过专业的ETL工具,对数据集成平台中的各业务数据进行清洗、抽取、转换、装载,实现信息交换和共享。与此同时,该项技术也将提供数据质量的管理与监控的功能,对数据转换与清洗、调度和监控也非常有效。

信息整合中涉及数据交换模式,以往的点对点数据交换使得构成的应用环境接口复杂,不利于整个应用系统的扩充和数据共享。整合后采用总线式数据交换,中心的“数据集成平台”保证了信息整合后的共享,如图2所示。总线式集成方法极大降低了数据交换、应用集成的复杂度,参与数据交换以及被集成的各类异构数据源仅需实现与“数据集成平台”的集成。此方法使得实现复杂应用系统的集成成为可能,同时也极大降低了整个信息系统的实施及维护成本。

3.2.3 信息整合技术要求

总体上采用组件化的开发框架,同时符合 SOA 架构的设计理念。采用SOA 架构有利于项目的建设,它可以根据需求通过网络对松散耦合的粗粒度应用组件进行分布式部署、组合和使用。服务层是SOA 的基础,可以直接被应用调用,从而有效控制系统中与软件代理交互的人为依赖性。技术体系上选用 J2EE 技术,采用Browser / WebServer / DataBaseServer三层结构进行应用系统的开发。数据底层采用Oracle 11g数据库系统软件,并配合RAC组建数据库集群。采用XML 的数据交换技术和基于WEB SERVICES 服务进行业务系统整合和集成支持,以其作为系统对外接口的主要实现方式,此外它也是本系统数据交换的辅助实现方式。

4 结论

本文提出了数据质量在高校信息系统中的重要性,并从概念定义的角度提出传统的数据质量分析以及数据的域分析和过滤器分析,通过后者的分析提出ETL技术和在数据整合的综合应用。

在数据整合部分中结合上海海洋大学数字化校园的实施,阐述了高校信息系统的框架与技术以及数据交换模式的变更,整合过程中的数据集成平台与数据质量和ETL分析技术的联系,并实现认证整合、信息整合、服务整合三方面的数据整合,基本消除了信息孤岛,实现了数据的共享,实现有序、稳定、高效的管理与应用。

参考文献:

[1] 王真虎.基于数据质量分析ETL框架的设计及实现[J].硅谷,2012(15):44-45.

[2] 李庆阳,彭宏.面向数据质量的ETL框架的设计与实现[J].计算机工程与设计,2010(9):2057-2060.

[3] 胡逢彬,沈炜.数据ETL过程中的数据质量控制[J].信息技术术,2010(4):19-21.

[4] 陈远,罗琳,沈祥兴.信息系统中的数据质量问题研究[J].中国图书馆学报:双月刊,2004(1):48-50.

[5] 丁海龙,徐宏炳.数据质量分析及应用[J].计算机技术与发展,2007(3):236-238.

[6] 邓英.数字化校园建设中公共数据整合方案研究[J].电脑知识与技术,2008(4):589-591.

[7] 许鑫,苏新宁,吴乃冈.高校共享数据中心平台的设计与实现[J].现代图书情报技术,2005(6):49-53.

[8] 秦剑波.高校数字化校园建设中数据整合的探讨[J].科技资讯,2007(19):91.

[9] 胡光武,王华东,李霞,康国磊.数字化校园数据整合策略研究与实践[J].郑州轻工业学院学报:自然科学版,2009(3):76-79.

[10] 吕爱丽,叶小涛.数字化校园建设中数据整合问题研究[J].北京电子科技学院学报,2010(4):71-76.

[11] 刘晨霞,张明.数字校园中资源整合的关键技术研究与应用[J].科技资讯,2009(3):12-13.

猜你喜欢
数据整合数据质量信息系统
企业信息系统安全防护
基于区块链的通航维护信息系统研究
信息系统审计中计算机审计的应用
浅谈统计数据质量控制
基于SG-I6000的信息系统运检自动化诊断实践