谭海军
摘 要:为了解决数字化校园建设过程中异构数据的数据处理和数据共享问题,文章针对校园网应用系统,利用数据交换技术和XML良好的扩展性、自描述性、形式与内容分离等特性,较好地实现了异构数据库中的数据共享和共用。
关键词:数字化校园;异构数据;可扩展标记语言;数据共享;校园网
1 当今数字化校园建设存在的问题
随着21世纪的快速发展和信息技术的迅速普及,人类社会发生了重大变化。各大高校教育管理的工作方式和手段,從教育环境和模式到教育理念,正在逐步发生深刻变革。其中高校管理部门根据各部门的需求,逐步建立了各种信息管理系统,极大地提高了信息管理的效率。然而,在许多学校中长期存在这样一个现象:由于各种原因,这些系统建立的时间不同,采用的开发技术和数据库系统不尽相同,系统之间没有统一的信息标准[1]。因此,许多“信息孤岛”在高校形成。
分析其原因,主要是各个部门在进行信息系统建设时创建了大量的数据库,这些数据库在物理和逻辑上独立创建和管理,每个独立数据库都有自己的模式、数据、数据模型和数据调用语言,形成了异构数据库[2]。
数据库异构性主要体现在以下几个方面:
(1)计算机体系结构导致的异构。每个参与的数据库可能在大型机、小型机、工作站、个人计算机(Personal Computer,PC)或嵌入式系统上运行。
(2)基础操作系统的异构。各个数据库系统的基础操作系统可能是Windows,Unix,Linux等。
(3)DMBS本身的异构性。异构数据库系统可能由相同关系数据库系统的数据库形成,例如Oracle,SQL Server或不同数据模型的数据库,例如关系、模式、层次结构、网络、面向对象的数据库和函数数据库。
由此产生的信息交流障碍阻碍了校园网应用管理系统的全面表现,甚至出现财务数据与学籍管理数据不一致的现象,给校园信息化管理带来一定的困难。
2 基于XML的数字校园数据交换平台的设计
数字化校园需要的是一个全新的开放资源共享环境,使其具有丰富的信息和优秀的服务能力,因此当务之急是解决校园网应用系统间的异构数据交换和信息共享问题。目前,校园信息管理系统主要是以浏览器/服务器(Brower/Server,B/S)结构或服务器/客户机(Client/Server,C/S)模式开发的。后端数据库使用关系数据库,如SQL Server,ORACLE,Sybase等。
基于这种由关系数据库支持的校园网应用系统,设计了基于可扩展标记语言(Extensible Markup Language,XML)技术的第三方数据交换中心平台。
2.1 系统概述
基于XML的数字校园数据交换平台通过将XML格式定义为标准格式,实现了各种应用系统的数据共享和数据转换。本平台使用4种功能机制:IML(标准数据交换语言集)、消息中心(文档转换中心)、数据库管理和安全机制。
2.2 系统结构模型
数字校园数据交换平台基于XML,使用XSL/XSLT定义用户视图,以XML Schena或文档类型定义(Document Type Definition,DTD)构建合法的XML文档,实现异构数据的共享数据转换。本系统由数据交换平台管理中心控制,IML管理器、消息中心控制台、数据库管理器和安全机制负责分工。每个异构网络都有自己的数据库系统和数据格式,但这些网络功能节点可以使用内部网或Internet和基于XML的数字校园数据交换中介功能,以实现数据转换和异构网络的共享。整个系统以标准化的XML数据格式进行通信,IML过滤器可以处理和调整各种数据格式并支持各种协议,如Email,HTTP和FTP。
2.3 基于XML数字校园数据交换平台的几个关键模块的实现
为了实现异构数据的共享和交换,有必要将来自不同数据源的数据转换为一致的格式和为每个异构数据源的局部模式提供一致的全局模式。以下就实现数据交换的两个关键问题做简要说明。
2.3.1 数据驱动管理模块
目前,市场上占主导地位的数据库是关系数据库,主要包括ACCESS,Oracle,SQL Server,MySQL,Sysbase等,因此,该模块包含着几种公共数据源的驱动程序[3]。该模块完成各种异构数据库数据的识别,为相应的数据库构建驱动程序文件,将获取的驱动程序信息加载到驱动程序库中,并构建驱动程序信息表,允许了在建立新数据源时从该表中调用相应的驱动文件。
2.3.2 数据映射模块的实现
对于异构数据,不同的数据模式具有不同的结构,但它们所表示的信息内容是常见的。本模块采用XML Schema作为XML文档的模式语言,将XML文档视为数据库中的数据,将DTD或XML模式视为数据库模式,并将其映射为关系数据库中的Schema[4],通过其提供的简单数据类型或用户自定义类型,用于从异构数据库的数据中提取有用信息,并创建XML文档以进行替换。该文档存储了重要信息,例如关系数据库中的数据表、字段类型、字段约束以及字段内容之间的关系,并为异构数据库数据交换提供统一的数据访问类型。
3 数据交换中心建设中的几个关键问题
数据交换中心是一个整体结构,任何一个细节规划的忽略都有可能导致问题的发生。因此,为了避免在数据交换中心建设过程中由于缺乏考虑而导致的工期延误或者返工,需要了解以下几个关键问题:
(1)数据标准的规范。首先制定信息标准,然后制定统一的数据标准,建立可靠的数据中心。这一阶段意味着为学校建立基本的信息编码标准。
(2)中心数据库的设计。确定数据标准后,设计共享数据中心数据库结构,这是构建数据中心的关键。数据中心的共享数据库结构必须根据教育部教育资源规范中规定的资源类型进行统一,并保留各种程序接口,以便随时扩展资源中心的功能。
(3)数据同步问题。业务系统和共享数据中心数据库之间的信息交换分为两部分,将业务系统数据上载到数据中心并从数据中心读取业务信息。对于数据同步方案,應该设计良好的解决方案,以确保实时、准确的信息流。
(4)对异常数据的处理。在数据交换中,通常存在数据类型不匹配的情况,例如最简单的日期形式。实际上,在SQL Server 2012中,会有两个完全不同的数据表示过程,第一个是smalldatetime,第二个是datetime,但对于Oracle 10i,只有一种方式来表示日期,即date。尽管日期表示模式存在显著差异,但两个数据库管理系统可用于日常使用。在SQL Server 2012中的查询结果为“2015-6-9 00:00:00”,但Oracle 10i检索的数据为“9-6-15”,因此,在数据库中检索的日期是“2015-6-9”。Oracle的默认日期表达式模式为dd-mm-yy,其中“dd”是日,“mm”是月,“yy”是年[5]。通常,由于Oracle中的日期没有固定格式,因此可以使用函数来解决数据库中的此缺陷。在TO DATE函数中输入特定时间,最后根据数据格式指定,通常根据特定的格式更改XML文档的字符。另外,空数据是不同的,如果数据库具有空值,则数据实际为空。XML文档是相同的概念,通常可以使用元素属性来显示。在数据库中,空元素字符表示为0,这意味着字符长度是0,但是应确保在映射数据库或处理XML文档时删除空值,否则文件是错误的。实际上,在将数据库转换为XML文档格式的过程中,如果数据库中的数据为空,那么将数据转换为XML文档时是无法区分空值的。在分析XML文档中的数据库值时,如果分析结果为空,则该段字符就会被程序默认为DB Null。
4 结语
在数字校园建设过程中,异构数据库的数据交换和共享是亟待解决的问题。本文通过定义使用新的XML数据格式语言IML,将异构数据构建为标准XML数据,并使用统一的数据交换格式参与数据交换。通过构建通用的IML数据格式,处理系统平台内外不同类型的数据流,并提取每个异构数据库中相关数据的主要部分,根据实际交换要求交换和添加数据,从而实现数字校园中异构数据库的交换和共享。
[参考文献]
[1]羊牧,胡艳梅,罗婷.数字化校园数据交换中心的设计与实现[J].现代教育技术,2006(1):56-59.
[2]何东隆,李美真.精通XML与网页设计高级教程[M].北京:中国青年出版社,2001.
[3]萨师煊,王珊.数据库系统概论[M].北京:高等教育出版社,2006.
[4]黄宽娜,刘微.基于XML中间件的异构数据库集成[J].西南大学学报(自然科学版),2010(9):141-146.
[5]黄明婕.基于XML技术的企业数据交换系统的设计与实现[D].长沙:湖南大学,2017.
Abstract:In order to solve the problem of data processing and sharing of heterogeneous data in the process of digital campus construction, this paper aims at the campus network application system, and realizes the data sharing in heterogeneous database by using the characteristics of good expansibility, self-descriptive, separation form and content of data exchange technology.
Key words:digital campus; heterogeneous data; extensible markup language; data sharing; campus network