基于云计算的数字化校园数据集成系统研究

2013-12-17 07:42
中国科技信息 2013年22期
关键词:计算环境数据源异构

湖北中医药大学信息工程学院

数字化校园是以数字化信息和网络为基础,利用计算机技术、网络技术,对教学、科研、管理和生活服务等校园信息资源进行全面、规范的收集、处理、整合、存储、传输和集成应用,使数字资源得到充分优化利用,构成统一的用户管理、资源管理和权限控制,以实现教育信息化、管理规范化[1]。

就当前各高校的信息系统发展状况而言,各部门系统相对独立,大部分以自身需求应用为主体,未综合考虑学校各部门系统之间的交互性、集成性、统一性以及扩展性,不仅造成资源浪费,而且仍存在信息更新的滞后等问题。因此,为尽可能充分利用现有资源,避免重复开发,本文提出了基于云计算的数字化校园数据集成系统,目的在于充分利用整合学校现有信息系统资源,提高各系统的综合运维能力。

1.云计算的应用基础

云计算(Cloud Computing)是一种近年来提出的新型计算模式,是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机和其他设备,是分布式计算、并行计算和网格计算的发展结果[2,3]。

2.基于云计算的数字化校园数据集成系统基本结构

“基于云计算的数字化校园数据集成系统”是在数字化校园的基础上,实现对云计算环境中各种关系型、非关系型异构数据进行智能集成,根据不同部门用户所提出的不同需求,满足各用户高并发、高负载及高速处理海量数据的复杂多表关联的查询请求[4]。

该系统的功能从适用范围上可分为两大类,一类是使用面较广、适应较强、使用环境较复杂,但操作相对较少的简约型,例如面向广大师生、实验技术人员和某些行政部门的功能需求;另一类是使用面相对较窄,但数据操作量大、操作频繁、要求稳定,对硬软件要求较高的集中型,例如针对少数内部管理人员使用的部分业务。因此,系统充分利用B/S 结构的子系统部署简便,维护成本低,C/S 结构的事务处理能力较强,保证数据操作的速度、可靠性、稳定性的特点,采用B/S 三层结构的子系统和C/S 结构的子系统相互结合的混合部署方式,根据不同类别的功能需求采取不同的结构模式。部署结构图如图1所示。

图1 部署结构图

图2 系统整体逻辑框架图

从系统的整体结构而言,可分为应用层、中间层、云层3 个层次,其中应用层包括教务管理、图书馆、科研、不动产管理等应用;中间层即面向数字校园数据集成交互的核心服务过程层,包括资源服务以及应用反馈,是数字校园应用服务数据支撑的重要载体;云层负责提供中间层在资源调度时需各类资源的使用分配工作。

在此3 层中,涉及云端数据交互接口、数据分析与任务调度功能接口、数据集成接口、云数据存储管理以及数据安全管理5 个功能,统一在云数据存储管理功能的管理与协调下工作,系统整体逻辑框架图如图2。

2.1 云端数据交互接口

云端数据交互接口作为系统对外调用的统一接口,主要功能在于根据用户提出的功能需求,完成用户查询等功能语句的预处理以及处理最终结果的展示。

对于分布式数据库、传统关系数据库和非关系型的数据库(noSQL),系统应支持统一自定义的查询语言,满足不同类型的数据查询要求。各用户根据自身功能需求情况,定义标准SQL 接口和shell 接口提交查询分析请求,该分析请求经预处理后传达到数据分析与任务调度功能,调用数据集成接口,得到最终数据分析结果返回用户。

2.2 数据分析与任务调度功能接口

该接口的主要功能在于接收从远端数据交互接口预处理后的数据后,将各用户查询任务按设定要求作相应的逻辑操作,根据虚拟数据库结构将逻辑操作自动生成为相对应的子任务集合,最后将子任务集合传输给数据集成接口。

在数据分析与任务调度过程中,对数据查询处理采取的生成子任务集合的方式,因此需要涉及数据获取分析任务管理和数据获取分析用户管理等模块,用于对用户数据起到相应的控制和监视作用。

2.3 数据集成接口

该接口是整个系统最根本的核心,主要功能在于完成数据分析与任务调度后传输的查询子任务集的具体实现和结果反馈,并通过异构数据语义集成方式将现有校园公有云中存在的各种异构数据动态集成,构造实时最新的校园公有云。

此接口不仅要完成针对特定数据源的数据访问调用,形成处理后的一个个原子操作,再将这些操作传递给云计算处理接口统一执行,并向上层反馈处理结果,而且还要考虑到云计算环境中各种不同数据存储方式、不同数据处理模式等数据之间的同步性,确保系统在延展性方面的要求。

2.4 云数据存储管理

该功能模块是保证整个系统正常稳定运行的基础,借助云计算环境下的资源数据管理技术方法,实现为所需各功能提供数据存储管理和系统资源动态配置,以及云计算环境下的高并发、高负载、海量数据的查询与存储的管理功能。

该功能的实现,必须依靠云计算环境下的元数据和服务管理技术。在底层可采取分布式数据库和传统关系数据库等各种存储结构,以求能够符合对于不同的各个数据源配置要求的存储架构,使得各类用户在使用时都有一个适合的方式存储和管理用户数据。

2.5 数据安全管理

该功能模块是整个系统稳定运行的重要保障,主要在于完成本系统运行过程中所涉及的用户认证、权限管理、安全维护、异常处理和日志管理等系统安全服务。

3.系统构建的关键技术

3.1 元数据获取

掌握数据源的元数据,即被集成数据源的相关信息,是进行异构数据源的集成操作的前提条件[5]。

根据数据集成元数据现有结构,按统一标准描述设计相应的数据库,数据库字段按描述集分类制定,以确保数据集成元数据结构不存在失真现象。

3.2 集成模式建立

由于各数据源的应用目的和背景均不相同,以至于各元数据在构造过程中的语法、语义、模式等方面都存在异构。由此,数据集成的功能目的就是从现有数据源出发,将其中具有相同概念、被定义为主键的元数据作为匹配链接的关联点,根据不同的应用业务查询需求从各数据源取得数据,并将数据做相应的汇总与整合,为减少在整合时因为数据源对字段类型定义的不同而导致集成失败,所以在进行实际的集成过程之前,必须根据实际的查询需求建立相应的集成模式,以具有相同语义的元数据重新定义用户能够理解的名称、类型和长度等信息标准进行转换。

3.3 集成模式与元数据之间关联关系的建立

相同语义的元数据在不同数据源中表达形式基本都不一样,常规的集成模式是一种范围相对较窄的统一方式,唯一能确保仅有直接与相对应元数据相联系的查询过程才可能得到所需数据结果,为进一步扩展相关功能,借鉴集成模式特点,加强系统与用户之间的交互关系,直接将整合表的主动权交给用户,让用户确定整合模式及范围,使得元数据最终的关联关系更加集中明确,也进一步简化了异构数据源的查询过程[6]。

3.4 集成查询

通过分析集成模式及其对应的映射关系,将集成模式的查询分解处理为一个个对各异构数据源的查询,再将各数据源的查询结果归并整合形成最终的集成结果。基本步骤如下:

1)按需求对集成模式作预处理,生成用户视图,并匹配相应的映射关系。

2)根据用户视图结果,做进一步分析处理,通过“字段”以及相应的映射关系确定每个数据源需要查询的字段,以用户视图的“字段”作为数据源表的字段的别名,若不存在用户视图“字段”在数据源中的映射关系,则以NULL 值进行代替数据源字段。

3)生成各数据源的查询语句,建立临时表保存查询结果,准备集成。

4)对临时表排序并按关联关系生成新的临时表,迭代重复直到最后一个临时表,即为集成查询的初步结果。

5)对最终的临时表进行整理,反馈用户并输出,完成数据集成。

4.总结

基于云计算的环境下提出一种数字化校园数据集成系统的框架,借助云计算环境下统一的数据获取、分析、应用接口和异构数据集成、访问接口,可实时将学校各系统数据汇总统计,减少高校建设数字校园开支,充分利用各部门原有的设备和系统,提升教育科研资源共享,为学校领导提供最及时的决策支持,增加学校综合竞争力。

[1]蒋东兴.大学资源计划的方案研究[J].清华大学学报:自然科学版,2004,44(4).

[2]Danielson,Krissi.Distinguishing Cloud Computing from Utility Computing.Ebizq.net.[2010-08-22].

[3]Gartner Says Cloud Computing Will Be As Influential As E-business.Gartner.com.[2010-08-22].

[4]钟将,宋娟.基于本体的异构数据集成框架[J].计算机工程,2011,7(14):44-46,49.

[5]丁一琦.异构数据访问中间件的设计与实现[J].科技资讯,2011 (1):43.

[6]杨森,夏燕等.语义异构生物数据源中的数据集成与更新.计算机工程,2008,348)38-40.

猜你喜欢
计算环境数据源异构
云计算环境下船舶无线通信网络入侵检测方法
云计算环境下网络安全等级保护的实现途径
ETC拓展应用场景下的多源异构交易系统
试论同课异构之“同”与“异”
吴健:多元异构的数字敦煌
Web 大数据系统数据源选择*
基于不同网络数据源的期刊评价研究
大数据云计算环境下的数据安全
异构醇醚在超浓缩洗衣液中的应用探索
基于真值发现的冲突数据源质量评价算法