卜南翔 徐述 王吉祥 曾海洋
摘 要:数据集成是实现数据共享的有效手段,目前实现数据集成的主要方法有数据仓库等,而在这些方法中都存在数据使用的耦合问题,文章对此进行研究,通过对SDO的概念阐述以及对高校数据集成平台中SDO的应用分析,进而提出SDO在该平台中的实现方法。
关键词:高校;数据集成;应用分析;SDO
近年来,信息技术在我国各行业的应用不断深入,我国数字化建设得到快速发展。高校作为科研与知识传播的前沿,也需加快对数据集成平台的建设与服务数据对象(Service Data Objects,SDO)的应用。SDO在数据集成平台中的应用,主要是为数据集成平台提供一个良好的解决方案,提升高校的数字化与精细化管理水平。
1 案例概述
某高校为提高精细化与数字化管理水平,在数据集成平台中应用SDO,以此对高校的教学、管理等资源进行有效的整合,对用户管理进行统一,并实现对资源的合理分配与利用。高校在进行集成平台建设中有诸多困难,比如规划无法有效落实,关键数据归属管理无法明确等均制约着集成平台的建立。因此,针对高校自身存在的问题,依托数字校园新契机,制定合理的设计方案。
本次数据集成平台的建设以实现管理效益最大化为目的,在建设中应用现代管理思想,并加强对精细化的设计延伸。高校在进行精细化管理与数据集成平台建设中需遵循:数据化原则、程序化原则、操作性原则与标准化原则。高校在数据集成平台建设中,为强化对数据的集成与应用,在数据集成平台中应用SDO,促进精细化建设与数字化校园管理。本文对高校数据集成平台中SDO的应用分析都是建立在此基础上的。
2 SDO相关技术分析
2.1 SDO概述
SDO技术可以方便地实现对程序数据的统一访问,并且能够实现编程模型的共同建立[1]。在对该技术的有效应用下,数据操作方法得到统一,在进行应用程序查询等过程中数据访问变得更加轻松。SDO已成为我国高校数据集成平台应用的重要支撑。
SDO具备以下两个方面的特征:(1)支持动态与静态编程模型。静态接口应用,使得编程模型简单,且十分适用元数据明确的情况[2]。但动态查询中,查询产生的某些结果数据无法进行明确,从而无法使用静态接口。所以在进行数据编程的时候,需同时支持动态与静态数据API。
(2)支持离线编程模型。SDO主要通过对客户端数据读取,即时将数据保存并对这些数据进行相应的操作,然后将其提交至数据源。即使客户端不在线,系统也可以实现数据的修改。
2.2 SDO体系结构
SDO体系结构是由数据源、数据图等要素构成的,具体包含:(1)数据源。SDO能实现对多种数据源的访问与更新。(2)数据中介服务。在不同的数据源中SDO采用不同的中介服务来保证不同数据的中介服务。(3)数据对象。数据对象是SDO的核心内容,包含了各种数据、序列操作等,能够实现对非结构化数据的有效支持。(4)数据图。数据图是依据元数据进行封装。SDO在进行数据源访问时,会对数据图进行更新操作。(5)元数据。元数据描述数据的类型及关系,是数据图创建的基础。
3 高校数据集成平台中SDO应用技术
3.1 HDFS分布式存储
分布式存储系统(Hadoop Distributed File System,HDFS)具有高容错与低成本的特点。HDFS由DataNode(实际数据存储)与NameNode(文件系统元数据管理)组成。在HDFS单集群中只有一个主节点NameNode,其他节点是从节点DataNode。
对文件进行存储时,HDFS将对文件进行数据块分割,每个数据块大小默认为128 Mb。每个小数据块默认复制两次,因此,每个数据块在分布式存储系统中有3份相同数据副本。然后NameNode会对数据块进行存储位置随机分配,选择合适的DataNode节点进行存储,保证数据块均衡地分布在HDFS中[3]。
3.2 Spark生态集成环境
Spark是一个能够实现快速运算的集群计算平台,建立在内存计算之上,对大数据环境下的数据能进行高效的处理,同时还能保证高容错性。Spark的适应性较强,在不同的分布式平台中都能得到有效应用。
Spark的生态集成环境包含Spark Core,Spark SQL,SparkStreaming等,并能够为大数据云端提供一站式解决平台。Spark集成开发环境的典型安装是加载scala 2.9.3:对features和plugins两个目录下的文件进行拷贝并压缩,重新启动Eclipse,在Eclipse中依次选择“Help”,最后完成安装。
3.3 Python大数据开发
Python作为一门年轻、优雅又简洁的计算机语言,在大数据开发与集成、深度学习的应用中得到了广泛应用。Python对大数据进行分析时最常使用NumPy库与Pandas库。
4 高校数据集成平台中SDO的应用实现
4.1 元数据
4.1.1 数据源元数据
数据源元数据是一种描述性文件,通过对数据源的驱动类型、端口与数据结构等进行描述[4]。在SDO2.1中还尚未对数据中介服务的相关内容进行涉及,对数据源的定义也相对较少,所以对SDO元数据扩展设计可以定义为元数据的数据源描述,将其简称为动态系统开发方法(Dynamic Systems Development Method,DSDM)。DSDM对数据源进行定义时,主体结构有:根元素(DSInof)、驱动类型(DSDrive)与主键(DSKey)等。
4.1.2 對象元数据
对象元数据是对数据的组成结构与关系的描述,这也是SDO创建与数据处理的基础,而中介服务封装数据图也是以此为标准进行工作的。对象元数据也需建立起元模型DOM,DOM是通过对DSDM的扩展得到。DOM模型主要有两个方面的内容,分别是数据集成与数据结构描述。
4.2 数据服务中介
在进行多种数据源集成时,要通过不同的数据中介服务对数据源进行连接,提高高校对系统开发效率[5]。通用模块主要有元数据解析器。元数据解析器对元数据的解析,并对信息进行提取。通过数据图封装模块的应用,可以将数据序列转化为数据图。
数据图的请求工作流程为:数据图请求→解析元数据文件→连接数据源→生成本地数据→生成目标数据图。
4.3 统一访问界面设计
集成系统化为异构数据源提供进行访问的统一界面。数据源在异构分布中对用户是透明的,形成一对一的数据源操作。用户登录到界面后,点击数据查询,在界面中进行条件检索,检索条件可以是关键字、数据源名称与类型等。
4.4 数据源的配置信息
数据集成平台在收到系统任务后,会根据不同的数据源进行信息的转换与集成[6]。用户在进行数据源的添加或者删除等操作时,只需对相关的信息进行配置更改便可完成。
5 结语
本文基于高校进行精细化、数字化校园建设,紧紧围绕数据集成平台中SDO的应用进行分析,结论如下:SDO应用中,通过SDOAPI替代数据接口,实现对数据的获取,并对数据进行处理,而系统中的数据中介服务被当作包装器;SDO元数据在功能上与中间件等基本相同,也即利用公共模型,对不同的数据源实现统一数据视图。
高校数据集成平台中的SDO应用建立在良好的软件与硬件环境中。SDO应用的实现主要通过元数据、数据服务中介、统一访问界面设计与数据源信息配置等完成。高校在进行数据集成平台建设中有效应用SDO,有助于实现高校管理的精细化与数字化,提高现代化高校管理水平。
[参考文献]
[1]唐春波,郭文明,严静东,等.FHIR数据集成平台研究及其在连续医疗中的应用[J].生物医学工程研究,2017(2):178-182.
[2]万歆,姚晴虹.基于异构系统的数据集成平台的搭建和应用[J].医疗卫生装备,2016(2):61-63.
[3]肖培根,李海涛,朱凌,等.配網自动化规划设计之数据集成平台的研究与应用[J].电子设计工程,2016(11):38-41.
[4]李景奇,卞艺杰.基于大数据挖掘的高校知识管理系统[J].计算机系统应用,2017(9):54-61.
[5]吴振涛.基于数据仓库技术的数据集成在数字化校园中的应用[J].电子设计工程,2016(9):28-31.
[6]马国耀,孙勇韬,马玉玲.数据采集模板化技术在医疗大数据集成建设中的应用[J].中国卫生信息管理杂志,2016(4):414-416.