童明 陈敏
[摘 要]通过对学校信息化建设现状分析,智慧校园建设离不开大数据应用,并且首先应对基础数据进行治理。通过讨论数据治理的基本方案,对具体利用oracle12c+oda模式进行数据迁移的过程进行深入探讨。
[关键词]智慧校园;大数据;数据治理;数据迁移;oracle12c;ODA
中图分类号:C37 文献标识码:A 文章编号:1009-914X(2017)17-0138-02
[Abstract]Based on the analysis of the current informatization construction, the construction of smart campus can not be separated from the big data applications, which all depended on the Data Governance.On the discussion of the scheme of Data Governance,this paper makes an in-depth study on the process of data migration by using combination of oracle12c+oda.
[Key words]smart campus;big data;data governance;data migration;oracle12c;ODA
1 校园信息化建设的现状分析
随着信息化建设的不断发展,教育越来越多的呈现个性化、开放化、智能化等特点。数字校园为智慧校园所替代也成为当前教育信息化发展的主要趋势。各个高校信息化建设在十二五规划期间,已经基本完成了数字化校园初期建设,步入互联网+时代,进一步向智慧校园领域靠拢。例如在教室安装多媒体教学系统与智能教学软件,已经实现了教学方面的电教化;在服务上配置了移动式应用、网上迎新系统等,提高了学生事务管理的能力;网络方面已基本实现了全校全网无线全覆盖;已经建成了一套完整的信息服务门户,实现了统一身份认证和信息发布;在安全上建立起视频监控、网络防御等系统,为校园信息安全提供了保障;数据中心通过搭建vSphere服务器组和融合交换网络,提供一定量的虚拟化服务。
然而,各业务部门之间因为开发平台不同、使用环境各异等原因都有自己独立的一套系统和本地数据库,虽说在十二五期间开展部门协同工作时统一了一部分数据,但整体上并没有做到完全实时同步,依然存在很大程度上的信息孤岛现象。各业务部门在有些交叉业务中有的数据虽然实现了两两共享,但在涉及到多个部门的使用环节中还是因为数据格式不一致等问题需要用户逐一的去获取信息,导致数据利用率不高,还是存在不少需要用户去跑腿、人工沟通处理问题的情况。与此同时,学校每年都会新增新的业务系统,隨着数据和业务连接的大量增加使得我们对数据的存储、获取和分析的要求日渐强烈,现有的对数据处理和分析的响应速度已逐渐不能满足业务发展的需求。比如,教学上我们对数据的处理仍然处在确保学生能够选择正确课程的阶段,而不是利用学生和课程的信息来进行招生和课程规划等,未能够对数据进行有效的应用。
由此可见传统的数据架构已无法满足数据处理要求,而大数据的理念通过数据分析的方法发掘潜在价值,更易实现对获取的各类数据形成实时、快速而有效的智能决策。目前大数据的应用虽然仍不是很成熟,但随着智慧校园的发展和建设,大数据应用必将对学校的信息化建设产生极大的影响,促进学校各方面发展,充分体现校园的智慧特色[1]。
2 数据治理方案探讨
大数据处理数据首先是需要采集数据资源,对抓取的数据等进行实时、快速的处理。而大数据环境下的数据结构复杂多样,为了能够对大量结构化与非结构化数据进行分析,首先要对数据从格式上进行统一,过滤筛选出有价值的数据,丢弃已损坏的数据,净化不干净的数据,集中零散的的数据,即进行数据治理。数据治理其实并不是一个新生的概念,而在大数据背景下,数据治理已经成为一个独立的研究领域。笔者认为智慧校园背景下的数据治理,不仅仅只是包含对源数据进行采集、转换、清洗、加载这么一个狭义的概念,而是应包含对整个大数据应用所需去采取的一系列措施,具体应包括事务数据库的迁移、公共数据平台的建设、数据仓库的建立这三个阶段。
2.1 事务数据库的迁移
“工欲善其事,必先利其器”,大数据需要这样一种架构:它能从多个数据源实时获取数据,以便于分析的格式组织和存储这些数据,能让用户高效的使用这些数据并后续采取一系列决策算法最终帮助他们做出业务决策。首先则需要构建一个在关系数据库之上的物理集中型的数据库,这个物理集中型数据库能从其他数据库实时获取数据,包含来自教务系统、科研系统、财务系统、人事系统等等,从而创造了一个统一的分析基础。而构建以物理集中型数据库为中心的多数据源的统一的数据平台环境,数据迁移是实现数据集中的关键。数据迁移所要面对的是从各个独立开发的系统中抽取数据、集中数据的挑战。
2.2 公共数据平台的建设
公共数据库平台用来对各部门应用系统中的交换数据进行交换和共享的,是智慧校园建设过程中实现业务系统间数据共享和数据同步的重要基础。建立公共数据库,统一了数据格式标准,使得各个应用系统的数据更加规范和完整,系统间的信息交换则更加快捷高效,同时确立了数据流向,使业务流程更加清晰,同一类型数据的集中共享也使得业务之间协同工作变得更加透明和简单,从根本上解决“信息孤岛”问题。
建设一个公共数据平台大致分为以下几步:
1.对业务系统数据进行调查,建议统一的信息标准。
2.对系统异构情况和数据交换情况进行分析,确定数据流向。
3.设计数据交换与共享流程,设计主题数据库。
4.设计数据同步机制,在数据同步与交换过程中涉及到数据的上传、转换、清洗与加载等操作,保证各业务系统实时向公共数据库同步更新信息。
2.3 数据仓库的建设
在完成了数据库物理集中统一管理后,各部门具体的业务系统(教学、科研、人事、财务等)数据依然存在数据积存、数据分散、标准不统一等问题,这些数据使用率低、数据查询困难、甚至已经损坏,更不可能有效的进行数据分析和挖掘。这就迫切需要再建立一个支持联机分析系统OLAP的公共数据仓库,这个数据仓库和大容器数据库相辅相成:大容器数据库对现有数据进行捕获与管理,进行数据的增删查改,而数据仓库则是对历史数据进行存储,且支持复杂的分析操作,以现有的大量历史数据积累为基础,通过数据分析算法,把历史数据进行归纳整理和重组,提供各种类型的数据分析,为校领导制定决策提供科学的数据支持。
在此,笔者不为建设公共数据库和数据仓库的具体设计方法作详细讨论,而是利用校园现有的oda资源对数据迁移作讨论研究。
3.基于oracle12c+oda架构的数据迁移
目前校园的各个业务部门的数据系统部署在不同的服务器上,其数据格式标准、甚至源系统都不尽相同。每个应用系统独自各占各的服务器存储资源,资源利用率不高是一方面,另外数据资源分散、没有一个统一管理的平台,这对于日后所需要展开的数据治理工作是非常不利的。为了实现将来的数据治理,首先迫切需要将各个不同的数据库系统进行物理集中管理,也就是集合在一个大容器数据库之上,同时各个数据系统之间逻辑上还必须像原来一样保持独立,不能影响各自采集数据及原有的业务,此时这就需要一个全新的系统架构来统筹收纳各个数据系统,这也就是数据迁移所需完成的任务。
3.1 利用Oracle12c多租户环境实现大容器数据库
甲骨文oracle12c和以往的版本最大的不同就是引入了数据库容器(container database,CDB)和可插拔式数据库(pluggable database,PDB)这一概念,这一新技术对于数据迁移而言,特别有如下一些优势:
(1)多租户模式。通过容器数据库与用户数据库的分离,允许用户创建一个多租用户环境,使用一个cdb承载多个pdb,同时每个PDB仍然作为独立的数据库加以管理,并且可以方便的从一个CDB插入到另一个CDB中[2]。这个技术结构下的可组装式数据库迁移简单,且可以让以往多个数据库一起共享,真正实现了数据多租户架构。
(2)资源灵活配置。Oracle12c RAC技术提供了一种在数据库层实现按需管理的模式,该模式相当于将基础环境的配置交给DBA处理,便于从数据库层次根据用户应用和数据的价值,灵活分配资源进行基础环境配置[3]。
数据库服务层多点计算资源高可用设计,其根据实际的业务系统负荷和资源占用比,可以动态分配计算节点资源,既避免了资源浪费又能确实满足业务支撑,还能根据将来的业务扩容同步动态的调整资源,确保整个大容器数据库稳定、高效地运行。
(3)成本控制。Oracle12c通过创建多租户环境将多个部门的应用系统整合到一台性能优良的服务器上合并成一个容器数据库,既降低了资源消耗也减少了系统维护成本。同时,未来所有数据服务需求也都可在该oracle12c架构上进行统一的资源开设、管理和回收,能极大地降低校园运维成本和数据服务资源的生命周期管理。
关于迁移的方法,对于oracle数据库环境,可以利用imp/exp和数据泵导入导出的方式进行迁移[4];对于异构系统,可以利用XML即可扩展标记语言,该语言和各种主流的数据库都有接口(如 Mysql、Access、SQL、和 Oracle等),而且还具有可扩展、跨平台、易于传输、灵活等特点,非常适合于在异构系统与平台之间作数据交换。把XML文件作为中介,首先从源数据库中读取数据并按照XML格式写入到一个XML文档,然后读取并分析该XML文件再将数据添加入目标数据库,从而可以完成两台不同机器上不同系统不同数据库之间的数据迁移。
3.2 利用ODA方案提供大容器数据库所需的高可用性与IO性能
Oracle12c在架构上满足了大容器数据库实现需求,然而大容器数据库还面临一个挑战,就是为大规模查询体用必要的IO带宽,随着数据量和用户负载的不断增长这种情况尤其如此。一种可伸缩性的、高性能的硬件基础架构是可靠的大容器数据库解决方案的坚实基础。
Oracle Database Appliance(ODA)是甲骨文推出的一款数据库高可用软硬一体机解决方案,其将计算资源、储存资源以及网络资源等通过一系列定制的优化措施进行整合,提供了业界领先的可扩展性和性能、高度集成的分析以及先进的负载管理,为客户提供了一个集软件、服务器、存储与网络于一体的完全集成的系统。大容器数据库应用ODA作为载体有如下一些特别的优势:
(1)通过内嵌InfiniBand代替内网交换机,同时提供优化存储解决方案使大规模数据查询的性能有了显著的提升,并且能够提供非常高效的数据存储性能,可作为存储大量校园核心事务数据(如财务记录、学生数据、科研数据等)的主要分析数据库。
(2)所有硬盘通过ASM直接管理,可以允许同时坏两块盘,与raid5/6的区别是只要还存在足够的空间,ASM条带化的硬盘仍可以将坏盘上的数据继续复制到好的区域中,由此带来了ODA的冗余和高可用性。
(3)相对于昂贵的exdata,ODA简单易用、经济实惠,非常适合于应用于校园场景。同时整个机器连接线非常少,再加上一键式安装部署rac的方式,这都极大的简化了dba的工作。
除了上述优势之外,ODA还提供了一个OAKCLI工具,能很方便的实现数据库的创建与迁移,用户通过OAKCLI可以轻松实现数据库的升级、容器数据库的创建、删除等操作,这极大地方便了数据库迁移工作。
4 结语
智慧校园建设与数据治理是一个长期的话题,Oracle12c+ODA模式下完成數据库物理集中统一管理后,校园整个数据库系统全貌便能非常直观、方便的展现在DBA面前,同时其本身能够提供IO查询、数据存储与分析,是满足校园数据业务要求的一套安全、高可用的解决方案,经实践证明,具有良好的实用性。
参考文献
[1] 蒋东兴,付小龙,袁芳,吴海燕,刘启新.大数据背景下的高校智慧校园建设探讨[J]. 华东师范大学学报(自然科学版).2015,119-125,131.
[2] 赵茉秋,苏延庆.Oracle Database 12c多租户环境研究与实现[J].电脑编程技巧与维护,2016,49-51,59.
[3] 王骏翔.基于Oracle12c DBaaS构建云计算数据服务体系[J].上海船舶运输科学研究所学报,2015,71-76.
[4] 李伟,刘志强,陈宏光.Oracle12c在整合医院辅助信息系统低版本数据库上的应用实践[J].网络空间安全,2015,93-96.
中国科技博览2017年17期