浅议高校大数据平台的设计与实现

2018-01-31 09:04袁黎晖
农家科技下旬刊 2018年11期
关键词:数字校园大数据高校

袁黎晖

摘 要:随着数字化校园的建设热潮,很多高校已搭建起数字化校园系统。同时,随着统一身份认证系统、公共数据库和数据交换系统的建立,实现了这些应用系统之间数据交换和共享。高校大数据平采集各业务系统中需要分析利用的业务数据,对数据进行清洗和转换,构建有效的数据分析指标体系,为学校整体了解、改进各方面工作提供动态、真实、可靠的依据,促进学校各部门协调运作,提高学校管理水平,帮助学校管理部门建立先进的管理模式。

关键词:高校;数字校园;大数据

数字校园建设是高校基础设施建设的重要组成部分,通过建设数字校园将相对独立分散的业务系统进行整合和有效的集成,提高信息化水平。数字校园的建设可以提升高校整体的管理水平和综合实力,消除信息孤岛和应用孤岛、建立校级统一信息系统;可以实现部门间流程通畅,规范业务流程;可以提高工作效率,管理效率,促进高校各项事业的全面协调发展。

高校中不同程度的存在着数据整合问题,这是高校数字化校园建设需要解决的问题之一,建设高校共享数据中心平台是解决方案的重要组成部分。大数据作为信息技术发展的新趋势,已逐渐渗透到各行各业,成为驱动生产业务发展的重要因素。教育部高校“十三五”规划明确提出要建设“智慧校园”,而这些都离不开数据及大数据相关技术,只有数据的量越大、维度越多,我们才能够分析出精准的信息。

一、现状

高校经过信息化系统的建设,将大部份管理流程均从线下转到了线上,从纸质流程变成了电子流程,从手工记录变成了自动记录,提升了管理效率,并使得高校的管理活动更加规范和科学。从教和学的角度来看,网络和应用系统的建设改善了教学条件,丰富了教学手段,扩展了教学的时间和空间。国内高校数字校园架构通常包括三个部分。

1.网络接入部分。高校通过电信、移动、网通及其他运营商接入互联网及教育专网,在校内部署核心交换机、防火墙、IPS、WAF等网络互联及安防监控设备,网内用户可使用有线或无线方式经过身份认证和计费系统接入到校园网,访问网内外资源。

2.各类应用系统。高校内的应用系统主要包括有教务、学工、招生就业、科研、OA、人力、资产及一卡通等系统,这些系统对应校内各个职能部门的工作职责。

3.数据中心基础。数据中心包括为全校提供信息化服务的软硬件设施,主要包括服务器、存储设备和虚拟化软件、云平台、中间件和数据库等。

为了实现各个系统之间的数据同步和流转,有部分高校建设了“数据中心平台”,即“公共数据中心”、“统一信息门户”和“统一身份认证”,这些平台将下层的业务管理系统的公共数据部分,如学生数据、人事数据、身份信息等统一抽取出来,建立了中心信息库,成为各个业务系统同步的一致性基准。

但是,随着校园规模的扩大和业务的日益繁杂,高校管理人员和系统开发人员发现普遍存在的严重弊端:这些信息系统都是按照不同的业务线纵向建设的,各个系统的功能不同,数据分散,基础数据、公共数据难以同步和共享,对于数据的来源和用途也缺乏规划,难以集中进行关联、融合的分析应用,不能满足高校对数据分析决策的要求。

二、高校的数字校园建设普遍具备下列问题。

1.高校底层应用的“数据孤岛”现象严重,各系统之间的数据尚未进行标准化和归一化,导致数据同步和交换存在困难,业务难以实现充分整合。

2.各个业务系统和“三大平台”支撑的主要都是事务型应用,但是如果要完成数据综合统计、信息挖掘、相关性分析等工作,现有的数据由于标准不统一,分离在各个业务系统中难以整合,因而难以支持上述分析方面的需求。

3.绝大部分应用系统的底层数据形态都是结构化数据,其生成的数据也是结构化数据,但也存在有大量的非结构化数据(如各种机器设备产生的日志信息)和互联网上的数据,由于现有软件体系无法对这些数据有效存储、组织、管理和分析,无法有效利用。

4.绝大部分应用系统,其数据层架构都是关系型数据管理系统(RDBMS),其运行模式只会保留当前状态数据和结果数据,大量的历史数据、过程数据都被丢弃,但这些历史数据和过程数据恰恰是进行综合统计分析所需要的最重要的素材。

5.由于数据难以跨部门调动和流转,导致各个职能部门进行业务分析时,只能利用本部门内部的数据进行单个维度分析,难以实现跨维度、跨部门、横向关联的复杂建模和分析。

6.各个职能部门主管,以及校级领导希望了解各种综合信息时,只能通过逐级上报的报表了解过往信息和局部的、细节性的信息,且时效性较差,难以通过综合数据分析获得快速的、总体的综合信息,难以形成有效决策辅助。

三、 大数据平台的设计

随着移动互联网的不断发展以及传感设备在校园内的普及,不仅仅是各个业务系统的数据需要对接,各种半结构化数据(设备产生的日志)和非结构化数据(监控的视频、照片以及各种文本数据)也在大量产生,这些是传统的业务系统所处理和承载不了的数据,但是对于信息化服务而言又是非常有价值的。如何有效整合当前这些业务系统的数据、日志数据、流式数据,成为各个高校从信息化向智慧化迈进所需要面对的首要问题。

基于这样的应用背景,有必要在高校建立基于大数据技术的数据整合、交换、分析平台,不改变现有校园信息系統建设模式,并最大限度利用现有信息系统等基础设施,支持校园的智慧化运营,为校园的教育、教学创新提供海量数据分析支持,推动学校信息化由传统“运营管理型”向“意识服务型”转化,由传统的“信息化系统”向“智慧型服务”迈进。

大数据平台体系结构如图1所示。

各类管理信息系统中的结构化数据、各类IT设备产生的运行过程数据以及来自于互联网的信息,在被加载到数据平台之前,需要经过数据清洗。数据清洗的主要功能包括数据标准管理、元数据管理、数据质量管理、数据资产管理、数据安全管理,目的是将这些数据组合成逻辑上相互关联的、形态和意义一致的数据集。数据平台是一个以Hadoop分布式存储和计算体系为核心的数据存储和处理平台,利用HDFS、MapReduce、HBase、Spark、Storm、Elastic、Mahout等Hadoop生态体系中的各种工具实现高效的、分布式的数据存储和计算处理,从而实现对数据的存储、分析、挖掘所需要的算法过程。在数据平台之上,将平台内部的数据结构、存储体系、算法模块进行封装,屏蔽各种底层细节和差异,将数据按照各个主题进行重新分类,并随同分析挖掘算法、高性能分布式计算体系以标准API接口的方式向上面的应用层软件提供服务。而数据管理和数据维护是为了对数据标准的讨论和指定,业务流程、数据模型和元数据的梳理,数据质量的检查分析,错误和重复数据的修正,数据同步过程和结果的监测。在数据服务的上层,是最终实现分析和挖掘目标,并进行前端展示的应用层软件,这些软件针对特定的主题和目标进行设计,体现用户希望达成的分析目标,包括可视化应用、统计分析类应用、学生综合管理、图书馆应用、个人数据服务类,例如学生综合管理、科研情况分析、综合校情展示等等。

四、大数据平台的实现

如前所述,高校各种业务应用是以管理和服务流程为导向进行开发的。业务流程的运转使得高校沉淀下来大量的业务数据,这些数据反映了各个部门的各种业务过程的详细信息,特征鲜明,结构稳定,信息结构化程度较高,是目前高校的核心数据资产,也是大数据分析的重要基础。

这类业务数据的存储普遍采用传统的关系型数据库,比如Oracle、SqlServer等,以单个应用为主题进行设计,比如一卡通、教务、门禁等系统。这些系统中有很多都是关于同一对象的不同活动过程的记录,例如,各个业务系统都记录了学生相关的数据。一卡通记录的学生的消费过程、身份认证记录,教务系统记录的是学生的选课记录、考试成绩、学分情况等,财务系统记录了学生的缴费情况、补助发放金额等。在不同的系统中记录的维度不一样。我们可以从单个系统中看到某个对象在某个领域域的活动细节。而大数据项目的目标,则是要将这些数据综合利用起来,从单维数据变为多维数据,以支持复杂的数据分析与调取。

除了各个管理业务系统中包含的数据,还有很多数据也包含了其他维度的信息,例如,某学生通过校园网连接到互联网时产生的上网数据,该学生使用手机连接到学校的WIFI时在无线网络中留下的连接数据等等。互联网中也有大量的相关数据,如招生信息、招聘信息、舆论信息等等,都与学校的活动息息相关,因此也需要引入这些数据帮助高校进行综合的数据分析。

为了盘活学校现有的数据源,同时打通、引进入和开发新的数据源,我们需要构建一个综合的大数据平台,能够承载这些数据,同时能够高效、安全、稳定、可靠的对外提供服务。

大数据平台在技术层面采用自顶向下分层架构设计,共分为四层:数据应用层、数据能力供给层、数据存储与计算层、数据获取层,满足未来需要具备的完整功能体系,如图2所示。

1.数据应用层,具有直接与用户交互的所有功能,是系统的使用界面和视图,可快速灵活定制,满足各种校园使用场景和人员的需要,并具备统一门户和综合展示功能。

2.数据能力供给层,具有丰富的原子能力和组装能力,供场景/应用层灵活调用,是大数据基础平台的核心的业务数据处理模块。

3.数据存储和计算层,实现海量业务数据的集中清洗、存储、管理,支撑决策层集中掌握校园整体运行情况。

4.数据采集层:具备多业务、多技术接口的数据采集和转换能力,具备按照应用场景进行业务数据采集,互联网数据抓取,机器数据采集能力,可分布式部署,具备灵活的扩展能力,是大数据平台的基础。

五、 结语

高校信息化被迫要求扮演更加多元的角色,這也为高校的信息化建设提出了更高的挑战和要求。大数据平台可以独立支撑各种校园的智慧化运营应用,为校园的教育、教学创新提供海量数据分析支持,推动学校信息化由传统运营管理型向服务型转化。

参考文献:

[1]郭宝军.高校教育大数据的分析挖掘与利用[J].电子技术与软件工程,2018.18.

[2]李娟.基于大数据的高校智慧校园建设研究[J].信息与电脑,2018.19.

[3]张书华,杨卓.大数据对高等教育教学的影响[J].绿色科技,2018.17.

[4]李冰.数据挖掘技术在智慧校园的应用分析[J].信息与电脑,2018.17.

[5]谢慧.基于大数据技术的数字化校园建设应用[J].中国建材科技,2018.09.

猜你喜欢
数字校园大数据高校
论数字校园环境下高校教学资源的整合运行策略
校园App的设计与营销
基于Direct3D的三维虚拟校园交互式漫游系统
学研产模式下的医药英语人才培养研究
高校创新型人才培养制度的建设与思考
高校科研创新团队建设存在的问题及对策研究
基于大数据背景下的智慧城市建设研究