孟凡明
(北京社会管理职业学院,北京 101601)
近几年,网络技术迅猛发展,随着云技术的发展及应用,将各类信息转型为大数据,大数据将成为高效率、低成本的信息处理技术发展的标志,我们无形中已经步入了一个新的时代[1]。“智慧校园”的建设也必然经过大数据技术这条路。而数据湖技术是大数据技术发展的一个重要部分。
目前,数据湖技术生态繁荣,发展日新月异,Hadoop、MPP、NoSQL、HTAP、OLAP、OLTP等技术不断发展,不同的数据存储技术适用于不同的业务场景,高职院校的数据湖必定是混合式的架构。高校与互联网、政企领域的业务有其独有的特色,建设具有高职院校特色的数据湖架构体系,并对数据按高职院校的业务特点进行关联融合,形成契合业务需求的、高效便捷的数据服务[2]。
“智慧校园”是通过信息技术的有效支撑,提供一个可感知、可个性化定制、可共享协作的开放教育教学环境,在这种环境中,师生可以便捷地进行教学、学习和生活,以发展学习者的智慧为目的,同时为学校提供管理决策,助力学校管理水平的提升[3]。
数据湖能够有效治理校园数据,通过充分地挖掘数据,为学院的精准管理创造新的价值,进而规范业务流程、提高工作效率和工作透明度。
存储数据只是数据湖价值之一,数据湖还能够在存储海量数据的基本上,分析统计数据,打破不同领域、不同行业、不同类型数据之间的壁垒,提升分析效率,节约校园运行成本。例如,很多高校在“智慧校园”建设过程中均应用到了数据湖技术,该技术通过打通校内各业务系统接口,使数据关联融合,为行政人员计算考勤、工作考核、职务晋升、职称评审、人员增减、挂职培训等提供了快速、精准的数据,从而优化了学校管理服务体系,提高了业务工作效率。
我校信息化建设已有多年,主要分为教学口和行政口。教学口是由教务系统连接我校网络教学平台,实时上传学生的上课数据和活动数据,教学管理单位随时监督教师的教学过程和学生的学习过程,行政口的业务系统有财务系统、网络报销系统、科研系统、人事系统、教务系统等,但这些系统目前都处于各自独立状态,并没有打通数据库接口,因此,导致只能在各自范围内开展相关工作,部门间的交叉业务效率低下因此我校急需进行技术架构改革,实现各业务系统间真正的交互,从交互的数据中挖掘更多的新信息,充分利用这些无形的数据资产,为学校的运行发展提供战略服务。
如果说大数据的战略意义在于从海量的数据中挖掘出有用的价值,那么数据湖技术则是实现这种意义的技术基础。
数据湖技术主要包含数据的加载、存储、加工和对外数据服务四个部分。1)数据加载将分布在不同业务系统不同数据存储库中的数据自动抽取加载数据湖中。2)数据存储具有对结构化、半结构化、非结构化数据的存储能力,支持OLTP、OLAP、HTAP、全文、KV、对象等数据库。3)数据加工指对入库存储的数据按照业务需求和特色关联融合业务数据的过程,该功能按照预先定义的业务数据加工规则,通过定期、触发等方式将数据湖中的多源异构数据进行加工融合,并将生成的高价值数据存储回数据湖中。4)对外数据服务是将数据湖中的数据通过可视化界面、RestFul数据服务接口等方式对业务人员或其他业务系统提供数据服务。
针对我校目前面临的问题,本文提出了一种数据湖服务架构体系,实现校内各业务系统间的数据的融合共享,打通各业务系统数据通道,形成全局数据资产和数据服务,为我校各部门数据赋能。
该架构体系如图:
图1 数据服务架构
根据我校对数据服务架构的功能需求,本数据服务架构共分为4部分:数据抽取与加载、数据存储、数据关联融合、数据服务;
1)数据抽取与加载:对接各业务系统,抽取各业务系统的业务数据,本部分主要解决数据的来源多、格式多的问题,完成数据的抽取、格式的规范化功能,支持对结构化、半结构化、非结构化数据的抽取与加载,支持与Mysql、Oracle、MPP、HBase、ES、S3、Hive、文件系统等数据存储组件的数据抽取和持久化;2)数据存储:提供海量异构数据的存储能力,针对我校业务特点,选用MySQL、ES、对象库这3类数据库,常见的课表、成绩等结构化业务数据存储至MySQL中,邮件、教案等需全文检索的长文本数据存储至ES数据库中,教学视频、教学PPT等音视频数据存储至对象数据库中。数据存储库层兼容开源组件,支撑后续业务升级时的新数据库的扩增。3)数据关联融合:对来自教务、科研等业务系统的异构数据进行关联,形成高价值知识数据和业务中台数据,如学生/职工基础信息库、部门工作考核绩效等数据,并将生成的高价值数据存储至数据存储库中,用于支撑上层数据查询业务。4)数据服务:通过可视化界面和数据查询服务接口(RestFul)的形式,对业务人员和业务系统提供数据查询服务。在原生数据库接口的基础上,针对我校业务数据使用特点,增加方便易用的业务查询接口。如人员基础信息查询、部门业绩查询等许多数据库表关联查询的业务,通过一次数据服务接口调用,完成关联查询功能。查询服务接口支持灵活扩增,可快速满足业务需求的持续变化。
立足我校“智慧校园”管理工作实际需求,最大限度地满足和提高工作效率及管理水准,对各部门统筹规划,对各业务进行整合梳理,充分地实现数据收集,高效的挖掘校园数据,为校园高层管理、决策提供最有力的数据依据。因此,实现大数据技术助力我校未来发展的愿景,使“智慧校园”能得到更充分的理解。