基于大数据技术的高校统一数据平台建设实践

2020-05-28 08:08李商旭
中国管理信息化 2020年9期
关键词:深圳数据库大学

李商旭

(深圳技术大学,广东 深圳 518118)

1 序言

《国务院关于印发国家教育事业发展“十三五”规划的通知》中提到,支持各级学校全力推动信息技术与教育教学深度融合。鼓励学校利用大数据技术开展对教育教学活动和学生行为数据的收集、分析和反馈,为推动个性化学习和针对性教学提供支持。

深圳技术大学是坐落在特区的一所新规划建设的应用型高等院校,前期已经招收了多届学生,积累了一些数据。学校第一批大规模建设,就有30多个应用系统,包括物联网平台、运维运营平台、互联网+应用(如服务学生、校友的微信小程序,服务教职工的移动App应用)、教务管理系统、学工管理系统、科研管理系统等,这些应用系统将积累大量业务数据,运维数据,学生行为数据,教学管理数据,科研业务数据、物联网数据等。这对深圳技术大学数据管理者提出了更高的要求。

传统信息架构模式下,学校各个组织、各个部门根据各自的业务需求,在不同的时期开发自己各自的异构数据服务体系,从而出现一个个“数据孤岛”式应用,“信息孤岛”现象已成为制约信息系统总体高效运作的瓶颈,为了解决这些问题,需要建设数据共享交换平台,大数据平台为了更好地解决数据管理者对数据管理中对于数据资源的管理、数据的共享以及带动业务创新提出来的数据组织和管理框架。

2 统一数据平台技术特点

2.1 高校大数据平台建设现状

广东外语外贸大学通过大数据分析平台的建设,将现有各业务系统产生的数据进行全校范畴内的有效整合,并通过数据关联分析,挖掘数据的核心价值,在消费行为、师生管理、教务管理、人事管理、舆情分析、资产管理等方面开展了大数据应用。华南师范大学在数字化校园建设过程中,通过大数据中心,利用数据汇聚平台的网络爬虫模块,从互联网实时爬取涉及学校、教育、社会、心理健康、校园贷、食品安全等学校关注的舆情信息,为学校改进管理提供决策。西安交通大学建立了教师科研大数据分析系统,学生成长辅助分析系统等,在大数据分析方面主要有:综合行为画像分析、群体画像分析、成绩预测分析、成长推荐分析、毕业分析、精准资助认定分析、行为异常预警分析等。

2.2 统一数据平台建设需求

数据归档:汇聚不同业务系统的数据,大量的数据需要备份保存,Hadoop天然的备份机制以及超规模数据存储很够很好地满足需求,并且数据存储类型没有任何限制。

数据应用分析:数据汇聚不是终极目的,需要分析挖掘数据的潜在价值,面向管理者提供专门的大数据应用分析,解决教学、管理、教研方面的实际问题,Hadoop分布式并行计算方式以及丰富的智能化算法模型,完全能够满足数据多样化,智能化分析的需求。

科研需求:数据剧增由量变引起质变,使科研人员的思维和行为模式在传统的学科研究领域发生转变,借助大数据相关技术以及平台,找到本学科研究成果的新视角,已经成为当前高校研究的重要课题。

3 统一数据平台架构设计

3.1 统一数据平台架构设计

如图1所示,深圳技术大学采用Hadoop生态圈组件共同构建大数据基础支撑平台。数据通过数据采集系统汇聚到,数据治理平台通过原始库抽取数据,通过数据治理平台清洗、关联、融合相应数据,形成主题库、业务库。主题库、业务库的数据存储在分布式数据库中,通过数据共享交换平台对外服务。基于主题库、业务库的数据构建教学分析、学工分析、学科分析、运维运营分析、物联网数据分析等上层应用。同时通过敏捷BI报表工具以及可视化大屏,将相应的数据通过报表的方式推送到PC端、移动端以及可视化大屏,为学校领导、教职工、学生等提供数据服务。深圳技术大学的统一数据平台主要包含以下几个系统:

(1)大数据硬件平台。学校通过应用多台X86服务器,用来部署Hadoop集群和分布式数据库。Hadoop集群和分布式数据库都是直接部署在物理机上。

(2)大数据基础平台。大数据基础平台由两部分组成:一部分是Hadoop集群,采用商用版本的Hadoop方案。需要至少提供数据汇聚平台、HDFS、Hive、HBASE、SPARK、Storm、ES 等组件,另一部分是分布式数据库集群。

(3)大数据治理平台。为深圳技术大学提供数据治理服务,实现深圳技术大学数据的跨网、跨平台、跨系统间的深度融合。深圳技术大学数据存在以结构化数据为主、半结构化为辅、非结构化数据增量巨大的特点,来源纷杂、类型多样、标准不一、结构多元,数据接入整合难度较大,建立数据深度治理和标准化机制,进行系统化、仓储化、精细化的分类管理。

(4)大数据数据仓库。数据仓库承载数据汇聚平台抽取过来的原始数据,通过数据治理之后形成的主题库,数据共享交换系统的共享库以及资源目录库等。数据仓库搭建在分布式数据库集群当中。

(5)大数据服务层。大数据对外提供服务的方式有如下几种:

大数据资源目录:学校的数据提供部门可以通过该系统自行编目数据资源并上传到数据资源目录系统,学校的数据需求部门可以通过该系统查阅深圳技术大学的所有跨部门的数据并发起订阅请求。

大数据共享交换系统:大数据共享交换系统通过API接口、文件下载以及推送到前置库的方式对外提供数据,共享交换系统自动获取数据资源编目信息,面向全校建立自助式数据共享交换服务。

大数据分析应用:通过从相应的主题库采集数据,构建了一系列大数据分析应用,分析主题包含:学生分析、教师分析、舆情分析、教学分析、学科分析、科研分析、就业分析、资产分析、人事需求分析、上网分析。

大数据可视化展示:大数据可视化途径有两个,一个是通过大屏的方式展示,展示深圳技术大学的物联网数据、运维数据、校园安全态势数据、教学情况数据。一个是通过报表的形式将相应的数据推送到PC端、移动端。

3.2 统一数据平台数据存储选型

随着深圳技术大学生源的扩张和专业课程的丰富,各类信息系统产生的主数据和日志数据日积月累,其数据规模日益庞大,进而为数据存储处理、挖掘分析带来了挑战,基于传统的关系型数据库构建的数据中心和应用已经无法满足当下的需求。如表1所示,基于Hadoop大数据技术构建数据仓库已经成为数据仓库建设、发展的主流方向。

表1 数据库选型差异对比表

4 总结

深圳技术大学通过建立全校唯一、权威的主数据库,在实现数据共享基础上,通过元数据管理、数据流向规划、数据治理、数据质量检测等工具,不断提升主数据库数据质量,建立学校统一的数据交换共享能力,应用于学生、教师分析、教学、科研分析、学科分析、就业分析,并通过深圳技术大学大数据中心的汇聚平台汇聚数据,进行大数据可视化展示。深圳技术大学的实践案例说明深挖数据的价值,让数据的价值不单单是数据本身,而是让数据流动于学生、教学、科研、领导决策,可以加强学校的管理能力和服务能力。

猜你喜欢
深圳数据库大学
《大学》
48岁的她,跨越千里再读大学
深圳欢乐海岸喜茶LAB店
数据库
深圳
深圳医改破与立
数据库
数据库
数据库
深圳“去编”激起千层浪