吕忠亭, 崔巍, 刘洋, 张婕
(1. 延安职业技术学院, 网络信息中心, 陕西 延安 716000;2. 延安大学, 物理与电子信息学院, 陕西 延安 716000)
随着智慧校园的不断发展,高校数据呈现多元化的状态,各业务部门对数据的需求从原来单纯的业务管理转向数据分析决策与判断,原来面向单一部门内部的管理转向跨部门的流程服务,对实现数据互通、流程跨部门推进的需求越发突出[1-2]。此外,在大数据背景下,数据隐私与安全越发重要[3]。因此,传统数据仓库、数据共享中心无论从数据体量、数据质量还是供给模式上均已不能满足高校当下对数据深层次挖掘、分析利用的需求,严重阻碍和限制了智慧校园的推进。鉴于此,本文有针对性地提出了高校数据中台建设方案,解决数据管、通、统问题,形成从数据采集、清洗、治理、存储、使用、管理等环节的闭环,降低数据使用门槛,实现数据真正为教学、科研、管理、服务而服务。
数据中台是一个体系,也是一种解决方案,可以被定义为一个集数据采集、融合、清洗治理、组织管理、智能分析为一体,将数据以服务方式提供给前台应用,以提升业务运行效率、持续促进业务创新为目标的整体平台[4]。数据中台的概念最早由阿里巴巴公司于2015年提出,2018年各大互联网公司纷纷提出中台战略并随之进行组织架构的调整,将“中台”的概念推向了高潮[5]。目前,国内对数据中台的研究趋于成熟,在互联网、金融、电力、媒体等行业得到广泛应用[6-8]。高校由于受到自身业务需求的限制,应用案例相对较少,但也取得了可观的成绩,如西安电子科技大学数据开放平台、南京理工大学大数据分析平台等。高等职业类院校起步较晚,但是发展迅猛,特别是自2018年推进整改工作以来,基本都已完成数据融合平台和大数据分析平台建设,形成了较为科学、规范的数据标准体系,实现了数据的初步治理与沉淀,构建了数据仓库和共享数据中心,初步具备了数据中台的规模。
相比于国内,国外尚未推出数据中台的概念,但是针对数据标准体系、数据治理、数据处理、数据服务等方面的研究相对成熟,广泛地应用于高校教学、科研、管理和服务。
高校是数据产生、拥有和使用的主体,面对繁杂、异构、字段内容缺失、难以关联和分析等数据问题,进行了一系列数据融合、智慧校园基础平台、大数据分析与决策系统等项目建设。采用微服务架构,纯B/S模式,建成了一站式网上服务大厅、统一身份认证系统、主数据平台、数据交换平台ODI、API服务总线、大数据分析与决策系统。确定了数据源和目标,构建了较为原始的集数据采集、转换、清洗治理、存储、管理、使用、展示为一体的数据中台体系,基本上实现了信息标准化、服务一站化、业务流程化、数据模型化。
但是,随着智慧校园的不断推进,应用场景不断被多样化、碎片化、即时化,往往需要针对某一简单场景快速上线和应用,各职能部门需要实现跨平台、跨部门协同办公,对数据的使用需求和分析决策需求越发明显。此外,移动化的普及对使用习惯的改变也催生了移动化办公的转变。这些不断产生和变化的需求对智慧校园体系提出更高的要求。而反观现有数据中台体系显然不能满足需求,由于种种原因并没有实现平台价值的充分利用,存在诸多问题,归纳总结如下。
1) 数据中心黑盒运行,技术要求高,部门要数据,操作复杂。
2) 数据维度缺少,只考虑数据交换,数据价值未充分利用。只有结构化数据,忽视了非结构化数据。
3) 数据资源分散,师生重复填表。大量线下数据无法流动共享,数据来源缺乏权威。
4) 数据质量缺乏保障,难以为领导决策提供可信数据支撑,难以支持数据统计、分析,难以支持复杂的跨部门业务协作。
数据中台不是一个跨时代的全新理念,其建设基础依然是数据仓库和数据中心。为此,本文针对传统数据中台存在的问题,采用大平台、微服务的智慧校园架构,提出更优的高校数据中台解决方案。目的在于实现全局数据服务能力统一供给,充分支撑智慧校园体系中的各类信息化服务综合应用和数据分析挖掘的需求。同时为解决数据的管、通、统3类核心问题提供理论依据和方法借鉴。其设计方案如图1所示。
图1 数据中台体系
1) 数据源层
涵盖高校常见的各类数据源,包括关系型DB、文本文件、syslog日志、二进制日志等数据,实现线上业务数据、线下业务数据、智能设备数据和互联网数据的全量提取,在物理层面形成一个大的数据集。
2) 数据采集、处理层
以需求为驱动,以数据多样性的全域思想为指导,统一业务系统集成通道,确定人事、科研、学工、教学等数据唯一源头,制定相应规范制度,确保数据来源唯一性。遵循并完善现行数据编码体系,基于Hadoop生态体系,采集和治理全业务、多终端、多形态的数据,解决各类数据在逻辑层面的统一。
3) 数据仓库平台层
对异构数据先进行分类存储、分类治理、源头治理,溯源数据血缘关系、质量关系,统一数据格式,再实现数据统一存储,在物理层面形成一个大的数据仓库。对于原有数据,抽取、清洗、治理后直接引入数据仓库。
4) 数据治理输出层
构建统一数据治理体系,涵盖数据标准构建、不同类别数据集成、数据质量检测规则和评分体系、以及配套的数据管理规范制度等内容,实现数据的全生命周期治理,使得数据治理真正成为一个不断循环和迭代的过程。
5) 数据应用层
构建统一数据开放平台,通过统一服务总线API接口供应数据。程序通过API调用直接访问到数据源中的数据,无需本地再建数据库,实现轻量级架构。同时,将不同来源、不同架构的数据进行统一的API封装,屏蔽多数据源、多物理表、多查询渠道、多出口供给的复杂性,实现数据与程序的松耦合架构,从而实现简单应用场景的快速开发与上线。此外,构建数据库体系和知识库体系,真正降低数据使用门槛,为广大师生、各业务部门、各级领导提供数据化、智能化的智慧校园服务。
本设计方案在传统数据中台体系基础上,构建了新的更优的数据中台体系,落地后应实现5类能力和5种体系,分别是构建采集数据、治理数据、发布数据、管理数据、分析数据5类能力;形成数据标准、数据资产、知识库、数据处理和分析、制度规范5个体系。
以智慧校园建设为背景,分析了传统数据中台建设现状与建设模式,针对存在的问题,提出新型的数据中台解决方案,为解决数据的管、通、统3类核心问题和实现数据的全生命周期治理提供了一种新的解决思路。同时,智慧校园建设应构建采集数据、治理数据、发布数据、管理数据、分析数据5类能力,形成数据标准、数据资产、知识库、数据处理和分析、制度规范5个体系。降低数据使用门槛,为广大师生、各业务部门、各级领导提供数据化、智能化的智慧校园服务。
随着5G网络、物联网络、大数据、人工智能等技术的不断发展、普及及应用,数据中台将会朝着数据更多样、底层更智能、上层使用更简单、应用更丰富的方向发展,在不久的将来,必将迎来各行各业依托数据中台进行数字化转型和构建数据智能应用的热潮,而蓬勃发展的相关技术也将为数据中台功能的完善与升级提供更多的可能性。