关于高校数据中台的建设方法研究

2022-04-12 05:13陈诗源
计算机时代 2022年4期
关键词:数据资产

陈诗源

摘  要: 针对目前国内部分高校存在数据孤岛、碎片化和数据资产利用率低等数据管理问题,提出以数据中台为架构的高校数据管理体系建设方案,通过统一规范校内的数据标准,在服务层面实现各业务数据的互通,使得校内数据资产得以集中规范管理和充分利用,逐步为智慧校园建设打下基础。

关键词: 数据中台; 数据孤岛; 高校数据管理; 数据资产

中图分类号:TP399          文献标识码:A     文章编号:1006-8228(2022)04-126-04

Research on the construction method of university data center

Chen Shiyuan

(Department of Information Technology Engineering, Fuzhou Polytechnic, Fuzhou, Fujian 350108, China)

Abstract: In view of the problems of data isolated island, data fragmentation and low utilization of data assets in some universities in China, this paper presents the construction scheme of university data management system based on data center. Business data can be interconnected at the service level by standardizing data standards on campus, and the university data assets can be managed in a concentrated and regulated way while at the same time being fully utilized. Data center will gradually lay the foundation for the construction of smart campus.

Key words: data center; data isolated island; university data management; data assets

0 引言

目前國内高校信息化步入了快速发展时期,不仅在日常教学中通过信息化手段实现教学目标,跟上“互联网+教育”的热潮,也同时在行政管理方面建立起了各种信息化系统。高校信息化建设是循序渐进的漫长过程,由于国内部分高校在建设初期缺乏完善规划,不具备良好的数据管理体系,产生较为普遍的数据孤岛和数据碎片化问题,无法充分发挥数据价值[1]。即便部分高校已建立起传统共享型数据中心(如图1所示),但该数据管理模式高度依赖技术人员,极易造成资源请求排队现象,效率低下;另外,传统数据中心维护难度和工作量较大,通常需要外包商协助管理,导致运营成本较高;对于数据的管理手段单一,基本只能从宏观层面上管理,无法涉及到数据细节。

当前各高校已开始智慧校园的规划建设,在此背景下各类信息系统将逐步被一站式智能服务平台所替代,人脸、指纹识别等技术将应用在校内场景中[2],这对于数据的质量、维度、服务和管理等方面有了更高的要求,给当前高校数据管理体系带来了挑战。

针对新的挑战,本文提出建设高校数据中台的方案,有效解决了当前高校数据闭塞、资源浪费等突出问题,也为智慧校园建设打下基础。

1 高校数据中台相关概念及构建意义

数据中台是近年来兴起的新型数据管理架构,在国内最早由阿里巴巴投入商用,后逐渐被各企业借鉴使用。数据中台可理解为数据的“公共服务平台”,是一种平台思维的演变,主要由方法论、组织和工具相互构成。数据中台通过进行全域数据采集、存储、加工后,实行统一的计算口径、系统逻辑和管理流程的标准化管理,实现数据资产化,构建出组织级的大数据资产层[3],并将数据输送至服务、决策、支持、智能推荐等各应用场景中,使数据价值得以充分释放,形成一个将数据资产转化为生产力赋能业务,同时业务再次产出高质量数据增益数据资产的良性循环过程,成功地实现了数据、技术、产品和服务的统一,并具备了安全性、可靠性、时效性和灵活性等特点。

通过构建基于数据中台的高校数据管理体系,可以对数据实施全生命周期管理,并从传统的技术管理转变为以业务为主导的管理模式,让用户都成为数据资产的管理者,最终能为信息门户、决策协助等综合性校务提供强有力的数据支撑,变得更加安全和便捷。通过高校数据中台,数据管理人员能够以全局视角跟踪数据在生成、流动、使用、修改、存储阶段的全生命周期情况,可以对校各处室的数据资产使用情况、使用范围和参与程度进行管理,并可以实施全方位的数据治理工作;各职能处室对于内部的数据资产可以通过数据中台进行管理,并允许在校级数据标准下自定义处室的数据需求和数据供应标准,同时各业务场景的数据都可以清晰地追溯到源头以及最终流向情况,赋予了业务人员对于数据资产的直接管控能力,既加强各处室之间的数据联动,提升工作效率和条理性,同时也在一定程度上摆脱了对技术人员的依赖;对于广大师生而言,校内业务办理时将更加智能化,流程清晰且快速,可以实时查看各业务环节的办理状态,减少了跑腿次数,提升了使用者的体验感和科技感,节约了大量的宝贵时间。

2 高校数据中台总体架构

高校数据中台的运行机制是全域数据汇聚与开发模块相互配合向上形成数据资产,同时数据资产再封装成各类数据服务以供顶层的业务场景调用[4]。数据中台整体可以划分为多层结构,如图2所示。

2.1 数据资源层

数据资源层为数据中台的最底层。该层对高校全域数据进行定义和分类,主要可分为各类接口数据、高校业务系统数据、关系型数据库数据、分布式数据库数据、消息队列、系统日志数据、爬虫抓取的互联网数据等。

2.2 计算存储层

该层聚集了数据中台的核心组件,如HDFS、Kafka、MPP、Spark、Flink等,主要负责数据存储管理和计算。高校全域数据经过归类收集之后,计算存储层负责所有数据的存储工作,同时承担数据资产层的数据加工任务。

2.3 数据汇聚层

数据汇聚层主要执行全域数据的汇聚任务,该层克服了数据多样性、多源性、异构等特征,针对不同数据来源采用了实时接入、离线同步等方式到数据中台进行汇聚存储,从技术上打破数据孤岛等问题。另外,为了屏蔽底层复杂的组件,在该层还提供了数据采集的可视化管理工具。

2.4 数据资产层

数据资产是数据中台的核心,它更易于被上层业务直接使用。数据资产层的任务主要包括数据模型架构设计以及主题域的设计。数据模型架構采用分层结构,将数据分为ODS、DWD、DWS、ADS共四层。数据操作层ODS通常用于采集和保存原始业务数据。数据明细层DWD和数据集市DWS保存的是数据资产的主体,通过将ODS层的原始数据进行梳理和重新定义,并依照标准进行加工转换之后形成数据资产。在高校数据集市中,通常保留着经过处理并符合特定应用的数据集合,如提供给人事处的个人数据信息、提供给校办的处室数据、以及用于构建校领导驾驶舱的辅助决策、综合报表的关键数据等。ADS层的数据是各条业务线基于DWD和DWS的数据资产再次加工形成的,主要为特定的业务供应定制数据。

2.5 数据服务层

数据服务层主要通过接口访问下层的数据资源从而为应用层提供相应的服务,扮演着承上启下的角色。该层主要具有数据权限管理的机制,同时提供数据在线查询功能、即席查询等功能。

2.6 资产管理层

资产管理层主要负责中台的数据治理任务,通过管理数据的生命周期,保障了数据的质量,提升了数据的应用性,实现数据资产的增值。通常该层需要具备可视化功能让使用者能够清晰地了解高校的数据资产情况,完成资产查询、分析和管理等功能。

2.7 数据中台的其他模块

数据中台的运营管理和安全管理是高校数据管理体系健康稳定运行、持续产生数据价值的重要保证。数据开发模块贯穿于数据中台运行的各个环节,为各场景提供套件和工具,如使用数据同步套件实现异构数据之间的同步交换等。位于数据中台之上的是具体的数据应用场景,数据资产将通过数据服务层输送至该层进行使用。

3 高校数据中台建设研究

根据上述高校数据中台的总体架构,本文以南方某高校为例,研究基于数据中台的高校数据管理体系建设方法。

3.1 校内业务需求分析

在数据中台建设初期,最重要的任务就是对校领导、各处室以及师生群体进行需求调研。需求调研工作应从宏观层面展开,梳理高校的整体业务以及具体业务场景,并逐步细化分解到基础数据级别。首先,结合访谈、收集资料等方式对校内现有的组织架构和岗位职责、业务模式和流程、关键业务节点、数据库信息、数据内容和形态、供需关系、交换共享要求、数据质量问题等信息进行收集,并总结出当前校内数据现状、所有应用场景、业务需求以及存在的痛点,提炼出相关的数据指标和维度,最后形成校内数据现状报告以及项目范围说明书。根据该高校调研结果,主要问题体现在校内业务转型创新缺乏数据支持、校数据资产难以治理以及数据使用效率亟待优化等问题。对于校内数据供需关系的梳理结果,则可以通过UC矩阵表来进行展示,如图3所示。

3.2 数据模型设计

⑴ 制定统一的校级数据标准规范

完成调研和分析之后,可获得当前校内数据的管理状况,生成包括数据字典、数据血缘、数据质量、数据资产台账等资料,通过结合教育部颁布的高校数据管理标准则可以建立起统一的校内数据标准规范,为数据中台的数据集中管理打下基础。高校数据标准规范的制定主要分为设计、审核、发布三个阶段,在制定过程中应尽可能贴合当前校内业务流程、数据管理模式和现有的数据标准进行设计。

⑵ 数据标签设计

数据标签设计是数据中台建设前期的核心工作之一。数据标签通常围绕着具体的业务场景进行设计,是实现数据价值最大化的重要手段。例如,针对该高校教务处学籍预警的业务场景,主要可以分为一级预警和二级预警两种等级,因此针对以上两种学业情况设计出两个标签:一级预警,口径定义为有6门及以上课程不及格;二级预警,口径定义为3-5门课程不及格。在完成数据标签设定之后,就可以将数据归纳至相关标签下。数据标签的归类方式可以通过人为主观分类、算法计算、机器学习等多种方法实现。

⑶ 校园业务流程分析

本阶段任务主要为了保证数据资产能够良好地融入到业务流程中,形成基于数据驱动的业务运营模式,是对宏观调研结果的细化过程。根据调研阶段所获取的业务场景和具体功能清单,需要对该高校所有业务流程进行详细地梳理,获取所有业务节点对于数据资产的供应需求,同时根据当前业务痛点确定原有业务流程的改造方案。

⑷ 业务指标设计

业务指标通常是指支撑整个业务流程环节的各种数据指标组合。由于相同业务场景中任一节点基础数据可以取自不同的数据源,根据已制定的校内数据规范,每个业务指标在数据中台只能有唯一的计算口径,从而有效避免数据应用混乱等问题。另外,在业务指标设计环节需要对指标构成的特征属性进行分解,例如在财务处的学费缴交业务场景中,每位学生的缴费流水指标属性就可以拆分为具体的年、月、日、付款时间、支付方式、学生姓名、所属系部等基础元素,这实际上也构成了业务系统中的各种基础信息。

⑸ 数据子集划分

通过参考教育部2012年发布的JY/T 1006-2012《教育管理信息—高等学校管理信息》的相关标准,该高校将总体数据集划分为学校概况、学生管理、教学管理、教职工管理、科研管理、财务管理、资产与设备、办公管理、外事管理等12个数据子集[5]。划分子集的目的在于屏蔽具体的数据细节,从而更好地对各数据进行抽象分类,保证数据在应用时可以无影响地进入相应的数据集,有利于后续增量数据的管理和梳理。

3.3 校内全域数据采集

全域数据的采集方式主要可以分为离线接入、实时接入、手工导入等方式。离线采集是通过配置数据源、同步机制来定期完成采集工作;实时采集通常有两种方式,一种是采用实时计算引擎Flink与数据库对接进行计算,并把数据存储在中台存储层;另一种是通过标准化SDK进行埋点嵌码,记录用户相关行为数据后形成应用日志文件,通过Flume存入数据中台中;部分业务场景数据需要人为介入观察和统计,并通过表单手工录入的方式进行数据的采集。在高校数据采集过程中,需要根据不同场景设置相应的取数策略。

3.4 建立数据治理机制

数据治理是数据中台管理数据资产的重要机制,也是数据资产不断优化、增值的重要保证。数据治理主要包括了元数据管理、数据血缘管理、数据脱敏等多个任务[6]。

⑴ 元数据管理

元数据来源于各种数据资产,其内容主要是数据资产的相关信息。因此在数据治理中,不仅需要获取校内全域数据,还需要获取其元数据集合,才能更好地理解和管理数据资产。进行元数据管理首先应以数据资产各属性为基础进行分类,制定相应的元数据标准,同时要具备版本管理和查询功能,要实施定期维护和更新工作。

⑵ 数据血缘管理

数据血缘主要用于数据资产的追溯和管理,在事后排查故障和数据资产清点中都扮演着十分重要的角色。当应用数据在某些具体业务场景出现歧义或缺失时,即可通过数据血缘反向查询具体来源和加工链路。数据血缘管理需要设立机制来自动解析中台汇聚层的数据同步任务以及相关的SQL语句,以便于建立起各表、字段之间的血缘关系。

⑶ 数据脱敏

在对各类数据加工處理的过程中,可能会涉及如身份证号码,银行卡号等敏感信息,此时就必须在数据治理过程中建立数据脱敏机制,以防信息泄露,保障数据安全,但同时也应保证脱密数据的可视性,以便于业务的正常开展。

4 结束语

本文结合高校现有的数据管理痛点和数据中台的架构特性,阐述了高校数据中台的基本建设方法。数据中台实现了高校数据集中管理和标准化管理,并具备良好的应用拓展性,可以轻松满足校内各种信息化建设的数据需求,同时也为数据资产再利用和业务流程的创新提供了重要的数据支撑,因此数据中台在高校信息化领域将具有较好的应用前景。当然,目前数据中台架构也存在一些不足之处,例如中台的数据一旦出错则影响范围可能是全校级别,因此如何改进数据中台架构,提升其容错性和纠错能力是今后有待深入研究的重点。

参考文献(References):

[1] 肖炯恩,刘欣荣.智慧校园的数据中台建设与数据治理研究[J].高等职业教育(天津职业大学报),2021,30(2):82-86

[2] 刘姣,薛云霞,肖琴,周君仪.基于智能微服务架构的智慧校园融合门户模型建设[J].江苏科技信息,2021,38(30):48-51

[3] 胡翰林,沈书生.基于中台技术的教育大数据应用研究[J].现代教育技术,2021,31(9):78-86

[4] 贾伟.中生大数据治理体系建设实践[J].信息技术与标准化,2021(6):84-88

[5] 罗念龙,蒋东兴,宓詠,等.教育管理信息系列标准的规划与研制[J].中国教育信息化,2012(15):20-22

[6] 姚洪.基于数据中台的数据治理系统的设计与实现[J].科学技术创新,2020(35):74-75

猜你喜欢
数据资产
企业大数据应用下的数据治理
基于电力行业的大数据时代下元数据管理方法
如何构建数据治理模式中的职责体系
供电企业资产管理信息化应用探索
互联网企业数据资产价值评估方法研究
运营商大数据业务发展方向及策略研究
基于数据资产的数据质量评估模型研究及应用
数据资产视角下商业银行大数据应用现状及发展前景分析
大数据的财产属性研究
数据资产价值评估模型研究与应用