高校全量数据中心建设的研究
——以扬州工业职业技术学院为例

2020-10-22 07:21
陇东学院学报 2020年5期
关键词:全量数据中心数据库

徐 胜

(扬州工业职业技术学院,江苏 扬州 225100)

2010年浙江大学在信息化“十二五”规划中提出的“智慧校园”概念指明了高校信息化建设的方向。智慧校园是物理空间和信息空间有机衔接,使任何人、任何时间、任何地点都能便捷地获取资源服务[1]。以物联网为基础的智慧化的校园工作、学习和生活一体化环境,这个一体化环境以各种应用服务系统为载体,将教学、科研、管理和校园生活进行充分融合。随着智慧校园建设的深入,业务系统间数据的流通共享成了瓶颈,出现数据孤岛问题。《教育信息化2.0行动计划》明确提出推进教育政务信息系统整合共享。以“互联互通、信息共享、业务协同”为目标,完成教育政务信息系统整合工作。建立“覆盖全国、统一标准、上下联动、资源共享”的教育政务信息资源大数据,打破数据壁垒,实现一数一源和伴随式数据采集。完善教育数据标准规范,促进政务数据分级分层有效共享,避免数据重复采集,优化业务管理,提升公共服务,促进决策支持[2]。因此,如何将智慧校园建设中沉淀的各类数据转为高价值数据资产是亟需解决的问题。

1 全量数据中心建设的难点

目前,大数据已被广泛应用在社交媒体数据、浏览器日志和文本挖掘等数据集中,通过大数据技术创建预测模型,达到了解客户及其行为、喜好的目的。利用大数据,电信公司可以更好地预测客户流失;沃尔玛可以更准确地预测产品销售情况;汽车保险公司能更真实地了解客户实际驾驶情况。大数据技术应用于高校场景,服务于教学管理等业务,因而具有一些不同于其他领域的特点。首先,数字化校园建设阶段的业务系统多由不同的厂商建设,这就要求高校数据中心能够对接不同类型的数据库。同时信息化建设过程中,仍存在使用Excel表格管理权威数据的现象,这部分数据也要能够实现线上的存储和流通管理;其次,高校信息化建设过程中投入大量的人力、财力用于核心交换机、认证计费、防火墙、行为管理、负载均衡、无线AP等网络设备建设,这些设备产生的日志数据拥有很高的价值,却因体量非常大难以发挥出来。数据中心要通过对日志数据的存储、解析,并实现与高校主数据关联,以达到释放日志内在价值的目的;最后,有别于企业级数据中心专注于某一领域分析预测,高校对于数据资产应用和服务方向也是不断发展变化,这就要求实现跨业务数据的关联融合,根据需求实现数据的快速供给。

2 数据中心建设思路

围绕前述几类业务痛点,聚焦“思想、目标、管理、应用、技术”的多维角度汇聚学校全量数据,提升数据质量,挖掘数据价值,旨在提升智慧校园数据服务能力,最大限度发挥其价值更好地服务师生,为学校的决策分析、运营管理效率和应用生态的建设发挥重要作用。全量数据中心平台架构[3]如图1所示。该平台主要由“五个层面、两大体系”构成:全量数据采集及清洗转换层、全量数据治理层、全量数据仓库层、全量数据管理层、统一数据门户层(包含大数据分析应用)以及数据治理体系和数据安全管控体系。整个架构将充分支撑扬州工业职业技术学院智慧校园中的各类信息化服务综合应用。

图1 全量数据中心平台架构

3 主数据治理

主数据是指学校范围内各个应用系统间要共享的、高价值的数据(如学校基本信息、学生基本信息、教师基本信息等),具有变化缓慢、使用频率高等特点。数据治理是围绕数据资产展开的一系列工作,以服务组织各层决策为目标,涉及有关数据管理的技术、过程、标准和政策的集合[4]。通过主数据的清洗治理工作,实现校级统一标准结构、分类清晰科学的高质量数据集建设不仅能厘清全校数据资产,也能够提高高校决策的科学性和管理的有效性。

3.1 数据标准制定

数据标准是整个信息化建设的基石,为信息交换、资源共享提供了基础性条件。通过对全校各种数据的调研梳理,按照教育部行业标准为主体框架,进行数据子集分类和元数据标准定义,引用国家、行业的标准代码以及学校现有数据标准,结合学校实际情况制定自有代码标准、编码规范、命名规范等,从而建立全校统一的数据标准。制定数据标准建设应着重考虑以下方面:

(1)标准的兼容性:“标准”的实施对各职能部门信息系统建设、数据交换与共享,数据收集、分析、发布都有十分重要的意义,因此所采用的数据标准必须与国家标准、教育部等数据标准相兼容。

(2)标准的唯一性:一个分类编码标准中,每一编码对象只能有唯一的代码,一个代码只唯一表示一个编码对象。

(3)标准的可扩性:随着信息化进程的发展,数据标准也必须是一个可以及时更新、不断充实的动态系统。

(4)标准的规范性:在一个信息编码标准中,代码的结构、类型以及编写格式必须统一。

(5)标准的适用性:代码应尽可能地反映分类对象的特点,便于应用。

(6)标准的全面性:数据标准不仅包含国家、教育部级、学校本身的业务标准集,还要在业务标准的基础上构建数据仓库标准以便实现学校的业务优化和数据资产盘活。

3.2 数据资产调研与识别

由信息中心牵头对学校的部门组织架构、管理机制、数据管理现状等进行摸底。将各管理部门的业务内容、组织机构、管理信息系统、后台数据库信息、数据内容和形态、供需关系、交换共享要求、数据质量问题、可引入的标准资源等进行调研了解并输出数据现状报告,确定数据治理范围,初步梳理出业务系统数据库治理的内容。

根据数据调研的结果,罗列所有已知的数据来源和分布,记录访问账号和入口(获取业务系统数据库只读账号,部分业务系统对接采用视图方式,则应当深度使用信息系统,尽可能全的获取视图字段)查看实际的数据内容。根据调研确定的数据治理范围目标,从数据来源中识别出目标数据所在的库、表、字段和格式等信息。

通过对学校业务系统数据调研识别以及对系统数据库的梳理,归纳整理出一卡通数据集、图书管理数据集、财务管理数据集和科研管理数据集等9个数据集,建立高校统一数据仓库(UDW,University UnifiedData Warehouse)模型。

3.3 构建ODS集中库

识别人事、科研和一卡通等系统数据库中的业务数据表、代码表,使用抽取-转换-加载(ETL,Extract-Transform-Load)工具对表中的结构化数据进行抽取。配置定时调度任务,利用凌晨各业务系统库访问量不大的窗口期,集中对系统数据库采集、加载到操作数据仓库(ODS,Operational Data Store)中。数据集成时需要在线连接多个外部业务系统数据库,同时系统数据库还承载着实际业务的访问压力,直接影响到业务系统的稳定性,出现访问延迟等问题。ODS库作为原始业务系统数据库的拷贝用于数据集成,完美地解决了这样的问题,还能够提高数据治理平台的稳定性和数据治理的效率。

3.4 数据源梳理

基于学校各业务系统厂商数据字典,对数据的业务含义进行理解,梳理需要采集的数据出处。根据数据字典识别理解原始数据,从中筛选出有效的数据(即数据标准所对应的数据范围),进行相应的标注:是否是主数据、是否是关键过程数据、备注等。数据识别完成后,记录表与表之间的映射关系、字段与字段的映射关系,如图2所示。

图2 数据采集映射规划

通过明确每一张数据表的权威数据来源于那个系统、中间经过了哪些系统以及最后从那个库里面被共享出去,输出校级的数据血缘关系图。绘制数据矩阵表(UCRM,Use Create Role Management)(如图3所示),记录和编辑每个数据项的产生部门(Create)和使用部门(Use),明确数据权威来源和责任归属,同时对部门各个角色(Role)在数据管理方面的权限(Management)进行明确定义,以确立“一数一源”,厘清高校数据的脉络、落实数据在共享交换过程中的职责。

图3 校级UCRM矩阵图

3.5 数据采集清洗加载

数据清洗转换主要是对原始业务系统数据中存在的明显错误进行识别和处理,包括遗漏值处理、噪音数据处理、不一致数据处理等内容。根据数据映射关系,参照预先制定的数据标准,对ODS库中数据进行格式统一、质量提升等处理,最终输出到UDW库中。数据清洗转换按照实际的处理过程,可分为以下几种:

(1)数据名称及格式统一。主要包括统一的命名、数据格式、计量单位以及数据粒度转换和商务规则等内容,通过数据之间的映射关系来完成此过程。

(2)消除数据类型的不一致。对不同数据源中的相同字段的类型根据数据标准中的定义进行转换。

(3)消除数据标准的不一致。数据集成过程中,将不同数据源的数据标准转换成统一的格式。如人事系统中性别的定义为“男”“女”,一卡通系统中以整型的“M”代表男,“F”代表女,而在数据仓库中采用统一格式定义性别。

(4)数据二次计算处理。在数据仓库的场景中,部分数据内容无法从源数据库中直接获取,需要对源数据进行字段的分割或计算,组合成新的内容。数据二次计算主要包括对数据的汇总,例如从人员基础信息中统计出各个学院的人数、职称等数据,进行中间数据的存储,在最终分析呈现中可以提高数据使用的效率、降低使用的门槛。

3.6 数据质量检查

数据质量是一种通过测量和改善数据综合特征来优化数据价值的过程[5]。数据清洗转换完毕后,需要进行数据质量检查,直观展现出存在的数据质量问题,以供业务部门从源头修正。根据我校对于数据的需求,定义数据质量核心规则如表1所示。

表1 数据质量核心规则

根据字段的业务特性,将质量规则绑定到对应字段上(一个字段可能会同时绑定多个规则)。执行质量检查,输出可视化数据质量检核报告,并根据校级UCRM矩阵确定数据源头业务系统,并将该报告推送至各部门相关负责人,实现数据的溯源修正。

4 全量数据中心平台建设

为了更好地自主管理数据资产,学校引入北京希嘉公司的数据治理平台、非结构化数据治理平台、数据开放共享平台。通过实现数据治理、数据开放共享等关键环节全流程可视化操作,解决以往只有厂家技术人员在数据库层面或者线下层面才能完成的工作,从而真正掌握全校数据资产。

4.1 数据治理平台

数据治理平台(如图4所示)集“标准制定、集成清洗、数据管理、质量提升”功能为一体,提供半自动化的线上工具去记录、管控、沉淀整体流程。平台实现了全校业务系统数据资产盘点、全生命周期元数据管理、主数据管理、校级数据标准管理、ETL接口同步管理和数据质量检测分析等诸多功能,保障数据治理过程中关键信息的及时性和一致性,为学校的数据治理工作提供可视化的数据支撑。

图4 数据治理平台

4.2 非结构化数据治理平台

相较于结构化的主数据,非结构化日志数据和半结构化的线下表格数据也是学校数据资产的重要组成部分。日志数据来源于各类网络设备、安全设备、应用系统等,其特性为非结构化存储、体量巨大,但其中蕴含了高价值的行为类信息。构建了基于Hadoop集群的日志治理平台(如图5所示),实现对于多源日志数据的一键式接入、解析、关联和计算等功能,从而为更为丰富的应用分析场景提供高质量、结构化的日志数据源。

图5 日志数据治理平台

由于学校信息化水平限制等原因,很多的权威数据通过线下Excel表格进行管理。构建了基于可视化界面的线下数据治理平台,在兼顾业务部门人员维护数据习惯的基础上,实现对于此类高价值数据的采集,最终实现对于部门权威线下数据的常态化收集利用。

4.3 数据开放共享平台

数据开放是指通过数据接口、网站等形式,在业务系统内部、系统之间或面向全社会,合理合法公开特定数据的获取与使用权限[6]。传统数据共享在数据库层面用视图完成,存在系统间数据协调复杂,难以复用、厂商响应速度太慢、信息中心运维管控困难和共享数据实时性难以保证等诸多痛点。因此应构建数据开放共享平台,将学校不同类别数据源以统一的API接口方式对外开放,供第三方开发者使用,减少对数据库的直接访问,降低数据共享门槛,满足实时、按需的共享需求,适应高校智慧校园一站式服务中碎片化服务流程的需要。该平台实现了数据的发布、申请、审核、调用全流程可控与数据安全保障等功能。数据开放平台界面如图6所示。

图6 数据开放平台界面

5 数据中心建设成果

主数据治理以及三大平台(数据治理平台、非结构化数据治理平台和数据开放共享平台)的建设完成,全量数据中心整体框架基本完成,数据红利初步释放。在数据开放共享方面,平台已相继完成对专业管理平台、教师发展平台、云课堂和学工系统的数据供给,如图7所示。在数据分析决策方面,领导驾驶舱已完成基本办学条件、师资、教学、科研、图书、国资、一卡通和智慧网络等8大类主题分析,如图8所示。

图7 数据开放平台应用管理

图8 领导驾驶舱主题分析

6 结束语

本文从高校数据现状入手,说明了建设全量数据中心平台的必要性。通过对平台框架、主数据治理、数据开放共享等问题的研究,阐述全量数据中心平台建设的全过程。该平台的建设解决了业务系统数据标准不一致、数据交换门槛高、数据质量不高等问题,为“智慧校园”建设打好了数据基础。如何将外部互联网等更多类型数据纳入平台当中,并将它们与主数据关联应用于不同类型主题分析则是下一步需要重点研究的问题。

猜你喜欢
全量数据中心数据库
酒泉云计算大数据中心
成都市温江区全力推进医保全量数据采集试点工作
浅析数据中心空调节能发展趋势
关于建立“格萨尔文献数据中心”的初步构想
大数据还是小数据?
数据库
数据库
数据库
数据库
水稻冠层光谱变化特征的土壤重金属全量反演研究