大数据视域下高校数据治理方案研究*

2018-07-06 07:11
现代教育技术 2018年6期
关键词:数据管理资产标准

余 鹏 李 艳

(1.中南民族大学 现代教育技术中心,湖北武汉 430074;2.中国科学院武汉文献情报中心 湖北武汉 430071)

一 研究背景

“互联网+”时代的到来,互联网、社交网络、物联网、移动互联网、云计算等相继进入人们的日常工作和生活中,并潜移默化地改变着用户的意识形态。高校信息化被迫要求扮演多元化的角色,对高校的信息化建设提出了更高的要求。《教育信息化“十三五”规划》[1]明确提出要建设“智慧校园”,高校由“数字校园”逐步迈向“智慧校园”,不断探索“以数据为核心资产、以数据驱动业务革新”的发展模式已成为我国高校向“双一流”迈进的必然趋势。数据的体量越大、维度越多,就越能够更好地为用户精准分析和个性化服务提供更多潜在的信息。

在数据挖掘驱动教育、变革教学的“互联网+”时代,教育领域同样蕴藏着具有广泛应用价值的海量数据。探索教育变量之间的相关关系,进行大数据的教育应用,为教育教学提供有效的决策支持服务,促进教育教学的变革与创新,成为十三五期间构建“智慧校园”的新型课题[2]。

二 高校数据现存的问题及数据治理的意义

在“十二五”至“十三五”期间,我国高校已基本迈入信息化时代。高校在不断整合业务流程、打破数据孤岛、统筹线上管理、享受信息化建设和快速发展带来丰硕成果的同时,也逐渐面临着数据标准不统一、数据源头不清晰、数据流转不顺畅、数据应用不能满足需求等一系列问题,给教学、科研、管理及服务造成了诸多不便。支撑数据获取不便,或无从获取,或从不同渠道获取数据不一致。在未来“智慧校园”的建设中,高校迫切需要更为便捷的信息化手段支撑教学、科研、管理及服务工作,建立完善的数据服务平台,实现对数据的安全、规范的采集、存储、交换及应用,是实现个性化管理服务的基础。

在上述内在和外在的需求背景下,高校制定统一的数据标准、实现业务系统数据、机器数据及公共数据的高度融合、构建稳定且半开放的数据平台必需且必要。开展数据治理工作,解决当前数据共享中存在的“数据质量不高、数据流向混乱、共享度不足、历史数据缺失”问题,实现对高校数据中心的重构,构建数据治理平台,对高校业务系统数据有序且规范化地进行梳理、采集、清洗、标准化规范存储和应用,实现学校数据资产的有效管理和数据的深度共享。抽取并整合全校所有业务系统的结构化数据,以及各系统运行日志和互联网数据等非结构化数据,按主题分类进行数据梳理,用于学校在管理、科研、教学及服务改革等业务层面宏观的统计、挖掘、预测。同时,深度治理后的数据能够在教学、科研、管理等多方面全面服务于高校发展,其意义主要体现在:深入促进服务创新和价值创造、有效提升管理和决策水平、提升校园数据质量和数据可信度、提高合规监管和安全风险控制,使高校师生能够充分享受大数据带来的个性化及贴心化服务[3]。

三 智慧校园中的教育大数据治理服务体系

1 高校教育大数据治理的目标

(1)数据标准规范化

数据标准是在高校数据平台框架下,保障高校内、外部使用和交换数据的一致性和准确性,具有行业特点且共同使用的一种规范性约束。数据标准是高校数据平台数据治理的基础,亦是数据治理建设中的首要环节。一方面,数据标准为高校数据平台提供统一的数据标准定义和平台逻辑模型;另一方面,数据标准是高校数据平台进行数据治理的依据和根本。数据标准是衡量高校数据平台数据资产运营和管理的评估依据。如图1所示,数据标准规范化的管理内容包括:构建基于校情的数据管控制度及数据标准管理组织、制定基于数据流程的规范性文件、实现信息项数据字典标准的规范化定义。

(2)数据管理脉络化

通过对数据流的梳理,可以看出数据管理的任务是构建元数据进行集中式的管理。在高校数据范围内,元数据主要描述了各业务系统的数据范围、数据类别、数据定义、数据表之间的关系以及数据流等信息。数据管理是元数据的创建、存储、整合以及控制的一整套流程的集合,用以辅助在高校场景内开展各类元数据应用。

通过对元数据的管理,大数据治理达到如下目标:①提供校级数据字典,便于内、外部准确掌握高校的数据概况;②提供全局元数据查询检索,便于快速定位元数据;③提供元数据详细描述,便于快速了解数据组成、数据结构及数据流向;④提供血缘/影响分析功能,便于进行分析判断、问题定位;⑤提供元数据接口服务,便于其它系统或模块使用元数据,实现数据交互与共享服务;⑥提供元数据应用,方便终端使用元数据。高校元数据的特点在于逻辑相对趋于集中,即将元数据管理作为统一的发布源,采用集中式的元数据管理模式,提供元数据的集中创建、维护、查询功能,不断趋于脉络化。

(3)数据质量度量化

数据质量深度反映了数据的“适用性”,即数据满足使用需要的合适程度。数据质量通过完整性、一致性、准确性、及时性、合法性等多类维度进行度量。数据质量的度量化工作旨在定义数据质量标准、建立数据质量审核机制、跟踪数据质量的全生态过程,为数据平台提供洁净、结构清晰的高质量数据,是数据平台开发数据产品、提供数据服务、发挥大数据价值的必要前提,是高校数据资产管理的关键因素。

数据质量度量化的目标是:为高校内、外部用户提供平台化的数据质量监控,通过扩充和优化公共规则库、增强后台对不同类型数据仓库和非结构化数据的兼容性,提升用户使用感受,并提供数据质量应用满足个性化需求。

(4)数据内容精简化

业务数据、系统数据、机器数据、日志数据等形成了高校的结构化数据和非结构化数据集合。数据源的多样性,严重制约了数据交换与共享。数据内容的精简化工作旨在消除重复数据、修正错误数据、实现数据的多次清洗、完成基于数据标准的转化等,以降低数据维护成本。

图1 数据标准的管理内容

图2 高校教育大数据建设总体架构

2 高校教育大数据建设总体架构

高校大数据建设总体架构可分为三个层次:数据治理层、数据平台层和数据服务层,如图2所示。各层的主要功能定义如下:

①底层——数据治理层。该层主要完成统一的标准和规则制定工作,包括抽取以业务数据为主的结构化数据,以文本、音视频、机器数据为主的半结构化数据及非结构化数据,实现对各类数据的梳理、数据标准制定、元数据管理、数据质量及数据资产梳理、数据安全管理、数据集成服务等,从软件层面解决学校业务数据、机器数据、公共数据池数据的管理问题,为后续的数据存储、交换与计算服务提供“干净、可靠”的数据资源。

②中间层——数据平台层。基于硬件架构层面构建统一平台体系,涵盖传统的关系型数据库和当前以 Hadoop为基础的分布式数据存储技术,用以支撑高校内、外部多源异构的海量数据存储、交换与计算。

③顶层——数据服务层。在数据平台层和数据治理层的基础之上,构建一套完整的、标准的数据服务体系,满足多方面的数据供给、展示、管理、决策的需求。

3 教育大数据平台与数据治理功能框架

教育大数据平台架构[4]如图 3所示。大数据系统基于开源的数据平台软件,依赖于数据采集层整合高校各类基础数据(包含Hadoop、Spark、Cloudera、Sqoop、Flume、ETL等),利用数据存储层的关系数据库、非关系型数据库MongoDB、数据仓库Hive、列存储数据库Hbase、分布式文件系统HDFS等将各类数据归档、分类、过滤、存储,采用Spark、Storm等计算框架实现大数据的分布式计算,将可用数据推送至数据缓冲层,依赖封装的数据接口实现大数据应用交互服务。构建具备吞吐TB级的数据架构,实现对TB级日志数据进行分布式存储和并行分析处理(可扩展),将高校的结构化数据和非结构化数据提取至Hadoop的HDFS中,经过数据存储层、数据计算层、数据缓冲层,通过数据接口“屏蔽”底层,能够大幅提升数据的可复用度,实现数据服务应用与数据的全解耦,让数据中心插上海量数据存储与计算的“翅膀”。

教育大数据治理工作的迫切性和必要性,确立了大数据治理系统在高校数据平台中的定位。本研究基于“五元管理”(包括数据标准管理、元数据管理、数据质量管理、数据资产管理、数据安全管理),进行了教育大数据治理系统相关功能建设,其功能框架如图4所示。

图3 教育大数据平台架构图

图4 高校教育大数据治理的功能框架

(1)数据标准管理

数据范围涉及高校内、外部数据运营相关的数据,包含业务数据、机器日志数据、外部互联网数据。以数据标准为基础的数据治理体系,实现数据的资产化,贯穿整个数据运营的全流程,形成以高校数据平台为核心的大数据生态圈,服务于高校内、外部的数据使用人员。数据标准的管理目标是实现高校数据的完整性、有效性、一致性、规范性、开放性和共享性管理,进一步提升数据治理水平。

数据标准制定包括数据标准体系和数据标准内容的制定。其中,数据标准体系可分为基础类数据标准和指标类数据标准,数据标准内容的制定是根据数据标准体系分类的要求制定数据标准的规范,如图5所示。

图5 数据标准体系结构图

图6 元数据管理功能图

(2)元数据管理

如图 6所示,元数据管理主要包含定义元数据模型,利用元数据服务接口动态存储及管理元数据,实现元数据(技术元数据、业务元数据)的实时获取。通过对技术元数据的抽取,把相关的字段抽取到相关工具平台,利用工具清晰查阅表或字段之间的关联,提供清晰的视图;通过对业务元数据的维护,确定相关指标与业务流程。依托大数据治理系统便捷地管理高校数据仓库中的数据,调整业务中的统计指标,并通过技术元数据和业务元数据两种数据的关联,辅助数据管理者快捷地查阅详细的指标定义,全面理解业务并合理使用指标。

(3)数据质量管理

数据质量管理涵盖从源数据接入数据平台到应用输出的全过程。数据质量包含数据质量管理、数据资产评估、数据质量规则库制定及数据质量绩效监控。数据质量的管理对象包括数据平台中的非/半结构化数据。数据质量管理既是数据平台接收数据源的“保护墙”,保障所有接收的源数据均符合数据平台的要求;又是数据平台数据资产评估的重要组成部分,通过构建数据资产规则库,为数据资产评估提供输入。依托数据质量绩效监控,由事后监控向事中、事后监控相结合转化,可在计算执行过程中调用数据质量监控作业,无需等待结果出来再进行监控。

(4)数据资产管理

数据资产管理过程是一个资产全生命周期的管理过程。资产全生命周期管理以数据资产作为管理对象,以资产战略和资产策略为导向,从系统整体目标出发,统筹考虑资产的规划、投资、设计、建设、运行、维护、稽核、变更、注销的全过程,在满足安全、效能的前提下有效管理、监控数据资产的生产和使用情况,不断优化数据资产质量,实现数据资产的业务价值。数据资产的功能如图7所示,具体包括:①注册管理,完成多种方式(采集器、在线维护、提供自助注册接口)注册数据资产、审核及版本控制等;②变更管理,完成注册数据资产信息的变更、审核与更新;③审计管理,完成数据资产盘点与数据资产访问记录的审计;④资产统计分析,完成数据资产的评估,包括数据质量、访问情况等信息的采集,依据相关信息对数据资产进行综合评估打分;⑤权限管理,完成与数据安全管理对接,除同步数据安全管理应用对象的信息及权限外,将数据资产访问的申请信息发送给数据安全管理模块进行处理;⑥接口管理,实现与元数据管理、数据质量管理、数据安全管理的对接,收集相关基础数据,用以完成数据资产的注册、稽核及安全管理。

图7 数据资产的功能

数据资产的统一管理,可以较好地解决当前数据中心普遍存在的需求分散重复、口径模糊等问题,实现成果和经验的共享与积累,便于实现应用和数据之生命周期的自动化管理。明确的数据资产信息,将有效支撑高校内部知识系统和资源管理的建设,为高校技术人员、管理人员更快捷、有序、便利地提供资产使用的方式和途径,支撑数据分析、开发、运维的自治。

(5)数据安全管理

数据安全管理旨在完善数据体系化的安全策略,建立完整的体系化安全策略措施,全方位地进行安全管控,通过多种手段保障数据平台数据治理中的数据安全,完成数据“存、管、用”的数据治理安全,做到“事前可管、事中可控、事后可查”:“事前可管”旨在全面分析系统,及时发现存在安全风险的环节设置防线,防患于未然;“事中可控”旨在通过4A、敏感数据管控、隐私信息保护等手段,密切关注操作,确保安全实施;“事后可查”旨在记录所有访问痕迹,保留操作日志提供审计。

四 结语

随着“智慧校园”的落地生根,高校在全方位提升自身教学、科研、管理、综合服务水平的同时,围绕高校快速发展的全过程数据逐渐引起了教育管理者的重视,并用以实现对教育大数据的梳理、采集、清洗、规范化存储、分析、挖掘、应用。利用数据服务于高校各项工作,也已逐步上升为高校发展的重要战略之一。教育大数据治理体系的构建,无疑将进一步解决高校数据管理过程中的种种困境,并为优化数据质量、提升数据管理水平,实现学校数据资产的有效管理和数据的深度共享提供必要的基础条件。通过大数据的深度治理,使教育大数据应用在高校遍地开花,将驱动高校由经验式的教学模式向数据服务的教育模式转变、由以管理为中心的管理模式向以用户服务为主导的需求驱动模式转变、由拍脑袋的主观决策模式向数据引导的智慧决策模式转变[5]。

[1]教育部关于印发《教育信息化“十三五”规划》的通知[OL].

[2]李艳,吕鹏,李珑.基于大数据挖掘与决策分析体系的高校图书馆个性化服务研究[J].图书情报知识,2016,(2):60-68.

[3]包冬梅,范颖捷,李鸣.高校图书馆数据治理及其框架[J].图书情报工作,2015,(18):134-141.

[4]胡添翼.夯实数据基础,构建统一平台[R]. 湖北武汉: 北京希嘉创智教育科技有限公司,2017:2-9.

[5]余鹏,李艳,吕鹏.高等院校大数据挖掘与决策分析体系的应用研究[J].现代教育技术,2016,(8):102-108.

猜你喜欢
数据管理资产标准
2022 年3 月实施的工程建设标准
企业级BOM数据管理概要
定制化汽车制造的数据管理分析
海洋环境数据管理优化与实践
CTCS-2级报文数据管理需求分析和实现
忠诚的标准
美还是丑?
轻资产型企业需自我提升
央企剥离水电资产背后
一家之言:新标准将解决快递业“成长中的烦恼”