大数据视角下高校数据治理方案研究与实践

2020-08-04 11:32李爱凤刘葵王挺
中国教育信息化·高教职教 2020年7期
关键词:数据治理大数据

李爱凤 刘葵 王挺

摘   要:数据是一所学校的重要资产。科学规划数据和进行有效的治理,对数据资产的应用发挥最大价值具有重要意义。文章首先采用文献调研法系统梳理了国内外数据治理的相关研究动态;然后提出了高校数据治理五星模型;最后,以具体业务场景教师一张表信息为数据治理对象进行了实践分析与研究。结果表明,业务驱动是推进高校数据治理方案的关键。

关键词:大数据;数据治理;五星模型;业务驱动

中图分类号:G647 文献标志码:A 文章编号:1673-8454(2020)13-0064-04

一、引言

广州大学的信息化建设经历了基础建设阶段、数字校园建设阶段后,目前已步入智慧校园阶段。学校在日常教学、学习、科研、管理和校园生活过程中形成的各式各样数据将成为智慧校园的基础。但是,目前广州大学数据质量总体处于较为低下的水平,各业务系统数据存在数据缺失、错误数据、重复数据各种问题,没有进行有效的数据治理,也没有针对未来需求主动采取数据质量保障措施,一直疲于应对存量数据产生的数据质量问题。主要表现是:①数据多头管理且缺少专门对数据进行监督和控制的组织;②数据多系统分散建设没有规范统一的校级数据标准和数据模型;③数据缺少统一的关键数据视图和缺乏对关键数据的管理;④没有建立数据质量管理平台。

为解决数据治理存在的诸多问题,我们从企业数据资产管理的角度定义智慧校园中的数据资产管理,并在此基础上提出高校的数据治理五星模型。以一个具体的应用场景阐述高校数据治理平台以实现数据治理可视化、流程化和自动化的技术实现。通过整体数据治理五星模型管理,持续梳理学校数据资产,促进高校管理模式从业务驱动到数据驱动的转变,进一步推动高校信息化水平的提升,实现数据转换为智慧。

二、国内外数据治理研究动态

数据治理概念最先产生于企业领域,后逐渐在银行、保险、电信、教育等行业得到应用。国内外学者围绕着数据治理进行过多方面的研究。[1]其中国外学术界涉及的研究领域有治理概念、治理要素、治理模型、治理框架,其中在这几方面有代表性的成果是:P.Sonla[2]指出數据治理是一个有机组合的系统,它包括决策、职责及流程;S.Stockdale[3]在论文中提出数据治理有五要素,分别是治理架构、相关角色和职责、治理数据分类、治理标准、治理实施;S.Kim[4]提出商业和IT联盟的数据治理模型;DGI[5]提出DGI数据治理框架和数据生命周期理论。国外学者研究的领域较宽,涉及的治理内容丰富,但最终都是对相应职责以及角色的分配。

国内学者主要从治理体系、治理保障,及实践应用方面展开了研究。治理体系集中于对治理模型和框架的研究;治理保障主要研究数据的质量安全;治理应用集中在图书馆、银行、电力等以数据为核心的行业。目前,高校数据中心的建设、医疗大数据等也得到了很高的重视。[6]在这三方面,产生了有代表性的研究成果。童楠楠等探索了卡内基·梅隆大学于2014年提出的数据管理成熟度模型(Data Management Maturity,DMM)的逻辑架构、要素构成和应用实践。包冬梅等研究了国际数据管理协会(Global Data Management Community)框架和国际数据治理研究所(Data Governance Institute)的数据治理框架。包冬梅等分析了两个框架之间的差异,并提出具体业务领域的数据治理框架。严昕等[7]从城镇信息化角度,探索这两种框架对城镇信息化数据治理构建与实施的意义。数据质量管理的目标是通过数据分析提高数据质量。续瑾成[8]和张琼文[9]分别在质量管理和质量评估上做了相应的研究。李冬等[10]对数据传输中的安全和赵刚等[11]对国家层面的网络空间问题进行了研究,主要包括数据安全、隐私保护、访问权限管理、安全审计、制度及流程五大方面。在应用实践数据治理方面,有谈韵[12]在电力行业,王宏宇等[13]、许晓东等[14]在高校方面,常朝娣等[15]在医疗领域的研究。

三、业务驱动的高校数据治理平台

为帮助企业管理海量数据并从中快速获取真正有用的信息,数据资产管理应运而生。[16]在高校教育大数据背景下,越来越多的学校在建设高校数据中心平台,构建基于数据治理的数据中心五星模型。数据治理的五星功能模块如图1所示。其中元数据管理平台如同人体的血管深入到学校每个系统内部,通过每个系统的关联关系,构建了学校的数据地图信息。其中包含的数据基因可以形成单个数据单元的血缘分析和影响分析,在数据质量管理过程中,沿着元数据的脉络找到数据存在的问题,补充完善数据质量,从源头上做好数据规范抽取。在下游,做好数据质量清洗,形成一个良性循环的体系。在业务场景驱动下,通过ETL工具的可视化将各业务系统的数据存储到同一个大库里,获得一个完整的物理数据库,以便构建主题进行数据分析。数据质量的实施针对的是系统可能还会存在一些问题。例如,同步异常或者人为失误等情况形成的脏数据,这时候,需要一个逐步完善的阶段,分析问题、改进相关数据清洗规则,实现对数据整体质量控制;根据改进的规则定义,又可以反馈到数据标准上完善,把数据质量与数据标准有机结合在一起。数据的安全管理对数据安全策略进行管理,包括定义及维护数据敏感性、敏感数据的定义、敏感数据的发现并提供发现报告及敏感信息维护。几大子平台是紧密相关并互为补充,其核心都是围绕数据治理。现结合具体的业务场景以教师一张表为对象描述数据治理活动。

1.教师一张表实现流程

以教师为主题,首先分析与教师主题相关的所有业务系统数据。其中包括几大核心业务系统如人事、教务、科研、研究生、财务等管理系统以及一卡通和图书管理系统。对接入数据治理平台的业务系统进行特征构造,即把每个系统与教师主题相关的具体指标信息进行有效的清洗和整合,加以重组并进行数据仓库建模,以实现教师主题的相关数据集成及特征数据汇聚。整个过程如图2所示。图2以思维导图的形式展现了教师一张表实现的过程,图2中的第三部分是数据仓库分层建模,在数据仓库实施过程中将数据仓库系统的数据划分为原始数据层(ODS)、数据仓库层(DW)和公共数据集市层(ADS)。图3是ETL示意图,图3表明,其中将业务系统的数据原封不动地抽取至原始数据层(ODS),避免数据仓库直接调用业务系统的数据。数据仓库层(DW)是面向主题的基础数据表和代码表。基础数据表是一个包涵主题的通用集合。通过对原始数据层(ODS)的数据进行清洗和转换形成特定主题的简明视图。代码表用于定义常规的、可枚举的数据值,同时帮助用户明确这些数据的含义。公共数据集市层(ADS)以某一主题分析为出发点进行建设,只关心主题需要的数据,因此,结构清晰、针对性强、扩展性好。该层数据一般是对数据仓库层(DW)的数据进行汇聚后形成特定的主题视图。在高校数据治理管理平台中,一般在公共数据集市层(ADS)包括教职工主题域和学生主题域两个大的主题域。再根据业务应用需要,以教职工主题域为例可分为学科建设分析、教学管理分析、科研活动与成果分析等子主题进一步分析;以学生主题域为例可在招生就业分析、学生管理分析等子主题进一步分析,为学校的管理提供决策支持。教师一张表通过一个可视化的图形界面展示了教师在校的主数据,图4展示了人事信息的部分数据;除此之外还有教职工的教学教研信息、科研信息、资产信息、其他信息等栏目。通过该应用场景实现了一次采集、统一管理、多业务应用。但也要求教职工各项数据必须准确且具备唯一属性。然而在实际应用中发现各业务系统作为教职工相关数据产生的源头,还存在大量的脏数据,图4所示的高层次人才信息的批准时间99999999就是一个无效的时间格式,必须对数据进行治理以便从数据产生的源头上提升数据质量。

2.教师一张表数据治理流程

(1)数据治理组织架构及职责

合理的组织架构设置是进行数据治理工作的必要条件。根据学校实际,学校组织架构由决策管理层、组织协调层、执行层组成。决策管理层是学校数据治理领导小组,由学校主管信息化的副校长、网络中心主任、各业务部门负责信息化的领导代行其职责;组织协调层是数据治理管理办公室,由数据质量管理员代行其职责;执行层包括数据治理小组、业务部门、网络中心等部门及外部厂商。数据治理组织架构设置如图5所示,各工作人员的职责如下。

①数据治理领导小组:定义数据治理愿景和目标,设置数据治理计划的总体方向;组织跨业务部门协调;审核和批准数据治理相关制度和报告,负责重大数据质量问题的解决。

②数据质量管理员:负责数据治理的牵头、组织、指导和协调数据治理工作;数据治理管控办法、数据质量管理流程等有关规则制度的牵头制定和修改;数据治理相关系统和工具的管理使用,跟踪数据治理过程改进。

③业务汇总统计机构:负责各业务数据汇总统计口径业务的对接和确定,协调处理数据汇总口径的问题。

④数据治理小组:负责分析评估数据质量,出具各业务系统数据质量报告;负责数据的剖析、清洗匹配合并等;定义数据的转换规则。

⑤数据源负责教师:遵循数据“一数一源”原则负责处理系统数据质量问题;按照数据管理办法及数据标准执行数据的日常维护;提出业务数据使用需求。

⑥数据治理技术支持人员:负责数据治理中系统和工具的开发与维护。

(2)教师一张表数据治理实施

通过梳理教师主题业务场景的构建发现,从各业务系统集成的数据存在各种数据质量问题。图6所示是数据主要问题及占比。要让数据成為学校资产并有效应用,数据治理刻不容缓。因此,广州大学以业务场景驱动面向学校全量数据、增量数据和未来数据积极开展数据全生命周期质量管理规划设计工作,规划成果指导学校业务数据质量管理工作的开展,促进学校数据质量持续提升。教师数据主题数据治理总体流程设计如图7所示。从图7可以看出,教师一张表数据治理分两轮进行:第一轮治理通过数据质量管理模块进行数据质量自动探查,汇总出教师主题疑似错误数据、异常数据、重复数据和缺失数据。并将存在质量问题的数据批量反馈业务部门并限期处理。第二轮治理则开放教师一张表信息系统供教职工使用,教职工使用过程中发现数据问题可通过电话、邮件、现场反馈等方式联系数据质量管理员或者业务数据负责人进行数据核查、补录、修正等。经过业务部门批量处理以及教师个人纠错两轮数据治理后,将各业务系统的数据再次同步到教师一张表,即可以提升教师一张表数据质量,并应用到其他各个场景。

四、结论与展望

在高校数据治理的实践中可得出以下结论:①数据治理是对数据进行全生命周期管理;其最终目标是提高数据的质量、保证数据的安全性、实现数据资源在各组织机构部门共享、提升数据的服务能力以实现数据价值的最大化。②数据治理是一个长期而非一蹴而就的浩大工程;数据治理应成为高校管理中常态化工作。③数据治理是自上而下的,数据治理的推进以业务驱动将事半功倍。④数据治理是一项先管理后技术的问题。主体在数据责任部门,以技术部门为辅助。数据治理在高校大数据生态建设中有举足轻重的地位,寻求适合高校数据治理的流程和策略值得深入和持续的探讨。

参考文献:

[1]刘桂锋,钱锦琳,卢章平.国内外数据治理研究进展:内涵、要素、模型与框架[J].图书情报工作,2017(21):137-144.

[2]P.Sonla.Six critical success factors for data governance-viewpoint son innovation[EB/OL].http://viewpoints.io/entry/six-critical-success-factors-for-data-governance.

[3]S.Stockdale.Deconstructing data governance[EB/OL].https://repository.unm.edu/Handle/1928/31583.

[4]S.Kim.The analysis of data governance model for business and ITalignment[J].Journal of the Korea Society of Computer and Information,2013,18(7):69-78.

[5]Data governance framework[EB/OL].http://www.datagovernance.com/the-dgi-Framework.

[6]孙嘉睿.国内数据治理研究进展:体系、保障与实践[J].图书馆学研究,2018(16):2-8.

[7]严昕,孙红蕾,郑建明.城镇信息化中的数据治理问题研究[J].情报科学,2017(9):30-35.

[8]续瑾成.浅谈企业数据治理及其统一流程[J].中国管理信息化,2016(16):57.

[9]张琼文.试论数据治理在数据质量管理中的作用[J].通讯世界,2017(3):140-141.

[10]李冬,万磊,费建章.大数据治理中的安全问题研究[J].信息与电脑(理论版),2017(6):192-193.

[11]赵刚,王帅,王碰.面向数据主权的大数据治理技术方案探究[J].网络空间安全,2017 (Z1):36-42.

[12]谈韵.电网大数据治理体系初探[J].电子技术与软件工程,2017(5):182-183.

[13]王宏宇,陈冬梅.行政院校系统信息化建设中的数据治理浅析[J].辽宁行政学院学报,2017(4):92-96.

[14]许晓东,王锦华,卞良,孟倩.高等教育的数据治理研究[J].高等工程教育研究,2015(5):25-30.

[15]常朝娣,陈敏.大数据时代医疗健康数据治理方法研究[J].中国数字医学,2016(9):2-5.

[16]程永新.大数据时代的数据资产管理方法论与实践[J].计算机应用与软件,2018(11):326-329.

(编辑:王天鹏)

猜你喜欢
数据治理大数据
大数据环境下基于移动客户端的传统媒体转型思路
大数据治理模型与治理成熟度评估研究
大数据时代城市治理:数据异化与数据治理