基于PDCA理论的高校数据治理工作质量提升研究

2021-06-25 22:19陆成松
中国教育信息化·高教职教 2021年5期
关键词:数据治理数据质量智慧校园

陆成松

摘   要:文章主要探讨了大数据坏境下高校数据治理方法,提出高校数据治理过程中存在的最主要问题是数据质量不高;针对该现状,分析高校数据治理过程中产生数据劣质问题的原因,借鉴企业质量管理中的PDCA循环理论,结合高校数据治理的工作实际,探索高校数据治理进一步的工作体系和治理措施,精细、精准化地提升高校数据治理工作水平,提升高校数据质量。文章围绕PDCA循环理论的四个工作阶段,梳理高校数据治理的各项工作,分别以循环管理的方式逐步展开,细致运行,从制度、标准、策略、工作内容等方面建立数据治理体系规范,形成循环迭代的数据治理工作过程,并通过不断的应用数据来对治理过程和治理效果进行评估,及时调整实施策略和方案。

关键词:PDCA;循环管理;数据治理;数据质量;智慧校园

中图分类号:G647 文献标志码:A 文章编号:1673-8454(2021)09-0064-04

当前,随着国家层面的多次简政放权、政府层面的一网通办持续建设,在高校领域,一站式服务平台也在不断得以建设完善。但无论是政府的一网通办还是高校的一站式服务,都离不开数据的支撑。[1]

一、高校数据治理的现状以及治理的意义

在传统高校信息化建设的历史过程中,由于种种原因,高校信息系统往往缺乏统一的规划建设,特别是数据层面的,存在关键数据缺失、数据错误、数据孤岛、数据来源不清晰,以及各种劣质数据普遍存在于各个软件信息系统等问题。[2]这些问题不只是对数据本身的管理产生了重大影响,也严重制约了学校一站式服务、一网通办等信息系统业务的开发建设。在当今世界信息技术高度发达的时代,在大数据技术相对成熟的今天,管理好传统高校的数据资产,技术已经不是主要的制约因素,而数据的治理才是核心、关键。近些年,数据治理的重要性已经在各高校中取得了各方的共识,大家认识到了数据将成为战略性资源,认识到了数据管理存在的问题,也认识到了数据治理的重要性和紧迫性。在此过程中,很多高校进行了数据共享平台、主数据库中心、数据分析平台的建设,采用各种数据采集和分析工具等等,已经在信息化层面做了相当多的数据治理工作,但最终,数据管理中数据劣质问题依然存在。经综合分析,其主要原因就在于缺乏数据治理的统一管理体系,不重视数据治理的过程管理。数据治理不是一次性的工作,也不是一锤子买卖,而是一个持续性的迭代工作,是一个不断修正最终形成良性循环的工作。

本文基于对高校数据治理过程中存在的问题进行描述和分析,并针对这些问题,吸取PDCA循环理论,结合高校治理的实际工作,提出基于PDCA闭环管理的高校数据治理方案。方案围绕数据治理的重点工作内容,根据PDCA的工作路徑展开描述,展现整个高校数据治理的过程,形成数据治理有效的循环管理体系。

二、数据治理过程中存在的问题和分析

第一,高校决策层和信息化管理层已经在态度上开始重视数据管理,但是在实际管理过程中,并没有参与到数据治理过程中来,也没有提出数据管理的核心要求,以至于相关工作人员在数据治理过程中缺乏工作愿景和目标,在数据管理工作中缺乏明显的方向性。

第二,在数据治理过程中,没有建立明确的数据治理体系,没有建立数据管理工作组织,侧重数据管理平台和工具的建设,不重视数据治理的管理制度建设。这导致数据管理的系统和工具建设了很多、实现了数据的部分统一、解决了数据孤岛等部分问题,但数据的质量、数据的准确性问题依然没有解决。

第三,业务部门的数据治理配合度相对不足,业务部门往往只会“要数据”,但不会“给数据”,以自己的实际需要为工作重心,对自己产生的数据的意义不清楚,缺乏质量意识和治理意识。

第四,相关工作人员没有理解数据治理核心思想,在数据管理过程中,只重视数据的“量”的管理,而不重视数据的“质”的管理。[3]因此,数据治理的工作重心被放置于数据采集和交换上,但数据库里的劣质数据依然比比皆是。

以上是高校数据治理中普遍存在的问题,也是造成高校数据质量不高的主要原因所在。

三、PDCA循环理论与数据治理

PDCA循环理论(俗称戴明环)由美国质量管理专家戴明在休哈特构想的基础上进行挖掘并完善的一种科学工作程序,起初应用于企业质量管理,现逐渐被其他管理领域所采纳。[4]PDCA循环的含义是将质量管理分为四个阶段,即Plan(计划)、Do(执行)、Check(检查)和Action(处理)。在质量管理活动中,要求把各项工作按照制订计划、实施计划、检查成果、处理反馈划分成不同的工作阶段,然后将成功的结果制定成标准,逐步消除过程中的不确定因素。这一工作方法是质量管理的基本方法,也是企业管理各项工作的一般规律。[5]

PDCA循环管理的整个过程分为四个部分,每个部分独立运行,又互相依托,四个部分循环反复,形成管理上的闭环。

第一部分为计划(P)阶段,在企业管理过程中表示为建立企业质量管理计划、明确管理目标、制定管理措施。在高校数据治理过程中,我们可以定义为数据治理规划、明确数据治理的目标、体现数据管理的制度性建设。

第二部分为执行(D)阶段,在企业管理过程中,是按预定的质量管理方向,坚定地执行计划,根据部署的措施进行运作,努力达成质量管理目标。在高校数据治理过程中,我们可以定义为实施具体的数据治理工作,开发建设或者利用现有的数据管理工具进行数据的采集、清洗、交换,执行数据质量监督措施,定义数据质量规范,辨别数据优劣,体现数据管理的具体工作过程。

第三部分为检查(C)阶段,在企业管理过程中,体现为检查计划执行的结果,对标其它相同环境工作的差距比例,分析执行结果与预定目标的差异。在高校数据治理过程中,可以定义为评估数据管理平台建设和数据管理工具的运行成果,检查数据的规范性、标准性和准确性,生成数据质量跟踪报告,形成劣质数据质量分析和整改报告,体现数据管理的监督过程。

第四部分为处理(A)阶段,在企业管理过程中,体现为针对检查过程中反馈的质量问题进行处理,消除问题并改进工作质量,完善和修订质量计划和管理措施。在高校数据治理过程中,我们可以定义为将数据质量问题反馈给数据源头部门、进行数据源的数据修改或数据清洗、规范数据源的录入过程等工作,体现数据管理的改进、完善过程。

在PDCA循环管理模式下,企业管理就是不断改善产品的质量,而在高校的数据治理就是一个不断迭代不断完善不断修正的过程,以科学的方式,通过严谨的过程,结合PDCA理论的闭环管理特性,在数据治理的过程中解决问题并归纳總结问题,可以逐步使数据源、数据流、数据应用三者形成良好的循环互动,从而使高校数据螺旋上升式地提升质量,为高校的数据分析形成良好的数据环境,为学校决策分析奠定优质的数据基础。[6][7]

四、数据治理的PDCA管理模型

高校的数据治理工作对一个高校来说,是一个全校性的工作,参与的部门和人员众多,具体工作烦琐细致,涵盖线上线下的数据处理过程,包含管理业务和数据业务的同步处理,因此,数据治理工作是一个严谨、精细的管理性工程,也是一个较为复杂的系统性工程。[8]本文提出的高校数据治理PDCA模型参考了Nik Thompson等所描述的DGI数据治理框架[9],也借鉴学习Soares S所描述的IBM数据治理统一流程[10],结合高校管理模式的实际现状,精准地针对当前高校数据治理中存在的问题,将整个数据治理过程分为计划、执行、检查和处理四个阶段,并细化四个阶段的具体工作。[11]该数据治理的PDCA管理模型如图1所示。

1.计划阶段

数据治理的计划阶段是宏观层面的规范化,是数据治理工作顺利开展的保障,是数据治理工作中数据质量提升的基石,在此阶段,学校应以建立全面的数据质量评价体系为标准。[12]在本阶段,应以制度性和规范性的文件编制来定义相关工作。在这些制度性和规范性的文件中,应树立数据治理的核心思想和管理目标,建立数据治理的工作组织,明晰学校各部门参与数据治理的工作方式、职责以及工作要点,明确学校数据的分类、质量标准,数据的权利、义务和管理范畴,建立数据采集、交换的规范和流程,建立学校数据的应用管理制度和质量反馈机制。[13]

在计划阶段,数据治理工作组织的确定是计划工作的重中之重,合理稳定的数据治理组织能提升数据治理工作的高度,对数据治理工作的开展和效果具有巨大的保障作用和指导作用。基于国内传统高校的现状及架构,为明确数据治理项目的执行机制,确定相关管理和工作职能,将数据治理工作组织划分为决策、组织协调以及执行等3个层次。[14]其数据治理的组织架构如图2所示。

决策层由校领导及信息化决策组织担当,提出学校数据治理工作的核心思想和工作目标,把握学校数据管理工作的发展方向,强化监督各业务部门和信息化部门的数据治理工作。组织协调层负责各部门内的数据治理相关工作,统筹协调数据治理的全部工作,积极管理和要求信息化部门及其他业务部门进行数据管理和应用。执行层主要包括信息化部门工作人员和业务部门的业务人员,是学校数据治理工作的间接执行人和直接操作者,严格执行数据治理工作的制度和规范。

2.执行阶段

本阶段具体实施数据治理工作,需要设计和执行数据治理。执行阶段的工作紧紧围绕计划阶段的工作目标,不同的治理工作对应不同的文件制度,按规范程序执行。执行阶段的工作包括数据管理平台或数据管理工作的开发建设,业务数据主题的分类设计和模型创建,业务部门的采集、清洗、交换和汇聚,数据来源的权限确认,数据质量监测规则的定义等等。其中,数据质量方面的治理是核心工作,应由原来的对数据质量的检查和纠错发展到建立全面数据质量管理 (Total Data Quality Management,TDQM) 上来。[15]建立全面数据质量管理的前提是定义数据质量维度和质量规则,并将其用于实现高校数据治理的数据质量评估。高校数据质量的维度包括完整性、准确性、正确性、一致性、唯一性和及时性。[16-18]定义数据质量维度时,还需对数据质量维度与业务需求是否相匹配进行评估。定义质量规则应围绕质量维度进行,可定义数据的完整性、逻辑一致性、冗余性、数据长度、时间精度等等。制定数据质量规则后,应检查数据质量是否满足业务规则的流程并监控这些业务规则的符合度。[19][20]

3.检查阶段

检查阶段主要是在实施数据治理工作之后的数据检查分析,对实施成果进行评估,对数据质量进行检查,对数据错误报告进行分析。检查阶段最重要的就是数据质量检查。数据检查的责任主体是信息管理部门和业务部门,客体是全校的数据使用人员。数据检查根据检查的主体角度不同分为两种:一种是主动检查,一种是被动检查。主动检查是指信息部门的工作人员或业务部门的业务人员对管理范围内的数据或者相关工作主动检查,可以借助软件系统平台或工具生成数据相关报告,进行针对性的检查,也可以直接检查数据或数据治理工作成果。被动检查是指对学校师生反馈的数据问题进行核实检查,我们可以为师生提供数据展现的平台和反馈渠道,如我们为每个教师和学生建立了个人数据中心,该个人数据中心包含了与师生个人相关的数据信息,教职工可以在个人数据中心查看到个人的基本信息、教学情况、学生信息、财务信息、科研信息等内容,学生可以在个人数据中心查看个人的基本信息、工作情况、学习情况、消费信息等内容。[21]通过检查阶段的工作,进行严谨细致的检查,对一些重要错误进行定位, 对某些频繁发生的错误进行考察,对制约质量提高的管理漏洞进行分析,并在后续的处理阶段解决修正,研究改进措施,实现治理过程的不断优化。[22]因此数据检查阶段的工作是数据治理工作的重中之重,只有持续不断地检查数据治理工作,才能实现完善和优化我们数据的目的。

4.处理阶段

处理阶段主要是根据上一阶段的检查结果,根据不同的问题分类,追根溯源,逐步排查数据问题、优化数据治理流程。无论是信息部门和业务部门主动检查发现的,还是数据使用人检查发现的,都应对数据源头逐一定位,排查数据流转过程,确认数据转换过程,数据错误原因确认后,应请相关责任部门及时处理。如果是数据本身原因的,应由数据源头部门及时更正修订,并要求相关责任人明确改进数据输入过程,必要时通过技术手段协助对输入的数据进行规范。如果是数据流程或转换过程原因的,应有信息部门及时检查数据采集、交换等同步机制,确保数据流向,保障数据流转正常,并重点改善、跟踪、监测数据流转,避免同类故障频繁出现。涉及规范性工作的可以修订制度性文件,将改善性的工作进行标准化、规范化,以便在下一个PDCA循环工作中避免重复出现相同问题。

五、结束语

针对国内高校信息化历史建设过程中存在的信息孤岛、数据孤岛形势普遍严峻的现状,高校数据治理的工作应该是烦琐、精细的系统性工作。“十三五”期间,我国诸多高校迎来了智慧校园建设的热潮,同步的数据治理工作也在一定程度上进行了卓有成效的建设实践。[23]但是国内的一些传统高校在教育信息化实践中依然存在普遍缺乏数据治理意识、缺乏统一的规划、数据共享度低、数据质量不高、数据管理权责不清等问题,在传统高校,数据质量问题尤其突出。[24]因此,在互联网技术、人工智能技术、物联网技术日新月异,大数据技術不断深度融入管理的大环境下,高校的数据治理工作还需要不断加强和深化,高校的数据治理工作并不仅仅是一个项目,更是成为了一种动态的信息化工具。[25]

为此,在高校日常的信息化工作中,应把数据治理作为基础性的工作,需要不断循环和反复,是不断迭代不断修正的过程,在不断循环的数据治理过程中,使高校的数据质量得到螺旋式上升。本文所描述的数据治理PDCA循环管理模式符合数据治理不断推进数据质量的要求和过程,另外,我们也应该认识到它并不是每一次循环把每个阶段的工作全部重复一遍,而是在原有工作基础上得到完善和优化。PDCA循环管理模式的治理方式应深入到每一项工作中,是一个逐步从宏观到微观的方式,可以定位于整个数据治理制度体系,也可以定位于某一个数据字段,最终形成一个良性的、自主的闭环工作意识和习惯,从而达到学校数据越来越完善、越来越优化的目的。

参考文献:

[1]范小春.智慧校园环境下高校大数据治理及应用策略[J].金陵科技学院学报,2018,34(4):48-51.

[2]李炜,邵梁.基于BEPD的高校大数据治理方案研究与应用[J].中国教育信息化,2019(23):55-57.

[3]曹琳.智慧校园建设中的高校档案馆数据治理路径研究[J].浙江档案,2020(5):25-27.

[4]王敏.PDCA循环在事业单位内部控制中的应用[J].行政事业资产与财务,2012(10):120-121.

[5]万融主编.商品学概论[M].北京:中国人民大学出版社,2013.

[6]范鸿兴.高校教学研究项目的PDCA循环管理[J].财富时代,2020(5):62,64.

[7]林仙土.基于PDCA循环的高校大型仪器设备开放共享平台研究[J].中国教育信息化,2020(9):92-96.

[8]董晓辉,郑小斌,彭义平.高校教育大数据治理的框架设计与实施[J].中国电化教育,2019(8):63-71.

[9]Nik Thompson,Ravi Ravindran,Salvatore Nicosia.Government data does not mean data governance:Lessons learned from a public sector application audit[J]. Government Information Quarterly,2015,32(3).

[10]Soares S.The IBM Data Governance Unified Process:Driving Business Value with IBM Software and Best Practices[M].MC Press,2010:7-15.

[11]刘桂锋,钱锦琳,张吉勇.我国高校科研数据治理模型构建研究[J].情报科学,2020(6):17-24,31.

[12]谷斌.信息系统建设中的数据质量管理体系研究[J].情报杂志,2007(5):65-67.

[13]赵伶俐.基于云计算与大数据的高等教育质量指数建构——技术、理论、机制[J].复旦教育论坛,2013,11(6):52-57.

[14]余鹏,李艳.智慧校园视域下高等教育数据生态治理体系研究[J].中国电化教育,2020(5):88-100.

[15]Richard Marsh.Drowning in Dirty Data.Its Time to Sink or Swim:A Four-Stage Methodology for Total Data Quality Management[J].Journal of DatabaseMarketing&Customer Strategy Management,2005,12(2).

[16]阿里巴巴数据技术及产品部.大数据之路:阿里巴巴大数据实践[M].北京:电子工业出版社,2017.7.

[17]陈远,罗琳,沈祥兴.信息系统中的数据质量问题研究[J].中国图书馆学报,2004(1):48-50.

[18]丁海龙,徐宏炳.数据质量分析及应用[J].计算机技术与发展,2007(3):236-238.

[19]巫莉莉,张波.高校数据治理中提升数据质量的方法研究[J].重庆理工大学学报(自然科学版),2019,33(8):149-156.

[20]管尊友,冯建华.一个可扩展的数据质量元模型[J].计算机工程,2005(8):74-76,226.

[21]赵亚伟.大数据环境下高校数据治理策略探索[J].电脑知识与技术,2019,15(1):22-23.

[22]Dirk Heerwegh,Geert Loosveldt.An Evaluation of the Effect of Response For-mats on Data Quality in Web Surveys[J].Social Science Computer Review,2002,20(4).

[23]徐青山,张建华,杨立华.高校智慧校园建设的顶层设计及实践应用——以“智慧北航”为例[J].现代教育技术,2016,26(12):112-118.

[24]董晓辉,郑小斌,彭义平.高校教育大数据治理的框架设计与实施[J].中国电化教育,2019(8):63-71.

[25]刘金松.数据治理:高等教育治理工具转型研究[J].中国电化教育,2018(12):39-45.

(编辑:王天鹏)

猜你喜欢
数据治理数据质量智慧校园
浅谈统计数据质量控制
大数据治理模型与治理成熟度评估研究
大数据时代城市治理:数据异化与数据治理