关键词:业务驱动;数据治理;数据质量;信息化管理
中图法分类号:TP311 文献标识码:A
1引言
教育部在2018年4月印发《教育信息化2.0行动计划》指出,教学应用系统应当涵盖全体教师、学习应用系统应当涵盖全体适龄学生,数字信息化校园建设包括提高整个学校师生数字信息素养,建设“互联网+教育”整体框架,实现教育专用资源相互教育共享资源的转变、提升教师及学生的数字信息应用能力。同时,近两年也是大数据应用发展的高峰时期,高校大数据的发展离不开信息技术的高水平发展。首先因为软件系统年代有所差异,每个时期所使用的计算机语言不同,新老系统之间存在不同的接口标准,导致业务系统之间的数据存在于异构数据环境中。多系统数据不流通而形成“数据孤岛”,导致各个业务系统之间数据独立且人员重复信息交互。基于此,本文针对业务驱动下的高校数据治理架构建设与研究,以及新的需求与挑战,探索大数据下校园数据治理新的模式与架构。
2数据治理基本理论
2.1数据治理基本概念
在数据治理的基本含义方面,由于其侧重方向不同,现有的定义是不同的。两大组织DAMA(国际数据管理协会)和DGI(国际数据治理研究所)给出了权威定义:数据治理是对数据资产管理进行控制和治理的合集。
2.2数据管理与数据治理的关系
近年来,国内外专家学者提出,应当由原本的数据管理升级为数据治理。从原本的数据管理转变为数据治理,将简单地处理个别数据,进步到处理整体数据,从整体考虑局部问题,实质是一种个体转变。
数据管理、数据治理是相近且相似的2个词。从某个角度看,这2个词仅仅是程度有所差别,但如果将它们剖析来看,2个词其实是2种层次的表现,数据治理是数据管理高度集中的一种表现,是最重要的支柱之一。随着时间的推移,数据量呈现指数级增长,然而单靠MySQL或者Oracle作为数据库基础,应用数据库管理软件进行管理,是烦琐且复杂的。同时,非结构化数据与结构化数据呈现同样的重要意义。因此,合理地使用数据与管理数据变得尤为重要。
2.3数据质量管理
数据质量管理是数据管理核心问题之一。有别于信息质量,数据质量是确保数据符合运行、研究、规划过程中匹配其用途的结果,而信息质量是属于信息系统内部的数据本身质量的好坏问题。数据质量是数据质量管理的核心要素。数据质量主要依靠数据库系统去实现对数据的把控,但是高校中的业务系统往往因为时间、开发工具、接口等因素,无法实现对数据质量标准的统一。
3高校数据治理问题分析
3.1信息化队伍完整性与高校自身属性
高校信息化的发展离不开信息化专业人员的共同努力,然而许多高校对于信息化工作仍然是被动推进,就连领导小组可能都未成立,即使有领导小组也可能有队伍不够健全或者没有年轻骨干成员的加入的情况,这使得数据治理的推进异常困难[3]。每个学校之间因为属性差异所带来的管理方式、经费分配、专业方向、自身属性等都是影响信息化工作的重要因素,需要探索一条符合自身发展的信息化道路,以保证信息技术团队的完整性,进而稳步推进高校数据治理工作。
3.2数据源重复性
数据在整个信息化内部处于重要地位,但以目前高校存在的通病来说,教务系统与学工系统同样具备学生基础数据,如需要学生数据时,我们通过数据交换进入需要的系统,使得源头与目的都很混乱,导致后续维护数据时也带来数据查找的难度。在高校后期发展中,由于当时只为了解决问题,而不考虑后期的维护工作,因此,带来了严重的后果。
3.3数据标准类型
数据字段是数据标准的重要元素。在数据同步的过程中,2个数据字段中的标准是要明确统一的,因为建立数据库时,每个系统数据后台的数值是单独定义的,需要经2个系统的管理员逐一进行比对,才能实现数据交换,每进行1次新的数据流作业,就需要重复进行如此操作,这对于管理人员的工作量是成倍增加的。基于此,高校应该建立公共代码库,构建编码規则。
3.4系统独立,数据闭塞
由业务驱动数据构建整个校园信息化,早期的信息化仅仅是为了实现业务功能,而不考虑后续发展的建设,底层结构复杂,数据在各个系统中存储的方式多种多样,业务系统之间的数据流转离不开数据交换与数据共享,现阶段2个系统之间只是建立了简单的数据交换,并没有达成数据统一共享,而是利用前置机实现标准接口的多业务数据流通,进而实现共享交换。
3.5数据质量低、数据融合难、数据不规范
许多高校在信息化建设中遗留了大量问题,主要表现为数据质量低、数据融合难、数据不规范。数据质量低主要表现为质量参差不齐,含有冗余数据。数据融合难主要表现为不同数据之间的传递需要通过提前制定好的作业流程完成,如新的数据需要融合,需制定新的作业流程,定时定点更新数据。数据不规范主要表现在不同的字段表格其所属的内部属性与名称不同,须按照相应的规定做一些调整与匹配。
3.6数据管理权限混乱
高校内部的业务系统是由各个业务部门自行管理的,但有一些特殊部门不具备系统管理能力,一般会托管给图书信息等相关技术部门管理,这就造成权限相对不均衡,当需要调整数据、业务时,数据的权限就显得尤为重要。数据权限所监管的主要有数据修改、备份、传递、共享等权限,权限所管辖的数据安全问题是最主要的问题。
3.7数据统计分析能力薄弱
高校内部对于数据统计仅仅是将数据计数作为最后结果来呈现,并不具备数据分析的能力,无法经过一些简单的计算与思考得出一些有意义的结果。数据仅仅成为统计的结果,并不具备任何意义。
4高校数据治理架构建设与案例分析
4.1数据治理架构建设
4.1.1 DAMA框架与DGI框架
DAMA框架诞生较早,主要以数据管理为重点,依靠数据治理协调处理数据管理的多个功能与多要素之间的问题。早期的多个功能可以解决当下许多问题,但随着时间的推移,功能并不能解决后续全部问题,而是需要有更多更具体的方式去实现未来数据治理的需求。
与DAMA相比,DGI框架是从整体出发。管理与治理是2种不同的概念,可以理解为管理与治理是并驾齐驱的2种方式,不存在上级与下级的概念。
4.1.2模型层次(数据治理层、数据平台层、数据服务层)
数据治理层、数据平台层、数据服务层依次分别为底层、中间层、顶层。数据治理层的主要工作是处理结构化数据(标准数据库数据,主要有文字字符等形式)和非结构化数据(主要有音频、视频、图片等形式)。选择数据库之间统一的标准,执行元数据管理,处理好数据质量、数据资产、数据服务等流程,为后续数据治理提供基础性服务。
数据平台层对数据的存储方式起到决定性作用。不同的数据存储方式,为前端用户调取数据产生不一样的体验。数据服务层作为顶层应用,最终是作为展示端与操作端面对用户。其主要有2个作用:展示端作为数据业务流向端,让用户明白数据走向:操作端作为管理员操作端,使管理员能自主选择数据组成系统需求数据。
4.1.3数据管理五元素
高校信息化建设日新月异,针对层出不穷的多业务系统,提出数据标准管理、元数据管理、数据质量管理、数据资产管理、数据安全管理五元素理论,进而对信息化数据治理建设制定统一标准,以及进行权限管理。
数据标准管理:主要是为了各个业务系统数据能够匹配操作数据的规范,防止出现数据前后操作不一致或者数据字符前后不一致等情况。
元数据管理:主要是为了规范接口以及存储管理,利用数据工具,使前后数据统一标准,并生成数据流向道路,形成数据流向表单。
数据质量管理:主要依靠数据库系统实现对数据的把控,但是高校的业务系统往往因为时间、开发工具、接口等因素,无法实现对数据质量标准的统一。
数据资产管理:是对整个数据资产生命周期的管理过程。把数据作为资产对象进行管理,对数据进行有效的规划、建设、运维,并在数据安全管理的基础上进行调控。
对于数据安全管理:建立符合安全体系的安全策略,做到系统与系统之间相关权限的完全隔离,从而避免对不相关人员开放一定的权限。
4.1.4建设实践路径
数据治理需要分4个阶段进行:第1阶段要确定数据治理的对象(主要为各个业务系统内部存储数据),明确分析对象所在的范围,所覆盖的业务情况;第2阶段是数据业务梳理,需要各个业务部门配合,提供相应系统的资产情况,对数据的产生、储存、应用等进行管控:第3阶段是建立规范体系,按照相应数据标准以及学校真实情况,制定《数据治理管理办法》《数据信息标准规范》等管理办法,同时针对规范体系内的质量与告警信息及时上传,做到数据安全第一;第4阶段是建设系统前端系统与后台系统。前端系统包含大屏业务流系统,数据需求用户系统。后端系统包含数据管理员系统、底层数据业务流程系统、数据交换系统、公共数据系统,将这几个系统串联起来,组成1个完整的数据交换系统,并在此基础上进行数据治理。
4.2数据治理案例分析
案例分析——以浙江财经大学东方学院为例,对数据治理的过程进行阐述。
(1)首先组建数据治理领导小组,明确划分与制定普通用户、管理员、系统管理员相关制度,严格规范其数据采集、整理、推送、保存等一系列操作,使得整个数据治理基础具有一致性。
(2)平臺部署规范化是指严格按照计算机系统搭建步骤进行,通过软件系统做压力测试以及模拟实际应用环境,建设一套具有前端与后台的控制系统,以满足用户和管理员对系统的使用、运维、管理要求。
(3)数据标准统一,首先要统一不同种类的数据,如姓名、生日、性别等,均需用不同形式的数据加以区分,制定标准数据表格,为后续的数据做好基础性铺垫。数据字段应针对不同数据类型进行逐一匹配,确保前后作业流的一致性。在数据导入过程中,应保持数据分片的连贯性,如出现中断操作,应通过冗余出错,考虑前后比对,进行数据恢复。
(4)建立核心数据引擎,依靠数据引擎,在后续的日常生活中,加快数据计算,利用数据创造出更多的价值。为保障后续做数据流转,提高数据传输的稳定性以及数据流向的明确性,建立作业流向系统,明确每1条数据走向,确保数据清晰可查。
5结束语
本文主要对高校在进行数据治理时面临的相关问题进行阐述,同时以案例分析的形式给出相应的解决方案,主要通过建立相关制度与规范,从逻辑与物理上对人员与权限进行约束,以保证系统安全稳定运行。以2大组织给予的数据治理解决方案为指导,搭建数据治理整体框架,指引项目有序进行。最后,提出几点建议:应当加强对制度规范的建设,安排数据安全的运行维护,稳定有序地存放数据,做到有章可循,有权可查,确保数据有序运转,完善数据质量监控和绩效考核制度,以不断提升数据质量。
作者简介:
金涛(1994—),本科,助理实验师,研究方向:大数据技术。