基于高校的数据资产管理模型研究

2020-07-27 16:44罗军锋张亚娟冯兴利
现代信息科技 2020年5期
关键词:数据集成数据交换数据管理

罗军锋 张亚娟 冯兴利

摘  要:随着高校信息化建设的飞速发展,产生的数据量也飞速增长,如何管理和利用这些海量的数据成为一个迫切需要面对的问题。数据治理是数据资产管理中核心组成部门,其对提高数据质量、实现数据共享、最终实现数据价值最大化有重大意义。从数据管理中数据治理的概念出发,对数据治理中的有关技术进行了介绍,在此基础上提出以数据治理为核心的数据资产管理模型,最后对高校的数据资产管理进行了总结。

关键词:数据管理;数据规范;数据清洗;数据交换;数据集成

中图分类号:TP311.5      文献标识码:A 文章编号:2096-4706(2020)05-0108-04

Research on Data Asset Management Model Based on Universities

LUO Junfeng,ZHANG Yajuan,FENG Xingli

(Network Information Center of Xian Jiaotong University,Xian  710049,China)

Abstract:With the rapid development of university information construction,the amount of data produced is also growing rapidly. How to manage and utilize these massive data has become an urgent problem. Data governance is the core component of data asset management,which is of great significance to improve data quality,realize data sharing and ultimately realize data value maximization. Starting from the concept of data governance in data management,this paper introduces the related technologies in data governance,on this basis,puts forward the data asset management model with data governance as the core,and finally summarizes the data asset management in universities.

Keywords:data management;data specification;data cleaning;data exchange;data integration

0  引  言

隨着高校信息化建设的深入发展,尤其是数字校园三大平台(统一数据平台、统一门户平台和统一认证平台)的建设,数据方面的建设和管理越来越得到关注和重视,同时在这一过程中也产生了诸多的问题和困扰,比如如何对数据资产进行有效的管理、数据未来的建设方向和路径是什么等,为解决这些问题,亟需对数据的建设和发展进行一次梳理和探讨,并提出一个具有现实意义的框架模型。在此模型的基础上一窥智慧校园的发展路径。

大多数人都容易混淆数据管理与数据治理这两个概念,因为本身两者就容易混淆。二者从本质上虽然是两个完全不同的活动,但是存在一定的联系。

在数据管理知识体系(DMBOK)中,所谓的数据治理是数据管理的重要组成部分。从字面意思上看,数据治理相对容易理解,它就是明确数据管理中的角色定位、工作责任和具体工作流程的,确保数据资产能够长期被有序地、可持续地管理。而数据管理这个定义相对宽泛,与数据采集、应用等过程中所有这些数据处理中可重复流程的各个方面都密不可分、息息相关。对数据治理的深入研究与分析也就对数据资产的管理研究进行了研究与分析,因此本文将从数据治理入手开始进行数据资产管理模型的研究。

1  研究现状

IBM对于数据治理的定义是,数据治理是一种质量控制规程,用于在管理、使用、改进和保护组织信息的过程中添加新的严谨性和纪律性[1]。从这个定义中可以得出,数据治理的目的就在于提高数据的质量,以获取数据的最大价值,具体包括[1]:(1)构筑灵活、标准、模块化的多源异构的数据资源接入体系;(2)建设规范化、流程化、智能化的数据处理体系;(3)构建统一调度、精准服务、安全可用的数据共享使用体系。

国内高校信息化水平经过数十年的建设和发展,可以说已经进入智慧校园阶段。国家市场监督管理总局和国家标准化管理委员会于2018年6月发布了《智慧校园总体框架》这一国家标准[2],用来指导高校数据治理工作,其中明确提出以“用数据说话、用数据决策、用数据管理、用数据创新”作为数据治理的目标,对各个学校产生的业务域数据进行治理,着重解决信息化建设过程中长期存在的“数据不规范、不统一、不准确、共享难”的问题。

国内学者也对各高校数据治理进行了不少探索。许晓东将数据治理的过程分为数据的获取和抽取、整合分析、解释预测三个阶段[3]。李勇军等介绍了上海海洋大学的数据治理经验以及数据治理体系框架架构[4]。王洪宇提出从数据管理、治理技术、治理的组织架构三个纬度出发,将数据治理融入业务梳理、行政管理中,构建了数据治理的综合工程[5]。

本文首先介绍了数据治理的相关关键技术,之后提出一种适用于高校的数据治理模型,最后介绍了该模型的应用和对数据治理的展望。

2  数据治理中涉及的主要技术

数据治理中涉及到的技术就是在数据治理的过程中所用到的有关技术、工具,其中主要包括有数据标准化、数据清洗、数据交换和数据集成这4种技术。

2.1  数据标准化

数据的标准化主要包括数据代码的标准规范、数据格式的统一等。其主要目的是为了提高数据的通用性、交换性和共享性。所以,在建立数据标准化规范时要具有通用性,遵循行业的或者国家的标准。数据的标准化方法主要有规则处理引擎和标准代码映射[6]。

2.1.1  标准处理引擎

数据治理通过引入的元数据工具,依照制定好的数据标准化规范制定好元数据规则进行标准化处理,具体处理的逻辑包括数据的转换、数据的校验、数据的赋值等等。通过元数据处理引擎,利用数据自动对标技术,对数据字段进行认知和识别,解决数据不规范的问题。

如经典的日期规则的定义,一般的规则如下:

稽核规则:YYYY-MM-DDD;

取值规则:1900

需要强调的是,规则可以多层次迭代,形成规则链;也可以多种规则进行组合来形成规则组合等等,足以支持对各种数据的处理。

2.1.2  标准代码映射

标准代码映射是常用的数据标准化处理方式,是基于国家、行业、教育部等标准代码来构建。例如,我们将表示民族“汉族”的字段都转换成“汉族”这种统一的表示方式,可以构建一个数据映射字典,具体如下:

“汉族”. {

“汉族” => “汉族”,

“汉” => “汉族”,

“han” => “汉族”,

“1” => “汉族” ...

}

使用数据转换规则时查找该数据映射字典,将所有民族统一成一种表示方式。

以上两种方式都可以在元数据管理平台定义构建,从而可以形成规范化的处理模式和数据标准,从而在后续的数据治理中严格执行改规范标准。

2.2  数据清洗

通俗地说,数据清洗的目的就是对数据中存在问题的数据也就是一般说的“脏”数据进行识别,然后再尽可能就行修复。这些“脏”数据主要包括数据值错误、数据不完整、数据重复或者相似。对不同的“脏”数据,也就是不同的数据质量问题,数据清洗的办法也不尽相同。数据清洗一般包括数据的过滤、剔重、类型转换、编码映射、拆分与合并、维度转换等具体方法或策略。

表1就体现了针对不同的数据质量问题会有不同的清洗策略。

一般来说,数据清洗主要是针对源数据库中的不完整、二义性、数据重复、违反规则等问题的数据进行统一的处理,具体处理包括:Null处理、格式转换、类型转换等。在数据的清洗之前首先需要做数据的质量分析,以便找到存在问题的数据,数据质量一般表现在以下几个方面:(1)正确性:数据是否客观真实地表示了现实或可证实的来源;(2)完整性:完整性是否存在或一致;(3)一致性:数据是否被一致地定义;(4)完备性:是否所有的数据都存在;(5)有效性:数据是否在定义的可接受范围之内;(6)时效性:数据在需要的时候是否仍然有效;(7)可获取性:数据是否易于获取、理解和使用。

2.3  数据交换

数据交换是将一种源模式的数据转换为符合目标模式数据的问题。常见的数据交换的实现模式主要包括标准化交换和协议式交换。

所谓的标准化数据交换是指事先建立一个统一的标准,这个标准要求能够供数据使用的各方共同使用数据,从而实现数据的共享要求。这种模式的优点就是可以跨平台使用,有较高的通用性。

所谓的协议式交换是源系统和目标系统之间预先定义好数据使用的各项协议,然后将源数据库的数据移植到目标数据库来完成数据交换[6]。这种交换模式的优点在于:它无需对底层数据库的应用逻辑和数据结构做任何改变,可以直接用于数据访问层开发。缺点就是对于开发人员要求很高,需要对数据库的底层设计有清楚的了解。

标准化数据交换是指通过双方都认可的方法作为统一的标准,来进行数据共享与交换。

2.4  数据集成

数据集成技术[6]是通过一定的技术将分布的、异构的、自治的数据集成起来,以便用户可以透明地访问。其重点包括:数据的标准化、元数据中心的建立。前面已经介绍了数据标准化,下面介绍一下元数据中心。

元数据中心就是元数据在统一数据标准的基础上,对目标数据进行抽取、转换、储存,实现对目标数据的整合。基本流程如图1所示。

3  数据治理质量

数据质量管理实现对数据质量的監督,一般流程如图2所示,具体包括核查规则的指定,数据核检任务的配置、执行直到最终核检报告的生成。数据质量规则体系的构建是最重要的环节,只有在对数据质量已经建立好的规则体系上,才能做到对数据质量监控中的任务进行有效的监督与管理、数据质量中的调度和规则执行体系才能发挥作用。数据质量的管理最终目标是保障数据的质量符合数据使用的要求。为了这个目标,根据定义好的管理流程、管理制度,对各个业务系统进行数据的全周期监管与检查,以数据质量分析报告为载体,展现数据治理质量的问题、提出下一步质量整改的方向,最终完成数据质量生命周期管理全过程。

4  数据资产管理框架

本文提出的数据资产管理平台是数据资产方面的一种普适架构,当与各个高校的实际业务相对接,可以轻松实现高校的数据从采集到数据治理、监控和服务等功能,具有较好的可扩展性和兼容性。如图3所示。

整个平台架构按照数据流向,从下而上按逻辑划分为六层:数据源层、数据采集层、数据处理层、数据治理层、全息数据库、数据应用层、数据服务层,对应由六个系统(平台)支撑,为上层应用提供数据支撑服务。此外,还有数据治理体系、标准规范体系和数据资产安全管理体系为打造高校数据生态系统提供有效的机制保障。

(1)数据源层由数据源管理系统支撑,负责数据来源定义,通过底层技术实现外部系统接入数据源头。其中,数据源接入方式支持结构化通用DB数据源、非结构化/半结构化数据源以及多种协议与数据源通信API接口等;(2)数据采集层由数据采集系统支撑,是分布式架构,通过云节点来完成数据的采集和下发;(3)数据处理层由数据融合系统支撑,负责针对采集的数据进行数据清洗处理,包括常用的格式标准化转换、敏感数据的脱敏与加密、数据过滤与去重等;(4)数据治理层主要作用是使用元数据、血缘管理等工具,对数据资源,数据质量进行定义、监督、管理,以形成准确、规范的全息数据库。(5)全息数据库由数据资源管理平台支撑,将所有采集的数据统一汇聚并存储,针对数据不同来源、用途、统计维度进行合理的拆分并存储,为大数据分析做准备;(6)数据应用层由数据分析平台支撑,负责与数据中心数据进行通信,满足上层数据服务层的业务服务需要,针对不同行业、不同数据进行分析挖掘,形成有价值的数据视图;(7)数据服务层由数据服务平台支撑,是平台中实现数据资源资产化的核心系统,将数据资源以数据服务的方式提供给需求方,同时也是实现应用系统数据共享的组件,所有应用系统交互的统一接口,所有数据需求放获取数据资源服务的统一入口;(8)标准规范体系保障平台中数据的标准化,包括元数据标准、主数据标准、数据字典等数据标准以及数据管理的标准等;(9)数据资产安全管理体系保障平台中所有数据资产的安全,包括数据传输安全、存储安全、使用安全等;(10)数据治理体系保障数据资产管理平台中数据的质量持续改进,包括数据标准执行情况、数据库优化情况等。

5  数据资产管理框架的实践

我校自2018年开始进行数据治理方面的探索,经过一年多的探索和努力,目前以完成学校数据资产的初步治理。在实践过程中,该框架能够支撑学校教学、科研、學工等方面对数据的不同需求,初步实现了数据横向贯通、纵向互联。

我校数据资产管理平台整体架构分为如下层次:(1)数据源层:考虑到我校现状,目前主要有各个业务系统的数据库构成,如本科教务数据库、人事数据库等等;(2)数据处理层:由数据采集、数据清洗、数据处理等子层构成,采用统一的数据交换工具实现;(3)数据应用服务层:我们将数据应用和服务层合并,构建统一的应用服务平台,提供统一的数据使用服务接口;(4)标准规范体系:以元数据标准、主数据标准、数据字典等数据标准体系为支撑对数据进行规范;(5)安全管理体系:保障数据的传输安全、存储安全、使用安全等。

从上面介绍可以看出,该框架和通用架构的主要区别是,结合我校实际情况,将图3中的全息数据库、数据治理合并到数据处理层,因为都是为了数据的处理,这样做的好处就是采用统一的工具实现数据的采集、清洗、交换、存储;将数据应用层和数据服务层合并,构建一体化的、统一的数据服务接口。

6  结  论

在这个大数据的时代,高校数据资产管理是一项长期的系统工程,需要高校信息化主管部门做好顶层设计,制定数据管理长期发展战略方针,调动各个业务部门的积极性和创造性,依靠科学先进的技术手段和技术工具,确保数据的质量、安全和可用,充分发挥数据的最大价值,以支持高校人才培养、科学研究、管理水平更上一层楼。

参考文献:

[1] 吴信东,董丙冰,堵新政,等.数据治理技术 [J].软件学报,2019,30(9):2830-2856.

[2] 全国信息技术标准化技术委员会.智慧校园总体框架:GB/T 36342-2018 [S].北京:中国标准出版社,2018.

[3] 许晓东,王锦华,卞良,等.高等教育的数据治理研究 [J].高等工程教育研究,2015(5):25-30.

[4] 李勇军,彭琳,林成,等.大数据治理在高校信息化管理中的探究 [J].中国管理信息化,2016,19(3):185-187.

[5] 王宏宇,陈冬梅.行政院校系统信息化建设中的数据治理浅析 [J].辽宁行政学院学报,2017(4):92-96.

[6] 吴信东,董丙冰,堵新政,等.数据治理技术 [J].软件学报,2019,30(9):2830-2856.

作者简介:罗军锋(1976.10-),男,汉族,陕西澄城人,高级工程师,硕士,研究方向:数据挖掘、高校信息化。

猜你喜欢
数据集成数据交换数据管理
《大数据管理》课程思政教学质量评价体系研究
如何有效开展DCMM数据管理成熟度评估
数据挖掘在学生成绩数据管理中的应用研究
数据挖掘在学生成绩数据管理中的应用研究
XBRL在财务报表网络数据交换中的应用
成本与制造数据集成分析
基于Biztalk的异构医疗信息系统数据集成研究
信息系统集成与数据集成策略研究
基于数据集成的水上项目国家队数据库网络管理平台的设计与开发