焦梦林 李振龙
摘 要:数据治理是科研生产活动在数字化时代的重点议题,文章分析了数据治理的应用现状,结合实际的科研生产场景归纳出科研数据治理过程中的问题,并基于现有问题提出针对科研数据治理能力的框架。旨在通过数据治理实现科研生产数据价值的优化。该枢架以教字化服务为核心。以生产应用目标为导向,完善了科研数据治理过程中的方法体系。关键词:数据治理;科研数据:数据价值
中图法分类号:G258
文献标识码:A
1 引言
在数字化服务发展的浪潮下,发挥数据这一核心资源的价值成为时下的热点议题,该议题的核心要点就是通过治理发挥出数据的潜在价值。基于此,学术界和产业界进行了大量的探索和实践,并卓有成效。包冬梅等[1] 提出了一种针对高校图书资源的数据治理框架?CALib 框架。肖洁琼等[2] 对比分析了国内外几种经典的数据治理模型特点,为相关工作提供了一定的理论基础。马广惠等以云上贵州公司为切入点,拓展了大数据治理的研究方法。杨琳等提出了面向大数据的治理框架,并实际列举了多个场景。在通用数据治理模型方面,已经出现了IBM 数据治理模型、DGI 数据治理框架、DAMA 数据治理模型、《数据治理白皮书》模型等优秀框架,这些数据治理模型基本都阐明了数据治理过程中的目标、职能、核心、规范等,其中数据治理目标一般为提高数据资产的质量,形成完整、可用的数据,指导数据管理过程,实现对所有人的数据公平访问,并实现数据价值的最大化;数据治理职能即是指对需要的数据进行的一系列评估、指导和监督的行为;数据治理的核心为控制数据质量、提供创新性的数据服务以及实现对数据资产的各项决策和相关权利控制;数据治理规范是指数据治理必须遵从严格的规范和流程,以保障数据治理的严谨性。从上述工作中看到,学术界和产业界都对数据治理工作进行了实践。然而根据肖洁琼等研究报告,学术界和产业界的工作并没有呈现出紧密的联系,包括数据治理的定义也仍未达成共识,学术研究成果在指导产业界方面仍然影响力不足,这说明目前的数据治理工作仍然依赖于具体的实践工作,缺乏通用性、普适性强的模型。
科研生产数据是一种典型的高信息密度流资产,是科研设计活动的核心及产物。然而从多个渠道产生的数据缺乏处理,导致数据利用率低,无法发挥数据潜在价值,难以打通数据产生环节和数据流通环节的壁垒,导致无法形成有效的数据效能反馈机制。因此需要高效完成科研生产数据的治理工作,实现服务价值及科研价值的创效提升。基于此,本文在标准化组织及咨询公司的治理模型基础上,分析实际科研场景下的数据产生及使用特点,提出一种用于科研生产的数据治理框架,也为其他数据治理应用项目提供参考。
2 数据治理介绍及科研数据治理框架
2.1 数据治理的基本定义
数据治理目前尚无一个公认的统一定义,各类定义工作主要由权威机构引领,这些基本定義从不同切入点指明了数据治理工作的内涵。
DAMA(国际数据管理协会):将数据治理作为数据管理的核心,将数据治理划分成对数据资产行使权力和控制的计划、监督、执行等过程。
Gartner(高德纳咨询公司):将数据治理作为IT治理的一部分,也属于公司治理的定义范围之内。
HESA(高等教育统计局):强调数据治理和实际的组织设计及管理结构是强关联的,因此数据治理工作应该在通用模型基础上结合实际进行自我适应。
通过对当前治理模型的综合分析,可以得到一些共同点:治理模型一般都对治理目标及治理原则作出明确界定,这两者在数据治理过程中起着指导性作用,治理原则同时也起着行动纲领的作用;在构建治理模型之前,需要从全局出发,首先清晰、准确地提炼出本次数据治理的整体期望,以数据治理政策支撑治理过程中的具体要求,即监督相关角色履行相关责任,并对数据治理的主体和客体涉及的方方面面作出解读;同时模型需要指出治理各要素作所涵盖的内容,使模型具有现实指导意义。
正由前文提到,现有的数据治理模型应用背景不是一成不变的,因而不同的数据治理模型都会表现出独特性与应变性。由于数据治理工作是一个动态过程,为了保证配置的灵活性,需要配合适当的评估机制,让数据治理过程中的不同角色可以根据需要完成任务。
经过上述分析可以看到,目前的数据治理工作有其共通点,但是因为数据治理工作不能脱离具体组织,所以数据治理模型必须与当前组织的管理与文化背景相融合,为数据共享服务,使数据治理模型与组织功能相互协调。
2.2 科研数据治理框架
本文提出的科研数据治理框架的核心目的是促成数据规范化,提高数据在ERP 系统使用过程中的效率,提升科研数据在科研活动中的利用率。基于此,本文提出的数据治理框架从数据促成、数据流通、数据安全、数据价值提升等方面出发,结合IT 技术与管理制度,形成完整的闭环管理,如图1 所示。
在图1 中,整个治理框架分成3 部分:建立主数据的管理模型、基于IT 模型的业务数据管理以及进行业务提升的决策模型。本框架充分考虑了业务反馈机制,灵活配置业务,让业务模型与数据及时响应企业的决策变化。主要模块介绍如下。
(1) 数据规范层:数据规范层包含了主数据及与其产生的业务模型和数据模型。数据规范层规定了数据治理过程中的基本范式,是数据治理的基础,后续工作都围绕主数据的规范进行。
(2) 数据流通层:数据流通层包含IT 技术架构和规章制度监管。数据流通层是数据的主要产生和流通场景,是日常业务的核心部分。
(3) 业务价值提升层:业务价值提升层主要根据产生的数据进行业务战略判断,对当前数据价值进行进一步挖掘评估,并根据战略变化调整业务数据模型。
3 主数据模型构建
数据治理的重要目的是提升数据公信力,为数据应用提供坚实的基础。为此,本文首先进行主数据模型构建,将各类零散数据进行统一管理,如图2 所示。
3.1 基础数据获取
基础数据获取是主数据模型构建过程中必不可少的一步。本文采用了自顶向下的演绎方式归纳资产数据,即通过梳理业务价值链明确能够驱动企业前进,并挖掘具有极高业务价值的应用场景,结合该场景下的业务现状和未来工作需求,识别出能够支撑企业发展的数据。对获取到的数据资产从八个能力域进行评估:数据战略、数据架构、数据标准、数据质量、数据安全、数据应用、数据治理以及数据生命周期。同时制定数据标准,清洗出业务中的缺失、废弃、错误等不符合规范的数据,保证数据质量并呈现出高标准态势,进而进行统一管理。
3.2 主数据管理
主数据模型应用时需进行一系列业务活动,这些活动的核心目的是保障主数据的完整性、一致性以及及时性。因此需要设立符合应用场景的管理制度,并监督制度的执行情况,及时响应各类质量问题。结合业务形成体系的手册,并及时更新手册内容,与技术手段一起共同保障管理流程的顺利执行。同时为了充分发挥人员在主数据管理中的作用,实现一人一责,明确各类角色在整个任务流程中的责任,并根据履责情况实行动态奖惩制度,建立定量的责任管理体系,实现全员参与主数据管理的目标。
4 基于IT 架构的业务数据管理
由于科研数据包含多个领域,导致信息来源复杂,采用人工进行数据治理的手段效率低下,难以满足大规模数据应用场景下的需求。为此,需要结合IT手段管理业务数据,充分发挥计算机在处理、存储方面的优势,减少人工参与,打通业务数据在各环节的壁垒。
科研日常活动中以产品数据管理(Product DataManagement,PDM)为代表的科研设计系统和以企业资源计划(Enterprise Resource Planning,ERP)为代表的数据流通系统联系紧密,然而却常难保证数据在不同系统间的一致性,为此本方案依托IT 管理模型在全局层面实现数据的完整性和一致性,完成业务架构的规划、建设、维护及动态调整,实现对业务数据的全生命周期管理,如图3 所示。
该框架将业务部门需求对接到信息系统中,经过业务架构整合、技术方案设计、立项审批及投产上线等环节后,实现科研数据在业务?IT 技术矩阵的嵌入。在设计信息系统时,以周期管理需要为领,以规范化管理为向导,使科研数据统一业务入口、集成多个方面的信息,进而使数据生产和流通以规范的形式进行。
在建设完以业务为核心的IT 管理系统后还需要对其进行高效的運维。一方面在日常运行过程中检查数据是否满足业务要求,以及实际科研环境下实施技术目标和技术手段是否满足需要;另一方面收集数据完善基础信息,统一管理和维护IT 架构的软件和硬件环境,为标准化、结构化、精细化的IT 架构服务提供保障。同时形成完善的监控报告、提供准确详实的日志、实现运行状态可视化、展现各类关键指标的运行状态。
为充分发挥信息系统的效能,还需要支持IT 架构的动态追踪功能。通过对产生的台账进行分析,梳理内含的业务模式,建立对业务需求演变及状态追踪的管理模式,从统计分析等角度切入业务需求,也可从业务组件、逻辑子系统等方面深入介入业务系统,判断业务需求是否已经产生变化,并及时反馈到系统中,形成控制闭环。
5 基于数据治理的战略决策
使用数据中的隐藏价值是数据治理的核心目的,在本文中即是指支撑高层次战略决策,以支撑组织进一步发展。为实现此目的,对日常活动中产生的台账进行分析挖掘,从更小的颗粒度、更小的基本单元、更深层次方面揭示其数据内涵。一般而言,从2 个层面对科研数据进行统计评估。一方面采用自底向上的数据挖掘算法获取大数据下的统计关系来完善信息资源体系、提供知识发现服务、推动价值体系创新。另一方面,基于组织战略发展目标建立可实际运行、可量化的评估与统计指标体系,采用自顶向下的方式编制各类统计手段,完成可持续的统计报告。通过这两方面手段的结合,实现了关联数据的数据改造,建立了数据要素间的关联关系,形成知识链条,进而进行战略决策。其具体如图4 所示。
本文将战略决策涉及的模块分为业务规划、科研生产及职能管理等业务,明确各板块之间的规范性,与台账经评估再挖掘后的数据进行进一步耦合,以支撑战略决策。
6 结束语
本文针对科研活动提出了一种治理框架,并介绍了主数据模型构建、科研业务管理基本框架以及战略决策模块。通过科研数据治理框架把控科研活动中的各环节,为创效提质、把控全局提供了可行的思路,从而获取数字时代隐藏的数据价值,不断提升科研活动各生产要素的参与价值,促进科研活动的高效发展。
参考文献:
[1] 包冬梅,范颍捷,李鸣.高校图书馆数据治理及其框架[J].图书情报工作,2015(18):8.
[2] 肖洁琼,奉国和.国内外数据治理模型对比分析[J].文献与数据学报,2020,2(2):12.
作者简介:
焦梦林(1997—),硕士,助理工程师,研究方向:信息化支持。
李振龙(1985—),硕士,高级工程师,研究方向:信息化规划及建设。