基于问题导向的高校数据治理策略研究

2023-10-10 10:18武汉大学人事部杨芳袁园通讯作者
办公室业务 2023年18期
关键词:数据源标准质量

文/武汉大学人事部 杨芳 袁园(通讯作者)

一、引言

我国高校信息化经过30 多年的发展历程,经历网络设施建设、应用系统建设和数字校园集成等阶段,随着信息技术的不断发展和应用创新,正从数字校园逐渐转型成为智慧校园[1]。高校在信息化发展过程中,通过信息系统的建设使用,逐渐沉淀和积累了各类数据资源。这些数据资源是实现高效管理、优质服务和科学决策的重要基础,是支撑高校可持续发展的重要资产。而高校普遍在数据的质量、共享、应用、安全等方面存在不足和短板,影响数据效能的充分发挥。准确把握数据管理的现状问题,制定科学合理的数据治理策略,对高校信息化管理者具有重要的现实指导意义。

二、高校数据管理存在的主要问题

本文在与业务人员面对面访谈、查阅相关参考文献的基础上,深入分析高校信息化发展现状,将高校数据管理方面存在的问题归纳为以下几类:

(一)数据来源复杂多变。近年来,我国高等教育信息化的水平持续提升,面向教学、科研、管理、服务的各类业务系统纷纷出现。与此同时,信息填报与业务办理越来越普遍和频繁,甚至出现多头采集、重复填报数据等现象,占用了教职工和学生大量的时间和精力。数据来源途径复杂而分散,数据从生成到利用的路径不清晰。以教学科研成果数据为例,各类绩效考核、职称评审、项目申报都是重要的依据,但普遍存在不同业务系统重复录入的现象,产生数据重复、冗余、不一致等问题,在后继的共享应用中,没有形成清晰的来源。尤其在部分系统的新旧更替中,数据的来源与去向频繁变动,对高校数据管理带来了很多潜在的问题。

(二)数据标准缺乏控制。高校信息化建设中缺少顶层设计,数据标准滞后于系统建设的问题普遍存在。首先是规划、制定、优化数据标准的能力较为欠缺,其次,虽然制定了数据标准,但执行、落实的力度不够,甚至在某种程度上形同虚设。业务系统的更替,往往数据标准要适应业务系统,而非业务系统建设时以数据标准为主的现象依然普遍[2]。学校各部门购置或者建设业务系统时,往往采用符合本部门业务需求的数据标准。例如,人事资源管理系统可能采用人力资源管理领域的通用标准,而科研管理系统可能采用科研管理领域的通用标准,不同管理领域的差异导致业务系统数据格式不统一。由于数据的格式、内容不固定,导致其在不同系统的不一致,在转换格式后才能相互对接,甚至造成了部分舍弃,影响了数据的共享和整合。

(三)数据质量难以保障。数据来源和标准的不足,也对数据质量造成了直接的影响。由于各部门业务系统相互独立,对数据质量的要求也存在差异。很多业务系统在建设的过程中注重实现系统的功能,忽略数据质量的控制,在录入或导入数据时缺乏必备性、标准性、规范性的约束,数据缺失、格式混乱、数值错误、准确率低等质量问题较为普遍。管理人员不足、缺少信息化能力等原因,也可能成为影响数据质量的因素。除了数据缺失、不符合格式等明显错误,还有很多是因为数据录入造成的隐性错误,这些问题通过技术手段难以发现,需要人工校对才能确认并纠正,需要占用大量的人力和时间。

(四)数据共享交换不畅。高校很多的业务系统之间存在一定的依赖关系,需要数据的共享,畅通的数据交换对可靠的数据共享起着重要的作用。因一些岗位的人员变动频繁,更新也不及时,对下游的共享带来了不便。常见的数据共享交换有数据库交换、文件传输交换、API接口交换等方式。数据库交换方式在业务系统数量较少、数据库类型一致时易于实现,但在业务系统数量多、数据库异构时,存在读写性能瓶颈与兼容性适配的局限。文件传输方式基于数据的导入导出,适合异构数据库之间的共享,但效率较低,难以满足实效性的需求。API接口交换在实时性、异构性上均有优势,但技术实现较为复杂,需要不同应用厂商的配合。在数据共享交换上,高校往往选择技术实现较为简单、支持不同类型数据库的方式。基于传统ETL(抽取、转换、加载)的数据库交换目前在高校应用中仍然比较常见,该方式在定时(如每天一次)模式下相对稳定。若想实现实时模式的ETL,因为数据传输量大大增加,需采用触发器方式来实现,对数据库的读写性能造成较大负担,甚至导致数据库服务的异常,进而造成数据共享的中断。因为这些原因,数据共享交换的滞后性、不稳定性,造成了不同业务系统之间数据更新不通畅,在校园日常生活中较为常见,比如更换校园卡后第二天才能在门禁设备上正常使用、欠费缴清后不能立即办理相关手续等。

三、基于问题导向的高校数据治理策略

数据治理是指将数据作为资产而开展的一系列组织行为,贯穿数据管理的全生命周期。数据治理需要结合技术与管理的手段,形成标准化与持续改善的机制,实现提升数据质量、保障数据可用性的主要目标,具体内容包括组织架构、政策制度、技术工具、数据标准、流程规范、监督及考核等方面[3]。基于问题导向的原则,制定适合高校实际的数据治理策略,明确数据来源与部门责任,制定并落实数据标准,建立用户反馈与纠错机制,促进数据质量提升,优化数据共享交换,更加充分发挥数据效能,总体框架如图1所示。

图1 基于问题导向的高校数据治理总体框架

因此,需要以问题为导向,针对性的解决数据管理中面临的主要问题与挑战,制定数据治理的具体策略。

(一)落实“一数一源”机制。“一数一源”指的是高校信息化所需的每一条基础数据有且只有一个对数据的真实性和准确性负责的业务部门,对相关数据资产的唯一性、一致性和可用性负责。在明确数据源责任单位的基础上,构建数据资源的共享与保障体系,保障数据质量和利用效率。通常可根据数据业务属性和部门业务职责,确定各类数据产生的归属部门为数据源单位。各数据源部门落实“一数一源”的机制要求,负责相关数据的采集、处理和质量管理,保障数据的准确性、完整性、及时性,避免对同一数据重复采集、多头管理。

良性的数据循环机制的建立是十分有必要的,高校的人事、教务、学工等系统是数据采集的主要源头,要在数据源头补足短板,已有的要全量归集,没有的要及时补充。建设全校统一的共享数据库基础平台,已经建立数据标准、确定数据源头的业务数据,应采取适当工具抽取并存储到共享数据库中,不能通过工具抽取的线下数据可通过填报工具录入或文件导入。采集范围可随着数据责任、数据标准的推广和落实,逐步扩展到各业务部门和业务系统。历史数据应该采取有效的存档机制,记录数据变更的过程。

(二)有效推行数据标准。标准被定义为“用来判断其他事物质量的好东西”或“由权威建立和确定。作为衡量数量、重量、范围、价值或质量的规则”。数据标准是指保障数据定义和使用的一致性、准确性和完整性的规范性约束,是对数据的命名、数据类型、长度、业务含义、统计口径、归属部门等,定义统一的规范,保证各业务部门、各业务系统对数据的统一理解、对数据定义和使用的一致性。数据规范体系的建设是数据治理目标实现的保障,有助于数据在不同业务部门、系统的共享、交互和应用。在高校数据治理实践中,应参考国家和教育部颁发的数据标准,结合自身实际编制数据标准,包括数据定义、数据格式以及数据应用标准,以及数据定义与应用规则,建立标准化的代码标准、元数据模型,实现数据标准的唯一性、实时性和扩展性。代码标准是各业务系统相应字段需要参照的规范定义,通常有机构代码、学科代码、课程代码等[4]。在建立数据标准的过程中,收集、整理相关信息形成规范知识库,例如通用型及业务型数据字典,数据间的逻辑关系,数据的转换规则和数据的流转路径,表结构定义、字段注释和属性等,用于治理后的数据共享交换、纠错修正等。

数据标准的制定应遵循唯一、可扩展、简单、规范、易用的原则。高校数据治理涉及的业务数据种类多、数量大,将这些数据全部纳入标准体系需要耗费巨大的人力物力,难以在较短的时间内实现。建议对与基础信息相关、共享率高、使用频次高的字段优先建立标准。在推行数据标准的过程中,必定会遇到很多困难,例如一些老旧系统无法改造或者改造成本过高。需结合实际情况,采取差异性的推行策略。对目前的业务系统,首先分析和整理其中存在不符合标准的问题,评估与整改相关的投入成本、潜在风险、时间周期等因素,制定科学合理的整改方案。易于整改的应该立即整改,一时难以整改的可通过逻辑转换方式实现与标准的兼容,即将更换淘汰的老旧系统可暂不整改,在替代系统中推行数据标准。对新建立的业务系统,可统一要求执行数据标准,作为系统规划、实施、验收的组成部分,上线前进行数据标准评估,不合格要求的整改后再上线。

(三)加强数据质量控制。实现有效的质量控制是数据治理的主要目标,数据质量是检验数据治理成效的核心指标。在落实数据责任的基础上,伴随数据规范的建设,建立数据质量相关制度,规范数据采集、处理、存储、使用等环节的质量控制要求,完善数据质量的评估、纠错机制,保障数据准确、真实、完整和规范。实现数据过程可视化和质量可视化管理,便于管理者实时掌握数据质量的整体情况,及时发现数据质量面临的各类问题,促进数据质量的不断提升。

数据质量评估是分析数据综合特征、量化数据质量的过程。在高校数据治理的实践中,通常将数据质量和规则维度相结合,根据已经定好的数据标准以及业务特性对数据质量配置相应的监控规则,及时发现有问题的数据并针对问题数据进行重点排查,形成数据质量报告,指明数据缺失、异常、错误等各类问题并提供详细列表,便于协同相关部门对问题数据进行处理。

数据质量的提升离不开长期的投入,需要形成持续监测和错误反馈的机制,及时将数据质量问题反馈给数据源部门处理,建立数据修改审核机制,向师生用户开放数据修改申请服务,经数据源部门审核后及时修改完善。可以从以下几个方面对数据质量问题进行反馈和跟进:通过事先定义好的规则、时间,自动完成数据质量检查,对数据存在的问题及时反馈给数据源部门;面向业务部门提供全生命周期的数据管理工具,包括数据的规范标准、检索查询、质量检查和异常监测等功能;建立师生个人数据中心,对师生开放其个人相关的数据,对不正确、不完整的数据进行有针对性的数据纠错、补录,启动反馈机制,通知数据源单位及时数据审核和更新。

(四)优化数据共享交换。高效数据治理的最终目的是实现数据资源在全校范围内高效率流转和高水平共享。数据共享交换是实现整个学校的系统集成、解决信息孤岛和信息共享问题的重要手段。通过数据共享交换,实现跨业务系统的数据集成、共享与协同。优化数据供需系统的流程环节,完善数据供需的沟通渠道和协调机制,充分发挥数据共享交换平台的数据通道作用,消除数据共享交换的断点、堵点,实现数据“找得着、拿得到、用得上”。

近年来,不同数据源之间通过API 接口进行数据的共享交换成为主流。实现高性能、高可靠、开放性强的数据采集、集成和共享交换平台,有效整合校内各类数据资源,提供开放的应用接入能力,打通不同业务数据共享,实现数据资源的一体化管理和科学治理,成为高校数据共享交换平台建设的主要目标。平台需兼容常见的结构化数据源,提供丰富的数据集成能力,支持对数据共享交换任务的配置和调度,实现自动化、定时化、可视化的数据共享。

四、结语

高校数据治理要取得实际成效,需要有效解决数据管理上存在的主要问题,形成数据产生、维护、应用、收益的良性循环。按照“谁产生数据,谁负责管理”的原则,推动业务部门充分参与数据治理,加强跨部门协同,不断完善质量反馈与监督机制,健全数据质量提升体系,逐步推进不同层次和不同维度的数据共享,为师生提供更优质的信息化服务,以信息化促进学校治理体系与治理能力的现代化。

猜你喜欢
数据源标准质量
2022 年3 月实施的工程建设标准
“质量”知识巩固
质量守恒定律考什么
做梦导致睡眠质量差吗
忠诚的标准
美还是丑?
Web 大数据系统数据源选择*
基于不同网络数据源的期刊评价研究
一家之言:新标准将解决快递业“成长中的烦恼”
质量投诉超六成