[ 摘 要] 充分利用大学图书馆内的数据是实现大学图书馆数字化转型的关键之一,为了有效治理数据,推动图书馆业务创新,大学图书馆数据治理应采用有针对性的数据治理框架、借鉴国家标准DCMM 进行数据管理能力成熟度评估、面向大学图书馆的关键业务确定数据治理范围、依据大学图书馆组织特色开展数据治理以及基于PDCA 思想设计数据治理流程。大学图书馆数据可以归纳为技术数据、资源数据、师生成果数据、权益管理数据和运营数据5 类。其中,技术数据是资源建设和技术应用领域的关键要素;资源数据和师生成果数据是图书馆基于数据提供服务的基础;权益管理数据是服务创新、空间建设、队伍建设的数据来源;运营数据在经费保障领域提供辅助决策。大学图书馆数据治理流程为确定业务范围—执行成熟度评估—设计路线图—数据治理实施—结果度量—业务运营。此外,针对大学图书馆数据特点,其典型业务的治理需将重心聚焦于数据分布与元数据管理、参考数据和主数据管理以及数据质量管理3 个方面。
[ 关键词] 数据治理流程 数字化转型 数据管理能力成熟度评估模型 大学图书馆
[ 中图分类号] G258.6 [ 文献标志码] A [ DOI ] 10.19764 / j.cnki.tsgjs.20230262
[ 本文引用格式] 陈飞, 黄文彬. 数字化转型背景下大学图书馆数据治理研究[J]. 图书馆建设,2024(5):138-148,175.
0 引 言
数字化转型是指利用信息、计算、通信和连接技术,改进转型主体的运营、产品、管理、商业模式、生产流程的过程[1],其核心在于数据的驱动和支撑[2]。近年来,数据的作用越来越受到重视,对认知理念、方法技术、科研范式及产业变革均产生了深远影响。2015 年,习近平总书记首次提出“数字中国”建设倡议,十九大报告将“数字中国”作为一项重要的国家战略,《中华人民共和国国民经济和社会发展第十四个五年规划和2035 年远景目标纲要》提出“以数字化转型整体驱动生产方式、生活方式和治理方式变革”[3],推进产业数字化转型,标志着数字化转型正式成为国家战略。
大学图书馆是学校的文献信息资源中心[4],同时也是大学中数据最为集中的场所,在大学图书馆数字化转型进程中,数据发挥着关键支撑作用,能够“发现新知识、创造新价值、提升新能力”[5],是实现资源与服务一体化的重要保障[6] 。然而,大学图书馆的数据在一定程度上存在着管理难度大、共享性差、数据质量差等不足,面临着不好用、用不好的现象,导致数据价值的发挥受到限制。尽管数据在大学图书馆“核心资产”的地位逐渐被人们所接受[7],但在如何利用丰富的馆藏资源和数字资源、实现新的知识组织、为师生提供精准服务、促进数据增值等方面,仍然缺少较为成熟的理论、工具和手段[7]。
数据治理是对数据资产进行管理和利用并实现数据价值的过程[8-10],契合大学图书馆数据增值的需要,已有部分学者针对图书馆领域的数据治理理论框架进行了深入的研究探索,如公共图书馆数据治理框架[11]、高校图书馆数据治理框架CALib[12] 和智慧图书馆数据治理子平台[13] 等。然而,目前鲜有大学图书馆数据治理的成功实施案例和可行的实施流程,在大学图书馆数字化转型的关键时期,对大学图书馆数据治理流程的研究具有较强的紧迫性和现实意义。本文围绕大学图书馆的功能定位、组织特点和关键业务,分析大学图书馆的关键数据需求,提出适合大学图书馆业务发展和组织特色的数据治理流程,以期为大学图书馆的数据治理提供一种可直接借鉴的实践参考。
1 数字化转型情境下大学图书馆数据治理必要性分析
国内外学界、机构和组织针对数据治理进行了深入研究,如国际数据管理协会(DAMA International,以下简称DAMA)强调了对数据资产管理的规划、监控和执行活动[8];国际商业机器公司(InternationalBusiness Machines Corporation,简称IBM)关注数据管理的策略、流程和组织[9];国际数据治理研究所(Data Governance Institute,简称DGI)则更直接地对数据治理进行了过程化表述[10];国家标准《信息技术服务——治理第 5 部分:数据治理规范》将“数据资源及其应用过程中相关管控活动、绩效和风险管理的集合”统称为数据治理[14]。尽管表述略有不同,但数据治理的核心目标可以概括为“确立数据的资产地位,通过管理体制、开放共享、安全隐私等各种手段提升数据的价值”[15]。
大学图书馆汇集了丰富的文献资源和数字资源,数据是关乎大学图书馆高质量发展的核心要素。随着电子资源的逐渐积累、信息系统的建设以及本地资源数据化的蓬勃发展,数据规模正在呈现爆发式增长。在数字化转型的背景之下,大学图书馆正不遗余力地推进数据资源建设,除广泛引进国内外各类电子资源、加紧建设专题数据库、强化本地馆藏的数字化加工力度之外,还依托人工智能、云计算、物联网等技术,逐步实现多场景下用户、设备、馆藏的互联互通,积累了丰富的数据资源。当前,标杆型的大学图书馆数据总量已达PB 级,大学图书馆的数据在数量级、类型和需求特征上均已具备了大数据形态,符合数据量大、类型结构复杂、生成速度快、价值巨大但价值密度低的通用特征[12-13,16],同时又兼具了其独有的特色。由于长期缺乏统一的数据标准、数据来源复杂、信息系统种类繁多,大学图书馆的数据质量不高,如果不能及时解决这些问题,将阻碍数字化转型。
数字化转型的目标不仅在于数据的简单累积和储存,更重要的是数据的增值服务。在大学图书馆“实现数据价值”的目标之下,学者也早有在大学图书馆开展数据治理的呼吁,顾立平[17] 于2016 年就曾指出图书馆可以通过执行数据获取、数据共享、数据重用的政策,不断探索数据治理的最佳实践,迎来图书馆事业的发展机遇;金波等[18] 认为数据治理可以为高校图书馆的业务发展和现代化转型提供助力,帮助高校图书馆充分利用数据,发挥数据的价值。大学图书馆通过数据治理相关的活动,在知识管理[19]、数据服务[20] 等诸多方面进行了积极探索,如福建省高校数字图书馆针对元数据管理、存储及云平台建设的FULink 系统[21],深圳大学研发的电子资源生命周期全流程管理系统[22],重庆大学智慧图书馆门户[23] 以及清华大学、北京师范大学图书馆等7 所高校联盟[24]使用的下一代图书馆服务平台Alma,北京大学图书馆推进的FOLIO 本地化项目[25] 等,促进了纸质资源和数字资源的文献元数据整合以及机构之间的数据分享和合作。
数据管理能力的需求与信息化、数字化水平息息相关,在信息化初期,往往只需要关注数据建模、数据库设计、数据存储和数据安全等,较少地涉及数据集成和交互;而随着业务的持续开展以及信息系统相继投入使用,对高质量的元数据和一致的数据架构的需求也日益增强,解决数据质量问题需要借助来自顶层的制度、规范及监督,数据治理是最合适的执行方式,通过对数据质量、元数据和数据架构的管理为全面的数据管理活动提供体系性的支持保障,从而获得更好的利用数据的能力,并通过数据挖掘、商务智能等更高级别的数据利用实践,促进数据的增值。因此,引入数据治理是大学图书馆高质量发展的必然要求,大学图书馆的数字化转型,可以将数据治理作为一项重要的手段和工具。
2 大学图书馆数据治理对策
2.1 采用有针对性的数据治理框架
国内外学者和研究机构提出了多个通用的数据治理框架,为企业或组织开展数据治理工作提供指导。桑尼尔·索雷斯[26] 依据组织、元数据、数据质量等7 大准则阐述了不同产业和功能下5 种类型大数据的数据治理方案;DAMA[8] 提供了包含11 个功能项和7 个环境项的数据管理框架;DGI 的数据治理框架[10]分为人员与组织结构、规则与协同工作规范、过程3个层面和10 个基本组件,分别对应5W1H(Why、What、When、Who、Where、How); 我国《数据治理白皮书》[27] 提出的数据治理框架由原则、范围、实施和评估3 个框架组成,描述了数据治理的准则、治理域和实施方法。
整体而言,国内外较为典型的通用数据治理框架通常以企业为研究对象,各企业可以依据基本框架制定自身的数据治理计划。在图书馆领域,严昕[11] 构建了我国公共图书馆数据治理框架,包括顶层设计、治理驱动、治理范围和治理过程;卢凤玲[13] 将数据治理融入智慧图书馆体系,设计了一个以数据为核心、以业务流为驱动、融合数据治理体系的智慧图书馆框架;包冬梅等[12] 在DAMA 和DGI 数据治理框架的基础上,提出了适合我国大学图书馆数据治理的CALib 框架,包括促成因素、范围和实施评估3 个子框架,描述了数据治理的重点关注领域、具体实施方法以及实施前后的绩效评估方法。
数据治理框架是开展数据治理工作的战略指导,刘桂锋等[20] 结合国内外数据治理的基本现状,比较了DGI、DAMA和CALib数据治理框架,认为不同的治理框架适用于不同的领域。在数字化转型的背景下,大学图书馆的服务将围绕数据和信息技术呈现出全方位、多维度的新特点,基于此,在大学图书馆开展数据治理,应充分考虑自身特点,结合发展定位、业务模式、组织架构等,从数据治理的目标出发确定数据治理的范围和实施方法,选择符合大学图书馆特色的数据治理框架。
2.2 借鉴国家标准DCMM 进行数据管理能力成熟度评估
数据管理能力成熟度评估能够对数据治理要素和过程进行量化管理,关注数据治理过程的可操作性,及时发现并解决影响数据治理过程质量和进展的问题,是帮助组织进行数据治理的有效方法。国际上较为著名的数据管理能力成熟度评估模型有IBM的企业数据能力成熟度评价模型[28]、CMMI(Capability Maturity Model Integration,能力成熟度模型集成)研究院的DMM(Data ManagementMaturity Model,数据管理成熟度模型)[29] 以及EDM(Enterprise Data Management,企业数据管理)协会的数据管理能力成熟度模型[30],分别把数据管理能力分成 5~11 个功能域进行评价。全国信息技术标准化技术委员会发布的数据管理能力成熟度评估模型(Data Management Capability Maturity Model,简称DCMM)[31],详细定义了数据战略、数据架构、数据质量等 8 个能力域及 28 个能力项,是国内数据管理领域的国家标准,已经在多个企业中得到了应用。
基于以上模型设计的成熟度评估模型本质上仍然采用了类似的分级量化思想,如秦中云[32] 与吴锦池等[33] 对CMM(Capability Maturity Model, 能力成熟度模型)的扩展,从过程角度对图书馆数据处理的要素进行了能力成熟度评价;叶兰[34] 比较了DMM、DCAM(Data Management CapabilityAssessment Model, 数据管理能力评价模型)、DCMM 等7 个数据管理能力成熟度模型的评价维度设置、模型组织体系、评价标准与规则制定、可操作性和公开度,认为图书馆可以选取其中一种或几种模型的组合开展数据管理能力成熟度评估。DCMM 具有较强的通用性和可操作性,鉴于其作为国家标准已取得较为广泛的应用,具备较多的可参考案例,大学图书馆选择DCMM 作为数据管理能力成熟度评估的依据较为适宜。
2.3 面向大学图书馆的关键业务确定数据治理范围
DAMA[8] 明确提出大多数组织都不是预先定义完整的数据管理战略后才开始管理数据的,通常都是在业务建设的过程中逐步提升数据管理能力,另外,不同行业或领域的数据治理总体目标也不尽相同。因此,数据治理应围绕业务目标展开,由于每项业务对应不同种类的数据,其关注点也分别着眼于数据标准、数据质量、数据服务等,各有侧重。例如,从全局数据的角度来看,数据治理是确保数据质量最有效的方式[35];在大数据环境下,数据治理的主要问题和挑战定位在数据标准不统一、数据质量问题及数据安全隐私问题[36],核心功能是元数据管理、数据质量管理和主数据管理[37]。在图书馆领域,开展数据治理的最佳方式也应该是将数据治理过程嵌入到具体的业务场景之中,在实施过程中重点关注成立数据治理小组、促进跨机构合作、开发统一系统平台、加强评估与反馈等工作[11],对元数据、数据标准、数据质量进行管理、监控和评估[13]。
根据《普通高等学校图书馆规程》[4],图书馆的主要任务包括文献保障、人才培养、科学研究、社会服务、文化传承等,结合大学图书馆亟待突破的实际问题,可以细分为队伍建设、服务创新、经费保障、资源建设、技术应用、治理体系与治理能力建设、空间建设、图书馆地位与话语权等[6],这为数据治理提供了明确的业务目标。大学图书馆的数据治理应聚焦于以上关键业务领域,从各项业务对应的不同数据出发,分别探寻数据治理的着眼点,关注纸电一体化、知识资源建设、用户智慧服务等核心业务问题,着力提升数据模型、元数据管理、数据分析等数据管理能力,分别在资源建设和用户增值服务方面发挥较为重要的作用,确定数据治理的实施范围。
2.4 依据组织特色开展数据治理
现有的数据治理研究主要围绕两个方向:一是对数据治理体系广度的扩展,如将国家、行业等维度纳入数据治理框架;二是对数据治理细节的深入挖掘,如数据质量的改进技术、数据治理结果的度量指标等。目前,数据治理缺乏操作层面的具体指引,除相关研究较少的原因之外,还在于数据治理流程的通用性较小,难以跨行业借鉴,基于此,研究与大学图书馆相适应的数据治理流程具有必要性和紧迫性。在操作层面,明确数据治理的实施主体尤为重要。由于单个团队无法管理所有数据,需要领导层面的协调及跨团队协作,因此建立正式的数据治理组织能够更好地开展数据治理活动[8]。以IBM 数据治理统一流程[28] 为例,常规的数据治理组织蓝图包含数据治理委员会、数据治理工作组、数据照管社区等层级,为专职的数据治理参与者分配角色、职责和决策权,这种复杂的组织架构有悖于大学图书馆的工作定位和运行机制。解决数据治理组织的问题应从实践的角度进行分析,无论是否设置了正式的数据治理职位,都可以对数据进行决策[8],大学图书馆在学校授权范围内实行馆长负责制,馆长主持全馆工作,若干名副馆长协助馆长负责或分管相应工作,并根据图书馆实际工作需要设置图书馆内部组织机构和岗位[4],根据大学图书馆的组织特点,采用“中心+ 跨机构团队”的跨部门工作模式[38]的“临时工作组”是实施数据治理的合理方案。在不改变已有组织架构的前提下,由同一工作组进行数据管理能力成熟度评估、数据治理实施和结果度量工作,既确保了工作效率,又能保障工作的连续性。不同大学的图书馆其下设部门名称也各不相同,为了便于统一表述,本文将大学图书馆业务部门分别称为资源建设部门、特色资源部门、知识服务部门、协同服务部门和信息化部门。大学图书馆馆长作为把握图书馆发展方向的领导者,是担任数据治理负责人的最佳人选,能够确保从图书馆发展建设的战略角度出发对数据治理进行统筹规划和有效推进;图书馆领导层及部门主管,通过识别业务问题、研判业务趋势、发现业务价值,为顶层决策提供参考;临时工作组中的各部门成员负责数据治理工作的具体实施。
2.5 基于PDCA 思想设计数据治理流程
DAMA[8] 强调数据治理是一项持续性的工作,不能依赖于单一的项目彻底解决数据质量问题或实现数据管理能力的全面提升,一般按照“计划—执行— 检查— 处理”(Plan-Do-Check-Act, 简称PDCA)的模型实现。PDCA 思想符合数据治理循环迭代、持续优化的要求,大学图书馆数据治理流程可以参照其思想进行设计,在计划阶段评估已知问题的范围、影响、优先级及解决方案;执行阶段解决引起问题的根本原因,并对数据的持续监控计划进行设计;检查阶段按要求测量数据质量,检验数据治理实施效果;处理阶段解决新出现的数据质量问题,总结经验教训,将成功案例纳入数据治理标准,将尚未解决的问题以及更高级层级的目标提交至下一轮PDCA 循环。
以PDCA 模型开展的数据治理活动在企业及图书馆届均获得了成功实践,如用友数据治理团队的每一轮数据治理均由管理和业务目标驱动,并将明确数据治理的业务范围作为开展数据治理的第一步[39];北京大学图书馆古籍元数据标准的设计和实施过程首先对现有的元数据标准进行研究,其次基于专家分析和用户调查,形成元数据标准的初步方案,包含结构、格式、元素、定义、规则等,再次由编目员等专业人员进行测试并修正,最后在开发的软件中使用并继续修正,形成最终的元数据设计标准[40]。
如前文所述,数据治理应以业务目标为出发点,从行业和业务的角度为数据治理的路径设计提供战略指导;在操作层面,以现有的组织架构作为数据治理参与者的基本人力资源框架,从数据现状出发,结合DCMM,将不同业务的数据治理目标对应到具体能力项。以此原则设计的大学图书馆数据治理流程,由来自不同部门及岗位的馆员兼职完成数据治理工作,能够避免实施层面过于复杂的设计,为数据治理的落地提供可行性。其中,对数据现状的梳理尤为重要,有助于明确大学图书馆的数据需求以及数据治理关键能力项,为数据治理流程的设计提供依据。
3 大学图书馆数据治理范围
3.1 数据类型
大学图书馆的主要用户群体为大学师生,相较于公共图书馆,其数据来源、类型及用途均具有鲜明的特色,大学图书馆的数据可以归纳为技术数据、资源数据、师生成果数据、权益管理数据、运营数据5 类(见表1)。其中,技术数据是大学图书馆资源描述的基础数据,是大学图书馆资源管理和利用的基础;资源数据是大学图书馆向用户提供的各类电子资源的具体内容,包括自建资源、采购资源等,是大学图书馆数据的主要组成部分;师生成果数据则是用户向大学图书馆提供或大学图书馆通过网络获取的各类科研数据,是大学图书馆特有的数据资源;权益管理数据是由各类业务产生的数据,既包括对资源进行组织和揭示的采编数据,也包括用户借阅、参考咨询等服务产生的行为数据;运营数据是大学图书馆日常运行过程中形成的数据,涵盖了与馆员相关的数据和与系统运行相关的数据。
3.2 数据需求及关键治理能力项
大学图书馆的数据治理主要依托核心业务进行,包括文献采访、编目、组织、加工、揭示,流通、阅览及咨询服务,文化培育,协同服务,情报服务,信息化基础设施及信息系统建设,数据仓储,数字加工、数字出版,开放获取,长期保存等。本文从大学图书馆的关键业务领域[6] 中抽取与数据相关的具体任务,根据每项任务的具体要求梳理相关的数据需求,结合DCMM模型28 项数据治理二级能力项[31] 进行分析和对应,从而得到对应相关业务的关键数据治理域(见表2)。
根据表 2 可知,技术数据是资源建设和技术应用领域的关键要素;资源数据和师生成果数据是大学图书馆基于数据提供服务的基础;权益管理数据是服务创新、空间建设、队伍建设的数据来源;运营数据是大学图书馆战略决策的辅助支撑。较为关键的数据治理能力项主要包括数据模型、元数据管理、数据质量提升、参考数据和主数据、数据分布、数据分析等,分别在数据建设、管理、开发、利用、增值服务等方面发挥较为重要的作用。其中,数据模型、元数据管理、数据分布关系到资源的产生、组织和利用;数据质量需求、数据质量分析是保证数据质量的前提;数据集成与共享、数据质量提升、数据分析、数据安全管理为数据增值提供了保障。
4 大学图书馆数据治理流程
4.1 数据治理流程通用设计方案
在明确数据治理范围后,即可依据合理的流程开展大学图书馆数据治理。大学图书馆数据治理流程包括确定业务范畴、执行成熟度评估、设计路线图、数据治理实施、结果度量、业务运营6 个步骤,每个步骤涉及各自的目标、工作项、人员、方法和工具,具体要素依据数据治理的业务、大学图书馆的定位以及服务学校师生的场景分别进行选择。
步骤一:确定业务范畴。其任务是围绕一项特定的业务定义数据治理的范围,属于数据治理PDCA 循环的计划阶段。确定数据治理业务范畴需要遵循具体的指标,首先要求符合国家“十四五”发展规划、“双一流”建设思路以及大学图书馆现代化核心理念[41];其次必须关注业务的核心价值、数据增值服务能力;最后还应重视业务目标定位、重要程度、贡献度、实施难度、时间周期、影响范围、人力资源配置等。当代大学图书馆的定位“是学校的文献信息资源中心,是为人才培养和科学研究服务的学术性机构,是学校信息化建设的重要组成部分,是校园文化和社会文化建设的重要基地”[4]。相较于社会层面的图书馆,大学图书馆在服务对象、发展目标和服务宗旨方面具有鲜明的特色,立足服务社会、服务学校、服务师生3个层次,在数字化转型背景下,重点围绕资源建设、服务创新、技术应用、空间服务等开展数据治理,具体业务可以从大学图书馆计划开展的新型服务、亟待解决的重大问题或者对现有业务的转型和升级中进行选择。
步骤二:执行成熟度评估。其任务是准确评估数据管理能力现状,分析与预期目标的差距。评估覆盖数据的全生命周期,包括数据产生、汇集、存储、加工、利用、服务、归档、销毁的完整过程。数据范畴的评估内容包括数据标准、数据质量、数据安全,实践范畴的评估内容包括数据应用、IT 系统建设、业务运营,管理范畴的评估内容包括数据战略、组织机构、制度建设等。一是进行数据识别。根据数据治理业务范畴确定涉及的主数据和参考数据;理解每项数据归属的业务系统,数据全生命周期内的用途、来源、去向以及数据之间的关联、数据与业务系统之间的关联。二是组建数据治理工作组。由图书馆馆长领导,成员包括相关的业务、技术、数据、安全部门的上级领导、部门主管和馆员。三是定义评估范围及标准。CMMI在特定场景中,通过合理应用标准过程中的部分步骤,实现对标准过程的裁剪,从而达到“项目定义过程”的目标。据此,结合大学图书馆馆情和业务范畴对数据治理的评估、设计、实施、度量等环节进行精简,从DCMM 中选择评估范围。四是评估数据管理能力成熟度的当前状态。收集当前业务资料及数据信息,按照DCMM 的评价标准执行评估,对评估结果进行解释。五是制定数据治理预期目标。结合数据管理能力成熟度现状和业务目标确定期望达到的数据管理能力成熟度水平。六是反馈评估结果。出具评估报告并向图书馆馆长汇报,根据预期目标开展下一步工作。
步骤三:设计路线图。其任务是依据各项数据管理能力的当前状态与未来状态的差距,提供数据治理的执行方案和步骤。使用量化分析工具、时间表工具等开展工作,并设计数据治理方案,包含数据治理规章制度、实施规程、度量指标和沟通计划。规章制度包括数据管理制度、IT 管理制度和业务管理制度。实施规程包括人力资源计划、数据治理工作组的分工及职责、资源需求、数据管理交付成果物、IT 管理交付成果物、业务管理交付成果物,该规程是详细的执行路线。度量指标包括过程度量及结果度量,过程度量与实施规程中的交付成果一一对应,结果度量的标准是满足成熟度评估后制定的数据管理能力预期状态,度量维度包括规章制度遵从性、任务完成度、结果有效性和可持续性等。沟通计划包括部门工作组日常联络方式、沟通时间表和协调机制,是数据治理顺利推进的保障,应具备强制约束力。数据治理路线图还包括数据治理计划时间表,将数据治理方案中定义的交付成果对应到时间表,形成里程碑,通常要求在12~18 个月内完成全部数据治理过程。
步骤四:数据治理实施。其任务是由数据治理工作组按照路线图执行数据治理过程。步骤二、三、四属于PDCA 循环的执行阶段,数据治理实施依托于业务建设和信息系统建设过程,使用数据建模工具、元数据资料库、行业数据模型、数据质量工具、数据管理平台、数据架构工具、应用架构工具开展工作。业务层面的主要交付成果包括业务规则、业务运营规范、业务术语表等,数据层面的主要交付成果包括数据模型、数据字典、元数据标准、数据质量标准、数据安全标准、数据存储标准等,实施层面的主要交付成果包括系统设计方案、系统架构方案、数据生命周期管理方案、安全管理方案、主数据、软硬件设施等。
步骤五:结果度量。其任务是监控数据治理过程和结果,属于PDCA 循环的检查阶段,使用审计工具开展工作。数据治理工作组根据路线图中设计的度量指标和时间计划,定期评价数据治理绩效,向大学图书馆馆长汇报,确保数据治理计划的持续有效进行。数据治理的绩效评估指标按照人员、数据和事务3 个维度进行度量。人员方面,评估数据治理工作组成员参与情况,具体指标包括实际工作项计划占比、数据治理工时计划占比、数据治理培训参与情况等。数据方面,从数据架构、数据标准、数据质量、数据安全、数据应用5 个方面进行评估,具体指标包括数据模型、元数据标准、主数据标准、数据集成共享标准等标准建设情况,数据完整性、准确性、一致性、及时性、有效性、唯一性等数据质量指标,数据质量问题影响范围,数据安全访问控制机制,数据挖掘与深度分析结果等。事务方面,评估数据治理策略、数据治理流程的执行情况,具体指标包括数据治理例会频次、数据治理参与人数、数据治理流程完成率、数据治理流程执行及时性、数据问题修复时间、数据问题修复率等。
步骤六:业务运营。数据治理的成果通过业务运营体现,业务运营属于PDCA 循环的处理阶段,业务成果的评价工具包括业务绩效评价、用户反馈机制等。无论数据治理的业务范畴是选择新业务、问题修正还是服务升级,数据治理完成后均将产生新的业务模式,催生业务培训和业务交流,从而促进馆员岗位职责的转变,进一步推动管理模式的调整和组织架构的变革。与此同时,这一步骤将提升馆员的综合素养,实现图书馆高质量发展所需要的专业队伍建设目标。此外,数据治理的实施策略、方法和流程也将在实践中得到改进,作为未来数据治理的基础,逐步完善图书馆数据治理体系;在数据治理实施过程中形成的数据规范、IT 建设标准等成果将提升图书馆数据管理能力成熟度等级,促进图书馆数字化转型目标的实现。
相比国际流行的数据治理流程框架,本文设计的大学图书馆数据治理通用流程已简化为6 个步骤,在确定数据治理的目标、方针和规程后,按照具体的方法和工具实施数据治理过程,对数据治理绩效进行评价,保障数据治理目标的实现,并不断开展新的数据治理流程,逐步提高数据管理能力成熟度等级。
4.2 典型业务的数据治理实施方案
大学图书馆的数据主要具备如下特点:一是格式多样,既包含关系型数据库等结构化数据,也包含报表、XML、JSON、HTML 等半结构化数据以及文本、图像、音视频等非结构化数据。二是来源多元,包括大学图书馆业务系统产生的资源数据、业务数据、管理数据,大学图书馆主动获得的互联网开放获取数据、图书馆联盟共享数据以及大学图书馆服务商提供的资源内容和元数据、用户提供的共建数据等。三是分布复杂,一方面,数据库资源一般存储在校外节点;另一方面,资源发现系统、大学图书馆服务平台往往由第三方建设,数据通过云端访问;此外,多数业务系统各自独立部署,数据分散。因此,大学图书馆在数据的采集、传输、存储、利用等方面均面临较大的挑战。长久以来,大学图书馆以元数据为基础进行资源建设,从数据规模来看,以MARC 格式著录的书目元数据、电子资源元数据等元数据的总量在大学图书馆中占据了较大的比重,随着数据规模的增长和数据复杂度的提高,元数据管理能力已经成为大学图书馆发展的瓶颈之一。参考数据和主数据方面,尽管分类较为明确,但主数据来源的确认却较为困难,难以将某一具体的数据源作为主数据的标准或唯一来源。以用户数据为例,一般来自学校教务系统、选课系统等多种渠道或通过大学图书馆服务平台直接创建,导致大学图书馆的用户数据分别保存在多个应用系统中,需要将多个数据源进行整合才能形成完整的主数据。而大学图书馆的数据质量问题则更为复杂,在数据分散的现状难以解决的前提下,必然导致数据不统一、数据质量不佳及数据孤岛问题。根源于数据产生阶段的数据问题将最终反映在数据质量层面,成为数据治理的最大挑战。综上所述,对大学图书馆的典型业务进行数据治理,需要将工作重心聚焦于数据分布与元数据管理、参考数据和主数据管理以及数据质量管理3 个方面。
此外,在大学图书馆资源一体化的需求之下,现有的数据标准也逐渐暴露出诸多弊端。纸质资源、数字化资源、电子资源等多源异构资源缺乏统一的数据标准,无法直接进行数据交互和共享。纸电一体化正是大学图书馆资源建设业务中亟待突破的问题之一[6],也是大学图书馆现代化建设的必经之路,关系到纸质资源和电子资源两项支撑要素,是对大学图书馆现有纸质资源业务和电子资源业务的全面整合升级。纸电一体化的数据治理同时涉及到数据分布与元数据管理、参考数据和主数据管理、数据质量管理等多项数据管理能力项。因此,本文以纸电一体化为例,进一步阐述大学图书馆数据治理的具体流程。表3 总结了纸电一体化数据治理工作组的成员角色、人员构成以及岗位职责。工作组由图书馆馆长领导,由资源建设部门、信息化部门的上级领导及部门主管负责日常管理,馆员执行具体工作。
纸电一体化数据治理流程参照大学图书馆数据治理流程通用设计方案进行实施。 其业务范畴较为明确,核心目标是将采访自多渠道的纸质资源和电子资源进行整合,统一组织和揭示,构建规范化的资源管理与服务体系;具体目标是实现统一的元数据标准和元数据模型,实现数据标准化建设,提升数据质量。在纸电一体化业务立项的同时,数据治理工作组也相应成立,进行数据管理能力成熟度评估。首先识别纸质资源和电子资源的主数据和参考数据,包括采访数据、编目数据、订单数据、书目数据、数据库资源目录等,数据分别来自馆配商、数据库商等,存储在大学图书馆服务平台、编目加工系统、电子资源采购系统等信息系统中,并向资源发现系统等外部系统提供数据,供读者使用。根据DCMM,关键数据治理项包括数据战略规划、数据模型、数据集成与共享、元数据管理、数据质量需求、数据安全管理、数据服务、数据运维8 项。由数据治理工作组评估上述能力项的当前等级,结合项目总体实施周期,预估期望的成熟度水平,由图书馆馆长确认,作为数据治理路线图设计的依据。数据治理路线图包括数据治理时间表和数据治理方案,时间表与纸电一体化项目建设时间匹配;数据治理方案中明确元数据标准、数据模型、数据标准、数据质量评价指标等过程性文件的交付时间点,根据交付时间点为数据治理计划设置里程碑。 路线图设计完成后,同样由图书馆馆长对数据治理路线图进行授权,对跨部门工作组形成强制约束力,确保工作组遵循路线图实施数据治理计划。在纸电一体化数据治理的实施阶段,主要工作包括融合第三代图书馆服务平台的元数据标准的制定,纸质资源、电子资源、网络资源元数据的采集,数据质量探查及质量提升,元数据管理平台或元数据管理微服务模块建设, 数据交互标准制定,系统间数据交互的实现等。数据治理工作组根据路线图中的里程碑评估数据治理过程及结果的KPI(KeyPerformance Indicator,关键绩效指标),定期向图书馆馆长汇报,确保在计划时间内完成全部数据治理流程,对数据治理的成效偏差和时间偏差及时进行修正,从而保障纸电一体化业务的实现,突破传统的文献服务模式, 打破文献资源和电子资源的服务界限,为用户提供统一、智慧化的知识服务。
5 总 结
在国家“十四五”建设的关键时期和“数字化转型整体驱动生产方式、生活方式和治理方式变革”目标的指引下,大学图书馆将围绕数据展开发展规划,实现业务创新。数据治理能够助力大学图书馆充分利用数据,发挥数据的价值。本文首先论证了在大学图书馆开展数据治理的必要性;其次,结合现有研究总结了大学图书馆数据治理应采用有针对性的数据治理框架、借鉴国家标准DCMM 进行数据管理能力成熟度评估、面向大学图书馆的关键业务确定数据治理范围、依据大学图书馆组织特色开展数据治理以及基于PDCA 思想设计数据治理流程的依据;再次,梳理了大学图书馆中与数据相关的关键任务,将各项任务的具体数据需求与DCMM 数据治理项进行了对应,在此基础上,提出了大学图书馆数据治理通用流程;最后,选择较有代表性的纸电一体化业务对大学图书馆数据治理流程的具体步骤进行了阐释。该流程的优点是将数据治理融入到业务建设过程之中,能够适应大学图书馆现有的组织框架,遵循了国家标准DCMM,对于逐步提高大学图书馆的数据管理能力、提升数据服务水平,能够起到积极的促进作用,可以作为大学图书馆数字化转型过程中数据治理实践的有力参考。
参考文献:
[1] 李载驰, 吕铁. 数字化转型: 文献述评与研究展望[J]. 学习与探索,2021,317(12):130-138.
[2] 吕建伟.什么叫数字化?[EB/OL].(2022-06-16)[2023-08-16].https://www.toutiao.com/article/7109351078818480672/?app=news_articleamp;timestamp=1655430684amp;use_new_style=1amp;req_id=202206170951230101581182100D2B968Damp;group_id=7109351078818480672amp;wxshare_count=1amp;tt_from=weixinamp;utm_source=weixinamp;utm_medium=toutiao_androidamp;utm_campaign=client_shareamp;share_token=9dccc779-d6f6-4f24-8672-37db70fa7ea1amp;source=m_redirectamp;wid= 1660200712428.
[3] 国务院. 中华人民共和国国民经济和社会发展第十四个五年规划和2035 年远景目标纲要[EB/OL].(2021-03-13)[2023-08-06].http://www.gov.cn/xinwen/2021-03/13/content_5592681.htm.
[4] 中华人民共和国教育部. 教育部关于印发《普通高等学校图书馆规程》的通知[EB/OL].(2016-01-04)[2023-08-17].http://www.moe.gov.cn/srcsite/A08/moe_736/s3886/201601/t20160120_228487.html.
[5] 国务院关于印发促进大数据发展行动纲要的通知[EB/OL].(2015-09-05)[2023-08-21].https://www.gov.cn/zhengce/content/2015-09/05/content_10137.htm.
[6] 陈建龙, 邵燕, 张慧丽, 等. 大学图书馆现代化指南针报告[J]. 大学图书馆学报,2022,40(1):22-33.
[7] 赖茂生. 赖茂生谈数字化时代的图书馆[J]. 晋图学刊,2020(2):1-12.
[8] DAMA International.DAMA 数据管理知识体系指南( 原书第二版)[M].DAMA 中国分会翻译组, 译. 北京: 机械工业出版社,2020:16-17,43-52.
[9] IBM.What is data governance?[EB/OL].[2023-08-20].https://www.ibm.com/uk-en/analytics/data-governance.
[10] Data Governance Institute.The DGI data governance framework[EB/OL].[2023-08-20].https://datagovernance.com/wp-content/uploads/2020/07/dgi_data_governance_framework.pdf.
[11] 严昕. 公共图书馆数据治理框架构建研究[J]. 图书馆,2020(5):58-63.
[12] 包冬梅, 范颖捷, 李鸣. 高校图书馆数据治理及其框架[J].图书情报工作,2015,59(18):134-141.
[13] 卢凤玲. 融合数据治理体系的智慧图书馆框架研究[J].图书馆,2021(5):74-78.
[14] 信息技术服务 治理 第5 部分: 数据治理规范[EB/OL].[2023-08-21].http://openstd.samr.gov.cn/bzgk/gb/new GbInfo?hcno=F3B2108863A2292F5AF0FA645CEE047F.
[15] 梅宏. 数据治理之论[M]. 北京: 中国人民大学出版社,2020:131-157.
[16] 毕强, 闫晶, 李洁. 大数据时代数字图书馆服务转型面临的新形势与新要求[J]. 情报理论与实践,2017,40(12):12-16,5.
[17] 顾立平. 数据治理: 图书馆事业的发展机遇[J]. 中国图书馆学报,2016,42(5):40-56.
[18] 金波, 杨鹏, 王毅.\" 十四五\" 图书馆、情报与文献学学科发展态势与前瞻[J]. 图书馆杂志,2022,41(1):4-16.
[19] 刘洁璇. 高校图书馆知识管理中的数据治理[J]. 情报科学,2018,36(1):108-112,129.
[20] 刘桂锋, 钱锦琳, 卢章平. 国内外数据治理研究进展: 内涵、要素、模型与框架[J]. 图书情报工作,2017,61(21):137-144.
[21] 周婷, 詹庆东. 高校图书馆联盟数据治理探讨: 以FULink为例[J]. 情报探索,2018(2):34-42.
[22] 刘素清. 从电子资源管理视角分析我国高校图书馆服务平台的发展[J]. 大学图书馆学报,2018,36(4):11-17.
[23] 刘丹. 高校图书馆数据治理研究分析[EB/OL].(2022-06-24)[2023-08-27].https://mp.weixin.qq.com/s/PDp4dZo3kFsXRy9nmHaWgg.
[24] 田晓迪, 孙博阳. 下一代图书馆服务平台的电子资源全流程管理功能: 以Alma 为例[J]. 图书情报工作,2016,60(17):65-69.
[25] 周义刚, 聂华. 新一代图书馆服务平台调研及思考: 基于北京大学图书馆的需求[J]. 图书馆杂志,2019,38(2):69-78.
[26] 索雷斯. 大数据治理[M]. 匡斌, 译. 北京: 清华大学出版社,2014:8.
[27] 张明英, 潘蓉.《数据治理白皮书》国际标准研究报告要点解读[J]. 信息技术与标准化,2015(6):4.
[28] SOARES S.The IBM data governance unified process:driving business value with IBM software and best practices[M].Boise:MC Press,LLC,2010:8-14.
[29] CMMI Institute.Data Management Maturity(DMM)[EB/OL].[2023-08-21].https://www.cmmiinstitute.com/data-management-maturity. (下转第175 页)
[30] EDM Council.DCAM: the data management capability assessment model [EB/OL].[2023-08-25].https://edmcouncil.org/page/aboutdcamreview.
[31] 全国信息技术标准化技术委员会.数据管理能力成熟度评估模型[EB/OL].[2023-08-10].http://www.dcmm.org.cn/u/cms/www/202008/181344008dhz.pdf.
[32] 秦中云. 大数据环境下高校图书馆数据治理及成熟度模型研究[J]. 新世纪图书馆,2019(11):62-67.
[33] 吴锦池, 余维杰. 图书馆数据治理成熟度评价体系构建[J].情报科学,2021,39(1):65-71.
[34] 叶兰. 数据管理能力成熟度模型比较研究与启示[J]. 图书情报工作,2020,64(13):51-57.
[35] 朱琳, 赵涵菁, 王永坤, 等. 全局数据: 大数据时代数据治理的新范式[J]. 电子政务,2016(1):34-42.
[36] 杨琳, 高洪美, 宋俊典, 等. 大数据环境下的数据治理框架研究及应用[J]. 计算机应用与软件,2017,34(4):65-69.
[37] 甘似禹, 车品觉, 杨天顺, 等. 大数据治理体系[J]. 计算机应用与软件,2018,35(6):1-8,69.
[38] 陈思彤, 那春光. \"985\" 高校图书馆组织机构设置的调查与思考[J]. 图书情报工作,2018,62(4):50-56.
[39] 用友平台与数据智能团队. 一本书讲透数据治理: 战略、方法、工具与实践[M]. 北京: 机械工业出版社,2021:80-124.
[40] LONG X,LING C.Designing and implementation of Chinese metadata standards: a case study on metadata applications in Peking University Rare Book Digital Library[EB/OL].[2023-08-30].https://citeseerx.ist.psu.edu/document?repid=rep1amp;type=pdfamp;doi=abdf4fd3954f2263aa690d0903a67096738abc5e.
[ 作者简介]
陈 飞 北京大学信息管理系博士研究生,北京大学图书馆馆员,研究方向为文献大数据、数据治理、学术评价。E-mail:chenf@lib.pku.edu.cn。
黄文彬 博士,北京大学信息管理系长聘副教授、研究员、博士生导师,研究方向为教育大数据、金融大数据、科学大数据,本文通讯作者。E-mail:huangwb@pku.edu.cn。
[ 收稿日期:2023-03-07 修回日期:2024-03-05]