高校图书馆数据治理研究

2025-02-18 00:00:00郑聪侯辉柏雪
河南图书馆学刊 2025年1期
关键词:数据治理高校图书馆

摘 要:对数据进行科学治理可有效推动图书馆事业的发展,新的数据治理模式、治理机制和治理手段可显著提升高校图书馆的服务能力。文章分析了高校图书馆数据治理相关研究及存在的问题,理清了高校图书馆数据治理要素,分享了华南地区某理工科高校图书馆利用开源软件开展数据治理工作的案例,以期高校图书馆能够有效利用开源软件开展数据资产管理工作。

关键词:数据治理;高校图书馆;开源软件

中图分类号:G258. 6 文献标识码:A 文章编号:1003-1588(2025)01-0071-03

本文系2022年度国家社科基金一般项目“岭南瑶族乡村民俗档案文化数字化传承保护与创新交融研究”的阶段性研究成果之一,项目编号:22BTQ081;也系2023年度广西哲学社会科学研究课题“数字人文视域下广西桂剧非遗的文化基因提取与知识图谱构建研究”的阶段性研究成果之一,课题编号: 23FTQ006。

1 高校图书馆数据治理相关研究及存在的问题

1. 1 相关研究

数据治理是组织中涉及数据使用的一整套管理行为[1]。很多学者在研究初期习惯使用“数据管理”“数据监护”“数据管护”等词汇进行描述,其本质都是在认识到数据资产价值的基础上,以数据资产为核心设定操作流程、划分权属职责等,利用数据治理结果为领域决策提供支持。随着相关研究的持续深入,学界对数据治理的定义逐渐清晰。包冬梅指出,治理和管理是完全不同的活动,治理是对管理活动的指导、监督和评估,管理是根据相关治理决策执行具体的计划或建设、运营[2]。谷歌公司经过实践认为,数据治理是为确保数据安全、私有、准确、可用和易用所执行的所有操作,包括人们必须采取的行动、遵循的流程,以及在整个数据生命周期中为其提供支持的技术[3]。截至目前,高校图书馆已开展MARC编码、Z39. 50检索协议、CALIS保障体系等一系列数据治理相关工作,旨在更好地管理和使用数据。随着数据治理概念的普及,高校图书馆界关于数据治理的研究逐渐丰富。有学者提出,高校图书馆的数据类型应被分为业务数据、资源数据、用户数据、管理数据等,旨在通过明确数据类型的方式确定研究主体;高校图书馆应构建数据专家体系,培养数据馆员,不断完善数据获取治理、数据共享治理、数据重用治理、数据加值治理等工作流程。顾立平认为,数据治理有助于高校图书馆推动智慧图书馆建设,即以数据为核心、以业务流为驱动,通过融合数据治理体系,构建新型智慧图书馆框架[4]。

1. 2 存在的问题

1. 2. 1 理论研究偏多。现有的相关研究主题主要集中于数据治理概念等理论研究方面,实践类、应用类的研究占比较低。

1. 2. 2 在研究对象的设定方面存在偏差。现有研究的对象设定主要有高校图书馆、数据治理、大数据、科研数据、数据科学、数据管理等,很多研究直接将高校图书馆数据治理等同于科研数据治理、用户数据治理等,针对作为底层支撑的业务数据治理、治理框架、治理体系、治理路径等的研究相对较少。

1. 2. 3 内驱动力不足。目前,高校图书馆仍没有充分认识到数据资产的价值,仅依靠自上而下的政策推动相关研究和工作进程,没有制定长远的数据治理战略,相关的数据共享机制不够健全、责任界定不够清晰,没有形成长效的工作保障机制。

1. 2. 4 缺乏具体的标准规范。我国通用的数据治理框架侧重宏观的战略和管理,无法满足高校图书馆跨部门、跨系统的横向协同需求,在缺乏具体标准规范的情况下,高校图书馆难以规范化开展数据治理工作[5]。

2 高校图书馆数据治理要素

2. 1 数据治理观念

数据治理观念是指高校图书馆在数据资源管理、利用及维护等方面的理念和认识。在数据方面,高校图书馆须树立正确的数据价值、数据质量、数据安全、数据标准等观念。在职能方面,高校图书馆须改变传统的部室架构和职能框架,以敏捷组织模式组建工作组,全面介入数据治理流程。在人才方面,高校图书馆须培养精通数据治理业务、技术的复合型人才,以人才建设推动数据治理体系建设。

2. 2 数据治理主体

在认识论中,主体是指在社会实践中认识和改造世界的人,因此,数据治理主体即是在数据治理实践中认识和改造数据的人,其中的“人”泛指具有主观能动性的个人、部门、机构、团体等。在高校图书馆的数据治理过程中,数据治理主体既可以是高校管理层、高校信息化建设部门、图书馆管理层、图书馆技术部门、图书馆馆员,也可以是相关机构或积极参与图书馆管理的用户等。

2. 3 数据治理客体

客体是与主体相对应的客观事物及外部世界,是主体认识和改造的一切对象。数据治理客体是指在数据治理实践过程中,被数据治理主体认识和改造的数据对象。对于高校图书馆来说,数据治理客体存在于各类数据资产中[6],以业务系统、数字文献资源、书目、特色数据库、教学资源等形式呈现。

2. 4 数据治理边界

数据治理边界是针对数据治理活动的范围限制,数据治理活动须在一定的数据、流程、人员、系统、策略等范围内进行。高校图书馆的数据治理应以图书馆数据为基础,与高校网信中心、本科生院、研究生院、后勤服务中心等部门进行主数据交换,并对这些数据进行治理。

2. 5 消费者

数据治理的目的是快捷、科学地进行数据消费。数据消费者既可以是高校图书馆的工作人员、研究人员、高校教职员工等内部用户,也可以是其他图书馆用户、其他高校用户、相关单位等外部用户。目前,相关系统、机器人流程自动化(Robotic process automation,RPA)等的数据消费占比较高,原因是不同系统之间的数据交换主要依赖各类自动化接口或RPA机器人。

3 数据治理相关开源软件

3. 1 数据收集与清洗软件

高校图书馆的数据来源较为复杂,除常见的业务系统、数据库外,还有各种物联网系统、电子资源、纸质资源等,只有使用数据采集、文字识别、网页解析等多种类型的软件才能全面收集。具体的数据收集方式有以下三种:一是使用NiFi、Sqoop、Kafka、Flume、Pendaho等开源数据采集软件,从各类业务系统和数据平台中抽取数据。二是使用Tesseract OCR等光学字符识别引擎,从图像中提取文本数据。三是使用Scrap、Beautiful Soup等HTML解析引擎,从网页提取信息或制作RPA机器人采集复杂数据集。对于收集到的数据集,高校图书馆可使用Pandas、SQLAlchemy、GGobi、DataCleaner等数据清洗软件进行数据清洗和补全,并汇入数据湖,构成图书馆数据资产基座。

3. 2 元数据管理软件

元数据管理是高校图书馆数据治理的核心内容,涉及对数据的定义、描述、分类、控制等。Data Catalog具有数据目录和元数据管理功能,高校图书馆可用其创建和管理数据目录,并对数据进行元数据建模和分类。Magda具有数据编目、增强、搜索、跟踪和排序等功能,高校图书馆可利用其对内外部数据源进行处理,以API的形式对外提供数据资产管理服务。

3. 3 数据质量监控软件

开源数据质量监控软件能够帮助使用者保障数据质量,提高决策准确度和业务开展流畅度,方便使用者对数据进行追溯,以确定问题数据源头。Apache Griffin具有数据系统质量评估功能,允许高校图书馆自定义数据质量指标,并对这些指标进行监控。DataHub具有数据质量评分功能,有助于高校图书馆评估数据的可靠性和适用性。

3. 4 数据消费软件

数据消费软件具有数据分析、汇总、边界管理、可视化等功能,有助于高校图书馆用户直观地阅览和操作数据集,提高数据利用效率。数据消费软件可按封装程度分为自动化和半自动化两种类型,自动化数据消费软件有DataEase、Grafana、Apache Superset、JeecgBoot等,能够直接对接数据湖,并根据数据结构或时间序列生成定制化数据表格、可视化图表等;半自动化数据消费软件有Apache Echarts、D3、AntV、PowerMap等,需要使用者手动对数据湖中的数据进行序列化处理,只有使其符合软件要求,才能自动生成数据消费界面。

4 高校图书馆利用开源软件开展数据治理工作的案例

以华南地区某理工科高校图书馆为例,该馆利用Pendaho、postgreSQL、JeecgBoot、ApacheEcharts、DataCleaner等开源数据治理软件构建数据湖与数据消费平台。其中,数据湖的构建依托Pendaho、postgreSQL、DataCleaner等开源软件,从不同业务系统、异构数据库、网站服务器等抽取数据,经过清洗、质量控制等处理后,汇入postgreSQL数据湖,并生成业务目标主导型数据集;数据消费平台的构建依托JeecgBoot、ApacheEcharts等开源软件,在生成如图1所示的多维度数据集可视化图表的基础上,对多源数据集进行汇总,生成用户画像等基础数据。

该馆组合利用开源软件开展数据治理工作的方式具有一定的可行性,可满足大部分高校图书馆基本的数据治理需求,有助于高校图书馆提升数据资产管理成效。

参考文献:

[1] 张宁,袁勤俭.数据治理研究述评[J].情报杂志,2017(5):129-134.

[2] 包冬梅,范颖捷,李鸣.高校图书馆数据治理及其框架[J].图书情报工作,2015(18):134-141.

[3] 宋懿,黄婕.欧盟政府数据治理:体系建设及其经验启示[J].现代情报,2023(6):139-148.

[4] 顾立平.数据治理:图书馆事业的发展机遇[J].中国图书馆学报,2016(5):40-56.

[5] 王兆君,王钺,曹朝辉.主数据驱动的数据治理:原理、技术与实践[M].北京:清华大学出版社,2018:19-36.

[6] 熊拥军,白瀚祯,张廷成.基于数据中台的图书馆数据资产管理架构[J].图书馆学研究,2023(8):36-47.

(编校:冯耕)

猜你喜欢
数据治理高校图书馆
基于本体的企业运营数据治理
云端数据治理初探
高校图书馆阅读推广案例分析
科技视界(2016年21期)2016-10-17 19:32:37
微信公众平台在高校图书馆信息服务中的应用研究
科技视界(2016年21期)2016-10-17 19:25:20
高校图书馆阅读推广活动研究
商(2016年27期)2016-10-17 06:38:27
试论高校图书馆在网络环境冲击下的人文建设
商(2016年27期)2016-10-17 06:30:59
高校图书馆阅读推广实践探讨
科技视界(2016年20期)2016-09-29 13:17:57
高校图书馆电子资源的宣传与推广
科技视界(2016年20期)2016-09-29 11:22:45
运用流程化手段提升资产管理水平
大数据治理模型与治理成熟度评估研究
科技与创新(2016年9期)2016-05-28 03:13:15