卢凤玲
(中共上海市委党校图书馆 上海 200233)
随着信息技术的发展,数据的价值被不断挖掘。党的十九届四中全会在战略层面提出将数据作为新型生产要素,要求培育和健全数据要素市场,提升数据治理能力现代化水平。数据作为基础性战略资源,在社会经济领域受到重视,并在政府、教育等公共领域取得了显著的实践成效。图书馆作为知识信息服务机构,在信息化浪潮下,经历着从数字化向数据化的变革,同样面临着数据资产的服务创新和价值创造难题,而引入数据治理有利于解决这一难题。国际上已有图书馆开展数据治理的相关实践,如英国格拉斯哥大学研发了DAF数据资产框架[1],美国康奈尔大学实施的嵌入式科研数据治理案例[2]。国内目前关于图书馆数据治理方面的研究仍处于理论引入阶段,如研究图书馆引入数据治理可行性[3]、图书馆科研服务领域引入数据治理,并开始探讨高校和公共图书馆数据治理框架模式构建[4-5]。
随着智慧图书馆理论研究与实践的深入开展,研究者意识到数据在智慧图书馆建设与服务中的核心价值。杨新涯提出没有数据就没有智慧图书馆[6]。徐潇洁、洪亮先后提出数据驱动的智慧图书馆服务体系和框架构建[7-8]。笔者认为,在智慧图书馆建设中融入数据治理理论和架构,有利于智慧图书馆实现长期可持续发展,并可实现数据治理从理论到实践的跨越。基于此,笔者探索构建融合数据治理体系的智慧图书馆框架的方法,以期在智慧图书馆建设和实践中实现数据治理,进而推动智慧图书馆数据价值和智慧服务的实现。
自2004年H. Watson 最早提出“数据治理”概念以来,数据治理逐渐引起企业界和政府的关注。DAMA(国际数据管理协会)将数据治理定义为“对数据资产管理实施权威、保证质量的综合活动”[9]。张宁等认为数据治理是围绕数据资产开展的一系列工作,以服务组织层决策为目标,涉及有关数据管理的技术、过程、标准和政策的集合[10]。严昕认为数据治理是针对数据资产而开展的包括政策、技术、管理、控制等环节的整套工作流程[5]。综上所述,数据治理建立在数据管理之上,对数据管理活动进行指导、监督和评估,目的是实现数据资产管理。没有数据管理就不会提到数据治理,而数据管理方面出现问题,其根源是数据治理层面的混乱或缺失。数据治理的目标是确保数据管理活动始终处于规范、有序和可控的状态,确保数据资产得到正确有效的管理,并最终实现数据资产价值的最大化。
构建数据治理框架,需要将数据治理原则、组织架构、过程和规则等基本概念通过逻辑结构组织起来,以实现数据治理的总体战略和目标。数据治理概念自提出以来,已经形成了四个具有代表性的框架:DAMA框架、DGI框架、IBM框架和我国数据治理规范国家标准[5]。我国数据治理规范国家标准于2019年正式实施,结合国际数据治理标准研制思路,明确数据治理规范实施的方法和过程,包括四个部分:顶层设计、数据治理环境、数据治理域、数据治理过程[11],是具有中国特色的数据治理规范标准。
伴随着时代变迁,图书馆作为生长着的有机体,其服务模式正向智慧图书馆方向发展。以物联网、大数据、区块链及智能计算技术为基础,智慧图书馆将图书馆专业化管理和智能感知、计算相结合,通过智能采集图书馆各类资源与业务数据,进行智慧分析与处理,进而有效、精准、快捷地为用户提供所需的文献、信息、数据等资源,经过深加工的知识服务以及智能共享空间和特色文化空间[12]。智慧图书馆赋予数字图书馆中大量的文献资源数据和用户行为数据以“生命”,根据数据分析进行决策,再有针对性地围绕用户需求实现智慧管理和智慧服务。数据是智慧图书馆赖以存在的核心资产,如果不关注数据质量和数据安全,数据的准确性、一致性、相关性、安全性无法得到长期保证,智慧图书馆无法在真正意义上实现。
根据国家数字图书馆对图书馆数据类型的划分,图书馆数据大致可以被归纳为资源数据、用户数据、业务数据和管理数据四类[13]。资源数据是图书馆赖以生存和服务的核心数据资源,包括图书馆收藏的各类纸质和数字资源数据以及描述和揭示这些资源数据的元数据。从文献类型来讲,图书馆资源一般包括纸质和电子的图书和报刊、研究论文、会议论文资料。随着现代图书馆的发展,机构知识库、科研数据、政府开放数据等各类数据也陆续被纳入图书馆资源管理范围。此外,智慧图书馆需要采集业务数据和用户数据,进行大数据分析并构建算法,提供智慧服务。在互联网环境下,图书馆的数据资源具有量大且类型结构复杂、生成速度快、规模庞大、价值大密度低的特点,为图书馆目前的数据管理带来挑战。
3.2.1 数据管理难度增大
随着数字图书馆的日益发展,图书馆服务方式越来越灵活,由于数字资源类型复杂,载体形式、媒体格式和运行方式多种多样,半结构化、非结构化数据的增多加剧了图书馆数据管理的难度。对象数据和元数据来源多样、数据量大、重复率高,如果出现数据质量问题,将严重影响数字资源的利用效果。互联网大数据时代,图书馆无时无刻不在产生和创造数据,图书馆的空间数据、设施数据、人员数据以及在服务过程产生的服务数据,是图书馆开展智慧服务必须依托的重要数据。只有依据数字图书馆数字资源标准规范进行数据管理,才能保证数据质量和数据服务质量。这些规范包括数字资源对象数据标准、数字资源元数据标准、数字资源组织管理标准、数字资源长期保存标准等等。虽然国家层面和行业层面制定了相关的数字资源标准规范,但其在精细程度上仍不够完善,同时在具体落实上仍有不足,应用效果并不明显。
3.2.2 数据孤岛问题严重
当前图书馆为读者提供服务的系统多样,数据库种类较多,数据异构情况普遍存在。数据异构导致数据之间缺乏互联性,进而影响数据之间的交换与共享,造成数据孤岛。同样,图书馆为了向读者提供便捷的服务,建设与引进了多个系统平台,常用的系统包括图书馆集成管理系统、图书馆知识服务门户以及移动图书馆、图书馆智能客服、RFID自助借还系统、座位管理系统等等,各系统之间的相互孤立、无法互通导致系统无法互操作,造成系统孤岛,而图书馆在管理方面的缺位则造成业务孤岛和管控孤岛。图书馆要解决数据孤岛问题,同时解决好系统孤岛、业务孤岛和管控孤岛问题,才能实现数据流通,实现图书馆各平台、业务系统与服务应用的无缝衔接与互操作,最终提升大数据应用与服务水平。
3.2.3 数据安全问题突出
图书馆数据安全主要涉及图书馆文献信息资源的安全使用和管理、用户数据的安全使用与管理,以及与数据资源安全相关的应用软件和硬件设施设备、网络的安全运行管理。文献信息安全包括如何在知识产权保护前提下实现对文献信息资源的合理合法使用。对图书馆用户个人隐私的保护要在保证个人数据安全的前提下对数据进行合理利用以实现智慧增值服务,以及图书馆馆藏电子资源的长期保存和生命周期管理。随着新一代信息技术的发展和应用,图书馆资源与应用的服务、存储与管理也要向云上迁移,云服务对数据安全提出更高的要求,这对图书馆来说是一项新的挑战。
3.2.4 数据服务绩效难以审计
由于数据孤岛和系统孤岛问题,图书馆难以对数字资源管理服务和数字图书馆管理服务进行绩效评估和审计。数字化时代,图书馆为服务读者一般会引进数十个甚至上百个数字资源产品,而资源商提供的资源服务平台各不相同,图书馆对资源商提供的数据在客观性、准确性上存疑,并且不同资源商提供的统计口径难以统一,时效性难以保证。同时,图书馆需要将为读者提供各类服务的不同应用系统中的统计数据进行汇总,据此实现对服务绩效的审计和评估。当前图书馆赖以进行绩效统计的数据在可靠性、准确性和及时性方面存在不足,图书馆需要以更加科学、准确、高效的方式实现服务绩效考评。
智慧图书馆是在数字图书馆基础上的转型升级,是赋予数字图书馆中大量的文献资源数据和用户行为“生命”,通过数据分析进行决策,实现对资源的充分利用。智慧图书馆关注数据价值,强调通过对用户行为数据的研究,提供有针对性、个性化、精细化的服务。数据治理的目标是实现数据价值,这与智慧图书馆的目标一致。
智慧图书馆建设离不开对数据的采集与管理、分析与利用,数据管理和数据价值提炼是图书馆智慧化的核心工作,让数据管理活动始终处于规范、有序和可控的状态,使数据资产得到正确有效的管理和利用。在技术手段和管理方法的应用上,智慧图书馆可借鉴数据治理的手段方法,完善自身建设的底层架构。
智慧图书馆通过技术手段组合实体空间、硬件设施、信息技术、资源数据等要素实现智慧服务,而各要素之间传递、接受、处理的对象是图书馆赖以提供服务的数据。从数字图书馆过渡到智慧图书馆,需要进行顶层设计、业务流程重组、资源重新配置以及智慧馆员能力培养。数据治理战略规划、组织构建和架构设计可以为智慧图书馆战略规划和组织构建提供参考。
运营合规、风险可控、价值实现是数据治理的目标。运营合规是保证数据及其应用的合规。公共图书馆以《公共图书馆法》为基本遵循,各级各类图书馆还应遵守国家、地方和行业相关法规与政策性文件,遵守知识产权保护的相关法律,依法使用各类文献信息资源,有序开展各项业务活动。风险可控是指对潜在的数据安全风险进行识别和预判,保障其完整性、一致性、可用性以及信息系统的安全性。2020年7月,《数据安全法(草案)》公布,为数字经济时代坚持数据安全与数据流通利用提供了前瞻性指引。价值实现是开展数据治理的核心要求,体现在数据流通、数据服务和数据洞察三个方面。通过数据的采集、清洗、组织以及整合与分发,消除质量缺陷,实现数据关联,最终实现数据价值。
智慧图书馆的建设要避免流于对技术的片面追求,而应该把握智慧图书馆的实质。智慧图书馆是将“人”“资源”“空间”互联和融合,基于图书馆数据的收集、挖掘、分析和知识发现,使过去相互独立的各要素能相互关联,依据数据生命周期的规律,实现数据—信息—知识—智慧的全过程,形成新的增值产品,为用户提供一体化服务。在这个过程中,构建服务体系是关键。在服务体系中融入数据治理体系架构,制定数据标准,实施数据管控,构建数据模型,规划数据治理的组织、制度和流程,制定相应的实施细则,形成相关流程要求,有利于保障数据质量和数据安全,最终实现数据价值。
基于数据驱动的智慧图书馆,其现实功能已经涵盖了大部分数据管理的功能,数据治理是搭建在其上的统领性的功能,进一步规范、指导、评估智慧图书馆建设中的数据管理与数据应用。智慧图书馆运行中的数据量大且类型复杂、业务范围广,服务内容杂,所以对数据的采集、存储、分析与应用的要求高。搭建数据治理子平台,目的是将数据治理落到实处,实现对元数据、数据标准、数据质量的管理和监控,实现数据监测和评估。由此可见,在智慧图书馆服务系统上建设数据治理子系统,是智慧图书馆健康发展的必然要求。
经过近几年的高速发展,关于智慧图书馆架构已经形成了一些较成熟的理论框架与建设实践。陈进等提出基于智慧协同体概念的SLSP架构[14],其顶层架构包括服务平台和服务体系两部分,是一个基于数据云和元数据,整合纸电和数字等各类资源实现一站式发现与获取,带有标准化接口并支持各类(移动)终端,具备统计功能并支持知识管理与服务管理的智能化平台。洪亮等提出基于信息生态链构建大数据驱动的智慧图书馆服务体系[15],包括基础设施层、数据资源层和服务应用层,认为要建立集成的数据存储机制以防止数据冰山效应,实现对数字资源的良好治理,为实现数据挖掘与利用奠定基础。在智慧图书馆建设的实践探索方面,重庆大学图书馆于2016年启动规划建设“三库四系统”[16],通过建设元数据库、运行数据库和数据仓库,以及全面图书馆管理系统、统一搜索平台、读者知识社区和数据挖掘四个系统,探索建设新一代智慧图书馆系统。南京大学智慧图书馆建设实践主要涉及三个方面的建设:实体场馆的建设和改造、智慧信息服务平台系统的建设以及智慧型服务,其构成要素主要包括智慧系统、智能基础设施、智慧服务[17],并提出“数据驱动的智慧图书馆服务框架”[18],认为提供以数据为基础、以用户需求为根本、围绕“知识”“空间”“管理”核心要素的智慧化服务是智慧图书馆的发展方向。上述理论框架与建设实践对智慧图书馆建设具有重要的指导意义,有力地推动了我国智慧图书馆的发展。不足之处在于,建设理念中虽有提及要进行数据管理或数据治理,然而均未涉及建立数据治理体系。
图1 融合数据治理体系的智慧图书馆框架
基于以上分析,笔者构建了融合数据治理体系的智慧图书馆框架。该体系框架以数据为核心搭建,基于业务流驱动,包括基础设施层、数据服务层和交互应用层三个层次,数据治理处于数据服务层。基础设施层提供智慧图书馆赖以服务的数据,包括从业务系统、电子资源库获取的本馆纸电资源数据和元数据,以及从互联网获取海量动态的多元异构数据、政府开放数据等各类开放获取资源;通过接口从各系统获取的读者数据、服务数据和业务数据;从RFID、监控器、传感器、机器人等传感设备智能感知的服务数据。数据服务层包括大数据平台、数据治理平台和数据分析平台三个子系统。大数据平台通过API接口和中间件采集数据并进行清洗、标引、整理和分类归档;数据治理平台负责理清数据资产,实现元数据管理,建立数据标准体系、数据质量管理体系及数据安全管理体系,规范、维护并监督数据质量;数据分析平台对处理好的数据进行知识抽取和知识发现、知识推理和深度学习,通过挖掘和算法实现智慧应用。
数据治理平台内嵌在数据服务层,起到数据中枢控制中心的作用,通过数据治理平台定义智慧图书馆大数据平台的数据结构、数据标准和质量规则,实现大数据平台的数据管控和治理。同时,大数据平台的数据处理结果进一步反哺数据治理平台,进而形成更多可信赖的数据服务。
元数据管理:智慧图书馆要支持不同类型资源元数据的一体化管理与服务,支持灵活可扩展的、适合各种资源类型的元数据标准规范,并支持元数据从采集、编目、加工、服务到统计、分析、评估、交换的完整生命周期的应用和管理需求,实现业务流程和系统功能的整合,达到数据在不同应用之间顺畅交换,最终实现在知识组织层面上的融合。
数据标准管理:管理的内容包括数据标准的定义、标准的版本管理、数据标准的落地、数据评估检测规范等。数字图书馆标准一般包括数字资源元数据标准、数字资源对象数据标准、数字资源组织管理标准、数字资源服务标准等[19]。
数据质量管理:通过规划和运用相应的技术和方法,对不同来源的数字资源实施科学有效的质量管理。图书馆基础的数据质量管理是馆藏纸本书目数据和规范数据质量的管理,而电子书元数据、数字资源元数据质量关系到数据整合与发现系统的质量[20]。制定质量管理制度和规范,利于通过技术手段从数据采集源头、系统集成和数据应用多个节点实现对数据质量的把控。
数据交换管理:为将图书馆分散的应用系统进行整合,实现应用子系统的数据传输和共享,分布异构系统之间的互联互通,要构造统一的数据处理和交换,完成数据的抽取、集中、加载和展现。数据交换管理要对中间件、服务、Web Service接口及中心数据库的接口进行管理,实现数据集成、信息集成和可靠通信。
数据安全管理:在数据共享、数据开发的大趋势下,数据安全和个人隐私是大数据运营中的重要关注点。数据安全管理保障智慧图书馆数据管理与服务活动风险可控、运营合规。图书馆要在物理安全、运行安全、长期保存、访问权限、知识产权、隐私保护等方面进行管理和规范,实现安全存储、安全传输以及对网络信息内容的安全审计。
数据生命周期管理:数据资产生命周期包含数据采集、数据传输、数据存储、数据处理、数据交换和数据销毁六个阶段[21]。通过对图书馆数据进行评价与分类,依据策略实施数据管理方案,科学调配存储系统,将利用率很低的数据确定为价值较低的资源进行归档存储,图书馆能够以最低成本实现信息价值最大化。
顶层设计是数据治理工作成败的决定性因素。图书馆应通过数据治理顶层设计,对数据治理、数据管理、数据应用服务进行自上而下的指导和自下而上推进的多层次、多维度的构建;要在适应的内外部环境(技术、文化、组织)条件下,制定战略、实现架构流程、明确组织构建[11];要以制度规范为约束,以技术工具为支撑,通过组织机制保障。组织构建一般有决策层、管理层和执行层三个层面。决策层负责制定治理目标,对治理工作进行指导、监督,对治理成效进行考评。管理层负责实施数据治理体系建设,协调落实数据管理运行机制,实现数据治理的归口管理和监督。业务部门(执行层)对本部门数据标准进行定义确认,按照业务流程进行数据录入和维护,跟踪解决本部门的数据质量问题。图书馆可在条件成熟的情况下引入独立第三方,对数据治理过程和成效进行检查与评价,提出存在的问题和改进的建议,促进图书馆数据治理目标的实现。