暗数据视角下高校图书馆数据治理策略研究*

2024-05-17 09:06董京祥
图书馆 2024年4期
关键词:图书馆服务

董京祥

(东北林业大学图书馆 哈尔滨 150040)

0 引言

近年来,随着大数据、云计算、人工智能、物联网等信息技术的不断发展,各类数据呈爆炸式增长态势,将科学研究推向通过数据采集、存储、分析寻求相关性规律的科学知识发现新模式,科学研究第四范式“数据密集型科学发现(Data-Intensive Scientific Discovery)”理论日趋成熟,人类社会进入一个以数据驱动的崭新时代[1]。数据不再满足于被存储,而是被挖掘、分析和管理,用以揭示事物之间的相关关系、预测发展趋势、制定合理策略,在为社会生活的方方面面带来发展机遇的同时也带来了巨大挑战。如何以最有效的方式管理、利用数据已成为学界、业界专家研究探讨的重要课题。

图书馆作为人类文化传递中心和知识交流中心,一直都是信息技术应用的先行者。当前,新技术不断改变着图书馆服务模式,传统的知识存储与获取方式已发生巨大变化,图书馆进入数字化建设的转型发展阶段。数字化技术的运用为图书馆积累了大量数据,涵盖了从信息资源角度描述资源本身的文献数据,以及从空间、设备、人力资源角度构成资源本身的内容数据。但实际上这其中的大部分数据都因其复杂性、不可见性或其他原因而不能或不易被访问,并没有得到及时有效的开发利用,虽然这些数据可能非常有价值,但也有可能成为隐藏或暗数据。

为使图书馆能够更好地管理和利用暗数据,文章以国内外暗数据相关研究为基础,从暗数据的视角对高校图书馆的数据构成进行概括总结,梳理图书馆大数据、小数据与暗数据之间的关系,分析图书馆暗数据的成因、潜在价值和可能存在的风险,提出高校图书馆暗数据治理策略,并以实际案例阐述了暗数据对高校图书馆创新发展的重要性,以期为我国图情领域的暗数据研究提供参考与借鉴。

1 高校图书馆暗数据的内涵、成因与价值

1.1 高校图书馆暗数据的内涵

目前,学界对“暗数据”的研究尚处于初始阶段,其概念和范围并没有统一的界定,其定义主要来自于科研机构的学术文章以及IT公司的行业报告。

有学者认为,暗数据是科学长尾中“一种无形的、被忽视的数据”,没有经过仔细索引和存储,用户几乎看不到,且大概率会保持未充分利用状态直至最终丢失[2]。与科学和工程研究中存储在高性能计算(HPC)设施上“未经仔细标记的数据”相同,暗数据是可靠信息的潜在丰富来源却被遗忘,基本没有任何使用的可能性[3]。对于物联网技术产生的暗数据,研究者将其定义为“具有创造新价值潜力的未使用和隐藏的数据”[4];制造业的暗数据则被假设为“未编目或结构不充分、组织可能不知道的数据”,是组织在常规业务活动中生成、收集和存储来自不同异构源的不同类型的数据,但由于缺乏先进的分析工具而无法对之进行分析[5]。这与针对暗数据的非结构化数据部分(如系统日志和社交媒体图像)将其描述为“组织收集并存储,但无法利用传统分析工具处理的数据”的观点部分一致[6-8]。

国内对暗数据的研究较少,一般认为暗数据是“没有掌握和收集但已产生影响的数据或没有开发挖掘的数据”[9],或“凡是存储(无论是否感知其存在)但目前尚未开发使用的数据”,主要是从图书馆拓展服务的需求角度进行的探索实践[10]。

以Gartner、Intel、IBM和Deloitte等为代表的信息技术咨询机构或数据管理服务公司从商业应用的视角对暗数据进行了相关探讨,其中国际权威信息咨询机构Gartner的定义获得的认可度最高。Gartner认为暗数据是组织在常规业务活动中收集、处理和存储的,但通常无法用于其他目的的信息资产[11]。其他机构或公司多是在Gartner定义的基础上,根据各行业的不同特点对暗数据的概念予以进一步明确,是“不可访问的、低质量的、未开发的”数据[12-14]。

通过归纳总结国内外科研和商业等不同领域、不同学者对暗数据的定义,同时结合图书馆数据的特点,文章将图书馆暗数据概括为:图书馆在日常业务活动中生成、收集和存储但从未进行分析与利用的数据,包括没有经过组织或编目的资源数据、已存档但不再使用的业务数据以及因缺少元数据而无法定位的非结构化数据,无论其格式如何、是否可见以及有无价值。

1.2 高校图书馆暗数据的成因

首先,理论研究的缺失。关于暗数据的理论研究始于2010年前后,国外的专家学者们从不同角度对暗数据的概念进行了定义,但其概念至今未能统一,研究领域涉及多方面并在商业领域中得到了更多关注。然而关于学术图书馆中存在的未使用数据的问题,目前少有学者研究。国内部分学者在2015年前后基于国外研究进行过少量探讨,但并没有形成明确的观点。同一时间,国内图书馆界关于图书馆小数据的研究开展得如火如荼,但鲜少谈及小数据与暗数据之间的关系,其实从本质上看,图书馆小数据在被充分开发利用之前,同样属于暗数据范畴,利用小数据其实就是在“点亮”暗数据。可以说,国内外图书馆领域并没有给予暗数据研究应有的重视,对暗数据在图书馆领域应用的理论基础与实践运用缺乏必要的探索,还没有形成较为系统、成熟的理论体系,暗数据理论在图书馆中的应用还要经历一个漫长而曲折的过程。

其次,应用价值的忽视。多年的数字化建设为图书馆积累了大量数据,但其中大部分数据只是作为业务数据进行必要存储,少部分数据应用(如图书馆年度报告)也多以简单的描述性统计为主,很少对数据的内在关联进行深度分析。近年来随着图书馆的转型发展,读者的个性化服务逐渐成为图书馆的主要服务方向,与读者相关的数据研究得到重视,其中对各类读者小数据的应用尤为明显,但各类新信息技术应用产生的数据大多是非结构化数据,图书馆进行数据挖掘的难度与成本会不断提高。对于这些大量未揭示的暗数据的价值,图书馆并没有明确的认知,缺乏将数据转换成知识的思维意识,而组织架构与职责权限的模糊更是导致了对数据可能包含的价值的忽视,使得数据长期处于未使用状态。

最后,挖掘能力的不足。挖掘暗数据的主要挑战在于缺少有效的工具和技术来访问暗数据。新技术给图书馆带来不断上涨的数据量,但技术的应用并没有显著提高图书馆的数据挖掘能力,图书馆能够处理的数据比例反而不断下降,其中非结构化数据占据了主要部分。受限于数据来源、类型、时间等因素,非结构化数据缺少固定结构,数据特征与格式各不相同,需采用不同的数据采集、存储、组织和分析技术,如数据管理系统、分析软件和其他专用工具(人工智能和机器学习)等进行处理。但这些技术对于软硬件条件都有着较高的要求,一般的高校图书馆很难满足,尤其是具有数据分析与软件开发能力的复合型馆员更是少之又少,导致图书馆空有大量数据却没有相应的挖掘分析能力。

1.3 高校图书馆暗数据的重要性

数据挖掘在高校图书馆有着广泛的应用,通过对数据资源进行信息挖掘,以提供优质和个性化的服务、扩展信息服务的广度和深度、作为科学决策的参考依据等,必须以高质量的数据为基础,对图书馆各类数据(尤其是暗数据)进行精确管理与分类,进而实现高效合理的利用。因此,暗数据有着巨大的应用潜力,如可通过分析用户行为数据,了解用户的需求内容、行为偏好,为其提供个性化特色服务,增强用户黏性;统计馆藏资源的使用情况,可提高信息资源的利用率与质量,规划资源部署、优化馆藏布局,为资源建设提供支撑;构建面向对象的服务模型,分析评估用户价值与流失原因,可为图书馆的整体发展提供决策支持。

在肯定暗数据价值的同时,也要注意到其存在的问题。一方面,随着各种新设备(传感器与监控器)被广泛使用,图书馆每天产生的数据量大幅度增加,其中不乏一些冗余的、过时的和错误的无用数据,这些数据的存在不仅增加了数据检索与利用的难度,也造成了存储空间和维护成本的巨大浪费。另一方面,暗数据的存在会导致很大一部分图书馆数据被忽视,难以被有效发现、保护与利用,尤其是敏感数据可能会因为没有进行有效的技术隔离,而存在一定的安全隐患。如果数据被窃取、篡改或者丢失,图书馆服务的可行性和读者的隐私保护将面临威胁,直接影响图书馆的服务质量与读者满意度[15]。要有效管理这些暗数据,须定期分析与整理各类数据、删除无用数据并对敏感数据进行必要的安全加密。

2 高校图书馆暗数据的构成

2.1 高校图书馆数据的分类与格式

受益于数字图书馆的建设成果,图书馆积累了大量、各类型的数据,呈现出较强的多源性、异构性。根据来源的不同,一般可将数据分为资源数据、业务数据、用户数据和管理数据四个大类[16-19]。

这其中既有结构化数据,也有半结构化和非结构化数据,并以半结构化和非结构化异构数据为主(见表1)。从近年对图书馆数据的相关研究中可以看到,已有的数据应用多是基于传统业务数据等结构化数据的统计分析,对音视频资源数据、环境数据、科研数据等半结构化和非结构数据缺乏有效的管理与应用。高校图书馆在数据的保存与利用方面存在一定的盲目性,数据应用的目的不明确、数据的来源不清晰、数据统计的标准不一致,加之受限于各馆的软硬件条件,部分数据有意或无意地被忽视、遗忘,导致数据缺失成为“暗”数据。数据的不完整、不准确将直接影响图书馆对于数据的利用率,因此,优化高校图书馆的数据管理工作尤为重要。

2.2 高校图书馆的大数据、小数据和暗数据

随着信息技术的不断发展与应用,图书馆在实现自动化、网络化、信息化、智能化的同时,积累了大量的各类数据,逐渐具备了“大数据”的特征,馆藏数据、业务数据、用户数据和管理数据构成了图书馆大数据的主要部分。对这些数据进行深度分析,挖掘其潜藏价值,并将之应用于图书馆的资源建设、业务重组和服务改进等创新实践当中,可提高图书馆的服务质量并提供决策支持,使图书馆拥有更强的洞察力、决策力和执行力。

图书馆小数据主要是指图书馆大数据中与用户群体密切相关的数据,包括基本特征数据、图书馆活动数据、第三方开放数据、行为感知数据以及这些数据之间的关联数据等。对此类数据进行分析与利用,图书馆可提供比以往更具个性化、精准化和智慧化的服务[20]。

图书馆大数据与图书馆小数据相辅相成,图书馆大数据可被理解为图书馆的全部数据,图书馆小数据则是所有数据中与读者个体或某一群体特征及行为相关的数据,是图书馆开展个性化服务的基础。

为保证数据决策的科学性和可靠性,有关主体在利用数据进行决策分析时,应保证数据的完整性与准确性,需要将其中被忽视的暗数据点亮,尽可能使决策具有针对性与实时性,以提高决策的可靠性与可用性。对服务数据、行为数据、科研数据以及运行数据中的未开发数据进行挖掘分析,了解用户需求、完善馆藏资源、提升服务能力,为用户提供更好的个性化服务;追踪研究热点、预测前沿发展、开展人才评价,为学校的科研工作和人才引进提供支持;优化业务流程、调整组织架构、提高工作效率,为图书馆的发展决策和战略规划提供有效的数据支持[21]。

3 高校图书馆暗数据的管理与应用

3.1 数据治理框架

数据的规模和质量是影响图书馆大数据分析与应用有效性的两个关键因素,无序化的数据只是一种信息资源而非知识或情报,图书馆作为知识的中介机构具有对数据进行组织并将之提供给用户的职能[22]。这需要图书馆加强对各类数据完整性与准确性的掌控,进一步提升数据的质量和安全性,以保证数据的价值密度和可用性。

当前图书馆各类数据中存在着大量未被使用或未被发现的暗数据,且可能具有一定的潜在价值,如何发挥出这些暗数据的活力是图书馆数据管理的重要内容。图书馆可通过建立系统化的数据中心、采用智能技术对数据进行自动化提取、设立专门的数据馆员岗位、制定并健全数据标准规范等措施,根据高校图书馆数据的特点构建高校图书馆暗数据治理框架(见图1)。框架以治理层为核心,数据层的各类数据汇总到数据中心后,保障层的数据馆员在数据标准的规范下,利用智能化工具对数据进行分类提取,实现数据的收集、索引、访问、挖掘和归档,从数据层、保障层、治理层到应用层四个层面对图书馆数据进行全生命周期的统一管理,将暗数据充分组织起来,在保证数据质量与安全的同时确保数据的完整性与准确性,进而对数据进行有效的分析与揭示,为图书馆的服务创新与决策支持提供参考。

图1 高校图书馆暗数据治理框架

3.1.1 数据中心的建立

数据的完整性和准确性是数据应用的前提与基础,直接关系到图书馆数据决策的科学性、实用性与可靠性。数字化发展至今,图书馆的很多业务都需要多部门协作完成,无论是资源建设还是信息服务,越来越多的工作需要整体规划、统一部署,因此应对图书馆的各类数据进行统一收集、管理和分析,整合不同业务信息,以促进业务融合、加强数据管理,进而满足读者日益增长的个性化需求。

这需要图书馆有系统化的数据管理机构——数据中心,专门负责数据的采集、存储、整合、分析与利用,制定统一的数据获取、分类和使用策略,确定数据存储标准、加强数据质量控制、完善硬件环境建设,协调馆内各部门间数据的交换与共享,实现对数据全生命周期的统一组织与管理(见图2),以更有效地使用数据、分析数据,最大化地揭示数据的潜在价值。

图2 数据全生命周期管理模型

图书馆的数据中心不是简单的数据存储、查询部门,而是需要构建语义级业务模型和信息资源服务目录,对不同业务系统的数据建立索引并进行关联整合,使用户能够自行定义所需信息资源,为其提供信息服务。实施的关键环节是元数据管理,应采用不同的元数据规范对不同类型的数据进行标引,制定合理的元数据战略,并保证战略能得到贯彻执行。通过元数据管理,使数据得到有效整合,确保数据资源能够在不同部门、不同服务平台、不同用户之间保持高度的流动性、连续性、开放性与共享性,并在此基础上开展数据的深度分析与挖掘工作。

3.1.2 数据信息的提取

数据信息的提取是暗数据治理的重要组成部分,是从大量结构化、半结构化和非结构化数据中收集和提取相关信息的过程。图书馆可用智能化数据提取技术来提高工作效率,因为数据的智能化提取比手动收集更准确、有效和安全,需要的时间和资源更少,可最大程度降低数据丢失或错误处理的风险,使图书馆对数据的管理更为经济、高效。

对于图书馆来说,确保数据提取流程正确非常重要,智能化提取一般包括以下步骤。首先,图书馆必须确定需要收集哪些数据以及如何使用这些数据,进而评估需要收集的信息类型,如书目数据和元数据以及数据的来源;其次,在确定了数据的来源与用途之后,就可以开始数据提取,通过创建程序、算法和其他数据提取方法(自然语言处理、机器学习等)从所识别的数据源中检索、归纳所需数据;最后,通过质量管理和安全管理保证数据信息在数据中心被正确地存储、组织并加以利用。

3.1.3 数据馆员的培养

高校图书馆作为服务于高校教学、科研的主要机构,其开展的各类服务均是以数据为基础,尤其是近年来以大数据技术为核心提供的创新服务(如学科服务、数据服务等)更是对馆员的数据分析、挖掘能力提出了更高的要求,迫切需要设置专门的数据馆员岗位[23]。数据馆员是数据治理的核心,是防止数据变暗的实际执行者,在数据管理中的作用主要是围绕数据生命周期管理数据资源,制定数据管理政策,对图书馆的各类数据资源进行选择、存储、组织、分析与维护等;开展数据服务工作,提供数据素养教育、数据服务咨询和数据资源共享等创新服务;组织协调不同部门间的数据应用,提升图书馆大数据的利用率,进一步揭示数据的潜在价值,为图书馆服务的创新发展提供方向与依据。

图书馆应重视数据馆员的作用,设置相关岗位,明确岗位职责与任职条件。数据馆员需要有较高的综合素质与学习能力,应具备图书馆学和信息学等相关学科的专业背景,具有资源组织能力和机构库建设经验,掌握文献计量知识和信息处理技术,了解科学研究流程、熟悉科研管理政策,并拥有良好的团队合作与沟通能力,此外还要对数据版权、数据隐私、数据伦理等问题有一定的了解[24]。图书馆应更加注重对数据馆员的培养,建立数据馆员职业发展规划,确定相应的培养要求与目标,通过网络研讨、在线课程、系统化培训和学术会议等多途径为数据馆员提供学习交流的机会,持续强化数据馆员的数据意识与数据道德,不断提高数据馆员的数据处理能力与数据素养,加快培养与图书馆创新服务相匹配的数据管理与服务人才[25]。

3.1.4 数据标准的规范

数据标准的规范化是数据治理的有效保障,是指在数据质量、数据管理、数据安全、数据隐私和数据监管等方面制定相关规则和制度,用于管理和维护数据的质量、完整性和安全性。图书馆应根据数据决策的对象、方式和目标,针对具体的数据内容与业务类型,制定相应的数据收集、存储与使用策略,以实现数据的有效管理。鉴于图书馆组织结构复杂、业务类型多样,为保证数据的安全与有效利用,应明确划分图书馆员可访问的数据范围,做到不同部门馆员身份和数据访问权限的合理设定;制定数据保留标准与规则,对数据进行审查与分析,决定其是否有价值,进而对数据实行有效保存与定期删除;组织数据治理团队,负责监督图书馆的数据管理流程,确保图书馆的数据利用在达到预期目标的同时也符合法律、法规的监管与审计要求。

3.1.5 数据安全的加强

数据安全包括数据的安全存储与访问以及读者隐私保护两个方面,不当的数据存储会导致暗数据的产生,从而引发个人隐私安全问题。数据安全存储是指数据得到长期安全完整的存储,包括如何防止数据在保存、使用和传输过程中被非法修改、复制与删除,可通过制定数据容灾备份策略与严格的数据管理制度来保证数据的安全存储。同时要防止未经授权的访问,应基于用户的角色分工、业务要求,通过适当的系统和协议来控制不同人员对数据的访问权限,确保数据访问的合规性。

由于图书馆数据中有很大一部分是关于用户的个人信息以及行为数据,涉及用户的个人隐私数据,故如何保证相关数据不被滥用与泄露非常关键。高校图书馆不同于公共图书馆,其读者主要为学生,学生毕业后图书馆会对读者账户进行注销,注销后的读者数据如何处理是必须认真思考的问题。图书馆应从读者隐私管理、权限设置、法律规范、技术应用和保护意识等方面制定数据隐私保护策略,利用先进的技术手段加强数据中心的安全防护,对数据进行分类分级管理和脱敏处理,确保数据采集、存储、分析和处理等流程的规范性与安全性,防止信息泄露;应增强相关人员的法律意识并提高职业素养,保证数据管理行为符合相关法律与道德规范,避免用户隐私数据被过度挖掘与使用;要制定合理的数据删除策略,对注销后的读者数据进行妥善处理,清除冗余、过时的无用信息。

3.2 数据应用实践

数据挖掘的相关概念自本世纪初图书馆进入数字化建设伊始便受到了重点关注,至今已积累了一定的研究成果,大数据技术的发展与应用更是将数据挖掘推到了一个新的研究层次,理论研究日趋成熟。但实践方面的应用探索仍相对薄弱,大多是对某类业务数据的常规统计,仅是对图书馆日常业务服务中产生的大部分数据进行的简单存储,其潜在价值并没有得到充分挖掘与利用。随着暗数据理念的不断普及与深入,以及各种信息技术的广泛应用,国内部分图书馆及学者已开始尝试利用图书馆业务数据开展个性化推荐、科学数据管理、决策支持等创新服务[26-27]。

当图书馆进入以“用户为中心”的发展阶段,由于“小数据”的概念更加契合以用户需求为核心的个性化服务理念,以小数据为切入点的各类应用实践得到了充分研究,如基于用户小数据的个性化知识服务、推送服务[28-29],基于科研小数据的学科知识服务、科研服务[30-31],以及小数据思维驱动下的文献资源建设与信息服务建设等[32-33]。小数据作为用户数据中具有个性化特征的数据,在没有被利用之前也成为了图书馆大数据中的“暗数据”,对其进行分析与利用正是使这些数据由“暗”转“亮”的具体实践。

此外,由于高校图书馆的读者主要以学生为主,故对于读者相关数据的分析利用必须考虑到时效性,过期数据只能成为无效数据,不再具有挖掘参考的价值。因此对于有时效性的暗数据,应尽可能定期、及时地进行统计分析,以利于数据价值的发挥。

4 结语

大数据时代,现代信息技术的发展对社会、经济和文化都产生了深远影响,图书馆的发展环境也发生了根本性变化,如何在新技术环境下充分发挥自己的资源优势,为学校的双一流建设提供更好的信息服务,这是每个图书馆都要面临的挑战。

目前,图书馆正迈入智慧图书馆发展阶段,作为智慧图书馆建设基础设施的下一代图书馆服务平台也已提出多年,其最主要的两项功能就是中央知识库与大数据分析,这与暗数据治理建立数据中心以及设置专职数据馆员的规划相契合。虽然国内已有部分图书馆上线了相应的服务平台,但大多数图书馆还未有升级至智慧图书馆服务平台的计划,更不用说实现对数据的有效管理。对大数据的利用还大多停留在单纯的数据存储,少数的分析与运用也是基于结构化数据进行的简单统计,对于日常业务运行产生的半结构化、非结构化数据则关注甚少甚至遗忘。图书馆应积极利用大数据相关技术,对各类数据进行采集、存储、管理与分析,充分利用各类被忽视的“暗”数据,通过挖掘数据背后的潜在价值,创新服务内容、提升服务效能,为提高图书馆的管理与服务水平、拓展智慧化服务内容、预测未来发展趋势提供数据支撑,更好地服务于学校的教学和科研工作。

现阶段对暗数据相关理念及技术的研究还未得到国内图书馆界专家的重点关注,图情领域仅有的几篇研究文献也主要集中在理论层面,对于图书馆实际运行中遇到的问题涉及不多,实践研究不够深入。今后业界应加强与暗数据相关的理论研究,同时注重与实践相结合,将图书馆暗数据的开发与利用工作提上日程,通过完善数据管理策略、提高数据分析的效率,有效点亮暗数据并从源头上抑制暗数据的产生,以此充分挖掘利用图书馆大数据的潜在价值。

猜你喜欢
图书馆服务
图书馆
服务在身边 健康每一天
服务在身边 健康每一天
服务在身边 健康每一天
服务在身边 健康每一天
服务在身边 健康每一天
时间重叠的图书馆
图书馆
招行30年:从“满意服务”到“感动服务”
飞跃图书馆