李 翘
(天津商业大学图书馆,天津 300134)
随着计算机技术的普及和网络科技的兴起,图书馆馆藏文献逐渐向数字化和信息化过渡,与此同时,借助互联网平台的优势,图书馆数据服务趋向“互联网+”模式,数据的传递和共享突破了传统馆际或地域限制,开放数据的概念应运而生。就信息数据本身而言,图书馆的开放数据整合需要经过数据收集与分类、数据挖掘与处理及数据检索和咨询服务等环节,这些环节构成了图书馆开放数据整合的全生命周期。随着图书馆开放数据的不断完善和丰富,图书馆不仅要保证数据内容的专业化和多元化,还要保证数据整合的持续性和有效管理[1]。因此,基于全生命周期理论视阈下图书馆开放数据整合模式的研究,对于开放数据的数据层处理、技术层的共享创新及服务层的个性化推送具有深远的意义。
开放数据理念的出现拓展和延伸了图书馆的服务范围,继目前二次信息广泛共享之后,开放数据是以信息文献为代表的一次共享模式,被纳入图书馆资源共享的范畴,数据开放整合与共享成为当代图书馆发展的新方向[2]。在这样的背景下,基于全生命周期理论的开放数据包括编目数据、科学数据、图书馆用户数据和特色资源整合形成的数据等四个类型。
编目数据是指图书馆提供服务的核心数据,也是开放数据构成中最重要的一个类型。一般来说,图书馆的编目数据具有更新速度缓慢、生命周期较长等特点。编目数据从数据获取到数据分类、数据挖掘环节,在实践过程中往往会出现数据资源无法共享,或同一书目在不同馆内被重复编目等情况[3]。因此,全生命周期理论视阈理论下图书馆对编目数据进行整合,不仅可以有效避免重复劳动,还有利于提高馆藏资源的利用率。
图书馆开放数据中的科学数据是指图书馆在参与科研活动的过程中形成的原始资料,如各类图书活动的统计分析数据、调查数据和实验数据等。我国公共图书馆从单一的文化资源交流中心功能定位不断向创新型、科研型转变,因此,越来越多的图书馆积极创新服务模式和服务内容,为用户提供科研服务,进而产生了大量的科学数据。如果这些科学数据没有及时被保存和妥善处理,就会给图书馆的科学研究工作及用户带来严重的后果。全生命周期理论下的科学开放数据整合主要通过建立和提交数据存档的方式,实现数据整合的完整流程,建立丰富的科学数据仓储,推动图书馆功能定位的转型[4]。
图书馆用户数据是指用户在使用图书馆主页进行注册、登录、检索、咨询的过程中产生的浏览痕迹,如数据资源和数据链接的查找痕迹。我国大多数图书馆都建立了自己的主页和社交账号,用户只要登录主页,就可以进行自助式操作。全生命周期理论视阈下图书馆可全面了解用户的个人信息和阅读偏好,将用户使用图书馆的行为形成大数据库,以便今后为其提供更具针对性的服务,以及有效解决目前图书馆服务存在的采访单一化和价值密度低等问题[5]。但是,由于图书馆用户数据涉及用户的隐私,图书馆在开放数据整合过程中应注意保护读者隐私。
由于地域和历史的不同,图书馆往往馆藏有大量特色资源,基于特色资源整合形成的数据是提高图书馆开放数据整合区分度的关键。如:2016年,上海图书馆计划将馆藏的17余万种盛宣怀档案资料进行数据整理和加工,并利用互联网为用户提供数字人文服务[6]。图书馆可充分利用大数据挖掘技术及可视化等交互式数据处理技术,实现数据的重组和开发,清晰展现图书馆数据资源的优势。全生命周期理论视阈下图书馆构建的特色开放数据库不仅有利于满足用户的阅读需求,还能进一步推动个性化推送服务的完善。
图书馆开放数据的整合与构建受多方面因素的制约和影响,全生命周期理论视阈下图书馆开展开放数据整合工作,对其基础设施、软件技术、工作人员等都提出了较高的要求,强调数据整合组织结构的可靠性和完善性[7]。
全生命周期理论视阈下图书馆开放数据整合模式结构中的数据层包括编目数据、科学数据、网页数据、读者用户数据和特色数据等,在软件系统和硬件设备的支持下,图书馆将这些数据整合到图书馆数据库中,并与机构外的数据系统进行互联。图书馆还可根据元数据、原始数据、推导数据等编目规则,对这些数据进行分类整合,并利用数据挖掘和关联技术,深度挖掘开放数据的内在联系,将两个或两个以上类别开放数据产生的直接或潜在的信息推送给用户,进而提高其开放数据整合的精准度和共享程度[8]。
全生命周期理论视阈下图书馆开放数据整合模式的技术层主要指对数据内容的获取、挖掘、归类等操作。在数字化时代,数据信息繁多,图书馆只有规范有序地对它们进行整合,才能发挥它们的实际作用。实际上,数据的高速缓存器是提高图书馆开放数据整合效率的关键。图1是全生命周期理论应用于图书馆开放数据整合技术层面的示意图,从图中可以看出,图书馆数据库是对外共享的,当图书馆收集开放数据时,应对数据进行初步的挖掘和检索,寻找数据内部的有效信息,形成数据间显性或隐性的联系。图书馆还应对开放数据进行标注和分析,评价数据的价值,并对开放数据进行归档和储存。图书馆可利用Open API服务器和开放数据仓库技术,形成统一、开放的数据检索平台,以满足读者的检索和阅读需求[9]。
图1 开放数据整合技术层面示意图
图书馆开放数据整合的服务层是全生命周期理论的终端环节,是数据从初始状态转变为成熟状态的体现。图书馆建立开放的数据共享平台,为用户提供多元化的数据采集、编目、转换、存储和更新的生命周期服务,这也是开放数据平台进行数据维护和替换的过程。图书馆会根据实际情况调整数据生命周期的长短,如:美国霍普金斯大学图书馆为了提高数据应用的时效性和效率,为该校用户提供20GB的数据储存空间,针对个人用户的数据清空生命周期为5年,图书馆数据库的学科数据更新率则保证每年不低于3%[10]。目前,我国图书馆的开放数据服务主要集中在数据挖掘和数据关联等方面,关于开放数据的传输服务、存储年限等还没有形成统一标准,需要图书馆工作人员在实践中不断探索和完善。
目前,我国各级图书馆已经逐渐意识到开放数据整合的重要性及全生命周期理论应用的适用性,且开始在开放数据的整合过程中进行实践与创新。全生命周期理论为图书馆开放数据整合模式带来了新的机遇和发展方向,可提高开放数据的利用率,促进图书馆开放数据的功能转型。
全生命周期理论强调技术交易过程的生动、完整和鲜活,在全生命周期的各个阶段,所需要的配置和外界条件都是不尽相同的。全生命周期理论视阈下图书馆在进行开放数据整合工作前,需要与相关组织和研究人员进行协商,构建科学的开放数据整合机制,制订完整的开放数据整合计划,只有在做好前期准备工作的前提下,才能有条不紊地进行开放数据整合工作。
图书馆是开放数据的管理机构,应对其进行有效管理。图书馆应按照开放数据的整合计划和标准,利用相关技术对数据进行组织和信息挖掘,完成相应的开放数据信息挖掘与关联环节。全生命周期理论视阈下图书馆还需要加强开放数据整合技术层的建设,由馆员根据开放数据整合的实际情况,制定开放数据的保存策略和仓库建设标准,以保证后期开放数据的有效储存与共享[11]。
在数字化高度发达的时代,数据信息时刻处于动态的变化中,图书馆的开放数据整合工作不是一蹴而就的,而是要遵循全生命周期理论规律,紧跟信息时代发展的步伐,逐步完成开放数据整合的新陈代谢。目前,随着我国技术水平的不断提高,缓存器读写速率不再是限制开放数据整合的瓶颈,开放数据的保存措施也日趋完善,数据安全得到了保障。为了进一步提高开放数据的再利用率,图书馆应制定开放数据的长期保存规则,为开放数据的可持续发展奠定良好基础。同时,图书馆还应避免开放数据的重复整合,促进开放数据的再次利用,不仅可节省人力、物力,还有助于新旧数据的衔接和信息关联的深层次挖掘[12]。
在全生命周期理论中,一个阶段工作的结束意味着下一个阶段工作的开始,也为下一个阶段工作积累了经验教训。每一个阶段的数据是否准确、数据信息挖掘是否完善都关系着开放数据整合的质量,也影响科研活动的进展,因此,图书馆应对开放数据的整合过程进行实时监控。由于开放数据整合并不是静态的,当图书馆的开放数据库每增加或减少一条数据信息时,相关的数据挖掘和数据关联都会产生变化,这给馆员及时准确地评估数据参数带来困难。因此,馆员只有具备较高的数据素养和专业的管理知识,才能及时有效地解决问题。
图书馆的开放数据是在开放获取运动的实践过程中应运而生的,开放数据是信息共享的新形式,也是图书馆文献资源建设的新趋势。因此,图书馆应该抓住时代机遇,顺应开放数据整合和共享的趋势,结合全生命周期理论创新变革服务模式,积极应对来自多方面的困难和挑战。