基于大数据的图书馆数字资源重构与融合研究

2016-05-14 11:23陈臣
现代情报 2016年8期
关键词:数字资源数字图书馆大数据

陈臣

〔摘要〕数字图书馆已进入大数据时代。大数据时代既给数字图书馆带来了机遇,也给数字图书馆带来了挑战,如何将零散分布、孤岛存储的图书馆数字资源融合成完整的“大数据”,从中提取出有用的信息,并最终转化为知识和规则,对于提升数字图书馆的服务能力和竞争力十分重要。针对数字图书馆存在数据来源各异、数据存储方式多样、数据形式非结构化等问题,本文对大数据时代图书馆数字资源的重构与融合问题进行了研究,提出了基于大数据的图书馆数字资源重构与融合策略。该策略有助于对图书馆数字资源进行整合,可促进数字资源的共享,有助于加强数字资源、读者、系统服务资源和个性化服务模式的融合,并最终提升数字图书馆的综合服务能力。

〔关键词〕大数据;图书馆;数字图书馆;数字资源;重构与融合

DOI:10.3969/j.issn.1008-0821.2016.08.002

〔中图分类号〕G25076〔文献标识码〕A〔文章编号〕1008-0821(2016)08-0010-04

〔Abstract〕Digital library has entered the era of big data,when brings opportunities,it also brings challenges.How to integrate digital resource into whole big data from data and information that scattered distribution and fragmentary existence in digital library,extract valuable information from them,translate into useful knowledge and rule,which is important to enhance the service ability and competitiveness of digital library.In view of the issues concerning different data sources,diverse data storage and unstructured data existing in digital library,the paper conducted some research on the reconstruction and integration of digital resources of library In the era of big data,the strategy of digital resources reconstruction and fusion based on big data is put forward.The strategy is helpful for the integration of digital resources in digital libraries,and promoted the sharing of digital resources,and helped strengthen the contact of the digital resources,reader,system service resource,and Personalized service model,so as to enhance the competitiveness of the digital library,ultimately improve the comprehensive service ability of Digital Library.

〔Key words〕big data;library;digital library;digital resources;reconstruction and integration

随着移动互联网技术、云计算技术、传感器网络和阅读终端制造技术在图书馆服务中的广泛应用,图书馆数据环境呈现出数据海量(Volume)、多样化(Variety)、快速处理(Velocity)和高价值(Value)的大数据4V特性,图书馆已进入大数据时代。大数据不仅为数字图书馆的数据安全管理、科学分析、价值融合和数据服务模式变革提供可靠的决策支持,而且其海量、高价值、低获取成本和高共享特性的数字资源,已成为读者知识获取和对图书馆服务感知的主要载体,导致读者对图书馆数字资源的依赖性随着数字资源价值总量的快速增长而不断加强。因此,如何科学采购数字资源、高效自建数字资源库、与第三方合作开发共享资源和合理利用网络免费资源等,已成为关系图书馆服务能力建设和读者阅读满意度的重要问题。图书馆界学者对图书馆数字资源的知识库建设、知识传播、服务推送、服务创新和资源质量评估进行了深入的研究。王小立认为个人数字图书馆资源共享服务是未来图书馆发展的一个重要趋势,其资源共享服务还面临着隐私保护、知识产权等诸多问题[1];刘晓英认为数字资源融合涉及的技术问题主要包括数据存储容量问题、数据标准问题、数据安全问题、数据保存问题等;苏新宁认为应从大数据的角度考虑数字图书馆的各类问题,把数字图书馆完全融入大数据之中,借助大数据技术解决数字图书馆有关问题[2];刘元珺认为公共图书馆数字资源评估指标具有关联性、复杂性和动态性,公共图书馆不能简单地聚焦于个别指标的达成[3]。曹宁认为应借助数字资源整合与优化,完善数字资源服务体系的整体性与有序性,打造服务平台与服务终端的兼容互通与共建共享[4]。刘慧认为,应该做到联盟内的数字资源联合采购的工作,并做好分工,降低数字资源的重复率,做到共建共享工作[5]。

1大数据环境下图书馆数字资源管理的问题与挑战

11大数据环境下图书馆数字资源的概念与特点

图书馆数字资源也称电子资源,是指图书馆通过计算机技术、多媒体技术和通信传输技术等,将信息资源和知识相互融合而形成的数字表现形式,并通过互联网等手段发布、处理、存取、传播、收集和利用的数字信息资源的总和。图书馆数字资源通常有文字、图片、声音、视频等多种存在类型,图书馆数字资源库建设可采用购买第三方数字资源、自建数字资源库和共享免费的互联网资源等方式。与传统的纸质印刷型文献相比,图书馆数字资源库具有信息海量、高价值密度、建设速度快和投资收益高等优点。

大数据时代的到来,图书馆数字资源的结构特点、组织方式和服务模式发生了巨大的变化。首先,图书馆数字资源呈现海量和多类型的特点。大数据时代,图书馆的数字资源除了传统的电子刊物、电子图书、音频与视频读物、网络OA(办公自动化)资源外,还包括图书馆数据中心系统参数与运营数据、读者个体特征与阅读行为数据、传感器网络数据、视频监控数据等,这些大数据资源具有海量(Volume)、多数据类型(Variety)、高价值(Value)和处理速度快(Velocity)的4V特点[6]。其次,大数据时代随着图书馆计算机数据处理和存储性能的快速增长,图书馆数字资源产生、发布、使用和消亡的生命周期大幅度减少,图书馆可通过对数据资源的价值二次挖掘、标准化处理和数据融合等操作,来提升数字资源的价值总量和使用时效性。第三,结合图书馆服务能力提升和读者数字阅读需求,将数字资源库中不同的元数据描述统一组织起来形成资源的统一检索,以及通过对元数据层数据标准的统一,来实现图书馆内部数字资源知识的关联、融合和二次增值,是大数据时代图书馆数字资源库建设面临的一个挑战性问题。

12海量数字资源的长期存储与可获取需求

2015年9月23日,国家科技图书文献中心(NSTL)邀请国内多个图书馆共同发起签署《数字文献资源长期保存共同声明》发布会在京举行。国家图书馆、中国科学院文献情报中心、中国科学技术信息研究所、北京大学图书馆、清华大学图书馆等近60个文献信息机构的领导和代表出席了发布会,集体签署了《数字文献资源长期保存共同声明》,表现出我国图书馆界对数字文献资源的国家长期保存具有强烈的愿望[7]。如何构建科学、合理的数字文献资源采购机制,实现我国数字文献资源的本土长期保存和支持用户长期可获取,对于维护我国数字读者的阅读权益和国家信息安全具有重要意义。

随着无线宽带传输技术和终端制造技术的发展,读者可通过移动数字阅读终端、手机、平板电脑和台式电脑开展数字阅读活动,数字阅读模式多样化在有效摆脱时间、地域和阅读方式对读者束缚的同时,也导致图书馆服务数据、阅读终端设备运行数据、读者阅读关系数据和读者行为数据激增,图书馆传统的数据存储模式已不能满足海量大数据存储和检索的需求,因此,如何利用云计算技术构建超大型元数据仓储,是图书馆实现数字资源统一聚合与一站式检索应关注的问题。此外,图书馆大数据主要包括用户服务数据、系统管理与运营数据、读者阅读关系与行为数据、视频监控数据等,这些数据具有海量(Volume)、多数据类型(Variety)、高价值(Value)和处理速度快(Velocity)的4V特点,其中半结构与非结构化数据占据大数据总量的85%以上,如何对多类型数据进行标准化处理和有效过滤数据噪声,已成为关系图书馆大数据可用性和大数据决策有效性的关键。

13数字资源的融合管理、聚类和重组问题

(1)图书馆大数据资源具有数据海量、多类型、关系复杂和价值挖掘难度大的特点,如何通过异构数字资源的融合、聚类、重组和挖掘,清晰洞察大数据间的复杂关系和隐性知识,准确发现数字资源间的关联关系(被引用、引用耦合、作者群相关性、文献的使用等),是数字图书馆从传统的信息检索、分类、链接和推荐等服务,向大数据时代读者阅读需求预测、个性化服务定制、知识服务推送、服务质量智能评估与优化等转变的前提[8]。

(2)准确、快速、实时和经济是大数据时代数字图书馆服务的4个关键要素。如何通过数字资源的融合管理、聚类和重组,并利用知识域可视化技术描述知识资源及其载体,全面挖掘、分析、构建、绘制和显示知识及它们之间的相互联系,是支持图书馆将数字资源从传统的数据层展示,向信息层、知识层深度揭示转变的有效途径。

(3)如何通过数字资源的融合管理、聚类和重组来消除数据孤岛,实现大数据资源的集成、开放、共享和知识融合,是图书馆大数据关系精准发现和价值二次挖掘有效的保证。图书馆数字资源的融合管理、聚类和重组过程,在重点关注历史数据、实时数据、不同行业数据、不同空间、不同地域数据之间融合的同时,还应注重与不同服务平台和不同服务模式的融合,才能增强数字资源融合、聚类和重组的安全性、可用性、经济性和可靠性。

14构建新型图书馆数字资源采购联盟体系的需求

大数据时代,构建新型图书馆数字资源采购联盟体系对降低我国图书馆数字资源采购费用,提升我国数字资源管理安全性和本土长期存储可用性具有重要的现实意义。CALIS(中国高等教育文献保障系统)是经国务院批准的我国高等教育“211工程”、“九五”、“十五”总体规划中3个公共服务体系之一,通过建设以中国高等教育数字图书馆为核心的教育文献联合保障体系,实现了信息资源的共建、共知和共享,为中国的高等教育服务。从1997年至今,CALIS项目组共组织了近450场海外资源引进活动,使各大高校教学科研人员在第一时间准确地了解到国际前沿动态,跟踪和把握国际科研的发展趋势,不断提升了教学和科研水平[9]。自2010年起,只有获得中国有关部门批准的图书进出口商才能协助组织国际采购数据库的谈判和签约等相关工作,CALIS将不再承担引进资源集团采购的组织工作,取而代之的是成立DRAA(中国高校图书馆数字资源采购联盟),今后将以DRAA的名义采购海外数字资源[10]。

当前,我国高校和科研机构对国外数据库的依赖性不断增强,2015年我国高校采购各类国外数据库的费用高达32亿人民币。从CALIS和DRAA多年的海外数据库采购工作看,Wiley interScience、IEEE、EBSCO、ProQuest、Sciencedirect、INSPEC、SPRINGER等欧美数据库供应商在国际数据库交易上长期把持着话语权,虽然CALIS和DRAA联盟采购费用比单独采购下降了25%~40%,但总费用仍以年均15%的速度快速增长[11]。其次,所采购的资源在资源内容和服务模式上相同,不同高校与科研机构不能根据自身的实际需求在资源采购上进行个性化定制。第三,采购方仅购买了海外数字资源某一时间段的使用权,而无法将海外资源在我国本土进行长期的存储和使用。第四,如何构建第三方的数据库管理平台,实现海外资源的存储、管理、查询、分析、评估和优化,以及在降低我国海外数据库使用成本的前提下提升数据库的安全性、可控性和可用性,也是构建我国数字资源采购联盟体系应关注的重点问题。

2基于大数据的图书馆数字资源重构与融合策略

21加强图书馆数字资源大数据库的建设

首先,大数据时代,图书馆应转变传统数字资源库建设以图书、期刊、专利、学位论文、报纸、行业标准规范、会议论文等为核心的思维,将政府报告数据、社会公共热点信息、网络信息、第三方共享信息和读者行为数据等数字化,依据数据的类型、可用性存储于图书馆的大数据库之中,以此提升图书馆大数据库资源的价值总量、可用性和数据相关性,确保大数据决策科学、可靠。其次,对大数据进行关联、挖掘、融合、分析和深度加工,是图书馆实现从大数据——语义关联——知识发现——知识展示转变的重要途径[12]。图书馆通过对大数据、IT服务资源、图书馆员和知识的有机整合,可有效提升图书馆的服务组织效率和服务能力,实现服务投资收益率和大数据决策最优化。第三,如何发现与构建海量复杂大数据之间的相关性,是图书馆发现大数据中隐性知识和实现大数据价值二次增值的关键。图书馆应借助语义技术充分挖掘文献、作者、引用文章和内部知识点之间的语义关系,为读者提供智能、高效和个性化的知识服务。第四,满足读者阅读需求和提升读者知识获取效率,是图书馆增强自身服务能力和保证QOS(服务质量)应重点关注的问题。图书馆大数据资源库建设应以读者阅读需求为中心,通过对读者阅读行为、阅读关系、阅读模式、阅读终端参数等大数据的采集、存储、分析和决策,保证读者阅读活动相关大数据分析科学和阅读需求预测精准,为图书馆资源库建设及资源整合提供科学的参考与支持依据[13]。

22统一图书馆数字资源大数据整合、共享和使用的标准大数据时代,图书馆数字资源整合呈现出政府信息、文献资源、社会热点、网络数据、读者个体特征等海量数据相互融合的特点,其用户服务模式也从以文献资源检索服务为中心,向以综合信息知识决策为中心转变。因此,如何制定新的大数据资源整合标准,是关系图书馆数字资源组织加工效率、语义相关性、组织架构科学性和资源知识展现可读性,以及从文献资源中完全解析出知识,关将众多无关知识单元之间或与文献间建立语义关联的关键,也是图书馆发现知识和产生新的知识的重要途径[14]。

首先,图书馆应统一数字资源采集、组织、描述、分类、标引、加工、描述、保存、管理、存储、交换、检索和服务的标准,确保数字资源在编码格式、著录方式和数据格式上具有统一的标准,并且不同图书馆的信息系统应相互兼容和支持互操作,便于图书馆实现数字资源的跨平台共享和互操作。其次,统一数字资源整合、重组和聚合的方式与技术标准,是图书馆实现数字资源知识可识别、可读取和可完全挖掘的前提。因此,应通过图书馆联盟实现数字资源管理的“统一平台、统一标准、统一采集、统一整合、统一发布、统一共享、统一检索和统一认证”,保证数字资源在图书馆之间的无缝连接、完全共享和全面融合。第三,数字资源的数据库管理、存储模式、集成与共享方式、传输控制、安全保证、数据挖掘和资源使用等标准,也是关系图书馆大数据资源可控、可用和经济的重要问题。图书馆联盟在大数据采集、传输、管理和使用标准的制定中,应加强数据聚类技术、信息分析技术和数据检索技术的建设,坚持以提升读者个性化阅读需求发现和图书馆智能化服务定制能力为中心,确保数字资源知识发现与服务推送过程安全、高效、经济和可控。

23实现图书馆数字资源的统一发现与共享

利用云计算技术构建我国图书馆联盟超大型元数据私有云仓储库,是我国图书馆数字资源库安全管理、经济建设、全面收集和高效使用的重要保证。在图书馆联盟超大型元数据私有云仓储库建设中,首先应注重数字资源元数据标准规范体系的建设,统一图书馆元数据采集模式和质量控制的标准,并通过建立科学的数据更新制度来保证元数据更新科学、高效、实时和可持续。同时,图书馆借助互联网对读者的身份进行认证后,支持读者访问图书馆联盟云数据中心来完成馆藏数字资源的统一查询、检索、发布和下载。

其次,数字图书馆服务模式从传统的集成资源检索与发现服务,向海量数字资源元数据的预加工、融合、价值挖掘和知识推荐服务转变,是大数据时代图书馆联盟数字资源云仓储库服务模式变革的一个重要特征。为了保证云仓储库安全、高效、可用和可控,图书馆数字资源云仓储库建设应坚持统一数据库、统一检索入口、统一集成存储和个性化服务定制的原则,实现馆内数字资源库数据的全面整合、一站式检索、相关性发现和精准数据定位,支持读者从元数据题录层面完全揭示其隐匿的知识。

第三,当前,世界上诸如谷歌、百度等一些具有较强科技实力的互联网信息服务公司,创办了谷歌学术、百度学术等免费的统一资源发现服务栏目。这些公司具有强大的大数据计算、海量数据云存储、海量资源的高度集成及深度加工、优质的数据检索效果保障等能力,并拥有成熟的统计平台及用户行为分析技术,这些互联网信息服务公司通过与世界著名数据库供应商一对一的合作资源共享,采用OAI-PMH(元数据获取协议)的元数据收割技术网络攫取,以及充分发挥自身的搜索引擎技术优势,利用爬虫对拟采集数据进行发现、收录、解析、加工和处理,具有数字资源发现精准、高效、快速和免费的特点[15]。因此,图书馆联盟可通过与谷歌、百度等公司签署战略合作的方式,为图书馆数字资源库建设、知识发现服务完善和学术评价体系的创新等方面提供服务支持。

24构建基于大数据的图书馆数字资源长期保存体系2013年7月,根据我国科技部数字科技文献资源长期保存工作安排,NSTL正式启动了我国数字科技文献资源长期保存体系建设,并于2014年在其成员单位部署建设了中国科学院文献情报中心和中国科学技术信息研究所等两个国家数字科技文献资源长期保存示范系统,建立了我国数字科技文献资源长期保存的基本规范体系[16]。但在海外数字文献资源的采购、存储、管理和使用上,NSTL仅采购了海外著名数字资源库的限时使用权,这对我国的信息资源安全和海外数字资源可控性、可用性产生了较大不利影响,因此,如何获取海外数据库在我国的长期存档权、处理权和服务权,是我国图书馆联盟面临的一个严峻挑战。

世界上许多发达国家已从国家信息安全战略角度开始了E-first(数字资源优先)或者E-only(数字资源惟一)的文献资源体系长期保存系统建设,比如荷兰的国家图书馆已在本馆存储了世界主流出版社的数字科技期刊;德国建立了DFG国家保存中心体系;加拿大政府支持多伦多大学建立了国家数字资源长期保存系统。因此,我国图书馆界应在国家相关部门的领导和支持下,在制定科学、高效、经济和可行的海外优质数字资源本土存储与管理制度的同时,明确图书馆联盟各参与方的责任、义务和权利等,努力提升我国数字图书馆数据中心安全管理、数据存储、远程传输和服务质量保证的能力,才能确保海外资源在我国本土长期存储、可用和可控。

3结束语

伴随大数据时代的到来,数字图书馆的数字资源组织模式、内容结构和服务方法发生了深刻的变革,使图书馆摆脱了数据类型、时间、空间和阅读模式对读者阅读需求的限制,并以大数据科学决策支持为依据,精确地预测出读者的阅读需求、阅读场景、阅读社会关系和终端类型,可为读者提供安全、高效、经济和个性化的数字阅读推送服务。但是,随着云计算技术、传感器网络技术、大数据技术和互联网技术在图书馆服务中的广泛应用,数字图书馆大数据呈现出海量和总量指数增长的特征,其数字资源类型呈现多样、复杂、难共享和价值挖掘困难的特点。因此,如何基于大数据技术实现数字资源的重构与融合,对于全面挖掘图书馆数字资源隐匿知识,实现数字阅读服务高效、共享、经济和可控具有重要的意义。

因此,图书馆联盟应从大数据复杂环境特点、图书馆服务能力提升和读者大数据阅读需求出发,规范图书馆数字资源的采集、存储、传输和服务的标准,统一构建一个图书馆数字资源采购、管理、挖掘、重构、整合和共享的大数据平台,不断增强数字资源整合、价值发现、组织加工、分析检索的广度与深度,最终实现图书馆数字资源服务从传统的被动、等待和共性化服务,向自动预测、智能管理和个性化知识推送的服务模式转变。此外,数字图书馆在数字资源的采集、存储、共享和使用中,还应从我国信息资源安全、读者隐私保护和数字资源的可用性保证出发,严格遵守我国信息安全的相关标准与法律法规,才能为读者提供安全、高效、经济和满意的数字资源大数据阅读服务。

参考文献

[1]Wikipedia.Big data[EB/OL].http:∥cn.wikipedia.org/wiki/Bigdata,3014-11-02.

[2]张兴旺,李晨晖,麦范金.变革中的大数据知识服务:面向大数据的信息移动推荐服务新模式[J].图书与情报,2013,(4):74-78.

[3]马晓亭.基于用户服务价值的图书馆大数据价值分析与服务质量保证研究[J].图书馆,2014,(5):95-98.

[4]邵慧丽,张帆.基于知识发现数字图书馆知识服务研究[J].图书馆,2016,(2):70-73.

[5]曾子明,金鹏.基于用户兴趣变化的数字图书馆知识推荐服务研究[J].图书馆论坛,2016,(1):94-99.

[6]张晓林.机构知识库的发展趋势与挑战[J].现代图书情报技术,2014,(2):1-7.

[7]季淑娟,王晓丽.高校区域性联合信息咨询服务的系统架构研究[J].大学图书馆学报,2013,(3):74-79.

[8]刘成山,王洁良,秦春秀.一种基于对等云的数字图书馆架构[J].情报理论与实践,2013,(11):114-117.

[9]中华人民共和国文化部.图书馆数字资源统计规范(WH/T 47—2012)[S].北京:国家图书馆出版社,2013.

[10]李彬彬,刘昆雄.我国高校图书馆参考咨询知识库建设现状调查与分析[J].图书馆建设,2013,(4):36-40.

[11]王小立.百度“知道”知识传播对个人数字图书馆资源共享的启示[J].图书馆,2016,(2):83-87.

[12]李月琳,梁娜,齐雪.从交互维度到交互功能:构建数字图书馆交互评估理论模型[J].中国图书馆学报,2016,42(1):66-82.

[13]马晓亭.大数据时代图书馆数据可用性:价值、挑战和保障[J].图书馆理论与实践,2014,(10):5-8.

[14]白广思.数字图书馆大数据分类研究[J].图书馆学研究,2016,(3):53-58.

[15]张兴旺,李晨晖.数字图书馆大数据知识服务体系协同设计研究[J].图书与情报,2015,(3):61-70.

[16]王锰,郑建明,陈雅.大数据环境下数字图书馆的基本职能[J].情报资料工作,2015,(3):109-112.

(本文责任编辑:孙国雷)

猜你喜欢
数字资源数字图书馆大数据
评价高校图书馆数字资源综合服务能力