文庭孝
(中南大学生命科学学院医药信息系 长沙 410083)
2012年是世界“大数据元年”,美国政府推出了“大数据研究和发展计划”,将大数据研究和开发提升到国家战略高度[1]。据麦肯锡全球研究院IDC最新预计,到2020年,全世界数据存储总量将达到35ZB(相当于35万亿GB)。高德纳(Gartner)公司指出,新产生的数据量每年正以至少50%的速度递增,每年新增的数据量不到两年就翻一番[2]。大数据时代已经来临!
世界数据化是大数据时代社会发展的一种趋势。当今社会已从信息时代进入数据驱动的“智能时代”[3]“算法时代”[4]“智慧时代”[5],“数据化”浪潮开启了一个时代的重要转变[6]。
数据是对信息爆炸现象的一种新描述,代表着一种新环境和新思维[7]。Mcafee和Brynjolfsson 认为“大数据”是“分析”的另一种表述(数据即分析),是寻求从数据中萃取知识,并将其转化为商业优势的智能化活动[8]。阿里巴巴创始人马云认为“大数据是一种服务(数据即服务)”。《大数据,大影响(Big Data, Big Impact)》报告中指出:数据即资产[9]。大数据广泛分布、多源异构、动态变化、来源复杂、非结构化、海量存在等特征给图书馆带来了巨大挑战[10]。
图书馆大数据具有多种结构、多种形式、多种用途、多种分类。资源大数据、用户大数据、馆员大数据、管理大数据、服务大数据、业务大数据及其关联是图书馆大数据的核心。图书馆的管理、服务和业务工作以资源数据为基础,围绕用户和馆员两大主体进行,通过对资源的管理与利用将管理、服务、业务、用户和馆员几大要素关联在一起。
在大数据环境下,如何进行数据管理,实现个性化服务、知识服务、数据服务、智慧服务、增值服务,提升自身管理与服务水平以及信息资源开发利用效率,是图书馆面临的重大挑战与机遇。
在大数据环境下,图书馆在资源、服务、用户、馆员、设施、管理、业务等方面都发生了巨大变化。大数据既是图书馆创新发展的良好机遇,也使图书馆面临前所未有的巨大挑战[11-13]。
大数据使图书馆资源的数量和结构发生了重大变化。在大数据环境下,图书馆的资源可以得到无限拓展,除了自身所拥有的大量数字资源外,高速增长的数字资源,日益普及的互联网和移动互联网以及云计算、RFID、语义网、社交网络等新技术的应用提供了更广泛的数据来源[11]。图书馆资源大数据由两部分构成,一是馆藏资源大数据(现实资源),二是网络资源大数据(虚拟资源)[14]。图书馆所拥有的任何资源都可以被视为某种“数据”,都可以被表征、解析、链接、交互、融会。数据化、语义化、碎片化和关联化成为大数据时代图书馆资源的最大特征。各类图书馆资源通过著录、标引、解析、链接等一系列加工和组织,可以实现数据化和知识元化解构、重组与关联,形成新的资源空间[6]。这些资源中,非结构化、半结构化数据占据图书馆大数据总量的85%以上,全文本、图像、声音、影视、超媒体等非结构化复杂数据将成为图书馆大数据的核心[15]。
大数据对图书馆用户的影响主要体现在用户数量、用户结构和用户需求变化三个方面。在基于互联网和移动互联网的大数据环境下,所有网民理论上都可能成为某个图书馆的用户。这不仅仅是用户数量上的简单扩张,其价值更多地体现在用户网络及其关联上。随着图书馆用户数量的拓展,用户在文化层次、需求层次、年龄层次、素养层次、职业差异、兴趣爱好等结构上也会发生巨大变化。图书馆用户大数据的关键问题不在于数量和结构本身,而在于因数量和结构引发的关联改变。大数据对图书馆用户最大的影响是需求内容的变化,用户对图书馆资源和服务的需求已远远超出了简单的数字化资源获取和网络化资源存取[6]。
一项关于大学生对高校图书馆使用情况的调查表明,72%的学生通过网络获得信息,而通过图书馆获得信息的学生只占 18%[16]。另一项调查同样显示,大学生访问图书馆网站(数字图书馆)的只占 28%,远低于使用搜索引擎的比例,甚至有 25.3%的大学生表示从来没有访问过图书馆网站(数字图书馆)[17]。Anderson Rick 则忧虑地指出,在大数据环境下,图书馆到了必须给其资助机构更多说服力来证明自身存在价值的时候[18]。图书馆用户流失及价值分析已成为大数据时代图书馆界关注的重要问题[19]。这说明在大数据环境下,图书馆的结构化数据资源及其基本服务已无法满足用户的新需求。
《哈佛商业评论》在专题文章中指出:数据科学家的主要工作就是从大数据中找出有用的信息,数据科学家将成为21世纪最性感的职业。美国学者对图书馆员在大数据环境下的角色和专业技能做了调查与设想,认为图书馆可以在大数据时代承担起“数据管理”这一职责,但目前绝大多数图书馆员还不具备数据科学家必备的素质[20-21]。
随着大数据时代的到来,个性化服务、知识服务、嵌入式服务、精准知识服务、智能服务、增值服务、智慧服务和大数据服务等成为图书馆服务创新发展的趋势,图书馆服务开始向数据分析、数据挖掘等数据服务转变[10]。图书馆大数据资源的扩展、用户需求的变化和图书馆服务要求的提升,对馆员素质提出了巨大挑战。大数据对图书馆员的最大挑战在于指导用户处理海量数据,从中挖掘和提取关键信息并获得知识[22],而用户与图书馆员的信息素养和数据素养差距正在缩小。图书馆员只有掌握了数据处理和数据分析能力,才能揭示大数据中蕴含的价值,通过大数据技术挖掘出更多、更深、更全的信息,满足用户的个性化知识需求[23]。因此,面对大数据,图书馆员需要重新定位角色。
为了应对这一挑战,美国密歇根州立大学、伊利诺伊州立大学、北卡罗来纳州立大学和亚利桑那州立大学等已经开设了大数据相关课程和研究方向来适应大数据发展的需要。不少大学图书馆和研究机构开始设立专门岗位进行大数据管理,如数据图书馆员、数据服务图书馆员、数据监护图书馆员、数据分析员、科研数据图书馆员等[24]。美国学者Landon甚至直接指出“情报学是培养数据科学家的学科”[25],为图书馆学和情报学教育的未来发展指明了方向。
大数据对图书馆服务的影响主要体现在三个方面:一是服务内容;二是服务方式;三是服务平台。从服务内容来看,大数据环境下,图书馆能够提供个性化服务、知识服务、嵌入式服务、精准知识、智能服务、增值服务、智慧服务和大数据服务等服务内容和服务方式,而这些都需要图书馆大数据平台支撑。
(1)个性化服务。个性化服务也称为精准服务、定制服务、推送服务、推荐服务和特色服务等。个性化服务是大数据时代图书馆最重要的服务模式[26-27]。个性化服务是图书馆根据用户的特定需求而特别定制的服务,也是图书馆服务长期以来追求的目标。个性化服务包括服务时空的个性化(在用户指定的时间和地点提供服务)、服务方式的个性化(根据用户个人爱好或特点提供服务)和服务内容的个性化(根据用户需求提供定制的服务内容)[28]。早在2000年,美国 Ex Libris 公司就推出了SFX,可以实现不同类型数据与 OPAC资源的整合与挖掘,针对用户需求提供个性化服务[29]。2007 年,Library Thing 提供了一项 LTFL(Library Thing for Libraries)服务,以存储在 Library Thing中的数据为基础,通过标签实现读者阅读关联,提供资源导读和资源推送等个性化服务[30]。图书馆有大量的用户行为数据,如OPAC查询日志、借还书日志、电子资源检索浏览下载及数据库访问日志、图书馆网站访问流量及社交网络等数据,通过用户大数据挖掘和分析,可以发现某个用户或群体的兴趣和行为规律,从而定位用户需求,为用户提供个性化精准服务[31]。图书馆大数据平台能对用户的个人信息、借阅历史、浏览记录等数据进行挖掘和分析,为用户提供信息推送、参考咨询、学科服务、好书推荐等个性化服务[32]。
(2)知识服务。知识服务是图书馆面向用户的特定需求,运用大数据技术(如关联分析技术、推理技术、语义检索技术等)对图书馆的数据进行处理,为用户精准提供解决问题所需知识的服务过程[11]。从本质上来看,图书馆是一个知识发现和服务系统,并且在不断地更新知识服务内容和形式。随着大数据时代的到来,图书馆以数据挖掘和分析为基础,在知识服务的内容和形式上不断创新,发生了巨大的变化。以用户大数据为基础,图书馆可以开展用户知识需求预测和用户行为智能分析,并辅助图书馆资源采购和资源配置,开展个性化服务;以资源大数据为基础,图书馆可以构建新型知识搜索引擎,关联图书馆资源与用户需求,提供一站式知识搜索、资源与服务推荐、多维度资源获取等知识服务;以图书馆综合大数据为基础,图书馆可以开展数据处理、数据挖掘和数据分析等知识服务内容,为图书馆管理和决策服务,提升图书馆的服务水平和层次[33-35]。
(3)嵌入式服务。嵌入式服务是图书馆以用户的多样化需求为导向,将服务融入用户的工作、教学、科研、学习和生活等过程的服务模式[36]。嵌入式服务包括嵌入用户空间(即实体物理空间和虚拟空间)和嵌入服务过程(包括科研、教学、工作、学习和生活等过程)。大数据环境下,图书馆的嵌入式服务内容主要有用户需求分析、研究项目查新、研究力量调查、前沿热点分析、规律趋势预测等[37]。如高校图书馆提供的嵌入式学科服务,利用图书馆掌握的庞大数据资源和专业信息分析技术为用户提供高效、专业的学科服务,将用户、学科馆员、动态数据和数据分析工具四个方面的因素关联起来,提高学科服务效率[24,38]。
(4)智能服务。智能服务也称智慧服务。图书馆智能服务包括运用智能技术对海量数据进行深度挖掘、创造[39],运用智能技术、工具、平台处理大量非结构化、半结构化数据,为图书馆智能决策服务[40],促进图书馆的资源整合、知识整合和服务整合[22]。在大数据环境下,图书馆可以通过多维度对用户大数据、资源大数据进行融合、组合、挖掘和知识分析,建立智能服务环境,为图书馆数据管理、数据决策、数据服务和数据创新提供智慧服务[41]。如中国知网(CNKI)正在积极探索“智慧服务”新形态,推出“智能检索”(全球学术资源发现)新产品;超星公司推出了“知识发现”等智能工具,为用户提供智能知识服务。
(5)增值服务。大数据技术、大数据分析和智能服务是图书馆实现增值服务的最佳方式。大数据环境下,图书馆通过收集、处理大数据及引入大数据处理技术,对融合后的海量数据进行深入挖掘和智能分析,发现图书馆大数据背后潜藏的知识及其关联,帮助用户快捷获取所需知识与服务,实现大数据利用、增值和再创造[42]。图书馆的增值服务可以通过提供知识化、智能化、个性化、精准化、嵌入式服务和数据服务等方式来实现。
(6)数据服务。哈佛大学最早将“大数据服务”引入图书馆中并着手实施[43]。图书馆的数据服务主要是对图书馆资源、用户、管理、服务、业务等数据的深度挖掘和智能分析[44],从大量的、不完整的、有噪声的、模糊的和随机的数据中,提取潜在的有价值的信息和知识的过程,为图书馆管理、决策和服务以及用户获取资源提供帮助。数据挖掘技术对经过预处理的海量数据进行深度挖掘,可以更好地服务于图书馆的管理决策和读者服务。如利用决策树挖掘方法对读者信息、借阅数据和图书信息进行挖掘,可以发现不同类型读者的借阅需求;利用关联规则分析方法对读者信息、读者浏览记录、读者下载记录、数字资源信息等进行挖掘,可以揭示读者与数字资源浏览下载行为之间的关联规律[6,45]。
大数据环境下,图书馆可以通过提供个性化服务、知识服务、嵌入服务、智能服务、增值服务和数据服务等服务内容和形式重构图书馆服务体系,提升图书馆服务质量和水平,提高图书馆资源利用效率和用户满意度。
图书馆管理包括资源管理(财、物、设备、信息等)和人员管理(馆员管理和用户管理)。《哈佛商业评论》指出:大数据本质上是“一场管理革命”[46]。
在大数据环境下,“一切皆数据”“一切皆服务”“一切皆读者”已成为图书馆发展的一种新思维和新思路[47]。图书馆管理不再是单一资源和要素的管理,而是综合管理,将资源、馆员、用户、服务、技术、设备和制度等要素建立联系,构建图书馆综合智能管理、决策和服务体系[12]。经过数据优化管理,大数据必将促进图书馆数据管理、数据分析、数据使用及数据服务的深层次变革。随着图书馆资源(将本馆资源与互联网虚拟资源融合为一体,建立面向解决复杂问题的资源整合、加工大数据资源观)、技术(构建和完善数据采集、信息处理、组织架构、知识挖掘、分析预测、结果呈现、智能服务等技术体系)、服务(面向全社会、提供全资源、开展多元化服务,如精准服务、推送服务、个性化服务、移动服务、知识服务、数据服务、智能服务、增值服务、嵌入式服务等)、馆员(成为数据分析专家和数据科学家,了解大数据关键技术、熟悉各种数据分析工具和软件、掌握图书馆大数据)、用户(需求内容和需求方式不断变化)、设备(分布式存储和分布式计算)等要素的变化,图书馆管理也会不断变化,同时也对图书馆管理人员提出了更高的要求[48]。
管理数据化是大数据时代图书馆管理发展的必然[29],精准管理是大数据时代图书馆管理的新常态[49]。图书馆管理建立在对大数据进行挖掘和分析的基础之上,以数据和用户为中心,不断创新管理体制、管理方法、管理方式,进行动态管理,创造性地开展大数据服务[50]。与此同时,利用大数据可以加强各馆之间的信息沟通与交互,实现馆员和资源最优配置,实现精准管理,降低服务成本,发挥资源效用,实现效益最大化[51]。
大数据技术是一项颠覆性技术,为图书馆提供一种技术解决方案,助力海量数据的网络应用,并释放复杂数据中的智能。在大数据环境下,基础设施决定了图书馆的数据存储能力、计算能力和处理能力。图书馆大数据平台包括体系架构、计算模型、数据模型、智能辅助决策模型、性能优化模型及知识服务模型[34]。复杂异构数据处理、存储、关联挖掘、检索查询、分析理解、智能服务等都需要先进的大数据存储和处理基础设施[33]。
从技术上来看,大数据技术是从海量数据中快速高效地挖掘出有效信息的综合性技术,包括两项关键技术:Hadoop 大数据分析平台(分布式文件系统和大数据存储服务)和 MapReduce 计算框架(高性能并行计算和大数据处理服务),能够实现对结构化数据、非结构数据和复杂数据的快速处理和分析,这些都必须基于大数据基础设施才能实现。如图书馆常用监控服务器、网络监控器、视频监控系统、用户阅读终端、可穿戴阅读设备和读者管理系统等设备采集数据[52]。
图书馆资源、用户、技术、设施、服务等的变化引发了图书馆业务流程的变化。随着大数据时代的到来,图书馆将重点围绕资源大数据和用户大数据等的产生、存储、分析、利用、决策等展开业务流程。数据管理是大数据环境下图书馆业务的核心,图书馆的业务将围绕大数据管理进行调整和重组,建立大数据技术与图书馆资源、馆员、用户、服务和管理之间的关联[53]。如中国药科大学图书馆图书与信息中心2016年基于大数据流向构建了“大数据业务456模式”[54]。越来越多的图书馆将基于数据重组业务流程以适应大数据发展的需要。
大数据是一种新思维[55],大数据思维可以帮助图书馆实现资源、馆员、设施、读者和服务之间的关联,挖掘出大数据之间存在的复杂、非线性关系[52]。大数据给图书馆发展带来挑战的同时,也带来了新的发展契机,拓展了图书馆的创新发展空间。大数据环境下,图书馆将重点围绕数据采集、数据整理、分析挖掘、数据展现、数据应用等数据处理流程,研发或采购大数据管理软件、大数据挖掘分析软件、数据可视化软件、硬件支撑平台等,打造适应图书馆发展的大数据技术平台,形成与传统业务流程深度融合的大数据解决方案[56]。随着资源、服务、用户、馆员、设施、管理与业务等不断变化,图书馆需要重新定位其发展方向。
在“一切皆数据”“一切皆资源”理念的指引下,图书馆资源将会大大得到拓展。大数据时代图书馆的资源创新主要体现在:
(1)图书馆大数据资源的积累。在大数据环境下,图书馆围绕资源和用户以及业务、服务和管理活动会形成资源大数据、用户大数据、业务大数据、服务大数据和管理大数据,经过不断积累和更新,形成庞大的数据集,是图书馆宝贵的数据资产。
(2)图书馆网络大数据的延伸。随着计算机互联网和移动互联网的不断升级和普及,图书馆在互联网上的大数据资源可以无限拓展和延伸。一部分高度关联的互联网资源可以变成图书馆自身的大数据资源,另一部分则是图书馆的虚拟大数据资源。
(3)图书馆大数据资源的拓展。政府是大数据资源的最大拥有者,政府数据开放已成为一种世界潮流。与此同时,随着数据量的积累,数据存储、管理、安全等将成为大数据时代政府、企业、机构甚至个人的一种巨大负担,需要专业可靠的数据托管机构承担数据保管工作。图书馆作为重要的专业数据管理机构,可以开展数据托管业务,一方面可以拓展图书馆的大数据资源,另一方面可以开发图书馆的数据管理功能,为图书馆发展找到新的生存空间。
(4)图书馆大数据资源的开放。在大数据时代,数据开放与共享已成为一种趋势。图书馆也应加入数据开放与共享行列,一方面享受大数据开放与共享的福利,另一方面可开放自身的大数据资源以造福更多用户。2012 年 4月 26 日,哈佛大学图书馆宣称将图书大数据公之于众,这些数据由 73 家图书馆分馆提供,涵盖1 200 多万种资料,包括书目数据、手稿、地图、视频和音频等,在美国数字公共图书馆(Digital Public Library of America)中提供下载[57]。OverDrive 图书公司将长期以来与各类图书馆合作中所获得的电子书和数字有声读物的流通状况、读者的图书需求状况、图书馆网站访问的拥堵状况和人口统计学等信息提供给合作者开放存取[58]。
在大数据时代,“一切皆用户”“一切皆服务”将是图书馆服务的新思维和新理念。互联、开放、高效与便利是大数据时代的特点,大数据挖掘与分析将成为未来图书馆服务的新模式,是图书馆服务创新、转型和可持续发展的新理念和新实践[45]。基于图书馆大数据,利用大数据关联,通过大数据智能分析,快速定位用户所需资源,图书馆能够提供个性化服务、知识服务、精准服务、推荐服务、定制服务、数据服务、智慧服务、增值服务等创新服务内容,提高图书馆的服务质量和水平。
提供数据综合服务是图书馆服务发展的重要方向,未来图书馆的一个重要角色就是提供数据服务[29]。数据服务是大数据环境下图书馆服务在内容和形式上的一种创新,其核心价值在于为馆员和用户提供精准的数据,以辅助图书馆管理和用户利用决策。基于数据驱动的智慧服务也是大数据环境下图书馆服务的新内容和新形式[41]。
在大数据环境下,图书馆的服务都是基于大数据挖掘与分析而进行的,数据即服务、分析即服务将成为大数据时代图书馆的主要服务模式,这是一种综合性的集成服务创新,图书馆的服务内容、服务方式、服务系统、用户素养等都将发生巨大变化。服务内容不仅有传统的结构化馆藏数字资源、网络资源、数据库资源,还有大量用户行为、交互产生的分布式、异构化、多样化的数字资源,且这种非结构化的资源在大数据环境下的服务价值将更加凸显。图书馆的服务方式将由被动注意、被动交流转向主动发现、双向互动交流;服务系统更加开放、社会化、人性化。用户的信息素养和要求发生变化,多数用户已经掌握了在网络环境下利用计算机终端、智能手机、掌上电脑、电视等访问数字资源的技术和技巧,其信息要求已由简单的检索、咨询向学科知识导航、个性化定制方向发展。图书馆要对在线文本、图像、音视频、日志、读者行为等数据进行实时更新、采集、抽取、分析、挖掘、去重,提炼出有价值的信息整合存储到虚拟空间,通过大数据智能化检索技术给用户提供一站式服务。同时,为了更好地满足用户的个性化需求,图书馆还要提供基于联机公共检索目录日志、借还书流通日志、浏览下载馆藏资源和网络资源日志的学科知识导航服务、可视化服务、智慧服务等个性化定制或个性化推送服务[59]。如清华大学、上海交通大学、上海师范大学等高校图书馆的学科博客服务,就是通过统计、分析,有针对性地为用户推介图书馆的资源与服务,多角度、深层次挖掘学科信息,为用户量身定制服务[60]。图书馆管理者应从顶层设计开始,把“信息的快速获取、信息资源的高效存储、数据的精准分析、数据的智慧化处理”作为大数据环境下数字图书馆发展的战略目标,构建基于大数据资源、技术、服务、管理的新的运行机制,全面提升图书馆的服务能力[50]。
如何及时、有效、精准、智慧地为读者服务,提高读者满意度,是大数据时代图书馆发展的核心价值,其前提是充分了解读者及其需求,而基于大数据的读者画像能为图书馆全面、真实地了解读者提供有效的手段和工具。
用户画像也称为用户脸谱绘制、用户角色定位,图书馆也称为读者画像。用户画像是以海量数据为基础,抽取与用户相关的数据,从足够多的用户数据中逐渐抽象出用户真实面貌的过程[61]。用户画像可以还原用户真实面目,帮助图书馆精准地定位读者并提供个性化服务,是图书馆精准服务的内容之一。
用户画像的过程就是绘制用户脸谱的过程,即根据用户社会属性、生活习惯和消费行为等数据抽象出一个标签化的用户模型[62]。Alan Cooper最早提出了Persona(画像、脸谱、角色) 的概念:画像是目标用户的具体体现(Personas are a concrete representation of target users)。画像是真实用户的虚拟代表,是基于一系列真实数据之上的目标用户模型构建[63]。Amato将用户画像界定为“一个从海量数据中获取由用户信息构成的形象集合”[61]。
图书馆的用户基本数据和用户行为数据既包含线上行为数据,也包含线下行为数据,可以通过统一用户系统(读者基本信息数据)、借阅系统(读者借阅数据)、搜索系统(登录数据、搜索历史、操作日志)、门禁系统(入馆刷卡数据)、读者门户系统(读者账号、阅读笔记、阅读历史、收藏信息)等数据完整地勾勒出读者的信息全貌,即用户画像[64]。构建读者画像的核心工作是给读者贴“标签”,通过数据加分析,用若干标签来逐步精准描述一个目标读者的过程,而标签是通过对读者数据进行挖掘和分析得来的高度精炼的读者特征标识[62]。基于用户多维标签(如基本信息标签、内容偏好标签、互动标签、会话标签、情境标签等),图书馆能够全面细致地刻画出读者全貌,深入挖掘图书馆大数据资源的价值,为读者提供精准的个性化知识推荐服务,提升基于大数据的图书馆知识服务水平[61]。
美国思域技术公司(Civic Technologies)在美国博物馆和图书馆服务协会的资助下,在美国10 所图书馆展开了关于用户的大数据项目,通过分析核心用户数据,深入了解用户的生活、学习习惯,细分用户,形成用户画像并用于图书馆个性化服务和精准服务[65]。
图书馆究竟需要什么样的大数据?图书馆有哪些大数据?大数据能给图书馆带来什么影响?如何利用大数据为图书馆服务?这些问题的回答关系到大数据环境下图书馆的定位问题[66]。
21 世纪是知识世纪、数据世纪,强调数据力。大数据给图书馆发展带来的影响是不言而喻的,也使图书馆出现了一些新的发展趋势。图书馆在资源、用户、服务、管理、业务、技术、设施等方面发生了一系列变化,是到了应该给图书馆发展重新定位的时候。数据图书馆、智慧图书馆和数据中心将会是未来图书馆发展的新形态。
(1)数据图书馆。数据图书馆和大数据图书馆将是大数据环境下图书馆发展的新形态。图书馆以数据为核心进行数据保存、处理和应用,进而形成具有数据服务、数据出版和数据增值服务的图书馆新形态,即数据图书馆。
数据图书馆具备数据资源的采集、筛选、加工、组织与序化、集成与整合、推送、导航与获取、用户服务与管理、知识服务等优势,并能实现图书馆服务的大数据化[29]。数据图书馆的核心任务是构建数据密集型知识服务系统,提供基于大数据的知识服务[67]。
数据图书馆将承担开放数据管理与保存中心、开放数据服务、数据监管服务、数据分析服务和知识发现服务等功能[68]。大数据环境下,图书馆有责任与义务扮演开放数据管理与中心的角色,为科学家等用户群体提供开放数据的检索、分析、保存等服务。如开源站点 biblios.net向图书馆界提供开放 MARC 数据的开发、 创建、 共享、 转换服务,目前以3 000余万条数据成为全球最大的免费图书馆编目数据平台[69]。德国国家图书馆[70]、大英图书馆[71]也宣布对外提供开放数据服务。数据图书馆可发挥自身在信息组织与检索方面的优势,提供数据监管服务,对数据进行修改、合并、标引、分析与索引,建立数据关联,便于数据检索、挖掘与分析,提高数据质量和价值;还可以利用图书馆的大数据平台和工具,提供数据分析和知识发现服务,提高数据资源的利用效率,更好地发挥数据资源的潜在价值,如EDS、PRIMO、SUMMON等一站式知识发现平台可以为用户提供知识发现和知识咨询等服务[68]。
(2)智慧图书馆。智慧图书馆是第三代新兴的图书馆发展形态,是基于大数据服务的图书馆发展模式[72]。智慧图书馆主要从数据、平台、服务三个层面构建智慧服务体系[73],并借助大数据分析技术对用户行为、业务及服务数据进行智慧分析[74],提供智能服务、知识服务、个性化服务等智慧服务[75]。
(3)数据中心。大数据时代,图书馆将从文献中心、信息中心、知识中心向数据中心转变,承担数据存储、数据保管、数据监护、数据分析、数据开发、数据服务等职能,成为公共数据中心、数据存储中心、数据托管中心、数据开发中心、数据服务中心、数据管理中心、数据分析中心等。随着数据资源的拓展和开发,图书馆甚至有可能成为数据超级市场和数据交易中心。
国外图书馆界较早意识到图书馆数据功能和职责的变化。2009 年,Huwe提出用政治手段推进图书馆与数据中心合并,拓展图书馆的职责[76]。2012 年,美国研究图书馆协会 (Association of College & Research Libraries,ACRL)在其发布的《高校图书馆十大发展趋势》报告中指出:开展数据收集、保存、开发与应用将是未来图书馆的发展趋势[77]。2014 年 6 月,ACRL在《高校图书馆发展大趋势》报告中把“数据”列为四大关键词之一[78]。2016年,ACRL在《高校图书馆十大发展趋势》报告中提出:“研究数据服务”“数据发展政策与管理计划”“基于馆员专业化发展而提供研究数据服务”“数字化学术中心”将是学术图书馆发展的趋势[79]。美国 Ithaka S+R咨询机构也认为,数据管理可能是未来图书馆管理的核心问题,这将使图书馆面临挑战[80]。
我国图书馆界也对图书馆作为数据中心的定位进行了探讨。陈传夫提出把数字图书馆作为公共文化的组成部分,纳入国家大数据发展战略之中,作为其发展的子项目,并建议成立国家层面的数字图书馆大数据管理中心,下设大数据专家组中心、大数据控制中心和大数据分析中心[81]。刘春丽、徐跃权认为在开放数据环境中,图书馆可能扮演知识服务中心和开放数据管理与保存中心两大角色[82]。樊伟红等认为,在大数据环境下,图书馆通常有三种角色:大数据的使用者或受益者、大数据的提供者或开发者及大数据的运营者或维护者[34]。张峥嵘、刘亚丽认为,图书馆是法定的政府信息公开承办单位,在推动政府数据公开方面大有可为。在大数据时代,政府是公共数据的“托管人”,而图书馆是公共数据的委托人和保管人[68]。许碧文认为图书馆在数据监护工作中可以承担数据集合存储、数据管理规划、最佳实践经验传播、收集与传播数据集合以及数据保存标准制定等职责[83]。