李桂贞
(南京工程学院图书馆,江苏 南京 211167)
Web 2.0的发展推动了图书馆2.0的产生,图书馆服务要以用户为核心早已成为业界的共识。图书馆服务要实现良好的用户体验,应将应用的复杂性和使用的便利性进行完美结合,这就需要一种新型服务计算模型——云计算,它将数据都放在服务器上,并在服务器进行计算,计算完成后将结果传递到客户端。而大数据则是云计算的对象,二者是静与动的关系,前者强调的是计算,后者是前者计算的对象,二者息息相关[1]。大数据时代的到来必然会强烈影响到图书馆的服务,这种影响是双向的,既是挑战也是机遇。图书馆应把握机遇,采取相应措施创新图书馆服务。
云是网络、互联网的一种比喻说法,目前对云计算并无统一定义,国内较为广泛接受的定义是著云台给出的:云计算是通过网络提供可伸缩的廉价的分布式计算能力。美国国家标准与技术研究院(NIST)定义:云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池(资源包括网络、服务器、存储、应用软件、服务等),这些资源能够被快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。概括来说,云计算是进行分布式处理、并列计算、网格设计、虚拟存取和海量数据处理的一种计算机工具。
云计算的特点主要有:①超大规模。亚马逊、IBM、微软和Yahoo等公司的“云”均拥有几十万台服务器,而Google云计算则拥有超过100万台的服务器。②虚拟化。云计算支持用户在任意位置使用各种终端获取服务,用户只需要一台笔记本或一个掌上电脑(Personal Digital Assistant,PDA),就可以通过网络服务来获取各种能力超强的服务。③高可靠性。“云”使用了数据多副本容错、计算节点同构可互换等措施来保障服务的高可靠性,使用云计算比使用本地计算机更加可靠。④通用性。云计算不针对特定的应用,在“云”的支撑下可以构造出千变万化的应用,同一片“云”可以同时支撑不同的应用运行。⑤高可伸缩性。“云”的规模可以动态伸缩,满足应用和用户规模增长的需要。
目前对大数据还没有标准的定义,通常认为它是一种数据量很大、数据形式多样的非结构化数据。百度百科将其定义为:大数据通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。
一般来说,大数据具有以下特点:①数据体量巨大。大数据遍布世界各个角落的电脑、传感器和移动设备,在线交易和社交网络每时每刻也都在产生大量数据。②数据类型繁多。大数据类型多样,可分为结构化数据和非结构化数据。相对于以往便于存储的以文本为主的结构化数据,蕴含着巨大商业价值和社会价值的非结构化数据越来越多,目前已占数据总量的80%以上。③价值密度低。大数据的价值虽然巨大,价值密度却很低,如何通过强大的机器算法更迅速地完成海量数据的价值“提纯”成为目前大数据背景下亟待解决的难题。④处理速度快。对大数据快速处理,才能了解迅速变化的环境并作出反应,才能快速制定出合理准确的应对策略。大数据要求实时和分析,特别是1秒定律,这一点与传统的数据挖掘技术有着本质的不同。
大数据本身就是一个问题集,云计算技术是目前解决大数据问题集最有效的手段。云计算提供了基础架构平台,大数据应用在这个平台上运行。目前公认处理大数据集最有效手段的分布式处理,也是云计算思想的一种具体体现。
OCLC的Janifer Gatenby曾撰文指出:“对图书馆而言,重要的是拥有与控制他们的数据资源,自由共享、提供访问、曝光数据,而拥有操作与管理这些数据的软件则不那么重要[4]”。图书馆服务与技术的发展密不可分,图书馆也一直是利用先进技术的先行者,总是会及时利用先进技术来优化服务。
图书馆始终以为用户提供优质服务作为自己的目标,而开展服务需要各种先进技术的支持,云计算应用于图书馆,不仅可以降低成本,提高效率,还可以实现真正的大数据的共建共享。云系统中有数以万计的大型存储设备,可以容纳海量数据,并可以实现实时更新,为图书馆不断增长的数据资源提供可靠的技术支持。
大数据时代,图书馆与其他信息机构之间不再是馆藏资源、空间建筑、借阅服务等方面的竞争,拥有大数据总量以及对大数据的挖掘、收集、存储、分析、处理等能力才是现时图书馆的核心竞争力。同时,对大数据的分析、处理和预测也影响着图书馆总体的发展。
大数据时代,大量的数据存储在分布广泛、不同地域、各种类型的服务器中,可以运用云计算技术,将大量的数据资源存于“云”中。当用户发出一个搜索或查询请求时,服务器通过运算进行信息交换,将结果返回给用户。大数据时代,图书馆面临着新旧数据平台互通联合、技术标准的统一、信息资源的安全等问题,如果图书馆能将这些挑战变成发展的机遇,解决这一系列问题,未来图书馆将会以数据为纽带,实现从物理图书馆向虚拟图书馆及智慧图书馆的飞跃。
经过数字图书馆的多年建设,图书馆拥有了大量结构化数据,如书目资源库、机构知识库、语义化信息等数字化资源。这些资源总量很大,而且增长速度也较快,是图书馆大数据的重要组成部分。但要提供更好的服务,不能仅仅依靠这些结构化数据,还要依靠大量的非结构化数据和半结构化数据,如用户的检索历史、浏览历史、阅读习惯、兴趣偏好等,而这些常常是图书馆所忽视的。伴随着社交网络、移动图书馆、物联网的兴起,今后来自用户的各种信息将越来越多,通过数据挖掘、数据分析等大数据技术,可以在用户使用图书馆服务的过程中收集其个人信息、地理位置、搜索历史、搜索时间等信息数据。大数据是图书馆的核心资产,图书馆应该重视对用户数据的收集工作,使其为我所用,以构筑图书馆的核心竞争力,更好地为用户提供有用的信息[5]。
图书馆在构建之前要进行自我评估,明确如何构建才能适合本馆的发展战略,并从成本和硬件资源等方面来考虑是迁移原有的计算平台还是直接改造以实现云计算平台的服务功能。在构建云计算图书馆服务平台时,需要成立云计算实施团队,团队里不仅应包括技术人员,还应包括相关管理人员,以保证云计算服务平台的有序完成。云计算环境下,数字图书馆云服务模式主要分为基础设施即服务(Infrastructure as a Service,Iaas)、平台即服务(Platform as a Service,Paas)、软件即服务(Software as a Service,SaaS)3种主要模式[6],图书馆要根据自身情况确定其服务模式,通过云计算服务平台对外提供统一接口,实现数字图书馆的云服务。
长期以来,图书馆的信息资源建设偏重于文献信息数据等结构化数据的收集,而在大数据时代,除了要加强对多种文献信息数据的收集外,还要对这些数据进行挖掘、分析、整合,使之产生更多的价值,这才是图书馆的核心竞争力所在。另一方面,图书馆要想提供更优质的服务,目前所拥有的数据量还远远不够,如今图书馆拥有以及可以直接利用的主要是文献资源、数字资源、网络资源等结构化数据,这些数据在很多图书馆已经建设得较为完善。而很多半结构化和非结构化数据,例如用户信息行为数据等,是目前图书馆还无法进行或暂时没有建设的。图书馆必须对这类极具价值的数据进行收集、分类、挖掘、分析,才能为图书馆服务提供必要的决策参考,以实现图书馆业务与服务的上游转移。
信息时代,人们的日常信息行为日益频繁,不管是生活还是工作、娱乐、社交,都无法避免地在多种多样的信息系统中留下各种信息行为数据。将这些散落在多个系统间的数据进行整合与分析,会再现一个社会个体的运行轨迹和发展全景,这也就是大数据分析。目前,在素有“印度硅谷”之称的印度班加罗尔已有超过100家以数据分析为主要业务的新型数据公司;2013年9月16日,大中华区IBM大数据分析竞争力中心在四川绵阳成立,旨在以大数据分析和科学管理企业智能战略实施和自身转型发展[7]。
大数据时代,图书馆之间以及与其他信息部门之间的竞争越来越激烈,图书馆要想争得一席之地,避免被边缘化,必须要开展大数据分析服务。一般来说,根据图书馆现有情况,目前可开展下列两种主要的大数据分析服务业务。一是对图书馆所需的大数据进行分析。此类分析的对象是图书馆自身建设所产生的大数据,如用户的借阅习惯、检索历史、兴趣爱好等,是一种对现有资源的分析与挖掘。二是对用户所需的大数据进行分析。这类分析业务与现在图书馆或其他咨询公司为企事业单位等用户群体所做的信息情报参考、竞争情报分析等相似,但因其用户特征的不同,仍是有很大的差异,比如在分析对象数据、分析手段、分析目的等方面都存在着差异,而进行这类分析业务所需要的大数据本图书馆可能不会完全拥有,可以通过签订技术协议从其他渠道获得,但也将面临着知识产权、技术标准等问题,如何解决此类服务的数据问题是突破该瓶颈的关键。
信息时代,用户在网络上参与的信息行为每时每刻都在产生着大量的非结构化数据和半结构化数据,如果能够采集到这些数据,就可以很好地满足发现关联规则、内容分类和用户聚类的需求,探索出定制Web日志的数据模型、过程及方法,从而提高个性化推荐的精度[8]。对于图书馆来说,需要挖掘大数据的价值来提高图书馆的业务能力,增强图书馆的竞争力,但简单的定性、定量分析都不能发挥作用,需要运用更先进的技术工具。目前已开发并应用的大数据分析技术与工具有聚类分析、数据挖掘、网络分析、可视化分析、数据融合与数据集成等。特别是聚类分析、可视化分析与数据挖掘技术在对图书馆数据的技术分析中起到了一定作用。但目前也仅仅是针对结构化数据和有限数量的关键词进行聚类分析、共现分析等,并不能真正挖掘大量数据的存在与表现形态,更不能通过分析去预测未来的可能发展趋势。
2012年11月30日至12月1日,中国IT界技术盛会——Hadoop与大数据技术大会(HBTC 2012)在北京隆重举办。大会以“大数据共享与开放技术”为主题,设定“Hadoop生态系统”“大数据行业应用”“大数据共享平台与应用”“NoSQL与NewSQL”以及“大数据的技术挑战与发展趋势”5个分论坛。会上来自各领域的专家对大数据处理技术的应用和实践作了深入分享[9]。
服务是联系图书馆资源与用户的永恒纽带,云计算将分布在Internet中图书馆的资源和服务整合成一个整体,形成了一个可控的自适应新型服务体系,因此服务的时间、空间、方式等有了无限扩大完善的可能。
云计算环境下,图书馆各项业务的智能化程度将达到一个新的水平。图书馆业务的智能化可以大大提高图书馆的服务水平,对图书馆与用户都大有裨益。首先,对于服务主体——图书馆来说,图书馆对大数据进行的收集、整理、分析以及处理工作都需要应用各项智能化的先进技术,技术的智能化可能实现对海量信息数据的智能抓取、关键词抽取等,从而节省大量的人力物力,节省下来的人力可以去研究图书馆服务建设的策略性问题,物力则可以为更进一步的智能化投入提供支持。其次,对于服务客体——用户来说,图书馆可以利用大数据技术对用户大量的非结构化、半结构化数据进行挖掘与分析,为图书馆的智能化决策提供分析参考。同时图书馆提供的智能化服务——技术、工具、平台,将更加个性化,用户会更方便、准确地获得自己所需要的图形、音频、视频等信息,得到愉快的人性化服务体验。第三,对于图书馆服务中的知识流通来说,图书馆业务智能化程度的提高不但有利于知识从单个主体向多个主体流通与传播,有利于隐性知识向显性知识的转变,也有利于知识的发现、挖掘与组织。
目前图书馆服务已经与用户实现一定程度的交互,但很多情况下还仅仅是一种线性交互。在大数据环境下,图书馆借助云计算提供一个统一的虚拟服务平台,用户通过这一平台,可以自由调用图书馆、馆员、资源、服务等一切图书馆元素;而馆员也可以通过“云”进行大数据分析,包括资源流向和用户行为等,这样即可实现服务的多向交互。通过交互,图书馆可以把众多用户的隐性知识显性化,从而使个人知识转化为群体知识。
传统的图书馆服务平台一般是面向用户的服务,云计算环境下的信息服务一方面当然主要是面向用户的服务,如对用户个人信息数据的挖掘与分析,服务信息数据的推拉等。同时,云计算和大数据技术的应用使得对图书馆管理者提供服务成为了可能,例如图书馆之间的数据交换、数据协作、MARC数据转换、Wiki式书目编目、FRBR协作等,利用这些功能的API实现图书馆之间的联合编目达到去中心化的书目信息共建共享。此外,对于信息资源提供商还可以提供注册服务、新资源发布服务等[10]。
国内外图书馆界经过十几年的研究与实践,目前已形成了较为成熟系统的知识服务体系。而随着大数据时代的到来,图书馆知识服务将更具有针对性与鲜明性,服务的范围和领域将得到更大的发展,其服务方式、途径、模式等均将出现新的变化。
4.4.1 建立新型知识服务引擎
新型知识服务引擎包括资源及学术搜索引擎、资源及服务推荐引擎、知识服务社区实体(包括用户及资源)、行为智能分析引擎、用户知识需求预测引擎以及多维度信息资源获取、组织、分析及决策引擎等。例如美国Hiptype公司利用大数据分析技术来分析电子书用户阅读习惯和喜好,这也是国内外图书情报领域首例利用大数据技术构建知识服务社区实体(包括用户及资源)行为智能分析引擎[11]。
技术引擎是图书馆信息服务的技术核心,如何利用云计算和大数据技术构建图书馆的新型知识服务引擎,将会是未来几年内图书情报领域信息技术研究的主要内容。
4.4.2 新型咨询服务模式——知识咨询得到发展
大数据时代,图书馆要想在同行之间脱颖而出,获得持续、长足的发展,就不仅要在所拥有的信息资源的数量、种类、范围等方面努力,还要在信息资源数据的分析和组织、信息服务的知识化等方面做出努力,形成具有创新力与竞争力的服务和产品,判断这些服务和产品的标准应是其所含知识量的多少。因此基于内容分析,与知识服务完美融合的知识咨询服务,必将成为图书馆在大数据时代的咨询服务模式。知识咨询除了具有传统参考咨询和信息咨询的优点,还具有自身独特的优势,知识咨询的服务过程渗透着数据挖掘与数据整合,它的服务方式更加周到,更加关注用户的个性化需求,提供服务时结合用户的专业背景,提供的服务知识化,旨在解决用户的实际问题,令用户达到最大满意度[12]。
云计算和大数据开发前景广阔,图书馆各个领域无不受其影响。图书馆作为技术敏感度极高的行业和机构,从业人员和技术人员应该高度重视这一事业发展机遇,积极尝试和思考解决云计算环境下图书馆服务创新和资源开发中的大数据问题,探索云环境下图书馆服务平台的构建及新的服务模式,这也是图书馆服务创新的关键所在。
[1]王晴.云计算大数据时代图书馆的挑战与机遇——兼论公共图书馆的应对策略[J].公共图书馆,2013(1):47-51.
[2]云计算[EB/OL].[2014-02-16].http://baike.baidu.com/view/1316082.htm.
[3]罗信.什么是“大数据”的真正含义[EB/OL].[2014-02-16].http://www.vsharing.com/k/vertical/2012-5/A658824.html.
[4]GATENBY J.The networked library service layer:sharing data for more effective management and co-operation[J].Ariadne,2008(56):8.
[5]王天泥.大数据视角下图书馆的发展对策[J].图书馆学刊,2013(3):42-44.
[6]马晓亭,陈臣.面向云计算的数字图书馆高性能云服务平台研究[J].图书馆理论与实践,2013(5):73-76.
[7]大中华区IBM大数据分析竞争力中心成立[EB/OL].[2014-02-18].http://digi.163.com/13/0918/12/99281GSV0 00163HED.html.
[8]韩翠峰.大数据时代图书馆的服务创新与发展[J].图书馆,2013(1):121-122.
[9]大数据共享与开放技术从现在起航[EB/OL].[2014-02-18].http://www.docin.com/p-559010420.html.
[10]王长全,艾雰云.云计算环境下的数字图书馆信息资源整合与服务模式创新[J].图书馆工作与研究,2011(1):48-51.
[11]樊伟红,等.图书馆需要怎样的“大数据”[J].图书馆杂志,2012(11):63-68,77.
[12]曾德云.知识咨询服务的特征、模式与提升策略[J].图书馆学刊,2013(7):94-96.