杨晓芳 何明祥
大数据时代,传统图书馆的局限性日渐凸显。数据类型繁杂,数据量巨大,图书资源配置不合理以及落后的服务观念和服务方式等,使得图书馆必须做出适当的改变,才能顺应时代的发展。图书馆的转型有两个大方向:优化图书资源,改进图书馆服务质量。其中优化图书资源可以从图书资源数字化和资源采购合理化两方面进行。此外,图书馆的转型需要大数据相关的技术支持、大数据人才和图书馆人才以及足够的资金支持等。
随着互联网云时代的到来,大数据引起了越来越多的关注。信息技术的高速发展,使读者的需求、行为等都产生了变化,读者获取信息的方式也出现了巨大的改变,传统图书馆的服务模式和图书资源方面的局限性也随之凸显。图书馆应改变自身以适应新时代的需求。本文着重分析了大数据背景下传统图书馆的局限性,提出一些图书馆的改进方向,使得图书馆能在数据飞速增长的新时代取得更好的发展。
McKinsey &Company 在《Big data:Th e next frontier for innovation,competition,and productivity》中提到:“随着数据的爆炸性增长,大数据分析作为关键竞争力,将推动新一轮生产率增长和消费者剩余的热潮。”
维基百科中,大数据的定义是:大数据指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。
大数据的特点主要可以用4 个“V”来概括:
(1)数据量巨大(Volume)。数据规模从TB 级别到PB、EB 甚至ZB 级别。据监测人类产生的数据量正以大约每两年翻一倍的速度呈指数级增长,并且在2020 年之前会一直保持下去。这意味着人类在最近两年产生的数据量相当于之前产生的所有数据量。据2011 年IDC 企业外部存储市场季度跟踪报告显示,预计到2020 年全球数据将达到35ZB,这个数据是2010 年数据的29 倍之多。
(2)数据处理速度快(Velocity)。现在对数据智能化和实时性的要求越来越高,且很多数据存在时间性,因此要求大数据的处理速度足够快。
(3)数据种类繁多(Variety)。大数据包括结构化数据、半结构化数据、非结构化数据,如网络日志、影像、地理定位信息等。
(4)价值密度低(Value)。大数据的价值密度通常较低,这就要求能够在数量巨大的多种数据中快速的截取信息。
大数据的研究和应用在互联网、金融、咨询、通信、医疗服务、商业智能等行业都有所体现,并产生了巨大的社会价值和产业空间。
国外主要研究大数据的存储、分析、处理、大数据的管理技术以及大数据软件的应用。2008 年9 月《Nature》杂志出版了一期专刊——“Big Data”,从互联网技术、互联网经济学、超级计算、环境科学、生物医药等多个方面来探讨大数据。
大数据已经蔓延到社会各界。作为传播知识、信息的重要媒介,图书馆必然也会受到影响。图书馆的数据大致分为两类:数字资源和服务数据。
数字资源
数字资源类型繁多,包括电子书刊、影像资料、网络资源、文献数据库等。详见表1。其中电子书刊、文献数据库等属于结构化数据,网络资源、影像资料等属于非结构化数据。
截至2011 年底,文化共享工程数字资源建设总量达到136.4TB;至2012 年底,国家图书馆数字资源总量达到813.5TB,并且每年仍在成倍的递增。
表1 图书馆数字资源类型表
服务数据
服务数据包括文献流通日志、数字资源的访问利用情况、读者信息和行为数据、信息咨询服务数据等。详见表2。其中一些图书馆仅文献流通日志就已达上亿条记录[6]。这些数据可达到PB 级的数据规模,并呈现几何级增长的速度。整合、分析和利用这些海量的结构化、半结构化、非结构化的数据是非常复杂和困难的一项工作。
表2 图书馆服务数据类型表
在科技进步及大数据飞速发展的今天,传统图书馆的一些局限性日渐凸显。
图书资源配置不合理
大多图书馆内都藏有很多利用率并不高甚至无人问津的书籍,还有许多热门图书数量太少不能满足读者的需求。前者显然是多余的,既浪费了资源又浪费了本可以用来购置其他图书的资金。还有一些藏书因为某些原因不能外借,这也给读者带来了很大不便。此外,由于科技发展日新月异,一些早年出版的相对落后的科技类图书已经无法满足读者的需求。有调查显示,60%的学生对学校图书馆提供的图书表示不满意,他们希望学校图书馆能够及时更新知识库,跟上社会发展的步伐。
服务观念和服务方式落后
传统图书馆的服务观念是以“书”为中心,无论采集、编目、还是流通,其重点都是藏书,而忽视了读者的重要性,其服务也因而显得很被动。此外,由于外借、阅览的传统服务方式及图书馆开放时间的限制,读者的需求与馆藏的信息资源间必然有一定的时空距离。而读者在网上搜索信息资源则不受这些限制,这就要求传统图书馆向数字化、移动化方向发展。
随着大数据与我们的工作、生活联系越来越密切,对社会领域的覆盖面也越来越广泛。图书馆作为数据使用和制造的重要参与者,若想融入“大数据”时代,应从图书资源和服务质量两方面转变。
图书资源数字化
图书资源数字化,即把原有的纸质文献转化为计算机存储的信息并实现形式转换的计算机管理、网络传输和数字化存取的过程。
图书馆的数字化,一方面可以通过扫描等手段将馆藏资源数字化。馆藏资源数字化后,读者无须到图书馆,随时随地都可以检索参阅所需资料,也省去了来回找书的时间,方便快捷。此外,图书馆的文献资源是有限的,每种书刊的数量也是有限的。数字化后,大家可以在同一时间参阅同一种文献,而不会出现“已借出”的问题。
另一方面,可以购买国内外的文献数据库。中国学位论文全文数据库、中国知网、中国科技期刊全文数据库、中国期刊全文数据库等,都比较适合高校图书馆。此外还有读秀学术搜索等学术搜索引擎,可以一站式检索章节内容和全文、部分文献的原文试读以及高效查找获取各种类型学术文献资料。购买文献数据库可以弥补图书馆某些领域文献资料的不足,为读者提供更丰富的信息。
国内许多图书馆经过多年的数字化建设已经具备了一定规模的数字化资源,包括文献资源、电子书、各类数据库等结构化数据,以及网络资源、影像资料等半结构化或非结构化数据。具有大数据特征的数字图书馆,需要管理者采取合适的应对措施,建立基于大数据分析处理技术的图书馆,满足大数据时代下读者对图书馆的新需求。
资源采购合理化
(1)图书资源采购合理
文献资源是图书馆最重要的资源之一,印刷型文献在文献资源中仍占据着无法取代的地位。所以,图书馆管理的一项重要工作就是定期对馆藏文献资源进行调查、统计、分析和评估,这是图书馆提升服务能力和服务质量的根本。通过对馆藏文献及图书馆的服务数据(文献流通日志、读者检索记录等)进行数据挖掘、分析,图书馆能较好地掌握馆藏文献的利用情况和读者的实际需求,从而增加需求较大文献的采购量,减少需求较小文献的采购量,以达到合理配置图书馆资源、提高藏书质量、优化馆藏结构的目的。
(2)印刷型文献与电子资源的采购比例合理
图书馆的馆藏资源不仅有印刷型文献,还包括缩微型文献、声像型文献、电子文献和网络资源等。很多图书馆往往只注重印刷型文献的馆藏,而忽视了其他类型的文献资源。考虑到大数据的发展以及经济方面纸质图书价格的上涨,图书馆应该转变这种资源建设思维,重视电子资源的建设。电子资源相比印刷型文献价格更低,可以供多人同时参阅,可多次重复利用而且不会破损,性价比较高。图书馆应根据自身经济情况、馆藏情况及读者群进行合理的电子资源采购,如若读者大多为年轻人,比较容易接受电子阅读模式,则可以加大电子资源的采购力度;若读者大多为老年人,习惯传统的阅读模式,则仍应以采购印刷文献为主。
在大数据的环境下,图书馆应借助大数据技术对读者过去的图书借阅记录、检索浏览记录、数字资源访问利用情况等图书馆行为数据进行数据挖掘和分析,发现潜在有价值的信息并分析其借阅习惯、偏好,得出读者的检索、借阅规律,并根据分析结果判断读者的兴趣爱好和需求,从而帮助读者更好的获取资料,取得更好的阅读体验,满足读者的个性化需求,还可以引导和激发潜在读者群。
此外,随着手机、平板电脑等移动阅读终端的普及和网络的便利,图书馆可以把大数据技术和移动通信技术相结合,将对读者的数据挖掘分析结果通过网络或者短信息的方式推送到读者的移动终端、电子邮箱等,为读者提供最新的移动信息的服务,实现读者即时、无障碍地享受图书馆信息服务。
只有当图书馆的图书资源得到优化,服务质量得以提高,才能更好的适应大数据时代的发展。图书馆进行这种转型,必须要有足够的技术、人才及资金支持。
大数据技术指的是从各种类型的海量数据中快速提取有价值信息的技术,主要包括数据分析、数据处理、数据挖掘、数据服务等。大数据背景的图书馆各种数据量急剧增长,数据规模不断扩大。而大数据分析要求存储系统高效、即时、可扩展,且读者阅读活动具有突发性和不可预测性,这就意味着存储系统要有较好的可扩展性和并发处理能力。其次,系统需要不间断工作,且数据结构多样化。因此,可靠的技术和硬件支持必不可少。另外,应该建立安全的信息采集机制和文件系统,保障数据共享和用户资料的安全,提供高可靠的服务。
表3 大数据分析处理系统表
图1 Hadoop 体系架构图
目前已知的大数据分析处理系统有MapReduce、storm、spark 等。详见表3。其中MapReduce 采用无共享大规模集群系统,具有良好的性价比和可伸缩性,且其模型简单,易于理解和使用,使其成为大规模海量数据平台的首选。Hadoop 是目前较为流行的处理大数据的分布式集群系统,它应用的编程模型就是MapReduce。
Hadoop 是一个由Apache 基金会所开发的分布式系统基础架构,如图1 所示。Hadoop 中最核心的设计是HDFS 和MapReduce。HDFS 是构建在廉价的PC 机器上的分布式文件系统,具有高容错性的特点。MapReduce 是构建在廉价的PC 机器上的分布式数据处理模型和运行环境。Hadoop 以其高可靠性、高扩展性、高效性、高容错性的特点,成为目前应用最广的大数据平台架构。
目前国外图书馆的大数据应用已获得了一些成功,我国的图书馆应向他们学习,在考虑自身需求的基础上,总结经验,加强核心技术的研究,开发图书馆的使用功能和适应性能,构建与国际接轨的数字图书馆服务系统。
大数据在图书馆的应用是一项新兴的工作,必须要有技术过硬的专业人员。为此,图书馆应鼓励馆员学习大数据相关技术,加强大数据管理、挖掘和分析等专业人才队伍的建设,积极引入技术性馆员,实现人才、大数据分析平台和用户服务系统的最优化结合。
大数据时代的图书馆员不仅要有足够的业务能力,而且要积极地学习新知识与新技术,拓宽自己的知识面,成为高素质的复合型人才。馆员能力和自身专业素质的提升,对图书馆的转型有很大的促进作用。
大数据时代图书馆需要进行大数据技术的员工培训,购买相关软件,以及建设相关资源等。此外,大数据只能对数字化的资源进行分析,所以应先将纸质文献数字化才能进行大数据分析工作,这些都需要足够的财政资金支持。财政资金是图书馆在大数据环境下开展资源建设的经济基础,离开资金支持,图书馆就很难进行大数据的应用。为此图书馆应努力向政府或者企业单位等争取财政支持,从而为社会创造更多的价值。
大数据时代,判断图书馆是否具备竞争力的一项重要指标就是数据的分析和挖掘能力。做好大数据的分析处理工作能够帮助图书馆构建新型的知识服务体系,优化图书资源,提高服务水平,从而推动图书馆更好的发展。但是目前大数据的应用仍存在很多技术难题,图书馆还面临着人才、设备、资金等方面的挑战,此外大数据在图书馆的应用还存在安全和隐私保护的问题,仍需要努力改进。
大数据作为一项新兴技术,在图书馆的应用尚处于起步阶段,图书馆应结合自身的实际情况,逐步开展大数据的应用研究工作,从而为图书馆带来更好的发展。