大数据视野下图书馆的新走向

2013-10-25 07:47张学军
山东图书馆学刊 2013年6期
关键词:图书馆时代服务

张学军

(山东财经大学图书馆,山东济南250014)

我们正处在一个不断产生“时代”的时代。2013年被媒体称为“大数据元年”,它标志着我们的生活和思维方式因大数据再次发生潜移默化的改变,世界正在开启一次重大的时代转型:一个大规模生产、分享及应用数据的新时代。图书馆也总是随着特定的社会环境、价值观念、文化形态等多种因素的变化而变化[1]。

1 大数据概述

什么是“大数据”,现在没有统一的定义。通常是指无法在可容忍的时间内用传统IT技术和软硬工具对其进行感知、获取、管理、处理和服务的数据集合[2]。大数据的特点可用4个V概括,即Volume(数量巨大)、Variety(多样化,以非结构化数据为主),Velocity(实时性,需要更短的时间处理数据)和Value(价值大密度低)。首先,数据集合的规模在不断扩大,已从GB到ZB来计数。根据市场调研公司IDC的报告,2012年人们创造了2.8ZB的数据信息总量[3]。其次,种类繁多。大数据包括结构化、半结构化的交易数据、以及非结构化数据和交互数据。现在非结构化数据在互联网的应用呈现大幅增长,2012年末非结构化数据所占比例已达到整个数据量的75%。再次,大数据通常以数据流的形式动态而快速地产生,并且具有很强的时效性。只有用户能及时掌控数据流,才能有效地去利用这些数据。另外,数据自身的状态及价值,往往随着时空的变化而发生演变。并且数据的涌现特征比较明显,数据的价值巨大。但是由于受传统思维与技术的影响,却使人们面临在实际环境中信息泛滥而知识匮乏的现象,造成大数据的价值利用密度低的窘态。总之,大数据是一种资源和工具,我们认识它的意义并不仅仅是通信,其本质是我们可以从大量的信息中学习到从较少量的信息中无法获取的东西[4]。

2 大数据时代图书馆的变革

2.1 图书馆具备的大数据特征

随着科学技术的飞速发展,在每个领域都产生了大量的数据。2011年美国Mckinsey Global Institute发布了《Big Data:The Next Froutier for Innovation,Competition and Productivity》的调查报告,指出尽管全球数据飞速增长,但有将近87.5%的数据未得到真正利用,许多数据资源并没有形成真正的知识源以供研究人员利用[5]。图书馆历来是信息技术应用的重镇,“大数据”时代亦不例外[6]。Harvard已经将“大数据”的服务引入了图书馆[7],并付诸应用[8]。因为在数字化时代,数据处理变得更加容易,更加快速,人们可以在瞬间处理成千上万的数据。图书馆拥有的数据资源首先是种类繁多。既有纸质纯印本、光盘资源、网络资源和数据库资源等结构化信息,还有日常读者服务等结构化信息、还有图书馆自身建设的相关数据;其次,数量庞大。如2008 年底,CALIS 文献数据总量达到 180T[9],国家图书馆数字资源总量至2010年底已达480T[10],目前,国家馆正在进行一期维修改造,建成之后的数字化图书馆的非结构数据存储量将达到800TB左右[11]。工程的数字资源总量也达到了 108TB[12]。由此看来,全国图书馆的数字资源总量已聚集成为一个庞大的数据集。再次,目前图书馆的自动化服务水平已发展到新的阶段,由于各图书馆内自身建设的数据其编码方式、数据格式及应用特征无法统一,导致每个图书馆间存在较大差异,因此,形成了大量的异构数据。[13]另外,随着学科化、知识化、个性化等新型服务方式的出现,用户的服务信息每日剧增,用户的服务要求越来越高,图书馆必须根据用户的服务信息做出相应的调整。因此,根据相应环境和条件的限定,从大量的数据中分析和挖掘出用户的现在和未来需要已显得急不可待。

2.2 全新管理模式的诞生

在大数据时代,一切皆可以量化。不仅文字、方位、沟通变成了数据,而且世间万物也可以数据化。即它可以用数据来表现世界的众多层面。大数据引领我们的思维、管理产生巨大变革,图书馆的用户可用前所未有的方式去体验新的环境。如同“大数据时代预言家”维可托·迈尔舍思伯格形容的那样:“数据的真实价值就像是漂浮在海洋中的冰山,第一眼只能看到冰山的一角,但是绝大部分隐藏在表面之下”[14]。同时,他还提出了大数据价值链的三大构成,即数据本身、技能与思维。根据此构成,那么就会出现大数据时代的三类图书馆:基于数据本身的图书馆,它拥有大数据或者还可以收集大量数据;基于技能的图书馆,它们虽然掌握这种专业技能,但是不一定拥有数据或者提出数据创新性用途的才能[15];基于技能思维的图书馆,数据和技能对它们来说并不是成功的关键,让它们脱颖而出的是它们的创新思维,即怎样挖掘数据新价值的想法。如在电子书阅读器里面记录了读者反复标记过和强调的地方,如果了解这些数据,就有可能实现它的潜在价值,以此预测和判断哪些主题的书籍有可能成为畅销书。同时为馆内的资源建设起到一个辅助作用。

2.3 服务理念的变革

大数据给图书馆的服务带来新的变革,这种变革波及到各个方面。从以借阅为主的传统图书馆服务到大数据时代追求个性化服务的变革,在理念上已经有了很大的转变。首先在大数据时代,图书馆的服务不仅包括数据存储及获取服务,还有数据引用及更深层次的数据分析服务。在以用户为中心的理念下,随着技术的成熟,图书馆的服务既要保留传统的被动式索取服务,又要提供主动的推送服务。其次,在大数据时代,每个人都是一个处理单元,每个人所接受到的信息都是个性化的,这一切都依赖于数据分析。数据分析让图书馆更好地掌握用户的各种动态信息,以便进行更精准的目标定位,使每一位用户享受个性化乃至全方位立体化的优质服务。

2.4 馆员角色的定位

在大数据时代,随着“职业配书人”的兴起,图书馆馆员的角色定位也发生了变化。首先,馆员和用户之间的互动变得越来越重要。数据分析与预报平台就像是图书馆的GPS,将用户活动的前景全部收纳进来。因此这种一对一的定制服务变得更加现实和有说服力,使图书馆员真正充当起了“智慧图书馆员”的角色。其次,帮助“特殊人群”掌握最新、最全和最广泛的信息。图书馆馆员可在互联网上建立一个门户网站,汇总所有职能各异的组织机构各自发布关于各类设施与服务的信息,并保证网站内容获得实时更新。再次,馆员通过数据分析,及时发现特定信息需求的人群,并积极主动地提供相应的信息推送服务,以此来提升图书馆的知名度。

3 大数据时代图书馆的服务形态:从数据服务、信息服务、知识服务到智慧服务

随着科学技术飞速的发展,在各个领域产生了大量的数据,在这些数据中蕴含了大量的有用的信息,如何从这些数据中得到有益的信息,即如何把数据变成知识及智慧则体现了从数据到智慧的挑战和跨越:如图1所示,信息源于数据,而知识源于信息更需要智慧[16]。数据、信息、知识和智慧分别代表增值链上的不同层次,每个层次又代表着信息加工的不同阶段。

图1 数据规模

第一层:数据,代表着原始数据,是结构和状态,而没有行为,它是构成信息的原始的构建材料。数据是孤立的、互不关联的客观事实、文字、数据、图形和符号,它们只是表示,而无含义。在此阶段所对应的服务形态为大数据服务形态,即数据服务。数据服务更多地是提供一些资源服务及传统的数据能力服务。如传统的图书馆文献服务是指以纸质印刷品(图书、期刊、报纸)为主,基于馆藏的文献源,由图书馆员工采用手工操作为读者提供文献的服务。其特点是:以“图书”为中心;为读者提供整本书刊;阵地式服务,读者必须到图书馆才能接受服务;以书刊外借和阅览作为主要服务内容。

第二层:信息,即有价值的数据。如人们对数据进行系统地采集、组织、整理及分析。在信息增殖链上,若将数据提升为信息,就要对其进行加工处理转换成有用及有意义的数据,即信息。在现在的存储系统中如运用传统的数据检索无异于大海捞针,必须通过互联网基于对象索引技术,将图像文件通过标准的协议再转化成缩略的数据封装起来,不仅利于查询,同时也解决了文件共享问题。这种技术模式实际上是基于新的大数据而架构的[17]。此时所对应的服务形态为信息服务。图书馆的信息服务主要是指以电子文献信息为媒介,采用电子信息技术为主要的处理手段,向用户提供的一种服务。其特点是:以计算机管理为手段,以读者为中心;向读者提供需求的知识“信息”单元;提供数据库检索服务;信息咨询,并向读者辅导对海量信息的资源利用,其服务方式为全开架。[18]

第三层:知识,是指思考内涵的抽象替代体[19]。如果将信息提升为知识,还需要根据用户的实际需求,把信息内容进一步的提炼、比较、挖掘、分析,然后再概括、判断和推论。如在针对特定用户的需求和问题时,可在信息分析的基础上,提出解决方案。因此,我们说“知识”是指结构化、相互链接的、不断增长的信息及其间存在的复杂的相互关系。其增长来源于信息同人的交互,以及其他辅助技术对其所蕴含关系分析或所蕴含规律的应用[20]。它是用于解决问题的结构化信息。此阶段所对应的服务形态为知识服务,如大数据分析可以帮助图书馆灵活、方便地从已有结构化及非结构化数据资源中抓取有用的知识、关系、模式、症状用于新的知识服务模式[21]。这是在数据服务和信息加工的基础上,数据融合所体现的价值[22]。知识服务的最大特点就是融入用户知识创新的过程中,面向每一位用户针对其专业特点提供个性化解决方案,通过对知识信息的聚集和加工整理,得到有用的知识信息,并分析出这些信息之间的关系。另外,还可根据用户的需求制定出知识服务的产品方案,并开展各类协作及学术交流活动,以最终为用户提供出有特色价值的信息产品。

第四层:智慧,是为达到某种目标而运用知识的能力。它是在知识的基础上运用知识创造新知识、解决新问题的过程。它所对应的服务为智慧服务,从数据(文献)服务到智慧服务,反映了服务从依赖资源、技术与工具到越来越依赖于图书馆人的智慧[23]。在大数据时代,图书馆的智慧服务注重的是价值的实现。其服务特点是:通过数据挖掘,获取隐含的、潜在的知识。并通过数据挖掘技术,从数字图书馆、数据仓库和浩瀚的网络信息空间中发现并提取隐藏在其中的信息,帮助信息用户寻找数据间潜在的关联,发现被忽略的要素,而这些信息对预测趋势和决策行为是十分有用的[24]。只有这样才能把图书馆的智慧转化为决策智慧,为知识性用户提供决策支持服务。另外,图书馆还可通过数据挖掘和专业分析为科学研究提供智慧服务。在不同的专业领域有其特定的专业数据库,如化学专业的化合物数据库,通过描述建立映射关系,可实现知识的发现[25]。再次,图书馆的数据团队可深入到某一学科或某一专业研究项目中去,从课题的立项到成果的鉴定,进行全面的跟踪服务。并通过对专业数据库进行的智能及链接,对口提供专业化和面向课题的个性化专题的知识服务。

总之,大数据技术为图书馆实现从知识服务向智慧服务模式的转变及突破和流程的动态监测等一系列业务需求提供了新的解决方案和思路。它不仅提升了知识服务的水平,而且对于图书情报学理论研究及图书馆的应用实践也具有重要的意义。

4 大数据时代图书馆的应对策略

4.1 搭建云计算技术的基础平台建设

大数据时代不仅改变了传统的IT结构与数据存储及利用机构,而且还对在社会中储存信息知识、提供信息服务的信息中心图书馆形成了冲击和挑战[26]。在新信息环境下,存在于社会空间中的信息数据量急剧增长,而在大数据时代更会促使数据产生的范围、方式及途径发生迅猛的变化,人们的举动、言行及行为规律都会产生大量的半结构化和非结构化的信息数据。这些数据的组成结构、类型格式及存在的形态都会非常复杂。数据量之大超乎想象,未来几年数据量会更大。根据IDC“数字宇宙”研究机构的研究结果表明:2011年,全球数据总量就达到了 1.8ZB,其增长速度超过了摩尔定律,[27],如下图所示:

图书馆对这些数据的存储、应用将成为重要问题。因此,图书馆的应对策略是搭建云计算技术的基础平台建设。图书馆的基础平台建设包括服务器、数据存储系统等,要想满足大数据时代未来发展的需求,必须要“拥抱变化,主动改变”。搭建云计算技术的基础平台建设,就是为了满足图书馆业务不断变化的要求。在云计算技术中其云存储技术、虚拟化技术及云安全等关键技术就是为了解决怎样理想地存储数据,以更好地分级处理及安全地保护数据。因此,应用云计算模式建设图书馆高效灵活可扩展的、又能适合数据多级集中的资源,不仅能支撑数据存储及数据分析系统稳定高效的运作,还能满足大数据时代图书馆未来发展的需求。

资料来源:IDC2008-2011年全球数字信息总量(单位:ZB)

4.2 加强数据生命周期的管理

数据生命周期管理是指对有不同业务数据进行贯穿其整个生命周期的管理,通过完整的信息生命周期管理解决方案,可以让不同类型的数据存放在适合的存储设备上,利用适当的技术手段对这些数据进行处理和分析。这样,用户将可以提高现有存储设备的利用率。因此,数据生命周期的管理非常重要,其环节如下图所示[28]:

数据存储与删除:数据存储指在不同的应用环境下将数据以合理、安全、有效的方式保存到存储介质上并实现有效访问,其目的在于满足用户对数据保存在高性能,高可靠性和高扩展性等方面的需求[29]。从图书馆数据存储介质的历史演变来看经历了磁带、磁盘阵列、固态硬盘及光存储五个阶段,“光存储”是图书馆目前及未来数据中的所面对的现实。而在存储的策略上,首先要构建合理的分层的存储硬件环境,即根据数据能进行自动分类的存储资源管理工具,以满足不同类型的业务数据能在不同的生命周期阶段所需要的存储要求。但关键的数据应该选用存储在两种不同的介质上,同时还要进行数据备份保护。另外,为了打造一个良好的信息生态环境,对用户数据的保留应限定一个存储期限,以达成业务目的或满足法律要求所需的最短时间为期限。存储期限以提升人类觉察力和权力为目标,需要相对少的技术挑战。它通过清除过时和无关的信息,提升了数据存储的整体质量。存储期限能够为不同的社会预期和价值观提供弹性,更重要的是它逐渐为我们担负起了理解数字化记忆的重担,并为人类社会保留了“快速反应”的能力[30]。在学术文献中,已经有人为更加严格、全面的信息生态授权提出建议。耶鲁大学法学院教授杰克·巴尔金呼吁将其所谓的政府失忆制度化,即“每隔一段时间对某些种类的数据定期进行销毁,除非有充分的理由对其予以保留。”[31]在缺乏更完善方法的今天,存储期限无疑向一个更善于遗忘的世界迈出了有价值的第一步。如利用重复数据删除技术Avamar软件来优化数字图书馆的数据备份,就取得了良好的效果,它不仅节省存储空间,降低存储成本,而且还提高了数据保护的级别。[32]

数据处理:就是利用先进的数据检索及分析工具,对不同类型的数据所进行的数据处理,以提高图书馆数据的利用率。数据处理有两个侧重点:一个是针对过去,揭示规律;另一个是面对未来,预测趋势。前者是称为描述性分析;后者称为预测性分析。

数据管理:通过对不同类型业务数据的管理策略,实施自动的合理的分层数据管理,以提高数据的可用性及管理效率。如美国普渡大学图书馆的分布式数据管理中心D2C2[33],为响应国家科研基金会(NSF)的数据管理规划(DMP)任务,在图书馆同教师合作研究的基础上,成立了数据管理工作小组。其工作内容包括:识别NSF或其它资助机构的数据管理需求;利用Data Curation Profile Tookkit工具去完成管理计划的自我评估,将数据或工作流程化为一个DMP;合作建立普渡大学研究机构库(FURR)为数据管理计划提供目标数据集模型[34]。不仅为图书馆领导科学决策提供了强有力的保障,而且还可实现分析型的用户资源管理模式。

数据应用:是指前者通过对一系列的数据进行的统计、分析和管理,所应用在实际工作中的实践阶段。如数据挖掘在资源建设上的应用,主要是通过挖掘文献的使用规律,以此提高传统与数字文献资源建设的针对性,用以评判文献信息资源的利用率及有效率,以方便建设特色馆藏。另外,能及时发现信息资源的漏缺,做好文献的收集订购工作,以实现合理的资源配置、优化馆藏结构,为教学科研做好服务工作。

数据安全:数据安全是使用各种软件保证文件的安全。它贯穿在数据生命周期的每一个环节。首先数据的集中存储增加了秘密泄露风险;另外,数据的集中存储与规模也影响安全控制措施能否正常运行;第三,由于安全防护手段更新升级的速度跟不上数据量非线性增长的步伐,所以数据安全防护的漏洞也将会暴露出来;第四,一些基于大数据的分析所涉及到的个体安全和隐私问题也存在隐患。图书馆在利用数据挖掘及数据分析获取价值的同时,黑客会向集中后的数据发起挑战,从中窃取有用内容:如邮件、电话等信息。所以,数据安全是数据生命周期环节中最为关键的因素。

4.3 营造数据文化,培养智慧型数据馆员

图书馆员的角色一直在变化中,这种角色上的变化不是源于图书馆员自身的主观积极性,而是在技术和思维上如何做好双重准备去应对这种变化。[35]技术是指新技术对原有技术的升级和替代,其发展过程必然是从初级到高级,在这个过程中物理设备所涉及的标识、传感、传输等层面会有大量的技术出现。掌握这些“智慧个体”,拓展图书馆先进的服务模式和丰富的服务内容都需要依赖相关的应用软件[36]。对这些软件的学习及掌握成为推动大数据时代图书馆发展的动力。所以,在任何时代,只有不断地学习,拥有新技能、掌握新技术的人才不会被时代所淘汰;思维是指要具有这种大数据意识。现代社会,数据意识很重要,它包含着精确与开放、透明与分享等因素,相信数据、用数据来说话,是理性精神的一种表现[37]。现代西方国家运用数据的意识和挖掘数据的历史都早于中国[38]。数据中蕴藏着信息和知识,但信息和知识不会自动呈现,需要不断地开发和挖掘。因此,为了适应大数据时代的现实环境,首先要具有数据意识;其次要用胜任现有体系及服务的执行和管理;再次还要具备执着的献身精神和卓越的洞察力,时刻关注着如何通过数据分析,建设新信息源提高服务质量,并能聚集那些有效传播信息的新技术。尤其是在数字时代,图书馆的个性化服务需要大量的数据支撑,没有数据的积累就谈不到服务的创新性。

〔1〕陈传夫,吴钢.图书馆业态的变化与发展趋势[J].中国图书馆学报,2007(3):5-14

〔2〕李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域[J].中国科学院院刊,2012(6):123-126

〔3〕信息大爆炸[EB/OL].Http://www.ifanr.com/data/278882.[2013-04-17]

〔4〕世界迎来大数据时代[N].参考消息,2013-05-06(12)

〔5〕MeKinsey Global Institute Big Data:The Next Frontier for Innovation,Competition and Productivity[EB/OL].Http://www.mckinsey.com/insights/mgi/research/techndogy-and-innovation/big-data-the-next-frontier-for-innovation.[2012-08-11]

〔6〕〔7〕The New York Times.Harvard Releases Big Data for Books[EB/OL].Http://bits.blogs.ntetmes.com/2012/04/24/Harvard-releases-big-data-for-books/.[2012-08-11]

〔8〕Audrety Watters.Strata Week:Harvard Library releases big data for books,Cloudera’s New.Hadoop.distribution,Splunkgoespublie[EB/OL].Http://radar.oreilly.com/2012/04/Harvard-bookdata-hadoop-splunk-ipo.html.[2012-08-11]

〔9〕2008年中国教育教育信息化十大事件[EB/OL].Http://www.e-gov.org.cn/xinxihua/news004/200901/98561.html.[2012-06-20]

〔10〕国家图书馆“十二五”规划纲要[EB/OL].Http://www.ndcnc.gov.cn/dsh-footer/gygt/ghgy/.[2012-06-20]

〔11〕国家图书馆:打造大数据时代的数字图书馆[N].中国电脑教育报,2013-02-04(17)

〔12〕全国文化信息资源共享工程介绍[EB/OL].Http://www.ndcnc.gov.cn/libpage/gxgc/index.htm/.[2012-06-20]

〔13〕杨海燕.大数据时代的图书馆服务浅析[J].图书馆与情报,2012(4):120-122

〔14〕〔15〕[英]维克托·迈尔舍恩伯格,肯尼思·库克耶著;盛杨燕,周涛译.大数据时代:生活、工作与思维的变革[M].杭州:淅江人民出版社,2013:104-105,序,160-161

〔16〕梁光德.智慧服务——知识经济时代图书馆服务新理念[J].图书馆学研究(理论版),2011(6):88-92

〔17〕李奕.大数据应用方式:从数据服务、信息服务到知识服务[N].中国计算机报.2012-07-09

〔18〕张宝泉.图书馆传统文献信息服务与现代信息服务的比较研究[EB/OL].Http://www.doc.com/p-528075065.html.[2007-05-08]

[19][20]董颖.知识服务机制研究[D].中国科学研究生院博士学位论文,2003:7-26

[21]樊伟红.图书馆需要怎样的“大数据”[J].图书馆杂志,2012(11):63-77

[22]李奕.大数据应用方式[N].中国计算机报,2012-07-09(24)

[23]柯平.当代图书馆服务的创新趋势[J].高校图书馆工作,2008(2):1-7,8

[24]罗彩冬.高校图书馆开展知识服务的运营思路和方式之探讨[J].情报杂志,2004(11):86-88

[25]谢岩岩.孙继林.基于数据挖掘技术的知识服务体系[J].图书馆杂志,2010(5):59-64

[26][27]许娓玮.国家图书馆:打造大数据时代的数字图书馆[EB/OL].中国信息主管网.www.cio360.net/[2013-02-05]

[28]何俊等.信息生命周期管理的分层模型及实施方法[J].图书情报工作,2007(2):67-70

[29]信息产业存储行业分析报告201202[EB/OL].Http://www.docin.com/p-379716385.html.[2013-02-06]

[30][31][32](英)维克托·迈尔舍恩伯格著;袁杰译.Delete删除:大数据取舍之道[M].杭州:浙江人民出版社,2013:223-228;191-193;191-228

[33][34]洪程.国外科学数据服务现状研究[J].图书馆杂志,2012(10):31-34

[35](英)伊安·约翰逊;陈旭炎译.智慧城市、智慧图书馆与智慧图书馆员[J].图书馆杂志,2013(1):4-7

[36]黄力.基于物联网技术的图书馆服务模式与内容的研究[J].图书馆学研究,2011(3):51-55

[37]聂细文.大数据时代面临的统计挑战[N].中国信息报,2013-01-08(7)

[38]于元斌,丁爱平.数据意识不可或缺[N].解放军报,2012-12-13

猜你喜欢
图书馆时代服务
服务在身边 健康每一天
服务在身边 健康每一天
服务在身边 健康每一天
图书馆
招行30年:从“满意服务”到“感动服务”
e时代
e时代
e时代
去图书馆