关键词:大数据;图书馆;云计算;数据挖掘;知识服务
摘要:文章阐述了大数据内涵和特征,分析了大数据对图书馆事业及其构成要素的影响,探讨了图书馆如何通过资源、技术及人才建设,重构大数据时代图书馆知识咨询服务模式。
中图分类号:G250文献标识码:A文章编号:1003-1588(2014)09-0122-03
作者简介:夏燕(1971-),江苏城市职业学院图书馆馆员。1大数据及其特征
据国际数据资讯公司(Global Pulse)估测,全球数据数量以每年50%的速度增长,这既包括数据流的增长,也包括数据种类的增多。据统计,全球企业和消费者2010年在硬盘、PC和笔记本等设备上存储了超过13EB的新数据,而1EB数据就相当于美国国会图书馆中存储数据的4,000多倍。2012年,全球的数据总量为2.7ZB(1ZB相当于10万亿亿字节)。预计到2020年,全球产生的数据将超过35ZB。数据容量增长的速度已大大超过原有软硬件技术的承受能力,传统关系型数据库已难以有效处理这些数据,人类确已迈入大数据时代。
大数据的应用十分广泛,不仅能创造新型产业业态,也能产生巨大的经济和社会价值。麦肯锡研究报告认为,大数据每年可为美国医疗健康业和欧洲发达经济体政府分别节省3,000亿美元和2,500亿欧元的开支。利用个人位置信息有可能创造出1,000亿美元的消费者剩余。通过大数据分析,企业可以发现新客户群体,确定最优供应商,不断推出创新产品。如淘宝网利用其掌握的第一手用户数据推出“淘宝魔方”服务,通过后台数据,挖掘用户评论、浏览量、收藏量,进而预测商家或商品的销售趋势。利用大数据分析,科研人员可开展医疗健康、石油勘探和环境治理等方面的研究。如生物医学研究领域就是大数据的先行者。以人类基因组计划为例,2008年人类基因组计划生产数据1万亿碱基对,2009年该数据量又翻了一番。美国国家医学图书馆基于科学数据建立了超级计算和数据处理Entrez平台,支持基础科学和应用科学的知识发现和数据关联以及分析基础上的模拟仿真研究。
何谓“大数据(Big Data)”?麦肯锡全球研究院(McKinsey Global Institute)在其报告《大数据:创新、竞争和生产力的下一个前沿》中是这样定义的:所谓大数据,是指大小超过了传统数据库软件工具的抓取、存储、管理和分析能力的数据群。大数据之“大”,不仅指数据的规模巨大,还包括数据的来源和类型复杂多样,大数据因而又被定义为“大数据=海量数据+复杂类型的数据”。
大数据的特征被概括为“4V”,即大量化(Volume)、多样化(Variety)、快速化(Velocity)和价值化(Value):①大量化。是指数据量从TB级跃升至PB级甚至更高,原有的集中处理和集中计算技术已难以适应。②多样化。是指大数据不仅包含结构化的数据,还包括网络日志、微博、邮件、图片、音频和视频等半结构化、非结构化数据。③快速化。是指数据实时生成,更新快,数据存储、传输和处理的速度也非常快,要求对数据实行交互式、实时或准实时的预判性分析。④价值化。尽管大数据价值密度低,但基于庞大数据的分析和计算,可以产生巨大的财富和价值,正因为如此,大数据被视为一种能形成竞争力的新型资产。
2大数据带给图书馆的影响和挑战
2.1对图书馆内部实体要素的冲击
2.1.1资源建设方面。大数据时代,通过电子商务、社交网络产生的,记录人们生产、生活行为的数据,大都是半结构化和非结构化数据,这些数据已占数据总量的80%以上。对这些非结构化数据的全面收集就有可能深入分析和了解用户偏好,真正实现精准和个性化服务。近年来,图书馆因数据收集意识不强、对于数据在决策当中的重要性认识不够等原因,目前图书馆对非结构化数据资源的采集和建库还几乎处于空白。图书馆连本系统用户信息行为产生的大数据资源采集尚未提上议事日程,更不用说对社交网络、企业大数据的收集了,图书馆因而很难融入用户群体的细节服务。此外,由于大数据时代科研范式和学术信息交流方式发生了变化,E-science环境下的科学研究越来越表现出数据驱动的特征,科学数据资源将成为图书馆数字资源的重要组成部分。目前,世界各国都在积极建设数字化、网络化的科学数据平台,如美国国家医学图书馆生物医学领域的NCBI、生物多样性领域的BHL等。存储在各类数据库和文档系统中的科学数据以及以业界标准化关系数据库所产生的元数据体系,将构成一种新型的、分布式的和整合式的数字图书馆。因此,在西方国家特别是在美国,研究型图书馆普遍设置了“数据监护(Data Curation)”相关岗位,一些图书馆还成立专门的“研究数据管理服务工作组(RIDMSG)”,为科研提供特色化、前沿化的数据服务。而国内图书馆尚未发现针对科学数据的采集和平台建设,更谈不上特色服务了。
夏燕:大数据时代图书馆面临的挑战与对策夏燕:大数据时代图书馆面临的挑战与对策2.1.2技术及基础设施层面。基于大数据的数据抽取和集成、数据分析及数据解释,需要全新的大数据处理框架和关键技术,传统SQL数据库理论和技术已无能为力。近年来,尽管一些专业数据公司开发了Hadoop云计算开源工具及MapReduce等分布式并行计算模型,但一方面这些技术工具本身在可扩展性、性能、容错性、支持异构环境及兼容性等方面需要进一步完善;另一方面,从数据集成、数据分析到数据可视化,大数据管理和利用的复杂程度远超出传统的关系型数据库。而图书馆行业绝大部分从业者都不是数据分析专家,大数据管理系统的易用性问题将会在相当长一段时间内困扰图书馆界,复杂的大数据技术及分析工具制约了图书馆从大数据获取知识的能力。大数据环境下,计算机存储及计算规模迅速增加,出于降低成本的考虑,越来越多的知识服务机构将应用由高端服务器转向中低端硬件构成的大规模计算机集群,因而要求计算机及服务器集群拥有海量、超大规模的数据存取与计算能力,网络设备能快速将分块的大数据集复制到集群服务器节点进行处理,软硬件条件能支撑保护高度分布式和数据的可信应用体系。这些都对图书馆支持非结构化数据存储及分析的软硬件条件提出了新的要求。endprint
2.1.3人力资源建设方面。大数据的应用是技术难度极高的集成应用,如需要集成技术(软件和系统等),数学(统计、建模和算法等)、商业分析(具体业务领域的相关知识)和可视化(语言和图表等)等多个学科领域的技术成果。美国国家科学理事会NSB在其发表的《长期保存的数字数据集合:支持21世纪的研究与教育》报告中,将图书馆学家与信息学家、计算机科学家、数据库和软件工程师或程序员、数据管理者等对科学数据资源的成功管理起着关键作用的人们并列称为数据科学家。美国研究图书馆协会也已提出,研究数据管理将成为下一代图书馆员的能力之一。有专家粗略估计,我国大数据分析专业人才缺口达100万人。图书馆数据管理人才就更为稀缺。目前,图书馆现有分析人员只能对数据进行简单的报表和描述性分析,可承担数据分析和数据挖掘的“数据馆员”可谓凤毛麟角。培养大数据分析和管理人才,是图书馆面对的最为紧迫的难题。
2.2对图书馆知识服务模式的影响
图书馆与科学研究、科技创新及知识服务关系非常密切。作为嵌入式协作化知识创新环境,图书馆具备科技创新所需要的知识服务能力、科研数据管理和基于知识协作的交互协调创新能力。伴随着信息手段及知识组织方式的不断进步,图书馆核心业务由参考咨询向信息咨询再向知识咨询演进的趋势十分明显。大数据则为图书馆知识咨询服务带来了丰富的数据资源、专业的数据分析技术及与专业知识服务机构合作的机会。通过大数据分析可了解用户、行为、意愿、业务需求、知识应用能力及知识服务需求等需要什么,更可以利用数据对用户的科研创新合作过程及合作交互型知识服务过程将要发生什么进行分析和预测。可以肯定的是,基于数据的处理、组织、分析与挖掘的用户信息行为分析与内容分析,与知识服务完美融合的知识咨询服务,必将成为图书馆在大数据时代的咨询服务模式。
2.3对图书馆整体生存地位的挑战
大数据不光影响图书馆事业内部各构成要素,从图书馆整个生存环境来看,由于大数据来势汹涌,其商业价值和战略资源前景受到政府、企业及知识服务机构的高度关注。在大数据时代,谁能有效地垄断数据,谁就有可能成为世界的霸主。近年来,IT巨头纷纷投入巨资涉足大数据开发和应用领域。2006年,Microsoft以1.1亿美元购买了大数据公司Farecast。2008年,Google以7亿美元购买了为Farecast提供数据的ITA Software公司。而图书馆在资金、技术和人才等方面显然无法与大数据商业公司相比,这些专业公司对图书馆的部分业务甚至核心业务显然构成了巨大挑战。
以“语义网”(Semantic Web)为例,它实际上就是“数据网”,是一个全球的数据库网,在这个数据库网中,计算机能自动为用户搜寻、检索和集成网上的信息,而不再需要搜索引擎。大数据时代正在催生的这个最大的技术变革,就是要重新构造互联网,打造下一代互联网。众所周知,现有互联网搜索引擎已引起对图书馆的价值质疑、贡献边缘化、技术落后、人员不适应未来等多重危机,甚至导致了图书馆是否消亡的争论,将来以语义网为代表的基于大数据的知识发现平台一旦开发成功,将给图书馆带来更为严峻的影响和挑战。
3大数据时代图书馆的应对之策
3.1重视用户信息行为数据及科学数据资源的建设
大数据时代的图书馆服务所需的数据既包括当前图书馆正在建设的文献资源、数字资源、网络资源,也包括图书馆内外海量的非结构化数据,其主要来源有RFID射频数据、传感器数据、社交网络交互数据及移动互联网数据,具体如网络日志、视频、图片、地理位置信息、交易信息等数据资源。图书馆当务之急应对本领域用户信息行为产生的大量数据,如读者查询书目产生的OPAC日志、读者借还书产生的流通日志、读者对于数据库的浏览和检索历史,及基于手机、平板电脑等移动设备而产生的读者个人信息、地理位置、浏览信息等加以收集并纳入馆藏。
此外,图书馆特别是研究型图书馆应收集从宏观到微观,从自然到社会的观察、感知、计算、仿真、模拟、传播等设施和活动中产生的科学数据,加快建立融数据和文献于一体的新型数字图书馆,形成数据与信息融合的互操作架构,以形成图书馆独具特色的科学数据基础设施平台。
3.2引进大数据处理平台及分析工具
云计算已是较为成熟的大数据基础平台和关键技术,目前最为流行的开源云计算处理框架Hadoop 及基于Hadoop的HDFS和MapReduce等关键服务,可提供关联规则学习、预测建模分析,被广泛应用于推荐系统、商业智能、决策支持等领域。这些大数据处理框架平台可与原有关系型数据库部署在一起,有效组装和整合新旧数据集合,能够实现对结构化和复杂数据、非结构化数据的获取、存储、组织、分析及决策。
Hadoop在图书馆已得到初步的应用,如Nutch搜索引擎中的分布式搜索、索引等。图书馆应针对资源构建方式、大数据处理需求及技术条件,充分运用云计算环境中存储、计算及网络等资源的分布式网络化服务的资源组合能力,重新定义和开发图书馆用户信息行为数据的获取、存储、组织和分析系统和工具,将数据挖掘工具嵌入图书馆需要数据分析的业务环境,解决图书馆的大数据应用难题。
3.3开展基于大数据的知识增值服务
图书馆开展的大数据知识增值服务,主要包括以下几种: 首先是图书馆自身建设所需的大数据分析。这类分析一般以图书馆本系统信息服务过程中所产生的大量非结构化、半结构化数据为对象进行分析,了解读者信息行为正在发生什么,预测和分析将会发生什么,为图书馆个性化、人性化服务提供先觉价值和智慧服务。其次是嵌入式知识服务。图书馆应利用大数据特别是科学数据基础平台,提供以智力、知识、工具的应用为特征的深度知识服务,将知识咨询服务嵌入管理、学科、科研及知识创新过程之中,促进学习、科研和知识转化与图书馆服务的深度融合。此外,图书馆还可利用常规及深度数据分析,为客户提供科技创新能力智能评价、知识服务竞争力分析、知识创新预测性分析、服务态势综述等高附加值服务。
3.4强化数据馆员的培养和使用
大数据人才包括数据科学家、数据工程师和首席数据执行官(CDO)等,他们需要具备信息技术、自然语言理解、机器学习、数学算法、统计学等多方面的专业技能。这些数据管理和分析人才可通过合作或委托培训的方式进行培养。2013年,北京航空航天大学计算机学院、软件学院和淘宝、百度、腾讯等企业合作,联合开办了国内第一个大数据专业的工程硕士班。这种联合式的大数据人才教育模式,为图书馆的大数据人才培养途径提供了捷径与借鉴。
4结语
正如Google的首席经济学家Hal Varian所说,数据是广泛可用的,所缺乏的是从中提取出知识的能力。数据收集的根本目的是根据需求从数据中提取有用的知识,并将其应用到具体的领域之中。在大数据时代,从大量的数据中分析其潜在的价值将成为图书馆的一大主要业务,而提供这些业务的水平将决定着图书馆的发展水平和方向。
参考文献:
[1]韩翠峰.大数据带给图书馆的影响与挑战[J].图书与情报,2012(5):37-40.
[2]郭晓科.大数据[M].北京:清华大学出版社,2013.
[3]刘明,李娜.大数据趋势与专业图书馆[J].中华医学图书情报杂志,2013(2):1-6.
[4]但彬.大数据=海量数据+复杂类型的数据[EB/OL].[2013-10-07]. http://www.d1net.com/cc/factary/88831.html.
[5]张兴旺.图书馆大数据体系构建的学术环境和战略思考[J].情报资料工作,2013(2):12-17.
[6]樊伟红等.图书馆需要怎样的“大数据”[J].图书馆杂志,2012(11):63-77.
[7]朱静薇,李红艳.大数据时代下图书馆的挑战及其应对策略[J].现代情报,2013(5):9-13.
(编校:崔萌)endprint