关键词:大数据;图书馆;信息服务
摘 要:文章通过分析大数据的特征与发展前景,结合图书馆信息服务的实际情况,重点探讨大数据给图书馆带来了哪些挑战与机遇,并提出大数据环境下图书馆信息服务体系建设的构想,包括可以帮助图书馆用户分析、建立新型知识服务引擎、建立网络化信息资源智能组合方式、对大数据的智能分析及智能辅助决策等,建立各类知识服务及业务建设的风险模型。
中图分类号:G253 文献标识码:A 文章编号:1003-1588(2014)01-0111-03
作者简介:桂定君(1980-),深圳图书馆馆员。
新形势下,数据增长宣告大数据时代的到来,但是社会各界对于大数据存在不一样的认知。就图书馆而言,图书馆作为信息中心,不可避免地面临着大数据浪潮的冲击,大数据环境下的图书馆服务体系转型是图书馆发展的必然。
1 大数据概念的诞生及发展前景
麦肯锡曾经预言数据将逐渐成为重要的生产因素,而大数据将预示生产率的增长。通过分析大量数据获取更多的知识与价值,是大数据时代的显著特征,根据美国最近两年的互联网数据报告显示,互联网上的数据总量每年增长将近一倍,目前90%的数据是近两年产生的。可以预见的是,大数据时代即将到来,对于大数据价值的挖掘将成为信息工作者未来工作的重要环节。美国政府于2012年启动“大数据研究发展计划”,致力于研究发展大数据的采集、组织、分析、决策工具及技术[1]。
新的信息技术与利用形式在信息知识管理活动中起重要作用[2],图书馆的知识服务体系包括知识提供者、知识接受者、知识运营者及知识本身,还涉及数据的结构、信息的深度、智能评价、知识价值与未来发展规律分析等高层次信息分析服务。为用户提供系统性、预见性知识服务是图书馆在大数据时代背景下的新价值。
笔者通过分析大数据的基本特征、结合图书馆信息工作的实际,指出大数据时代给图书馆带来的挑战与机遇,提出建设适应大数据时代的图书馆信息服务体系的构想,为其他学者提供参考。
2 大数据给图书馆带来的新挑战
2.1 大数据的特征
顾名思义,大数据首先指数据的数量之大,比如:在图书馆领域中大数据的数据源来自植入在书本当中的RFID图书资源跟踪技术,RFID技术的普及将成为图书馆大数据的重要来源,还有社交网络目前所产生的数据量在信息传播媒介中稳稳占据的优势地位,社交网络数据也将是图书馆大数据的主要来源之一。通信技术与移动终端的发展使得图书馆多了一个获取移动电子设备、人员、资源、用户行为和需求等信息的渠道[3]。如能对这些信息进行有效的开发,将能提高图书馆知识服务的作用,为用户提供丰富的辅助决策信息。大数据的概念可以总结为4个特征:①容量。大数据的容量级别是过去的数据无法比拟的,它的起步容量已经达到PB级,一般的计算器已经无法匹配数据的增长速度。②多样性。大数据是异构数据,它包含结构化、半结构化以及非结构化的数据,并且它们之间是可转化的,也就是说大数据结构是可变的,甚至是随时间变化。③速度。大数据的大部分内容是交互式实时生成的内容,用户希望得到高于常规数据分析的预测性深度分析,以通过数据了解现在与未来。④价值。大数据的巨大价值在于将已有结构化、半结构化数据与非结构化数据进行融合和分析后,会挖掘出很多新的业务信息[4]。
2.2 大数据给图书馆带来的挑战
2.2.1 大数据带来巨大的数据增量对图书馆现有的计算与存储能力的挑战。新的数据源一方面减低了数据的成本,另一方面多样的数据类型与数据结构加大了数据的复杂程度。现有的数据技术无法匹配大数据的应用需求,难以在海量数据中挖掘出有意义的社会与科学问题,为了使图书馆形成新的信息服务范式,图书馆的信息服务架构改革势在必行。首先,要解决的是数据存储的问题,构建合理的分级存储架构利于信息资源的管理。其次,信息服务的出发点以数据本身为中心,从过去以计算应用为主,转化为计算应用服务与数据。最后,提高我们信息服务的软硬件设施,包括高性能计算机、新的数据分析技术、新的数据表示方法等[5]。
2.2.2 大数据要求深化数据分析的挑战。大数据背景下,数据分析是图书馆提供信息服务的基础,图书馆不仅需要通过数据分析出现阶段的内容与状态,还要对知识服务的内容与状态进行预测分析,利用数据推测出未来发展方向与程度,进而明确整个知识服务的过程,为知识服务架构的改革做好准备,顺应大数据时代的发展要求。值得一提的是,数据的分析手段打破了常规的数据分析,深化的数据分析应该包括大规模图分析、关联关系分析、社会网络分析、时间序列分析、移动平均线分析等。
2.2.3 大数据要求图书馆基础设施升级的挑战。大数据给图书馆带来了大量数据,其中非结构化数据也在不断增加,这就要求图书馆要不断增大存储能力与计算能力。目前,大多数的知识服务机构为了节约成本,往往将大规模集群的中低端计算机来代替高端服务器[6],以应对大数据对存储和计算等设施的要求。具体的实施办法是:利用大规模的分布式数据密集型应用来处理大数据的存储与计算要求[7];配置高效的计算能力,尽量减少大数据中压缩、分层、重复等数据足迹;配置高速的网络,将大数据集快速分配给各个服务器节点进行处理;高素质的信息情报人员将是处理分析大数据的智力宝库。
2.3 大数据给图书馆带来机遇
麦肯锡全球研究所在2011年发布的大数据调查报告显示,有将近88%的数据没有得到利用,大多数的数据资源没有转化为知识信息[8]。图书馆在信息技术与知识服务的重要地位,在大数据时代愈加凸显。哈佛大学率先将大数据引入到图书馆的服务当中[9],并取得一定成效[10],哈佛的成功证明了图书馆在满足结构化数据需求的同时也能经济高效地分析非结构化数据,图书馆有能力利用大数据来横向扩展知识服务,满足用户在大数据时代的知识服务需求。大数据包含着数量巨大的非结构化数据,这些还未被人利用的信息可以揭示出以往数据信息之间难以把握与确定的交互关系。图书馆的核心竞争力在于提供准备、丰富、深入的知识服务,大数据应用比过去的任何时候所提供的数据信息更具有敏感性、时效性、新颖性与独特性,它能为信息情报人员带来丰富的辅助决策信息与知识发展趋势信息。图书馆要做好准备,抓住大数据带来的知识服务变革的机遇,努力提高图书馆在大数据应用的水平与知识服务能力。endprint
3 基于大数据的图书馆信息服务体系
上文论述了图书馆信息服务体系转变升级的方向,图书馆在新的信息服务体系中扮演着大数据的提供者、开发者、维护者以及使用者等多个角色[11]。目前,大数据技术及其相关服务的应用范围与方式都能够被很好地借鉴到图书馆的信息服务体系中来,这些新型的信息服务方式对图书馆的信息服务体系构建有重大意义。
3.1 图书馆用户数据分析
图书馆的社会地位与存在价值正在不断的弱化[12],用户正在向其他文化信息机构不断流失。大数据技术能够让图书馆清晰把握用户的信息需求及意愿,并能由数据分析出用户的信息行为及其知识应用能力,有利于图书馆对用户的信息需求以及信息行为偏好进行预测,实现架构以读者个性化服务为核心的信息服务体系。大数据技术加强了图书馆对于读者研究与交互数据分析、利用的能力,从海量数据中挖掘有用信息,建立用户档案与模型,在精确划分读者类别的基础上,进行跟踪服务、知识关联服务、先觉性服务,提高用户体验,增加图书馆信息服务的竞争力,留住用户。
3.2 建立知识服务引擎
知识服务引擎技术一直以来都是图书情报领域的主要研究课题,同时它也是图书馆信息服务的核心技术。利用大数据技术帮助图书馆构建新的知识服务引擎,是图书馆升级信息服务体系的主要内容。大数据知识服务引擎不同于传统的知识引擎,既包含传统意义上的资源及学术搜索引擎,还包括用户行为智能分析引擎[13]、用户信息需求预测引擎、网络知识社区实体分析引擎、资源及服务推荐引擎、信息资源获取引擎、资源组织引擎以及资源分析决策引擎等。值得一提的是,利用大数据架构的网络知识社区实体分析引擎为图书馆采编部门提供了丰富的资源评价意见与建议,图书馆可借此预测用户关注热点,对图书馆评估资源以及资源建设提供支持。
3.3 建立网络化信息资源灵活组合方式[14]
新的知识服务体系要求图书馆能在海量的数据当中方便灵活地从结构化及非结构化数据资源中提取出信息的关系、内容、模式以及缺陷。目前为图书馆所广泛使用的数据分析与工具有网络分析、可视化分析、聚类分析、数据融合集成、聚类分析、数据挖掘等,但这些耳熟能详的技术与工具只能对结构化数据进行有效的分析,并不能发现非结构数据的存在以及联系,更不能去分析数据背后的重大价值。图书馆利用大数据技术去采集网络中用户的日志数据,就能在一定程度上揭示出数据的关系规则、数据分类,进而定制数据模型,在宏观上把握相关主题的发展趋势,预测知识服务过程以及未来发展动向,为用户提供更有价值的辅助决策服务。
3.4 建立智能化的信息服务
图书馆智能化信息服务不仅仅指的是解决对海量数据进行智能收集及处理问题,还指对图书馆服务对象进行智能化的信息服务,包括信息服务应用、工具、平台的智能化推荐,让用户智能轻松获取所需结构化数据以及非结构化数据,如:文本、音频、视频、网络社交信息、现实生活资料等数据。最为重要的是,智能化的信息服务还包括知识信息的流通过程中对于隐性知识信息转变为显性知识信息的智能转化,促进知识信息由个体向多个主体进行传播和交流,利于知识的重新发现与组织。
3.5 建立知识服务及业务建设的风险模型
通过分析资源,包括知识资源、网络资源、信息资源、软硬件资源及服务资源等的实时状态来预测未来可能出现的故障及数据资源可能出现的突变与波动,帮助图书馆预先制订好应对措施、策略以及图书馆的各类风险评估模型。在不久的将来,传感器技术的普及应用将为图书馆获取大量的图书馆人文环境、自然环境以及技术环境的多维度数据,借助大数据技术分析、预测建立有针对性的各类图书馆风险评估模型,实现图书馆管理的优化升级,保持图书馆稳定的运行状态。
参考文献:
[1] The White House.Big Data Across the Federal Government[R/OL].[2012-8-10].http://www.whitehouse.gov/sites/default/files/ microsites/ostp/big_data_fact_sheet.pdf.
[2] 张晓林.研究图书馆 2020: 嵌入式协作化知识实验室[J].中国图书馆学报,2012(1):11-20.
[3] 覃雄派,王会举,杜小勇等.大数据分析――RDBMS与MapReduce的竞争与共生[J].软件学报,2012(1):32-45.
[4] 百度百科.大数据[EB].[2012-8-10].http:// baike.baidu.com /view/6954399.htm.
[5] 詹剑辉,王磊,孙凝晖.高通量计算机的性能评价[J].中国计算学会通讯,2011(7):40-43.
[6] 张兴旺,李晨晖,秦晓珠.构建于廉价计算机集群上的云存储的研究与初步实现[J].情报杂志,2011(11):166-171,182.
[7] 张兴旺,李晨晖,秦晓珠.云计算环境下大规模数据处理的研究与初步实现[J].现代图书情报技术,2011(4):17-23.
[8] McKinsey Global Institute.Big Data:The Next Frontierfor Innovation,Competition and Productivity[EB/OL].2012-8-11.
http://www.mckinsey.com/insights/mgi/research/technology-nd -innovation/big-data-the-Next-frontie-for-innovation.
[9] The New York Times.Harvard Releases Big Data forBooks[EB].2013-8-11.
http://bits.blogs.ny-times.com/2012/04/24/harvard-releases-big-Data-for-books/.
[10] Audrey Watters.Strata Week:Harvard Library releasesbig data for its books: Harvard offers big data for books,Cloudera 's new Hadoop distribution,Splunk goespublic[EB/OL].2013-9-2.
http://radar.oreilly.com/2012/04/harvard-book-data-cloudera-hadoop-splunk-ipo.html.
[11] 张兴旺,李晨晖,秦晓珠.挑战与创新:重新审视云图书馆未来发展的技术走向[J].情报资料工作,2012(4):37-41.
[12] James Michalko,Constance Malpas,Arnold Arcolio.Re-search Libraries, Risks, and Systemic Change[OL].2012-9-2.
http://www.oclc.org/research/publi-Cations/library/2010/2010-03.pdf.
[13] Digital Book World. New Start -Up Aims to Be Google Analytics for E-Books[OL].2012-8-13.
http://www.digitalbookworld.com/2012/new-start-up-aims-to-be-google -analytics-for-e-books/.
[14] 张兴旺,李晨晖,秦晓珠.挑战与创新:重新审视云图书馆未来发展的技术走向[J].情报资料工作,2012(4):37-41.
(编校:崔萌)endprint