□潘家芳
(玉林师范学院 图书馆,广西 玉林 537000)
大数据对图书馆信息服务的冲击
□潘家芳
(玉林师范学院 图书馆,广西 玉林 537000)
随着科学的发展,大数据时代在社会中的影响越来越明显。在互联网、虚拟社区和科学研究等多个领域,数据量正以惊人的速度增长着。大数据图书馆已经日渐形成,研究大数据对图书馆信息服务的冲击具有重要的现实意义。通过透析大数据的发展应用,论述大数据对图书馆信息服务的冲击,并提出相应的应对措施。
大数据;图书馆;信息服务
随着科学的发展,大数据时代在社会中的影响越来越明显,在互联网、虚拟社区和科学研究等多个领域,数据量正以惊人的速度增长着。2012以来,大数据研究已成为社会各个领域的重要热点之一,越来越多的国家研究机构以及IT行业巨头纷纷投入到对大数据的研究当中。图书馆作为社会中比较重要的提供知识信息服务的机构,其服务愈来愈依赖互联网技术和计算机技术,在时代浪潮中不可避免地面临着大数据的冲击。互联网数据中心(IDC)的统计结果显示,2008年全球产生的数据量为0.49ZB(1ZB等于10亿个TB, 1TB=1024GB),2009 年的数据量为0.8ZB,2010年增长为1.4ZB,2011年的数据更是高达1.8ZB(见图1)。而截止到2012 年底,国家图书馆数字资源总量达807.3TB[1]。由此可见,图书馆已初步具备大数据的雏形,研究大数据以及大数据对图书馆的发展具有重要的现实意义。
图1 IDC全球数据监控及预测报告
大数据概念最早是由咨询公司McKensey提出,而后《纽约时报》和《华尔街日报》同时开辟专栏对其展开了讨论[2]。但对于大数据的概念,目前还没有形成一个统一的准确定义。总的来说,大数据就是用来描述海量数据的集合,囊括了声音数据、视频数据、物联网数据、个人信息、科学研究数据等结构化和非结构化数据,其规模上远远超过传统信息数据量,传统的数据库等技术已无法满足大数据的存储和管理要求。
大数据具有以下4个特点:
规模大(Volume),全社会各行各业的信息最后都会全部转为电子数据来显示和存储;
多样化(Variety),大数据种类丰富,在数据类型、数据结构、数据特征等多个方面存在差异性,也不再是单一的结构数据,而是增加了视频等非结构数据;
价值密度低(Value),信息时代的发展促使信息无处不在,海量的数据中参杂着各种错乱的、无效的信息,数据价值密度较低;
时效性强(Velocity),大数据的应用在实时数据方面具有很高的要求,是实时地不间断地对数据进行抓取和处理,比传统的数据查询、数据挖掘要快速有效。
2011 年美国McKinsey Global Institute发布了《Big Data: The Next Frontier for Innovation,Competition and Productivity》的调查报告,指出尽管全球数据飞速增长,但有将近87.5% 的数据未得到真正利用,许多数据资源并没有形成真正的知识源以供研究人员利用。2011年9月美国总统奥巴马正式宣布“数字承诺”(Digital Promise)项目,以研究和开发学习科学、技术和教育的交叉点服务为己任,借助新媒体技术改变和帮助公民进行快速的最广泛的教学与学习,600个美国校区将使用iPad来阅读电子教材,目前亚马逊已经向美国学生启动了租借电子教材的服务。2012年3月29日,奥巴马政府公布了“大数据研发计划”(Big Data),目的在于借助政府的推动,促使大数据相关技术的成熟发展,从而提高民众从海量和复杂的数据中提取知识和洞察分析的能力,从而加速美国在科学与工程领域发明的步伐,转变现有的教学和学习方式[3]。
大数据最大的价值在于通过数据的共建共享和专业化处理,实现以最小的成本挖掘出数据最大的价值。因此,对于其研究更多是为了进行商业应用。例如百度作为国内最常用的搜索引擎,其搜索过程便是对互联网数据、用户数据进行专业处理。根据百度的资料显示,其每天需要提供超过1.5PB(1PB=1024TB)的导航数据,“每天处理的数据量接近100PB,相当于5000个国家图书馆信息量的总和[4]。”而至目前为止,人类生产的所有印刷材料的数据量一共才200PB。在技术方面,百度借鉴了Hadoop的思想,根据自身应用实际情况开发了Replication Protocol、数据分治等技术方法[4]。
大数据的特色在于在海量数据中挖掘出用户最需要的数据,提高数据的利用和效益,因此大数据必须依托与计算机技术和互联网技术。目前大数据分析主要涉及到以下5个方面[5]:
可视化分析:大数据通过异构数据的关联,能够直观地向用户提供图文声像等多角度的可视化分析,使得数据信息一目了然,易于用户解读和接受。如百度在阳泉市设立了“云计算”中心项目,采用大数据核心技术,充分利用了大数据的优势,通过高水平的数据关联和云计算技术,对搜索结果进行多方面多角度展示。
预测性分析:大数据分析是建立在海量的历史数据上面,通过这些数据可以建立有效的数字模型,从而可以在一定程度上对未来的数据发展进行预测,为用户提供个性化的数据推送。
数据价值挖掘:大数据的出发点在于通过对海量数据进行深入、有效、快速的分析,对数据进行过滤、关联、整合等处理,使得不同结构、不同类型的数据相互关联,最大程度上挖掘出数据应有的价值。
语义引擎:语义引擎采用自然语言,通过人工智能系统主动搜集和识别用户所使用的数据语言或者从现有文件中提取出有用语义信息,并在搜索结果中自动进行个性化推送。
数据质量和数据管理:数据质量和数据管理是数据处理的关键,能帮助大数据如何通过标准化的流程和工具最大化实现数据的价值。
大数据借助这些理论以及相关的云计算、物联网、数据仓库等最新技术,在商业智能、政府决策、公共服务、市场营销等方面得到了广泛应用,帮助政府部门和企业在高度复杂的海量数据当中挖掘出其想得到的价值,这在很大程度上给图书馆信息服务工作的未来发展提供了很大的启迪。
随着大数据的研究和应用的日渐成熟,图书馆面临着越来越大的压力。面对大数据的压力,当前图书馆的信息服务不可避免地受到了不同程度、不同角度的冲击。
(一)信息服务对象明显流失
大数据时代的到来让人们对社会上各类信息触手可及,用户在信息获取方面不再局限于以往的有限的几个途径,可以通过多种途径获得其需要的信息服务,相对传统图书馆信息服务来说更方便更快捷。
在以往的信息环境中,图书馆信息服务在用户的信息获取、信息利用方面占据着相当重要的地位,是文献信息存储、传播、发挥其作用的重要手段之一。用户在工作、学习、研究等活动中比较多地通过图书馆信息服务来获取所需信息。而大数据时代让用户足不出户就可以得到满意的信息服务,用户既可以通过互联网、网络数据库、虚拟图书馆等多种途径自行获取个性化的信息服务,也可以从众多信息推送当中选择自己满意的信息服务,这就极大地丰富了用户的信息获取途径,大大削弱了用户对于图书馆信息服务的依赖性。
用户在使用信息服务时往往希望能够快捷地高效地得到有用信息,而图书馆所提供的信息服务往往需要用户自己进行详细的信息阅览。大数据引擎则能够根据用户的检索要求快速地定位到具体的信息内容上,用户对提供的信息内容一目了然。相对于以往效率低下、信息时效性差、服务方式生硬的图书馆信息服务,用户更乐意选择方便快捷、时效性强、个性化程度高的互联网等信息途径来获取信息,这就导致了图书馆用户明显的流失。
(二)信息服务内容不够丰富
图书馆作为信息、文献的收集和保存机构,其所提供的信息服务内容必然需要经过一定时间的采集、加工、生产、筛选、采购等一系列程序,而传统的数据采集能力往往是非常有限的,这就导致了图书馆信息服务的内容时效性不强、信息量有限、信息表现形式比较单一等诸多不足。此外,图书馆因其需要确保所提供的信息服务真实可靠,在信息采集、采购过程当中会过滤掉一些不可靠数据信息,这就大大减少了图书馆能提供的信息量,用户感兴趣的部分信息只能通过其他途径获取。
大数据时代让网络等各种信息传播方式能够随时随地获取信息和传播信息,让用户随时随地都可以从信息使用者变为信息生产者,让信息的时效性得到充分发挥,也极大地丰富了社会上的信息内容。不仅如此,信息的展示形式也从过去的文字、图片、声音、影像等非结构化数据单调地展示转变为各种结构化数据相互兼容、立体化展示,为用户提供全方位的生动的信息服务。
(三)信息服务方式过于被动
在传统的图书馆信息服务过程中,往往是用户主动到图书馆寻求借阅、咨询等信息服务,信息利用率有限,并且在接受服务时往往会出现文献已外借、信息时效性差、图书馆员缺乏等一系列问题。而大数据在互联网信息服务上的广泛应用让图书馆用户逐步习惯于被动地接受服务,也没有了在接受图书馆信息服务过程中遇到的诸多困难,这将会让越来越多的用户放弃传统的图书馆信息服务。
大数据的主要应用方向之一便是预测性分析[6],因此大数据技术在图书馆界的应用将很大程度上改变传统信息服务方式,促使图书馆在提供信息服务的过程中更多的是主动为用户提供服务。借助互联网技术、云计算技术等相关技术,图书馆信息服务将可以深入、广泛地参与到用户的生活当中,通过收集和分析用户的访问时间、阅读喜好、查阅趋势等行为要素,建立可行的数据模型,不断针对用户的实际阅读行为趋势提供个性化的主动服务,随时随地为用户提供信息服务以及互动服务,特别是在为科研用户提供学科服务、决策支持等方面提供主动的具有足够深度的信息服务,极大地提高馆藏信息资源的利用率,发挥出积极的应有的社会效益[7]。
(四)信息服务意识相对落后
在传统的图书馆服务中,图书馆往往着重于利用自身馆藏资源、馆员以及相关软硬件设备为用户提供信息服务,不太重视图书馆间的合作,服务对象也仅满足于本地用户或者老用户,其所提供的信息服务相对比较片面,难以满足用户更广泛的信息需求。比如一所高校图书馆的用户绝大部分都属于这间学校的师生,其馆藏信息也大多偏向于本校专长的专业信息,在其他专业、领域的信息相对比较薄弱,用户在使用信息服务时很难全部专业或者领域都能满足需求。
大数据时代所面对的将是更广的用户范围以及更丰富的信息需求,这就要求图书馆之间能够进行更广泛、更开放、更深入的合作。各区域图书馆、各专业图书馆在各方面都应转变服务意识,通过馆藏信息互补、技术合作、馆员交流等方面展开全方位合作,将馆藏资源向更广泛的用户群开放,既可以吸引其他区域的用户使用本馆的馆藏信息,也可以借助其他区域的馆藏信息吸引更多的本区域新用户前来使用信息服务,还可以通过共建共享馆藏信息来降低馆藏建设成本。
(五)软硬件设施相对落后
大数据对于数据存储和处理的要求是很高的,图书馆现有数据技术、信息服务平台难以满足大数据的应用需求,尤其是在数据结构以及数据处理的软硬件设施方面的要求。数据量的几何级增长对图书馆的数据存储能力提出了严峻的挑战。面对每天都在飞速增长的信息数据,一味增加存储规模只会致使成本急剧上升,同时增加了信息管理的复杂性,对信息的可靠性、扩展性和规范性方面也提出了更高要求。当前图书馆的信息服务系统很难满足大数据时代的数据查询、分析,甚至很容易出现服务系统出错乃至崩溃等情况,极大地制约着图书馆为用户提供满意的信息服务,为图书馆带来了一定的损失。因此,图书馆必须改变过去的非结构化数据存储和一站式存储方式,将非结构化数据逐步转变为结构化数据,采用分布式数据存储模式,选择合适的服务器组成图书馆计算机网络,以高效的存储能力和处理能力对图书馆信息进行数据存储和管理,以获得较强的扩展性和较好的系统可用性[8]。
随着大数据以及云计算、物联网等技术的日渐成熟,大数据在图书馆的应用将会对图书馆的信息服务带来巨大的变化,传统的图书馆信息服务逐渐被大数据时代的主动分享所取代。如何处理数据、如何挖掘数据潜在价值以及如何根据数据进行分析和预测将成为图书馆信息服务在大数据方面发展的主要方向。面对大数据的冲击,图书馆人应加强自身学习,努力提升自我素质,在努力中前进,在冲击中寻找机会,开拓创新,与图书馆一起走向辉煌未来。 ■
[1]崔梅芳.论大数据时代对图书馆知识服务的影响及对策[J].企业文化,2013(7):237.
[2]陶雪娇,胡晓峰,刘洋.大数据研究综述[J].系统仿真学报,2013(8):142-146.
[3]李健,王丽萍,刘瑞.美国的大数据研发计划及对我国的启发[J].中国科技资源导刊,2013,45(1):17-23.
[4]李鹏云.大数据与图书馆服务[J].农业图书情报学刊,2013,25(9):179-181.
[5]刘明,李娜.大数据趋势与专业图书馆[J].中华医学图书情报杂志,2013,22(2):1-6.
[6]大数据分析的5个方面[OB].开源中国社区http://www. oschina.net/news/27069/5-technics-for-bigdataanalysis, 2012-03-22/2014-04-28.
[7]金茵,储娟.图书馆服务创新与发展—大数据背景下的“智慧分析”[J].当代图书馆,2013(3):37,45-46.
[8]杜成军. 浅析大数据时代对图书馆的技术影响[J].电子测试,2013(9):151-152.
【责任编辑 潘琰佩】
The Impact of Big Data on Library Information Service
PANG Jia-fang
(Library, Yulin Normal University, Yulin, Guangxi 537000)
With the development of science, the influence of big data age on the society is more and more obvious. In many areas, such as, Internet, virtual community and the scientific research, the amount of data is increasing at an alarming rate. Big data library has been formed gradually; it has practical significance to study the impact of big data on library information service. Through dialyzing the development and application of big data, the paper discusses the impact of big data on library information service, and puts forward the corresponding countermeasures.
big data; library; information service
G250.7
A
1004-4671(2015)03-0148-04
2015-01-27
潘家芳(1970~),女,广西兴业人,玉林师范学院图书馆技师、助馆。研究方向:信息服务。