大数据带给图书馆的影响与挑战

2014-09-25 22:17张岩
环球人文地理·评论版 2014年8期
关键词:挑战大数据图书馆

张岩

摘要:本文首先介绍了什么是大数据,其次对大数据带给图书馆的影响和挑战进行了分析。

关键词:大数据;图书馆;影响;挑战

前言:大数据的英文名称为Big data,它和Web2.0、云计算一起被评为媒体最为关注的科技新词,它一出现就引起了IT领域的巨大关注。早在2012年3月的时候,美国政府就斥资2亿美元成立了研究大数据的科技发展计划。其实在此之前,美国的科技巨头(如甲骨文、微软、IBM等)都已经展开了对大数据的有关研究,企图在未来的竞争中处于领先地位。IT领域的这一系列变化引起了专家、学者的关注,有专家认为大数据将成为下一个新型学科。中国科学院大学计算机与控制学院院长李国杰院士就指出大数据将成为信息技术领域的下一个关注点,并促使新学科——网络数据科学的诞生。图书馆作为知识信息服务中心,它越来越需要信息技术的支持。大数据技术在挖掘、分析读者行为中隐藏的结构化数据信息,发现读者的隐性需求,改进图书馆服务方面有着非常重要的作用。通过大数据技术可以不断提高图书馆的服务水平,使图书馆的服务与读者需求相适应。

一、什么是大数据

(一)大数据的含义

大数据最早是由美国著名的咨询公司麦肯錫在2011年5月发布的一份报告中提出的。该报告指出:“数据已经逐渐渗透到各个行业及其业务职能领域,并成为一种非常重要的生产要素;而人们经常使用大量的数据,将会促进劳动生产率的进一步提高。”该报告出来以后变引起了美国媒体的关注。《华尔街日报》、《华盛顿邮报》、《纽约时报》等纷纷开设专栏对“Big data”进行介绍。但是由于当时大数据刚刚被提出来,人们对它的并不是很了解,所以不同的人对大数据有不同的定义,到现在业界对大数据都没有统一的说法。虽然不同的人群对大数据有不同的定义,但是已经形成一个共识,那就是大数据不是单纯的定量描述数据量的大小。而是在数量巨大、种类复杂的数据中,快速提取所需要的信息。

随着人们对大数据的研究水平和认识水平不断加深,大数据已经从互联网、云计算等方面对人们的生活产生了重要影响。图书馆是传播和储存知识的重要场所,它每天都要处理大量的数据,可以断言,在未来大数据必将成为图书馆的核心技术,成为衡量图书馆好坏的重要指标之一。所以深入研究大数据带给图书馆的影响与挑战,有着非常重要的现实意义。

(二)大数据的内涵

虽然大数据出现以后,人们对大数据进行了大量的研究,但是在查阅有关资料时却发现,一部分人对大数据内涵的认识存在偏差,所以笔者认为有必要对大数据的内涵进行介绍。

1、大数据是各种数据的总和。包括非结构化、结构化和半结构化(数据)。DCCI在2012年7月时给出一份数据,该数据显示截至2010年,全世界数据总量高达1228.8EB(1EB≈10亿GB)。预计2020年,这个数字将达到35ZB(1ZB=1024EB),是2010年的30多倍。在这么多的数据中,仅有10%的数据是结构化数据,存放在数据库之中,剩下的数据全部都是在收发邮件、看视频、刷微博、浏览网页等过程中产生的非结构化和半结构化数据。就我们日常生活而言,由学习、工作产生的结构化数据量要远远小于社交网络、手机产生的非结构化和半结构化数据。所以如何处理这些非结构化和半结构化数据成为了大数据的主要内容。

2、“大”的多样性。目前IT界认为大数据具有“4V”特点,即数量大(Volume)、速度高(Velocity)、多样化(Variety)、价值大(Value)。这一特点充分说明了“大”的多样,大并不是单一的数量大或者价值量大。NetApp认为“大”有A、B、C三点,即Analyti、Bandwidth、Content(分析、带宽、内容)。大分析就是通过对大量数据的分析,可以发现新的业务模式,使用户获得新洞见。高带宽就是对关键数据可以进行高速处理,从而快速有效的消化大型数据。大内容有两方面的含义,一方面是指数据内容多既有有结构化数据,又有非结构化、半结构化数据。另一方面是指对存储扩展的要求比较高,可以轻松的进行恢复、复制等操作。

3、“数据”不只是数据。大数据除了数据的存储外,还包括数据的获取和应用。随着社会经济的进步,人们生产的数据也越来越多,自云计算诞生以后,信息数据的存储、计算已经不再是障碍,但是大数据不是指那些存储在各种媒介中数据,它的数据是可以快速获取并应用的数据。比如分析客户的行为习惯、预测市场发展方向等。

二、大数据带给图书馆的影响与挑战

大数据的产生与发展不但对传统的数据存储机构带来了挑战,也对社会的信息服务中心——图书馆带来了不小的挑战。因此正确理解大数据的深刻内涵,将大数据技术图书馆的实际情况相结合,对不断提高图书馆的服务水平和服务质量具有重要意义。

(一)大数据会对图书馆造成影响的因素

1、大数据的复杂性会对图书馆带来影响和挑战。其复杂性主要表现在数据的类型、结构和模式三个方面。从数据类型上来说,由于社交网络的广泛使用,导致与之相关的短文本数据信息的数量不断增加,与传统的长文本数据信息相比,短文本所包含的信息量较小,但是数量却很多,从而使文本的挖掘工作变得更加困难。从结构上来说,在大数据环境下,数据的生成方式非常复杂,比如社交网络、智能设备等,而且它们生成的主要是非结构化和半结构化数据。与结构化数据相比,它们的组织结构非常混乱,而且其中含有大量的无用信息,所以会给数据的储存工作和分析工作带来许多不便。从数据模式来说,数据类型的多样化必然导致模式变得复杂多样,而多模式对研究人员和工作人员的知识面提出了更高的要求[1]。

2、大数据具有不确定性会给图书馆带来影响和挑战。这种不确定性给建模和学习网络数据带来了许多困难,从而导致大数据的价值难以得到有效的开发和利用。大数据的不确定性主要表现在以下三个方面。

首先大数据本身具有不确定性。由于原始数据的准确性不高、数据的采集手法和处理力度不当、应用需求、展示方式等原因,都会从不同角度、不同层面上增加数据的不确定性。其次模型存在不确定性。由于数据本身的不确定性决定了必须采取与传统方式不同的处理方法,要建立新型的数据模型,而且这种模型必须可以准确把握模型表达能力与复杂度之间的平衡,这种要求将直接导致模型的不确定性增大。最后学习的不确定性。学习数据参数是数据模型的必然要求。但是在一般情况下要想找到模型的最优解是一件非常困难的事情,所以一般在学习时都会用一个类似的、不确定的方法来找一个比较合适的解。但是在大数据环境中,这种类似的、不确定的方法会使学习的不确定性变得更加突出。

3、大数据的涌现性。这个概念是从系统学中引进的,是指当多个要素形成新系统以后,出现了一些新的性质,而这些性质在系统形成前并不存在,这些性质并不是单个要素所具有的性质,而是系统在向高层次过渡的过程中逐渐表现出来的,所以被称为“涌现”。系统之所以出现整体功能大于部分功能之和的现象就是因为涌现的作用,涌现使系统具有了许多以前不具备的性质。但是网络数据涌现性的判定、预测等都比较困难,所以导致网络数据不容易被驾驭。

它的涌现性主要表现在模式、行为、智慧三个方面。模式涌现性就是在多种类型的网络数据中,不同类型的数据,其属性和功能既有所差异又相互之间存在一定的联系。行为涌现性就是目前人们采集到的数据,大多具有时序性,在社会网络中相似性越高的个体,越容易建立关系,当这些不同个体在“生产”网络数据时,其个体行为也会随着出现,从而表现出区别于个体的复杂性。智慧涌现性是指在没有对网络数据进行预先设定和全局控制的情况下,自动将个体的语言进行有选择的融合,从而产生新语义的过程。由此可见它的涌现性会使大数据变得更加复杂,从而给大数据的处理、分析带来更多的新问题。

(二)大数据给图书馆带来的具体影响与挑战

1、处理复杂数据将成为图书馆工作的重要内容。随着社会的发展,信息在人们生活中的作用越来越大。它与能源、材料共同构成支撑现代社会发展的三大支柱。而不断提高公民获取信息的能力、优化信息获取途径、提高信息化水平,已经成为政府的主要工作内容之一。近些年来我国十分重视信息化建设,颁布了一系列的法律、政策和技术标准来推动我国的信息化建设。在政府的主导下,我国的各大图书馆纷纷建设特色数据库、设立门户网站以及数字图书馆。虽然我国图书馆信息化进程取得了巨大成就,但是其数据建设主要集中在结构化数据领域。随着大数据的推广、应用,人们在生活中将享受到更为人性化和个性化服务。在这种情况下,势必会对图书馆的服务提出更高的要求,所以处理复杂数据将成为图书馆工作的重要内容[2]。

2、对图书馆的数据储存能力提出新的要求。在信息时代,信息的生产成本不断下降,产生方式也日益多样化,导致社会上的数据总量迅速增长。到了大数据时代,不但产生方式会发生变化,产生的途径和范围都会发生巨大变化,甚至人们的一言一行都会产生大量的数据(半结构化或者非结构化数据)。从而使得数据的组成方式、结构类型、存在形态等变得更为复杂多样。这会对图书馆的存储能力带来严峻的挑战。除了技术层面的挑战外,还有社会层面的挑战。虽然在面对挑战和解决问题的过程中会使图书馆的资源建设、服务方式、管理方法以及发展模式发生巨大变化,从而推进图书馆又好又快发展,但是也存在着以下两大难题:

首先安全问题。虽然云计算技术的产生与发展,顺利解决了大量数据的存储、运算问题,但其依然存在安全隐患,难以让用户放心。所以如何解决数据安全,将会成为图书馆大数据应用之路上的一个重大难题。其次大数据对图书馆数据的存储范围提出了更高的要求。2007年时沃尔玛就展开了一次大数据尝试,他们对消费者的购物行为,这一非结构化数据进行了分析,从而成功创造了经典的商业案例——“啤酒与尿布”。但是该案例成功的前提是对大量的、不同类型的数据进行分析。所以在大数据时代,图书馆记录的读者、图书馆工作人员以及社会公众的信息中,除了用户身份、借阅记录等通用的结构化数据外,还要记录大量的非结构化、半结构化数据。比如用户的搜索方式、信息储存行为、活动痕迹等。

3、对传统的信息服务提出新的挑战。随着图书馆信息化水平的不断提高,提供信息化服务已经成为当前图书馆的主要服务内容之一,而知识经济的发展进步,也使得图书馆逐渐把在互联网信息搜索基础上发展得知识信息服务吸收进来,使知识信息服务逐渐成为图书馆服务的重要组成部分。但是不论是单纯的信息服务,还是融合信息检索、信息分析等多种高级业务而进行的知识服务,都是一种基于数据而完成的服务。虽然在Web2.0等互动技术推出以后,图书馆的人性化服务和个性化服务水平有了很大的提高,但是交互性依然比较差。但是就个性化服务和人性化服务而言,也只是一些简单的在用户结构化数据基础之上(比如服务要求、专业、爱好、特长等),去实现有限程度的差异化服务。但是大数据却对图书馆提出了更多、更好的服务要求。图书馆不但要对结构化数据进行分析,明确读者当下的服务需求,更要搜集更多的半结构化和非结构化数据,并对这些数据进行分析、挖掘,从而推测判断用户潜在的服务需求,从而找到更好的服务模式,创造图书馆行业的“啤酒与尿布”,应对未来不可知的危机。

结论:

大数据是近些年来刚刚兴起的一种数据类型,与传统的数据相比,它具有数量多、价值大、速度快、多样化的特点。目前世界各国都十分重视对大数据的研究和应用工作,一些领域都已经將大数据应用到了工作之中,图书馆作为全社会的信息数据服务机构,在大数据的浪潮中已经落后一步,所以图书馆应当重视大数据问题,对将大数据应用于图书馆的问题进行认真的分析和研究,在笔者看来大数据的复杂性、多样性和涌现性会对图书馆的工作内容产生影响,使处理复杂数据将成为图书馆工作的重要内容。会对图书馆的数据储存能力和信息服务方式等提出新的要求。这些问题都必须引起图书馆方面的高度重视,寻找方法应对挑战。虽然应对挑战的过程可能会很漫长,会充满艰难困苦,但是前途一片光明,当图书馆成功应用大数据以后,图书馆将会进入崭新的发展阶段。

参考文献:

[1]石岱.大数据带给图书馆的影响和挑战[J].黑龙江教育(理论与实践),2013,05(04):11-18

[2]刘琼.大数据环境下图书馆面临的影响与挑战[J].理论观察,2014,08(06):20-27

猜你喜欢
挑战大数据图书馆
图书馆
叽咕乐挑战
叽咕乐挑战
飞跃图书馆
基于大数据背景下的智慧城市建设研究
叽咕乐挑战
去图书馆
第52Q 迈向新挑战