大数据环境下图书馆面临的影响与挑战

2013-04-29 23:54刘琼
理论观察 2013年8期
关键词:复杂性不确定性大数据

刘琼

[摘 要]大数据时代的到来影响着社会的各个层面,从物联网、云计算到微博等影响着人们生活的方方面面,图书馆作为存储、传播知识的重要场所受大数据的影响最为深刻。大数据时代,为图书馆大数据带来影响与挑战。可以断定,大数据将是未来图书馆的核心产业,是图书馆的核心竞争力所在。本文阐明了大数据内涵与特征,分析了图书馆建设与发展面临大数据的复杂性、不确定性、涌现性三大挑战。分析表明,加快图书馆建设与发展,要在大数据时代迎接挑战,抓住机遇。

[关键词]大数据;图书馆;复杂性;不确定性;涌现性;影响

[中图分类号]G252 [文献标识码] A [文章编号] 1009 — 2234(2013)08 — 0112 — 02

大数据已成为2012年以来的研究热点。2013年7月28日在中国期刊网上用“大数据”作为关键词进行搜索,并以发表时间顺序排列,1985年有1篇文献,2000年有4篇,2011年有41篇,到了2012年有324篇,2013年的1-5月则达到了418篇,增长的速度如此惊人。由此说明,对大数据研究已成为科学研究的一个重要内容。综观国内外大数据领域的研究和应用发展现状可见:大数据相关的研究与应用目前仍然处于起步阶段,学术研究大多局限于宏观层面;基于互联网和社会媒体的企业大数据研究与应用亟需进一步深入开展;现有的大数据研究大多立足于信息科学,侧重于大数据的获取、存储、处理、挖掘和信息安全等方面〔1〕。

图书馆的责任之一就是知识存贮、利用、开发和传播,在即将出现的大数据的各种问题面前,图书馆已经感受到其所带来的转变和创新知识服务的巨大压力。要把压力转化为创新的动力,就要正确地认识大数据给图书馆带来的环境改变,利用大数据实现图书馆服务能力的提升,推动图书馆事业的发展。

一、大数据的内涵与特征

“大数据”概念最早是由咨询公司McKensey提出,而后《纽约时报》和《华尔街日报》开辟专栏,对其展开激烈讨论。随后,包括Oracle、Microsoft、IBM、Yahoo、VMWare、FaceBook等几乎所有IT巨头,纷纷加入到相关的软硬件技术研究的阵营中。现在,大数据已深深地影响了我们的生活。近年来,信息技术的飞速发展推动社会各个层面快速发展,新事物不断涌现。“大数据”是移动计算、物联网、云计算等一系列新兴技术之后的又一新兴事物。早在 20 世纪 80 年代初,美国有人提出了大数据的概念,但是并没有引起人们足够的重视。近年来,各个领域的数据量都在大量的增长,因此,大数据这一概念也变得越来越流行,也越来越重要〔2〕。以“云计算”为标志的“大数据”已经成为一些国家和政府的发展战略。对于大数据的概念,企业和学术界目前尚未形成公认的准确定义。维基百科将大数据定义为“无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合”〔3〕; 权威 IT研究与顾问咨询公司Gartner将大数据定义为“在一个或多个维度上超出传统信息技术的处理能力的极端信息管理和处理问题”〔4〕;美国国家科学基金会( NSF) 则将大数据定义为“由科学仪器、传感设备、互联网交易、电子邮件、音视频软件、网络点击流等多种数据源生成的大规模、多元化、复杂、长期的分布式数据集”〔5〕。 尽管存在不同的表述,但一个普遍的观点是,大数据与“海量数据”和“大规模数据”的概念一脉相承,但其在数据体量、数据复杂性和产生速度三个方面均大大超出了传统的数据形态,也超出了现有技术手段的处理能力,并带来了巨大的产业创新机遇。大数据包含了互联网、医疗设备、视频监控、移动设备、智能设备、非传统 IT 设备等渠道产生的海量结构化或非结构化数据,并且时时刻刻都渗入到现代企业日常管理和运作的方方面面〔1〕。

二、大数据的特征

大数据的特点可以用“4V+1C”来概括,“4V+1C”分别代表了Variety(多样化)、Volume(海量)、Velocity(快速)、Vitality(灵活)以及Complexity(复杂)。多样化(Variety)指大数据一般包括以事务为代表的结构化数据,以网页为代表的半结构化数据和以视频、语音信息为代表的非结构化等多类数据,并且它们的处理和分析方式区别很大。海量(Volume)指通过各种智能设备产生了大量的数据。DCCI 互联网数据中心在2012年7月26日举办的“Adworld2012 互动营销世界”上给出的数据显示:2010 年,全球数据量已达 1.2ZB(1ZB=1024EB,1EB 相当于10亿GB),到2020年将暴增30倍达35ZB。2011年,全球被创建和复制数据总量为1.8ZB。2013年,我们生成这样规模的信息量只需10分钟〔6〕。快速(Velocity)指大数据要求快速处理,因为有些数据存在时效性。比如电商的数据,假如今天数据的分析结果要等到明天才能得到,那么将会使电商很难做类似补货这样的决策,从而导致这些数据失去了分析的意义。灵活(Vitality)指在互联网时代,和以往相比,企业业务需求更新的频率加快了很多,那么相关大数据的分析和处理模型必须快速地适应新的业务需求。复杂(Complexity)指虽然传统的已经很复杂了,但是由于前面4个V的存在,使得针对大数据的处理和分析更艰巨。

图书馆作为知识信息的重要来源之一,不可避免地受到社会应用技术潮流的影响,图书馆也应与时代相呼应。如今,图书馆已具备了大数据的特征,至2008年底,CALIS文献数据总量达到180TB,截止到2012年底,国家图书馆数字资源总量达807.3TB,内容丰富、种类齐全〔7〕。研究大数据对于图书馆来说具有重的现实意义。

三、大数据对图书馆建设的影响与挑战

(一)大数据复杂性的影响与挑战

大数据复杂性影响与挑战主要表现为数据类型的复杂性、数据结构的复杂性和数据模式的复杂性。网络时代大数据类型是复杂的,社交网络的兴起,使相关的信息表现为短文本数据信息,与传统的长文本相比,由于信息很少给文本挖掘带来很大的困难。大数据的结构也是复杂的,随着数据生成方式的多样化,如社交网络、移动计算和传感器等技术,非结构化数据成为大数据的主流形式。与结构化的數据相比,非结构化数据相对组织凌乱,包含更多的无用信息,给数据的存储与分析带来很大的困难。除此之外,大数据的模式复杂也带来了很大的影响,数据类型的多样化决定了数据模式的多样化,同时也要善于把握它们之间的相互作用,这种面向多模式学习的研究需要综合利用各个方面的知识 〔8〕。

(二)大数据不确定性的影响与挑战

大数据具有不确定性,其不确定性使得网络数据难以被建模和学习,从而难以有效利用其价值。数据本身的不确定性,原始数据的不准确,以及数据采集处理力度、应用需求与数据集成和展示等因素带来了数据在不同维度、不同尺度上都有不同程度的不确定性。

大数据模型的不确定性。数据的不确定性要求对数据的处理方式有别于传统的处理方法,能够提出新的模型方法,并能够把握模型的表达能力与复杂程度之间的平衡,这些处理方法要求建立的模式也具有不确定性。

大数据学习的不确定性。数据模型通常都需要对模型参数进行学习,然而,在很多情况下找到模型的最优解是很困难的,因此很多学习问题都采用近似的、不确定的方法来寻找一个相对不错的解。但在大数据的背景下,传统近似的、不确定的学习方法需要面对规模和时效的挑战,图书馆应提高技术水平来应对大数据的学习不确定性。

(三)大数据涌现性的影响与挑战

大数据涌现性概念来源于系统学,是指多个要素组成系统后,出现了系统组成前单个要素所不具有的性质,这个性质并不存在于任何单个要素当中,而是系统由低层次构成高层次时才表现出来,所以人们形象地称其为“涌现”。系统功能之所以往往表现为“整体大于部分之和”,就是因为系统涌现了新质的缘故。涌现性是网络数据有别于其它数据的关键特性。涌现性在度量、研判与预测上的困难使得网络数据难以被驾驭。

网络数据的涌现性主要表现为模式的涌现性、行为的涌现性和智慧的涌现性。大数据的模式涌现性是指在多尺度、异质关系的网络数据中,由于不同的数据在属性、功能等方面既存在差异又相互关联。大数据的行为涌现性是指随着数据采集技术的不断发展,人们得到的很多数据都具有时序性,而社会网络中个体行为的涌现性则是基于数据时序分布的统计结果。在社会网络中有较大相似性的个体之间容易建立社会关系,当这些个体在产生网络数据时每一个体的行为同时出现在一个系统中时,就表现为区别于个体的复杂性。大数据的智慧涌现性是指网络数据在没有全局控制和预先定义的情况下,通过对来自大量自发个体的语义进行互相融合和连接而形成语义,也可以称之为智慧涌现。到目前为止,大数据的精确定义还缺乏一个统一的标准,网络大数据科学需要一个完备的新的理论体系来指导该学科的发展和研究。

结语

我们已进入大数据时代,大数据伴随着云计算、移动互联网、物联网等信息技术的成熟而迅速发展,相较于过去几十年数字图书馆的研究与发展,大数据技术在未来几年给云图书馆将会带来革命性、持续性和创造性的变化,会对我们所熟知的知识服务能力和知识服务机制产生重大的颠覆和创新,我们必须面对大数据带来的挑战,加强学习,以饱满的信心迎接大数据的挑战,在挑战中寻找机会,抓住机会发展大数据图书馆。

〔参 考 文 献〕

〔1〕冯芷艳,郭迅华等. 大数据背景下商务管理研究若干前沿课题〔J〕. 管理科学学报,2013,(01).

〔2〕孙 琳. 大数据时代图书馆服务体系创新研究〔J〕. 理论观察,2013,(04).

〔3〕http://en.wikipedia.org/wiki/Big_data〔EB/OL〕.

〔4〕http://www.gartner.com / it-glossary/big_data/〔EB/OL〕.

〔5〕http://www.nsf.gov/ funding/pgm_summ.jsp?pims_id=

504767〔EB/OL〕.

〔6〕韩翠峰. 大数据时代图书馆的服务创新与发展〔J〕. 图书馆,2013,(01).

〔7〕国家图书馆面向地方开放120TB数字资源,2013-7-28,〔DB/OL〕,http://roll.sohu.com/20130304/n367700292.shtml

〔8〕王元卓,靳小龙,等. 网络大数据:现状与展望〔J〕. 计算机学报,2013,(06).

〔责任编辑:谭 蕊〕

猜你喜欢
复杂性不确定性大数据
法律的两种不确定性
PFNA与DHS治疗股骨近端复杂性骨折的效果对比
简单性与复杂性的统一
英镑或继续面临不确定性风险
应充分考虑医院管理的复杂性
基于大数据背景下的智慧城市建设研究
具有不可测动态不确定性非线性系统的控制
直肠腔内超声和MRI在复杂性肛瘘诊断中的对比分析
从翻译的不确定性看译者主体性