大数据思维初探:提出、特征及意义

2014-08-15 00:49:53周世佳
三晋基层治理 2014年5期
关键词:思维

周世佳

(山西大学科学技术哲学研究中心,山西 太原 030006)

随着科学技术的飞速发展,大数据时代悄然向我们走来。所谓大数据(big data),也称巨量资料或海量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。大数据具有“5V”特征:巨量(Volume)、多样(Variety)、高速(Velocity)、真实(Veracity)和高价值(Value)。“大数据”是由数量巨大、结构复杂、类型众多数据构成的数据集合,是基于云计算的数据处理与应用模式,通过数据的整合共享,交叉复用,形成的智力资源和知识服务能力。大数据不仅是一种人类历史上前所未有的大规模数据集,而且是全社会的宝贵生产资料。大数据概念,将对经济建设、社会发展和科学研究产生深远影响。伴随大数据产生的大数据思维是人类为解决大数据带来的数据采集、数据处理和结果可视化等问题而出现的,是大数据技术应用的前提。

一、大数据思维的提出

(一)大数据思维提出的时代背景

1980年,著名未来学家阿尔文·托夫勒在《第三次浪潮》一书中,已经提到了大数据问题。进入21世纪以来,人类社会的科学技术突飞猛进。大约从2009年开始,“大数据”才成为互联网信息技术行业的流行词汇。互联网上的数据每年增长50%,每两年便将翻一番,而目前世界上90%以上的海量数据是最近几年才产生的。“大数据”将是创新竞争的下一个前沿,开始大规模应用在财政政策、教育、医疗、农业等方面。2012年3月,美国政府发布了“大数据研究和发展倡议”(Big Data Research and Development Initiative)[1],提出了美国的大数据国家政策,这是全球范围内第一个国家层面的大数据战略报告。日本、英国等发达国家也先后对大数据的相关应用提出了自己的战略计划。大数据是本世纪最大的科学问题,是一场革命,庞大的数据来源所带来的量化转变将在学术界、企业界和政界中产生深刻的影响。

(二)大数据思维的提出

随着大数据概念在计算机科学、移动互联网等领域的广泛讨论,以及大数据技术的广泛应用,大数据思维的轮廓逐渐清晰起来。大数据思维在更多的方面显示出强大的应用潜力。

在传统科学方面,越来越多的科研项目正在借助大数据思维的力量实现突破。如在电网技术方面,通过安装监控与传感设备,对发电环节、输变电环节、调度用电环节实现全覆盖,建立智能全景实时电网,可对电网绝缘子放电频谱进行监测,掌握用户用电量数据,实现电网安全稳定运行和智能调度[2]。

在复杂性科学方面,从上帝粒子被发现存在到全球最快超级计算机“天河二号”投入运行,大数据思维的应用正在影响这个时代。上帝粒子的发现得益于大数据思维的应用,在粒子物理学模型中,上帝粒子即希格斯波色子(Higgs Boson)是一种自旋为零的粒子,能够解释为何存在质量,它是预言存在的62种基本粒子中最后一种被发现的粒子。我国的“天河二号”超级计算机自主创新了新型异构多态体系结构,在强化科学工程计算的同时,可高效支持大数据处理、高吞吐率和高安全信息服务等多类应用需求。

(三)大数据时代已经向我们走来

从上世纪40年代计算机出现到上世纪90年代计算机互联网迅速发展,短短50年给人类社会带来的变化比第一次工业革命以来还要巨大。移动互联网用了不到10年时间就再一次改变世界。随着集成电路、计算机技术的大幅进步,PC与移动通信设备的差别越来越小,互联网带宽越来越宽,手机、PAD等移动终端均可无缝接入互联网,移动互联网时代就此来临。基于移动互联的通信服务、地理信息系统服务正在为人们生活提供便利。大数据时代正在向我们走来。基于大数据思维的物联网、云计算技术,将在更多方面推动人类社会进步。

二、大数据思维的特征

显示着巨大潜力的大数据思维其特征主要有以下几个方面:

(一)整体性与涌现性

大数据时代里,人与世界的关系、思维与存在的关系通过数据紧密联系起来。互联网数据中心(IDC)预测,全世界每年创建和复制的信息的总量,将按照新摩尔定律增长,每两年翻一番。2011年预计仅1.8ZB,2012年为2.8ZB,2020年将达到40ZB。数据增长迅速的情况下,与以随机样本为核心的小数据思维形成鲜明对比的是,以全体数据为核心的大数据思维显现出巨大能量,即整体性。在大数据思维的背景下,涌现性成为描述全体数据最合适的词汇。全体大数据整体具有小数据或者所有小数据所不具有的属性、特征和功能等,这就是大数据思维的涌现性。也就是说,当我们把大数据拆分为各个小部分时,大数据所具有的这些属性、特征和功能等便不可能体现在小数据上或者所有小数据上。从老子“有生于无,万物生于有”到霍兰“整体大于部分之和”“多源于少,复杂来自于简单[3]”的表述均揭示了涌现的广泛存在,同样,涌现性也成为大数据思维的重要属性。

(二)多样性与非线性

大数据来源于物理世界中业已存在的数据和人类社会中后天产生的数据。按数据种类划分,大数据可分为结构化数据、半结构化数据和非结构化数据。在统计学上,随机抽样是一项有效的统计方法,它的最大优点是在根据样本推论总体时,可用概率客观地预测推论值的可靠程度,从而使这种推论建立在科学的基础上。正因为此,随机抽样在社会调查和研究中应用非常广泛。但是,所有这些方法只能将样本的情况较精确显示,并且抽样的合理性和对于统计结果的精确性影响很大。随机抽样无法展示事物全貌,细节更无法洞察,统计结果也会受到主观性影响。例如,全国人口普查时,利用抽样调查方法无法全面准确掌握人口整体状况,而不精确的那一小部分也许会影响微观结果,甚至全局。在大数据时代,如果将所有发生的数据看成一个整体,95%的数据将是非结构化的大数据,仅有5%的数据是结构化的小数据。相比较说,在大数据时代之前的计算机互联网时代,我们所接触到的信息是如此匮乏,并且只能通过关系数据库方式来采集、处理这5%的数据,而对另外95%的数据无可奈何。我们在信息缺乏时代执迷于5%小数据的精确,总是在不断地提高结果的精确度,甚至要到小数点后许多位,而在大数据时代,我们必须接受并拥抱95%大数据的混杂,即多样性。在大数据时代,通过多样数据考察世界的方式昭示了其非线性特点。与古希腊以来追求因果的古代哲学、追求线性解决方案的近代科学相比,大数据思维更重视现实世界的非线性特点,大数据思维是一种更清晰理解世界、认识世界的进步思维方式。从本体论看,大数据时代的世界本质上是非线性的;从方法论看,非线性问题一般都不可以转化为线性问题来处理,只有简单情况下才将其转化为线性问题,处理非线性问题要用非线性的方法。大数据思维在表现出多样的同时,非线性也成为它的重要特征。

(三)相关性与不确定性

大数据的核心是预测,在数据总体量相同时,与单独分析体量较小的小型数据集相比,将众多小数据集归拢为大数据后进行处理可得出令人惊讶的结果,处理结果可以帮助商品销售、洞察传染疫情、改善城市交通甚至可以防止犯罪,对广泛应用的憧憬正是大数据概念盛行的原因。大数据思维代表了从原因到结果的因果思维和反向的(从结果到原因)的相关思维,具有同样甚至更高的地位,凸显了相关思维追求是什么而不是为什么的务实精神。从大数据中寻求事物相关性,通过这种相关思维对可能发生的事进行预测,是大数据思维的最主要目的。在数理统计中,虽然逻辑关系(因果关系)不可以被相关关系表征,但统计结果却可以帮助人们从大量数据中获得直观表述。不确定性是20世纪量子理论以来前沿科学表现出的突出性质,“从古至今,科学的基本目的就是一种对确定性的追求,总是希望将现实中的不确定情形转化为服从确定性规律的过程[4]”,但是在20世纪初量子论诞生以后,物理学便开始关注不确定性对物理世界的影响。1927年海森堡在“关于量子论运动学和力学的直观诠释[5]”论文中,第一次提出了“海森堡不确定性原理”,表示“粒子不再有分别被很好定义的、能被同时观测的位置和速度,而代之以位置和速度的结合物的量子态[6]”。基于结构化、半结构化和非结构化的多源异构的数据新分类,以及关系数据库、非关系数据库的数据处理新局面,大数据思维在数据类型、数据挖掘等领域表现出明显的不确定性。

(四)并行性与实时性

并行性与实时性是大数据思维在数据采集、数据清洗、数据处理等数据挖掘的全过程中体现出的特征。在大数据思维出现以前,关系数据库管理系统(RDBMS,Relational Database Management System)已经发展的相对成熟,它主要是对结构化数据来讲的,已经拥有完整的产业链。RDBMS是以串行为主要计算方式的数据库,有以下特点:①将数据存放在表格(tables)中;②行是数据名称;③列是名称相应位置区域;④行和列组成一张表;⑤若干表成为数据库(database)[7]。例如甲骨文公司的ORACLE,微软的SQL Server,IBM的DB2等都是应用较广泛的数据库系统,RDBMS的特点决定了它在对于小数据系统的一致性和正确性上表现优异。当RDBMS遇到超大规模量级的数据时,即使通过增加内存数量与容量,升级CPU处理能力,RDBMS的应用也会受到较大挑战,只有开发新系统、应用新模型才是解决方法。面向大数据的新型计算模型,体现了并行性与实时性的大数据思维特征。

三、大数据思维的意义

大数据思维在表现出整体性与涌现性、多样性与非线性、相关性与不确定性、并行性与实时性四大特征的同时,它的影响将向更广泛领域进发。大数据思维将对科技与社会的发展产生深刻的意义。

大数据思维把人们从旧的价值观、发展观中解脱出来,复杂技术涌现与科技进步促使人们开始从大数据思维视角获得可以正确理解世界的角度性工具。这是一场工作、生活和思维的深刻变革。大数据思维应用前景广泛,在公共交通、公共安全、社会管理等领域均有大规模应用可能,大数据技术与物联网、云计算一道,将会是经济的新增长点[8]。以数据科学为核心的计算机技术迅猛发展,正在推动大数据思维从幕后走向前台。大数据思维的产生将推进跨学科研究的开展,跨学科研究就是克服传统思维障碍,打破所有社会科学与自然科学间传统思维壁垒,是人类文化结构发展的新趋势。大数据思维在这个过程和趋势中,或将建立起人类整体、多样、相关、并行的新知识观。科学技术始终是推动人类历史前进的一种进步的、革命的力量,大数据思维产生于当代人类科学技术研究的前沿,我们需要厘清大数据思维对科技与社会的辐射范围、影响程度,需要评价大数据思维在整个科技史中的地位、作用,更需要对大数据思维可能引发的社会、伦理问题进行研判。

我们必须关注这样一些重大的问题:大数据思维将在哪些方面影响我们的生活?在哪些领域将有可能会出现跨越式的发展?面对这些问题,在大数据思维研究上还需要做更深入的工作,以积极的态度,迎接大数据思维新时代的到来。

[1]The W hite House.Big Data is a Big Deal [EB/OL].2013-10-05.

[2]宋亚奇,周国亮,朱永利.智能电网大数据处理技术现状与挑战[J].电网技术,2013,(4).

[3]J ohn H,Holland.Emergence:From Chaos To Order [M].M A:Helix Books,1998.115-124.

[4]李 坚.不确定性问题初探[D].中国社会科学院研究生院,2006.27.

[5]Heisenberg,Werner:über den anschaulichen Inhalt der quantentheoretischen Kinematik und Mechanik.Zeitschrift für Physik.1927,43:pp.172–198.

[6]不确定性原理(uncertainty principle)[EB/OL].维基百科,2014-09-22.

[7]覃雄派,王会举,杜小勇,王珊.大数据分析——R DB M S 与M ap R educe 的竞争与共生[J].软件学报,2012,(1).

[8]周世佳.山西省实施大数据战略:优势、差距及路径[J].理论探索,2014,(4):108.

猜你喜欢
思维
思维跳跳糖
思维跳跳糖
思维跳跳糖
思维跳跳糖
思维跳跳糖
思维跳跳糖
思维跳跳糖
思维跳跳糖
思维跳跳糖
思维跳跳糖