孙蕊
(中国财政杂志社)
随着云时代的到来,大数据(Big Data)成为越来越多被提及的“热词”,被用来描述和定义今天如爆炸裂变般产生的海量信息以及与此次相关的技术等。这一“热词”占据了各类媒体的抢眼位置,风光地登上了《纽约时报》、《华尔街日报》的专栏封面,甚至被嗅觉灵敏的券商写进投资推荐报告。面对如此火爆的场面,笔者不禁想问:大数据究竟指的是什么?如此炙手可热的大数据又会给我们的思维方式带来哪些变化?
大数据从何而来?随着计算机技术全面融入社会生活,信息爆炸由量变到质变,不仅信息总量增加,而且引起信息形态变化。最先经历信息爆炸的天文学和基因学等学科,创造了“大数据”这一概念。如今,这一概念几乎用在了所有领域中,大数据已经全方位地融入了我们的生活,不论你愿不愿意,不论你有没有察觉,有没有感觉到,大数据的性格就是这样难以低调,让你无法回避、不可无视!
那么大数据究竟是什么?是否有清晰明确的定义?关于大数据的定义,笔者简单归纳了一下,比较常见的有这样几类描述:第一类是直接将大数据定义为信息或信息资产,比如:大数据是需要借助于新的处理技术或模式,才能具有更强的决策力、洞察力和流程优化能力的,海量的、高速增长的和多样化的信息资产。无独有偶,类似的理解还有诸如:从数据的类别上看,“大数据”指的是无法依靠传统流程或工具进行分析和处理的信息。相比第一类直接定义为信息或信息资产的说法,第二类是突出大数据的特点来理解其内涵。比如有人把大数据顾名思义笼统地解释为“巨量资料”,强调其涉及的资料量规模极其巨大,究竟巨大到何种程度呢?具体来说,就是巨大到无法通过目前主流软件工具,在合理时间内达到获取、管理、处理并整理成为帮助企业经营决策更积极目的的资讯。实质上,这个定义只强调了资料规模巨大的程度,并未真正解释大数据为何物。亚马逊网络服务(AWS)、大数据科学家JohnRauser给出的简单说法似乎更为直观,他认为大数据就是任何“超过了一台计算机处理能力的庞大数据量”,这一说法虽然算不上定义,但也突出了大数据最显著的特征——“大”。还有将大数据理解为“最大的宣传技术”、“最时髦的技术”等说法。相比前两类中这些含混晦涩的说法,在被誉为“大数据预言专家”的牛津大学网络学院教授维克托·迈尔和《经济学人》数据编辑肯尼思·库克耶合著的《大数据时代》中,作者却给出了更为坦诚的回答:“大数据并非一个确切的概念”,一语道破天机,这个没有确切答案的回答反而让我们对大数据的认识更清楚了一些。接着,作者又继续阐释,大数据概念的产生最初是由于信息量过大,超出了电脑的内存,从而催生了新的处理技术,例如谷歌的MapReduce和开源 Hadoop平台(Hadoop最初源于雅虎,旨在通过一个高度可扩展的分布式批量处理系统,对大型数据集进行扫描,以获取结果)。
综合上述几类理解不难发现,大数据可以说涵盖了人类在大规模数据的基础上能够做到的所有事情,而这些事情是在小规模数据基础上所无法完成的。从而我们可以得出结论:“大数据是人们获得新的认知、创造新的价值的源泉;大数据还是改变市场、组织机构以及政府与公民关系的方法”。由此,离大数据的真面目,我们又近了一步,简单来看,大数据并不只是数据,还包括“事情”、“技术”、“方法”等。虽然没有明确界定,但我们是否也理解了“并非一个确切的概念”的涵义?
换句话说,大数据时代给我们带来了前所未有的方式,让我们可以通过对海量数据的分析,从中获得有巨大价值的产品和服务或者深刻的洞见,最终产生推动变革的力量。
尽管没有明确严格的定义,也不妨碍我们进一步了解大数据的特点。综合前述各类关于大数据的说法,不难发现,它们都强调了一个共同点,那就是大数据之“大”,具体体现在大数据是一个体量特别巨大、数据类别极其繁多,数据来源非常广泛、处理速度要求极高的数据集,因此无法用传统的数据处理技术和数据库管理工具(如目前企业普遍使用的关系型数据库管理系统)对其内容进行及时、有效的提取、管理和处理。业界把大数据的特点概括为4V,即Volume、Variety、Velocity、Veracity。特点之一,Volume指的是数据体量巨大,指的是一般规模达到10TB左右的大型数据集,但在企业的实际应用中,许多企业用户通常把很多个数据集放在一起,从而跃升至PB级的数据量;特点之二,Variety指的是数据类别繁多,由于数据源多种多样,使得数据的种类和格式也越来越丰富,已经突破了以往限定的结构化数据的范畴,从而将半结构化和非结构化数据也囊括其中;特点之三,Velocity指的是数据处理速度极快,如前所述,数据量的异常庞大超出了传统处理技术和模式所能,从而要求并且能够做到数据的实时处理;特点之四,Veracity指的是数据真实性强,随着社交数据、企业交易与应用数据等新型数据源的产生和发展,突破了传统数据源的局限,因而企业更加需要借助于准确有效的信息来确保数据的真实性和安全性。例如,亚马逊建立的大数据系统,每天可以处理几百万的后台业务操作和超过50万次的第三方卖家查询,其中包括三个基于Linux的数据库系统,数据容量分别达到7.8TB、18.5TB和24.7TB。再如国际零售业巨头沃尔玛,其建立的大数据系统每小时可处理超过100万次的客户交易,存储的数据量已经达到2560TB。
大数据起源于数据的充裕,大数据时代需要人们的思维发生三个重大的转变,这三个转变是相互联系、相互作用的。
一是利用所有数据,而不是随机样本。过去,由于技术手段的局限,只能随机抽取样本,而且代价很高,费时费力。如今,云计算和数据库的广泛应用使得获取和利用全部数据成为可能。
二是从精确到混杂。数据量的大幅增加导致结果的不准确性,同时,一些错误数据也会鱼目混珠进入数据库。小数据时代,我们要尽可能追求精确,而大数据时代,则要允许不精确,大数据通常用概率说话,而不是板着一副“确凿无疑”的面孔。正如谷歌人工智能专家诺维格所说,大数据基础上的简单算法比小数据基础上的复杂算法更加有效。这一点无疑对人类固有的传统思维提出了严峻的挑战,因为在过去的很多年里,“精确性”一直是我们深信不疑的标准,也是追求的目标,我们通常习惯于“钉是钉,铆是铆”的理念,仿佛只有如此才能带给我们安全感。然而大数据时代要求我们必须做出改变,接受混乱、接受错误、接受不确定性。的确,很多问题不止有一种答案,只有认识到差异的存在、接受异己之见,人类才能真正进步,从而更加接近我们想要探索和寻求的真相。
三是寻求相关关系,而不是因果关系。这一认识可谓颠覆了千百年来人类的思维惯例,对人们的认知和与世界交流的方式提出了全新的挑战。
这一点《大数据时代》的译者并不赞同其作者的看法,我们且不去论谁是谁非,只去理解这一观点想表达的意思。之所以强调相关关系,主要原因之一是“相关关系分析法更准确、更快,而且不易受偏见的影响”;更重要的是,这一观点的提出是从大数据的核心价值出发,指出“建立在相关关系分析法基础上的预测是大数据的核心”。明白了这一点,就不难理解维克托·迈尔为何反复强调不去问“为什么”、而要探究“是什么”了。例如,亚马逊著名的推荐算法,能根据消费记录来判断用户可能会喜欢什么,这些消费记录有可能是别人的,也有可能是该用户历史上的,但不能说出用户为什么会喜欢这些产品的原因。不能不承认,相关性的确很重要、很有用,但是否就意味着因果关系就毫无价值可言了呢?事实并非如此,维克托·迈尔也承认:“因果关系还是有用的,但是它将不再被看成是意义来源的基础。”由此看来,之所以强调相关关系分析是指其对于达到预测这一目的至关重要。
由上可见,大数据带来的信息风暴可以说是为人类开启了一次重大的时代转型,不仅改变着人类的思维方式、行为方式,而且将给商业模式和管理模式带来巨大的变革,如亚马逊、苹果、谷歌、微软、Facebook、Twitter、IBM等这些大数据的先行者已经形成了许多颇具价值的应用案例,等待我们进一步研究、挖掘。大数据时代充满挑战,也带来更多的机遇,谁能掌握海量的数据以及数据分析方法,谁就将在大数据时代胜出。因此,唯有认识大数据,了解大数据,适应大数据,才能掌控大数据,使大数据更好地为我们所用,我们也才能学会“用数据说话”!