2009年,Google的工程师在《自然》杂志上发表了一篇论文,解释了Google为什么能够预测冬季流感的传播——甚至在疾病控制与预防中心之前发出预警。这并非由于疾控中心效率低下。从人们感染流感到就医、再到医生报告、最后数据汇总,加起来至少有两周时间的滞后,这对一种新的流感病毒来说后果是致命的。Google的方法是通过观察人们在网上的搜索记录来预测流感,他们发现45条检索词条的组合,用特定数学模型处理后,其结果与美国疾控中心流感历史纪录的相关性高达97%,而且判断非常及时。
接下来的事情就是历史了——几个星期后,令人闻之色变的甲型H1N1流感爆发时,与习惯性滞后的官方数据相比,Google成为了一个更及时有效的风向标。
这个故事,不过是大数据时代的前传。大数据是人类文明史上前所未有的工具:通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见。
人类利用数据已有漫长的历史,从某种意义上说,在此之前的历史可称为“小数据时代”。因为缺乏对完整数据采集、存储及处理的能力,随机采样分析法应运而生。采样的目的就是用最少的数据得到最多的信息,但当我们获得海量数据,甚至样本=总体的时候,采样分析的固有缺陷就暴露了。这就好比传统相机只能记录部分光,Lytro相机可以记录整个光场里所有的光,具体生成什么样的照片可以在拍摄后根据需要决定。在大数据的Lytro相机面前,之前的聚焦等摄影技术只是浮云。
大数据时代,人们的思维方式也将发生变革。沃尔玛蛋挞就是一个例子。沃尔玛曾对历史交易数据进行分析,这个数据库包罗万象:每个顾客购物时间、清单、消费额,甚至购物当天的天气。分析发现:每当季节性飓风来临之前,手电筒和蛋挞的销量会同时增加。因此,现在每次飓风前,沃尔玛都会把蛋挞摆在飓风用品的旁边。为什么是蛋挞,而不是其他食品?这无从得知,也不重要。知道是什么(相关关系)就够了,没有必要知道为什么(因果关系)。这就是本书作者提出的一个充满争议的观点:建立在相关关系分析法基础上的预测是大数据的核心。有人进一步提出,用一系列的因果关系来验证各种猜想的传统研究范式已经不实用了,它被无需理论指导的纯粹的相关关系研究所取代,大数据时代意味着“理论的终结”。上述观点如此激进,连本书中文译者都忍不住表态反对。
说到译者,《大数据时代》的翻译可圈可点。中译本的出版和英文原版完全同步已是难能可贵,更令人惊喜的是,除了翻译正文外,译者周涛加入了大量的译者注,为中文读者补充了很多参考资料。译者注远远超过作者注,在当今翻译出版界可谓罕见。
大数据是如此耀眼,有时候会让人忽略了它的局限。在书中最后一章,作者意味深长地引用了乔布斯的例子。乔布斯推出ipod、iphone和ipad靠的不是数据,而是直觉。当记者问乔布斯,苹果在推出ipad之前做了多少市场调研时,他那个著名的回答是这样的:“没做!消费者没义务去了解自己想要什么。”即使是在大数据时代,也有不依赖于数据的事物——比如卓越的才华。
(文/王一州 制图/文耀)