Tim Harford
5年前,谷歌的一个研究团队在著名科学期刊《自然》上发布了一项令人瞩目的研究成果:不需要任何医疗检验结果,该小组能够追踪到当时扩散在全美的流感趋势,而且追踪速度比美国疾病控制中心(CDC)要快得多。谷歌的追踪只比流感爆发晚了一天,而CDC却花了一周甚至更多的时间来汇总一张流感传播趋势图。显然谷歌的速度更快,因为它通过寻找“在线搜索”和搜索“人是否患有流感”二者之间的相关性和规律,成功追踪到流感传播的趋势。
谷歌流感趋势不仅快速、准确、成本低,而且不需要任何理论支持。谷歌的工程师没心思开发一套假设理论研究什么样的词条可能和疾病有关,而是挑出5000万条最靠前的词条,让搜索法则自行运算,得出结果。由此,谷歌流感趋势成为商业界、技术界、科学界具有代表意义的“大数据”成功案例。
正如许多流行语一样,“大数据”是一个含糊不明确的词语,经常被人们信手拈来又随手抛去。有人会特别提到数据组的规模,例如Large Hadron Collider的电脑,一年能够储存15 千兆字节,相当于音乐播放1500年留下的数据。实际上,吸引了众多公司注意力的“大数据”可以被称作“寻获的数据”,其发生在网络搜索、信用卡支付、手机感应到最近的电话信号平台。比如谷歌流感趋势就是建立在已经被寻获的数据上的,这样的数据组可以更庞大。值得注意的是,相对于庞大的规模,数据的收集实际上很便宜。现代社会随着人们的沟通、休闲和商务活动都转移到网络(包括移动网络),生活在以一种十年前难以想象的方式,被记录和被量化。数据点的随意拼贴,收集起来用于不同的目的,同时可以实时更新。
如何捕捉大数据
大数据的拥护者们总结出了四个结论,而每一条都存在于“谷歌流感趋势”的成功案例中:1. 数据分析产生了惊人的准确结果;2. 每一个数据点都可以被捕捉,这使得过去的统计抽样技术显得十分过时;3. 数据背后的原因纠结显得过时,因为数据的相关性已经告诉了我们需要知道的信息;4. 科学或数据模型是不需要的。
虽然大数据向科学家、企业家以及政府展现出了光明前景,然而这四条理论完全是出于最乐观、最单纯的角度,如果忽略了一些过去的经验教训,它也注定会让人们失望。在关于谷歌流感趋势预测的文章发表4年以后,《自然》杂志报道了一则坏消息:在最近的一次流感爆发中谷歌流感趋势不起作用了。虽然过去几年的冬天,谷歌流感趋势信心满满地提供了一系列迅速准确的流感爆发情况统计信息。但不知从何时开始,这个模型渐渐失去对流感的灵敏嗅觉。在谷歌的模型数据中显示将有一场严重的流感爆发,但当疾病防治中心最终将漫无边际但依旧准确可靠的数据送达时,这些数据表明谷歌对流感疾病传播情况的预测夸大了近两倍。
问题是谷歌不知道甚至根本无法知道是什么原因将搜索词条和流感的传播联系在一起。谷歌的工程师也并没有试图搞清楚背后的原因,他们只是简单地寻找数据中的规律。比起前因后果,他们更在乎数据之间的相关性。这种情况在大数据分析中相当常见,但要想搞清楚前因后果很困难,不过搞清楚哪些数据是相互关联的则成本更低,也更容易。因而,Viktor Mayer- Sch??nberger和Kenneth Cukier在他们的著作《大数据》中写道:“在大数据分析中针对因果关系的探究不会被丢弃,但是它正渐渐撤出数据研究的主要基石地位。”
那些没有理论支持而只着重于数据相关性的分析必然是脆弱且站不住脚的。如果人们不明白表象相关性背后的事情,那么就不会知道什么原因会导致那种相互关联性的破裂。关于谷歌流感趋势失败的一种解释,2012年12月的新闻里总是充满了耸人听闻的故事,而这些故事激发了那些健康人群在线搜索的兴趣。另一个可能性解释是,谷歌自身的搜索法朝令夕改,当人们输入信息时,系统会自动提示诊断信息。
在过去的200年里,统计学家们一直致力于弄清楚是什么阻挡了人们单纯地通过数据来理解这个世界。虽然当前世界数据的量更大,传播速度更快,但是并非意味着过去那些陷阱都已经安全处理了,因为事实上它们并没有消失。
大数据的偏差难题
1936年,共和党人Alfred Landon参加和总统Franklin Delano Roosevelt一起的总统竞选,知名杂志《文学文摘》肩负起了大选结果的预测责任。杂志社发起了一次邮政民调活动,目的在于将测验送达1000万人民手中,这个数字接近真实选民数的1/4。回复如洪水般涌来,杂志社很享受这种大范围的任务。在8月末期,报道说:“下周,1000万名选票中的第一批人将开始经历候选人的第一轮,进行三次检验,核实,五次交叉分类和汇总。”
在统计了两个月内收回的240万张选票后,《文学文摘》最终发布调查结果:Landon将以55:41令人信服地赢得大选,其中有少数投票倾向于第三方候选人。但是竞选最终却呈现出非常不同的结果:Roosevelt以61:37的绝对优势大胜Landon。让《文学文摘》更郁闷的是,由民意调查先驱人物George Gallup实施的一个小范围调查得出的结果却和最终投票结果非常接近,成功预测了Roosevelt将轻松获胜。由此可见,Gallup先生理解了《文学文摘》杂志社所不能理解的一些事:当谈到数据时,规模不代表一切。
大体上来说,民意测验建立在投票人群的取样基础上。这就意味着,民意测验专家通常需要解决两件事:取样错误和样本偏差。样本错误反映了通过偶然方式选择样本带来的风险,一个随机选择的民调样本并不能反应人们的真实观点,而民意测验中体现出来的“误差幅度”也体现了这种风险。样本越大,误差幅度越小。1000个受访者的样本数据已经足够成为很多调查目的的样本,Gallup先生的民意测验据说采纳了3000个受访者样本。
如果说3000个受访者样本带来的调查结果是对的,那么为什么240万个样本却没有呈现更正确的结果呢?答案是,取样错误常常会伴随着一个更危险的因素:样本偏差。取样错误是因为样本的随机选择会导致该选择样本无法反映民众的根本意图;而样本偏差则是样本的选择未经过筛选,而随机选择。George Gallup 不辞辛劳地寻到找了一个无偏差的样本,因为他知道一个无偏差的样本远远比一个数量庞大的样本更重要。
相反,《文学文摘》却忽略了可能产生的样本偏差问题。一方面,它直接将调查表格寄给从汽车登记簿和电话本上获得的人员名单,而这种方式获得的样本,至少当时在体现真实民意方面是比例失调的。另一方面,为了缓解问题的严重性,Landon的支持者们乐意于将自己的答案寄回。这两个偏差因素结合在一起,使得《文学文摘》的民意测验泡汤。因为收集到的数据组是那么凌乱,《文学文摘》即使想要搞清楚数据中潜伏着偏差因素也非常困难。此外,因为这些数据实在太庞大,一些数据分析师似乎认为取样问题根本不值得担心。
大数据思维的挑战
《大数据》的合著者Viktor Mayer-Sch??nberger教授认为,他所倾向的大数据组的定义是:N=All。大数据前提下无需取样,我们已拥有具备所有背景的人群。当N=All,就说明的确不存在取样偏差,因为样本中包含了所有人。但“N=All”是不是对大多数寻获数据的最佳描述?也许不是。“一个人能够拥有所有数据,我对此表示怀疑。”英国伦敦大学学院数据统计学教授、计算机科学家Patrick Wolfe如此说。
Twitter就是一个例子。原则上,通过记录和分析Twitter上的每一条信息,并通过分析结果判断公众舆情是有可能的。事实上,大多数研究人员都在使用那些大数据中的一部分,但是当我们可以看到所有Twitter信息,使用者从整体来看并不具备全体民众的代表性。所以,《数字常识》一书的作者及数据分析师Kaiser Fung提醒,不能简单地认为我们已经将所有重要因素考虑在内了,“N=All,很多时候只是一个针对数据的假设,而不是事实”。那么,当面对一大堆杂乱五章的数据信息时,人们更应该理清头绪。
波士顿当地研发的一款智能手机APP Street Bump,通过手机的加速度传感器探测路面上的凹坑,而不需要城市工人通过街面巡查发现凹坑。随着波士顿市民纷纷下载该款APP并且开着车四处转悠,他们的手机自动提示市政厅是否需要对城市街道表面进行修复工作。这个过程通过技术解决难题,创造出了信息量庞大的“数据排放”,而这些数据正好以一种不可思议的方式解决问题。波士顿政府骄傲地宣称:“数据为这座城市提供了实时的信息监控,而这些信息又可以用来解决城市问题和规划城市的长期投资项目。”
实际上,Street Bump程序产生的是一张路面凹坑的城市分布图,这些图更多是系统地分布于富裕地区,因为这些地区有更多人拥有智能手机。可以说,Street Bump提供了一个N=All的情况,即每部手机探测到的每一个路面凹坑都能被记录下来。这和记录每一个路面凹坑的情况是不一样的。微软研究院的科学家Kate Crawford指出,寻获数据中包含着的系统偏差,需要仔细思考才能发现和纠正。大数据组看起来具有全面综合性,但“N=All”常常造成相当有迷惑性的错觉。
目前,极少有案例对于大批量数据的分析最终带来奇迹。剑桥大学教授David Spiegelhalter谈到谷歌翻译软件,这是“机器学习能力”的一个典型例子。该软件是在分析数以亿计的已翻译作品中,寻找其中可以复制的翻译服务,其“学习能力”让谷歌翻译软件呈现让人难以置信的处理结果,而不需要预先编入任何语法规则。“这是一项了不起的成就。”Spiegelhalter说,因为这项成就是建立在对大数据的明智处理的基础之上。在他看来,谷歌翻译就是接近于无理论支撑的,完全由数据驱动的数据运算黑盒子。
但是大数据无法解决那些纠缠了统计学家和科学家们几个世纪的问题:洞察力,情况判断,以及如何进行正确干预,从而改善系统。通过大数据得到这些问题的答案,还需要统计学发展的大步迈进。“现在我们仿佛又回到了西大荒时代,”伦敦大学教授Patrick Wolfe说,“聪明上进的人会辗转反侧,会想尽方法利用每一种工具从这些数据中获取有利的价值,但是我们现在有点盲目冲动。”统计学家们正在竭力研究新的方法来抓住大数据中蕴藏的秘密。这样的新方法非常关键,但是需立足于过去古老的统计理论基础之上,这样新方法才能起作用。
回顾大数据的四个信条,如果我们忽略了主动的错误讯息,那么很容易高估那些让人觉得不可思议的高准确性。“数据中的因果关系已经渐渐撤出作为数据研究基础的基石地位”,如果有人这么宣称,那么没有关系,前提是我们是在一个稳定的环境中进行数据预测。但是如果世界正处于一个巨变的环境中(例如正经历流感传播)或者如果我们自身希望对现实世界做些改变,那就不能这么说了。“因为N=All,取样偏差不重要”,这种想法在大多数案例中都不成立。大数据时代已经到来,但是大数据思维尚未形成。现在的挑战在于解决新的问题,获得新的答案,但是前提是不要在更大范围内犯过去的统计错误。