内特·希尔

2013-04-29 00:44JonGertner
快公司 2013年7期
关键词:希尔预测

Jon Gertner

当停下来说我觉得……时,内特·希尔(Nate Silver)正咬着芝士汉堡,喝着第三杯可口可乐。然而,刚说了这么几个字,他又停下来,伸手拿起一根薯条。谈话,暂停,咀嚼。谈话,暂停,咀嚼。这就是希尔的用餐模式。时间悄然流逝,在他整理思绪的空隙,你会留意起飘荡于空气中的环境音乐。你甚至发现餐馆的通风系统开了,又关了。

摊开讨论的问题是大数据——即大量信息的累积和处理——能改变我们的世界吗?抑或这只是个被过分美化,但并不靠谱的技术。希尔是解读体育和政治领域数据的天才。起初,他针对棒球数据统计,开发了名為PECOTA的数据模型,分析那些有可能在大联盟赛中异军突起的小球会,其预测结果之准令人惊叹。之后,他在Five Thirty Eight.com博·客上,以自己的数据模型预测2008年的总统大选(全美50个州中,49个州的结果正确)和2012年的总统大选(50个州全中)。此后,他还陆续预测了奥斯卡获奖者、NCAA(美国大学生体育协会)篮球联赛冠军,以及同性婚姻支持者的地理分布。尽管在过去五年里,他的方法和模式备受质疑和嘲讽,但是,他以几乎百发百中的准确率,向怀疑者证明,一个拥有大数据系统和杀手级算法、瘦不拉叽的超级极客,也可以是个战无不胜的剑客。现在,希尔的维基词条已多达6.100字——是报道水门事件的传奇记者鲍勃。伍德沃德(Bob Woodward)的将近两倍。从来没有新闻记者能如此之快地成名,更别提还如此精通统计分析。

你可能因此认為,内特一希尔会对数据科学的非凡可能性,以及超强计算和分析能力联袂打造的新时代欣喜若狂。但真没有。

吃完薯条,希尔金口重开:“我觉得……”,接着又停了下来。他就像在细细咬嚼关于大数据的数据一样。“显然,”他终于做出了评论,“我认為这是一门重要的技术。”他清楚计算机愈变愈强,并记起谷歌主席埃里克·施密特(Eric Schmidt)曾经的宣言,在某一天内,现代社会产生的信息会比2003年前所产生信息的总和还多。但希尔充满警觉地补充了一句:数据洪流会带来更多的“噪声”(如无用信息),却不一定能带来更多“信号”(如真相)。有一次在飞机上,希尔看到杂志广告在大肆渲染大数据非凡的预测能力。那些广告无非是在表明,大数据将会协助商家事先了解消费者的行為。“我并不认為这算什么模式转变,”希尔说。“有时,人们会天真地以為,只要你在机器里输入数据,按个键,就会出来各种奇思妙想,不是帮你每年提高10%的利润率,就是让股价翻一番。”

他并不是悲观论者,他补充道。“我是谨慎的乐观主义者,而不是天真的乐观主义者。说实话,获得大量数据的方式很多,用它们胡搞瞎搞,提些愚蠢的问题,就能使自己陷入一团乱麻中。”确实如此。但内特-希尔的信徒们恰恰忘记了——希尔坚信数据和预测无法超越人类的能力。不过,也正是由于希尔在数据解析方面的长处,他才脱颖而出,成為人类拥有“极限能力”的表率。我们是个容易犯错、带有偏见、粗心马虎的群体(尤其在政治领域)。我们住在一个缺乏真理的复杂世界里。很多时候,我们对电脑奢望太多,对自己却期望过低。“人们只会责怪数据,”他跟我说,“但其实是他们该提出更好的问题。”

大数据会改变世界吗?希尔说:“回顾过去,那些我们事后发现的变革,通常都不是我们事先所预测的。”他是对的,世界依旧如此,但他回避了这个问题。他放声大笑,拿起芝士汉堡咬了一大口,开始细细咀嚼。

这种说法似乎有点古怪:我们已经走到这一时刻,即数据和创造力被捆绑于同个职业,甚至同个人身上。希尔对这点倒没啥意见,“我觉得存在两种类型的创造力”。第一种就是他所说的“纯粹表达”——用来描述音乐家、诗人、演员、舞者等艺术家的词语。“另外一种,就是找出不同的方法看待并解决问题。”由于他在数学领域工作(更确切地说,是数学、文字、信息图表这些构成他的博客和新书《信号与噪声》[The Signal and the Noise]的模块),因此这代表了在一个信息超载的年代,他為了能够提出多种创造性的解决方案,找到了既适合个人又全然现代化的模式。

希尔绝非从大数据系统中挖掘有趣结论的第一人,同时,他也不是第一个因為把分析模型当创新工具使用而出名的人。大数据早就存在。它是追踪早期传染病模式(如1600年代伦敦爆发的黑死病),以及美国人口普查(开始于1800年代末期)的关键因素,你甚至可以将诺曼底登陆乃至阿波罗号登陆月球,都视為大数据的胜利。1970年代初,一群学者出版了《增长的极限》(The Limits to Growth)一书,书中使用复杂精细的分析模型检验了地球的可持续性(程序得出的结论是,地球和人类社会很可能将面临世界末日)。

在他的新书和对话之中,希尔迅速指出最熟悉,同时可以说对大数据最成功的应用,其中包括国家气象局(National Weather Service)的天气预测和飓风警报,这些都依赖于超大数据系统和神奇模型,并已变得越发精准。也有很多常见的例子。多年来,华尔街的数量分析一直在帮对冲基金解析复杂的交易数据;赢得“危险边缘”(Jeopardy!)智力游戏、现被用于医疗和财务策划的IBM超级计算机系统“沃森”(Watson),则是某种大数据的成功范例——IBM喜欢称其為“非结构化数据”,以自然语言描述信息而非以数字的方式呈现;而以国家安全的名义运算大数据、故意保持低调的Palantir公司则是另外一个例子。更别提亚马逊、Facebook、谷歌和Twitter,它们早已因為从客户数据中获取信息情报而成為最重要的大数据从业者。通过挖掘网络用户的数据信息,这些公司在效率、潮流定位、销售——至少就谷歌而言——在利于社会而非仅造就企业优势的研究调查方面,都取得了非凡的收获。“比起疾病防治中心(CDC),谷歌能更好地预测流感,”前Linkedln首席数据科学家D.J.帕蒂尔(D.J.Patil)说,他现在就任于风险投资公司格雷洛克合伙企业(Greylock Partners)。

希尔以个体数据分析家接受了这些挑战,虽然他更多地将其工作定位在“中间数据”的领域——这包括了成千上万个数据点,而非谷歌和亚马逊研究员挖掘的数百万甚至数十亿的海量数据。但与数据的多寡无关,它们所产生的清晰度更有意义。成长于密歇根东兰辛市的希尔,虽然并没有什么运动的天分,但从小就是个狂热的体育迷。“我踢足球一直踢到八年级,”他跟我说。“这是我最不糟糕的运动项目。”在芝加哥大学(University of Chicago)获得经济学学士学位后,他进入一家咨询公司工作,结果却只落得灰心丧气和郁郁不得志。因此,他开始在夜间开发自己的PECOTA统计系统,选择棒球為对象,纯属偶然。棒球是最富于数据统计和分析的运动项目(在迈克尔·刘易斯[Michael Lewis]所写《魔球》[Moneyball]一书中,就记录了比利·比恩[Billy Beane]的预测运算)。因精准地预测棒球赛果声名鹊起后,希尔想知道,自己是否能比华盛顿的专家更好地预测政治选举。2007年,他开始筛选投票数据,最初化名Poblano在Daily Kos博客上发表自己的分析(由于超爱墨西哥食物,他曾创建了一个评论芝加哥玉米煎饼的网站)。最后希尔才公布说自己是真正作者,然后创建起个人博客Five Thirty Eight(以总统选举团的投票人数命名),正式成為独立于棒球统计世界之外的小小明星。几年之后,《纽约时报杂志》(The New York Times Magazine)编辑在波士顿的火车站台上偶遇希尔,诚邀他将其高流量博客带进《纽约时报》网站,直到现在。

随着他愈加出名,希尔在粉丝眼中更像是神,而不是一位数据分析家。不过,他的成功倒有不少耐人寻味之处,其中之_便是他从未真正成為,或试图成為21世纪的时事评论员。这不仅是因為他是个不喜欢大肆宣扬的低调的中西部人,也不仅只是因為他喜欢以不甚确定的措辞谈论未来,而且总是坦承其预测中的不确定性。

更关键的原因在于,他的预测不是反直觉的。希尔觉得,许多畅销书声称将揭示“深藏其中”的问题,类似这样的市场营销很可笑——如《魔鬼经济学》(Freakonomics)和《黑天鹅》(The Black Swan)等。“感觉就像将揭示什么神秘真理一样,”他语带讽刺地说道。“我更倾向于去简化事物,而魔鬼就藏于细节中:他承认他更喜欢寻找人们经常忽视的‘房间里的大象(即刻意回避的事实)。”有时候它们存在于预测者的偏见之中——比如,他认為,地方天气预报员致力于讲述跌宕起伏的故事,因此总是夸大下雨的可能性(所以说早上,你最好还是多看国家气象局的数据)。然而,还有一些显而易见的错误。在希尔看来,信贷机构之所以在次贷危机前低估了美国房产市场的崩塌概率,正是因為他们的预测基于大量数据,而这些数据都来自于景气年代房地产统计——错得有点离谱。“他们有许多资料,”希尔说,“但却没能显示不同状况下房产体系走向的分析。”

若要评估希尔数学模型的独创性,那工程可就大了。不过,我们很容易就能领会他精准的预测和精明的领域选择。“我尝试挑选竞争不甚激烈的领域,”他笑着说。他是说真的。当选择预测政治时,他确实感到几个强力对手的存在,比如说,斯坦福大学的西蒙·杰克曼(Simon Jackman)和埃默里大学的德鲁·林茨(Drew Linzer)。但通过棒球“点石成金”的实战经验——统计极客们倡导理性,而职棒大联盟探子们则固守经验和直觉胜于一切——希尔发现大多数政治专家们不仅对统计很无知,而且他们还极端封闭和排外。他经常攻击新闻机构“政客”(PoIitico),在他看来,“政客”极為愚蠢、八卦、僵化,有时甚至不可救药。正如希尔跟我说的,“政治新闻长久以来都是个懒惰的行业,而在懒惰的大背景下,拥有创意想法的人就更容易成功。”

当我问他是否有兴趣预测股市走势时,希尔听起来似乎并没什么热情。股市预测已经拥挤饱和,而且这也并非他擅长的领域。“绝大多数时间我都买指数基金,”他承认道。不过最近他破了一次例,因為在股市中嗅到一股偏见和非理性的味道。“我曾经买了一些Facebook的股票,因為当时华尔街的朋友们都在贱卖。我觉得这更多是由于他们对Facebook首次募股形势过好、对股票股价过高而感到愤怒。”这个故事告诉我们:无论哪个领域,只要希尔觉得别人的决定是基于错误原因之上,他就乐于利用这点进行投资这个故事还没完他几乎在Facebook股价跌至最低点时买进股票,而自那时起,股价就一路飙升。

希尔声名大噪之时,他所处的领域正在激烈争辩,最新统计工具是否真的将改变世界,或者对大数据已有的高度期待只不过是夸大其词。这也影响着希尔。看看那些领先的数据科学家们,包括希尔在内,你就会大致发现该领域确实处在变化之中。但為什么呢?正如希尔所说的,“某些方面已取得骄人进展,但大多数领域仅稍有起色。”

如今我们能获得的数据如此之多,部分得归功于手机、传感器以及网络流量产生的信息、记录和测量值。我们拥有更强大的计算机运算能力,成本也在降低。同时,不同类别数据库之间的相互作用愈发坚稳强劲,有利于揭示关于消费、政治、运动、疾病、市场、媒体等领域过去难以觉察的模式。而且,实时以及正确获取具体数据的能力也在逐渐提升。

与此同时,数据从业者也意识到限制和可能性所在。作為2012年奥巴马竞选的首席科学家,雷伊迪·加尼(Rayid Ghani)不再指望通过大数据去预测未来。“人们期望,只要有足够的数据,我就能预测世间万事。”他指出,有些东西是天生就不可预知的——比如,提前一年预测飓风,就像一位潜在客户提出的要求。尽管如此,加尼仍亲眼目睹了总统竞选期间,他的分析工作在多个领域所起到的深远影响,即便分析本身并非什么灵丹妙药。他的分析可更好地锁定选民(通过找出可能会投给奥巴马的选民,并引导他们进行投票)、协助竞选更好地分配资源(确定钱是更好地花在说服选民或用于集会),以及促进资金的筹集(找到更好地号召选民的方式)。“我们很可能帮他们多筹集了20%的资金,”他说。

而有些在大数据里畅游的人却更加狂热,认為数据将全然改变世界。其倡导者首推新书《大数据》(Big Data)的两位作者,维克托-迈尔一舍恩伯格(Viktor Mayer-Schonberger)和肯尼斯·库克耶(Kenneth Cukier)。“在某种程度上,现在拥有过去开发的各种数据技术,”迈尔-舍恩伯格说。“我们不必再花上30亿巨资和长达十年的时间;反之,只需要一周或者一天,或者不用任何成本。”他指出,人类基因编码的破解就是一个极好的例子。他的搭档,《经济学人》杂志(The Economist)数据编辑库克耶认為,我们并不能因為大数据一开始被应用于电子商务,就认為其最大乃至最具颠覆性的影响力只发生在商务领域。他认為,技术之所以先在商务领域大量使用,是因為商业拥有动机以及所需的数据,而且,也没什么东西去阻止他们以创新的方式使用数据。库克耶也看到大数据在卫生保健和社会服务领域的重要应用。“将其只看作唯利是图的商业方式,”他说起即将到来的大数据时代,“完全是偏离重点。”

除了追踪如流感的传染病之外,谷歌还用海量数字创造了先进的翻译程序;IBM应用数字运算能力预估早产儿的健康风险,这在以前是无法实现的;通用电气(General Electric)正开发带有传感器的新喷射引擎,可以收集和传输令人讶异的海量性能数据,因而可协助发现潜在问题。与此同时,众多名气较小的公司也都加入这座矿山的挖掘之中。硅谷初创企业Osito便开发了一个应用,通过收集用户地理位置和每日模式的数据,该应用每天都為用户提供有用信息(如果交通路况不佳,Osito可能会提醒你及早赶赴下个约会)。还有Kaggle公司,发现企业和非营利机构存在的“数据挑战”之后,公司就推动成千上万名数据科学家竞相解决问题。最近,為响应康奈尔大学和海洋地理大数据公司Marinexplore提出的挑战,Kaggle邀请用户想出提高浮标系统的运算法则,以防止船舰撞上濒临绝种的鲸鱼物种(奖金為1万美元)另一项竞赛则要求用户创造可分析病人健康记录的运算公式,以预测他们来年会在医院呆上几天(奖金高达300万美元)。

这些努力都表明,大数据在某些技术较不成熟(以及资金相对不足)的社会领域——尤其是教育和医疗——的应用具有极其广阔的发展前景。其中某些前景必将由谷歌和IBM等私营公司来实现;他们以创新的方式使用数据,将為公益事业做出贡献。

另外,还有许多颠覆性影响来自个人,就像内特·希尔这样,用才华创造性地解决问题的自由数据科学家。今年夏天,奥巴马竞选数据科学专家加尼开始任职芝加哥大学,為学生讲解有关民生方面的数据科学应用。“往高处说,”加尼说,“使用技术预测采购行為,与预测你是否将从高中辍学,是否染上疾病或犯罪,并不存在什么区别。”加尼宣称那些在谷歌、Facebook和华尔街对冲基金工作的数据极客,都可以很容易地帮我们找到答案,比如,為何贫困社区的优秀学生总是难以找到或申请到合适的大学。或者他们也可以分析出儿童肥胖和能量消耗的模式。“这些问题都非常相似,”加尼说。“关键就在于有能力解决问题的人,并不一定意识到问题的存在。而且他们也不知道到哪儿帮助有需要的机构。”最后,加尼的目标是搭起私营公司与未来用于公共目的大数据使用之间的桥梁。碰巧的是,他已经有了不少同伴。2011年,一位名為瑞克·博威(Jake Porway)的数据科学家厌倦于自己没能為世界做多少贡献——事实证明,从事与大数据相关的工作,也不过是追踪广告点击率,或者為消费者创造推荐引擎。“我当时想,要不试试看能不能聚集起一批人,找个周末黑黑医疗数据,”他回忆道。“因此我向朋友发了个博客帖子:‘如果你是纽约数据社区的一份子,我想知道你是否有兴趣加入。”消息很快流传开来。“我博客的读者群并不多,”博威说,“所以我没想过会有人真当回事。但到了周末,世界各地已有300人报名参加,并询问着,‘我有兴趣,该怎么加入呢?我甚至还接到白宫的电话!这实在太令人惊讶了。也就是这时,我开始意识到这不仅仅只是我和朋友间的集会,而是一场潜在的运动。”

当年七月,博威和几位同事在布鲁克林创办了Datakind机构,充当起急需数据分析协助并肩负使命的社会机构与乐于贡献才华的数据科学家之间的桥梁。这通常是无偿公益贡献,而且一般不用于商业目的。他们一直处于繁忙之中:為非洲格莱珉基金会(Grameen Foundation)工作,与美国的阳光基金会(Sunlight Foundation)合作探讨政治说客对立法者的影响。这类型的工作以前也做过,但通过梳理和比较海量数据库——关于国会投票募捐人、党派、捐赠,以及追溯至1800年代前期所有众议院资料副本——分析家们具有更巨大的潜力,可深入探索(以及披露)这些问题。与此同时,Datakind还与多家医疗机构携手共事,以发现所谓“冷链”——亦即接种疫苗与器官移植的运输路线——中的薄弱环节。目前,他们正致力于解析通过绑在运货车上Android手机收集而来的温度数据。

不仅如此,Datakind的几个分支机构亦已在世界其他城市涌现。“这有多酷呀!”博威说。

内特·希尔正努力想着下一步要做什么。今年他36岁。他那出于理性而非情感的政治兴趣,已经被选举季给消磨光了。“我实在厌倦政治了,”他跟我说。“至少目前是这样。政治界中有许多反社会分子和疯狂之人,他们的疯狂因子被这个奇怪职业激发出来。只是少了些……”希尔停下来,伸手拿了一根薯条,边吃边想。“我的意思是,因為如此随意,所以压根不可能有真实性?”这与其作為追求真理数据科学家的理念背道而驰。“你知道的,”他继续说,“比起无道德原则的商业领域,那政治根本就是道德败坏。有些人问我是否要从事竞选工作,我都会说,‘绝不。為对冲基金集团做事能赚的钱多得多,而且工作性质还没那么邪恶。至少不是试图操纵别人的信仰。”

但他也不计划进入华尔街。虽说他也曾為好莱坞电影制片厂和ESPN(娱乐体育电视网)做过商业顾问,但他似乎也不想沿着这条路发展下去。他宁愿写作或发博客,就他所说,或者偶尔来个或有或无报酬的演讲。“目前,”他说,“对我来说重要的是,能做些有意义的创造性工作。过去十年间,有好几年我基本没赚到钱,比如我玩扑克那时;而又有几年赚进了大把钱。”他的意思是,他不想以发家致富的名义妥协让步。此时,他将大多数可支配收入都用在餐馆上,偶尔才会想体验奢侈生活。比如说,他正考虑买尼克斯队的部分季票套餐,不过得先看看自己是不是还在為球队失去了林书豪而感到愤怒。“增加收入确实不错,”他总结地说,“但若我赚的钱是现在的十倍多,那必是源于某种边际改进。”

他认為,他的下本书可能会以信仰為题材。“从某种程度上讲,意识形态是人们创造并深信的一系列设想,”他解释说。“有时它非常深刻,但它又可以异常肤浅,尤其在政治领域。”他很是好奇,人们是如何形成这些信仰,而又是為何如此强烈地深信着。他同时还想在教育领域做些分析工作,因為他认為这是另外一个预测未被充分利用和执行的领域。教育数据倒是不少,希尔说,但许多都不过只是“噪声”。那么他是否能找到“信号”呢?他也同意,这是一个好的分析能造就深远影响的领域。“就是风险太大了。”

作為内特·希尔,他也有深受困扰之时。人们总是通过打电话、发邮件、发短信,请他预测他并没有兴趣预测的东西,比如彩票。“这并不是我想要传递的信息,”他说。如预测下位教皇或奥斯卡获奖者时,他确实乐在其中,而且他也会為了好玩而设计出漂亮的数学模型。不过他似乎也担心玷污了他所说的“Five Thirty Eight招牌”,使其变得过于唯利是图或者微不足道。“大多数时候我都在说,听着,事实上,这个世界是非常难以捉摸的,或者至少我们人类并不是那么擅长预测这个世界,”他跟我说。他真正想做到的,是使世界认真严肃地探讨起统计科学,并意识到信仰和偏见是如何发挥影响的。至于说大数据可以完全预测人类行為——或者至少绝大多数时候可以?在希尔看来,这个想法不仅大错特错,更令人感到不快。“历史表明,人总是会犯错误,”他说。“好的一点就是,富有创造力、敢于冒险、创意无限的人,如果他们能做出与众不同之事,便总能為自己赢得名声,或者為所在公司赚进大把金钱。”在某一刻,他似乎沉浸在想象中,為没有错误没有偏见的完美社会而感到不安——再也没有自以為是的政治专家,在电视上喋喋不休地宣扬不容错过的总统候选人;再也没有依据趣闻轶事和直觉感知,对NFL(全国橄榄球联盟)比赛结果进行预测的运动黑客。“我总是觉得乌托邦非常无聊,”他停顿片刻后说道,“不过这很可能是我根深蒂固的偏见。”

你可以看到,他并不清楚该从什么角度去看待一个完美世界。“乌托邦将会非常……他妈的……无聊,”他再次说道,这一次还加上了强调,“因為整个世界压根就没有棱角。”——J.J.McCorvey和Jilian Goodman。

猜你喜欢
希尔预测
无可预测
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
选修2—2期中考试预测卷(A卷)
一棵活了200 岁的树(二)
一颗活了200岁的树(一)
不可预测
捉月亮的网
阁楼上的光
罗伊·希尔的散文诗