在疫情的危机中如何筛选信号并成功预测

2020-06-03 09:36欧锋
创业邦 2020年5期
关键词:贝叶斯西尔棒球

欧锋

在1688年,牛顿发表《自然哲学的数学原理》,世界自此进入 “大科学”时代。

人们认识到,天空没有宙斯的神殿,海洋也不是波塞冬的地盘。

宏伟而经典的牛顿力学体系,甚至让100年后的法国数学家拉普拉斯断言:“牛顿是迄今为止最幸运的人,全宇宙只有一条定律,被牛顿发现了。”

但后来,相对论、量子力学、海森堡不确定性原理等现代物理学理论,撕裂了“绝对时空观”“因果决定论”。

而面对持续肆虐的疫情,上海市新冠肺炎医疗救治专家组组长、复旦大学附属华山医院感染科主任张文宏在2月28日接受媒体专访时说:“现在中国的答卷正在交上来,确实2~4个月有可能控制住疫情。但是我们预测到了开始,没有预测到结果。”

这是因为连日来,全球多国新冠肺炎疫情升级。

世卫组织在日内瓦宣布,将新冠肺炎全球风险级别提至最高级别——“非常高”,全球疫情防控进入“决定性时刻”。世卫组织提倡每一个国家必须同时为所有可能发生的情况做好准备,任何国家都不应抱有本国不会出现病例的侥幸心理。

科学的发展历程告诉我们,这个世界,是一个复杂系统。对于复杂系统,需要保持谦卑的态度,承认过去的经验不一定正确,更多依靠观察而非理论,去描述进而预测这个世界。

只有不断试错,不断完善自己的模型,才能无限逼近我们寻找的信号。

为什么预测大多是错的

关于预测,纳特·西尔弗在他的《信号与噪声》一书中认为,我们大多数人,包括专家们,在生活中,往往表现得更像一个喝多了酒的司机。

他在书中写道:这个喝多了的司机正在权衡是否应该开车回家,他认为自己一生中开过大约2万次车,从来没有出过严重车祸。因此,基于庞大的样本规模以及几乎完美的驾驶记录,他上路了。实际上他做出了错误的决定。他的样本规模实际上为零,因为他另外的2万次驾驶记录不能算数,而且那时他更清醒。

所以,西尔弗认为问题的关键是,我们真的不善于预测,因为我们倾向于挑选那些与观点相符的数据,而忽略其他数据。

在《信号与噪声》中,纳特·西尔弗提到,美国2007—2009年金融危机不仅让华尔街多家顶级投行陷入向美国政府伸手要援助的窘境,更让评级机构陷入尴尬。

以标准普尔为代表的评级机构在美国房地产泡沫、有毒债券泡沫破灭之前,乃至破灭过程中,仍在发表着带有极强误导性的预测结论。

这些评级公司忽略了泡沫现象,严重低估了显示高风险的信息。

因为评级公司孤立判定许多项目内的风险,并在预估总体风险时将各项风险的概率相乘,这样就得出可以被忽略不计的极小数据;但问题是,以次级债为例,涉及的各个环节在风险上是相互连接的,即一个风险的爆发会触发其他的、系统性的风险,计算总体风险应该以最高风险值的项目为锚定。并且,风险概率的存在,并不意味着风险事件将严格按照特定周期的时长出现,如果某金融机构出现坏账的概率为5%,这并不能被理解为,在头一次坏账出现后的第20年才会曝出第2次坏账问题。

所以,归结起来就是,预测常常流于错误的第一个原因,就是我们对风险、概率等基本问题的不正确理解。

另外,国际政治学者常常通过大众媒体和自媒体,发表对其他国家政治选举的预测结论。一些学者的预测结论频频出错,并不是因为对影响政治选举结果的各项因素、风险、概率的理解出了问题,而是受意识形态影响,在收集各方面信息得出预判之前,自己的大脑就形成了认为自己的判断是“应当正确”的先入为主的判断,拒绝接受与之相反的信息。

纳特·西尔弗将这种学者称为“刺猬型专家”,分析指出,他们虽然善于从噪声中辨识和捕捉信号,却遗漏和忽略了其他信号,预测正确率也因此降到了“路人”随机选择的胜率之下。

这样,先入为主、固执己见,就成为导致预测出错的第二个原因。

纳特·西尔弗建议人们,要注意吸取“刺猬型专家”的教训,学会“狐狸型”的预测方法,用概率的方法思考问题、重视外部信息包括那些显示己方预判存在错误的信息,承认自己在做出判断时面临的局限性。

《信号与噪声》还通过判断一个年轻运动员的成长潜力,是球探的主观经验更值得信赖,还是基于计算机平台的数据分析系统更靠谱的案例,归纳出只重视那些实际上代表性存疑的数据,或者只依赖感性经验而得出预测,是预测出错的第三个原因。

但頗具有讽刺意味的是,按照纳特·西尔弗的分析,导致预测出错的第四个原因,应该是预测者屈从于商业利益、社会观念压力而对预测结果所做的“技术性处理”。

比如说,如果一项天气预报结论显示下雨,实际上并没有下雨,民众最多嘲讽预报机构“又错了”,但反过来,如果预报天晴却下了大雨,预报机构就会面临更大压力甚至诉讼。

这直接推高了天气预报中的灾害天气比重。

金融机构往往也基于同样的考虑,“报喜不报忧”,免得因悲观预报信息而流失客户。

所以,预测的准确性有赖于预测者对不确定性的认识,预测者越能认识到自己的局限,对不确定性的影响越抱以敬畏,做出的预测相对就能更准确;反之,那些仅仅根据一套精妙的数据模型,或者在“大数据”系统的帮助下掌握更多信息而显得自信满满,对不确定性不屑一顾的人,就会非常明显地产生偏离乃至错误。

预测的准确性有赖于预测者对不确定性的认识,预测者越能认识到自己的局限,对不确定性的影响越抱以敬畏,做出的预测相对就能更准确。

如何筛选信号成功预测

在《信号与噪声》一书中,西尔弗用七章的篇幅,从失败的预测里提炼出了三条准则:

首先,必须要有足够的信息,这是一切预测的大前提。如何在预测之前收集足够多的信息,也就成了预测成功与否的标准。

其次,预测需要一个适当的方法或模型,用来处理第一阶段里收集到的大量信息。

再次,以客观理性的态度来对待这些信息以及经过处理后所呈现的数据,譬如在深蓝与卡斯帕罗夫对决中,深蓝就完美地诠释了什么是客观与理性,相比而言,卡斯帕罗夫就稍逊一筹,当然,大家都知道,深蓝只是一台机器。

本书的前七章,涉及政治、经济(金融)、棒球、天气、地震、流行病等多个领域,知识领域跨度非常之大,但本书的精华部分其实在后半部分。

在第八章里,西尔弗抛出了自己预测理论的基础——贝叶斯定理。

贝叶斯定理是英国数学家托马斯·贝叶斯于1763年提出的一个理论。不过,贝叶斯的生平记载很少,但有一部很重要的著作流传了下来,叫《机会的学说概论》。他的思想被法国概率论学家拉普拉斯发扬光大,形成了统计学中的贝叶斯方法。

这个定理可能是概率论中最为有名的定理之一。

在贝叶斯的观点中,任何未知的事物都可以被建模为一个概率分布,而预测的任务就是给定最初的猜测,不断地使用新的证据、新的发现更新最初的猜测。

在贝叶斯的语境中,最初的猜测即主观的先验概率,而经过新的证据更新之后,形成了后验概率。贝叶斯定理将主观的先验不停地使用新的证据更新,从而逐渐逼近真相。简言之,就是观念随着事实发生改变。

贝叶斯定理通过简单的计算就可以推导出重大的预测。

例如,它的一个有趣应用就是德州扑克。在德州扑克中,当玩家看到自己的底牌时,都会形成一个对其他每位玩家可能的牌组合的先验概率,以后每一次发牌以及下注,玩家都可以通过这些公开信息,不断地更新自己对于其他玩家的牌的后验概率,同时根据这一预测进行下注的操作。

实际上,科学知识的积累,也可以看成贝叶斯定理中更新后验概率的过程。

科学研究一直强调客观性。

但物理学家和哲学家迈克尔·波兰尼在《个人知识》一书中质疑:从科研工具的制造到科研过程的深入,每一个阶段都有人的主观性介入;马歇尔在《经济学原理》中也有类似的观点,认为经济学的假设都有内涵人的主观判断。

《信号与噪声》中就是上述思路的更为通俗的表达,而且也是贯穿全书的主线。

西尔弗认为预测的困难来自测量,而测量可以分为易观察的、不易观察的。前者受人的主观性影响较小,而后者的测量则更多地要依靠人的想象力和创造力。

预测成功的关键在于有没有承认人的无知,而不是对自己所采用的模型和方法的科学性、客观性过于自信。

对工具本身过于自信,就不容易识别出噪声,从而失去正确的预测信号;而只有承认自己的无知,下结论时遵循贝叶斯式的概率思维,才能时刻警惕噪声的存在,发现真正的信号。

贝叶斯定理如今在投资学中运用得非常广泛,而互联网的很多技术也依赖于贝叶斯定理。

尽管贝叶斯定理在预测方面已有非常高的成功率,但西尔弗还是反复强调预测的困难性。

因为在大数据时代,在人们拥有的数据呈指数级增长的同时,人们需要检验的因果关系,也呈指数级增长,这就导致每个因果关系成立的可能性都不高,或者说,每个因果关系成立的先验概率都不高。

在这种情况下,根据贝叶斯定理,人们极有可能在众多的因果关系中,错误地将没有因果关系误认为存在因果关系,因而在大数据时代,人们面临的挑战也就更加严峻了。

能预测总统大选的人

《信号与噪声》的作者纳特·西尔弗于1978年在一个美国知识分子家庭出生。

他热爱棒球。早在童年时,他就是底特律老虎队的球迷,并且从少年时代起,就热衷于收集和分析各种球员的数据。

2000年,纳特·西尔弗成为名声响当当的毕马威会计师事务所的一名经济咨询顾问。

不过,他似乎并不喜欢这份工作。两年后,他开始利用业余时间分析棒球,并为棒球杂志撰写评论。这是他预测分析事业的开端。

棒球和很多球类运动不同,它有着比其他球类更丰富、更精确的数据统计。

西尔弗利用每年出版的公开数据,配合自己设计研发的一套可预测棒球的数据模型,来判断一个投手的能力,并为棒球刊物撰写文章,预测球员的表现。

2004年,他从毕马威辞职,靠着风靡一时的德州扑克网络赌博来养活自己。

2007年,还在为棒球杂志写作的西尔弗开始撰写一个政治分析专栏,这个专栏后来演变成了538网站。

2008年大选,西尔弗的关注者从棒球迷擴展到全体公众,一下子火了。

因为在这一年,西尔弗利用自己研发的那套棒球数据预测模型,几乎成功预测了美国大选结果——在全美50个州选举中,他成功预测了49个州的结果。

从噪声中区分信号既需要科学知识,也需要自知之明,比如平静地承认我们无法预测的事物,勇敢地说出我们能够预测的事物,还有就是明智地区别二者的不同。

这使他声名大噪,名满美利加。

2012年,西尔弗再登神坛,成功预测了美国50个州的大选结果。

一时之间,出版社重金签约书稿,纽约时报邀请开设政治专栏,并把538直接移到了自己的网站上,TED 大会也邀请他演讲。

西尔弗走上了超级名人之路。

他不再是那个玩棒球数据的极客,而是一个能预测总统大选的人。

登上神坛的这一年,纳特·西尔弗的第一本书《信号与噪声》出版。它的英文副标题是“Why Most Predictions Fail but Some Don't”——为什么有些预测是错的而有些不会。

猜你喜欢
贝叶斯西尔棒球
租赁房地产的多主体贝叶斯博弈研究
租赁房地产的多主体贝叶斯博弈研究
贝叶斯网络概述
贝叶斯公式的应用和推广
“大”一号棒球服
白苍鹭
去打棒球喽
贺瑞和西尔
白苍鹭