徐玲
历史上有个著名的侦破数据造假的案例,特别有趣。发现数据造假的“大侦探”,是19世纪法国著名数学家庞加莱,而被发现数据造假的人,是一位“倒霉”的面包师。
原来,庞加莱有个习惯,每天从家附近的面包店里买一条标注1千克重的面包。他回家仔细称量这些面包后却发现,平均重量只有950克,显然面包师故意缺斤少两,庞加莱气得马上报了警。面包师当着警察的面赌咒发誓,以后坚决不犯了。
之后,庞加莱继续在他家买面包,他发现每天买到的面包确实大了一些。但他仍然觉得有什么地方不对劲。他在接下来的一年中,每天都去买面包仔细称重。结果,庞加莱终于印证了自己的怀疑:这个面包师根本没有改过自新,而是继续缺斤少两。
庞加莱的推论过程是这样的:如果面包店里的面包平均重量是1千克,面包师每次从中随机拿一条给他,那么他拿到的面包应该是有的比1千克稍微重一点,有的比1千克稍微轻一点。所有面包的重量分布曲线应该呈钟形,也就是正态分布,在横坐标为1千克的地方达到最高点,两端逐渐下降并左右对称。
然而,实际的情况是,庞加莱的面包偏轻的太少,偏重的却过多,钟形曲线被扭曲了,不再左右对称。这意味着,面包师并不是从足斤足两的面包中随机拿一条给他,而是从依然缺斤少两的面包中,选出一条最大的来给他。当警察再次上门,面包师大吃一惊,死活想不通庞加莱是怎么看穿他的把戏的。
后来,大家把庞加莱的方法叫作“统计侦查术”,凡是应该符合特定分布形态的数据,如果出现了明显的偏离,那就值得警惕了。后来,有人用同样的方法,發现了美国篮球比赛中的打假球现象。你也可以试着“庞加莱附体”,当一回生活中的数据侦探。
(摘自“得到”app,Stacy图)