徐玲
历史上有一个著名的侦破数据造假的案例,特别有趣。发现数据造假的“大侦探”,是19世纪法国著名数学家庞加莱,而数据造假的人,是一个“倒霉”的面包师。
原来,庞加莱有一个习惯,每天从家附近的面包店买一条标注1000克重的面包。他回家仔细称量这些面包后却发现,面包的平均重量只有950克,显然面包师故意缺斤少两,庞加莱气得马上报了警。面包师当着警察的面赌咒发誓,以后坚决不犯了。
之后,庞加莱继续在他家买面包,发现每天买到的面包确实大了一些。但他仍然觉得有什么地方不对劲。他在接下來的一年中,每天都去买面包仔细称重。结果,庞加莱终于印证了自己的怀疑:这个面包师根本没有改过自新,而是继续缺斤少两。
庞加莱的推论过程是这样的:如果面包店里的面包平均重量是1000克,面包师每次从中随机拿一条给他,那么他拿到的面包应该是有的比1000克稍微重一点,有的比1000克稍微轻一点。所有面包的重量分布曲线应该呈钟形,也就是正态分布,在坐标为1000克的地方达到最高点,两端逐渐下降并左右对称。
然而,实际情况是,庞加莱买的面包偏轻的太少,偏重的却过多,钟形曲线被扭曲了,不再左右对称。这意味着,面包师并不是从足斤足两的面包中随机拿一条给他,而是从依然缺斤少两的面包中,选出一条最大的给他。当警察再次上门,面包师大吃一惊,死活想不通庞加莱是怎么看穿他的把戏的。
后来,人们把庞加莱的方法叫作“统计侦察术”,凡是应该符合特定分布形态的数据,如果出现了明显的偏离,那就值得警惕了。后来,有人用同样的方法,发现了美国篮球比赛中打假球的现象。你也可以试着用这种方法,当一回生活中的数据侦探。
(珺 涵摘自“得到”App)