徐玲
历史上有一个著名的侦破数据造假的案例,特别有趣。发现数据造假的“大侦探”,是19世纪法国著名数学家庞加莱,而进行数据造假的人,是一个“倒霉”的面包师。
原来,庞加莱有一个习惯,每天从他家附近的面包店买一块标注1000克重的面包。回到家后,他仔细称重,却发现面包的平均重量只有950克,显然面包师故意缺斤少两,庞加莱气得马上报了警。面包师当着警察的面发誓,以后绝不再犯。
之后,庞加莱继续在这一家店买面包,买到的面包确实比以前大了一些,但他仍然觉得有什么地方不对劲。在接下来的一年中,他每天都去买面包并仔细称重。结果,庞加莱终于印证了自己的怀疑:这个面包师根本没有改过自新,而是继续缺斤少两。
庞加莱的推论过程是这样的:如果面包店里的面包平均重量是1000克,面包师每次从中随机拿一块给他,那么他拿到的面包应该有的比1000克稍重,有的比1000克稍轻。所有面包的重量分布曲线应该呈钟形,也就是正态分布,在坐標为1000克的地方达到最高点,两端逐渐下降并左右对称。
然而,实际情况是,庞加莱买的面包偏轻的太少,偏重的却过多,钟形曲线被扭曲了,不再左右对称。这意味着,面包师并不是从足斤足两的面包中随机拿一块给他,而是从依然缺斤少两的面包中,选出一块最大的给他。当警察再次上门时,面包师大吃一惊,死活想不通庞加莱是怎么看穿他的把戏的。
后来,人们把庞加莱的方法叫作“统计侦察术”,凡是应该符合特定分布形态的数据,如果出现了明显的偏离,那就值得警惕了。后来,有人用同样的方法,发现了美国篮球比赛中打假球的现象。你也可以试着用这种方法,当一回生活中的数据侦探。