黎远
在和平饭店的沃顿商学院校友会上,遇到曾在美国教我应用统计的那位教授。他问我:“什么是概率?”凭我想尽一切课内课外的知识回答,教授总是微笑着摇头。最后教授揭晓答案:概率就是一个“谎”。任何让你用概率回答的问题,人们只关注数字,而往往忽视了样本,而任何一个发起统计的人都会有意无意地左右样本的选择。最后,概率就真的成了一个谎言。
当晚,我登录QQ,蹦出一个窗口,直接链接到了在线投票,让网友投票选出最受关注的“民生十问”,包括水电煤价格、食品安全、堵车、宽带提速、扩大医药报销范围、郊区市民的生活便利、三公经费、入托难、教育经费分配、双轨制养老金、PM2.5、新增地铁线路、公租房、演唱会票价、大学生就业新举措等。我发现,除了水电煤价格高居榜首外,宽带提速力压养老金、地铁、医药费、入托难等切实问题而高居三甲之列。
会上网浏览,特别是使用QQ工具的人,大多是从事脑力活动较多的中青年,且有很多使用网络的时间,显然这部分人关心宽带提速无可厚非。这个群体距开始关心养老金还有些时日,当中的相当一部分是学生朋友,“入托难”也不会是短期内应该考虑的问题。而五六十岁,临近退休的人群中,又有几成有QQ号,有多少會上网投票,使得缩小双轨制养老金差距这样的现实问题在两会议题中的排名中稍微靠前一点呢?
网上投票的结果,会以一种怎样的方式呈现到两会代表面前,是仅供参考,还是直接提交?提交的时候,报告上是否会说明这是网上投票结果,又是否会善意地提醒代表注意使用QQ工具的人群的平均年纪并附数据说明?因为样本的原因,统计很难客观,那当然的做法就是在公布结果的同时公布样本的选取方法,对结果的使用者进行提醒并提供参考。但很可惜,这样的做法,很少见到。我们平时看到的GDP、CPI、房价指数等众多的经济指标,其实都是建立在所谓的抽样统计调查之上的结果,而我们从来就不知道这些统计结果背后的样本选取,有关部门甚至以样本选取的偏误作为解释某些数据差异的原因……拜托,这是原因,但不是借口;由于偏误导致差异可以理解,但明知偏误却从不调整,就让人气愤了。
作者邮箱:bigyuanli@hotmail.com