文/郑 念
统计是经济社会管理的重要依据,也是现代(社会)科学研究的重要技术手段,在大数据出现以前更是如此。然而,任何技术都具有两面性,具有双刃剑作用,只有正确使用才能产生好的效果,否则,滥用或错误运用,其破坏性也是不容小觑的。
善于运用统计是科学理性的表现,是进步的标志之一。最典型例子,大概20多年前,天气预报往往会用肯定性的语言,如今天小雨,或阴天,或晴天,或小雨转多云等。但发现群众意见很大,因为依据天气预报来安排日程,往往出错。于是后来的表述就更科学一些了,采用统计或概率的方法,如降水概率50%,或者湿度80%。
小数据时代,统计学在研究宏观现象时非常有效,用于微观现象则要慎重,但如果正确运用则具有意想不到的效果。比如,量子力学、统计力学在理解很多热力学概念(例如熵、温度、气体状态)的起源方面取得了巨大成功,尤其是在普朗克1911年提出光量子的统计原理后,与量子理论的结合进一步完善了统计力学的基础。
大数据学科的出现,在一定程度上丰富了统计学的内容,提升了统计技术。大多数情况下,可以运用云计算直接分析整体(全样本)大数据,而不必要进行抽样,以样本推断总体,这就改变了传统科学研究的线性思维,而用直接面对复杂科学的系统思维,更多考虑要素之间的相关性,而不是因果关系。但这并不能否定统计思维的作用,因为大数据学科中包括了统计学中数据分析的基本方法,如回归分析、分类模型、集成模型、聚类模型等,描述的性质也是统计学语言,仍然需要统计思维来发现规律。
我们经常会在媒体上看到各种各样违背常识或是与我们想象中不同的惊人结论,每当看到这样的结论时,公众都会产生疑惑,时间长了人们可能逐渐不再相信媒体报道的数据。越来越多不靠谱的结论让人们很难再相信它们。
这不是统计思维的问题,而是使用统计技术的人出现了错误。对于公众来说,了解统计技术,具备统计思维,更有利于识别和判断信息的有效性。否则,一旦统计结论和实际情况的偏差并且不能让我们意识到,我们就会很轻易地相信了这些结论。所以,在学习使用统计思维时,通过思考如何避免常见的统计陷阱是非常有必要的。我们这样做不仅可以避免相信错误结论,而且能够让我们对于统计思维的本质有更深层次的思考。
一些作者尤其是学生,喜欢用调查数据来论证,用定量方法进行分析,从研究的角度考虑,这是提高科学性增进结论可靠性的有效技术路线。但问题是很多作者只是停留在形式上,并不考虑抽样框如何确定、技术是否合理,数据是否可靠,即使用了定量分析,也不能把结论与分析结合起来,有时都不知道为什么要研究这个问题,于是,大量的研究成为无效劳动,出现很多伪命题伪研究,浪费时间和资源。
大数据时代的到来,对于公众来说,提升统计思维显得非常必要。但要避免统计陷阱。一是要思考数据的来源和方法。当看到结论时,我们要同时思考辅助结论推导出来的源数据是如何进行采集、录入、加工到输出的,这中间是否存在影响结论客观公正性的问题。二是统计方法是否合适。日常工作生活中,我们要结合研究目的、数据类型及特点,来选择合适的方式。例如,平均值适合的情况是样本分布呈正态分布或是橄榄球形状的,在偏态分布或是两极分化严重的随机现象中,更合适的方式是采用分位数。三是避免大数据忽悠。所有的分析工作最终都是为了得到一个结论,有了结论就会做出相应的决策,这些决策一般都会带来较为重要的影响,所以发现结论错误是非常重要且非常有必要的。常见的结论谬误是以偏概全,即将结论的影响因素只归结到了少数几种因素,对于某些重要因素并没有考虑到。