Ronald L.Wasserstein,Nicole A.Lazar
(方积乾译)
·ASA声明·
编辑按:最近几年,除统计学以外的学术界对统计学检验和p值提出了质疑,有的甚至很激烈。例如,ScienceNews(Siegfried,2010)写道:“这是科学最肮脏的秘密:统计分析的‘科学方法’建立在一个脆弱的基础上”。2013年11月Phys.org Science News W ire的一篇文章引用了零假设意义的检验中“众多深度缺陷”。ScienceNews 2014年2月7日的文章(Siegfried,2014)称“假设检验的统计学技术比Facebook的隐私政策有更多的缺陷”。这些观点片面性极大,严重误导了学术界和社会舆论。鉴于此,美国统计学会(ASA)理事会于2016年2月5日发表了一个声明,并另发一篇文章说明此声明的背景和目的,以正视听。这个声明指出,目前存在关于统计学意义和P-值的错误应用和错误解释,全面阐述了统计界对这个问题早就形成的6点共识。这是统计界的一件大事,我国统计学、医学统计学教学和科研人员,以及与统计学的应用密切有关的所有人都应该准确了解这件事,而不应当道听途说,人云亦云。为此,中山大学公共卫生学院医学统计学教授方积乾将美国统计学会声明的原文翻译成中文,供同行学习参考。
ASA关于p-值的声明:背景、过程和目的
Ronald L.Wasserstein,Nicole A.Lazar
(方积乾译)
2014年2月,MountHolyoke College的荣誉退休教授George Cobb在ASA的一个论坛上提出了以下问题:
问:为何这么多学校和研究生院教p=0.05?
答:因为那是科学界和杂志编辑们还在使用的。
问:为何这么多人还在使用p=0.05?
答:因为那是学校和研究生院教他们的。
Cobb考虑的是社会科学界关于p<0.05一刀切这个长期伤脑筋的循环:“我们教它因为这是我们所做的;我们这样做因为这是我们所教的。”
这个考虑引起了ASA理事会的注意。ASA理事会也受刺激于过去几年高度醒目的讨论。例如,ScienceNews(Siegfried,2010)写道:“这是科学最肮脏的秘密:统计分析的‘科学方法’建立在一个脆弱的基础上”。2013年11月Phys.org Science News W ire的一篇文章引用了零假设意义的检验中“众多深度缺陷”。
ScienceNews2014年2月7日的文章(Siegfried,2014)称“假设检验的统计学技术比Facebook的隐私政策有更多的缺陷。”一周后,统计学家、“Simply Statistics”博主Jeff Leek回应“问题不是人们糟糕地使用p-值,而是绝大部分数据分析并非由正规训练过数据分析的人来实现的”(Leek,2014)。同一周,统计学家和科学作家Regina Nuzzo在Nature上发表一篇文章,题为“科学方法:统计学错误”(Nuzzo,2014),这是目前最 高 度 重 视 的 Nature文 章 之 一 (http://www.altmetric.com/details/2115792#score)。当然,这不是单纯地回应某一篇公开发表的文章。统计学界已经深度关注科学结论的可重现性和可重复性问题。
我们观察到,不深入这些术语的定义和区别,许多混淆甚至怀疑科学的真实性正在发生。这样的怀疑会导致激进的选择,诸如Basic and Applied Social Psychology的编辑们竟决定废弃p-值(零假设意义检验)(Trafimow and Marks,2015)。错误理解或错误使用统计推断只是“可重现性危机”的原因之一(Peng,2015),但对于我们统计学界而言,这是个重要原因。当ASA理事会决定接受挑战,发表一份关于p-值和统计学意义的声明时,确实意识到这不是轻松的一步。ASA以前没有对统计实践的特定事情表过态。与此最接近的是一个关于教育评估中使用的增值模型(value-added models,VAM)的声明(Morganstein and Wasserstein,2014)和一个关于风险限制的选举后审计的声明(American Statistical Association,2010)。然而,这些是纯系政策相关的声明。VAM声明侧重于一个关键的教育政策,承认事情的复杂性,说明VAM作为有效模型的局限性,催促要有统计学家参与模型的建立和解释。关于选举审计的声明也是对一个大的却特定的政策问题(2008年结束选举)的反应,表示基于统计学的选举审计必须成为选举过程的一个常规部分。相比较,理事会预想到,这个关于p-值和统计学意义的声明将阐明我们领域中经常被广大学术界错误理解和错误使用的一个方面,并且在此过程中,为学术界提供服务。计划中的读者是原非统计学家的研究人员、实际工作者和科学作家。因此,这个声明将和以前尝试过的声明很不相同。
理事会分派Wasserstein汇集一组代表不同观点的专家。他代表理事会接触超过24位这样的对象,他们都说愿意参加。有几位怀疑能否达成共识,但是他们确实表示,如果有讨论,他们愿意参与。经过好几个月,小组成员讨论了声明采取什么形式,试着较具体地设想该声明的读者,并且开始发现共识点。逐渐变得相对容易做了,但只是容易找到强烈的分歧点。待到这个小组能坐下来一起消除这些分歧点,2015年10月20位成员终于在Virginia州Alexandria的ASA办公室聚会。Regina Nuzzo促进了这个两天的会议,会议结尾时,围绕着这个声明形成了一组很好的观点。接下来的3个月,见到了声明的多份草稿,小组成员、理事会成员(2015年ASA理事会会议上漫长的讨论)和目标读者审阅。最后,2016年1月29日,ASA的执行委员会批准了这份声明。这份声明进展的过程比预计的更漫长、有更多争议。例如,关于如何最好地讲清多重潜在比较的问题(Gelman and Loken,2014),我们就“一个接近0.05的p-值本身只是反对零假设的微弱证据。”(Johnson,2013)这段话的潜台词争论了很久。关于如何叙述p-值的多种替代以及多么详细为宜,有很多不同见解。为了使这份声明适度简练,我们并没有写对立假设、两类错误或功效等其他内容,并不是每一位都同意这样做。
在声明发展过程接近尾声时,Wasserstein联系了Lazar,问及这份政策声明可否在The American Statistician(TAS)发表。经考虑,Lazar决定TAS愿意提供一个良好平台,以广泛传递给一般的统计读者群。同时,我们决定增加一个在线讨论,提供机会来反映前述争议,提高TAS读者的兴趣水平。最后,我们联系了一组讨论者,请他们就这份声明发表评论。人们可以从在线增刊读到他们的观点。我们感谢以下各位和我们分享他们深刻的见解:
Naomi Altman,Douglas Altman,Daniel J.Benjamin,YoavBenjamini,Jim Berger,Don Berry,John Carlin,George Cobb,Andrew Gelman,Steve Goodman,Sander Greenland,John Ioannidis,Joseph Horow itz,ValenJohnson,M ichael Lavine,M ichael Lew,Rod Little,Deborah Mayo,M ichele M illar,CharlesPoole,Ken Rothman,Stephen Senn,DaleneStangl,Philip Stark and Steve Ziliak。
虽然对这份声明应当讲些什么存在着分歧,但是,关于ASA必须就这些事情发声是高度一致的。必须明确,这份ASA声明并没有新内容。统计学家和许多其他人已经就这些事情敲了几十年的警钟,效果甚微。我们希望世界上最大的统计专业学会发出的这份声明将开启新的讨论,引起新的和严密的注意,使得利用统计推断进行的科学实践有所改观。
1.American Statistical Association(2010),“ASA Statement on Risk-Limiting Post Election Audits,”available at http://www.amstat.org/policy/pdfs/Risk-LimitingEndorsement.pdf
2.Siegfried,T.(2010),“Odds Are,It′s Wrong:Science fails to face the shortcomings of statistics,”Science News,177,26,available at https://www.sciencenews.org/article/odds-are-its-wrong
3.Johnson,V.E.(2013),“Uniform lymost powerful Bayesian tests,”Annals of Statistics,41,1716-1741.
4.Phys.org Science News Wire(2013),“The problem with p values:how significant are they,really?”available at http://phys.org/wire-news/145707973/theproblemwithpvalueshowsignificantaretheyreally.html
5.Gelman,A.,and Loken,E.(2014),“The Statistical Crisis in Science[online],”AmericanScientist,102.Available at http://www.americanscientist.org/issues/feature/2014/6/thestatisticalcrisis-in-science
6.Leek,J.(2014),“On the scalability of statistical procedures:why the p-value bashers just don′tget it,”Simply Statistics blog,available athttp://simplystatistics.org/2014/02/14/on-thescalability-of-statistical-procedures-why-the-p-value-bashers-just-dont-get-it/
7.Nuzzo,R.(2014),“Scientific Method:statistical errors”,Nature,506,150-152,available athttp://www.nature.com/news/scientific-method-statistical-errors-1.14700
8.Morganstein,D.,and Wasserstein,R.(2014),“ASA Statement on Value Added Models,”Statistics and Public Policy,1,108-110,available at http://amstat.tandfonline.com/doi/full/10.1080/2330443X.2014.956906
9.Siegfried,T.(2014),“To make science better,watch out for statistical flaws,”Science News,available at https://www.sciencenews.org/blog/context/make-science-better-watch-out-statisticalflaws
10.Peng,R.(2015),“The reproducibility crisis in science:A statistical counterattack,”Significance,12(3),30-32
11.Trafimow D,MarksM.(2015),editorial in Basic and Applied Social Psychology,37:1-2.