对统计假设检验的误解与误用

2012-01-27 00:48:50滨州医学院264003孙红卫董兆举赵拥军
中国卫生统计 2012年1期
关键词:假设检验科学研究错误

滨州医学院(264003) 孙红卫 董兆举 赵拥军

统计假设检验是生物医学、临床医学、流行病学、心理学、教育学等领域中广泛使用的统计分析方法,数据分析中通常要给出统计假设检验的结果。但是应用者对统计假设检验有很多的误解,在很多方面假设检验并不适合作为数据分析的主要方法。本文讨论对统计假设检验的各种误解及其作为科学研究工具的局限性,并进一步讨论了统计改革的状况以及统计假设检验一直大规模使用的原因,最后提出应该树立正确的统计观念。

对统计假设检验的误解

统计假设检验是一种利用实验或调查数据作决策的方法,即在假设零假设成立的情况下,计算统计量获得现有数据以及更不利于零假设的概率,由此判断是否拒绝零假设。它由Fisher在20世纪早期提出,现在广泛应用的统计假设检验是Fisher和Neyman-Pearson理论的混合体。统计假设检验从提出以来不断受到批评〔1-7〕,这些批评主要集中在方法的应用上。本文对假设检验不同角度的误解整理提炼,提出最关键的几点,分析如下:

误解一,P值的大小衡量了原假设成立的可能性

不少应用认为,P值越小,表示零假设越不可能成立,结果越不可能由随机误差产生。而P值是H0成立的前提下,统计量获得现有数据以及更不利于零假设的概率,即P(D|H0)。零假设成立的可能性是在现有观测数据下H0成立的可能性,应该是条件概率P(H0|D)。而Bayes公式需在实验前已知零假设的先验概率P(H0),才可以计算P(H0|D)。

Lindley-Jeffreys悖论〔8〕揭示了 P(H0|D)与 P(D|H0)可以差异很大。在文献〔8〕例子中,虽然拒绝了H0,即P(D|H0)≤α,但是即零假设成立的可能性 P(H0|D)却接近于1。

Fisher指出:P值是由它们的零假设计算出来的假设概率,它不会导出关于世界上某个事件的概率,而是关于是否愿意接受所检验假设的一个合理定义的度量。〔9〕

对于应用者而言,很容易将这两个条件概率混淆。应用者希望得到P(H0|D),即结果由随机误差造成的可能性,殊不知统计假设检验不会提供这个信息。

误解二,检验水准α皆取0.05

检验水准α即犯第一类错误的概率。现在的应用倾向是,无论是t检验、方差分析或回归分析,无论分析的是什么问题,α基于长期的传统都取0.05。在Neyman-Pearson的理论中,α是在实验前,根据错误拒绝原假设引起的损失程度,主观来确定。

Fisher也指出:没有一个科学工作者年复一年无论什么情况下,都有一个固定的检验水准,而更应该依据自己的证据和思想,对每一种情况给予不同的考虑。〔10〕

固定α的一个矛盾在“多重比较”中。假设甲通过做实验来比较A、B、C三种药物,乙通过做实验来比较A、B两种药物。甲对于零假设“A、B、C三种药物的平均疗效相同”的检验水准设定为0.05,乙对于零假设“A、B两种药物的平均疗效相同”检验水准也是0.05。甲为了控制整个实验的一类错误在0.05以内,如果比较A、B两种药物有何差别,其检验水准就要在进行校正后小于0.05。这样乙的实验就更容易得到阳性结果。甲的实验可以获得更多信息,却因此受到惩罚,这显然是不合理的。

误解三,P值越小,代表所检验总体差异越大

P值的大小,除了受差异量的影响外,还受样本量的影响,即同样的差异,样本量大的,其P值就小。即便总体之间的很小差异,只要有足够的样本量就可以得到很小的P值。一个有实际意义的差异,如果检验功效不大,可能没有统计意义;同样,有统计学意义的差异,可能没有实际意义。

误解四,假设检验能够回答“样本的差异是因为总体确有差异引起的,还是仅由随机误差造成的”

假设检验不能够完全做到这一点,实际上,假设检验作出结论可能犯两类错误。其中第一类错误,即实际上样本的差异仅由随机误差造成的,却错误拒绝了H0,认为总体确有差异。犯第一类错误的概率由检验水准控制在α水平。第二类错误是当样本的差异是由总体的差异造成的,却错误地不拒绝H0,认为仅由随机误差造成的。犯第二类错误的概率β往往比较大,Cohen〔11〕指出,发表在主要的心理学杂志上的实验,平均只有0.5的机会鉴别出一个中等大小的效应,而在样本量较小的生物医学实验中这个数值会更低。

处理随机误差问题的需要是个很强的动力使得假设检验得以大规模地应用,但是假设检验不能完全正确地回答这个问题,回答错误的可能性还比较大。

误解五,P值越小,表示了在重复实验中出现有统计学意义结果的可能性越大

实验结果的可重复性代表了结果的可靠性。而对一次实验的假设检验,其P值容易误解成在重复实验中出现有统计学意义结果的可能性。比如P=0.01,被误解成如果做100次实验会出现99次有统计学意义结果。设A=“出现有统计学意义结果”,重复实验中出现有统计学意义结果的可能性即为P(A),P(A)=P(H0)P(A|H0)+P(H1)P(A|H1)=P(H0)α+P(H1)(1-β),其需要知道原假设先验概率P(H0),备择假设的先验概率P(H1),以及检验功效(1-β),仅知道P值是无法知道在重复实验中出现有统计学意义结果的可能性的。

假设检验应用于科学研究的局限性

统计方法是科学研究的工具,一个好的统计方法应该能促进科学研究,然而假设检验应用于科学研究具有局限性。

首先,在科学研究中,对一个结论的可靠性,不是仅通过一次实验,而是通过重复实验获得的。一个负责任的研究者不会仅凭一次实验的结果就下结论。而假设检验,每做一次实验就得出结论,这样造成的一个情形是,“P≤0.05”的结论容易被杂志接收,而“P>0.05”的文章容易被拒,由此造成“发表偏倚”。假设检验适用于“必须通过一次实验就下结论”的问题(比如质量控制中的抽样检查),而科学研究需要的是对某个问题“认知”的累积,而不是“决策”的累积。

其次,科学研究中需要的数据分析方法应该能提供两个关键信息,一是感兴趣的效应量是多少,二是效应量估计的精确程度。如果一个研究者拒绝了零假设“A等于B”,可以接受备择假设“A大于B”,他仅得到这个信息,而至于“A比B大多少”却无法得知。假设检验并不能直接反映这两点,反而会造成误解(P值越小,差异越大)。与假设检验相比,置信区间更适合于科学研究,它的估计值代表效应量大小,区间长度代表抽样误差大小。

效应量估计〔12〕被提出用来解决假设检验不能回答的问题,其优点是避免了由样本量的变化影响P值从而引起的对P值的误解。实验结果的可靠性和稳健性仍然需要通过重复实验来获得,研究结果在重复实验中的一致性更适合证明效应的存在。在科学研究中,对每个实验应该思考如何呈现结果最合适,而不是每个实验都用同样的方法。

统计改革状况及思考

假设检验从提出后就不断受到批评,在这些批评下一些杂志改变了编辑原则,提倡置信区间而非假设检验。1977年,New England Journal of Medicine杂志,Journal of the American Medical Association杂志和Circulation Research杂志相继对结果报告进行改革。1986年,British Medical Journal提出在结果报告中鼓励使用置信区间。1988年,国际医学期刊编辑委员会修订了其“对生物医学期刊投稿的统一要求”:如果可能,将结果量化并且用合适的指标对误差和不确定性进行合适的测量(例如置信区间),避免单一地依赖统计假设检验,例如P值的使用,它不能传达重要的量化信息……〔13〕。

1996年,美国心理学会的The Board of Scientific Affairs(BSA)成立了Task Force on Statistical Inference(TFSI)组织,该组织的目的是澄清围绕统计应用有争议的问题,包括假设检验以及其替代方法;替代的基本模型和数据转换;能够用计算机实现的新方法等〔14〕。

虽然在统计观念的改革上有进步,但是统计假设检验仍然是科学研究中的主要分析方法之一。究其原因,主要有以下几个:

1.最主要是源于对假设检验的误解,以为它能解决科学研究中关心的问题:假设成立的可能性有多少?研究结果的可靠性是多少?效应量是多少?但实际上,假设检验不能回答这些问题。

2.杂志的编辑发表的标准是“P值越小越好”,这样研究者就努力以尽量小的P值呈现结果。

3.假设检验在统计课程中占有很大一部分,这样让学生感觉假设检验是主要的统计方法。

4.软件的使用给人带来方便高效,但是使得研究者不关心方法的原理,更给人一种错觉,即统计假设检验是一种标准的、任何时侯都适用的统计方法。

结 论

作假设检验已经成为很多数据分析的例行程序,无论假设检验能不能提供有效信息,都要给出P值。统计方法作为科学研究的工具,应该是不同的问题用适合的统计方法来解决。对每个问题需要研究者好好思考用什么统计方法来呈现结果会得到更有效的信息,而不是不作思考只是用例行的程序来分析所有的问题。树立这样的观念,需要杂志编辑、研究者、学校老师等各个领域人员共同的努力。也许这个过程充满矛盾和冲突,但最终会引导我们正确地应用统计方法来促进科学研究。

1.William WR.The fallacy of the null-hypothesis significance test.Psychological Bulletin,1960,57:416-428.

2.Bakan D.The test of significance in psychological research.Psychological Bulletin,1966,66:1-29.

3.Ronald PC.The case against statistical significance testing.Harvard Educational Review,1978,48(3):378-399.

4.Fark R.Misconceptions of statistical significance.,Journal of structural learning,1986,9:83-96.

5.Cohen J.Things I have learned(so far),American Psychologist,1990,45(12):1304-1312.

6.Falk R,Greenbaum W.Significance tests die hard.Theory & Psychology,1995,5:75-98.

7.Gigerenzer G.Mindless statistics,The journal of Socio-Economics,2004,33:587-606.

8.Lindley V.A statistical paradox.Biometrika,1957,44(1-2):187-192.

9.Fisher RA.Statistical methods and scientific inference.In:Bennett JH,editor.Statistical methods,experimental design and scientific inference.Oxford:Oxford University Press,1990.

10.Fisher RA.statistical methods and scientific inference.Edinburgh:Oliver& Boyd,1956.

11.Cohen J.The statistical power of abnormal-social psychological research:A review.Journal of Abnormal and Social Psychology,1962,65:145-153.

12.Friedman H.Magnitude of experimental effect and a table for its rapid estima tion.Psychological Bulletin,1968,70:245-251.

13.International Committee of Medical Journal Editors.Uniform Requirements for manuscripts submitted to biomedical journals.Annals of International Medicine,1988,108:258-265.

14.American Psychological Association.Task Force on Statistical Inference.http://www.apa.org/science/leadership/bsa/statistical/index.aspx,2010-10-9.

猜你喜欢
假设检验科学研究错误
欢迎订阅《林业科学研究》
在错误中成长
欢迎订阅《纺织科学研究》
纺织科学研究
纺织科学研究
统计推断的研究
时代金融(2017年6期)2017-03-25 12:02:43
双幂变换下正态线性回归模型参数的假设检验
统计与决策(2017年2期)2017-03-20 15:25:23
Primary Question and Hypothesis Testing in Randomized Controlled Clinical Trials
统计学教学中关于假设检验问题探讨
不犯同样错误