多组均值比较统计结果p值误读案例浅析

2021-12-17 02:02李晓煦
赤峰学院学报·自然科学版 2021年11期

李晓煦

摘 要:通过一个示例解释了多组均值比较统计结果常见疑难,提出将p值换算成“若干个标准误”作定量解读。同时提供Tukey HSD多重比较校正后的置信区间半径与未作校正的LSD置信区间半径的对比参考表和图示做参考。

关键词:多重比较;Tukey HSD检验;LSD检验;p值

中图分类号:O213.9  文献标识码:A  文章编号:1673-260X(2021)11-0001-02

Pearson作为统计检验的一种辅助指标引入p值以来,p值在几乎所有自然科学与社会学领域内扮演了重要角色。很多情况下研究者只看p值的大小就直接得出结论。在统计分析中p值独一无二的地位堪称“强势”。

1 误读与迷思

以探讨摄入糖份对竞技活动成绩的影响数据为教学示例[2],研究三组均值两两之间是否存在差异。在方差一致前提下,研究者通常会采用SPSS的方差分析和事后检验多重比较的界面。本例各组样本量一致,主流教材[3,4]往往推荐使用Tukey校正方法(即Tukey HSD检验)。

LSD方法通常报告的p值小于Tukey HSD校正方法。出盲目选用LSD方法,是科研中常见的误区。在这个例子中,以0.05为一类错误率,采用上述两种校正方法都得到定性上一致的结论:“无干预组与控制组无(或未发现)显著差异;实验组也与控制组无(或未发现)显著差异;无干预组与实验组有(或发现了)显著差异”。对p值的定性解读往往带来无法回避的迷思:既然无干预组与控制组无差异,实验组也与控制组无差异,为何无干预组与实验组还会出现差异?

2 剖析与纠正

纠正上述p值定性误读的迷思,需要在统计结果解读中把p值换算成“若干个标准误”作定量解读,即T统计量。双尾0.01与双尾0.02的p值,在未标准化效应上并不是两倍的对比,其实只是1.1~1.3倍的对比[5]。同样,双尾0.01与双尾0.05的p值反差也不是五倍的未标准化效应,而是1.3~1.4倍。精确的倍数可借助Excel公式便捷计算,=T.Inv(1-0.01/2,自由度)/T.Inv(1-0.02/2,自由度)。根据统计结果代入自由度数值,结果略有变化,其范围可参见附录代码运行报告。

“若干个标准误”的统计学显著标准,可能会因为多重比较校正而扩大。这种扩大可以类比为双尾检验与单尾检验的关系。双尾检验如果看作多重比较,等价于两次方向相反、一类错误率减半的单尾检验。如果没有做“一类错误率减半”的操作,双尾检验以“若干个标准误”表述的统计学显著标准要大于单尾检验。就本例结果而言,LSD结果报告的单尾检验pC≥E=0.031<0.050,此时单尾(0.05一类错误率)检验“若干个标准误”表述的显著性标准比双尾情形的2.13个标准误要小一些,只需要1.75个标准误。借助Excel公式计算=T.Inv(1-0.05,15)。而Tukey HSD结果报告的单尾检验p=0.072≥0.050,LSD结果达到单尾显著标准,Tukey HSD结果未达到。

3 LSD与Tukey HSD的置信区间半径比例

在超过两组的多组比较情形,Tukey HSD的一类错误率意义与LSD的一类错误率意义不同。相对于LSD检验,Tukey HSD检验以“若干个标准误”表述的显著性标准总是更大。LSD的一类错误率是各对比较自身的一类错误率,要小于三对比较合起来的一类错误率。Tukey HSD衡量三对比较整体的一类错误率,任何一组比较犯一类错误都被认为整体上出现一类错误。从多重比较的校正角度,可以认为LSD没有作任何的多重比较校正,它的结论只适用于单独研究其中一对比较的情形。如果将三对比较作为整体研究,LSD的结果通常不适用。

用置信区间来分析有助于进一步理解:LSD的三对比较,每个差异值的置信区间各自都达到(1-?琢)的置信度。如果一类错误率?琢=0.05,研究者有95%的把握得到一个包含总体参数在其中的置信区间。但研究者并没有95%的把握得到三个差异值的置信区间同时都包含各自的总体参数,这个把握要比95%小一些。为了使这个整体把握校正到95%,置信区间的半径需要适当扩大。所以,超过两组的多组情形,Tukey HSD给出的置信区间半径总是比LSD给出的置信区间半径会大。

置信区间是否排除0点,即差异值(区间中心)是否超过置信区间半径。前文操作化解读的“若干个标准误”的统计标准,即置信区间半径等于若干个标准误。Tukey HSD置信区间半径的扩大比例,就是这个“达到若干个标准误”的统计标准扩大比例。给定双尾0.05一类错误率,再给定两两比较组数k和自由度df,这个“标准误倍数”的扩大比例是个常数。k=3,接近1.2倍。图1为该比例随自由度df扩大而收敛的图示。附录部分给出作图的R代码,还可以输出完整的比例表格。在研究實践中,有不少场合统计软件没有多重比较输出选项。此时,LSD结果较方便通过T统计量计算。在LSD结果的基础上,可以应用比例表格的数值进一步推算Tukey HSD的统计结果。

参考文献:

〔1〕Karl P. X. On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling[J]. Philosophical Magazine Series 5,1900, 50(302): 157-175.

〔2〕[EB/OL].(2021-10-12).http://www.http://personality-project.org/r/datasets/R.appendix5.data.

〔3〕Green, Samuel B. &Neil J. Salkind. Using SPSS for windows and macintosh[M]. NewYork: Pearson, 2013.

〔4〕甘怡群.心理与行为科学统计[M].北京:北京大学出版社,2019.

〔5〕Wilkinson, L., Statistical methods in psychology journals: Guidelines and explanations. [J].American psychologist, 1999,54(08):594-596.