彭佳师
(湖南科技大学 生命科学学院 经济作物遗传改良与综合利用湖南省重点实验室, 湘潭 411201)
统计学知识在不同领域都有广泛应用,在终生学习的社会氛围中,即使不是所有学生在以后的职业生涯中都会频繁用到统计学知识,但对于统计学知识的掌握也有助于他们理解和学习其他知识。因此,统计学相关课程作为很多专业的基础课程在高校中广泛开设。生命科学相关专业一般开设生物统计学等课程。特别是在生命科学步入大数据时代,此门经典课程的重要性和实用性日益提升。
统计学中P值概念的提出最早可以追溯到1900年[1-2],经过不断发展,一个多世纪以来已然成为统计推断中普遍依据的一个指标,这也部分得益于其依赖的统计学模型相对简单且学术界有普遍采用的“判断阈值”(如P< 0.05)。研究发现,P值的使用频率远高于置信区间等其他统计学指标,且在研究结果中报告P值的科学论文比例仍呈上升趋势[3]。然而P值被大量误用甚至不合理地作为统计推断的唯一依据的情形亦屡见不鲜,导致其在被广为采用的同时也饱受争议。
P值作为统计推断的核心依据,其概念也是生物统计学课程教学的重点和难点。然而P值的大量误用也促使我们在大学教育中对于统计学的教学作出反思。美国统计学会(ASA)在关于统计意义和P值的声明中描述了George Cobb教授在ASA 论坛上提出的两个问题以及所得到的令人深思的答案[4]。
问题1:为什么在众多高校中教授的P值判断阈值是0.05?
答案:因为学术界以及期刊的编辑们都是这样使用的。
问题2:为什么大家仍在使用0.05作为P值的判断阈值?
答案:因为大学课程是这样教的。
上述问题所描述的“怪圈”折射出我们在相关课程教学中仍有亟待改进的地方。而关于P值的争论在生命科学领域的研究中尤为激烈,因此不能忽视其对生物统计学课程教学的影响。
随着《自然》等权威期刊的持续关注及讨论[5-6],学术界争论了一个多世纪的P值在近几年讨论更加广泛和深入。针对P值的争论,ASA 在2016年发表了关于统计意义和P值的声明[3],在学术界引起很大反响。关于P值争论的学术论文很多,观点也不尽相同,这里难以描述全面,只简单介绍作者的一些理解。
引起P值争论的一个重要原因是过分强调P值甚至错误地使用和解释P值,从而引发了学术界对相关科学结论的可靠性和可重复性的担忧。过分强调和依赖P值,甚至以P值作为统计推断的唯一依据而不考虑实验设计和数据收集过程以及其他统计学指标,这显然是片面的。特别是随着“P< 0.05”逐步成为学术界默认的“标准”,研究人员容易陷入“P值操纵”(P-hacking)的陷阱[7]。除了过分强调P值外,对于P值常见的错误使用和解释也是引起学术界担忧的重要方面。例如,当P值大于设定的显著水准时,可能会做出零假设成立(即没有显著差异)的推断,这是很多学术论文中常见的因对P值的误解而得出的不合理的科学推论[7]。引起P值争论的另一重要原因可能是P值或其依赖的统计学模型本身并非完美。例如P值并不是原假设成立的概率,正如ASA关于统计意义和P值的声明中的描述:P值本身并非一个对模型或假设提供证据度量的理想指标[4]。另一方面,当样本容量增大时, 理论上得到一个非常小的P值的可能性会大大增加, 进而导致拒绝原假设的概率也会增加,此时P值并不能算是一个十分有效的指标,这也是导致“P值操纵”容易实现的重要原因。
关于P值的争论仍在进行,但是目前学术界普遍接受和认可的是,P值在当前应用于统计推断中的作用被过分放大甚至误用是客观存在的。虽然存在完全摒弃P值的意见[8],但是多数学者仍认可P值的作用。在BiometricalJournal关于P值争论的专刊(59卷5期)中,参与讨论的学者几乎一致地认为P值作为基本的统计推断工具不应该被摒弃[9]。近期Nature发布的一篇超过800位学者签名支持的评论文章呼吁放弃使用统计显著性作为研究结果评估指标,但是也强调并不是摒弃P值,并建议在报告P值时给出其精确值而不是一个不等式(如P<0.05)[6]。
尽管如此,学术界仍未形成一个普遍认可的作为统计推断依据的理想方案。参与P值争论的观点中,多数认可P值应当与置信区间、效应值、Bayes 统计模型等综合使用,从不同角度阐释研究现象,而不是将P值作为统计推断的唯一依据。需要指出的是,这些统计学指标可能也面临着P值同样的问题。如效应值取多大的阈值算作高效应(如Cohen′s d>0.8)? ASA的声明中建议研究者公开所提出的全部假设、收集到的数据、数据分析结果,P值结果,以及这些分析是如何被选中用于报告的[4]。事实上已经有不少学术期刊正在努力这样做。当然报告确切的P值可以让读者或研究者自己判断结果提示的意义不失为另一种选择[6],但是笔者认为这似乎有为了避免错误而将做出科学推论的任务推给读者的嫌疑。由此可见,持续了一个多世纪的P值争论可能将继续争论下去。
P值作为假设检验统计思想的核心,在生命科学研究中应用尤为广泛[3]。使学生正确理解并合理使用P值进行生物学数据的分析是生物统计学课程的重要教学目标。学术界关于P值的大讨论不仅使得对P值的理解以及正确使用越来越清晰,而且将P值争论融入教学对于帮助学生了解和掌握P值这一关键概念,从而对提升生物统计学的课堂教学效果亦大有帮助。此外,学术界关于P值的争论虽然持续多年,但是P值争论的最新动态也是该门课程教学中关于学科发展前沿介绍无法回避的方面。因此,应该积极对待P值争论对此门课程教学的影响,并将P值争论的相关观点和由此引发的教学方面的改革积极融入此门课程的教学过程中。
在前文提及的ASA的声明中关于“为什么学校这样教是因为大家都是这么做的,而为什么大家都这样做是因为学校是这样教的”的“P值使用怪圈”[4]至少给我们的教学提供两个方面的反思:一方面,我们关于P值的教学可能存在欠缺或者不当,比如对于P值的概念讲解不透彻,对其局限性以及常见使用误区未加以深入剖析等,以致同学们对P值的理解可能片面化,在P值使用时缺乏灵活性甚至误用;另一方面,当前关于P值的学校教育可能使同学们走出学校后继续“机械地”按课堂上所学知识使用P值,这可能也是导致如今P值误用和争论的一个重要原因。因此,正确、及时地调整关于P值的学校教育可能是解锁“P值使用怪圈”的一个根本环节,同时也会给关于P值的争论注入更多积极、理性的因素。
相对于专门的统计学教材,目前普遍采用的生物统计学教材一般更偏重怎样运用统计学知识设计和解决生物学问题,而对于统计学相关的原理和方法的描述相对简单。然而生命科学相关专业鲜有在开设生物统计学的同时开设专门的统计学课程。因此,在课堂教学中对于像P值这种不易被学生理解的关键概念应该避免按课本的简短描述来简单教学。建议在介绍假设检验以及假设检验的两类错误时应详细、客观地介绍P值的概念。
作者在教学过程中经常发现学生们认为P值是原假设(null hypothesis)发生的概率,因而依此根据较小的P值推断原假设成立的可能性较小。虽然按此逻辑对最终的统计推断结果没有影响,但这显然不是对P值概念的正确理解。关于P值的具体含义,可以理解成从一个假设所规定的特定总体中随机抽样,得到的统计量值(如t值等)与实际观测数据的相同及更极端(更大或更小)的概率[4]。这个假设即无效假设或称为原假设,顾名思义,它一般假设数据之间没有差异,或相关的效应等不明显。与之对立的假设称为备择假设(alternative hypothesis)。P值越小,即在原假设的前提下得到现有样本观察结果的概率越小,则可以反推出原假设成立的可能性越小。
为促进学生深入理解P值,在介绍P值概念的同时还应该重点介绍显著水准的概念,以引导学生正确看待和灵活使用计算得到的P值,这对于解锁当前的“P值使用怪圈”非常重要。显著水准一般是人为设定的一个是否拒绝原假设的P值的阈值,若计算得出的P值小于设定的显著性水准,则根据小概率反证法原理,作出拒绝原假设的判断。需要指出的是,确定的显著性水准不同,可能得到完全相反的结论。因此,影响做出差异是否具有统计学意义的统计推断的因素除了计算得到的P值外,还有事先确定的显著性水准的值。P值是一个概率值,依据P值不论作出是否拒绝原假设的判断都可能得到错误的结论。错误地拒绝了实际正确的原假设,称为第一类错误,而确立的显著性水准的大小决定了犯此类错误的可能性。同样,当原假设实际不成立时却未能正确的否定原假设,称为第二类错误。犯第二类错误的概率不能确定,但是在样本容量相同的情况下,它与犯第一类错误的概率呈“此消彼长”的关系。因此,学术界普遍采用的0.05或0.01作为显著性水准并不是“黄金准则”,需要我们根据良好的实验设计以及实际情况合理地设置。这一点无论是在实际应用还是学校教育中都是容易被忽视的,值得在课程教学过程中重点强调。
P值的误用是引起P值争论的主要原因,因此在P值争论中被学术界普遍讨论的P值的常见误用不仅反映了学校教育的薄弱环节,也给这门课程的课堂教学指出了需要重视的地方。这里结合作者对于此门课程的教学经验,列举两点学生们对于P值常见的误用加以讨论。
最常见的误用即当计算得出的P值大于设定的显著性水准时,认为原假设是成立的,即得出“无差别”或“无作用”等结论。然而实际上,假设检验方法不能提供原假设正确的概率保证。如果试验样本少,也可能得到P值大于设定的显著性水准的检验结果。在教学中可以结合检验统计量的计算公式从原理上讲解,如t值的计算公式中,在均数一致的情况下,样本容量直接影响公式中作为分母的标准误的大小,并最终对P值和统计推断结果产生影响。在介绍原理的基础上,结合相应的生物学数据作为例题,例如以大田条件下,单株产量实际存在差异的两水稻品种的单株产量数据为例,当统计的样本容量逐渐增大或减小时,均值变化不会很大,但是两样本t检验的P值会有明显变化,一般样本容量较小时对应的P值相对较大。通过此类例题直观的展现出较大的P值与实际能否作出“无差别”的结论的关系,辅助学生加深对此的理解。
在教学过程中遇到的另一常被学生误用的情形是,P值越小被错误地理解为差异越大。然而P值的大小只表征差别有无统计学意义,与效应量(effect size)没有必然的联系,即并不表示实际差异的大小。例如在样本容量足够大时,即使差异非常微小也可能得到很小的P值。对于效应量的表征目前有多种形式,使用较为普遍的是Cohen′s d 值[10]。此点在教学过程中也可以结合检验统计量的计算公式从原理上讲解,并可以通过从反面列举相关例题加以辅助教学,如列举两组集中性很好的样本,容量较大但均数相近的数据且计算的P值远小于显著水准,这样可以直观地让学生理解P值与实际差异大小之间的关系。
P值争论本身也可以作为生物统计学课程很好的教学素材。可以通过介绍学术界对P值争论的原因、过程以及各种学术观点,引导学生思考,加深学生对相关概念的理解。此外,P值争论是目前尚未形成统一的学术观点的前沿热点话题,是组织学生讨论的很好的素材。可以向学生推荐P值争论的热点文献,并鼓励学生课下自己搜集材料,组织学生分组,每组围绕一个主题或围绕一个共同的主题,在条件允许的情况下,通过翻转课堂的形式让学生讨论并阐述对P值及P值争论的理解。同时,教师应该在课堂上对学生在讨论过程中关于概念可能的不当理解及时指出,对学生的各种观点予以客观总结、点评。这也是促进学生对P值的理解以及正确使用的一个行之有效的教学方式。
在课堂中利用P值争论的热点组织讨论,不仅使学术前沿自然地走进课堂,而且改变了传统的教学方式,使课堂成为师生共同探究、共同成长的场所,作为一名教师,作者也常被学生们的新颖观点吸引而引发思考。此外,学生通过自主学习、自主表达的方式,激发了自己的创新精神和探索精神,同时也活跃了课堂氛围,提高了教学效果。
经典统计学中假设检验的思想虽然应用广泛,但是也存在缺陷(见前文描述),因此有必要让学生意识到P值并不是唯一的统计推断工具。建议在讲授P值的基础上,可以视课时充裕与否介绍其他的统计推断方式,如区间估计、贝叶斯方法等。在介绍其他统计学模型的同时,也可以对比教学假设检验的优势和缺点,促进学生更好地理解假设检验和P值的概念,这也对学生在实验设计和数据分析中能否配合使用P值和其他统计推断工具来综合分析问题至关重要。
P值在统计学中的作用和其存在的意义是被普遍认可的,P值争论的焦点不在其本身,而更多地在其被不当使用在学术界所引起的担忧。P值一直存在争议,甚至有观点建议彻底地摒弃P值,但是可以预见的是,经典统计学中关于P值以及假设检验的思想在今后相当长的一段时期内仍将被大量使用。同时,学术界关于P值的争论不仅折射出我们在统计学教育中的不足,也为我们指出了教学过程中相对薄弱且需要重点关注的环节。因此,这需要我们在课堂上客观地介绍当前对P值的争论,并有针对性地讲析P值的一些误解、误用,引导学生正确地理解、使用、解释P值这个当前生物统计学中最重要的一个概念。这对打破“P值使用怪圈”非常重要。