从重复原则视角审视体育科学实验设计中的样本量问题

2023-06-15 03:25张连成刘洁吕嘉玉高淑青
体育科学 2023年1期
关键词:样本量实验设计原则

张连成,刘洁,吕嘉玉,高淑青

从重复原则视角审视体育科学实验设计中的样本量问题

张连成,刘洁,吕嘉玉,高淑青

(天津体育学院 竞技运动心理与生理调控重点实验室,天津 301617)

重复原则是实验设计的基本原则之一,也是研究者控制实验受试者个体差异的常用手段。遵循重复原则可以降低实验误差,改善实验精度,提高研究的效度和研究的可重复性。体育科学领域实验研究中违背重复原则的问题主要包括:多因素实验设计中某种处理缺乏必要重复、重复测量代替重复实验以及混淆实验分析单位导致伪重复、没有科学估算样本量等,这严重影响了实验的严谨性,其实验结果的可重复性令人担忧。为提高体育科学实验研究的可重复性,研究者应该重视遵循重复原则,合理把握样本量。体育科学实验研究在遵循重复原则时需要注意4个问题:1)厘清实验处理的最小单元;2)确定实验分析单位,避免伪重复;3)确定最小重复次数;4)科学估算样本量,估算时除了要考虑值、效果量和统计功效外,还需要考虑精度等因素。

重复原则;可重复性;样本量;精度;统计功效

近年来很多学科爆发了可重复性危机。可重复性是科学研究中的一个基本原则(Ayer et al., 2017),即科学结果应经得起反复推敲,并且由同行进行验证。然而,在实践中,重复或验证以前的研究结果面临着挑战。研究表明,在心理学领域,已发表的研究假阳性结果占比过高(Schweizeret al., 2016),且只有39%的研究被认为是可重复的(Nosek et al., 2015)。杂志对1 576名科学家进行的调查显示,超过70%的研究人员未能重现其他学者的实验,并且超过50%的研究人员无法重复自己的实验(Baker, 2016)。对此有学者提出研究操作可疑、存在发表偏倚和过度依赖虚无假设检验等,都有可能是可重复率低的原因(胡传鹏等,2016)。在体育学领域,张力为等(2021)探讨了预防体育科学研究中可重复性危机的方法,如提前注册、做好样本量规划等。但体育科学领域对错误估算样本量、可重复性危机问题还没有给予足够关注,更没有像心理学领域那样开展大规模的重复实验。

国外有学者分析了2009—2013年在运动和运动心理学领域的4种主要期刊上发表的所有定量研究的样本量,结果显示有50%的研究存在总样本量不足的问题(Schweizeret al., 2016),进而强调样本大小在化解可重复性危机中的重要作用,认为可重复率低可能是样本量不足、检验功效低的研究设计所致的。于此,提高研究可重复性的首要任务应是做好实验设计,科学估算样本量,实验设计中应遵循“随机、对照、重复、均衡”4项原则,否则可能导致错误结论(王琪等,2010)。其中,重复有助于随机等组效果的体现、发现真实存在的差异、提高实验效度并保持结果稳定,有利于他人对其进行重复;如果某项实验随意设置样本量且过程中违背重复原则,则该实验被他人重复的可能性几乎为零。

综上所述,本文将在阐述重复原则相关概念的基础上,关注体育科学实验中样本量估算和重复原则应用的问题,针对如何规范体育科学实验中的重复原则提出建议。

1 重复原则与可重复性

1.1 重复原则的概念

重复有3层含义:重复取样、重复测量和重复实验(胡良平等,2004)。重复取样是指从同一个样本中多次取样,测量某定量指标的数值,目的是保证样本中某定量观测指标含量的分布尽可能均匀,避免将个别情况误认为普遍情况,把偶然性或者巧合现象当成必然的规律;重复测量是指受试对象在接受某种处理后,在不同时间点或对称的不同部位上重复观测某个定量指标,目的是掌握定量指标随时间推移(或部位改变)的动态变化情况;重复实验是指实验研究中的受试对象要达到一定的数量,即在相同实验条件下要对足够数量的受试对象进行观察。通常在研究过程中都要追求重复实验,也就是将研究方案应用于多个被试中进行实验。虽然单被试实验设计在某些研究中有着特殊的贡献,但在需要量化推广的随机抽样研究中只征用1个被试,这样的实验结果是不可靠的,不足以将其作为普适性结果进行推广。

实验设计中的重复原则多指实验内部重复原则,是现代科学研究中的规范性原则,即在相同的实验条件下要独立重复实验足够次数,这里的“独立”是指要用不同的个体或样品做实验,而不是在同一个体或样品上做多次实验,进而揭示出随机现象的基本规律(柳伟伟等,2010)。

1.2 重复原则与可重复性的关系

重复原则与可重复性是两个概念。有学者提出,实验的可重复性是指实验的过程和结果均可重复,一个成功的实验不会因不同的时间、空间、实验者而异,即可重复性指的是针对同一研究问题,其他研究者的独立研究可以借助作者提供的方案再现实验结果(何华青等,2008)。判定一个实验成功与否的标准是看其是否具有可重复性,这是科学家们普遍认可的一条准则(何华青等,2008)。想要重复实验结果,首先要实现实验本身结果的稳定,只有实验结果稳定,他人才能更好地对该实验进行重复。即在实验中遵循重复原则,合理把握样本量,提高实验效度,是提高研究可重复性的基础。

由此可见,科学实验需要遵守重复原则,在相同实验条件下要对足够数量的受试对象进行观察,以提高研究的可重复性。其中,内部重复是重复实验处理,增加样本量,是重复原则的要求;外部重复是重复整个实验过程,提高研究的可重复性,是可重复性的要求。提示,研究者可以根据某一研究主题设计系列研究,在自己的系列研究中加入重复实验,以达到“真重复”。这样的研究虽费时费力,但更具科学价值,也更有利于解决可重复性危机问题。

1.3 重复原则的作用

体育科学研究中的许多实验都属于随机实验,其实验结果不能事先准确断定。虽然随机化能在很大程度上消除非实验因素所产生的影响,但若样本量过小,则可能把个别或偶然现象误认为是普遍或必然现象,在实际工作中产生负面影响甚至造成重大损失。并且,要想正确地反映随机实验结果出现的一般规律,必须进行大量的独立重复实验,因此,在实验中遵守重复原则十分重要。重复可以排除随机误差的干扰和影响,真实地反映随机变量的统计规律性,是消除非实验因素影响的一种重要手段(柳伟伟等,2010)。其在科学研究中的具体作用如下:

第一,稳定标准差,反映随机变量的规律性。实验研究需要由样本去推断总体,即由样本的特征去推断其所在总体的规律。由于实验研究对象之间的异质性,实验结果具有随机性。因此,合理把握样本特征非常重要,其中对样本规律的把握应将随机变量的异质性充分展示出来,这就需要通过进行重复实验来实现。只有重复实验,才能稳定标准差,使样本的均数与总体保持一致。这样,样本的异质性才能代表总体的异质性,进而确保真实地反映随机变量的统计规律。

第二,降低实验误差,提高实验精度。误差主要由样本量决定,在体育科学研究中,样本含量越小,其抽样误差越大,可重复性越差,检验效能越低,研究结论将缺乏科学性、真实性(祁国杰等,2011)。并且个体差异是客观存在的且抽样误差不可避免,因此,在特定实验条件下,完全有可能出现效果量(effect size)偏小或偏大的实验结果。针对此情况,研究者可以通过增加重复次数以减少实验分配给实验处理带来的偏差,进而使实验组与对照组的差异能够准确显露出来,在正确估计实验误差与明确组间差异的基础上,科学地做出统计推断,为结论的可重复性提供保障。据此可以得知,重复原则对于提高实验精度以及判断治疗效果可靠性都非常重要,并为结论可靠性提供了合理的评估指南。

第三,稳定实验结果,提高研究可重复性。要实现研究的效应稳定,即通过某个实验观察到的结果在后续实验中仍然可以被发现,则需要对大量被试进行重复实验。由前文提到的两点可知,遵循重复原则不仅减少了实验结果的可变性,排除偶然因素的影响,还提高了实验的精度,进而精确估计其取值范围,将随机现象的规律显现出来,得出科学的、真实的、规律性的结论,为总体差异检验和结果的稳定奠定了基础。提示,在实验设计中遵循重复原则可以提高研究的可重复性,降低发生重复性危机的可能性。

2 体育科学实验中违背重复原则的常见问题

2.1 多因素实验设计中某种处理缺乏必要重复

多因素实验设计有被试内设计(可也称重复测量设计)和被试间设计两种形式。重复测量设计是在不同条件、不同时间、对称部位、邻近区域等对同一受试对象进行重复观测获得指标数据的一种实验设计类型(游永豪等,2010),被试在重复测量因素上可以重复实验,能够节省样本量。被试间设计中由于被试只接受一种实验处理,则需要更大样本量。

根据重复原则,在每一个实验处理中都需要足够的重复次数。采用完全被试间设计又存在多个因素时,就会产生多种实验处理。此时,虽然整个研究的样本量很大,但是在具体的实验单元中可能存在重复不足的现象。例如,对于2×2×3的完全被试间设计来说,共有12种实验处理方式,如果此时只有20名被试参加实验,那么就会产生某种实验处理下只有1名被试的情况,违背重复原则。此外,一些动物实验需要在运动后不同时间进行取材,也可能会产生重复不足的现象。例如,某项研究为探讨运动后不同时间的线粒体分裂过程,需要将大鼠分为实验组和运动组,运动组还需要在运动后即刻、6 h、12 h、24 h、48 h和72 h分别进行6次取材;此时,如果仅有16只大鼠,则每次取材的大鼠数量不足2只,那么后续运动干预后的各取材组就很可能出现样本量不足,违背重复原则。

综上,进行重复实验时,首先要明确实验设计中有多少种实验处理方式,保证每种实验处理下至少有2名被试。当然,在实际操作中进行样本量选取时,只选取2人进行实验是远远不够的,因此,根据实验设计类型及其处理方式进行相应的重复是十分必要的。

2.2 重复测量代替重复实验以及混淆实验分析单位导致伪重复

伪重复主要指实验中的样本量(实验重复次数)小于真实样本量(最小实验重复次数)。换句话说,是指研究者虽然在实验过程中进行了重复,但并不是以实验目的、实验最小处理单位和实验设计等为标准进行的科学重复,主要是由研究者对于“重复”的操作性定义不清晰、最小重复次数计算方面存在困难等原因导致。Lazic等(2018)指出,46%的研究将伪重复(重复测量)误认为是真正的重复。例如,Serdar等(2021)指出,在动物研究的实验设计中,常使用技术重复(重复测量)而不是生物重复(重复实验):假设一个研究小组正在调查一种治疗药物对血糖水平的影响,如果研究人员测量3只接受实际治疗的小鼠和3只接受安慰剂的小鼠的血糖水平,则是一个生物学上的重复,即重复实验;如果对接受实际治疗的单个小鼠的血糖水平和接受安慰剂的单个小鼠的血糖水平分别测量3次,则是技术上的重复,即重复测量。两种设计都将提供6个数据点来计算值,但从第二种实验设计获得的值毫无意义,因为每个治疗组只有一个样本。综上可知,对单个小鼠的多次测量是伪重复,而对不同小鼠进行独立测量则是真重复。这一问题在许多科学研究中大多被低估、忽视或隐瞒。

在体育科学实验研究中也是如此,一些研究缺乏代表性抽样,通常是从相关人群中进行非随机抽样。如果在统计模型中没有考虑到这种非随机抽样,则会导致不确定性区间过于狭窄,其结果将难以推广,且可重复性低(Lazic et al., 2020)。此外,还有一些研究中被试个体不具有统计学独立性,样本总量很多,但是难以推广至总体,进而导致伪重复。例如,为了探讨新的体育教学方法是否优于传统体育课程,研究者仅选取了2个班级进行干预,一个班级实施新教学方法,一个班级实施传统教学方法,则实质上每种干预方式下只有1个样本。如果实施新教学方法的班级表现优于另外一个班级,那么该结果不能有效展示教学方法这个变量的随机性,因此至少需要在2个班级进行新教学方法的实验,同样传统的教学方法也要应用于2个及以上班级。这提示,如果在实验中发生了伪重复,则会影响实验的内部效度和外部效度,其实验结果不具备推广性。

综上可知,当一个研究想对其结果进行推广时,应在实验设计阶段注意对被试进行重复实验而不是重复测量,另外需要注意分析单位,避免发生伪重复,降低实验效度进而影响实验结果。

2.3 没有科学估计样本含量

样本量是科学实验中最关键的统计量之一,原因如下:1)一项研究是否真实有效,取决于样本量的大小。2)样本量大小在精确估计效应大小方面起着重要的作用。3)一项研究是否可以重复,得到类似的结果,也取决于样本量的大小。因此,正确估计样本含量体现了统计研究设计中的重复原则,可以降低研究中的抽样误差。同时,足够的样本量也是保证实验研究中组间均衡性的基础(张效嘉等,2016)。

2.3.1 样本量过小

虽然较小的样本产生漏检的可能性较高已成为共识,但许多研究人员没有意识到较小的样本产生假阳性的可能性也较高(Button et al., 2013),并且小样本研究中的效应大小通常偏大,因为小样本更容易受到抽样数据中偶然变化的影响。同时,当样本较小时,大于真实效应的研究才会被公开发表,而小于真实效应的研究则会被丢弃,从而产生偏倚(Ioannidis, 2005)。这样的结果虽然容易发表,但会降低研究的可重复性,造成重复性危机。在体育科学研究领域中,有许多样本量过小的案例。

例如,某研究探讨核心力量对老年人跌倒的影响,将老年人随机分为核心力量练习组和对照组,每组被试仅有9名。若根据文章内的统计量将效果量设置为0.5,设置为0.05,统计功效为0.8,则每组至少需要34人;如果将效果量设置为大效果量0.8,此时每组也应至少需要15人。再如,某研究选择10位慢性心力衰竭患者,随机分成2组,每组5人,探讨用心肺运动实验指导制定个体化运动处方对慢性心力衰竭患者康复的疗效。该研究采用的是成组设计,样本量较小且没有推算过程,虽然结果显示两组差异显著,但计算该实验的检验效能后发现,不管是单侧检验还是双侧检验,检验功效都很低,即该实验可能犯了Ⅱ型错误。这提示,过小的样本量虽然可能产生较大的效果量,有利于公开发表,但这个结果并不容易重复,实验的效果量虚高以及研究结果呈现假阳性的可能性更大。

比较极端的例子还有一些研究者使用1名被试开展实验。例如,某项比较3种不同品牌篮球鞋足跟部压缩性能的研究,随机选取1名篮球专业的大学生穿着3种品牌篮球鞋,测试其在正常步行速度下的足底压力分布情况,结合材料力学试验机对3种不同类型的鞋底材料进行压缩实验,并对相关数据进行分析。该研究完全忽略了个体之间的差异性,违背重复原则,其结论只适用于个案而无法推广至大众。

综上所述,即使某些研究在选取被试时遵循了随机原则,但不可否认研究者并未对样本容量进行考量,违背重复原则。实验法的一个显著特点就是精确性,但由于个体差异的存在,必然导致实验结果有一定的误差,因此研究者必须坚持重复原则,在大量重复的实验中,降低个体差异所带来的实验误差,保证实验的精度。

2.3.2 样本量过大

检验功效与样本量的大小有关,样本量越大发现阳性结果的概率越高(Cohen, 1992)。但在现实研究过程中,过大的样本量则可能导致人力、物力资源的浪费。例如,在功能性磁共振成像研究领域,即使是样本量相对较小的研究也可能花费数万美元,大部分地区的资助系统通常无法实现大样本(>100)的常规采集(Mumford et al., 2008)。并且在体育科学领域,如果研究对象为高水平运动员,则可选取的被试范围较小,同样无法实现大样本。此外,大样本量虽然容易产生显著差异,但如果不提高实验的检验功效,则容易产生假阳性结果。在许多情况下,大样本量的研究会产生系统性偏倚或缺失大量信息,甚至缺失关键变量,进而放大由其他研究设计问题引起的偏差。

Celik等(2014)提出,如果有两项随机临床实验比较了肺炎的新疗法,这两项实验都产生了具有统计学意义的结果。一项实验的研究对象是150名患者,另一项实验的研究对象则是15 000名患者。在二者都具有统计学意义的前提下,应该首选哪种治疗方法?许多人可能更倾向于基于大样本量的实验研究结果,然而,当样本量足够大时,产生显著性差异并不是难事。换句话说,虽然基于大样本量的实验有许多优点,但其观察到的显著差异并不能说明该治疗方法效果极好。因为,在恒定的精确值水平下,个体患者更有可能从小型实验所得结果中受益。在大样本量中确定的治疗效果虽然具有统计学意义,但在个人层面上几乎是微不足道的。因此,在处理大数据集时,应较少关注值的大小,而更多地关注效果量的大小,后者可以帮助确定发现的差异是否有意义(Bakker et al., 2019)。同样,在体育科学领域也存在选取样本量过大的案例,例如,某研究采用2×3的完全被试内设计,探讨振动刺激对肌肉激活的影响,根据该研究中的相关指标(中等效果量为0.25,=0.05,统计功效为0.8)进行计算后发现样本量应为19人,而该研究选取46人则会导致研究成本大大提高,也浪费资源。

综上,在实验设计中,过小的样本量容易产生假阳性的结果,虽然有利于公开发表,但可重复性低并且结果不具有推广性;过大的样本量虽易产生显著性差异,但会浪费大量的人力物力,且实际效果可能微不足道。此外,现有研究大多关注总样本量的大小,忽视实验中每组被试的数量,容易导致总样本量看似足够,但实际每组被试数目不足以实现每种处理方式的重复,提示未来研究要根据实际的实验设计科学计算样本量。

3 体育科学实验设计中如何选择样本量

一般实验过程中,初始条件与实验条件均难免控制得完全一致,因此重复次数越多,未必误差就越小,即对于实验的重复次数不能一味地追求多,而需要根据实验要求和实验条件进行判断,结合具体情况做出合理的估计。例如,若个体之间差异较大,需要进行重复的次数就多;反之,若差异较小,重复次数也应该相应地减少。在进行相关实验设计时,不可能完成无数次重复验证,但是不做重复或仅重复2~3次,其可靠性是值得怀疑的。因此,本文结合前人研究以及相关案例,对于体育科学实验设计中如何遵循重复原则提出以下建议。

3.1 厘清实验处理单位,实现必要重复

首先,厘清实验设计中的实验处理单位对于遵循重复原则是必要的,这里的实验处理单位指的是实验中最小的独立部分。实验处理单位通常是各种实验处理的交互,需要清楚每个实验有多少种处理方式,实验处理单位越多,需要的样本量越大。析因设计是多因素多水平全面组合的一种设计方法,析因设计中最简单就是2×2的析因实验,是指2个研究因素分别有2个水平,一共构成4个实验处理单位;再拓展一下,如2×3×4则表示3个研究因素分别含有2、3和4个水平,一共构成24个实验处理单位。析因设计的优点是能够全面地分析每一种组合,但缺点也很明显,如果因素和水平增加,则实验实施的难度会越来越大,实验消耗的物力精力也均较大。各实验条件下都应该开展足够的重复实验,各实验因素需同时施加,因此需要厘清实验处理单位,以更好地遵循重复原则。

3.2 确定实验分析单位,避免伪重复

实验分析单位是指在进行实验数据分析时用于比较结果差异的最小计量单位。例如,在探讨不同教学方式效果时,要明确此时最小的实验分析单位是班级或学校,而不是学生个体,所以在进行重复时应对班级或学校进行重复,这样才能得到真实的实验结果。例如,Chen等(2013)为探讨建构主义课堂对课堂中体育活动的影响,随机选取30所小学的1 043个班级,以学校为单位进行干预,这些学校被随机分配到试验性课程组(=15)或控制性课程组(=15),最终得出建构主义教学方法可以促进学生的知识学习,而不会减少课堂上的体育活动的结论。

3.3 确定最小重复次数

在重复原则相关研究中,重复次数指的是重复实验的次数,本质上与样本量相关。如前文所述,确定最小重复次数在研究过程中是必要的。但在不同的科学领域,最小重复次数并不相同。赵鼎新(2015)指出,某一类自然或社会现象所呈现的各种规律的背后总是存在着某种总体性规律,总体性规律一旦被揭示,原来已知的各种规律就会成为这种总体性规律的具体表现形式或组成部分。但对于社会科学来说,其研究对象是人,在常用的社会科学方法中,访谈调查时访谈者和受访者的特征,以及两者之间的互动方式都难以得到有效的控制;采用观察法所观察到的往往是研究者的感官能够和愿意接受的信号;问卷调查最多只“控制”了问卷设计者注意到的和想控制的“变量”,并且调查结果会显著地受到提问方式的影响;实验法则因为个体之间的差异性而难以得出普遍适用的结论。因此,对于自然科学来说,有些研究只要得到结论,则其具有普适性,不需要过多的重复,如太阳东升西落;而在社会科学中,有必要计算重复实验的次数来提高发现总体规律的能力,从而减少Ⅱ型错误。

对于重复的次数是否有一个标准?在生物学领域,大多数研究人员都选择了重复3次,原因是在重复3次的情况下,才能得到除了标准差之外的其他统计量,并且这个重复次数还取决于样本之间的标准偏差、效应大小、潜在生物学的噪声以及所使用的特定统计分析方法(Naegle et al., 2015)。另一种确定实验重复次数的方法是使用操作特性曲线,操作特性曲线是一种图表,它根据反映零假设为假时的参数来计算产生Ⅱ型错误的可能性(Juristoetal., 2001)。操作特性曲线可作为实验者决定重复次数的指南,以确保设计对备选方案之间的潜在重要差异敏感,并确保在分析过程中正确拒绝无效假设。简而言之,操作特性曲线可用于计算实验中的重复次数,以提高统计能力。

Juristo等(2001)通过操作特性曲线以及相关案例得出,对于单因素设计的实验来说,至少需要6次重复才能使得实验结果稳定;对于双因素设计的实验来说,如果在估计时间的标准偏差时没有出现严重错误,则4次重复足以稳定实验结果。其他设计类型的实验目前还没有得到相关研究的验证,提示未来可以根据实验类型对最小重复次数进行科学计算与推论。此外,虽然上述研究针对不同实验类型得出了相应的重复次数,但在实践中,重复次数往往要高于这个数量才能保证实验结果的稳定性,提高其可重复性。因此,在实际研究中,需要使用G*Power、PASS等软件进行样本量的科学估算,根据实验类型及样本量的大小推算重复次数。

3.4 科学估算样本量

样本量的影响因素有很多,如实验问题、实验目标、检验效能、检验水准、单双侧检验、实验设计类型、预期效果量、置信区间、总体个体差异等,这就需要我们尽可能全面地对其进行估算。Abt等(2020)为了解估算样本量的方法,对中3年的研究进行了数据分析,结果显示,120篇研究中只有12篇包含基于检验功效的先验样本大小估计,1篇使用精度方法估计样本大小,其他研究均没有对样本量的计算过程进行说明。提示,样本量估算还没有得到体育科学各领域学者的广泛重视。对样本量的估算是研究准备阶段的重要组成部分,不同的研究问题、研究对象、研究设计及数据处理方法对样本量的要求不同,样本量是否适宜对研究的质量有重要影响。

足够且适当的样本量才能保证重复原则的要求,进而发现真实存在的实验效益,如果研究人员不能正确估计样本量,只是一味地增加样本量,那么该研究产生假阳性结果的可能性就会增加。此外,为了更好地提高可重复性,也应对重复研究时所选取的样本量进行科学的计算,而不是完全与被重复研究样本量一致。现阶段,为应对可重复性危机,各领域存在一些争论,但大多数学者都提出科学估算样本量是一个重要的应对措施(刘佳等,2018)。当得到阴性结论时(>0.05),需要关心检验功效的大小,即实验产生阴性结果的原因是检验功效过低还是比较的两组之间差异确实不显著。如果此时检验效能较高(>75%),阴性结果可解释为后者;反之,如果检验效能低于75%,则需适当增加样本含量后再作分析。因此,早期考虑样本含量可以有效检验实验的可行性,进行重复研究时估算样本含量可以提高研究的可重复性。

目前,根据实验目的不同,估算样本量的方法主要有两种。为了拒绝零假设时,可以选择基于统计功效估算样本量的方法。但对于某些实验,尤其是对临床医学领域的优效性实验、等效性实验以及非劣效性实验来说,仅仅得出干预结果具有显著性是远远不够的,还需要给出临界值,在正负临界值之间[-Δ、Δ]为等效性;95%置信区间的下限大于预先设定的临界值Δ,则为优效性检验;95%置信区间的下限大于负的临界值(-Δ),为非劣效性检验(黄钦等,2007)。因此,为了使实验结果更精准,厘清干预条件在何种情况下才为显著,要选择基于精度估算样本量的方法。二者的使用方法和所得结果均有差异,本文将通过一个案例对两种方法进行详细介绍:假设一位研究人员为探讨一种新药物对抑郁症的影响,将抑郁症患者随机分为治疗组和对照组,治疗组接受新药物的干预并保持日常的活动,对照组则接受安慰剂代替活性药物并保持日常的活动。根据之前的调查,研究人员预估组内标准差(假设两组的标准差相等)为20,=0.05,区间估计的置信水平为95%,那么如何通过两种方法科学估算该实验所需样本量?

3.4.1 依据统计功效估算

为应对由于样本量不合适而造成的研究结果可重复性低的问题,目前常采用G*Power等软件计算合适的样本数量。在假设检验中,既定的统计模型包含4个参数:值、效果量、样本量和统计功效。当其中3个参数确定之后,可计算出第4个参数的值。通常设定=0.05,统计功效为0.8(更好的标准是0.9或0.95),效果量的默认值为中等效果量,可作为没有特别依据时设定效果量的参考,但如果有前人实证研究或元分析的结果,则可据此计算得出(张力为等,2021)。在使用软件时,要根据统计检验类型进行检验方法选择,这就需要我们明确自己的实验设计类型,厘清最小实验单元。本文以G*Power为例,依据检验功效估算样本量的具体步骤如下:1)确定设计方法;2)确定资料类型;3)考虑统计方法;4)确定基本参数;5)计算样本含量;6)校正样本含量。

例如,为比较两组均数之间的差异,首先应在G*Power中选择独立样本检验,将值设为0.05,统计功效设置为0.8,效果量选择中等效果量0.5,所得结果如图1所示,即要想满足检验功效为0.8,该实验每组样本量至少为64人,若想要达到更好的检验功效(如0.95),则每组样本量至少为105人。提示,一项研究想要得到更大的统计功效,有必要增加相应的样本量。此外,如果假设有明确的方向性,可以采用单尾检验,如此,上述案例中在进行单尾检验时,实验每组的样本量至少为51人,降低了所需样本量。

图1 通过G*Power估算的样本量

Figure 1.Sample Size Estimated by G*Power

3.4.2 依据参数精度估算

Abt等(2020)提出,科学估算样本量不能只考虑值、效果量和统计功效,还需要考虑实验的精度。该作者进一步提出了根据精度计算样本量的做法,即参数精度估计法(accuracy in parameter estimation, AIPE),与传统基于功效的样本量估计不同,AIPE方法将样本量的估计建立在一定置信区间宽度的基础上。其目标不是获取具有统计意义的参数估计值,而是为了准确估计相应总体参数值(Kelley et al., 2003),该方法也得到了的认可。具体来说,精度通常用置信区间的半宽度来衡量,置信区间可以表示为标准偏差的比例或因变量的度量,其宽度与样本大小成比例(Cumming, 2014)。精度的高低决定着检验力的大小,即置信区间越窄,得到的点估计越有可能准确地表示真实的总体值。因此,根据精度去估算相应的样本量是有必要的。

对于上述案例,在使用AIPE方法的情况下,研究人员需要估计期望的置信区间宽度或半宽度。为估算合适的样本量,使用PASS软件,选择置信区间估算两组平均值差异的方法,将检验功效设置为0.8,置信区间宽度取值为5,此时每组的样本量至少为54人(图2),若将置信区间宽度取值为2.5,则需要的样本量将增加4倍,每组至少211人(图3)。提示,在使用精度估算样本量时,置信区间的宽窄起着重要的作用,置信区间的宽度越窄,所需样本量越大,实验结果越精确。

很明显,这两种方法从一开始就不同,并且在同一研究中可以产生不同的样本大小。研究者需要根据研究目的科学合理规划样本量。

3.4.3 进行重复研究时估算样本量

为了提高研究的可重复性,不仅要在实验设计时科学估算样本量,在进行重复研究时也应该根据原始研究的值计算实验的复制概率或预测能力,进而估算最佳样本量。Zwet等(2022)汇总了Cochrane Collaboration数据库中4万项实验的数据信息,发现若要重复=0.05的轻微显著性结果,概率小于30%;在=0.005时,重复该结果的概率也只有50%。该研究还计算了估计效果方向正确的概率,结果显示,当=0.05时,重复时方向正确的概率为93%;当=0.005时,则重复时方向正确的概率为99%。最后,该研究根据原始研究的值计算了进行重复研究时所需的样本量,以获得某些特定的检验功效,结果显示,重复=0.05的结果时,样本量应是原始研究样本量的16倍才能达到80%的功效,而=0.005时,样本量应是原始研究样本量的72倍。

综上可知,不同的研究有不同的理想效果量,也有各自适宜的样本容量大小,所以样本量并不以绝对的数量作为评判标准。在估算样本含量时,首先要确定实验设计方案,在其基础上进行估算;其次要确定资料类型(计量、计数等)以及数据分析时要使用的统计方法(单因素分析、相关与回归、多因素分析等);最后要确定基本参数,综合考虑值、效果量、统计功效以及精度(置信区间宽度)。在进行重复研究时,应根据原始研究的值以及想要达到的统计功效值进行样本量的估算,从而提高研究的可重复性。

图2 置信区间宽度为5时所需样本量

Figure 2.The Sample Size at Confidence Interval Width of 5

图3 置信区间宽度为2.5时所需样本量

Figure 3.The Sample Size at Confidence Interval Width of 2.5

4 小结

近些年来科学界的可重复危机提示我们,应注重研究的可重复性,提高科学研究的真实有效性。为应对可重复性危机,科学界发起了开放科学(open science)的革命,提出提前注册、开放数据库等策略。作者认为论文的质量是保证科学研究可重复性的第一步,而这其中最重要的一环便是要遵循重复原则。本文从重复原则的角度回顾了体育科学实验中的样本量问题,并提出规范性的建议,以期体育领域学者在未来的实验中科学估算样本量、更好地遵循实验的重复原则、确保研究的科学有效性,提高实验的精度,进而提高研究的可重复性。

何华青,吴彤,2008.实验的可重复性研究:新实验主义与科学知识社会学比较[J].自然辩证法通讯,30(4):42-48,111.

胡传鹏,王非,过继成思,等,2016.心理学研究中的可重复性问题:从危机到契机[J].心理科学进展,24(9):1504-1518.

胡良平,刘惠刚,李子建,2004.医学论文中统计分析错误辨析与释疑(16):实验设计原则的正确把握[J].中华医学杂志,84(16):91-93..

黄钦,赵明,2007.对临床试验统计学假设检验中非劣效、等效和优效性设计的认识[J].中国临床药理学杂志,23(1):63-67.

刘佳,霍涌泉,陈文博,等,2018.心理学研究的可重复性“危机”:一些积极应对策略[J].心理学探新,38(1):86-90.

柳伟伟,胡良平,贾元杰,等,2010.实验设计中的重复原则[J].药学服务与研究,10(5):330-334.

祁国杰,游永豪,温爱玲,2011.实验设计在体育科学中应用的现状与评价[J].体育科学,31(3):81-86.

王琪,胡良平,毛玮,等,2010.如何把握实验设计的随机原则[J].药学服务与研究,10(3):171-174.

游永豪,蔺新茂,罗利华,2010.几种多因素实验设计及统计分析方法在体育科研中应用[J].北京体育大学学报,33(8):75-78.

张力为,彭凡,2021.体育科学如何应对可重复性危机?[J].体育学研究,35(6):1-11.

张效嘉,胡良平,2016.精神卫生科研如何严格遵守试验设计四原则之重复原则[J].四川精神卫生,29(4):303-306.

赵鼎新,2015.社会科学研究的困境:从与自然科学的区别谈起[J].社会学评论,3(4):3-18.

ABT G, BOREHAM C, DAVISON G, et al., 2020 Power, precision, and sample size estimation in sport and exercise science research [J]. J Sports Sci, 38(17): 1933-1935.

AYER V, PIETSCH C, VOMPRAS J, et al., 2017. Conquaire: Towards an architecture supporting continuous quality control to ensure reproducibility of research[J]. D-Lib Magazine, 23(1/2).

BAKER M, 2016. Reproducibility crisis[J]. Nature, 533(26): 353-366.

BAKKER A, CAI J, ENGLISH L, et al., 2019. Beyond small, medium, or large: Points of consideration when interpreting effect sizes [J]. Ed. Studies Math, 102(1): 1-8.

BUTTON K S, IOANNIDIS J, MOKRYSZ C, et al., 2013. Power failure: Why small sample size undermines the reliability of neuroscience[J]. NatRevNeurosci, 14(5): 365-376.

CELIK S, YAZICI Y, YAZICI H, 2014. Are sample sizes of randomized clinical trials in rheumatoid arthritis too large?[J]. EurJClinInves, 44(11): 1034-1044.

CHEN A, MARTIN R, SUN H, et al., 2013. Is in-class physical activity at risk in constructivist physical education?[J]. ResQuarExercSport, 78(5): 500-509.

COHEN J, 1992. A power primer[J]. Tutor Quant Meth Psychol, 3(2):79-79.

CUMMING G, 2014. The new statistics: Why and how [J]. PsycholSci, 25(1): 7-29.

IOANNIDIS J P A, 2005. Why most published research findings are false[J]. PLoSMed, 2(8): e124.

JURISTO N, MORENO A M, 2001. How many times should an experiment be replicated?[M]//Basics of Software Engineering Experimentation. Boston, Springer: 337-346.

KELLEY K, MAXWELL S E, RAUSCH J R, 2003. Obtaining power or obtaining precision: Delineating methods of sample-size planning[J]. EvalHealProfess, 26(3): 258-287.

LAZIC S E, CLARKE-WILLIAMS C J, MUNAFÒ M R, 2018. What exactly is ‘N’in cell culture and animal experiments?[J]. PLoSBiol, 16(4): e2005282.

LAZIC S E, MELLOR J R, ASHBY M C, et al., 2020. A Bayesian predictive approach for dealing with pseudoreplication[J]. SciRep, 10(1): 1-10.

MUMFORD J A, NICHOLS T E, 2008. Power calculation for group fMRI studies accounting for arbitrary design and temporal autocorrelation[J]. Neuroimage, 39(1): 261-268.

NAEGLE K, GOUGH N R, YAFFE M B, 2015. Criteria for biological reproducibility: What does “n” mean?[J]. SciSigna, 8(371): fs7-fs7.

NOSEK B A, KUHLMANN T, STIEGER S, 2015. Estimating the reproducibility of psychological science[J]. Science, 349(6251): aac4716.

SCHWEIZER G, FURLEY P, 2016. Reproducible research in sport and exercise psychology: The role of sample sizes[J]. Psychol Sport Exer, 100(23): 114-122.

SERDAR C C, Cihan M, Yücel D, et al., 2021. Sample size, power and effect size revisited: Simplified and practical approaches in pre-clinical, clinical and laboratory studies[J]. BiochemMedica, 31(1): 27-53.

ZWET E W V, GOODMAN S N, 2022. How large should the next study be? Predictive power and sample size requirements for replication studies[J]. Statistics Med, 41(16): 3090-3101.

Examination of Sample Size in Experimental Designs of Sports Sciences Based on Replication Principle

ZHANG Liancheng,LIU Jie,LYU Jiayu,GAO Shuqing

Replication principle is one fundamental principle of experimental design, and it is also a common means for researchers to control the individual differences of experimental subjects. Following the replication principle can enablefewer experimental errors, higher experimental precision, higher research validity and replicability. Major problems that violate the replicationprinciple of experimental studiesin the field ofsports science are: lack of necessary replications of a certain treatment in a multi-factor experimental design, pseudoreplication caused byrepeated measuresrather than experiments, pseudoreplicationcaused by confusion of experimental analysis units, and no scientific estimation of sample size. These problemshave had a seriousimpacton experiment integrity and resulted in concerns over the reproducibility of experimental results. Researchers should attach importance tothe adherence to the replication principle and to a reasonable sample sizein order to increase the replicability of sports science experiments. In line with the replication principle, emphasis should be put on four issues in experimental studiesof sports sciences: 1) Clarify the minimum unit of experimental treatment; 2) Determine the experimental analysis unit to avoid pseudoreplication; 3) Determine the minimum amount of replications; 4) Perform sample sizeestimationsscientifically, consider precision and other factorsbesidesvalue, effect size and statistical power.

1000-677X(2023)01-0090-08

10.16469/j.css.202301010

2022-11-10;

2023-01-04

张连成(1981-),男,教授,博士,研究方向为运动心理学,E-mail: zlc-hhht@163.com。

G804.8

A

猜你喜欢
样本量实验设计原则
医学研究中样本量的选择
不同的温度
有趣的放大镜
哪个凉得快?
无字天书
航空装备测试性试验样本量确定方法
Sample Size Calculations for Comparing Groups with Binary Outcomes
坚守原则,逐浪前行
无罪推定原则的理解与完善
自适应样本量调整中Fisher合并P值法和传统检验法的模拟比较