体育科学实验研究中对照设置的常见问题及对策

2020-01-14 17:08张连成陶莹莹高淑青

中国运动医学杂志 2020年4期

张连成陶莹莹高淑青

天津体育学院竞技运动心理与生理调控重点实验室（天津301617）

实验研究的最小单位是变量。实验研究中涉及的变量主要包括自变量、因变量和额外变量。在控制额外变量的前提下，探讨自变量取值的变化对因变量取值变化的影响是实验研究的主要逻辑所在。自变量取值的变化常需要通过设置对照条件来实现，因此，设置有效的对照条件便成为实验研究中重要的一环。对照也是实验设计的四大原则之一[1]。通过设置对照可以为研究提供基线和比较的基础，进而帮助实验设计达到实验目的。科学实验中的对照组是把除了自变量以外影响因变量结果的其余部分加以分开的组，这隔离了自变量以外其他方面对实验的影响，可以帮助排除实验结果的替代解释，进而可以增加实验的可靠性和有效性[2]，尤其是当实验条件复杂且难以分离时，对照组的价值就更大。同时，不同的对照类型也将影响实验结论的方向性与适切性[3]。可见，有效的对照可以为科研实践以及政策制定提供坚固的研究基础。

综上，在科学实验中，设置对照组的目的主要在于提高研究结果的鉴别能力和结论的说服力，换言之，缺乏对照的研究结果是没有说服力的。当然，对照不全、对照条件设置不合理、无效对照的实验依然是没有说服力的，导致研究结论的有效性受到质疑，其为实践提供的证据也不可信。对照条件设置不合理是威胁实验内部效度的重要问题之一[4]。无效对照就是因为对照组设置不合理，导致实验结果难以归因于自变量影响的设计。本文从实验内部效度可能受到威胁的角度，分析体育科学实验研究中对照设置的常见问题，并着重分析有效设置对照的策略，避免无效对照，进而提高体育科学实验研究的有效性。

1 缺乏必要对照

在实验设计时，我们需要尽可能排除一切无关因素对实验研究结果的影响，进而揭示自变量对因变量影响的一一对应关系，这样的实验研究才具有较好的内部效度。实验设计的一个重要原则便是对照，只有对照才有比较，有比较才能说明自变量对因变量的影响。然而，体育科学领域的一些实验研究缺乏必要的对照组，只是自身前后对照来说明某一干预疗法、某一训练的效益等等，此类研究所获得的结论难以让人信服。例如，某研究想要探讨体育游戏对幼儿某些心理能力的影响，研究者仅是通过16周的体育游戏干预前后测设计，没有设置相应的对照组。这样的实验设计就难以得出体育游戏干预可以改善幼儿某些心理能力的结论。此类实验设计存在的主要问题是：因为没有设置对照组，仅依据自身前后测数据的比较难以排除实验过程中自然成熟、练习、统计回归、测试效应等等非干预因素的影响，因此导致无法判断因变量变化的根源，实验的内部效度也会受到严重制约[5]。

解决这一问题的策略是在进行实验设计时，需要从实验内部效度可能受到的威胁角度，尽可能考虑所有可能会干扰自变量对因变量影响的因素，并设置相应的对照与控制，进而揭示自变量对因变量的确切影响。

2 对照不全

对照不全通常是指在实验中由于缺乏一些对应对照组，导致多组之间的均衡性变差，最终导致结果的解释性不强的现象。此类问题常见于一些本应采用析因实验设计的研究中。例如，某研究为揭示某种营养补剂剂量以及运动对某种代谢疾病的影响，将64只大鼠随机分为8 组（安静-代谢正常组、安静-代谢异常组、安静-代谢异常-营养补剂低组、安静-代谢异常-营养补剂高组、运动-代谢正常组、运动-代谢异常组、运动-代谢异常-营养补剂低组、运动-代谢异常-营养补剂高组），并分别接受不同实验处理。这个实验实际上包含3个处理因素，分别为运动与否（安静、运动）、代谢异常与否（是、否）、营养补剂剂量（无、低、高）。如果是析因实验设计，研究中就缺少了其他4 种处理（安静-代谢正常-营养补给低组、安静-代谢正常-营养补给高组、运动-代谢正常-营养补给低组、运动-代谢正常-营养补给高组），存在对照不全的现象，这将导致实验中每一个因素的主效应和因素间的交互效应难以评价。

可见，对照不全的研究设计违背了实验设计的均衡原则。实验设计的均衡原则是指实验中某因素各个水平组中的受试对象所受到的非实验因素的影响是完全平衡的，即这些组之间的差别完全是由于该因素采取了不同水平所致，而并非其他因素取值不同所造成的影响[6]。如果违反了实验的均衡原则，就会出现自变量的混淆，必将导致研究结果的可比性变差。这提示我们在设置对照组时，必须考虑对照的完整性问题，以保证要研究因素的主效应和因素间的交互作用得以完全体现。

3 对照过剩

对照过剩是指实验中设置的对照组是多余的，在实验中并未真正起到对照作用。例如，某项研究选用若干只雄性SD 大鼠，随机分为假手术-安静组、假手术-运动组、帕金森-安静组、帕金森-运动组，进而探讨运动对帕金森病的影响。然而，该研究设置的假手术-运动组的意义是什么？纵观全文，并未在文章中体现其他三组和假手术-运动组比较的意义何在，即通过假手术-运动组要说明什么问题，似乎对解释研究结果来说并没有起到实际意义。另外，此类研究一般是先通过医学造模，然后是采用一种运动干预手段来进行实证干预。为了检验造模的有效性，可以通过设置假手术组来进行对照。但是，如果前人研究已经开发了成熟的疾病模型，那么再设置假手术组就是多余的。这样的实验一般也不符合动物实验学的“3R”原则，即减少（Reduction）、替代（Replacement）和优化（Refinement）原则，造成实验被试的浪费[7]。

综上，实验中的对照组需要针对具体研究问题来进行设置。当研究问题较为复杂时，也可以将研究问题分解，通过系列研究来回答[8]，进而保证研究问题的针对性，实验对照设置的有效性。同时，科学具有继承性，研究者也需要在前人研究基础上进行更进一步的、更高效的实验设计。

4 对照不当

对照不当是指在实验设计时，对照组的设置与实施违背实验伦理或实验设计原则的现象。在体育科学实验中，对照不当的表现主要包括空白对照设置不当、因素内部对照水平设置不当、自身前后对照不当、对照控制不严格等。

4.1 空白对照设置不当

空白对照是指未施加任何实验处理的对照。空白对照主要考虑自然、成熟等无关因素对实验结果造成的影响，这样的对照在以往的科研中比较突出。但是越来越多的研究者发现，空白对照在实际研究中可能存在问题，很多是无效对照，其原因主要有以下三点：

第一，空白对照组与实验组的差别除了实验因素外，还有安慰剂效应等无关变量没有得到控制，这可能会导致自变量混淆。例如，某研究欲探讨某一营养补剂对运动员机体状况的影响，如果仅仅是空白对照，即不给予任何实验处理，那么此类实验就难以说明该营养补剂的真实效果，因为实验中安慰剂效应比较明显。美国食品和药品管理局曾指出，空白对照组只有在研究结果完全客观且不受盲法影响时才合理[9]。可见，自然科学领域的实验。如，植物光照对叶绿素合成的影响，可以采用空白对照，即不暴露于光照条件。而人类实验中一般不设置空白对照组，而设置安慰剂对照组（placebo control）、积极对照组（positive control）或剂量对照组（dose-response control），动物实验中一般需要设置假手术组等来替代空白对照组。

第二，空白对照在一些研究中，被认为是不符合实验或研究伦理的。当研究者知道研究参与者患有某种疾病，并存在一些有效治疗措施时，不给予任何治疗是违背医学伦理的[10]。例如，某研究想要探讨某种营养或干预对运动员某种病症发病次数的影响时，将运动员随机分为两组：营养补剂补充组（或运动干预组）和空白对照组，然后观察两组运动员发病次数的差异。此类研究中的空白对照就是违背研究伦理的，需要避免。

第三，空白对照的意义不明确。与不接受某种处理相比，接受某种处理往往有太多的额外变量混杂其中，难以说明空白对照的确切意义。可见，空白对照组因为缺乏明确的信息，在现实生活中的有效性和可推广性也大打折扣[11]。例如，某研究欲探讨太极拳锻炼对老年人积极情绪的独特影响，设置的对照组为空白对照组。那么，此类实验就难以揭示太极拳锻炼对老年人积极情绪的独特影响，因为太极拳锻炼与空白对照组之间，除了运动与否以外、甚至存在着呼吸、人际互动、实验环境等因素混杂其中。

综上，需要在以往空白对照的基础上，进一步考虑设置安慰剂对照组、积极对照组、剂量对照组等来完善实验，下面将分别举例阐释。

第一，设置安慰剂对照组。安慰剂对照最初是指给予受试者外观相同但不含药物成分的治疗，进而控制安慰剂效应[9]。不仅如此，采用安慰剂对照的实验往往会采用随机双盲的程序对实验过程进行控制，这样可以排除受试者的期望偏差、检测偏差以及表现偏差等对实验效度的影响。

例如，孙华等[12]的研究为观察虾青素（astaxanthin，AST）对足球运动员冬训期血清炎症因子的影响，将36 名足球运动员随机分为对照组和虾青素组。虾青素组每天服用1 粒AST 胶囊（含6 mg AST），对照组每天服用1 粒安慰剂胶囊（含6 mg 氯化钠），共服用49 天。结果发现，AST 可有效抑制足球运动员冬训期血清促炎症因子的释放，提高血清炎症抑制因子的水平，改善炎症反应过程。该研究通过设置安慰剂对照，揭示了虾青素对足球运动员冬训期血清炎症因子的影响。

不过，随着医学的不断发展，传统安慰剂对照组越来越被认为不符合伦理。在研究设计时，善行（beneficence）、公正（justice）与尊敬（respect for persons）是我们必须考虑的三个伦理道德原则[13]。善性原则提示，在研究设计时要不断追问自己是否有其他方式在风险更低的情况下获得相同的知识；公正原则提示，需要注意我们的研究不应该是社会中的一个群体承担研究成本，而另一个群体从中获益。尊敬原则提示，需要在实验中尊重研究参与者的自主性，并给予额外的保护。美国食品和药品管理局也曾指出，出于道德原因，存在有效的治疗时，不建议仅使用安慰剂对照组[14]。因此，寻找积极对照（positive control），或者与传统的标准方法进行对照，是现在临床医学研究设计的主要方向之一，也将是体育科学领域实验设计的重要发展方向。

第二，设置积极对照组。积极对照组设计比安慰剂对照具有更少的伦理困境，特别是当预期新治疗至少与现有治疗方法一样好时。积极对照组是指在空白对照或安慰剂对照的基础上，结合现有伦理要求，在对照组身上实施具有一定干预效果的措施作为对照。因此，使用积极对照组时，需要关注临床科研上重要的结果，并由此作为积极对照组，进而探讨新治疗方式、新方案的可能效果。当新治疗方案显示出优于常规方法的优势时，固然更好。不过，当使用积极对照试验证明新治疗方案与传统标准方案相比具有非劣效性时，该研究也具有十分重要的意义，这样可以为某种治疗提供一种新的疗法参考。

可见，基于已知可行的标准治疗作为积极对照组是避免空白对照产生实验和伦理问题的有效对策。例如，高艳敏等[15]的研究探讨了高强度间歇训练和中等强度有氧运动对肥胖青年身体形态、血脂及肥胖性慢性炎症的影响。该研究将34 名肥胖青年随机分为高强度间歇训练组（n=17）和中等强度有氧持续训练组（n=17），分别进行12 周的运动干预。结果发现，与中等强度持续有氧训练减肥效果相比，高强度间歇训练并没有体现更好的效果，但是高强度间歇训练对于改善肥胖青年的健康水平具有积极影响，不失为一项有效的运动干预方式，尤其是在时间成本上可能更经济。可见，通过设置积极对照组，进而在已有运动干预、营养补给等基础上，探讨新方法、新方案的有效性，也将是未来体育科学研究领域具有潜力的研究方向。

第三，开展剂量对照实验。剂量对照实验是指以不同剂量作为相互对照来讨论自变量对因变量影响的剂量效应。剂量效应研究是科学研究走向精细化的表现。随着研究的不断深入，人们越来越不满足于定性实验结果带来的证据，如运动是否有效，而是关注定量实验的结果，例如锻炼剂量对认知效益的影响、不同剂量刺激对运动康复效果的影响等。同时，在循证医学领域，剂量效应研究的证据级别也往往会更高[16]。如前文提到的某研究欲探讨太极拳锻炼对老年人积极情绪的独特影响，可以在空白对照的基础上，将实验设计成剂量对照实验。例如，将研究参与者随机分为每周锻炼1次、每周锻炼3次、每周锻炼5次三组，然后比较太极拳锻炼剂量对老年人积极情绪的影响。再如，李方晖等[17]的研究将16名健康大学生分为低水平激光疗法（LLLT）剂量0.06 J·cm-2、0.18 J·cm-2、0.3 J·cm-2和安慰剂4 个组进行随机、双盲、安慰剂对照交叉试验，进而检验了低水平激光疗法（LLLT）对力竭性运动疲劳后恢复的剂量效应。此类实验，尽管不同剂量之间可能没有差异，因此在探讨药物或刺激是否有效时，不如安慰剂对照组更具效率，但是其可以提供更好的剂量反应信息，尤其是当某药物或刺激存在负面效应时，更具现实意义，例如，其可以探讨锻炼的最佳剂量区间，进而控制过度锻炼的负面作用。

4.2 因素内部对照水平设置不当

因素内部对照水平的设置应该满足可比性原则。所谓可比性，是指对照组与实验组之间除了要比较的因素外，其他的条件应该一致。即，研究者在设置因素内部对照时，应该将因素内部多个水平的比较限定在唯一变化条件下。如果在因素内部多水平进行比较时，比较的条件多余一个，必然导致实验的可比性下降。例如，有研究使用单因素实验设计替代析因实验设计，导致单因素内的多个水平间对照不当。原本是2（运动与否）×2（治疗与否）的析因实验设计，如果设计成单因素4水平（运动+治疗、运动+不治疗、不运动+治疗、不运动+不治疗）的设计，将会导致4个水平间的可比性下降。尤其是当运动+治疗组效果优于不运动+不治疗组时，难以解释是运动这一因素起的作用，还是治疗起的作用，抑或是运动和治疗的联合效果。因此，从实验可比性角度建议此类研究采用析因实验设计，这样既能增加研究的可比性、有效性，也能分析各个因素的主效应以及因素间的交互作用，进而提高实验设计的效率。

4.3 自身前后对照不当

自身前后对照不当的例子主要体现在实验组对照组前后测的实验设计中。此类实验设计存在着实验组与对照组，同时又存在实验前后的测试。依据实验目的，实验的前测主要是用于实验控制，控制实验组对照组起点的差异，而不是对照。而实验组、对照组干预后成绩的比较才是重点。遗憾的是，很多研究将实验组前后测、对照组前后测进行比较，然后来看两组前后测差异是否显著，如果实验组前后测成绩差异显著而对照组前后测成绩差异不显著，就得出实验组优于对照组的结论。例如，某研究欲观察健身气功对帕金森病患者心理健康的影响，将若干名中度帕金森病患者随机分为健身气功锻炼组和对照组。结果通过对健身气功锻炼组前后测分数的比较存在显著改善，而对照组前后测得分差异不显著来获得健身气功对帕金森病患者心理健康具有影响的结论。

依据实验组前后测成绩差异显著，对照组前后测成绩差异不显著，来判断实验干预有效的做法是不合理的。这至少有两个理由：第一，实验组前后测成绩比较、对照组前后测成绩比较需要进行两次统计检验，统计检验次数越多，犯Ⅰ型统计错误的可能性就增加，获得假阳性结果的可能性增加；第二，如果对照组前后测成绩存在差异时，导致结果无法解释。

因此，此类研究应该考虑将前测成绩作为基础参照，并进行统计控制（如看作协变量），然后比较实验组后测与对照组后测成绩的差异（进行协方差分析），进而评估实验干预的效果。此外，如果前后测分数变化具有一定的实际意义，亦可以采用独立样本T 检验对误差调整后的前后测分数的差值进行统计检验。

4.4 对照控制不严格

对照控制的严格性主要考虑的问题是对照组与实验组在实验因素以外，其他可能影响实验结果的额外因素（如实验表现、检测偏差等）是否得到了较好的控制。设置对照组的一个最基本原则便是需要满足可比性这一原则。实验研究中，常用随机法、盲法等进行额外变量控制以保证实验的可比性[18]。

然而，体育科学领域一些实验研究尽管设置了对照组，但是被试是否是随机分配到实验条件或对照条件、是否进行了盲法控制以及实验因素以外其他因素是如何进行控制的等考虑不够，这将影响实验对照的有效性。例如，某研究欲探讨八式太极拳运动对原发性高血压患者血压水平、血管内皮功能及生活质量的影响。该研究选取经某医院确诊的84 例原发性高血压患者，按照随机数字表法分成观察组与对照组，每组42 例。对照组患者根据平时运动习惯进行慢跑、快走等有氧运动锻炼，观察组患者则在对照组的基础上予以八式太极拳运动干预，干预时间均为3 个月。作者在文中详细交代了太极拳组是如何进行干预的，然而对照组是如何控制的不得而知。这就可能导致对照组设置的有效性受到质疑。

再如，某研究将学生分为内部表象组、外部表象组、内部表象加外部表象组、对照组四组，并进行32学时的体育教学，以探讨不同教学方法的效果。那么，在结果评定时，就应该对评定者进行设盲，采用盲法来控制学习效果评估的偏差。盲法的使用主要是避免实验中可能出现的表现偏差[19]和检测偏差[20]。有研究发现，不使用双盲控制的实验比使用双盲控制的实验更可能会夸大临床效果[19，21]。关于盲法的设置，可以参考刘建平等的论文[21]。

综上，建议研究者在进行实验设计时，除了选择好对照条件外，还要控制好对照条件的实施过程。例如，随机抽样、随机分组、随机基础上的匹配分组以及盲法的使用等，进而保证实验设计的有效性和可比性。

5 小结

实验法作为解释变量间因果关系的最重要方法，其严谨性直接影响实验效度。而对照条件的设置是影响实验内部效度的重要因素。基于实验内部效度可能受到威胁的角度，设置合适的对照组，是体育科学实验为实践提供循证基础的重要保证。因此，从课题申请到论文发表的一系列过程中，研究者都必须去审视对照条件设计的有效性如何？Kinser 和Robins[14]曾提出设置对照组时需要考虑的4 个问题，即研究设计是否与研究问题匹配？对照组的操控是否可以解决实验表现、期望和检测偏差？对照组是否具有伦理可接受性、可行性和吸引力？对照组是否控制了实验干预的非特定方面效应？据此，建议体育科学研究者在实验设计时需要考虑如下问题：

第一，实验设计中使用的对照组能否帮助我们回答研究问题？此时，研究者需要进一步明确实验要解决的问题，并深入剖析实验的内部效度可能受到的威胁，进而检查设置的对照条件是否有效。

第二，对照组是如何操控的，整个过程是否可以控制表现、检测等偏差。是否采用了随机原则来选择和分配被试，是否使用盲法进行实验控制等，需要在实验过程控制中给出明确描述。

第三，对照组的设置是否符合伦理，现实中是否可行？此时，需要重点考虑伦理要求和现实可行性，尽可能使用积极对照和剂量对照组。

第四，对照组是否可以控制实验因素之外的影响因素，如自限性、干预环境、干预持续时间、干预剂量等，以及为何能够控制非特定因素对研究结果的影响。