詹思延
随机对照试验(RCT)通常是评估干预效果的最佳研究设计,但低质量的临床试验可能会错误地估计疗效。自2000年以来,每年都有25 000篇随机或对照试验的文章被发表,但庞大的数量并不意味着决策者很容易找到可信的证据进行临床和保健决策[1],中国发表的随机对照试验文章质量亦令人堪忧[2]。解决这些问题,一方面需从源头抓起,注重顶层设计和实施过程的质量控制;另一方面,完整、准确地报告研究论文也有助于读者判断临床试验的内外部真实性(或称有效性)和应用价值。本文旨在对近年来国际上提出的随机对照试验相关报告规范即临床试验报告的统一标准(Consolidated Standards of Reporting Trials,CONSORT)及其扩展版进行解读。
1995年,为了提高随机对照试验报告质量,一个由临床试验学者、统计学家、流行病学家和生物医学编辑组成的国际小组制定了CONSORT声明[3,4]。1999年,CONSORT声明制定组织依据最新的关于偏倚产生的证据,对1995年的CONSORT清单和流程图进行了修订。修订后的CONSORT声明包括一个由22个条目组成的清单(表1黑色字体部分)和一个流程图[5]。CONSORT声明最初针对的是两组平行设计试验的报告,但大部分内容可以用于其他类型的设计,如等效试验、析因试验、组群试验和交叉试验等。
1.1 突出随机化 在报告的标题、摘要和前言部分,标题中尽可能包括“随机化”一词,摘要里明确陈述研究对象被随机分配到比较组 ,研究背景应当陈述开展一个新试验的理由,最好包括对既往相似试验系统综述的引用或者对这类试验缺乏的解释。
1.2 提供详细的方法学描述 在研究的方法学部分,要明确定义研究对象的入选和排除标准,主要和次要结局指标;阐明样本量的估算方法;详细描述如何进行随机分配、分配隐藏及盲法实施;数据分析不仅要涉及比较各组主要结局的统计学方法,还要就是否在方案中事先已计划了亚组分析和调整分析予以说明。
1.2.1 样本量估算 是临床研究者在方案设计时面临的主要挑战之一。一项研究应当有足够大的样本量,以便在存在差异时能够发现这种差异是否有统计学意义。效应的大小通常与发现这一效应所需的样本大小负相关。样本量计算需要考虑的因素有:①各组预期的结局(可以揭示组间结局指标的差异);②Ⅰ类错误α的水平;③Ⅱ类错误β的水平;④当结局为连续性变量时指标的标准差。作者应当指出样本量是如何确定的。如果使用了把握度计算,应当说明是在哪个主要结局变量的基础上计算的,计算中所使用的各个参数以及所获得的各组样本大小。还应说明是否考虑了失访和退出等情况,将样本量进行了相应扩大。
1.2.2 随机对照试验的核心是随机化 作者应当提供足够的信息便于读者评价产生随机分配序列的方法和分组过程中产生偏倚的可能性。因此,仅报告随机分组或随机化而没有进一步的说明是不够的。作者应当指出序列产生的方法,如随机数字表或计算机产生的随机数字。一些研究尽管使用了“随机”一词,但却使用了非随机的方法,如轮流交替分组、按医院数字或出生日期分组等。如果研究者使用了这些方法,应当对此进行详细描述,并且不适合使用“随机”一词,即使是类随机(quasi-random)也未必恰当。
当研究对象进入试验的时候,随机序列如何实施非常重要,最理想的方法是使用分配隐藏[6]。分配隐藏是一个防止分配结局被负责纳入研究对象的人预先知晓的严格过程。如果没有充分的分配隐藏,即使随机的分配序列也会被破坏。
分配隐藏与盲法是不同的概念。分配隐藏的目的是防止选择偏倚,负责分配之前随机序列的保护,常常是可以成功实现的。而盲法的目的是防止实施和结局判定中的偏倚,负责保护的是分配发生后的随机序列,盲法并非总是可以实现的。许多良好的分配隐藏方法都整合了外部的参与。例如,使用药房或中心电话系统是两种常见的技术。如果外部的参与不可行,则使用编号的容器是一个很好的方法,干预措施被密封在按顺序编号的同样大小的容器里。
使用连续编号的、不透明的和密封的信封也是一个很好的方法。研究者必须确保信封按照顺序打开,并且只有在研究对象的姓名和其他细节都被写在正确的信封上之后才能打开。
盲法是指患者和医生(有时也包括收集和分析数据的人)对所分配的干预措施不知晓,从而预防偏倚的产生。对患者的盲法是必要的,因为那些得知自己正在接受新治疗措施的患者可能会产生正向的预期或增加焦虑感,而那些接受标准治疗的患者则会感到被歧视或很安心。安慰剂和盲法一起使用是为了减少与接受干预有关的非特异效应(即安慰剂效应)所造成的偏倚。对患者和医生的盲法可以防止实施偏倚(performance bias)。当医生提供了其他的治疗措施或患者有偏好地去寻求其他治疗措施时,这类偏倚就可能出现。对患者、医生和其他参与结局判定人员(如放射科医生)的盲法可以减少检测偏倚(detection bias)的发生。对数据分析人员的盲法也可以预防偏倚,知晓干预分组状况可能影响分析策略和方法的选择。当结局为主观指标时,盲法尤其重要,例如评价疼痛程度。在报告里,作者应当阐明谁处于盲态(如患者,医生,结局评价人员或数据分析人员),盲法的机制(如胶囊或片剂)以及治疗特征的相似性(如外观,味道和服用方法)。
1.2.3 亚组分析和调整分析尽可能事前设定 有些临床试验在总体分析时差异无统计学意义,作者就将研究对象分成亚组,试图通过比较不同亚组的P值来推断是否存在交互作用,找到有意义的亚组,这种推断常面临很高的假阳性,应当进行交互作用的检验[7]。由于多重比较的问题增大了Ⅰ类错误的概率,因此通常并不鼓励进行亚组分析。事后的亚组分析就更不容易被进一步的研究所证实。这类分析不具有很大的可信性。
此外,是否进行调整分析以及对哪些因素进行调整,不应当取决于基线差异是否具有统计学意义,而应以对结局是否有重要影响为主[8]。例如,在一个比较溶栓药物疗效的研究中[9],基线时既往脑出血病史存在1%的差异可能无统计学意义,却可以影响药物治疗后出血性脑卒中的发生率(研究结局),因此这种基线差异在临床上被认为是很重要的。如果基线状态存在这种重要特征的差异,则应当进行调整分析。因此,作者应当阐明选择调整变量的依据、调整的方法以及这种调整是方案中计划的还是由数据提示的。
1.3 正确报告研究结果 在结果报告部分,强烈推荐使用流程图(图1)来展示各个阶段研究对象的流动情况,而后对各组在基线状况时的人口学特征和临床特征进行描述和分析。通常随机化可保证基线可比性,即使统计学检验存在差异,也是由于机会所致[10]。在实际报告中,连续性变量(如血压、年龄和胆固醇水平等)组间相似性可以通过比较均数和标准差(正态分布)或中位数与范围(偏态分布)来判断;分类变量(如性别和疾病阶段等)组间相似性可以通过比较各类数量和比例来判断。比较组间越相似,研究结果反映真实治疗效应的可信性就越大,特别是在未进行调整分析的情况下。
图1 个体化和整群随机对照试验各个阶段(入选、干预分配、随访和分析)流程图
注 白色字体:个体随机对照试验;黑色字体:整群随机对照试验,只适用于结局在群体水平上的情况,如果是多水平分析,则图中还应包括个体对象的流动情况;1)需说明群组数,平均群组大小及范围
结果应采用恰当的指标,并充分重视意向性治疗(ITT)分析。用分数的形式来表达结果,有助于判断是否所有接受随机分配的研究对象均纳入分析,如果不是,有多少被排除在分析之外。因此,结果不应当只表达为一个效应指标(如RR),还应包括各组的结局发生情况。许多试验都可能出现“偏离研究方案”的情况,如一些患者未接受全程的干预或正确的干预,或者一些不合格的患者被错误地进行了随机分配。处理这类问题,有一个广为推荐的方法是,根据所有研究对象最初分组的情况进行分析, 而不考虑分组后发生的情况(ITT分析)。 如果仅分
析那些完全依从研究方案完成干预和结局评价的研究对象,则这样的分析为按实际处理分析(on-treatment analysis)或符合方案分析(per protocol analysis)。分析中未纳入所有的研究对象会导致偏倚的产生。ITT分析可避免因研究对象不随机退出而造成的偏倚[11]。
对每个结局,研究结果中应报告各组结局发生情况(如发生或未发生事件的比例,或测量指标的均数和标准差),以及组间比较的情况,即效应大小。对二分类结局变量而言,效应指标可能是RR,OR或率差;对生存资料而言,效应指标可能是危险比或中位生存时间差;对连续资料而言,效应指标通常是均差。对所有结局指标而言,应当提供置信区间以提示效应估计的精度(不确定性)。对统计学上无意义的差异而言,置信区间具有特殊的价值,即可能提示存在一个临床上重要的差异。所有计划的主要结局和次要结局均应报告,而不仅是统计学有意义的结果。
1.4 合理解说研究结果 在讨论部分,应结合研究假设、潜在偏倚或不精确的来源等对结果进行合理解释。其中,从方法学的角度对研究存在的缺陷进行评价是十分必要的。例如,一项关于急性胆囊炎手术的研究发现[12],与传统的开放式胆囊切除术相比,腹腔镜胆囊切除术显著降低了术后并发症的发生率。然而,作者未讨论研究的一个潜在偏倚:腹腔镜胆囊切除术全部是由研究者本人完成的,而80%的开放式胆囊切除术是由实习医生完成的。所观察到的结果可能仅是由外科手术经验造成的。还应当注意区分统计学上的差异和临床上的重要性。作者应避免将一个统计学上不存在显著性差异的结果解释为干预效果是一样的。不论P值的大小,置信区间提供了重要的信息来判断研究结果是否可能具有临床上的重要性。当存在数个干预或结局以及亚组分析时,就会出现多重分析问题。作者应特别谨慎地去解释多重分析的研究结果。在这种情况下,一些统计学上有显著性差异的结果可能仅是机会造成的。
外部真实性是指一项研究的结果可以向其他相似情形推广的程度。外部真实性的判断取决于研究对象的特征、试验机构、治疗方案以及结局。因此,充分报告入选标准和机构以及地理位置、干预以及实施过程、结局的定义、征集研究对象和随访时间范围,以及对照组结局发生的危险,是非常重要的。
整群随机对照试验(cluster randomized trials)是将研究对象以整群为单位进行随机分配的一种试验设计。在很多情况下,医疗卫生干预是在一个整群的水平上实施的,如针对社区人群的健康教育和针对医生的指南实施干预等,这种情况下以个体患者为单位进行随机分组常难以实施;同时,整群随机对照试验设计可以更好地避免不同干预之间的污染(contamination),因此在公共卫生和医疗服务领域有着广泛而重要的用途[13]。
2.1 整群随机对照试验的特殊性 整群随机对照试验在设计、实施和分析上比个体化随机对照试验更为复杂[14]。
在设计方面,由于同一群组的个体往往较不同群组的个体在干预结果上具有更为相似的结果(非独立性),因此在同样的样本量情况下,整群随机对照试验提供的信息总是少于个体化随机对照试验,这是确定整群随机对照试验样本量的一个重要考虑。这种有效样本量的降低程度取决于平均群组大小和群内相关程度的大小,即群内相关系数(ρ)。通常为了补偿整群随机对照试验把握度的降低,样本量应当在个体化随机对照试验样本量基础上扩大1+(m-1)ρ倍,其中m为平均群组大小。
在实施方面,整群随机对照试验也与个体化随机对照试验有所不同,潜在的偏倚可能出现在群体和个体两个水平:在群体水平,为了防止有偏的分配,应当进行严格和正确的随机化,一旦分配完成后就必须确保各群组接受所分配的干预和避免退出,以防止退出偏倚;在个体水平,整群随机分配已经完成,偏倚可能会在个体对象进入研究时出现,如负责征集研究对象的人员知晓分组情况,就可能如同个体化随机对照试验未能做到分配隐藏一样产生偏倚。如果在随机化完成之后研究对象才被征求是否同意参加试验,这可能引起随机化之后的选择偏倚问题,如果不获得研究对象同意则可能引起伦理学问题。在随机化之前就获得同意,以及使用对分组情况未知的人员去征集和纳入研究对象,可以减少以上偏倚。
在分析方面,由于同一群组内个体往往具有一定的相关性(非独立性),这就违背了个体化随机对照试验假设检验和统计推断的基本假定。在这种情况下,必须使用那些可以处理整群设计效应的分析方法,反之会导致研究夸大干预效应,出现假阳性的结果。
2.2 整群随机对照试验的CONSORT声明 由于整群随机对照试验在设计、实施和分析上的复杂性,Elbourne[15]在1997年提出整群随机对照试验的报告需要专门的指南。2001年,Elbourne等[15,16]对CONSORT声明进行了修改,提出了针对两水平、完全随机化的整群随机对照试验的报告规范讨论。2004年,扩展到整群随机对照试验的CONSORT声明正式发表[17],包括一个清单(表1,尤其是红色字体部分)和一个流程图(图1)。针对整群随机对照试验的特殊性,修改后的CONSORT声明增加了以下内容:采取整群设计的原理;如何考虑整群设计效应进行样本量的计算;如何考虑整群设计效应进行分析;从随机分配到分析过程中整群和个体的流动情况。
2.3 整群随机对照试验的CONSORT声明解读
条目1和2 在标题或摘要里注明设计类型为整群随机对照试验,以确保Medline将其正确标记,从而在检索时更容易识别这类研究。研究者在摘要中要报告整群的群组数量,在背景介绍时要说明采用整群随机设计的原理。
表1 CONSORT清单
注 1)表示与原CONSORT声明清单相比,扩展版有变化的条目;红色字体部分适用于整群随机对照试验
条目3和4 由于整群随机对照试验有两个统计推断水平:群体水平和个体水平,因此群组和个体对象的入选标准均需报告。在一项整群随机对照试验中,主要的入选标准通常是所有群组在一个规定的地理区域内。如果干预针对的是群体水平,则应当描述干预实施的细节。
条目5和6 描述设定的目标和假说时,应清楚说明它们针对的是个体水平,还是群体水平,或者两者都有。一项研究究竟是在群体还是个体水平上被评价,对选择正确的结局资料分析方法十分关键。因此,明确报告测量结局所在的水平是重要的。
条目7 如前所述,要获得与个体化随机对照试验相同的把握度,整群随机对照试验的样本量必须扩大,扩大的比例取决于群内相关系数和群组大小。报告整群随机对照试验时应阐明计算群组数量和群组大小所使用的假定。
条目8 在整群随机对照试验中,通常群组数量相对较少,因此并不能保证比较组间基线特征差异完全由机会造成。因此整群随机对照试验设计中常常施加某种形式的“限制”(匹配或分层),以最大程度地减少比较组间的不平衡。这种“限制”会影响样本量的计算和结果分析,因此在报告中应当明确报告。
条目9 在整群随机对照试验中,群内各个成员所分配到的干预是预先确定的,由此导致在群内产生选择偏倚(选择性纳入研究对象)的可能性很大。因此,对那些为了减小选择偏倚而采取的策略(如群内所有个体是否均纳入了研究,或者负责纳入研究对象的人是否对群组分配情况未知)进行描述是十分重要的。
条目12 对统计推断水平的识别有助于读者评价分析方法。例如,如果干预针对的是群体水平,并且结局也是在群体水平上汇总,这时就不需要复杂的整群调整分析。如果结局是在个体病例水平上测量的,这种情况下分析就需要调整群效应。
条目13 了解所有群组和个体中未接受分配干预的比例、退出的比例和未获得随访资料的比例对准确解释研究结果十分重要。整群随机对照试验更容易出现比较组间在按照研究方案接受干预和随访等方面的差别,这是因为群体和个体水平都可能出现退出的情况。因此,在报告整群随机对照试验时,描述群体和个体的流动情况是重要的。流程图(图1)通常是表达这类信息的最好途径。
条目15 如前所述,个体化随机分配常可以保证比较组间仅存在机会造成的差异,而不存在系统化的偏倚。然而这一假定在整群随机对照试验中并不一定成立,因此同时报告群体和个体水平的基线特征是必要的。
条目16 在个体化随机对照试验中,参加分析研究对象的数量对结果解释而言很重要。有时,并非所有研究对象都参加各个结局的分析。在整群随机对照试验中,这一问题更加复杂,因为除了个体水平外,还有可能并非所有群组都参加分析。由于样本量和把握度是基于所有研究对象和群组都参加分析的假定上计算出来的,因此应当报告参加分析的研究对象和群组的数量,以便评估统计学把握度上可能的降低。如果只有一个主要结局指标,那么流程图可以反映这一信息;如果有不止一个主要结局指标,则应分别报告参加各个结局分析的研究对象和群组的数量。
条目17 当报告整群随机对照试验结果时,应当报告各主要结局的点估计和置信区间。考虑到群内相关对研究把握度的影响,应当报告各个结局的群内相关系数。这一信息有助于读者评价最初样本大小的计算是否合适,以及各结局群效应的大小,也有利于将来相似领域开展整群随机对照试验。同时报告调整和未经调整的估计值也有助于判断整群设计效应的大小。
条目21 整群随机对照试验的外部有效性更为复杂,因为结果既可能被推广到群体,也可能被推广到群内的个体,或者两者均可。因此,应当清楚报告外部有效性是在哪个水平上讨论的。
实证研究已经发现[18],不充分的方法学报告与估计研究效应时的偏倚有关。 而CONSORT声明及其扩展版有助于研究者和其他人写作或评价临床试验的报告。柳叶刀杂志(The Lancet)、英国医学杂志(BMJ)、美国医学会杂志(JAMA)和内科年鉴(Annals of Internal Medicine),以及越来越多的生物医学期刊编辑组织,包括国际医学杂志编辑委员会和科学编辑委员会都对CONSORT声明提供了官方的支持。初步的研究提示,使用CONSORT声明的确有助于改进随机对照试验的报告质量[19]。我们相信,CONSORT声明及其扩展版的广泛推广,将不断促进和提高随机对照试验的报告质量,最终有益于临床和医疗卫生中干预的评价与实施。
[1]Clarke M. Can you believe what you read in the papers?Trials,2009, 10:55
[2]Wu T, Li Y, Bian Z,et al. Randomized trials published in some Chinese journals: how many are randomized?Trials,2009, 10:46
[3]Begg C, Cho M, Eastwood S,et al. Improving the quality of reporting of randomized controlled trials. The CONSORT statement.JAMA,1996,276(8):637-639
[4]Moher D, Schulz KF, Altman DG. The CONSORT statement: revised recommendations for improving the quality of reports of parallel-group randomised trials. Lancet,2001,357(9263):1191-1194
[5]Altman DG, Schulz KF, Moher D,et al. The revised CONSORT statement for reporting randomized trials: explanation and elaboration. Ann Intern Med,2001,134(8):663-694
[6]李立明,主编.流行病学,第6版.北京:人民卫生出版社,2006.128-163
[7]Matthews JN, Altman DG. Statistics notes. Interaction 2: Compare effect sizes not P values.BMJ,1996,313(7060):808
[8]Assmann SF, Pocock SJ, Enos LE,et al. Subgroup analysis and other (mis)uses of baseline data in clinical trials.Lancet,2000,355(9209):1064-1069
[9]Wallen L,Swahn E,Kontny F,et al. Invasive compared with non-invasive treatment in unstable coronary-artery disease: FRISC Ⅱ prospective randomised multicentre study. FRagmin and Fast Revascularisation during InStability in Coronary artery disease Investigators. Lancet,1999,354(9180):708-715
[10]Altman DG, Doré CJ. Randomisation and baseline comparisons in clinical trials.Lancet,1990,335(8682):149-153
[11]Lachin JM. Statistical considerations in the intent-to-treat principle. Control Clin Trials,2000,21(3):167-189
[12]Kiviluoto T, Sirén J, Luukkonen P,et al. Randomised trial of laparoscopic versus open cholecystectomy for acute and gangrenous cholecystitis.Lancet,1998,351(9099):321-325
[13]Fayers PM, Jordhoy MS, Kaasa S. Cluster-randomized trials. Palliat Med, 2002,26:69-70
[14]Puffer S, Torgerson D, Watson J. Evidence for risk of bias in cluster randomised trials: review of recent trials published in three general medical journals.BMJ, 2003,327(7418):785-789
[15]Elbourne D. Guidelines are needed for evaluations that use cluster approach. BMJ, 1997,315(7122):1620-1621
[16]Elbourne DR, Campbell MK. Extending the CONSORT statement to cluster randomized trials: for discussion.Stat Med, 2001,20(3):489-496
[17]Campbell MK, Elbourne DR, Altman DG,et al. CONSORT statement: extension to cluster randomised trials. BMJ, 2004,328(7441):702-708
[18]Jüni P, Altman DG, Egger M. Systematic reviews in health care: Assessing the quality of controlled clinical trials.BMJ, 2001,323(7303):42-46
[19]Moher D, Jones A, Lepage L,et al. Use of the CONSORT statement and quality of reports of randomized trials: a comparative before-and-after evaluation.JAMA,2001,285(15):1992-1995