翁 鸿, 王 颖, 李柄辉, 曾宪涛,
(1. 武汉大学中南医院循证与转化医学中心·武汉大学循证与转化医学中心·武汉大学第二临床学院 循证医学与临床流行病学教研室,武汉 430071; 2. 吉林大学中日联谊医院药学部,长春 130033; 3. 河南大学循证医学与临床转化研究院循证医学中心,河南 开封 475000)
系统评价与Meta分析是基于原始研究开展的,因此其类型可根据原始研究的设计分为不同的类型[1-2]。不同类型的系统评价与Meta分析的制作步骤相似,不同的地方在于因原始研究特点及研究目的带来的资料提取、方法学质量评价工具[2-5]、报告内容[2,6]、结果解读上的不同。本文在上期在介绍系统评价与Meta分析的内涵及价值[7]的基础上,介绍系统评价与Meta分析的类型及制作步骤。
系统评价与Meta分析的类型不同,很大程度上取决与Meta分析的方法学进展。每一种Meta分析类型的出现,都离不开相应的方法学支持。现代意义上的系统评价与Meta分析最开始是基于临床随机对照试验(randomised controlled trial, RCT)的直接比较(direct comparison)[1],后来应用于观察性研究以探讨疾病的发病率、患病率、危险因素、预后、诊断准确性等,再接着又发展到基于RCT的累积Meta分析(cumulative meta-analysis, CMA)、间接比较(indirect comparison)、网状Meta分析(network meta-analysis, NMA)和试验序贯分析(trial sequential analysis, TSA)等[1,8],以及根据实践的需求进一步深化的方法。领域亦从人体在体实验、到离体实验及动物实验等。图1简要展示了Meta分析的方法学进展。
图1 Meta分析的方法学进展Fig.1 Methodological progress of meta-analysisMA: Meta分析;IPD: 个体患者数据
本文对系统评价与Meta分析的类型的下述划分并非是严格独立的,在不同的划分规则中是存在交叉的关系的。
一般可分为随机试验、非随机实验性研究、诊断准确性试验(diagnostic accuracy test, DTA)、队列研究、病例-对照研究、横断面研究、质性/定性研究、病例报道/系列、生态学研究、动物实验、遗传关联性研究、真实世界研究及其他特殊类型的设计(如N-of-1试验、巢式病例-对照研究、病例-队列研究等)的系统评价与Meta分析。
按照开展分析基于数据类型的不同,可分为二分类数据、有序数据、连续型数据、效应量(或其对数)及其可信区间/标准误/方差、P值、相关系数、Cohen′s d值、Hedges′s g值、率值(如生存率、死亡率、发病率、成活率、依从率)、均数值等的系统评价与Meta分析[2]。
按照证据的获取方式,可以分为传统的直接比较(亦称为头对头比较,head to head comparison)、间接比较(indirect comparison)、网状比较(network comparison)、累积(cumulative)、TSA、个体患者数据(individual patient data)、剂量-反应数据(dose-response)及前瞻性数据(prospective)等的系统评价与Meta分析;以及以系统评价/Meta分析为基础的系统评价再评价/汇总评价[2,8-10]。
按照研究领域的不同,可以分为临床医学、护理学、检验医学、基础医学(动物实验、基因遗传研究、细胞研究等)、卫生经济学、流行病学、生态学、教育学、心理学、经济学、司法犯罪、社会科学等的系统评价与Meta分析。
在医学领域,按照研究目的的不同,又可分为预防、诊断、筛查、治疗、病因、预后、不良反应等系统评价与Meta分析。
经典的头对头比较的系统评价与Meta分析及诊断试验准确性Meta分析已广泛使用多年,并从互联网及会议上可获取大量的内容。故本处重点介绍几种新兴的、理解难度大的方法。
在实际研究开展中,申办方一般不会选择强阳性干预作为自己产品的对照组,更多的时候选择的是安慰剂或能有足够信心认为劣于自己产品的干预作为对照。因此,会出现如下情况: 两种或多种强阳性药物之间没有直接比较的RCT存在,或有但数量极少或质量很低。在临床实践中,往往需要知晓多种阳性药物的效果,这就导致传统的头对头比较Meta分析无法满足需求了。这就催生了间接比较Meta分析的方法,于1997年正式提出[2,11]。
间接比较能够产生的前提在于RCT很好的控制了偏倚,是一种理想世界的研究,故可以通过找到两者之间的桥梁,即通过A干预与C干预、B干预和C干预的结果,间接得出A与B的相对效果的一种方法。显然,直接得出的A与B的结果会存在一定的偏倚,譬如C的剂量不同,因此方法学家们进行了校正,同时需要首先判定这AvsC与BvsC之间是否具有良好的同质性(homogeneity),也就是传统Meta分析中的异质性(heterogeneity)。当前,推荐使用的为校正后的间接比较以最大限度的保存随机化[12]。桥梁一般是安慰剂。
当有3种以上干预的时候,就可以产生更多的间接比较,见图2。在图2中,可以产生BvsE、BvsC、BvsD、BvsF、BvsG、EvsC、FvsC、GvsC、DvsC、DvsE、GvsE、DvsF、DvsG和EvsG这些间接比较的结果。这些比较带来了一个额外的问题,即传递性(transitivity)。也就是说B通过到A与E比较了之后,还有没有必要继续与F及G比较以及在这个传递过程中带来的风险有哪些?这些都是未来研究亟待解决的问题。
图2 间接比较示意图(每个字母代表一种干预)Fig.2 Schematic plot of indirect comparison (Each letter represents an intervention)
通过间接比较解决了缺乏有效直接比较证据的问题。那么,如图2所示,在面对一个具体问题时,临床医生或决策者通常需要在众多的干预措施中选择对具体患者最安全有效的措施,如诸多干预中哪种干预对目标疾病的疗效最好、哪种方案性价比最高?这些问题通过间接比较不足以解答,就催生了网状Meta分析方法。网状Meta分析方法于2002年正式提出[2,13]。
网状Meta分析又称混合治疗比较Meta分析(mixed treatment comparison, MTC)、多种治疗Meta分析(multiple treatments meta-analysis)等。该方法是将直接比较和间接比较同时合并起来进行Meta分析,构成了一个网的形状,亦即将图2中的B与C、D、F、G中的一个或多个连接起来(代表B与它们之间有直接比较)形成的结果。显然,当无闭合环存在时,只能做间接比较Meta分析;当有任何一个闭合环存在时,即可形成网状Meta分析。一项网状Meta分析,可以都是闭合环,但常见的是闭合环与开合环同时存在。
因为网状Meta分析是融合了直接比较与间接比较,那么就需要考虑间接比较结果是否与直接比较结果相类似。这就产生了该类Meta分析中必须要进行的步骤,即比较证据的一致性(consistency)。从图2可以看出,B与E连接后形成的是三边环、B与F连接后形成的是四边环、B与G连接后形成的是五边环,还有可能形成五边以上的环,那么到底该认可多少边环的结果也是当前尚无公认答案的问题。不管怎样,三边环是网状Meta分析的基础,故不一致性检验方法中其中一种是检测环不一致性。
正确理解同质性/异质性、相似性(similarity)和一致性[14],是把握间接比较及网状Meta分析的基石。同质性是指每项RCT的研究特征与受试者特征应相同,基于同一种处理比较类型的不同研究间;相似性是基于不同的处理比较类型之间;一致性是基于直接比较与间接比较之间。在网状Meta分析中,即使传统的Meta分析中存在非常大的异质性,相似性假设与一致性假设也可能成立。
由于系统误差(偏倚)和随机误差(机遇)的影响,Meta分析可能会得出假阳性结果或高估干预措施的效应量。此外,Meta分析的更新中,检验次数亦随着纳入新的RCT而不断增加,使得随机误差进一步增大。再者,新的研究持续开展,Meta分析不断更新,何时才能够得到结论性的(conclusive)结论以停止相关研究、避免造成大量人力、物力和财力的浪费?显然,需要探索新的分析方法。
累积Meta分析常被用来观察效应量随特定顺序(如发表时间等)变化的趋势,以判断当前所获得的证据是否足够、新的RCT是否应继续开展[1-2]。但其过程未能校正重复检验(重复检验会增加Ⅰ型错误风险),亦不能计算拒绝无效假设的统计检验效能。
借助于序贯试验(sequential trial;亦称序贯分析,sequential analysis)的思路与方法,1997年被引入到Meta分析中以计算Meta分析的界值,即最优信息量(optional information size, OIS)。丹麦哥本哈根临床试验中心小组在此基础上进行了延伸,提出了TSA方法和期望信息量(required information size, RIS)的概念,是当前最为常用的序贯Meta分析方法[15-16]。
序贯Meta分析具有以下优点[15]: (1) 具有终止无效假设的标准;(2) 可量化统计效能;(3) 点估计和区间估计均可进行多重检验校正;(4) 可增加效率,即无效/有效假设均有接受的标准,可达到伦理学和经济学上的优化。
在流行病学研究中,经常评价某暴露因素水平的增加(或降低)与某疾病发病风险的关系是否符合线性剂量-反应(效应)关系(dose-response relations),即随着剂量的增加或减少对结局指标的影响。基于这种类型原始研究开展的Meta分析即为剂量-反应Meta分析(dose-response meta-analysis)[17]。
剂量-反应关系研究的数据主要有3种类型: 病例-对照型数据(case-control data)、发病率型数据(incidence-rate data)和累积发病率型数据(cumulative incidence data)。对于剂量-反应型研究,效应指标根据研究设计的类型及主题,在危险比(risk ratio, RR)/比率(rate ratio, RR)、比值比(odds ratio, OR)或风险比(hazard ratio, HR)中选择合适的指标。
对于剂量-反应数据,传统的的Meta分析是将其按照分层模型(category model)进行处理,即按照暴露水平,分为高比低两组,或者高比中比低的多分层形式。这种方法不仅各层数据的暴露剂量在不同研究中存在差异,并且由于分层后会导致每层数据的样本量减少,大大降低了结果的准确性及统计把握度。当前推荐使用基于方差加权最小二乘法(weighted least-squares, VWLS法)或广义最小二乘法(generalized least squares for trend, GLST法)进行估计的线性模型、基于限制性立方样条(restricted cubic spline)回归模型进行估算的非线性模型。
开展剂量-反应关系Meta分析的研究思路大致如下: 确定研究的目标后,一般先收集暴露与疾病的病例-对照和队列研究,在每个病例-对照或队列研究中挑选出最高剂量组相对于最低剂量组的RR或OR值及其95%CI进行Meta分析合并,得到一个汇总的RR或OR合并值;然后,再进一步进行剂量-反应关系Meta分析探讨这种关联是否存在剂量-反应趋势。具体操作时还存在模型的选择。
质性研究的系统评价(qualitative systematic review)又称为质性研究整合,是指对基于质性研究产出结果所进行的二次整合与评价。Meta整合(meta-synthesis)即为此过程中,对同类的质性研究资料进行收集、理解、比较、分析和归纳,形成更为全面和深入地反映现象实质的、新的、综合性的解释或结论的方法[18]。该方法于2004年提出,主要用于护理领域质性研究结果的整合。
Meta整合分为汇集性整合(integrative or aggregative synthesis)和解释性整合(interpretive synthesis)。其步骤主要分为6大步: 制定计划书,文献资料的筛选及质量评价,资料提取,结果整合,整合结果的解释与传播,整合结果的质量评价。
动物实验与临床研究一起被认为是现代医学研究的两条基本途径,是连接基础研究和临床试验的重要桥梁,其结果直接影响着许多领域研究课题成果的确立和水平的高低。动物实验与临床研究的偏倚风险来源类似,只是在某些具体实施方面略有差异。开展动物实验的系统评价与Meta分析被认为是探索提升动物实验对临床研究指导价值的有效途径,主要目的有[19]: (1) 后效评估动物实验,回顾性比较动物模型是否使用得当。(2) 降低将动物实验所获结果引入临床的风险,可在即将开展的临床试验中计算效能时增加估计疗效的精度,降低假阴性结果的风险,可用于决定动物实验结果何时可被临床接受,以终止不必要的临床试验,更好地促进动物实验向临床研究转化。其与临床研究的Meta分析不同之处在于方法学质量评价工具及动物自身的一些特点,如种系、模型等方面。
四大专业性系统评价是指Cochrane系统评价(Cochrane Systematic Review)、JBI系统评价(Joanna Briggs Institute Reviews)、Campbell系统评价(Campbell Systematic Reviews)和CEE系统评价。这些系统评价从标题开始就要强制性进行注册,并在其对应的机构指导下、遵照手册进行制作。
Cochrane系统评价是由Cochrane协作网组织制作、由系统评价小组(Cochrane Review Group, CRG)负责实施,并定期发表于Cochrane图书馆[2]。制作完成的系统评价优先发表于CDSR(Cochrane Databases of Systematic Review)、亦可在得到相关的CRG批准后发表于其他刊物。更多相关信息请参阅https://www.cochranelibrary.com/。
JBI系统评价是Joanna Briggs循证卫生保健中心发起并管理制作的,制作完成的系统评价优先发表于JBI图书馆,亦可发表在同行评议期刊InternationalJournalofEvidence-BasedHealthCare[20]。更多相关信息请参阅http://joannabriggs.org/。
Cochrane协作网的姊妹组织Campbell协作网(C2)成立于2002年,协作网宗旨是和Cochrane协作网建立合作,为社会、心理、教育、司法犯罪及国际发展政策等非医学领域提供科学严谨的系统评价和决策依据。Campbell系统评价即为在该组织管理指导下生产的系统评价,优先发表于Campbell图书馆[21]。更多相关信息请参阅https://www.campbe-llcollaboration.org/。
环境证据协作网(the collaboration for environ-mental evidence, CEE)是全球可持续环境和保护生物多样性领域中的科学家和管理者工作的开放性社区组织,致力于合成与环境政策和实施最相关的证据。CEE系统评价即为在该组织管理指导下生产的系统评价,优先发表于CEE图书馆及其官方刊物Environmental Evidence杂志[9]。更多相关信息请参阅http://www.environmentalevidence.org/。
有较多文献介绍了系统评价与Meta分析的制作步骤,其中以Matthias Egger等2001年出版的第2版Systematic reviews in health care: Meta-analysis in context中所提出的步骤[2,22]和Cochrane Handbook for Systematic Reviews of Interventions中提出的制作步骤[2,23]最为常用。
前者将系统评价的制作分为了8个步骤: (1) 提出要评价的问题;(2) 确定纳入和排除标准(研究对象,干预及对照措施,结局指标,研究设计和方法学质量);(3) 查找研究——制定检索策略(应包括: The Cochrane Controlled Trials Register/CCTR,CCTR未涵盖的电子数据库及试验注册库,检索纳入研究的参考文献,检索关键的期刊,联系本领域的专家);(4) 选择研究(至少两位评价员独立选择,制定解决分歧的策略,记录排除的研究及其排除的原因);(5) 评估研究的质量(至少两名评价员独立评价,使用简明的清单而非质量量表,每次都要评价分配隐藏、盲法和失访,评价员评价时应隐藏研究的作者、单位及发表的期刊);(6) 提取数据(设计数据格式并进行预提取,考虑至少两名评价员独立提取,考虑对评价员隐藏研究的作者、单位及发表的期刊);(7) 分析和表达结果(列表描述每个研究的情况,审查森林图,探讨异质性的可能来源,考虑整体研究的Meta分析及各亚组的Meta分析的结果,进行敏感性分析并审查森林图,提供排除研究的清单供对排除研究感兴趣的读者参考);(8) 解释结果(考虑本研究的局限性,包括发表偏倚等相关的各种偏倚,考虑证据的强度、适用性、利/弊的需治疗人数、经济学意义及对未来研究的启示)。
Cochrane Handbook for Systematic Reviews of Interventions中则将系统评价的制作分为了10个步骤: (1) 提出要评价的问题;(2) 制定研究的纳入及排除标准;(3) 制定检索策略并检索研究;(4) 筛选研究和收集资料;(5) 评估纳入研究的偏倚风险;(6) 分析数据并在适合的情况下进行Meta分析;(7) 解决报告偏倚;(8) 陈述结果和制作结果摘要表格;(9) 解释结果与得出结论;(10) 完善和更新。
上面两种步骤均为为基于RCT的系统评价设计的,但其他类型的系统评价与Meta分析亦可以遵照此步骤。
制作高质量的系统评价与Meta分析是其价值的保证,而制作的一个前提是掌握步骤及各种类型,并根据目标选择最合适的类型。譬如,基于RCT制作更新的直接比较的系统评价与Meta分析,可优先考虑选择序贯Meta分析;若RCT涉及到了不同的用药剂量,那么则可考虑开展网状Meta分析以比较不同剂量的效果。若是针对剂量-反应数据的观察性研究探讨危险因素时,可考虑转化成传统的二分类数据的系统评价与Meta分析,亦可以直接开展剂量-反应Meta分析。此外,四大专业性系统评价也是相关领域初学者应给予关注的,这些系统评价均在其官网上给出了详细的制作手册,并有专人负责指导,这对于入门者来说是非常宝贵的资源。