张天嵩
上海市静安区中医医院,200272 上海
meta分析(meta-analysis)可定量、科学地整合研究结果,在众多学科领域已发挥了革命性的作用,有助于建立循证实践和解决看似相互矛盾研究结果的问题,已成为循证医学中证据整合的重要工具[1]。近年来,针对2个干预措施头对头比较传统meta分析的统计模型,大量国外研究已更新了既往的观点[2-4],虽然在我国已有学者对这些理念和方法进行了一定范围的推广[5-7],但仍未能很好地得到应用,系统评价员在实际工作中还存在方法学误用问题。本文在结合国内外相关文献基础上,主要介绍传统meta分析统计模型的新观点和新认识,及其假设、结果解释,探讨合理选择模型时应考虑的因素,以及如何合理选择应用。
传统meta分析合并数据最主要的统计模型是固定效应(fixed-effect,FE)模型和随机效应(random-effects,RE)模型[8-9]。一般有2种误用情形:
一是,在既往meta分析实践中,一些研究者首先选用FE模型,然后针对效应量进行异质性检验,若异质性检验无统计学意义,则采用FE模型分析;若异质性检验有统计学意义,则转为使用RE模型分析[8]。这种模型选择思路在考科蓝图书馆10余年前所载系统评价文献中亦可见到,如:
Afixedeffectsmodelwasusedunlessstatisticallysignificantheterogeneityexistsbetweenthestudies,thereinarandomeffectsmodelwasemployed.Achi-squaretestwasusedtoassessheterogeneity(aPvalueof0.10willberegardedasstatisticallysignificant)[10];
Weusedafixed-effectmodelthroughoutthereviewexceptintheeventofsignificantheterogeneitybetweenthetrials(P<0.10),whenwechosetherandom-effectsmodel[11]。
二是,根据异质性检验结果选择统计模型,这是当前国内医学统计学和循证医学等教材、国内期刊和国外低影响力期刊刊载文献通用的模型选择思路;甚至,10余年前某些国外高影响力期刊如JAMA等所刊载文献亦根据异质性大小选择模型。如:
ThevalueoftheI2statisticwasusedtoselecttheappropriatepoolingmethod:fixed-effectsmodelswereusedforI2lessthan50%andrandom-effectsmodelsforI2greaterthan50%[12]。
对纳入的不同研究采用χ2检验(检验水准α=0.1),并联合I2定量判定异质性大小。若P>0.10,I2<50%,表明各研究间具有同质性,采用FE模型分析;若P≤0.10,I2≥50%,表明各研究异质性较大,进一步通过亚组分析或敏感性分析确定异质性来源,在排除明显临床异质性的影响因素后,采用RE模型进行meta分析[13]。
传统meta分析是典型的二步过程,基本原理是[14]:第一步,计算纳入meta分析的每个研究的观测效应量;第二步,通过对每个研究的观测效应量进行加权(如倒方差法)取平均数来获得总的合并干预效应,并进行相关统计推断。
既往观点中[9,15],FE模型假设纳入meta分析的所有研究均有一个相同的干预效应(量级和方向均相同),不同研究的观测效应量之间的差异均由抽样误差所示;而RE模型假设纳入分析的研究间干预效应可以不同,观测效应量不同是由于随机误差和真实干预效应不同。传统meta分析的统计模型对于计算和解释meta分析的结果非常重要,但由于FE和RE统计模型采用相似的公式计算统计量,有时可能得到相似的结果,以至于被误认为2个模型可以相互替换使用。但实际,不同的模型基于不同的假设,并且提供不同的参数估计值。
新近的观点[2-4],根据研究目的和假设等将meta分析统计模型拓展为3个:共同效应(common-effect,CE)模型、FE模型和RE模型,请注意此处的固定效应模型与传统的“固定效应(fixed-effect)模型”的英文表达方式不同,这些模型在当前流行的统计学软件中得以实现,如Stata官方meta分析模块、R软件metafor包等。假设纳入分析的第i(i=1,2,…,k)个研究的观测效应量为yi,其相应方差为νi,真实效应量为θi,研究间异质性方差为τ2;描述第i个研究的抽样误差的随机变量为εi,描述研究间异质性的随机变量为δi,合并效应量为θ,则3个模型的表达、假设、效应量估计及解释、异质性、一致性等比较如表1所示。
可以发现,CE模型和FE模型虽然各自的特定假设不同,但效应量估计计算公式相同,因此结果亦要相同。请注意,对于效应模型的相关术语目前尚未完全统一,在不同国外文献、专著和统计软件中可见有不同的名称,如CE模型也称为相等效应(equal-effect)模型、fixed-effect模型(effect是单数形式)等;FE模型也称为独立效应模型,如在R软件meta包中将common effect模型和fixed effect模型互称,在解释分析结果时应当注意不要混淆。
从上述2种模型误用情形中可以发现,它们都涉及“异质性”这一重要概念。所谓异质性[14]是指系统评价/meta分析中研究间变异性,一般可分为临床异质性(研究对象、干预措施、测量结局等方面的变异性)、方法学异质性(研究设计、测量工具、风险偏倚等方面的变异性)、统计学异质性(不同研究间干预效应方面的变异性)等。请注意,在meta分析相关文献中使用异质性检验结果中的“异质性”通常是指统计学异质性。虽然临床异质性和方法学异质性可以导致统计学异性,但从逻辑上讲,统计学异质性有无显著性并不能完全代表或反映出有无临床异质性和方法学异质性;且当前针对统计学异质性检验方法的统计效能都比较低,异质性检验结果无显著性并不能说明即是真的无异质性。因此,如果仅以异质性检验结果来选择则可能导致模型选择错误。而在实践中,一般应当基于抽样框架选择统计模型,因此在选择模型时应该关注纳入meta分析中的研究是如何抽样的,而不是基于异质性检验的统计学结果。
本节采用1篇评估抗抑郁药治疗癌症伴有抑郁症患者疗效的系统评价[16]为例探讨模型合理选择的思路。该研究共纳入14篇文献含1 363名患者,以有效性为研究目的的研究共有7个,有1个是3臂研究(即图1中的“Musselman 2006”研究),作者在提取数据时,将该研究中2个抗抑郁药“共享”安慰剂组(安慰剂组样本量平均分成2组、测量指标均数和标准差不变),分为2个抗抑郁药与安慰剂对照的“研究”;干预措施为抗抑郁药剂,对照干预为安慰剂,根据抗抑郁药不同分为选择性血清素再吸收抑制剂、三环类抗抑郁药、其他抗抑郁药等3个亚组;测量指标为HAM-D、MADRS等连续型数据,因此标化均数差(standardized mean difference,SMD)为效应量;作者因考虑到异质性而事先设定使用RE模型合并数据,并根据抗抑郁药种类不同进行亚组分析,结果如图1所示。本文使用R软件(ver 4.2.1)中的meta扩展包(ver 6.2-1)对图1中的数据重新分析,仍选择SMD为效应量,但分别拟合CE和RE模型,输出森林图为RveMan5格式。图2。
图2 R软件meta包绘制的森林图
根据meta分析效应模型的假设,似乎应将RE作为首选模型为宜,因为它允许不同研究间的效应量可以相同或不同。如,“SSRIs vs 安慰剂”亚组共有5个研究,异质性检验结果提示可能存在轻度异性,根据作者事先制定的模型选择策略可以首先考虑使用RE模型,所得合并效应量点估计为-0.40(-0.79,-0.01)。而“TCAs vs 安慰剂”亚组只含有1个研究、“其他抗抑郁药 vs 安慰剂”亚组只含有2个研究,如果选用RE模型可能会存在问题。从图2中可以看出,R软件meta包对只有1个研究的“TCAs vs 安慰剂”亚组不进行数据合并;对含有2个研究的“其他抗抑郁药 vs 安慰剂”亚组,CE模型和RE模型合并数据的结果方向不同,CE模型为阳性结果,合并SMD点估计及95%CI为-0.55(-0.81,-0.30),而RE模型为阴性结果,合并SMD点估计及95%CI为-1.01(-2.44,0.41),提示我们在进行系统评价或meta分析时,应重视效应模型的合理使用。
本节中,选取国外高影响力期刊或考科蓝图书馆刊载的文献,作为正确使用效应模型策略的实例参考。引文中的FE模型为既往效应模型分类术语,与新分类中的CE模型相同。
一是,根据模型假设合理选择,因研究对象和方法不同而假设研究间效应不同来选择RE模型。如:Weusedarandom-effectsmodelforallanalyses,asweexpectedvariationineffectsduetodifferencesinstudypopulationsandmethods[17]。或认为每个研究在研究对象、干预措施和测量结局定义等方面相似而采用FE模型。如:Modelswereadjustedfortrialasafixedeffectbecausethemethodsusedfortheprospectivemeta-analysismeantall5trialswereverysimilarwithrespecttotheirincludedparticipants,interventions,andoutcomedefinitions[18]。
二是,基于方法学、临床和统计学异质性考虑,首选RE模型;若因纳入meta分析的研究数量少则可选择FE模型。如:Duetomethodological,clinical,andstatisticalheterogeneityamongincludedtrials,weusedarandom-effectsmodelinmeta-analysestoestimatefive-yearoutcomes.Webasedmeta-analysesofoutcomesonafixed-effectmodelwheneverdatawereavailablefromonlytwostudies[19]。
三是,基于RE模型在meta分析时融入了研究间异质性的特性而首选RE模型。如:Wepooleddatausingarandom-effectsmodeltoincorporatebetween-studyheterogeneityintothemeta-analysis[20]。
四是,首选RE模型,再加FE模型作为敏感性分析。如:Weusedarandom-effectsmodelforallmeta-analysesandperformedasensitivityanalysiswithafixed-effectmodel[21]。请注意,如果该2种模型估计到的结果不一致,建议都要报告FE模型和RE模型的合并结果。
meta分析中如何选择统计模型,历来存有争议。不同的统计学家和临床研究人员可能偏爱不同的统计模型[22],即使是第6版《考克蓝干预措施系统评价手册》也未能提供权威的统一推荐意见[14]。根据meta分析各种效应模型特点和基于正误两方面的文献复习,笔者认为应从统计模型假说、meta分析目的、纳入meta分析的研究数量和样本量、研究间异质性、抽样框架等不同方面综合考虑来选择合适的统计模型[5]。建议如下:
1)不应基于异质性统计检验结果选择统计模型[5,14]。
2)一般情况下,基于以下原因,首选RE模型。一是,从模型假设来考虑,RE模型更符合实际,因其允许纳入meta分析的研究间效应量不同;而CE模型假定不同研究具有共同的效应量,实际上研究间干预效应完全相同是难以置信的[5,14],这也是CE模型最主要的局限[2],若假定研究具有不同的干预效应,但效应量是“固定的”,则可选用FE模型[5]。二是,从研究对象抽样来考虑,在系统评价或meta分析研究中纳入的研究人群一般不同来自同一个群体,从逻辑上讲,选择RE模型来拟合数据更合适。三是,从研究目的来考虑,如果研究者的意图仅仅是获得纳入meta分析研究干预效应的平均值,则选用FE模型;如果意图不仅仅是获得纳入meta分析研究干预效应的平均值,而是要了解推广应用到更为广泛的人群的效应,则可选用RE模型[5]。四是,从模型特性来考虑,CE模型没有考虑异质性;而FE模型和RE模型均考虑了异质性,当可以预料到一定程度的异质性,但合并研究的结果重要时,可以选择RE模型,对医师更好地解读研究结果很有帮助[22]。五是,从数学角度来考虑,CE和FE模型是RE模型的特例。
3)在使用RE模型不可能或不合理的情况下,可以考虑选择CE或FE模型。一是,纳入meta分析的研究数量少时,虽然RE模型通常情况下是合适的模型,但当研究数量非常少(k<5个)时,因难以准确估计研究间方差或异质性参数估计不可靠,宜选择FE模型[8,22];特别是,当研究数量k=1或k=2时,可以采用CE模型或FE模型,但更倾向于选择CE模型,除非有违背CE模型假设的强假设[2]。二是,针对同一研究问题,当一项研究样本量非常大且比其他的一个或多个小样本研究结果更可靠时,宜选择FE模型[22]。
总之,传统meta分析合并数据时,合理选择模型非常重要,若模型选择错误可影响到整合研究结果的准确性,会导致误导性的结果,因此,系统评价员和meta分析人员必须重视模型的合理选择和使用。附录A(实例辨析所用R软件实现的代码),附录B(思考题)请扫描本文开放科学(资源服务)标识码(OSID)。