程里礼,雷鹏,陶园,古辉云,张超,赵国忠
· 循证理论与实践 ·
基于统计学角度:解读固定效应模型和随机效应模型
程里礼1,2,雷鹏2,陶园3,古辉云3,张超4,赵国忠2
大多数的Meta分析都会用到固定效应模型和随机效应模型中的一种,固定效应模型假设所有的纳入研究拥有共同的真实效应量,而随机效应模型中的真实效应随纳入研究的不同而改变。运用的模型不同,所得到的合并后的效应量均数值也不相同,这不仅体现在效应量的均值上,更多的体现在每个纳入研究权重的分配上,本文主要目的是深度解剖两种模型以及两种模型的假设,区分其共同点和不同点,并通过两种模型计算每个研究所占的权重和合并后效应量的均数值,最后指出并比较其优缺点。
随机效应模型;固定效应模型;效应量;统计学
系统评价/Meta分析是针对某一具体临床问题,系统、全面地收集全世界所有已发表或未发表的临床研究,采用临床流行病学的原则和方法对研究进行严格的评价,筛选出符合纳入标准的研究,进行定性或定量合成,从而得出可靠的结论[1]。1976年,Glass首次提出Meta分析是采用统计学方法总结独立研究的结果。与单个研究的评价相比,Meta分析通过整合所有相关研究,可更精准的估计卫生保健的效果,并有利于探索各研究证据的一致性及研究间的差异性[2]。
目前,很多统计方法模型被用于Meta分析中,最常见的两种模型为固定效应模型(FEM)和随机效应模型(REM)。FEM假设所有的纳入研究拥有共同的真实效应量,而REM中的真实效应随研究的不同而改变。基于不同模型的运算,所得到的合并后的效应量均数值也不相同[3]。早在1976年,第一篇Meta分析就使用FEM进行了数据合并,基于其统计简洁性及异质性认知,致使FEM广泛使用,直到2006年仍然有四分之三的Meta分析的文章在使用[4]。然而,随着方法学不断更新及异质性理解,方法学家们对于证据合并内在结构理解与剖析,已开始逐渐对“理想”状态的FEM产生疑问。随后,REM逐渐被使用,并替代部分FEM,但至今对两种模型理解错误与使用不当的现象仍层出不穷,严重影响结果真实性与可靠性。
在很多系统评价/Meta分析中,FEM的假设是不合理的,当纳入一组研究进行Meta分析时,假设所有研究拥有足够多的共同点从而使得合并后的效应量均数有意义,然而就相同的真实效应量而言,并没有充分的理由假设所有研究是完全相同的[5]。有证据显示,由于系统评价/Meta分析制作者水平良莠不齐,致使当前已发表的系统评价/Meta分析文章并没有考虑到这方面[6]。为了进一步探讨两种模型间差别及正确使用,本研究基于三个方面来解读REM和FEM及如何正确择选两种模型。
1.1 FEM 假设所有纳入的研究拥有共同的真实效应量,或者除了随机误差外,所观察效应量均为真实效应量。如比较对糖尿病黄斑水肿(DME)的抗血管内皮生长因子(Anti-VEGF)药物中aflibercept与bevacizumab疗效,除了药物自身疗效外,其他患者背景、药物使用情况及测量结局的工具等均“一致”,每个研究的观察效应量差别仅仅是由于抽样误差引起[7],也就是说,每个研究的观察效应量就“等于”其真实效应量。Cochrane Handbook已明确指出,当异质性小于40%,建议采用FEM进行Meta合并,因此,FEM对各研究背景较为苛刻,仅适用于“理想化”研究背景。
1.2 REM 如上所诉,FEM中假设所有研究的真实效应量是相同的,但在大多数的系统评价和Meta分析中这是很难实现的[8]。因为研究的对象很难保存同质性,所以在REM中的真实效应量会随着不同的研究所改变,例如一个研究的效应量可能比拥有不同年龄、教育背景、健康程度等参与者的研究的效应量更高或更低,所以真实效应量的大小不仅取决于样本的抽样误差,还取决于参与者或研究对象以及进行的干预措施等,也可称其为异质性[2]。
2.1 FEM 假设纳入研究拥有共同的真实效应量,如图1中圆圈所示,各研究合并的真实效应量(θ)用倒三角表示。可以发现,对于FEM,所有研究真实效应量都是相同的。每个研究的样本量并非无限的,所以都会存在抽样误差(ε),从而导致了各研究的观察效应量(Y)不等于真实效应量(如图2中正方形所示),并且随着研究的不同而不同,可以用公式θn=Yn+εn表示。
图1 真实效应量相同的各研究之间比较注:倒三角表示合并后的真实效应量,圆圈代表单各研究的真实效应量
图2 各研究的抽样误差比较注:倒三角表示合并后的真实效应量,圆圈代表单各研究的真实效应量,正方形代表各研究的观察效应量
2.2 REM 在图3中,由于每个研究人群的背景、年龄、教育程度、地理环境的因素的不同,导致各个真实效应量也完全不同(成正态分布),同时也不同于合并的真实效应量(μ),把两者之间的差值叫做真实差值,并用ζ表示(如图4)。由于抽样误差的成在,相互之间的观察效应量或多或少于真实效应量,例如图4中的Study3,观察效应量小于真实效应量,而真实效应量又小于合并的真实效应量,所以在REM中,合并后的真实效应量由两种因素决定,即真实差值和抽样误差,可用公式θn=Yn+ζn+εn表示。
图3 各研究的真实差值比较注:倒三角表示合并后的真实效应量,圆圈代表单各研究的真实效应量
图4 各研究的真实差值与抽样误差的比较注:倒三角表示合并后的真实效应量,圆圈代表单各研究的真实效应量,正方形代表各研究的观察效应量
在Meta分析中,为了减少误差获得更加准确的结果,每种模型的计算各不相同,主要体现在各个研究权重值的分配上,这也是两种效应模型的根本的区别所在。
3.1 FEM 在这种模型中,权重的分配主要依赖其精确度,每个研究的权重等于方差的倒数(公式1),样本量越大,效应量的方差就越大,那么相应的权重分配就越多。因此大样本的研究对总合并后效应量的贡献值相对于小样本研究就更大,导致小样本研究更容易被忽略,分配的权重也就更少[10]。
观察效应量的不同仅仅是由于抽样误差引起的,所以其方差V=VY(VY指的是观察值方差,也可称为组内方差),每个研究的权重值为:
3.2 REM 与FEM不同,REM的总效应量是各个研究真实效应量的均数值,并非只注重大样本量的研究,而是为了平衡每个研究的效应量注重所有纳入的研究[2],如小样本研究也可以获得多的权重,因为除了抽样误差的存在,大部分研究还存在真实差值,即异质性,用τ2(也称组间方差)来表示,那么单个研究的方差为:每个研究所分配的权重为:
从式5看出,纳入研究的样本量虽然小,精确度不高,但如果其异质性小,τ2值接近于0,那么同样可以获得更多的权重。
Meta分析中,研究者对模型选择的不同会得出不同的结论,甚至得出相反的结论[9]。下面实例很好的解释了不同模型对每个研究分配的权重和最后结果的影响。
该部分引用郭健[10]的一项关于干细胞移植治疗肝硬化的Meta分析,在设定严格纳入和排除标准后,共纳入7篇随机对照实验用于临床评价,共617例患者,治疗措施为干细胞移植,评价标准为术后1、2、3个月肝硬化患者的丙氨酸氨基转移酶(ALT)、天门冬氨酸氨基转移酶(AST)、凝血酶原时间(PT)、血清白蛋白水平(ALB)以及总胆红素(TB)与术前的基线变化。本文只记录了术后1个月TB的变化值,所有数据运算及模型选择均在RevMan 5.3软件进行,图5与图6分别为REM与FEM结果森林图。
基于FEM与REM可见,采用不同的效应模型,每项研究分配的权重也各不相同,如研究a6样本量相对于其他研究为大样本,在FEM中分配的权重为41.3%,而在REM中则为19.6%。同时不同效应模型计算出的总效应量也有区别,REM的总效应量的置信区间比FEM更宽,值得注意的是,REM计算的合并效应量的置信区间穿过了无效线,导致结果无统计学意义(图5),相反,FEM合并效应量的置信区间则没有与无效线相交,使得结果更趋向于治疗组。
图5 术后1个月TB水平与术前比较(REM)
图6 术后1个月TB水平与术前比较(FEM)
5.1 异质性检验 进行一次Meta分析,在合并数据之前,要能够正确、有效的发现异质性,即行异质性检验。以前用χ2检验作为异质性检验的工具,现已发现小样本研究的χ2检验缺乏检验效能[7],并且对异质性的存在没有统计学意义。目前最常用的异质性检验方法分为统计量法和图示法两种。统计量法包括Q检验、I2检验和H检验,图示法是通过视觉观察对异质性进行判断,有森林图、星状图、拉贝图、加尔布雷斯图等[2]。这里由于篇幅有限只对I2检验进行介绍,I2检验是Higgins等[11]在2003年提出新的异质性评价指标,I2统计量指的是异质性部分在效应量总的变异中所占的比重。
总的变异Q的计算公式:
n是纳入研究的例数,W为每个研究所占的权重,Y为各个研究的观察效应量,M为所有效应量合并后的加权均数,也可以将Q称为均数差的加权平方和(WSS)。
假设纳入研究拥有共同的效应量,算出的WSS为df,也就是纳入研究的自由度,那么反映异质性部分I2计算公式如下:
I2的取值范围为0~100%,当I2=0(如果I2为负值仍设为0)时,表明没有观察到异质,I2值越大则异质性越大。在Cochrane手册中依照I2值将异质性分为4个程度[9]:0~40%、40%~60%、50%~90%、75%~100%依次为轻度、中度、较大和很大异质性。I2作为一个率,用于描述各个研究所致的变异占总变异的百分比,克服了Q统计量对纳入研究个数的依赖,可以更好地衡量多个研究结果间异质性程度大小[1]。
5.2 异质性处理 Meta分析的所有纳入研究都存在异质性,可以分为临床异质性、方法学异质性和统计学异质性。对于不同的异质性类型,运用的处理方法各不相同,详见图7。
本研究重点仅在于对统计学异质性进行处理说明,当异质性来源不能用临床和方法学异质性来解释时,通常可认为该部分异质性来源于统计学异质性,采用处理方法是使用REM进行效应量合并[2],为了使异质性在统计学层面上进行实质性隔离。在异质性不明显的情况下,REM与FEM计算结果相似,若异质性非常明显,则可提高估算的可信区间的精度,并同时增大检验效能[12]。
图7 异质性的处理方法
5.3 注意事项 根据研究关注同一效应量的理解,如用同一方法或标准对同一药物的多项研究、同一人群同一药物的不同部位的研究以及同一人群同一药物不同阶段的研究等,这些都可以采用FEM,多数情况下无法判断多个研究是不是完全关注同一效应,则使用REM比较稳妥。最后应当避免先选FEM后再根据异质性检验结果改为REM,大多数效应模型应用REM更合理,如果研究之间不存在异质性时,随机和固定效应模型得出的结果一致。
如今,系统评价与Meta分析越来越备受关注,特别Meta分析,其潜在优势更加显著,包括增加检验效能、提高准确性、回答单个研究无法回答的问题和解决相互矛盾的观点引发的争论。运用的统计学模型也越来越多,除了上文讲述的两种模型外,Doi等提出一种新的加权模型,QE模型,这种模型的提出基于固定和REM的诸多缺陷,如:REM并未将偏倚对每项研究结果的影响进行考虑,且存在低估标准误的风险,导致合并结果同样存在偏倚,刚好QE模型能够很好的解决上述问题[13],当然QE模型也存在一些缺陷。由于笔者知识有限,此文尚未将FEM和REM以及其他更好的模型讲述透彻,有待进一步学习提高。
[1] 罗杰,冷卫东. 系统评价/Meta分析理论与实践[M]. 北京:军事医学科学出版社,2013.
[2] Higgins JPT,Green S. Cochrane Handbook for Systematic Reviews of Interventions Version 5.1. 0 [Updated March 2011]. The Cochrane Collaboration,2011,Available at:www.cochrane-handbook.org.
[3] Brockwell SE,Gordon IR. A comparison of statistical methods for meta-analysis[J]. Stat Med,2001,20(6):825-40.
[4] Schmidt FL,Oh IS,Hayes TL. Fixed versus random-effects models in meta-analysis: model properties and an empirical comparison of differences in results[J]. Br J Math Stat Psychol,2009,62 (Pt 1):97-128.
[5] Borenstein M,Hedges LV,Higgins JP,et al. A basic introduction to fixed-effect and random-effects models for meta-analysis[J]. Res Synth Methods,2010,1(2):97-111.
[6] Riley RD,Gates S,Neilson J,et al. Statistical methods can be improved within Cochrane pregnancy and childbirth reviews[J]. J Clin Epidemiol, 2011,64(4):608-18.
[7] Doi SA,Barendregt JJ,Khan S,et al. Advances in the meta-analysis of heterogeneous clinical trials I: The inverse variance heterogeneity model[J]. Contemp Clin Trials,2015,45(Pt A):130-8.
[8] Borenstein M,Hedges LV,Higgins JPT,et al. Introduction to Meta-Analysis[M]. John Wiley and Sons Ltd,2009.
[9] Nikolakopoulou A,Mavridis D,Salanti G. Demystifying fixed and random effects meta-analysis[J]. Evid Based Ment Health,2014,17(2): 53-7.
[10] 郭健,陈洪,王智. 干细胞移植治疗肝硬化Meta分析[J]. 东南大学学报:医学版,2013,32(4):429-36.
[11] HigginsJP,ThompsonSG,Decks JJ,et al. Measuring inconsistency in meta Aanlysis[J]. BMJ,2003,327(7414):557-60.
[12] 魏丽娟,董慧娟. Meta分析中异质性的识别和处理[J]. 第二军医大学学报,2006,27(4):449-50.
[13] 徐畅,Doi Suhail,张超,等. QE或者RE模型?一种带偏倚校正功能的加权方式在Meta分析中的应用[J]. 中国循证医学杂志,2016,16(5):612-6.
本文编辑:翁鸿,姚雪莉
欢迎投稿,欢迎订阅!
中国科技核心期刊,科技论文统计源期刊E-mail:ebcvm_cj@126.com;
网址:www.ebcvm.com/www.ebcvm.org
Based on statistics: interpret fixed effect model and random effect model
CHENG Li-li*, LEI Peng, TAOYuan, GU Hui-yun, ZHANG Chao, ZHAO Guo-zhong.*Ningxia Medical University, Yinchuan 750000, China.
ZHAO Guo-zhong, E-mail: Zhaogzh1220@163.com
Most of Meta-analysis will use fixed effect model (FEM) or random effect model (REM), and FEM assumes that there is common true effect size in all included studies, while true effect size in REM will change according to different included studies. The mean of pooled effect size will be different as different models are used, which is not only reflected on the average, but also much on the weight distribution of each included study. Main purpose of this article is to deeply analyze these two models and their assumptions, distinguish their similarities and difference, calculate each study’s weight and pooled effect size by these two models, and finally point out and compare their advantages and disadvantages.
Random effect model; Fixed effect model; Effect size; Statistics
R4
A
1674-4055(2017)03-0261-04
2014年度宁夏自然科学基金(NZ14122)
1750000 银川,宁夏医科大学;2750000 银川,宁夏医科大学总医院肝胆外科;3442000 十堰,湖北医药学院;4442000 十堰,湖北省十堰市太和医院循证医学与临床研究中心
赵国忠,E-mail:Zhaogzh1220@163.com
10.3969/j.issn.1674-4055.2017.03.02