朱 玉梅 杨李 杰陈佰锋姚应水△
Cox比例风险Frailty模型简介与软件实现*
朱 玉1梅 杨2李 杰1陈佰锋1姚应水1△
目的介绍Cox比例风险Frailty模型的原理及其在SAS 9.3软件中的实现过程。方法利用具体数据的分析过程介绍Cox比例风险Frailty模型在SAS 9.3软件中的实现,并比较Cox比例风险模型与Cox比例风险Frailty模型的分析效果。结果Frailty项对数变换后的方差估计值为0.831,与0比较差异有统计学意义,有必要在Cox比例风险模型中加入Frailty项。结论Cox比例风险Frailty模型能够揭示资料的异质性,准确地分析因素对结局变量的影响,获得更为客观的分析结论。
Frailty模型 Cox比例风险模型 Cox比例风险Frailty模型
以时间到事件(Time-To-Event)为结局变量的生存分析方法众多,其中经典的分析方法是Cox比例风险模型。它的理论假设之一是研究对象间相互独立,即研究对象间具有同质性,这暗示每个研究对象有相同的基线风险。在实际研究中,这种假设不易达到,由于未知因素或设计等原因,导致研究对象个体间或组别间存在异质性,研究对象表现出组内相关的特性,经典的生存分析不再适合分析这类型的数据。这时,需要对经典的生存分析的方法进行改进,引入Frailty项(异质性变量),发展为Frailty模型(异质性模型)。本文介绍加入Frailty项的Cox比例风险模型——Cox比例风险Frailty模型和软件实现。
以多中心临床随机化对照试验为例,介绍Cox比例风险Frailty模型。中心i(i=1,2,…,k),每个中心的研究对象j(j=1,2,…,ni)。在介绍Cox比例风险Frailty模型之前,先回顾下Cox比例风险模型。
1.Cox比例风险模型
Cox提出比例风险模型[1]如下:
其中h0(t|X)称为基线风险函数,h(t|X)表示在协变量为X条件下的风险函数,exp(β)为风险比(hazard ratio,HR)。Cox比例风险模型最突出的优点在于,对参数β的估计并不依赖于基线风险函数的取值。但是,它要求研究对象相互独立,即研究对象具有同质性。
2.Cox比例风险Frailty模型
当分析多中心临床随机化对照试验的数据时,每个中心的基线风险可能不一致,需要对Cox比例风险模型进行如下改进,发展为Cox比例风险Frailty模型[2-7],如下:
其中γi为中心i(i=1,2,…,k)的随机效应,其它同Cox比例风险模型。常对γi做如下假设:
上式改写为下式:
其中μi被称为Frailty项(异质性变量),μi是相互独立同分布的,其期望是1,方差为未知参数θ2,通常还假设其与X相互独立,当μi=1时Cox比例风险Frailty模型蜕变为Cox比例风险模型。此外,Elbers和Ridder[8]证明了在Frailty项的期望为1的条件下,模型是可估的。
当μi>1时说明中心i内的研究对象倾向于加速失效(事件发生);当μi<1时说明中心i内的研究对象倾向于减速失效(事件发生);当μi=1时说明中心i内的研究对象的失效风险(事件发生)是正常风险。
为了估计未知参数,需要对Frailty项的分布做出假设。原则上期望为1和具有有限方差的任一正连续分布都可以作为Frailty项的分布。在应用中常采用的分布有伽马分布、逆高斯分布和对数正态分布等。方差θ2的估计方法有限制性最大似然估计(residual maximum likelihood,REML)和最大似然估计(maximum likelihood,ML)。
下面结合SASPROC PHREG过程和SAS help中提供的数据介绍Cox比例风险Frailty模型的应用和软件实现[7]。
1.数据简介
该数据来源于一项关于糖尿病患者眼睛失明的研究,共包含197例糖尿病患者,他们的眼睛有很高的失明风险,每个研究对象的两只眼睛中随机选择一只眼睛接受激光光凝治疗,研究的目的主要是探索激光光凝治疗有没有延缓眼睛失明的进程。因为青少年和成年糖尿病有不同的发展过程,所以同时检查发病年龄和眼睛失明时间有无关联。每个患者是一个“群(clusters)”,类似于上文提到的“中心”,因为左右眼睛没有生物学差异,我们假设它们有相同的基线风险。变量(id)表示患者编号,变量(time)是患者眼睛失明时间,变量(status)表示眼睛失明状况(是二分类变量,“0”代表没有失明,“1”代表失明),变量(age)表示患者的发病年龄(是二分类变量,“0”代表发病年龄≤20,“1”代表发病年龄>20),变量(treatment)表示眼睛接受治疗的方法(是二分类变量,“0”代表其他治疗,“1”代表激光光凝治疗)。用数据步建立数据集blind,见表1。
表1 建立数据集和数据分析的程序
2.语句介绍
在SAS 9.3版本的PROC PHREG过程中加入了分析Frailty模型的语句——Random语句。Random语句规定Frailty项服从对数正态分布,即γi~N(0,σ2),其中σ为未知参数,需要估计。Random语句的结构和功能如下:
Vaiable是用来指定“群”,它必须是分类变量,即是class语句中的变量。options有如下:
Abspconv=r,是规定Frailty项对数变换后方差估计时迭代的收敛准则,如果迭代收敛。
Alpha=value,是规定随机效应的(1-α)可信区间,默认值是0.05。
Method=reml|ml,是规定方差参数估计的方法,默认方法是rem l。
Noclprint,控制在输出时不打印随机效应的分类信息表。
Pconv=r,是规定Frailty项对数变换后方差估计时迭代的收敛准则,如果迭代收敛。
Solution,规定显示正态分布的随机效应估计值,同时也显示对数正态分布的估计值,即Frailty的估计值。
Initialvariance|initial=value,规定Frailty项对数变换后方差估计的初始值,默认为1。
3.分析与结果
首先不考虑Frailty项,建立含有变量treatment、age的主效应和交互效应的Cox比例风险模型,然后模型再加入Frailty项,分析程序见表1。为了方便对比,把主要结果列于表2、3。
表2 Cox比例风险模型与Frailty模型的参数估计
表3 两个模型的激光光凝治疗相对于其他治疗的条件风险比估计
从表2可见,Frailty项对数变换后的方差估计值为0.831,与0的差异有统计学意义,提示分析时需要考虑个体间的异质性,有必要在Cox比例风险模型中加入Frailty项。两个模型的参数估计值相近,Cox比例风险模型比Cox比例风险Frailty模型要保守,在检验水准为0.05的情况下,都提示治疗方法与发病年龄间存在交互作用。表3给出了不同发病年龄下激光光凝治疗相对于其他治疗的风险比,从中可看出激光光凝治疗方法可延缓眼睛失明进程,并且成年组延缓眼睛失明进程的效果要好于青少年组。
本质上,Frailty模型是在经典的生存分析的基础上加入了一个随机效应,以控制研究对象个体间或组别间存在的异质性。虽然产生异质性的变量也可以通过设置哑变量或用固定效应分析,但固定效应分析方法不是最优的分析方法。按照异质性产生的单位不同,把Frailty模型分为个体Frailty模型、共享Frailty模型两种。个体Frailty模型假设研究对象个体之间具有异质性,基线风险随着个体而改变;共享Frailty模型假设组别间具有异质性,基线风险随着组别而改变,同一组别内的个体享有相同的基线风险。研究对象个体间或组别间存在的异质性是不能忽略,有文章也指出[9-10]:如果有异质性存在,而没有考虑,会导致效应低估,这点在本文中也有体现——Cox比例风险模型比Cox比例风险Frailty模型要保守,但是两者的意义是不同的,考虑异质性时效应是条件的效应,不考虑异质性时,效应是边际效应,在预测时需要注意这点。
与在Cox比例风险模型中引入Frailty项类似,也可以在其它生存分析方法——Weibull回归模型、加速失效模型中引入Frailty项,扩展生存分析的分析方法。
关于“Frailty模型”的翻译,有学者译为“脆弱模型”,但笔者认为有不妥之处。虽然“Frailty”有“脆弱、虚弱等”之意,但是“脆弱模型”所表达出来的意思不能反映“Frailty模型”的本质。结合“Frailty模型”的产生原因与形成思想,笔者反复斟酌,认为译为“异质性模型”更合适。在没有规范的译名情况下,使用“Frailty模型”是最恰当的。
1.Cox DR.Regression models and life tables.JR Stat Soc Series B Stat Methodol,1972,34(2):187-220.
2.M cGilchrist CA,Aisbett CW.Regression with frailty in survival analysis.Biometrics,1991,47:461-466.
3.Therneau TM,Grambsch PM.Modelling survival data:extending the cox model.Springer:New York,2000.
4.Ha ID,Lee Y,MacKenzie G.Model selection for multi-component frailty models.Stat Med.2007,26(26):4790-807.
5.Andersen PK,Klein JP,Knudsen KM,et al.Estimation of variance in Cox′s regressionmodel with shared gamma frailties.Biometrics,1997,53(4):1475-84.
6.Elbers C,Ridder G.True and spurious duration dependence:the identifiability of the proportional hazard model.Review of Econom ic Studies,1982,49(3):403-40.
7.SAS Institute Inc.SAS/STAT®9.3 User′s Guide.Cary,NC:SAS Institute Inc,2011.
8.Elbers C,Ridder G.True and spurious duration dependence:the identifiability of the proportional hazard model.Review of Economic Studies,1982,49(3):403-9.
9.Gail MH,W ieand S,Piantadosi S.Biased estimates of treatment effect in random ized experimentsw ith nonlinear regressions and om itted covariates.Biometrika,1984,71(3):431-44.
10.Yashin AI,Iachine IA,Begun AZ,etal.Hidden frailty:myths and reality.Research report,2001,34,48 pages.
(责任编辑:郭海强)
安徽省自然科学基金(090413126)
1.皖南医学院预防医学系(241002)
2.南通出入境检验检疫局
△通信作者:姚应水,E-mail:yingshuiyao@163.com