西安交通大学医学部公共卫生学院流行病与卫生统计学系(710061)吴立晨 闫淼佳 赵 芃 徐 坤 陈方尧 曾令霞 颜 虹 党少农 米白冰
【提 要】 目的 应用SAS CAUSALMED过程步进行反事实因果分析,为探讨考虑混杂因素及交互作用下的中介作用及因果关系提供依据。方法 以“父母鼓励是否影响儿童认知发展,父母鼓励的效果是否受儿童学习动机的调节”为例,详细介绍了使用SAS CAUSALMED过程步进行中介分析的步骤和结果的解释。结果 通过实例,SAS CAUSALMED过程步可以便捷地对中介作用及其大小进行估计,包括对混杂因素的控制。结论 SAS CAUSALMED过程步可实现各类变量下的中介分析,特别是考虑混杂因素及交互作用下的中介分析。
医学研究的最终目的之一是探讨疾病与暴露之间的因果关系[1]。近年来,在流行病学和统计学领域中,因果推断越来越受到重视。目前公认的估计因果效应的金标准是随机对照试验,但其实施难度大,成本高,并且只能提供因果关系的“黑箱图”,不能解释具体的因果通路。中介分析方法通过确定因果通路上的中间变量,探索产生因果关系的内部作用机制,为探索疾病与暴露因素之间的因果关系提供证据,在因果推断中发挥重要作用[2-4]。
针对医学领域中介分析的迫切需要,已有研究者开发了经典的中介分析方法[5]。经典回归方法易于理解、使用广泛,但是缺乏对因果中介效应和其他效应明确定义的一般框架[6],因此,经典的方法不能有效地处理交互作用,不能在统一的框架内处理多种变量类型,实际使用范围受限。另一方面,随着统计分析理论和分析方法的完善,因果解释中如何有效控制混杂因素,以及如何在非线性和交互作用存在的情况下进行直接和间接效应的计算日益受到重视,成为当前研究的热点和难点[4]。针对上述需求,有研究者提出了基于反事实框架理论的中介分析方法且应用于因果推断,其价值日益受到人们的重视[6-9]。
SAS从9.4M5版本开始提供基于反事实框架理论直接进行中介效应分析的过程步(PROC CAUSALMED)。该过程步具有操作简单、计算快捷、结果清晰、解释有力的特点,同时它可以处理混杂因素,在线性和交互作用存在的情况下进行因果效应的计算。本文通过实例,介绍应用SAS CAUSALMED过程步进行中介效应分析的过程及其结果的解释,展示其应用特点和价值。
1.反事实框架理论
反事实框架理论是通过设定与事实相反的条件,以确定变量之间的因果关系,使个体将事件真实现存状态与假设的、希望的理想状态进行比较的过程[10]。反事实框架提供直接效应和间接效应的明确定义,适用于有或无交互效应的线性和非线性模型。该框架还提供了形式化的标准,判断何时可以从数据中得出因果关系的结论,也就是说需要作出足够的假设,才能从结论中获得真正的因果关系[11]。利用反事实框架,Vander Weele和Vansteelandt[12]建立了在各种处理变量和结果变量的参数模型下计算因果中介效应的分析方法。SAS中根据上述理论有CAUSALMED过程步来进行相关的中介效应分析。
2.因果效应的定义
中介分析的因果推理框架将中介效应定义为平均反事实结果的对比。Yxm表示暴露X等于x,中介M等于m时观察到的反事实结果。YxMx*表示暴露X等于x,中介M等于暴露X为x*值时观察到的反事实结果。需要注意的是,我们永远无法观察到反事实结果YxMx*和Yx*Mx。表1提供了因果中介效应的反事实定义。我们使用(x,x*)定义因果中介效应为任何两个暴露水平。当X是二分类变量时,x取值为0或1。
表1 因果中介效应的反事实定义
3.因果效应的识别
为了使得因果解释更有意义,可以进一步对混杂变量进行控制。SAS CAUSALMED采用VanderWeele[3]的回归方法,对单个处理变量、中介变量、结果变量和多个混杂因素进行因果中介分析。现有以下四个假设:
(1)处理-结果之间没有未测量的混杂;
(2)中介-结果关系没有未测量的混杂;
(3)处理-中介之间没有未测量的混杂;
(4)没有受处理影响的中介-结果混杂。
控制混杂因素后,为了识别控制直接效应,需要满足前两个假设;自然直接效应和间接效应的识别则需要满足以上四个假设。在SAS CAUSALMED过程步中,(1),(2)组混杂将包含在协变量的整体集合C中。应注意的是,假设(1),(2)和(3)也需要时间顺序的假设。故进行中介分析时,研究者应更仔细地考虑和收集关于混杂变量的数据并进行控制。
4.SAS CAUSALMED过程步计算原理
假设满足上面的识别条件,SAS CAUSALMED过程步使用回归的方法实现了因果中介效应的估计。SAS CAUSALMED 过程步基于两个模型:给定T、M和C的Y的结果模型,给定T和C的M的中介模型。
应用广义线性模型,VanderWeele和Vansteelandt[13-15]推导出了计算不同变量类型的各种因果中介效应的分析公式。PROC CAUSALMED实现了这些分析公式。以θ表示结果模型和中介模型中所有参数的向量。中介分析中的因果效应是在特定协变量值条件下关于θ的函数。也就是说,由ef表示的因果效应可以表示为给定C=c的关于θ的函数,即
gef(θ|C=c)
其中c代表协变量C的一些固定值。对于连续的结果,中介效应gef(θ|C=c)是按原始尺度定义的。对于结果变量为二分类变量时,中介效应gef(θ|C=c)是在优势比或超额相对风险尺度上定义的[13-15]。由于模型中可能包含非线性和交互作用项,一般来说,对于不同的协变量集,因果效应gef(θ|C=c)是不同的。默认情况下,PROC CAUSALMED计算gef(θ|C=c)所用的协变量是C的样本平均值。对于分类协变量,这种默认计算仍然适用。分类协变量的平均值是根据分类水平的虚拟编码0-1值计算的。然后,这些平均值被放入计算整体因果中介效应的公式中(虚拟编码和计算平均值过程在程序内部完成)
1.研究问题
为介绍CAUSALMED过程步的应用,本研究用一个测试数据展示中介分析的具体过程,该数据集基于教育模式研究[16],主要包括CogPerform(孩子在认知测试中的得分)、Encourage(问卷中父母鼓励行为三项评分之和)、Motivation(由孩子、老师和主要看护人评估的孩子的动机水平的总分)、FamSize(孩子的家庭规模)、SocStatus(孩子的社会地位,是衡量家庭收入、父母职业和父母教育水平的综合指标)、SubjectID(孩子的编号)六个变量,旨在了解父母提供的鼓励环境是否会影响儿童的认知发展。此测试数据集(名称为“Cognitive”)含300个观察值,每个观测值有以上六个变量值,表2展现了该数据集的前10个观测值。
表2 输入数据集(Cognitive)的前10个观察值
我们想要探究,父母的鼓励对儿童认知发展的影响是否是由它在一定程度上增强了孩子的学习动机而实现。其中,在中介分析的术语中,鼓励是处理,动机是中介,认知表现是结果。需要注意的是,家庭规模和社会地位可能是混杂因素,我们希望在观察各种因果效应时加以控制。
2.SAS分析实现
首先,从简化分析难度上考虑,不控制混杂因素,仅探索处理变量、结果变量和中介变量之间的关系,调用PROC CAUSALMED来估计各种效应,分析代码如下:
proc causalmed data=Cognitive all;
model CogPerform=Encourage Motivation;
mediator Motivation=Encourage;
run;
PROC CAUSALMED语句中的ALL选项显示所有可用输出。MODEL语句指定认知的结果模型,它受鼓励和动机的影响。MEDIATOR语句指定了动机的中介模型,它只受鼓励的影响。PROC CAUSALMED产生的输出如表3至表5所示。
表3显示了各种效应的估计及其百分比。可以看到,认知受鼓励影响的总效应估计为8.04,分解为自然直接效应(NDE=4.28)和自然间接效应(NIE=3.76)。默认情况下以中介变量动机取平均值时,估计的控制直接效应(CDE)为4.28。在当前模型中,因为不考虑协变量和混杂变量的影响,CDE与NDE相同。动机的中介效应百分比(PM)为46.74%。这意味着在父母的鼓励对儿童认知发展的影响中,只有不到一半可以归因于儿童学习动机的增强。
表3 总效应、直接效应、间接效应估计
表4和表5中的结果有助于确定效应的方向。表4显示了认知结果模型的估计值。表5显示了动机中介模型的估计值。可以看到Encourage和Motivation参数的估计值均大于0且对应的P值小于0.001,说明对鼓励和动机的直接效应的估计是积极且显著的,从而证实了父母的鼓励对儿童学习动机的积极影响。
表4 结果模型的估计
表5 中介模型的估计
3.考虑混杂因素
尽管前面的分析可以解释中介效应,但它并没有充分利用SAS CAUSALMED过程步中可用的因果分析技术。为了从观测数据中得出有效的因果解释,必须对所有重要的混杂因素和协变量进行控制,而CAUSALMED过程提供了相应的功能。假设“家庭规模””和“社会地位”是需要控制的协变量。在COVAR语句中将这两个变量指定为协变量,并使用PROC CAUSALMED步,如下所示来拟合相应的因果中介模型:
proc causalmed data=Cognitive;
model CogPerform=Encourage Motivation;
mediator Motivation=Encourage;
covar FamSize SocStatus;
run;
表6展示了包含协变量家庭规模和社会地位时,因果效应估计的结果。鼓励对认知功能的TE现在变为6.84,比不包含混杂协变量的TE低了1.2(见表3)。这种差异表明,在鼓励和认知功能之间观察到的部分关联确实受到协变量的影响。前面的分析中因未能对协变量进行调整,导致对表3中总效应值估计过高。本次分析的NDE为4.30,与前一次分析相差不大。然而,NIE为2.55,比表3中的NIE低1.21。最后,PM只有37.22%,比表3所示的PM(46.74%)低9.52%。
表6 因果效应估计
这些结果表明,在进行因果中介分析时,必须仔细考虑混杂因素和协变量的影响。为了能够对效应估计进行因果解释,进行调整的基线协变量必须足以控制处理-结果、中介-结果和处理-中介之间的效应修饰。
4.考虑交互作用
以下语句通过在结果模型中包含鼓励和动机之间的交互项来拓展中介分析:
proc causalmed data=Cognitive decomp;
model CogPerform=Encourage | Motivation;
mediator Motivation=Encourage;
covar FamSize SocStatus;
run;
结果见表7,当包含交互作用项时,PM略有变化,从37.22%(未考虑交互作用)增加至38.91%。虽然表7中显示的交互作用百分比是显著的,但它仅为0.42%。因此,对结果的解释与没有交互作用的分析结果没有太大的不同。
表7 存在交互作用时因果效应的估计
中介作用通过确定因果通路上的中间变量,为探索疾病与暴露因素之间的因果关系提供证据,在因果推断中发挥重要作用。但是在许多研究中,假设处理和中介对结果的影响无交互作用及无混杂因素是不现实的,若此时错误地进行中介分析可能导致无效的推断[13]。因此,亟需适应范围广、分析功能完善的中介分析程序。
本文所介绍的PROC CAUSALMED过程步,具有操作简单、计算快捷、结果清晰、解释有力等特点。第一,它通过使用反事实的方法来定义因果效应及其可识别条件,从而在中介分析中进行因果解释;第二,在暴露-中介交互作用存在的情况下也可以进行中介分析;第三,可以调整混杂因素和协变量的影响,控制处理-结果、中介-结果和结果-中介的混杂,从而使得因果解释更加准确;第四,变量类型不仅限于连续性变量,还可对多种变量类型进行分析和建模。
总体来看,SAS CAUSALMED过程步可以用来了解病因,提供基于观察性研究的证据以证实和驳斥某些理论假设,可以在无法改变暴露的情况下评估干预对中介的影响,也可以回顾性地了解某些干预研究中干预措施成功或失败的原因,在医学研究(特别是流行病学研究)中发挥重要作用[13]。但我们也要警惕对该方法的滥用。该过程步的作用是在满足所有相关假设的情况下估计因果中介效应,因此研究者在进行中介分析时,需要特别注意控制混杂因素和待研究变量间的时序关系[17]。为解决这一问题,有研究者使用纵向研究或分阶段收集数据的方法,来确保时序关系正确[13]。此外,使用该过程步时,也需要证明混杂因素和协变量在处理变量、中介变量和结果变量之前存在稳定的关联,这需要有实质性的已有研究来提供支持纳入这些因素的证据[6]。最后,如果研究者认为可能存在未测量的混杂,则应考虑使用敏感性分析[18]。综上所述,SAS CAUSALMED过程步可以作为一个有力的定量工具来分析疾病/健康状态与暴露因素间因果效应的存在。