基于不同变量分层的因果中介效应分析

2022-11-22 10:58胡纯严胡良平
四川精神卫生 2022年5期
关键词:标准差语句研究者

胡纯严 ,胡良平 ,2*

(1.军事科学院研究生院,北京 100850;2.世界中医药学会联合会临床科研统计学专业委员会,北京 100029*通信作者:胡良平,E-mail:lphu927@163.com)

通常,研究者是将一个数据集视为一个整体来进行分析。然而,研究者可能希望在某个或某些特定的群体中实施因果中介效应分析,以便获得更精细的分析结果。这种思想和做法在统计学上称为分层分析。事实上,分层分析通常包含以下两种做法。第一种做法是将整个数据集划分成若干个互不相交的子数据集,然后,在每个子数据集中实施各种统计分析;第二种做法是将各层之间的差异(被称为随机效应)呈现出来,但仍以整体形式输出计算结果。本文将介绍如何对不同变量进行分层以及基于前述提及的第一种做法采用SAS实现分层计算的方法。

1 因果中介效应分析中变量水平的设置

1.1 定义变量水平的作用

一般来说,proc causalmed过程计算因果中介效应和分解,这些效应和分解取决于特定水平的协变量。此外,一些因果中介效应是在处理、控制和中介变量的特定水平上定义的。因此,应了解如何设置这些变量水平,以评估因果中介效应。

设T代表对结果变量Y有因果效应的处理变量;设M代表受T影响并对Y有因果效应的中介变量;设C代表在处理变量与中介变量之间起混淆作用的一般协变量。各变量的水平在定义因果中介效应中的作用如下[1]。①处理变量T的水平t1是研究者指定为所有计算的效应和分解的处理条件的水平,t0是研究者指定为计算的所有效应和分解的参考或控制条件的水平,对于二值处理变量,通常将t1定义为1,表示存在处理。例如,如果T代表药物的剂量水平,则t1=10 mg是定义处理条件的剂量水平;通常将t0定义为0,以表示没有给予处理;例如,如果T代表药物的剂量水平,则t0=5 mg是定义对照条件的剂量水平。②中介变量M的水平m*是研究者指定用于计算受控直接效应(controlled direct effect,CDE)的水平。对于二值中介变量,通常将m*定义为0,将中介变量的值保持在“缺席”水平以评估CDE。③协变量C的水平c是计算因果中介效应公式中的条件协变量的值。

通常情况下,指定协变量水平c、处理水平t1(处理变量)或控制水平t0(处理变量)会改变所有中介效应和分解的估计。指定中介变量的受控水平m*不会改变对总效应(total effect,TE)、自然直接效应(natural direct effect,NDE)或自然间接效应(natural indirect effect,NIE)的估计,但确实改变了对受控直接效应(controlled direct effect,CDE)和参考交互作用(reference interaction,IRF)的估计。

1.2 处理变量的处理和控制水平的默认设置

对于二值处理变量,proc causalmed过程使用变量的第一水平作为默认处理水平,使用变量的第二水平(最后一个水平)作为默认控制水平。换言之,二值处理变量的第一水平扮演t1的角色,第二水平扮演t0的角色。

对于连续或有序处理变量,研究者往往设置t1和t0水平使其差值为1。这种设置适用于线性模型,包括线性回归分析和线性结构方程建模[2-4]。相关回归系数(或效应)定义为处理变量T的单位变化对结果变量Y的效应。在线性模型中,处理变量T对Y的效应仅取决于t1和t0之间的差异,而不取决于t1和t0的数值。然而,对于非线性模型、二值响应和交互效应,因果中介效应和分解的计算通常取决于t1和t0本身的水平。使用不同的t1和t0集(即使它们的差异保持不变)会导致对因果中介效应的不同估计。在默认情况下,proc causalmed过程围绕处理变量的分布中心设置处理和控制水平,见式(1)、式(2)。

研究者可以定义自己的处理和控制水平,以评估因果中介效应和分解。例如,研究者可以使用一个标准差作为变化量,见式(3)、式(4)。

在式(3)和式(4)中,st是处理变量的样本标准差。在计算标准误差时,该样本标准差被视为固定值。

1.3 中介变量水平的默认设置

对于二值中介变量,proc causalmed过程使用变量的第二水平作为中介变量的默认受控(基线)水平m*。这与在mediator语句中指定mediator模型的方式一致。也就是说,在默认情况下,该过程对中介变量第一水平指示的事件的概率进行建模。

对于连续或有序中介变量,proc causalmed过程在评估因果中介效应时使用中介变量M的样本均值作为默认受控中介水平m*。

1.4 协变量水平和它们的默认设置

当研究者在cover语句中指定了混淆协变量的效应时,proc causalmed过程会有条件地在协变量的特定水平上计算中介效应。研究者可以使用一个或多个evaluate语句,要求系统在特定设置下计算指定的效应。

默认水平不是研究者可以考虑的唯一设置。研究者可以在调用proc causalmed过程步中通过指定以下evaluate语句来要求系统进行相应的分析,每个evaluate语句生成一组中介效应分析结果。

evaluate'Conditional on Level 1 of C2'C1=mean C2='1';

evaluate'Conditional on Level 2 of C2'C1=mean C2='2';

evaluate'Conditional on Level 3 of C2'C1=mean C2='3';

总之,研究者可以使用evaluate语句来检查因果中介效应,这些效应取决于研究者指定的协变量水平。proc causalmed过程在输出结果中显示这些效应以及以默认设置为条件的整体效应。

2 因果中介效应分析的实例与SAS实现

2.1 实例与数据结构

2.1.1 资料来源与背景信息

【例1】文献[1]中的例子:仿照Marjoribanks讨论的理论教育模式[5],模拟了一组包含6个变量、300个观测的数据集,旨在了解父母提供的鼓励性环境(Encourage)是否会影响儿童的认知发展(Cog-Perform)。为节省篇幅,有关数据集中6个变量及其含义参见文献[1]。试基于数据集中的数据,评估受控直接效应和条件中介效应。

2.1.2 创建用于因果中介效应分析的数据集

因篇幅所限,创建数据集Cognitive的SAS程序见文献[1]。下面直接调用已创建的SAS数据集Cognitive。

2.2 用SAS实现因果中介效应分析

2.2.1 用evaluate语句计算受控直接效应

以下SAS程序中的三个evaluate语句为中介变量(Motivation)指定了不同的值。设所需要的SAS程序如下:

【SAS程序说明】在evaluate语句中,引号中的内容用于区分不同的evaluate语句及其所产生的输出。第一个evaluate语句指定中介变量(Motivation)水平的平均值,这恰好是默认水平;第二个evaluate语句指定中介变量(Motivation)水平的上限值,即把中介水平设置为高于平均值的一个标准差;第三个evaluate语句指定中介变量(Motivation)水平的下限值,即把中介水平设置为低于平均值的一个标准差。

【SAS输出结果及解释】三个evaluate语句产生的输出结果分别见表1、表2、表3。由每个表的最后一列可知,总效应和各成分效应均有统计学意义。由表2和表3可知,两次评估的总体效应保持不变。因为受控直接效应是在中介水平(m*)的特定水平上定义的,所以这两个评估导致对CDE的不同估计也就不足为奇了。在高于中介变量(Motivation)平均值一个标准差时,CDE为4.340;在低于中介变量(Motivation)平均值一个标准差时,CDE为4.019。由于交互作用而产生的百分比也因两种动机水平而异,一个百分比是-1.928%,另一个是2.767%,两者都很小,可忽略不计。

表1 将中介变量的水平设置为平均值时的因果中介效应分析结果Table 1 Analysis results of causal mediation effect when the level of mediation variable was set to the mean value

表2 将中介变量的水平设置为上限值时的因果中介效应分析结果Table 2 Analysis results of causal mediation effect when the level of mediation variable was set to the upper limit

表3 将中介变量的水平设置为下限值时的因果中介效应分析结果Table 3 Analysis results of causal mediation effect when the level of mediation variable was set to the lower limit

2.2.2 用evaluate语句计算以协变量值(FamSize)为条件的中介效应

研究者还可以使用evaluate语句来评估特定目标总体的因果中介效应。以下evaluate语句估计了小家庭(FamSize=3)和大家庭(FamSize=7)的因果中介效应。设所需要的SAS程序如下:

【SAS输出结果及解释】两个evaluate语句产生的输出结果见表4、表5。由表4和表5可知,对于小家庭和大家庭,所有因果效应的模式都是相似的。小家庭似乎具有略高的总体效应。对于这两组人来说,由于激励和动机之间的相互作用而产生的总效应的百分比很小;大约40%的总效应是由动机的中介作用导致的。

表4 将家庭规模水平设置为3(小家庭)时的因果中介效应分析结果Table 4 Analysis results of causal mediation effect when the family size level is set to 3(small family)

表5 将家庭规模水平设置为7(大家庭)时的因果中介效应分析结果Table 5 Analysis results of causal mediation effect when the family size levelis set to 7(large family)

2.2.3 用evaluate语句计算以协变量值(SocStatus)为条件的中介效应

下一组evaluate语句评估了社会地位(SocStatus)高或低的受试者的因果中介效应。设所需要的SAS程序如下:

【SAS输出结果及解释】两个evaluate语句的输出结果见表6、表7。由结果可知,两组的所有因果效应模式相似(表6和表7中的计算结果接近)。高社会地位的总体效应略高(6.889>6.795)。

表6 将社会地位水平设置为高时的因果中介效应分析结果Table 6 Analysis results of causal mediation effect when the social status level is set to high

表7 将社会地位水平设置为低时的因果中介效应分析结果Table 7 Analysis results of causal mediation effect when the social status level is set to low

2.2.4 用evaluate语句计算以协变量值(FamSize和SocStatus)为条件的中介效应

研究者还可以在协变量的水平组合条件下来评估特定的因果中介效应。在以下evaluate语句中,受试者由FamSize和SocStatus水平的组合来定义。设所需要的SAS程序如下:

proc causalmed data=Cognitive;

model CogPerform=Encourage|Motivation;

mediator Motivation=Encourage;

covar FamSize SocStatus;

evaluate'Most Favorable Environment'FamSize=-.5(SD)SocStatus=1(SD);

evaluate'Least Favorable Environment'FamSize=.5(SD)SocStatus=-1(SD);

run;

【SAS程序说明】标记为“最有利环境”的效应分别由FamSize和SocStatus定义,前者的标准差低于平均家庭规模0.5,后者的标准差高于平均社会地位水平1。标记为“最不利环境”的效应分别由FamSize和SocStatus定义,前者的标准差高于平均家庭规模0.5,后者的标准差低于平均社会地位水平1。

【SAS输出结果及解释】两个evaluate语句产生的输出结果见表8、表9。

表8 最有利环境下的因果中介效应分析结果Table 8 Analysis results of causal mediation effect under the most favorable environment

表9 最不利环境下的因果中介效应分析结果Table 9 Analysis results of causal mediation effect under the least favorable environment

两组的所有因果中介效应模式相似。“最有利环境”的总效应略大于“最不利环境”的总效应(6.897>6.787)。

【结论】以上结果表明,在父母鼓励对认知发展的影响中,约有40%是由儿童的学习动机介导的,父母鼓励与儿童学习动机的交互作用较小。这些结论也适用于不同规模和社会地位水平的家庭。

3 讨论与小结

3.1 讨论

使用evaluate语句,可以为中介变量、协变量或协变量之间的水平组合的水平设置特定的数值,本质上就是分层分析[6-7]。相当于将全部资料视为一个整体,基于不同变量(结果变量和处理变量除外),将整体划分成若干个子集,然后在每个子集中进行因果中介效应分析,以便获得更加精细的分析结果。

3.2 小结

本文介绍了处理变量、中介变量和协变量的不同水平的设置方法,特别介绍了proc causalmed过程中关于前述提及的各类变量水平的默认设置;通过实例详细展示了如何使用evaluate语句为中介变量和协变量设置不同水平,以便实现分层条件下的因果中介效应分析。

猜你喜欢
标准差语句研究者
高等教育中的学生成为研究者及其启示
重点:语句衔接
研究者称,经CRISPR技术编辑过的双胞胎已出生。科学将如何回应?
研究者调查数据统计
医生注定是研究者
对于平均差与标准差的数学关系和应用价值比较研究
医学科技论文中有效数字的确定
如何搞定语句衔接题
医学科技论文中有效数字的确定
作文语句实录