以优势比和多余相对危险度为评价指标的因果中介效应分析

2022-11-22 10:58胡纯严胡良平
四川精神卫生 2022年5期
关键词:二值危险度语句

胡纯严 ,胡良平 ,2*

(1.军事科学院研究生院,北京 100850;2.世界中医药学会联合会临床科研统计学专业委员会,北京 100029*通信作者:胡良平,E-mail:lphu927@163.com)

当结果变量为二值变量时,因果中介效应模型为Logistic回归模型。此时,因果中介效应分析所采用的评价指标不适合用算术平均值,而需要改用优势比(Odds Ratio,OR)[1-2]和多余相对危险度(Excess Relative Risk,ERR)[1,3]。一般来说,优势比适用于来自病例对照研究设计的定性资料;而相对危险度适用于队列研究设计的定性资料。本文采用优势比和多余相对危险度作为评价指标,分析来自横断面研究设计的定性资料。本文将介绍设置变量水平的选项和多模态协变量,通过实例分析,展示以OR和ERR为评价指标的因果中介效应分析和效应成分的分解结果。

1 评价二值结果变量的指标

1.1 两个新评价指标

当结果变量为连续性变量时,因果中介效应分析涉及的评价指标为算术平均值;而当结果变量为二值变量时,因果中介效应分析涉及两个新评价指标:OR和ERR。

1.2 ERR的定义和计算公式

OR和普通相对危险度(RR)的定义和计算公式在很多文献中都可以找到[4-5],因篇幅所限,此处从略。以下扼要介绍ERR,计算公式见式(1)[3]。

式(1)中,R0为暴露因素取非暴露水平0时的发病率,R1为暴露因素取暴露水平1时的发病率,故R1/R0就是普通相对危险度RR;E=R1-R0,即暴露与非暴露两种水平条件下发病率之差量,被称为多余风险度(Excess Risk,ER)。因此,ERR=E/R0就被称为多余相对风险度。

2 设置变量水平的选项和多模态协变量

2.1 设置变量水平的选项

在运用proc causalmed过程步时,用户可以使用evaluate语句请求系统计算以特定变量水平为条件的因果中介效应[1]。也就是说,用户可以进行分层因果中介效应分析。具体做法是通过指定以下形式的赋值来设置变量的水平,见式(2)。

式(2)中,var-key代表指定变量的关键词,以下简称“变量键”;value-key代表为指定变量的水平设置具体值的关键词,以下简称“值键”。文献[1]总结了var-key和value-key的选项,并将有关内容汇总在一张表中,因篇幅所限,此处从略。

要指定赋值,需查找到正确的var-key。用于处理变量、中介变量和协变量水平时,需采用不同的var-key。例如,假设在用户的分析中有一个连续的处理变量Exposure和一个二值中介变量Perceived-Pain,可使用以下语句确定这些变量的角色。

proc causalmed;

class PerceivedPain;

mediator PerceivedPain=Exposure;

model outcome=PerceivedPain|Exposure;

要将处理水平设置为最大样本值,将控制水平设置为平均值,将中介变量设置为“无”的水平,可使用以下任何等效设定:

evaluate'Setting 1'_t1=max_t0=mean_mstar='none';

evaluate'Setting 2'_treatment=max_control=mean_mediator='none';

evaluate'Setting 3'Exposure(treatment)=max Exposure(control)=mean

PerceivedPain='none';

run;

本例显示,用户可以直接(通过提供实际变量名)或间接(通过提供关键字)指定变量键和值键。

需注意的是,分类协变量的默认值键可以是样本均值或模式(mode)。如果在evaluate语句中未为类别协变量指定任何水平,proc causalmed过程将使用样本均值,作为在covar语句中指定的所有未指定类别协变量的默认水平。例如,C1、C2和C3的样本均值是以下设定的evaluate语句中使用的默认水平:

如果在evaluate语句中指定了至少一个类别协变量的水平,proc causalmed过程将使用mode作为covar语句中指定的未指定类别协变量的默认水平。例如,C2和C3的模态水平以及C4的样本均值是以下设定的evaluate语句中使用的默认水平:

2.2 多模态协变量

如果将模态指定为分类协变量的值键,并且当分类协变量有多个模态时,则使用计算平均值的方法来计算变量的水平。为了说明这一点,假设C1是一个连续的协变量,C2和C3是二值协变量。同时,假设这三个协变量分别有6个观测值。C1:1、2、3、4、5、6;C2:1、1、1、1、1、1;C3:1、1、1、2、2、2。

线性预测器的设计矩阵包含一列C1、两列C2和两列C3:

假设指定以下evaluate语句:

evaluate'Setting C'C1=mean C2=mode C3=mode;

C1的平均值为3.5。C2的模态类别全为“1”,编码“1 0”被用作C2的协变量水平。然而,由于C3有“1 0”和“0 1”两个模态类别,6个观测化简为2个观测。然后,协变量水平的最终编码向量是以下两个向量的平均值:

于是,在评估因果中介效应和分解的公式中使用了平均水平3.5、1、0、0.5和0.5。

如果对C1和C3之间的交互作用建模,则使用以下两个向量的平均值:

在以上两行编码中,最后两列代表交互作用项。因此,在评估因果中介效应和分解的公式中使用了平均水平3.5、1、0、0.5、0.5、1.75和1.75。

3 因果中介效应分析的实例与SAS实现

3.1 实例与数据结构

3.1.1 资料来源与背景信息

【例1】文献[1]提供了一个关于吸烟对婴儿死亡率的影响的实例。该实例演示了因果中介效应分析,其处理变量、结果变量和中介变量均为二值变量。这些数据是从美国国家卫生统计中心获得的2003年婴儿死亡率的信息。本例使用了100 000个观察值的随机样本。数据集中的主要变量如下:处理变量为Smoking,是母亲吸烟行为的指标,取值为“是”和“否”;结果变量为Death,是婴儿出生后一年内死亡的指标,取值为“是”和“否”;中介变量为LowBirthWgt,是低出生体重(<2 500 g)的指标,取值为“是”和“否”。此外,5个混杂的协变量:AgeGroup代表产妇年龄,<20岁、20~35岁、>35岁的取值分别为1、2、3;Drinking为孕妇在孕期饮酒的指标,取值为“是”和“否”;Married代表婚姻状况,取值为“是”和“否”;Race代表种族,取值包括亚洲人、黑人、西班牙裔、土著(美洲土著)和白人;SomeCollege为母亲受教育程度为12年及以上的指标,取值为“是”和“否”。因篇幅所限,详细数据从略。试对此资料进行因果中介效应分析。

基于以下语句可以输出数据集的前10个观察值,见表1。

表1 数据集birthwgt中的前10个观测值Table 1 The first 10 observations of birthwgt data set

proc print data=sashelp.birthwgt(obs=10);

run;

3.1.2 创建用于因果中介效应分析的数据集

该数据集来自SAS帮助系统,数据集名为sashelp.birthwgt。调用时只需在过程步语句中写出数据集选项(data=sashelp.birthwgt)即可,参见下面过程步程序的第一句。

3.2 用SAS实现因果中介效应分析

指定因果中介模型,设所需要的SAS程序如下:

proc causalmed data=sashelp.birthwgt decomp;

class LowBirthWgt Smoking Death AgeGroup Married Race

Drinking SomeCollege/descending;

mediator LowBirthWgt=Smoking;

model Death=LowBirthWgt|Smoking;

covar AgeGroup Married Race Drinking Some-College;

evaluate'Low Birth-Weight'LowBirthWgt='Yes'/nodecomp;

evaluate'Normal Birth-Weight'LowBirthWgt='No'/nodecomp;

run;

【SAS程序说明】decomp选项要求进行各种总体效果分解。mediator语句指定响应变量LowBirthWgt的中介模型。模型语句指定了响应变量“死亡与否”的结果模型,并假设低出生体重和吸烟之间存在交互作用。class语句命名分析中的分类变量,降序选项(即descending)建模两个响应的最后一级概率(Death=Yes和 LowBirthWgt=Yes)。covar语句指定了5个协变量。最后,两个evaluate语句指定了中介变量的水平,以比较其因果中介效应的模式。

【SAS主要输出结果及解释】第一部分输出结果见表2。表2显示了优势比量表和多余相对风险量表对婴儿死亡率效应的主要分解。总效应的百分比仅显示在多余相对风险量表上。表2的前四行总结了对优势比量表的效应。该量表的受控直接效应(controlled direct effect,CDE)为1.894,当中介变量LowBirthWgt被控制在水平No时,该数值就是CDE的值。换言之,这是正常出生体重组的CDE的优势比。相应的置信区间为(1.200~2.588)。优势比量表上的自然直接效应(natural direct effect,NDE)和自然间接效应(natural indirect effect,NIE)分别为1.363和1.253。它们的乘积与优势比量表上的总效应相同,即1.707。表2的后七行总结了对多余相对风险量表的效应。自然直接效应(0.363)和自然间接效应(0.345)在此量表上具有加性;总多余相对风险为0.707。可加性使得使用这些值更容易推断“中介变量所占百分比”,即48.717%。因此,大约50%的吸烟对婴儿死亡率的效应是通过降低婴儿出生体重来实现的。然而,“中介变量所占百分比”的95%置信区间相当宽(29.329%~68.104%),更大的样本含量将产生更精确的区间估计。吸烟与低出生体重之间的交互作用所产生的总效应的百分比约为8%,这一比例相对较小。同样,相应的95%置信区间相当宽(-30.762%~47.002%)。

表2 对婴儿死亡率效应的汇总Table 2 Summary of effects on infant mortality

第二部分输出结果见表3,它由proc causalmed过程步语句中的decomp选项要求进行各种总效应分解。目前,所有这些分解都是根据多余相对风险尺度计算的[6]。

表3 吸烟对婴儿死亡率效应的分解Table 3 Decompositions of smoking effects on infant mortality

第三部分输出结果见表4,是由proc causalmed过程步根据其对多余相对风险量表中总效应的贡献百分比进行相应的分解所得的结果。表4中的四因子条目显示,总效应的45.910%既不归因于交互作用也不归因于中介作用(“受控直接”),5.380%归因于参考交互作用但不归因于中介作用,2.740%归因于中介作用与交互作用,45.970%归因于中介作用但不归因于交互作用。在标记为“CDE+PIE+PAI”的三向分解中,归因于交互作用的总效应百分比约为8.120%,这不是很大,但也不可忽略。请注意,此表中的一些置信区间从负值到正值不等,表明相应的点估计可能不准确。

表4 吸烟对婴儿死亡率影响的百分比分解Table 4 Percentage decomposition of smoking effects on infant mortality

第四部分输出结果见表5,它是第“3.2”节中proc causalmed过程步程序中第一个evaluate语句产生的输出结果,即当中介变量LowBirthWgt设置为Yes水平时的主要效应和百分比。表5中,优势比CDE(针对低出生体重组进行评估)为1.092,相应的95%置信区间为(0.780~1.404)。

表5 低出生体重组吸烟效应的汇总Table 5 Summary of smoking effects for the low birth-weight group

第五部分输出结果见表6,它是第“3.2”节中proc causalmed过程步程序中第二个evaluate语句产生的输出结果,即当中介变量LowBirthWgt设置为No水平时的主要效应和百分比。表6中,优势比CDE(针对正常出生体重组进行评估)为1.894,相应的95%置信区间为(1.200~2.588)。

表6 正常出生体重组吸烟效应的汇总Table 6 Summary of smoking effects for the normal birth-weight group

4 讨论与小结

4.1 讨论

在基于proc causalmed过程进行因果中介效应分析时,涉及4类变量,即结果变量、处理变量、中介变量和协变量。需要将结果变量放置在model语句的等号左边,其他变量(包括中介变量与处理变量之间的交互作用项)放置在model语句的等号右边;需要将中介变量放置在mediator语句的等号左边,等号右边只能放置处理变量;所有的协变量都必须放置在cover语句中,以列表的形式呈现,协变量之间至少保留一个空格,也允许列出某些协变量之间的交互作用项,例如,C1|C2,它等价于:C1 C2 C1*C2。通常情况下,变量的类型为二值变量或连续性变量,所有的二值变量必须通过class语句予以声明,不出现在class语句中的变量都被视为连续性变量。

4.2 小结

本文介绍了因果中介效应分析中涉及的两个新评价指标(OR和ERR)以及设置变量水平的选项和多模态协变量。针对一个实例,采用SAS实现了以优势比和多余相对危险度为评价指标的因果中介效应分析,给出了详细的输出结果,并对结果作出了解释。

猜你喜欢
二值危险度语句
胃间质瘤超声双重造影的时间-强度曲线与病理危险度分级的相关性研究
胃间质瘤的MRI诊断及侵袭危险度分析
重点:语句衔接
能谱CT定量参数与胃肠道间质瘤肿瘤危险度的关系
基于二值形态学算子的轨道图像分割新算法
面向网络边缘应用的新一代神经网络
基于稀疏表示的二值图像超分辨率重建算法
基于曲率局部二值模式的深度图像手势特征提取
基于博弈论组合赋权的泥石流危险度评价
如何搞定语句衔接题