非配对设计多值名义资料一水平多重Logistic回归分析

2019-03-16 11:22巩晓文李长平胡良平
四川精神卫生 2019年6期
关键词:回归系数名义类别

巩晓文,李长平,2,胡良平

(1.天津医科大学公共卫生学院卫生统计学教研室,天津300070;2.世界中医药学会联合会临床科研统计学专业委员会,北京100029;3.军事科学院研究生院,北京100850*通信作者:胡良平,E-mail:lphu812@sina.com)

医学研究中的资料常涉及结局变量为多值名义变量的资料。多值名义资料的特点是结果变量的多种取值之间没有内在等级和数量大小之分[1]。故在对此类数据进行统计建模时,二值和多值有序多重logistic回归模型均不适用。Andson于1972年提出了多值名义logistic回归模型,以解决结局变量为多值名义变量的回归分析问题[2]。根据医学研究设计类型,研究可分为配对设计和非配对设计,前者一般是指病例对照研究中根据病例组的重要特征匹配对照而收集数据;后者是没有经过匹配便可收集数据,多见于横断面研究或队列研究。根据数据层级关系,又可将研究分为“一水平”和“多水平”研究。本文着重讨论非配对设计多值名义资料一水平多重logistic回归分析,并结合实例,采用SAS 9.4予以实现。

1 构建多值名义资料一水平多重logistic回归模型的基本原理

1.1 三值名义资料logistic回归模型

首先对三值名义资料logistic回归模型加以说明[3]。假设某一事件可能有A、B、C三种情况,PiA=个体i发生事件A的概率;PiB=个体i发生事件B的概率;PiC=个体i发生事件C的概率。假定问题中涉及4个协变量(即自变量),个体i的设计矩阵所对应的向量可以用xi=[1xi1xi2xi3xi4]’来表示(向量中第1个分量“1”与回归模型中“截距”相对应)。不妨沿用二分类logistic回归分析的思路构建模型:

上述思想本质上是做了三个传统的logistic回归模型,当计算A发生的概率时,将B、C合并,其余同理。然而,尽管这样可以估计出A、B、C三种事件发生各自的概率,但忽略了一个重要前提条件,即:对于任意个体i而言,其约束条件为PiA+PiB+PiC=1。上述模型无法从理论上保证该约束条件成立。因此,不妨考虑选择一个类别为参考(如选择C为参考),来计算其他类别相对于该参考类别的概率:

即:βCxi=βAxi-βBxi,亦即:βC=βA-βB。因此,只要估计出βA、βB和βC中任意两者,即可求出第三个。同理,对于K(K≥3)分类的情形,只要估计出(K-1)个方程中的参数即可。求解PiA、PiB、PiC,可得:

由此可见,对于任意个体i,其A、B、C事件发生的概率之和恒等于1。

1.2 模型的一般形式

上文介绍了三分类的多重logistic回归模型,现在推广到J分类的多重logistic回归模型[4]。同理,用k(k=1,2,…,J-1,J)表示类别。Pik表示第i个个体分到第k类的概率。模型为:

其中xi代表第i个个体的协变量向量,βk代表第k类相对于第J类的回归系数向量。经转换可得:

2 基于SAS的实例分析

2.1 未经变量筛选的多值名义资料多重logistic回归分析

2.1.1 问题与数据

研究某医院非ST段抬高型心肌梗死后血运重建治疗方式的影响因素。目前血运重建的治疗方式主要有药物治疗、经冠状动脉介入(PCI)治疗和冠状动脉搭桥(CABG)。共收集1 293例患者的资料(因数据过多,此处从略),包括治疗方式、年龄、性别、是否吸烟、是否饮酒、是否患高血压、是否患糖尿病、是否患脑卒中、是否患高脂血症、是否患陈旧性心肌梗死、是否曾行PCI手术、是否曾行CABG手术及入院时的KILLIP分级,详细编码方式见表1。如果研究者想观察每一个变量对回归结果的影响,则无需进行变量筛选,而将所有的变量都纳入模型即可。

表1 变量说明表

2.1.2 分析过程

首先需要创建SAS数据集nstemi(因篇幅所限,此处从略)。多值名义资料多重logistic回归分析可以调用LOGISTIC、SURVEYLOGISTIC、CATMOD或GLIMMIX过程实现,鉴于LOGISTIC过程比较常用,故本例调用LOGISTIC过程实现[5]。

【程序说明】使用名为nstemi的数据集。调用LOGISTIC过程。Class语句指定后面的变量为分类变量。在model语句中使用link=glogit选项要求使用多值名义资料的多重logistic回归分析;如果省略该语句,那么系统将构建累计logit模型,即认为Trt是有序变量。此外,用ref="0"指定以药物治疗作为参考类别,即估计PCI vs.药物治疗和CABG vs.药物治疗的结果。为了验证βC=βA-βB,又设定ref="2"来获得PCI vs.CABG的结果。读者可根据研究需求选择合适的参考类别。

2.1.3 主要输出结果及解读

主要输出结果见表2。

表2 多值名义资料回归分析结果

表2为PCI vs.药物治疗、CABG vs.药物治疗和PCI vs.CABG(设定ref="2"计算得到)的回归结果。由表2可知,βC=βA-βB。以年龄为例,PCI vs.药物治疗的回归系数为-0.0340,CABG vs.药物治疗的回归系数为-0.0170,通过SAS结果可以验证PCI vs.CABG的回归系数为-0.0340-(-0.0170)=-0.0170。回归分析结果表明:相对于药物治疗而言,年龄越小、KILLIP分级越低(理由是其系数为负值,KILLP分级越低表示病情越轻)、男性、有心肌梗死史、既往未做过PCI的患者更倾向于选择PCI治疗;相对于药物治疗而言,年龄越小、没有糖尿病、既往做过CABG且KILLIP分级越低的患者更倾向于选择CABG治疗。

2.2 经变量筛选的多值名义资料多重logistic回归分析

2.2.1 问题与数据

在实际工作中,为了使模型简洁或避免变量之间的共线性,在构建回归模型时往往需要进行变量筛选。常见的变量筛选策略包括向前法、向后法、逐步法和最优子集法。仍然沿用前面的实例,如果研究者想要建立一个预测模型,并能快速判断应该选择的治疗方式,可采用以下SAS程序。

2.2.2 SAS程序

【程序说明】与上文稍有不同的是,在model语句中添加了selection=stepwise选项用来指定逐步法筛选自变量,除了stepwise之外,还可以选择forward(向前法)、backward(向后法)和score(最优子集法)。SLENTRY=0.05指定效应进入模型的得分卡方显著性水平为0.05。SLSTAY=0.05指定在向后消除步中,效应保留在模型中的显著性水平为0.05。

2.2.3 主要输出结果及解释

经过逐步法筛选后,模型得以精简,最终有四个变量纳入模型,分别为Age、HoMI、PCI和KILLIP。相对于药物治疗来说,年龄越小、有心肌梗死史、既往没有做PCI且KILLIP分级越低的患者越容易选择PCI治疗;相对于药物治疗来说,年龄越小且KILLIP分级越低的患者越容易选择CABG治疗;相对于CABG来说,年龄越小、有心肌梗死史且既往没有做PCI的患者越容易选择PCI治疗。见表3。

表3 多值名义资料多重logistic回归分析结果

根据表3的回归系数,计算每一类的概率:

3 讨论与小结

Logistic回归分析是医学领域常用的回归分析方法,传统的logistic回归分析是以二分类变量为结局变量。但在现实研究中,疾病种类、治疗方案等往往存在多种类别。在病例对照研究中,有一个对照组、两个或多个病例组;或者有一个病例组、两个或者多个对照组。以上情况涉及没有等级关系的多分类结果,如果对每两类结果都采用传统的logistic回归分析,可能会增加一类错误的概率。因此,多值名义资料多重logistic回归分析应运而生。

多分类结果logistic回归系数的解释与传统二分类的logistic回归分析相似,不过需要明确所选择的参照类别是哪一类,以免在结果解释时发生混淆,因为同一变量在不同logit函数的效应往往不同。传统的logistic回归模型估计系数在大多数情况下与多值名义logistic回归分析结果相近[6]。因此,可以将传统的logistic回归分析用于变量筛选,最后将各自筛选出的变量并集用于多值名义logistic回归分析中。随着SAS软件的发展,目前可以通过逐步法、向前法、向后法和最优子集法自动实现变量筛选,而不必手动筛选变量。当然,读者也可结合临床实际选择不同的变量筛选策略。

此外,在拟合多值名义资料多重logistic回归分析时应注意以下问题:变量间是否存在共线性问题、样本量不宜过小、变量间是否有交互作用、哑变量设置是否合理。当遇到异常值时,应慎重考虑,并做敏感性分析[7]。

猜你喜欢
回归系数名义类别
以二胎的名义,享受生活
多元线性回归的估值漂移及其判定方法
以法律的名义,捍卫英烈荣光
壮字喃字同形字的三种类别及简要分析
电导法协同Logistic方程进行6种苹果砧木抗寒性的比较
电导法协同Logistic方程进行6种苹果砧木抗寒性的比较
西夏刻本中小装饰的类别及流变
以创新的名义宣誓发展
多类别复合资源的空间匹配
城镇居民收入差距主要因素回归分析