Logistic回归分析在护理科研中的应用现状与改进策略

2021-12-04 07:03胡良平
西南国防医药 2021年4期
关键词:因变量回归系数变量

关 雪,刘 冰,胡良平

Logistic回归分析是定量描述多因素对定性结局变量影响情况的一种回归分析方法,常用于研究致病因子与疾病之间的联系[1]。在护理科研工作中,也可用于相关因素是否引起某些护理事件(如压疮、院内感染、并发症等)发生之间关系的研究。随着护理学科的发展,Logistic回归分析的应用越来越广泛,笔者回顾分析近年来涉及到Logistic回归分析的护理论文,揭示Logistic回归分析在应用中存在一些值得商榷的问题,提出一些合理运用Logistic回归分析的改进策略,为护理科研工作者更好地开展多因素护理研究、提高护理工作的质量和效益提供一些有意义的参考。

1 护理论文中Logistic回归分析的应用现状

1.1 应用现状概述 从统计学的角度进行分类,Logistic回归分析的应用主要有3个方面[2],一是校正非试验因素对结果的影响,即将试验因素、非试验因素及其交互项(它们被统称为协变量)全部纳入回归模型,能够在控制众多非试验因素的作用下,对试验因素与因变量之间的联系做出更精确的定量描述,例如文献3[3];二是筛选危险因素,根据专业知识和基本常识纳入对结局变量可能有影响的一切自变量,按照事先规定的检验水准,将有统计学意义的自变量纳入回归模型,例如文献4[4],这一类应用在护理论文中最多;三是预测与判别,这是非条件Logistic回归的重要应用之一,通过检验,建立回归方程,给定自变量数值,即可代入回归方程计算相应的概率预测值,对个体所属类别作出概率性判别,例如文献5[5]。

笔者按时间由近及远,查询了24篇运用Logistic回归分析的护理论文,从护理专业角度来看,Logistic回归分析多见于临床护理研究,社区护理、护理管理方面应用较少;从Logistic回归的分类来看,因变量为二值变量的非条件Logistic回归应用最多,配对设计条件Logistic回归分析、因变量为多值有序变量的Logistic回归分析的应用较为少见。

1.2 存在问题举例

1.2.1Logistic回归分析名称不祥 【例1】文献《妊娠期糖尿病病人发生泌乳启动延迟的因素分析》[6],在摘要中写道:“多变量Logistic回归模型”;在其正文中又写道:“多因素Logistic回归分析”,这两种描述都不够贴切,也很不完整。

【辨析与释疑】研究者在论文中应写明所采用的Logistic回归分析的具体名称,通常应交代3个方面,即“设计类型(分为‘配对设计’与‘非配对设计’)”“因变量的类型(分为‘二值因变量’‘多值有序因变量’和‘多值名义因变量’)”和“自变量个数(分为‘一重’与‘多重’)”。例如:非配对设计二值因变量的多重Logistic回归分析,而不应简单地写作“Logistic回归分析”。

【例2】在文献7中[7],作者回顾分析320例重型颅脑损伤患者的临床资料,将并发肺部感染的101例重型颅脑损伤患者作为病例组,其中男62例,女39例,年龄28~68岁;按1∶1的比例选择同期未并发肺部感染的101例重型颅脑损伤患者作为对照组,其中男59例,女42例,年龄17~70岁。

【辨析与释疑】显然,该研究未按照年龄、性别进行一一配对,也未说明按其他因素进行配对,就不是严格的配对设计。事实上,作者也写明了“采用的是非条件Logistic回归分析”。也就是说,该文作者在描述临床资料方面存在与事实不符的问题。需要注意的是在配对设计研究中,研究者应当说明病例组和对照组按照哪些因素进行(1∶1或1∶r或m∶n)配对,如果没有对研究对象按病例和对照进行一一配对,仅仅是病例组和对照组在数量上以1∶1或其他比例纳入研究,就不是真正的配对设计,不能应用条件Logistic回归分析。文献3[3],研究者按照产次、年龄、体质指数对患妊娠期高血压疾病(HPD)孕妇和正常孕妇进行1∶1配对,研究妊娠期膳食对HPD的影响,应用了条件Logistic回归分析。这是一个合理选择统计分析方法的实例。

1.2.2 缺乏对模型整体的假设检验和拟合优度评价

【例3】文献 《临床护士心理授权与同情心疲乏程度的关系》[8],在数据处理部分描述了模型整体的假设检验和拟合优度评价,“进行似然比检验,P<0.05为模型有意义;进行Pearson拟合优度检验,P>0.05为模型拟合良好”。

【辨析与释疑】Logistic回归分析的假设检验包括两个方面的内容[2],除了对模型中自变量的回归系数进行假设检验之外,还需要对整个模型进行假设检验,通常用似然比检验(likelihood ratio test)。除了假设检验,还要对整个模型的拟合优度(goodness-of-fit)进行评价,即考察基于回归模型计算得到的预测值与实际数据之间是否有较高的一致性[9],一般采用偏差检验、Pearsonχ2检验、Homser-Lemeshow统计量和信息测量指标(AIC、BIC)。然而在笔者收集的众多论文中,只有例3这一篇论文说明对模型的拟合优度进行了检验。

1.2.3 用单因素分析代替变量筛选 【例4】文献《鼻咽癌患者放射治疗后张口困难危险因素的Logistic回归分析》[10],文中描述了变量筛选的方法,“采用后退逐步法,在α=0.05水准上,所研究的5个因素中,入选模型有3个因素:文化程度、功能锻炼依从性、放射性口腔黏膜炎及皮炎,而与性别、年龄因素无显著相关,P>0.05。”文中虽然写了变量筛选方法,“后退逐步法”这种说法是不准确的。

【辨析与释疑】Logistic回归分析的资料通常会涉及到很多因素,如果都纳入回归模型进行分析,由于可能存在一些对因变量影响无统计学意义的自变量,不仅增加了回归模型的复杂度,而且会严重降低回归模型的预测精度。因此,当自变量个数≥2时,应采用合理的变量筛选方法,对自变量进行初步筛选。自变量筛选的方法有很多,有逐步法、前进法、后退法、最优子集法,应在论文中加以说明。如果自变量较多,可以选择单因素分析中P值<0.25的自变量,纳入研究,再采用上述4种变量筛选方法选择变量进入回归模型[11]。

在笔者收集的论文中,大多数论文都是将单因素分析P<0.05的变量纳入回归模型,这种做法欠妥,因为单因素分析中没有统计学意义的变量不一定在多因素分析中也没有统计学意义[11]。

1.2.4 无标准化回归系数 【例5】文献《重型颅脑损伤患者肺部感染危险因素的Logistic回归分析及护理对策》中讨论部分[7],作者根据OR值判断哪一个自变量是最危险的因素,“呼吸机应用是引起重型颅脑损伤患者肺部感染的最危险因素(OR=2.704)”。

【辨析与释疑】当拟合出合适的回归模型后,要计算自变量的标准化回归系数(STB),以判断各自变量对因变量的影响大小[2],而不是用OR值进行判断,也不是用未标准化自变量回归系数进行判断。标准化回归系数是消除了自变量计量单位及其离散程度的影响后计算其回归系数得到的,标准化回归系数的绝对值越大,该自变量对因变量的影响就越大。护理论文中,几乎没有作者给出标准化回归系数,这就不能正确评价各自变量对因变量的影响大小了。

1.2.5OR值的解释欠合理 【例6】文献《经皮肾镜碎石取石患者术后全身炎症反应综合征的影响因素分析及护理对策》[12],文中将OR值解释为“手术时间>2 h的全身炎症反应综合征发生率为手术时间<2 h的2.003倍”,这种说法值得商榷,较为贴切的表述是“手术时间>2 h的全身炎症反应综合征发生风险是手术时间<2 h的全身炎症反应综合征发生风险的2.003倍”。

【辨析与释疑】笔者查阅的每一篇文献中,作者都列出了自变量的OR值(odds ratio,译为“优势比”),但不是每一篇文献都对OR值做出了合理的解释。在回归模型中,应解释为在其他变量保持不变的情况下,某自变量增加一个单位,结局事件发生的危险度(或风险)增加多少倍。这里切不可将危险度(或风险)理解为发生率,只有在发生率小于5%的情况下,OR值才接近RR值(relative risk,译为“相对危险度”),此处RR值才是暴露组与非暴露组发生率之比[13]。

2 合理选择与成功构建Logistic回归模型的策略

2.1 合理选择Logistic回归方法 合理选择Logistic回归分析有关的基本要素有2个:其一,资料所取自的设计类型,配对设计对应的方法是配对设计资料Logistic回归分析,也叫条件Logistic回归分析,非配对设计对应的是非配对设计资料Logistic回归分析,常简称为一般Logistic回归分析[6];其二,资料中因变量的类型,二值变量应选择“因变量为二值变量的Logistic回归分析”;多值有序变量应选择 “因变量为多值有序变量的累计Logistic回归分析”;名义变量应选择 “因变量为多值名义变量的扩展Logistic回归分析[14]”。

特殊情形下用到的嵌套 (或巢式)Logistic回归模型和多水平Logistic回归模型应用较少,可详细参阅相关文献[15-16]。

2.2 了解自变量的集合是否具有完备性 在进行回归分析时,纳入研究的自变量不一定涵盖对因变量有影响的全部自变量。因此,需努力提高研究设计水平,尽可能不遗漏掉重要的影响因素。此外还可以“引入派生自变量”,即在现有自变量的基础上,产生出一系列派生的“自变量”,如原有自变量的平方项或立方项、某两个原有自变量的乘积项(或称交互作用项),某一自变量的对数、倒数、平方根等。可以尝试采用“原有自变量”和“派生自变量”作为“全部自变量”,参与回归模型自变量的筛选过程[17]。

2.3 全面把握筛选自变量的策略 前文提到筛选自变量的方法有4种,除最优回归子集法外,其他3种筛选自变量方法所得到的筛选结果不尽相同,研究者可以在保留截距项和不保留截距项的前提条件下,都采取 “前进法”“后退法”和“逐步法”筛选自变量,共有6种筛选策略,最优回归子集法可以探索出含不同数目自变量的多个“最佳回归模型”,再结合专业知识和拟合优度检验,从中选择最合适的回归模型。具体实施方法可参阅相关文献[17]。

3 讨论

在回归分析中,还有一个带有共性的问题,就是“名词概念混乱”。例如:多因素回归分析、多变量回归分析、多元回归分析。“多因素回归分析”强调的是影响因素(即自变量)有多个而不是一个;“多变量回归分析”中的“变量”究竟是指“自变量”还是“因变量”,不得而知;“多元回归分析”强调的是因变量有多个而不是一个,但很多人却认为这里的“多元”指多个“自变量”。在统计学中,“元”指因变量的个数、“重”指自变量的个数。事实上,研究者使用这些词汇表达的都是一元多重回归分析,简称多重回归分析即可[17]。

综上所述,可以看出,Logistic回归分析是一个在临床科研中非常实用且又难以全面准确把握的统计分析方法。笔者回顾性总结了发表在护理杂志上与Logistic回归分析有关的论文,指出其存在的问题,并给出了辨析与释疑;呈现了合理选择Logistic回归分析和构建Logistic回归模型的基本要素,但愿这些内容能给读者提供一些有益的帮助和启迪。

猜你喜欢
因变量回归系数变量
调整有限因变量混合模型在药物经济学健康效用量表映射中的运用
抓住不变量解题
基于生产函数模型的地区经济发展影响因素分析
电导法协同Logistic方程进行6种苹果砧木抗寒性的比较
电导法协同Logistic方程进行6种苹果砧木抗寒性的比较
偏最小二乘回归方法
谈谈如何讲解多元复合函数的求导法则
精心设计课堂 走进学生胸膛
分离变量法:常见的通性通法
城镇居民收入差距主要因素回归分析