周 丽 陈 科
社区获得性肺炎是常见住院治疗的呼吸道疾病,其疗效受年龄、病情、体质等因素影响而呈现多样化。回归模型常用以探索影响疗效的因素,定量检测指标通常直接反映病情并提示预后。在住院病史中通常可见一种生理病理状况由多个指标共同判断,它们之间往往存在多重共线性,造成自变量权重偏倚,影响模型预测精度。主成分分析通过提取这些指标的公因子,并将原指标与因子的相关系数作为权数,以加权方式计算因子标化总分来替代原指标。本文旨在应用主成分分析结合回归模型来探索某医院社区获得性肺炎疗效的影响因素。
1资料与方法
资料来源于复旦大学附属华山医院宝山分院2007—2008年收治无慢性阻塞性肺病史的社区获得性肺炎住院数据,共计310例,其中男161例,女149例;平均年龄69.40岁,标准差19.01岁,均按标准化方式治疗。结果治愈38例,好转240例,未愈32例。统计软件为SPSS13.0,主成分分析采用Data Reduction(Factor)过程,Logistic回归采用Regression(Ordinal)过程。
2结果
2.1共线性诊断
实际碳酸氢盐(AB)、剩余碱(BE)、缓冲碱(BB)均反映血液碱度,与后者呈正变关系。310人上述3个指标呈多重线性相关(R>0.7,P=0.000)。此外尚发现尿素氮与肌酐呈线性相关(R=0.615,P=0.000)。R值较高且均具有统计学意义,有必要进行主成分分析(表1)。
2.2提取公因子
按主成分分析流程,首先检验表1中3个变量的偏相关性(KMO法)及独立性(Bartlett's球形检验)。结果KMO=0.725,提示3个变量偏相关系数远小于简单相关系数,各变量间相关程度差异不大,适合提取公因子(KMO>0.6)。球形检验X2=697.604,自由度(υ)=3,P=0.000,拒绝独立性假设,提示变量间存在相关性,可进行因子提取,均与表1结果吻合。SPSS软件计算第1主成分(Component 1,C1)的特征根(Eigenvalue)=2.553,变异解释率=85.115%,均超过阈值(特征根=1,累计变异解释率=80%),并如图1所示与下一主成分(特征根=0.320)差距显著,故SPSS仅提取C1,并求得AB、BE、BB在C1上的载荷(相关系数)分别为0.945,0.940,0.882,呈高度相关,故C1对AB、BE、BB的代表性非常好,在意义上命名为“碱因子”。SPSS按载荷加权法自动生成310条记录的碱因子标化总分。按同样步骤提取了尿素氮与肌酐的第1主成分(特征根=1.615,累计变异解释率=80.75%,BUN及Cr载荷均为0.899),命名为“肾因子”,同时计算肾因子标化总分。
2.3建立Logistic回归模型
设应变量为治疗结果(1.治愈,2.好转,3.未愈)。设自变量为:年龄(岁)、中性粒细胞(个)、氧分压(mmHg)、二氧化碳分压(mmHg)、碱因子(标化分)、肾因子(标化分)、性别(1.男,2.女)。建立累加型Logistic回归模型,分析主效应,随后以A=0.05标准、后退法逐个剔除自变量。最终保留于模型中的自变量为:年龄、氧分压、肾因子(该模型全局似然比X2=32.469,υ=3,P=0.000)。如表2所示,由偏回归系数(β)与0的关系可知:年龄愈大疗效愈差,氧分压愈高疗效愈好,肾因子愈高疗效愈差(WaldX2如表所示,ν=1,P<0.01)。结合主成分分析可知,尿素氮、肌酐愈高,肾功能愈差,则疗效愈差。由标化β的绝对值可见影响程度最高的是肾因子,第2是年龄,第3是氧分压。因子得分为SPSS自动标化,其余自变量根据“u=离均差/标准差”公式进行标化。
3讨论
主成分分析适合定量数据研究,既能缩减变量个数,又能解决回归模型中的多重共线性问题,非常适用于临床资料中的实验室诊断数据。但本身也有局限性,对各变量相关性及偏相关性有较高要求,若简单相关系数较低或偏相关系数较高则可造成主成分提取不充分、提取数量过多、残差过大、代表性差。一般认为,主成分数量在3个以内为佳。本文资料主成分仅有1个,提取充分代表性佳。因子解释是另一大难点,在本文中尚容易解释“碱因子”代表AB、BE、BB 3种血液碱度指标的意义,“肾因子”代表尿素氮、肌酐2种肾功能指标的意义,但笔者在一次调查中曾发现直接提取8种食物频率的3个因子作为饮食模式时无法解释意义,但在SPSS软件中选择方差最大化正交旋转后,系统按区分度最大化原则重新分配了各因子载荷,使得意义解释变得非常容易。当然主成分分析为各种预测模型提供数据,其最终意义取决于在预测模型中的表现。Logistic回归结果显示,肾功能、年龄、氧分压是决定肺炎疗效的因素,其中肾功能的影响最大。鉴于横断面调查的限制,因果关系有待于进一步研究。