Logistic回归模型中自变量的秩优势比图

2012-09-03 22:41黄启风代鲁燕沈其君
统计与决策 2012年24期
关键词:人口数回归系数新农

张 波,黄启风,代鲁燕,沈其君

(宁波大学 医学院预防医学系,浙江 宁波 315211)

Logistic回归模型中自变量的秩优势比图

张 波,黄启风,代鲁燕,沈其君

(宁波大学 医学院预防医学系,浙江 宁波 315211)

文章提出一种可视化图示法,评价logistic回归模型中自变量相对重要性。方法是对变量值排序后进行[0,1]区间的秩比例尺度变换,并作关于相对于中位数的优势比的函数关系图——秩优势比图。秩优势比图有很多实际应用,可作为评价logistic回归模型中自变量相对重要性的可视化工具。

logistic回归模型;相对重要性;秩优势比图;可视化

0 引言

在流行病学的分类资料分析中,多数研究者常用相对危险度和优势比及人群归因比例来衡量因素与事件发生间存在的联系及联系程度,也通过估计偏回归系数或标准偏回归系数来评价因素的影响大小即自变量的相对重要性。标准偏回归系数消除各自变量的量纲影响,却也混杂了自变量独特效应和其本身的变异对效应的影响,即可因标准差不同而得出不同的结论[1],容易导致不合理或错误的推论,它们的滥用经常存在争议和批判[2]。

Logistic回归模型中,有学者提出相对危险函数RRF(Xi)=exp[β(Xi-Xi∗)],即通过比较分析各因素 Xi的任一水平相对于参考水平产生的相对危险来估计相对重要性[3]。对相对危险函数取对数后,模型中所有自变量都将获得一条决定于回归系数符号的递增或递减的半对数直线图。但是每个自变量有各自特点,如变量的衡量单位和尺度不同,故不能将获得的函数图合并到同一个图形中。实际研究中也常会遇到这种情况,模型拟合良好,但是现有数据中有些变量值的指标估计不是很理想。2009年Juha Karvanen提出一种可视化工具——秩风险图[4],即在比例风险模型中通过对自变量值进行秩比例尺度转换后作关于相对危险度的函数关系图,正好解决了这些问题。

本文就可比性和可视化目的应用秩风险图的主要思想提出秩优势比图,并应用于具体实例评价logistic回归模型中自变量相对重要性。

1 统计方法原理

现用logistic回归模型研究性别(sex,男=1,女=0)、心电图(ecg,ST段压低<0.1(毫伏)=0,0.1(毫伏)≤ ST段压低<0.2(毫伏)=1,0.2(毫伏)≤ ST段压低=2)、年龄(age,year)与冠状动脉疾病(CAD)的关系[5],通过模型拟合最后得到回归方程中含有sex、ecg和age,它们的估计优势比和 95%的置信区间分别为 3.882(1.330,11.330)、2.395(1.127,5.086)和1.097(1.024,1.175)。现以年龄为例作相对优势比函数图,横轴表示变量值,纵轴表示相对优势比,将得到一条决定于估计回归系数符号的递增或递减的半对数直线图,其中中位数的优势比是1,如图1所示。同样模型中其他所有自变量都可进行此操作,但各自变量的分布特征如衡量单位和尺度不同,不能直接比较,也不能在同一图形中展现所有变量的分布。为了提高可比性而比较同一水平上的优势比,如将数据的整个范围划分四等分即通过比较最小值(0%)、第一四分位数(25%)、中位数(50%)、第三四分位数(75%)和最大值(100%)处的优势比。如图2所示,通过变量值的秩比例尺度变换函数图被一条曲线所代替,这时横轴上的尺度转换为在[0,1]区间的秩次水平,各变量间的比较不受衡量单位和尺度关系的影响,故可以在一个图形中获得多条曲线。如图3所示,可以快速地比较模型中变量间的相互关系。据图可知,AGE的两个极值处分别获得最小和最大相对优势比,第一、三四分位处的相对优势比都比其他变量高,AGE与CAD的关系比ECG和SEX更为危险。SEX和ECG是以二值和三值的形式纳入模型的,我们把其函数图看作是一个阈值函数发现,男性要比女性更易患CAD;ECG异常可增加患CAD的危险,而且ST段压低值越大,与CAD的关系越密切。

图1

图2

秩优势比图可作为一种工具比较几种可选择的变量和模型,核查模型中自变量极值是否合理,或者对变量采取何种处理更合理,或者是纳入哪个变量拟合模型更合理。如图4所示,对变量(age)值进行对数变换和样条转换后分别进入模型,或把年龄分成四类后拟合模型,再作相关秩优势比图,发现经过变换所得相对优势比与未经变换获得的相对优势比很相似,但是对数变换后的相对优势比在极值处有所下降,经分类后显示极小值处优势比有所提高外其余降低,且在极大值处下降幅度稍大。如果研究者认为通过资料数据获得的年龄的最高优势比不合理,那这一模型就不能应用或先对变量进行处理后再进行建模。

图3

图4

2 实例分析

2.1 资料来源

本文资料来源于2010年金华市磐安县新型农村合作医疗专项入户调查的数据。本调查采用分层整群随机抽样的方法抽取了磐安县4个乡镇的500户农户,调查内容包括家庭一般情况、合作医疗意识和意愿性情况和住户成员健康与卫生服务利用情况。通过整理和Epidate3.1建立数据库获得495户有效数据,现应用logistic回归模型对农户是否愿意参加新农合的意愿性及其相关影响因素进行分析。进行分析的因素有农户的家庭人口数X(1人)、家庭兼业类型X(2以纯农业户=1为参照,农业兼业户=2,非农业兼业户=3,纯非农业户=4,其他户=5)、家庭主要劳动力数量X(3人)、文化程度X(4以没上过学=1为参照,小学=2,初中=3,高中=4,中专=5,大专=6,大学及以上=7)、年龄X5(以<30岁=1为参照,31~40岁=2,41~50岁=3,51~60岁=4,>60岁=5)、人均年收入X(6元)、人均年支出X(7元)、是否知道新农合X(8是=1,否=0为参照)、是否参加过新农合X(9是=1,否=0为参照)等相关因素。

2.2 估计结果

调查的495户农户中,463户家庭表示愿意参加新农合(占93.54%),32户表示不要愿意参加(占6.46%),说明绝大多数农户是愿意参加新农合的。

应用SAS统计分析软件分析各因素间的关系,对数据进行标准化处理并建立logistic回归方程为Y=3.2302-0.6135Χ1+0.7558Χ4+1.0029Χ9,经检验模型拟合良好(χ2=178.2,p=1.0000)。研究数据的logistic回归分析显示,影响农户参合意愿的相关因素有家庭人口数、主要劳动力文化程度和是否参加过新农合,各因素的OR点估计和 95%置信区间分别为 0.541(0.362,0.809)、2.129(1.279,2.050)和2.726(2.050,3.625)。

2.3 秩优势比图

对观察数据排序后利用进入模型的观察数据和估计优势比,应用SAS9.2统计软件作各变量的秩优势比图,结果见图5。对家庭人口数和主要劳动力的文化水平进行再次分类变换(<3人=1为参照,3人=2,>3人=3;未上过学=1为参照,小、初中=2,高中及以上=3),所得秩优势比图见图6。我们可以从图形中直观地看到自变量与因变量之间的关系。图5显示家庭人口数呈一条下降的曲线,其取值与优势比成负向变化关系,文化程度与优势比成正向变化关系。之前是否参合对于今后是否愿意参合的影响很大,之前参合的人群还是愿意继续参合。图6显示这三个变量的秩优势比均为阈值函数,之前是否参合的优势比变化幅度即阈值范围最大,对参合的意愿性影响最大。在之前参合的人群中,最大和最小相对优势比在文化水平变量的极值处获得,文化水平对参合意愿的影响相较于人口数更重要,且高中及以上教育的人群更愿意参合。家庭人口数是另一重要影响因素,人口数小于三人的人群参合意愿性更强。这与通过比较标准回归系数的结果一致,三者的标准回归系数分别为-0.3382、0.4167、0.5529。

图5

图6

3 讨论

秩优势比图有很多实际应用,它通过模型中变量的分布,快速直观地概述自变量的相对重要性,帮助处理现有诊断方法不能完全解决的一些问题。通过[0,1]区间的秩比例尺度转换,自变量间的比较不再受衡量单位或尺度的限制,在同一图形中作多条曲线以帮助解释变量的流行病学特征。另外秩优势比图可对多个可选择的变量或变换方式进行比较分析,帮助获得最佳拟合模型,也可作为一种工具核查整个数据范围内logistic回归模型假设的合理性。

秩优势比图还可以用来描述估计优势比由于添加或删除其他变量情况下的变化量,它和标准回归系数一样试图提高变量间的可比性,但两者也有不同点。标准回归系数假设方差为1都能合理衡量变量的变异而对变量进行标准化,但对于不对称分布资料这个方差可能导致回归系数比例尺度的任意性,并且连续性变量和分类变量标准化的假设方差不同。将变量转换为[0,1]区间的秩比例尺度可避免这一任意性,并可比较分析序数分类变量和连续性变量,而且秩优势比图还是一种可视化工具,在描述上更清晰。秩优势比图中参考水平的选取存在任意性,这里建议用能使估计对数优势的标准误和置信带宽度最小的变量观测的中位数。

农户是否积极参合是新型农村合作医疗制度建立的关键。通过本调查分析,我们看到新型农村合作医疗制度的实施深受广大农民群众的支持,利于进一步深化改革和推广,但还有一小部分人不愿意参加新农合,主要受文化水平、家庭人口数和是否参合过的影响。随着教育层次的提高愈倾向参合,人口数多的家庭参合意愿性反而下降,这是由于人口越多经济负担越重,人群更不愿意参合。我们建议要加大新型农村合作医疗的宣传工作,积极引导,采取切实可行的方式解决多人口家庭和低文化水平群众的参合问题,提高农民参合的意识和积极性。相信随着制度的不断完善和受益范围的不断扩大,将会有越来越多的人群参加新型农村合作医疗。

[1]Greenland S,Schlesselman JJ,Criqui MH.The Fallacy of Employing Standardized Regression Coef fi cients and Correlations as Measures of Effect[J].American Journal of Epidemiology,1986,123(2).

[2]Bring J.How to Standardize Regression Coef fi cients[J].The Ameri⁃can Statistician,1994,48(3).

[3]Zhao LP,Kristal A,White E.Estimating Relative Risk Function in Case-control Studies Using a Nonparametric Logistic Regression[J].Am.J.Epidemiol,1996,(144).

[4]Karvanen J,Frank E,Harrell J.Visualizing Covariates in Proportional Hazards Model[J].Statistic in Medicine,2009,(28).

[5]沈其君主编.SAS统计分析[M].北京:高等教育出版社,2005.

C815

A

1002-6487(2012)24-0087-02

国家自然科学基金资助项目(81172771)

(责任编辑/易永生)

猜你喜欢
人口数回归系数新农
确定代表名额按户籍人口数还是常住人口数
太行山深处的“新农人”
多元线性回归的估值漂移及其判定方法
基于BP神经网络的吉林省GDP预测研究
新农人时语
电导法协同Logistic方程进行6种苹果砧木抗寒性的比较
电导法协同Logistic方程进行6种苹果砧木抗寒性的比较
新农人时语
城镇居民收入差距主要因素回归分析
“新农合”县级统筹弊端多