基于R软件的logistic回归模型建模

2010-12-26 02:05王怀亮
对外经贸 2010年11期
关键词:菏泽估计值因变量

王怀亮

(菏泽学院,山东菏泽 274015)

[经济管理]

基于R软件的logistic回归模型建模

王怀亮

(菏泽学院,山东菏泽 274015)

Logistic回归模型是研究因变量为二分类观察结果与影响因素(自变量)之间关系的重要多变量分析方法模型,但它的计算依赖于统计软件。通过具体实例对自由优秀R软件在处理分析Logistic回归模型作出简要分析。

R软件;logistic回归;广义线性模型

线性回归模型是定量分析中最常用的统计分析方法,但线性回归分析一般要求响应变量是连续变量、数据分布为正态分布等条件。在实际分析研究中,经常遇到的是非连续的响应变量,即分类响应变量,如经济学研究中所涉及的是否购买某种商品、是否满意某种服务等,政治学中经常涉及的研究是否选举某候选人、流行病学中研究的是否患病等。在研究二分变量与诸多自变量的相互关系时,常选用Logistic回归模型。

由于Logistic回归模型涉及较复杂的数学理论,一般无法用手工计算,必须有计算机和统计软件的支持,在统计软件方面,常用的统计软件有 SPSS、SAS、STAT、R、S-PLUS等。R软件是一个自由、免费、开源的软件,是一个具有强大统计分析功能和优秀统计制图功能的统计软件,现已是国内外众多统计学者喜爱的数据分析工具。本文结合实例介绍了R软件在Logistic回归模型中的应用。

一、基于R的Logistic回归模型

Logistic回归(logistic regression)是研究因变量为二分类观察结果与影响因素(自变量)之间关系的一种多变量分析方法,属概率型非线性回归。一般Logistic模型为:

Logistic回归参数的估计通常采用最大似然法(maximum likelihood,ML)。最大似然法的基本思想是先建立似然函数与对数似然函数,再通过使对数似然函数最大求解相应的参数值,所得到的估计值称为参数的最大似然估计值。最大似然估计具有的一致性、有效性和正态性都是一些很好的统计性质,样本数据越大时其估计值就越准确。

由于Logistic回归模型就是基于二项分布族的广义线性模型,因此在R软件中,Logistic回归分析可以通过调用广义线性回归模型函数glm()来实现,其调用格式为

Log<-glm(formula,family=binomial,data)

其中,formula为要拟合的模型,family=binomial说明分布为二项分布,data为可选择的数据框。

二、实例分析

例1 Coupons.sta是一组研究赠券效果的数据。研究者随机选择1000户家庭,将面值分别为5美分、10美分、15美分、20美分或30美分的折扣券发给他们,每种面值的折扣都是200张,发给200个家庭。研究者感兴趣的是折扣券的面值是否影响人们对它们的使用,因此因变量可以表示为每种折扣券分别有多少张被使用,以此来考察折扣券的效果。得到的数据如下表所示,每一行表示在某一折扣水平下,使用或不使用折扣券的户数,最后一列表示折扣券的实际效果,即是否被使用,“是”编码为“1”,“否”编码为“0”。

折扣(美分) 户数 是否使用 折扣(美分)户数 是否使用5 32 是 5 168否10 51 是 10 149否15 70 是 15 130否20 103 是 20 97否30 148 是 30 52否

R语言程序如下:

1.输入数据及作logistic回归:

折扣每增大5美分,人们使用它的概率就会变为原来的exp(0.108719x5)≈0.172倍.

[1]王济川,郭志刚.Logistic回归模型——方法与应用[M].北京:高等教育出版社,2001.

[2]汤银才.R语言与统计分析[M].北京:高等教育出版社,2008.

[3]吕晓玲,谢邦昌.数据挖掘:方法与应用[M].北京:中国人民大学出版社,2009.

O212.1

B

1002-2880(2010)11-0117-02

王怀亮(1981-),男,汉族,山东曹县人,菏泽学院经济系助教,硕士,主要从事计量经济统计分析。

(责任编辑:马 琳)

猜你喜欢
菏泽估计值因变量
调整有限因变量混合模型在药物经济学健康效用量表映射中的运用
乡村振兴的“菏泽路径”
适应性回归分析(Ⅳ)
——与非适应性回归分析的比较
2019年底前山东菏泽境内三条高速可通车
菏泽牡丹,花开全新产业链——第27届菏泽牡丹文化旅游节盛大开幕
统计信息
2018年4月世界粗钢产量表(续)万吨
偏最小二乘回归方法
Leadership Change: a Perspective from China
2014年5月世界粗钢产量表万吨