张登峰,张志明
(1.陕西咸阳彩虹学校,陕西 咸阳 712046;
2.云南师范大学数学学院,云南 昆明 650500)
Poisson回归模型的影响分析*
张登峰1,张志明2
(1.陕西咸阳彩虹学校,陕西咸阳712046;
2.云南师范大学数学学院,云南昆明650500)
文章对经典的Poisson回归模型,进行了参数估计和参数检验,并对模型进行了统计诊断,做出诊断图,判断出强影响点,并利用帽子矩阵分解原理及数理统计原理,探索挖掘出新的诊断图来判断强影响点,最后通过实证分析表明所研究的是有用和有效的.
Poisson回归模型;强影响点;帽子矩阵;诊断图
近年来,国内外对Poisson回归模型的研究趋势一直在上升,对该模型的统计诊断的研究也有了一定的成熟理论.Poisson回归模型的统计诊断主要是在线性模型的诊断基础上发展和提出的.Cook(1977)[1]提出了一系列的线性回归模型的诊断方法,其中最为著名的是Cook(1979)[2]统计量.此后,许多学者直接将Cook的诊断思想移入非线性模型中,并取得良好效果.Cook和Weisberg(1980)[3]提出一种泛型的经验影响函数,这个函数至少理论上能达到寻找强影响点目的,但很难实施,运算量过大,且效果不太好.Pregibon(1981)[4]在线性模型的基础上,利用扰动原理探究强影响点,对Logistic做了系统的统计诊断;不仅如此,Landwehr和Pregibon等(1984)[5]还提出了一系列有价值的诊断统计图,如指标图、杠杆值对Pearson残差图,删除数据的系数影响图等,使强影响点达到可视化的效果.Cook(1986)[6]提出通过给模型增加扰动来研究局部影响的方法,Thomas和Cook(1989)[7]研究了广义线性模型的局部影响分析方法.韦博成,林金官等人(2009)[8]讨论了广义线性模型的回归诊断.谢书培,韩俊林(2011)[9]对Logistic回归模型进行了局部影响分析.近年来,对Poisson回归模型的诊断研究相对较少.施红星(2009)[10]通过局部影响分析对Poisson回归模型进行了诊断与分析.Zakariya Y.Algamal(2012)[11]对Poisson回归模型进行了统计诊断,给出一种寻找强影响点的方法.笔者利用诊断统计量,做出诊断图,判断出强影响点,并利用帽子矩阵分解原理及数理方法给出寻找强影响点的又一种方法.
先考虑Poisson回归模型:
其中(yi,χTi)表示第i组数据点,XTi=(1,χi1,χi2,…,χip),β=(β0,β1,…,βp)T为待估参数,称式(1)为Poisson回归模型.
则对数似然函数为
对式(2)关于βl(l=0,1,2,…,p)求导,得
(3)、(4)式用矩阵表示为
由高斯-牛顿迭代理论,综合(5)、(6)式得到高斯-牛顿迭代式为:
选取适当的初值,经过一定次的迭代,直至迭代收敛,则有
2.1残差统计量
在Poisson回归模型中,如果第k个数据点被删除,为了说明参数估计值的变化量,这里给出两个诊断统计量:Pearsonχ2统计量和Deviance残差[11].
利用上文的记号,有统计量:
其服从χ2分布,自由度为n-p-1,于是称式(9)为该模型的Pearsonχ2统计量,
Poisson回归模型拟合好坏用偏差统计量(deviance)表示,它是饱和模型(saturated model)和拟合模型对数似然值差的两倍,其在Poisson分布条件下的计算公式为:
2.2模型的帽子矩阵及分解定理性模型的帽子矩阵,从而式(11)具有线性模型帽子矩阵的所有性质,其中H的主对角线上的元素hjj,j=1,2,…,n为Poisson回归模型的杠杆值.
引理 设H=X(XTX)-1XT是线性回归模型的帽子矩阵,若已知设计阵X可以按列分解为X=(X1;X2),则H(X)=H(X1)+H(M(X1)X2),其中M(X1)=I-H(X1).
证明参见文献[12].
2.3Poisson回归模型的影响分析
这里考虑当数据点发生扰动时,模型参数估计会发生什么变化.先定义
这里,0≤w≤1,i=1,2,…,n,式(16)中的w称为第j个数据点对模型的扰动系数.设I(w)=diag(1,…,w,…,1),当w=1时,I(w)是单位阵.
由此,Poisson回归模型的正则方程修正为:XTI(w)Z=0,由高斯-牛顿迭代理论得,当第j个数据点发生扰动时,该模型参数估计为:
当数据点没有发生任何扰动时,模型的参数估计是
于是,
式(14)的证明参见文献[4].式(13)、(14)均可以求出当第j个数据点发生扰动时模型的参数估计,特别
由此得到Cook统计量
称(16)式为Poisson回归模型的Cook统计量.同时还得到数据删除后对拟合值影响的两个统计量:
式(16)、(17)、(18)为Poisson回归模型的三个主要统计量.在实际应用中通常是将这三个统计量作诊断图,从图中判断第j个数据点对模型的影响大小,然后建立比较分析表,从而找出Poisson回归模型的强影响点.
2.4诊断强影响点的系统方法
2.4.1Poisson回归模型的诊断图
2.4.2Poisson回归模型的强影响点诊断步骤
1)通过R软件对数据拟合Poisson回归模型;
4)将初步判定的强影响点删除,对模型进行新的估计,建立比较分析表,最终判定模型的强影响点.
下列数据为某医院在非气质性心脏病并且仅有胸闷症状的就诊者中随机收集30个患者在24小时中的早搏数y,研究早搏与吸烟χ1、喝咖啡χ2和性别χ3的关系.其中y表示24小时内的早搏数,χ1=1表示吸烟,χ1=0表示从不吸烟;χ2=1表示喜欢喝咖啡,χ2=0表示不喜欢喝咖啡;χ3=1表示男性,χ3=0表示女性.对Poisson回归模型进行参数估计得表1:
表1 模型的参数估计Tab.1 Parameter estimation of the model
图1 △的指标图Fig.1 The index chart of△?
图2 △χ2的指标图Fig.2 The index chart of△χ2
图3 △D的指标图Fig.3 The index chart of△D
图4 △对的散点图Fig.4 Scatter plot between△and
图5 △χ2对的散点图Fig.5 Scatter plot between△χ2and
图6 △D对的散点图Fig.6 Scatter plot between△D and
图7 △对hjj的散点图Fig.7 Scatter plot between△and hjj
图8 △χ2对hjj的散点图Fig.8 Scatter plot between△χ2and hjj
图9 △D对hjj的散点图Fig.9 Scatter plot between△D and hjj
图10 γ2j/χ2对hjj的散点图Fig.10 Scatter plot betweenγ2j/χ2/χ2 and hjj
表2 Poisson回归模型的影响分析表Tab.2 Impact analysis table for Poisson Regression Mode
[1]Cook R D.Detection of influential observation in linear regression [J].Technometrics,1977,19:15-18.
[2]Cook R D.Influential observation in linear regression[J].Journal of the American Statistical Association,1979,74:169-174.
[3]Cook R D,Weisberg S.Characterizations of an empirical influence function for detecting influential cases in regression[J].Technometrics,1980,22:495-508.
[4]Pregibon D.Logistic regression diagnostic[J].The Annals of Statistics,1981,9(4):705-724.
[5]Landwehr J M,Pregibon D,Shoemaker A C.Graphical methods for assessing logistic regression models[J].Journal of the American Statistical Association,1984,79(385):61-71.
[6]Cook R D.Assessment of local influence[J].Journal of the American Statistical Association,1986,48:133-169.
[7]Thomas W,Cook R D.Assessing influence regression coefficients in generalized linear models.Biometrika,1989,76:741-749.
[8]韦博成,林金官,解锋昌.统计诊断[M].北京:高等教育出版社,2009:169-194.
[9]谢书培,韩俊林.Logistic回归模型的统计诊断与实例分析[J].聊城大学学报,2011,24(1):27-31.
[10]施红星.Poisson回归模型的统计诊断与影响分析[J].云南师范大学学报:自然科学版,2009,29(5):34-39.
[11]Zakariya Y.Algama.Diagnostic in Poisson regression models [J].Electronic Journal of Applied Statistical Analysis,2012,5(2):178-186.
[12]Rao C R,Toutenburg H.Linear Model and Generalizations[M]. Berlin:Springer,2008(19):322-324.
[13]茆诗松.统计手册[M].北京:科学出版社,2003:521-541.
[14]谭宏卫,曾捷.Logistic回归模型的影响分析[J].数理统计与管理,2013,32(3):476-485.
[15]肖枝洪,朱强.统计模拟及其R实现[M].武汉:武汉大学出版社,2010:80-98.
[责任编辑 苏 琴]
[责任校对 方丽菁]
Explore Strong Influential Points and Example Analysis for Poisson Regression Model
ZHANG Deng-feng1,ZHANG Zhi-ming2
(1.Shanχi Xianyang Rainbow School,Xianyang712046,China;
2.Yunnan Normal University,College of Mathematics,Kunming650500,China)
In this paper,based on introductions of the definition,parameter estimation of the classical Poisson regression model,this paper mainly researches on the Statistical diagnosis models by constructing the diagnosis statistics,and diagnosis index figure to look for strong influential points,and using the hat matrix decomposition principle and mathematical statistics principle to explore new effective diagnostic indicator diagram to determine strong influential points.At last,through the empirical analysis shows that the study is useful and effective.
the Poisson regression model,strong influential points,the hat matrix,diagnosis figure
O212.1
A
1673-8462(2015)01-0056-06
2014-04-27.
春晖计划(Z2009-1-65002).
张登峰(1989-),男,山西运城人,硕士研究生,陕西咸阳彩虹学校教师,研究方向:数理统计.