胡良平
(1.军事科学院研究生院,北京 100850; 2.世界中医药学会联合会临床科研统计学专业委员会,北京 100029
1.1.1适于一般计数资料Poisson分布回归模型的数据结构
适于一般计数资料Poisson分布模型的数据结构见表1[1]。
【对数据结构的分析】因变量Y为“计数变量”,其均值为7.467、方差为13.016,方差稍大于均值,只能将Y近似视为服从Poisson分布的离散型随机变量(理论上,均值应等于方差);拟考察的三个自变量均是“二值变量”,在回归分析中是可以接受的,但在统计学理论中,默认自变量为“计量变量”。
1.1.2 Poisson分布概率函数[2]
设Y是一个服从Poisson分布的随机变量,X=(1,x1,x2,…,xq)'是一个协变量向量,β=(β0,β1,β2,…,βq)'是参数向量。如果Y的数学期望的对数可以表示为协变量的线性表达式,即E(Y|X)=exp(X'β)=或ln[E(Y|X)]=X'β,则称(Y,X)服从Poisson分布回归模型。对应的表达式见下面的式(1):
(1)
表1 三个可能的影响因素(X1-X3)对30例非气质性心脏病且仅有胸闷症状就诊者24小时早搏数Y的观察结果
注:Y,24小时中早搏数;X1,是否吸烟(1-吸烟、0-不吸烟);X2,是否喝咖啡(1-喝、0-不喝);X3,性别(1-男、0-女)
1.1.3 一般计数资料Poisson分布回归模型的表达式
(2)
值得注意的是:统计软件给出的计算结果是下面式(3)等号右边回归系数的估计值。也就是说,Poisson分布回归模型的“核心部分”是其“期望值(或称均值)”,用自变量的线性组合来表达计数因变量Y的期望的自然对数。
ln[λ(X)]=β0+β1x1+β2x2+…+βmxm+ε
(3)
式(3)中的“ln”代表“自然对数函数”,λ(X)代表服从Poisson分布的离散型随机变量Y的均值,X代表所有自变量构成的“向量”,ε代表模型的误差。有些统计学教科书将式(3)称为“Poisson分布回归模型”,这是不够准确的。它应被视为“Poisson分布回归模型”的“内核”,即“核心内容”,外文文献中称其为“Poisson分布回归模型”的“连接函数”。
1.2.1 求解参数的思路
如何求解出式(3)中的回归系数呢?首先,应该明白:λ(X)是X的函数,在实际资料中是无法观测到的,它随着X取值的改变而变化,是一个“隐变量”;回忆求解多重线性回归模型中的参数时所面临的“处境”,在那里,计量因变量Y的取值是可以观测到的,是“显变量”[3-6]。
显然,直接根据式(3)无法求出式中的回归系数。需要基于式(2)并采用“最大似然法”[7]构造“目标函数”,运用高等数学方法,将“目标函数”转变成“方程组”,再运用“计算数学”或“统计计算”等技术方法求解“方程组”。由于方程组为“非线性方程组”,一般没有直接解,需用到迭代计算法,如加权最小二乘迭代或牛顿-纳法生迭代法。从而获得式(3)的“参数估计”结果。因篇幅所限,参数估计公式的详细推导过程从略。
1.2.2 Possion回归系数的假设检验
1.2.2.1 似然比检验
通过比较两个相嵌套模型(如模型P嵌套于模型K内)的对数似然函数统计量G(又称Deviance)来进行,其统计量见式(4):
G=GP-GK=-2× (模型P的对数似然函数-模型K的对数似然函数)
(4)
其中,模型P中的变量是模型K中变量的一部分,另一部分就是需要检验的变量。这里,G服从自由度为K-P的χ2分布。
1.2.2.2 回归系数的Wald检验
比较估计系数与“0”的差别是否有统计学意义,其检验统计量见式(5):
(5)
这里z为标准正态变量。参数的置信区间是基于Wald统计量导出的。β的95%置信区间见式(6):
(6)
1.2.3 Possion拟合优度检验
1.2.3.1 Deviance偏差统计量
设L(bmax;y)为全模型的似然函数,L(b;y)为选模型(含部分自变量的模型)的似然函数,则定义λ统计量见下面的式(7):
λ=L(bmax;y)/L(b;y)
(7)
计算Deviance偏差(D)统计量,采用公式(8):
D=2lnλ=2[lnL(bmax;y)-lnL(b;y)]
(8)
且D服从χ2分布。很显然,D越大,模型的估计值与观测值的偏差就越大,拟合效果就越差。
1.2.3.2 广义χ2统计量
广义χ2统计量见式(9):
(9)
利用下面的SAS数据步程序,创建名为“maop1006”的SAS数据集:
data maop1006;
input obs X1-X3 Y @@;
cards;
1011111610011 2000 717011 8 3000 318101 9 4101 519000 8 5000 220100 5 61111321011 5 7010 622110 8 8101102311013 9000 424001 810101 725100 611000 126001 412001 927000 613001 6281111314111 1729110 915000 530001 5;run;
利用下面的两个SAS过程步程序,求出因变量Y的均值与方差。
proc univariate data=maop1006 noprint;
var Y;
output out=aaa mean=ybar var=yvar;
run;
proc print data=aaa;
var ybar yvar;
run;
【SAS输出结果】
Obsybaryvar17.4666713.0161
求出Y的均值和方差分别为7.467、13.016。
利用下面的SAS过程步构建Poisson分布回归模型:
proc genmod data=maop1006;
model Y=X1-X3/link=log dist=poisson;
run;
【SAS程序说明】“link=log”表明采用“自然对数”作为连接函数,即对计数因变量取自然对数变换;“dist=poisson”表明要基于Poisson分布构建Poisson分布回归模型。
【SAS主要输出结果】
最大似然参数估计值的分析
以上结果表明:X3(性别)对因变量的影响无统计学意义。此结果是否正确,有待进一步研究。
利用下面的SAS过程步程序构建Poisson分布回归模型,重点在于检验因变量是否存在“过离散”现象:
proc genmod data=maop1006;
model Y=X1-X3/link=log dist=nb noscale;
run;
【SAS程序说明】“dist=nb”说明指定资料中因变量(误差项)的分布为“负二项分布”;关键问题在于:只有指定为此分布时,才能发挥选项“noscale”的作用,它是将冗余参数k的取值固定为“0”,相当于进行Poisson分布回归分析,同时,采用拉格朗日(Lagrange)乘子检验“因变量是否存在‘过离散’现象”。
【SAS主要输出结果】
第1部分输出结果同上,从略。
拉格朗日乘数统计量参数卡方Pr > 卡方离散度8.63150.0017*
注:*单侧P值
以上结果表明:因变量确实存在“过离散”现象,构建Poisson分布回归模型时应对其进行校正。
利用下面的SAS过程步程序构建Poisson分布回归模型,对“过离散”现象进行校正:
proc genmod data=maop1006;
model Y=X1-X3/link=log dist=poisson scale=deviance;
run;
【SAS程序说明】选项“scale=deviance”是要求对“过离散”进行校正后,再构建Poisson分布回归模型。
【SAS主要输出结果】
最大似然参数估计值的分析
以上结果表明,尺度参数由“1”调整为“0.9510”,由此,模型中各参数的“标准误”均得到“校正”。故最后两列的数值也都得到校正。经校正后,原来无统计学意义的“X3”变为有统计学意义。由以上结果可以写出Poisson分布回归模型中的“内核”:
ln[λ(X)]=1.5066+0.4162X1+0.4012X2+0.2546X3
λ(X)=e1.5066+0.4162X1+0.4012X2+0.2546X3
若将上面的λ(X)代入本文第1.1节中的式(2),就可获得完整的“Poisson分布回归模型”。
【专业结论】因X1、X2和X3前的系数分别为exp(0.4162)=1.516189、exp(0.4012)=1.493616和exp(0.2546)=1.289946,又因为X1代表“是否吸烟(1-吸烟、0-不吸烟)”、X2代表“是否喝咖啡(1-喝、0-不喝)”、X3代表“性别(1-男、0-女)”,说明吸烟者出现早搏的概率是不吸烟者的1.516倍、喝咖啡者出现早搏的概率是不喝咖啡者的1.494倍,而男性受试者出现早搏的概率是女性受试者的1.290倍。