胡纯严 ,胡良平 ,2*
(1.军事科学院研究生院,北京 100850;2.世界中医药学会联合会临床科研统计学专业委员会,北京 100029*通信作者:胡良平,E-mail:lphu927@163.com)
在构建广义线性回归模型的过程中,常涉及参数的检验问题,例如:检验部分或全部回归系数是否为0,检验单个效应是否不在回归模型中以及检验平行线假定是否成立。在统计学上,实现前述检验的具体方法有评分检验、似然比检验和Wald检验。本文仅介绍评分检验及其SAS实现。
设资料由观测值 x1,x2,…,xN组成,并假定可用依赖于参数θ的概率模型f(x;θ)来描述该资料。当变量x只有有限个可能的取值代入函数f(x;θ),从而指定每一个输出的概率;当存在无穷多个输出f(x;θ)来指定概率密度函数时,对数似然函数可表示如下:
此时,评分函数[1]表示如下:
在式(2)中,“'”代表求函数的导数;若θ̂是θ的最可能值,则满足u(θ̂)=0。
设θ0是θ的真值,则评分就具有均值为0、方差为i(θ0),则下式定义的检验统计量Z服从标准正态分布:
基于式(3)定义的检验被称为评分检验[1]。文献[1]还给出了Wald检验统计量,见下式:
在式(4)中,θ̂是θ的最大似然估计值,θ0是θ的真值,j-1是θ的方差。
在评分检验统计量中,参数θ可以是一维的,也可以是多维的(被称为参数向量)。在统计学上,经常将3种检验统计量(即评分检验统计量、似然比检验统计量和Wald检验统计量)[1-3]同时呈现出来,其主要用途如下:检验部分或全部回归系数是否为0、检验单个效应是否不在回归模型中、检验平行线假定是否成立以及检验线性假设是否成立等。
设回归模型中的回归系数向量β具有K个分量,在SAS/STAT的PHREG过程中,给出的5个检验统计量(即似然比检验统计量、一般评分检验统计量、Wald’s检验统计量、稳健评分检验统计量和稳健Wald’s检验统计量)都服从自由度df=K的χ2分布。这5种检验都可以用于检验回归模型中全部回归系数是否都等于0,即H0:β=0。其中,一般评分检验统计量的定义有以下两种表达形式,见式(5)、式(6)[2-3]:
在SAS/STAT的PHREG过程中,稳健评分检验统计量的定义[2]如下:
式(7)中,L0i是第i个受试者在β=0处的评分残差;也就是说,L0i=Li(0,∞),得分过程L(iβ,t)的定义如下:
向量L̂i≡Li(β̂,∞)是第i个受试者的得分残差。
【说明】在SAS/STAT的PHREG过程中,介绍了4种残差,分别是边际残差、偏差残差、Schoenfeld残差和得分残差。上式中涉及其他一些变量或符号,参见文献[2],此处从略。
2.3.1 检验部分或全部回归系数是否为0
在累积和广义(或扩展)的logistic回归模型中,假定因变量有K(i=1,2,…,K)个类别,共同的自变量有S个。也就是说,在每一类中拟合logistic回归模型时,都涉及一个截距项和S个自变量(注:指尚未筛选掉某些自变量)。为了检验部分回归系数是否为0,可以采用残差评分χ2检验。
让g(β)代表对数似然函数关于参数向量β的一阶偏导数向量;让H(β)代表对数似然函数关于参数向量β的二阶偏导数矩阵。也就是说,g(β)是梯度向量,而H(β)是哈森矩阵。让I(β)代表“-H(β)”的期望。考虑一个无效假设H0,让β̂H0是无效假设条件下β的最大似然估计值(MLE)。在SAS/STAT的LOGISTIC过程中,残差评分检验统计量的定义如下:
式(9)中的χ2RS渐近服从自由度为df的χ2分布。其中,参数向量β、无效假设H0与H0对应的向量β和自由度df都会随着因变量的具体情形不同而有所变化。具体地说,有以下两种情形。
情形一:累积反应变量模型或称多值有序因变量模型。
参数向量β=(α1,α2,…,αK,β1,β2,…,βS)';无效假设 H0:βt+1=βt+2=…=βS,t
情形二:广义反应变量模型或称多值名义因变量模型(当K=2时为二值反应变量)。
参数向量 β =(α1,α2,…,αK,β'1,β'2,…,β'S)';其中,β'i=(βi1,βi2,…,βiS);i=1,2,…,K;无效假设 H0:βi,t+1=βi,t+2=…=βi,S,t
2.3.2 检验单个效应是否不在回归模型中
解决问题的基本思路:假定有两组自变量,A组中有S个自变量(可构建一个全模型);B组中有S-1个自变量(可构建一个简化模型);B组中的全部自变量都包含在A组中。将A组比B组多出来的一个自变量记为xt[t∈(1,2,…,S)],于是,将A组与B组自变量及其资料分别代入式(4)计算,便可得到两个χ2值,它们具有不同的自由度。求出这两个χ2值之差,再基于它们的自由度之差,就可依据χ2分布求出尾端概率。
自由度的确定方法:若是多值有序因变量,全模型与简化模型的自由度之差等于1;若是多值名义因变量,全模型与简化模型的自由度之差等于K(当K=2时为二值因变量的情形)。当检验结果为P<0.05,表明不在B组中的自变量xt[t∈(1,2,…,S)]具有统计学意义;反之亦然。
2.3.3 检验平行线假定是否成立
设因变量Y为多值有序的且水平数为K+1(即水平数大于2),让因变量Y的取值分别为1,2,…,K,K+1。假定有S个自变量,在没有平行线假设的条件下,一般的累积logistic回归模型可用下式表达:
在 式(10)中 ,g(·)是 连 接 函 数 ;βi=(αi,βi1,βi2,…,βiS)'是Y=i条件下的一个未知参数向量,它的分量分别是一个截距、S个斜率。这个一般累积模型的参数向量可表示成:β=(β'1,β'2,…,β'K)',它是由K个分量组成的一个向量,而每个分量就是前面所呈现的向量[即βi=(αi,βi1,βi2,…,βiS)']。
给定平行线的无效假设:H0:β1m=β2m=…=βKm,1≤m≤S。回归系数β有两个下标,第1个下标代表因变量Y的取值或水平代码,第2个下标代表自变量的顺序编号。若用语言描述上述无效假设H0,即在因变量Y的K个水平条件下的K个logistic回归模型中编号相同的自变量具有相等的回归系数。也就是说,K个logistic回归模型仅截距不同,自变量线性组合中只有一组共同的回归系数。
用统计学语言表述如下:让 β1,β2,…,βS代表共同斜率系数,让 α̂1,α̂2,…,α̂K和 β̂1,β̂2,…,β̂S分别代表截距参数与斜率参数的最大似然估计值。那么,在H0成立的条件下,β的最大似然估计见式(11):
此时,与无效假设H0对应的残差评分χ2检验统计量见式(12):
【说明】对平行线假定的检验可视为对参数有线性约束的检验(简称约束检验[6])的特例,后者常被冠以拉格朗日乘数检验(参见下文)。
让β͂为在限制条件L'β=0下从广义估计方程中求解得到的回归参数;让 S(β͂)为在 β͂时广义估计方程的值。Boos和Rotnitzky与Jewell描述了在广义估计方程中将评分检验应用于检验L'β=0,其中L'是用户指定的r×p阶比较矩阵。于是,广义评分检验统计量[2]见下式:
在式(13)中,∑m是基于模型的协方差估计值,∑m是经验协方差估计值,T服从自由度df=r的χ2分布。
在SAS/STAT的GENMOD过程中的定义如下:当用户给回归模型中的参数施加某些限制(例如:NOINT,即强制性要求截距为0;又例如:NOSCALE,即强制性要求某些定量随机变量的概率分布中的尺度参数取固定值)时,需要有相应的检验方法来评价这些限制的有效性。这个检验方法被称为拉格朗日乘数检验或约束评分检验。检验统计量[2]见式(14):
式(14)中,S是在与被限制参数对应的限制的最大值点上估计的评分向量的成分;而V=I11-I12I-122I21,其中矩阵I是信息矩阵,下标中的1指被限制的参数,下标中的2指未被限制的其他参数。
【说明】因篇幅所限,在SAS/ETS的ENTROPY过程中的定义、在SAS/ETS的MDC、MODEL和QLIM过程中的定义以及在SAS/ETS的PANEL过程中的定义从略。
【例1】一项关于成年人心理健康问题的研究,调查了某城市40例成年居民的心理健康状况(1=无心理问题,2=存在轻微症状,3=存在中度症状,4=存在精神损害),考察的两个原因变量分别是社会经济地位(0=低,1=高)和生活事件评分,资料见表1[4]。试分析心理健康状况与两个原因变量的关系。
表1 成年人心理健康状况调查资料
【例2】随机纳入30例在某医院就诊的仅有胸闷症状的非器质性心脏病患者,收集患者在24小时中的早搏数(y),试问早搏是否与吸烟(x1)、性别(x2)和喝咖啡(x3)有关。资料见表2[5]。
表2 某医院伴有胸闷症状的非器质性心脏病患者情况
3.2.1 对例1的分析与解答
【分析与解答】设所需要的SAS程序如下:
【SAS输出结果及解释】
第1个过程步的主要输出结果:
以上是模型中含有截距项和自变量life时的比例优比假设的评分检验结果,也被称为平行线假设检验结果。因χ2RS=0.8865,df=2,P=0.6419,说明资料满足构建logistic回归模型的前提条件。
以上是采用3种检验方法检验此时的logistic回归模型(含截距项和一个自变量life)是否成立,由于3种检验结果均有P<0.05,说明此时的logistic回归模型成立。
以上是逐步选择汇总,从第2列与倒数第3列可知,选择自变量进入回归模型时采用的是评分χ2检验;而从第3列与倒数第2列可知,删除自变量时采用的是 Wald χ2检验。
第2个过程步的主要输出结果:
以上输出的是平行线假定的检验结果,因P=0.6761>0.05,说明资料满足构建logistic回归模型的前提条件。
以上是采用3种检验方法检验此时的logistic回归模型[含截距项和两个自变量(life和society)]是否成立,由于3种检验结果均有P<0.05,说明此时的logistic回归模型成立。
以上输出的是线性假设检验结果。第1行的结果说明0.5×β1+1×β2=0的假设成立;第2行的结果说明 β1=β2的假设不成立。这里采用的是 Wald χ2检验,而不是似然比χ2检验和拉格朗日χ2检验。
【说明】为节省篇幅,以上仅呈现了与评分检验有关的输出结果,故不适合给出统计结论与专业结论。
3.2.2 对例2的分析与解答
【分析与解答】设所需要的SAS程序如下:
【SAS输出结果及解释】
第1个过程步的主要输出结果:
以上输出的是拉格朗日乘数检验结果,χ2LM=8.6315,P=0.0017,说明资料存在过度离散现象,不适合直接拟合Poisson分布回归模型。
第2个过程步的主要输出结果:
以上输出的是拉格朗日乘数检验结果,χ2LM=0.9727,P=0.1620,说明此时的资料(不包括自变量x3)不存在过度离散现象,可直接拟合Poisson分布回归模型。
第3个过程步的输出结果与评分检验无关,为节省篇幅,此处从略。
【说明】为节省篇幅,以上仅呈现了与评分检验有关的输出结果,故不适合给出统计结论与专业结论。
在进行广义线性模型[6]分析,特别是进行多重logistic回归模型[7-10]分析时,在多个环节上需要对参数进行假设检验,有时还需要在参数处于特定约束条件下对其进行检验。通常涉及3种检验,即评分检验、似然比检验和Wald检验;当有约束条件时,其检验被称为约束检验[6]或拉格朗日乘数检验[2],但它们也被称为评分检验[2]。当在某种场合下同时应用以上提及的多种检验方法时,检验结果可能不尽相同,但通常情况下不会出现截然相反的结果。事实上,在上述提及的几种检验统计量的推导过程中,一般都基于大样本条件下给出渐近的结果,而不是精确计算的结果。
本文介绍了与评分检验有关的基本概念,介绍了5种评分检验统计量,即一般评分检验统计量、稳健评分检验统计量、残差评分检验统计量、广义评分检验统计量和拉格朗日乘数(或约束评分)检验统计量。在介绍残差评分检验统计量这部分内容时,详细呈现了在构建广义线性模型过程中的3种适用场合;在介绍拉格朗日乘数(或约束评分)检验统计量这部分内容时,详细呈现了此种检验统计量的多种不同定义形式,该检验主要用于对参数有线性约束的场合。最后,基于两个实例并借助SAS软件,说明了评分检验的常用场合和呈现形式。