丁先文,陈建东,朱小芹
(江苏理工学院 数理学院,江苏 常州 213001)
关于线性回归模型的统计分析一直都是统计学的热点研究课题。基于最小二乘估计方法对回归模型进行统计分析已被广泛研究并应用在各个领域。然而,普通的最小二乘回归(均值回归)只能描述协变量对响应变量均值的影响,而不能刻画对响应变量条件分布的影响,而且当误差的方差比较大或数据中存在异常点时,最小二乘方法的有效性将备受挑战。Koenker和Bassett(1978)[1]提出了分位数回归模型,随后对该模型进行了系统的研究和推广。通过估计不同的条件分位数函数,分位数回归可以系统地刻画协变量对响应分布的影响。此外,分位数回归模型对误差分布不作任何假设,这使得分位数回归模型得到了许多研究者的深入研究并在各领域得到了广泛应用。关于分位数回归模型的研究进展和详细介绍,见Koenker(2005)[2]。
在许多实际问题中,如抽样调查、临床试验、经济调查等,由于被调查对象不愿回答问题等各种因素,经常会导致缺失数据的产生。对缺失数据的统计研究是近年来统计学的热点研究问题。Little和Robin(2014)[3]定义了三种不同的数据缺失机制,即完全随机缺失、随机缺失(MAR)和不可忽略缺失。在实际运用中,通常假设数据的缺失机制是MAR,即缺失数据只与完全观测的数据有关。在对缺失数据进行统计分析时,一种常用的方法是只用观测数据进行统计推断,这在缺失率较大时会产生较大的统计偏差;另一种方法就是对每一个缺失值采用某种统计方法进行插补,然后对插补后的数据集进行统计分析。有关缺失数据方面的介绍,见Little和Robin(2014)[3]。
近年来,对带有缺失数据的分位数回归模型的统计分析引起了一些研究者的兴趣。如Sherwood(2013)[4]考虑了协变量随机缺失下分位数回归模型的参数估计问题;Liu和Yuan(2016)[5]基于经验似然方法研究了加权分位数回归的参数估计问题。然而,他们的方法都考虑了协变量随机缺失并只利用了观测数据信息进行分析,这在数据的缺失率较大时会带来较大的估计误差。关于响应变量随机缺失下分位数回归模型的统计分析很少有文献报道。李乃医等(2015)[6]研究了响应变量随机缺失下非线性回归模型的参数的经验似然置信域问题。本文研究了响应变量随机缺失下分位数回归模型的参数估计问题,利用参数插补方法对缺失的响应变量进行多重插补,然后基于插补后的数据集对回归模型进行参数估计。计算结果表明该方法在缺失率较大的情况下也可以得到有效的参数估计。另外,提出的方法对数据中的异常值并不敏感且当误差分布为重尾分布时,也有较好的估计结果。
考虑下面的线性回归模型:
其中Yi与Xi分别表示响应变量及p维协变量,β是p维的回归系数,εi为具有未知分布函数的随机误差项。在给定Xi的条件下,令Yi的τ条件分位数为βτ且满足其中 0<τ<1 。设 {Xi,Yi,为来自模型(1)的独立同分布的随机样本,其中Xi可被完全观测,Yi可能缺失。假定δi=1表示Yi可观测,δi=0表示Yi缺失。本文假定Yi的缺失机制为随机缺失(MAR),即 πi=P(δi=1|Xi,Yi)=P(δi=1|Xi),πi在文献中常被称为倾向得分(Propensity score)。
对响应变量随机缺失的情形,参数估计可采用成对删除方法,即:
其中ρτ(t)=t(τ-I(t≤0))为检查函数,I(.)为示性函数。这种估计方法在缺失率较大的情形下,估计量的偏差会变大,使得估计结果不可信。处理缺失数据的另外一种常见的方法是考虑对每个缺失的响应变量行多次插补,然后基于插补后的数据集进行参数估计。令{y:F(y|Xi)≥u}是Yi在给定协变量Xi下的第u个条件分位数,其中u为来自均匀分布的一个随机数,F(y|Xi)是给Y在给定协变量Xi下的条件分布函数。注意到,在响应变量Yi随机缺失下,有F(y|X=Xi,δi=1)=F(y|X=Xi,δi=0)成立,这样就有Qu(yi|X=Xi,δi=1)=Qu(yi|X=Xi,δi=0)。在这里,本文假设线性模型Qu(Yi|Xi)=XTiβu。在MAR的假设下,E{δiXi[I(Y<XTiβu)-u]}=0。
因此,可以得到βu的一个相合估计为:
相比于只利用观测数据进行参数估计,该估计方法即使在缺失率较大时也可以得到一个稳健的参数估计结果。另外,与通常的非参数插补方法相比,即使协变量维数p很大时,该方法也是可行的。
关于分位数回归模型的参数估计,通常的计算软件都可实现。目前较为流行和广泛采用的方法是利用R软件中的软件包quantreg进行计算。假设为来自模型(1)的独立同分布的随机样本,不失一般性,假定前n1个Yi可观测,后n-n1个Yi不可观测,即将原始样本分为两部分。模型的参数估计过程如下:
(1)随机产生m个均匀分布的随机数{u1,u2,...,um};
(3)基于观测数据{Xk,k=n1+1,...,n}和步骤(2)的结果,对缺失的Yi进行插补,即对每个Yk,其插补值为
以上计算过程中的(2)和(4)可以调用R中的quantreg软件包实现。
为实施模拟,本文从以下模型中产生数据:
其中β=(1,2,3)T为三维待估参数向量,对应的Xi的每一个分量都独立同分布于标准正态分布,Yi根据模型产生,模型误差服从以下分布:M1:标准正态分布N(0,1);M2:自由度为3的t分布t(3);M3:混合正态分布0.1N(0,1)+0.9N(0,10);M4:混合拉普拉斯分布 0.1Lap(0,1)+0.9Lap(0,10)。假设缺失概率其中,γ的取值为以下两种情形:C1:γ=(0.85,1.50,1.50,0.85)T;C2:γ=(-1.80,0.50,1.50,0.85)T,相应的响应变量Yi的缺失率分别为25%和60%。本文对缺失的Yi进行多重插补,插补的次数设定为m=10次。通过多次模拟可知,插补10次后,参数估计结果就很稳定,并且插补后的估计结果对插补次数并不敏感。将模拟计算独立重复1000次,计算结果如表1和下页表2所示。表中Bias表示1000次重复模拟的参数估计的均值与真实值的绝对偏差,SD表示1000次模拟的参数估计的标准差,RMS表示1000次模拟的参数估计的均值与真实值之差的平方和的平方根。
表1 缺失率为25%时的模拟计算结果
表2 缺失率为60%时的模拟计算结果
从表1和表2可以看出:
(1)对两种估计方法,减少缺失率有利于减小估计的偏差和提高估计的精度;
(2)针对不同的误差M1至M4,基于文中提出的插补方法得到的参数估计结果比基于完全观测数据得到的结果具有较小的Bias、SD和RMS,这说明提出的多重插补方法可以减小估计偏差并能提高估计的有效性;
(3)基于插补方法得到的参数估计结果在不同的分位点处表现都很好。
本文研究了在响应变量随机缺失下分位数回归模型的参数估计问题。传统的基于成对删除数据的估计方法没有利用所有可观测到的协变量的信息,在数据的缺失率较大时容易产生较大的偏差,降低了估计效率。本文首先基于观测数据得到了模型的参数估计;其次在MAR假定下,对缺失的响应变量进行了多重插补,从而得到了插补后的数据集;最后基于插补后的数据集对分位数回归模型进行参数估计。该插补方法在数据的缺失率较大时依然有效,并且由于采用的是参数插补方法,即使当协变量维数很高时,方法依然有效。模拟计算说明了该方法的有效性。本文的方法可以应用于微观经济、医药追踪试验和抽样调查等带有缺失数据的各种领域。
参考文献:
[1]Koenker R,Bassett Jr G.Regression Quantiles[J].Econometrica:Journal of the Econometric Society,1978.
[2]Koenker R.Quantile Regression[M].Cambridge:Cambridge University Press,2005.
[3]Little R J A,Rubin D B.Statistical Analysis with Missing Data[M].New Jersey:John Wiley&Sons,2014.
[4]Sherwood B,Wang L,Zhou X H.Weighted Quantile Regression for Analyzing Health Care Cost Data With Missing Covariates[J].Statistics in Medicine,2013,32(28).
[5]Liu T,Yuan X.Weighted Quantile Regression With Missing Covariates Using Empirical likelihood[J].Statistics,2016,50(1).
[6]李乃医,李永明,韦盛学.缺失数据下非线性分位数回归模型的光滑经验似然推断[J].统计与决策,2015,(1).