曾 婕,胡国治
(合肥师范学院 数学与统计学院,安徽 合肥 230601)
线性回归模型描述了自变量对因变量的条件分布的影响过程,拟合该模型通常采用传统的最小二乘法。然而,在实际的经济生活中,收集到的数据往往存在异常值、异方差及尖峰或厚尾分布等情况,此时根据最小二乘法往往会得到较差的甚至错误的推断结果。1978 年,Koenker 和Bassett[1]提出了分位数回归的思想,弥补了最小二乘法在回归分析中的缺陷并获得了更稳健的估计结果。分位数回归利用响应变量的条件分位数和协变量进行建模,得出了所有分位点下的回归模型,更准确地刻画了协变量和响应变量间的关系,从而得出更全面更稳健的统计分析结论。关于分位数回归的基本理论和基本方法介绍详见Koenker[2]。
在实际生活中收集到的数据往往存在缺失,这给数据的分析工作带来了很多的困难。目前,逆概率加权是处理缺失数据的一种较常见的方法,根据该方法推导出的估计量具有双重稳健性。本文引入因果推断中提出的协变量平衡倾向得分(Covariate balancing propensity score,CBPS)思想对逆概率加权方法下的选择概率进行估计,进而得出线性分位数回归模型中兴趣参数的稳健估计。CBPS 思想是由Imai 和Ratkovic[3]首次提出,通过引入协变量平衡条件减轻了倾向得分函数被错误指定所带来的影响,提高了因果推断中处理效应的估计效果。Guo 等[4]将CBPS 思想应用到缺失数据下的线性回归模型中,构造出稳健的参数估计量。
当实际工作者获得了一组数据后,可以采用统计工具拟合出多个模型,如何从中选取出最合适的模型一直是统计学和计量经济学领域的研究热点。过去的几十年中,统计学者们构造出多种有效的模型选择准则和方法,如AIC(Akaike’s information criterion)[5]、BIC(Bayesian information criterion)[6]、FIC(Focused information criterion)[7]和LASSO(Least absolute shrinkage and selection operator)[8]等。利用这些模型选择方法,可以从众多候选模型中选择出某个“最优”模型,并基于该选定模型进行后续的统计推断。然而,多位统计学者指出,这些方法存在明显缺陷,如忽略了选择阶段的不确定性、容易遗失有用信息等。为避免上述缺陷,将多个模型组合起来的模型平均方法应运而生。
近年来,大量统计学者对模型平均领域进行了深入的研究,取得了丰硕的研究成果。例如,Hansen 基于Mallows 准则提出了MMA(Mallows model averaging)方法[9],Hansen 和Racine 根据去一交叉验证准则提出了JMA(jackknife model averaging)方法[10],Hjort 和Claeskens 在局部误设定框架下推导出了模型平均估计量的极限分布理论等[11]。迄今为止,基于局部误设定框架构造模型平均估计量极限分布理论的研究已经被拓展到各种复杂数据,如面板计数数据[12]、纵向数据[13-14]和删失数据[15-16]等。
本文主要探究协变量随机缺失时,线性分位数回归模型中兴趣参数平均估计量的大样本性质。首先介绍模型框架以及各个候选子模型下回归参数的估计方法,然后给出兴趣参数的模型平均估计量并推导其理论性质,最后根据其渐近分布构造出合适的置信区间,使其覆盖真实参数的概率趋于预期的水平。
考虑具有如下形式的线性分位数回归模型:
其中,Xi=(Xil,…,Xid)T和Yi分别是协变量和响应变量,β(τ)=(β1(τ),…,βd(τ))τ是τ分位数下未知回归参数向量,εi是随机误差且P(εi<0|Xi)=τ,τ∈(0,1)是分位数水平,为简化符号,下文中β(τ)简记为β。假定模型中协变量,其中Vi=(Vi1,…Viq)T可能存在随机缺失,而Wi=(Wi1,…Wip)T以及响应变量Yi可被完全观测。令δi为二元指示变量,若Vi缺失则记δi=0,否则δi=1。
假定部分协变量存在随机缺失,为避免“维数灾祸”问题,将倾向得分(选择概率)函数设置为如下的Logistic 回归模型:
值得关注的是,倾向得分模型存在被错误指定的可能,本文采用最大似然估计得出的参数估计结果可能存在较大的偏差。为提高估计的效果,本文采用CBPS 思想对倾向得分函数中的未知参数进行估计,进而得出兴趣参数的稳健估计量。因此,令倾向得分π(Ti,γ)满足下列协变量平衡条件:
经过简单变换即可得定理2 的结论。证毕。
为充分利用所有模型的信息,定义如下形式的模型平均估计量:
定理4当条件C1-C7 成立且权重函数几乎处处连续时,有
证明根据定理3,采用与Zeng 等[17]中定理4 类似的证明方法可直接得到该结论。
即真实兴趣参数落入基于模型平均估计量构造出的置信区间的概率趋于指定的水平1-2α。
本文在协变量随机缺失的分位数回归模型框架下,基于CBPS 思想推导出了候选模型中回归参数的估计及其渐近性质,构造了兴趣参数的模型平均估计量,并给出了其渐近分布,最后构造了一个覆盖概率趋于预期水平的置信区间。如何将本文研究的模型平均理论结果推广到半参数分位数回归模型和复合分位数回归是我们下一步研究的问题。