分位数回归区间估计方法比较分析

2017-06-05 09:07袁晓惠鞠婷婷
长春工业大学学报 2017年2期
关键词:置信区间样本量位数

袁晓惠, 鞠婷婷, 陈 晶

(长春工业大学 基础科学学院, 吉林 长春 130012)



分位数回归区间估计方法比较分析

袁晓惠, 鞠婷婷, 陈 晶

(长春工业大学 基础科学学院, 吉林 长春 130012)

介绍了分位数回归模型参数的3类区间估计方法,分别为直接法、自助法、诱导光滑法,通过模拟比较他们在覆盖率与置信区间长度方面的表现。

分位数回归; 诱导光滑; 自助法

0 引 言

线性回归模型是统计学中最经典的模型。传统的线性回归研究因变量的条件均值随自变量的变化趋势。此类模型对随机误差的分布有较强的假定。Koenker和Bassett[1]于1978年提出线性分位数回归,考虑因变量的条件分位数对自变量的影响,可以根据不同的条件分位数更全面地认识因变量的条件分布。与传统的线性回归相比,分位数回归模型使用范围更广,估计效果更准确。随着计算机技术的发展,分位数回归模型在经济、金融、生物医学、数据挖掘、环境科学等方面得到广泛应用[2-3]。

分位数回归模型的目标函数是非光滑的,其参数的估计存在一定的困难。针对分位数回归模型参数的区间估计问题,比较流行的有4类方法:

1)直接法。根据参数估计的渐近正态性,运用样本信息直接估计渐近方差中的未知量并构造置信区间。

2)秩得分法。根据秩检验统计量的反演运算构造置信区间。此方法易于理解,计算简单,但是计算速度较慢,尤其在处理大型多维数据时,此算法运行缓慢。

3)自助法[4]。基于重复抽样技术构造回归参数的置信区间。

4)诱导光滑法[5-6]。此方法给参数添加一个正态随机扰动,对不光滑的估计函数在这个扰动下求期望,得到一个新的光滑估计函数,然后基于这个新的光滑估计函数得到回归参数的估计。

经过迭代,诱导光滑方法可以同时得到参数的点估计及其协方差估计,进而得到回归参数的区间估计。由于此方法不需要额外确定调谐参数(如核估计的窗宽),此估计方法得到广泛应用[7-9]。

文中主要介绍直接法、自助法、诱导光滑法构造分位数回归模型区间估计的算法步骤,并通过模拟比较这3种方法构造的置信区间的覆盖率和平均置信区间长度。

1 分位数回归模型及其区间估计

假定得到观测数据为(xi,yi)(1≤i≤n),yi是响应变量,xi是p维协向量,分位数回归模型如下:

其中

1.1 直接法

这里hn是窗宽,当n→,hn→0,根据Hall和Sheather[12]方法选取

1.2 自助法

自助法是Efron[4]于1979年提出的一种再抽样统计方法,通过不断地从原始数据集中有放回抽取新样本,组成新的数据集。渐近理论保证了基于新的数据集计算的估计量与基于原始数据集的估计量有相同的渐近分布。此方法适用于那些难以用常规方法(如极大似然法、矩估计法等)导出参数的区间估计、假设检验等问题。

文中主要介绍如下两种自助法。

1.2.1 成对数据自助法

Arcones和Gine[13]提出成对自助法来构造M-估计的置信区间。成对数据自助法的步骤如下:

1)令 b=1;

4)重复步骤2)和3),直到产生B个β的估计。

1.2.2 加权自助法

Jin[14]等2001年提出一种通过扰动目标函数的重抽样方法。Tang和Leng[15]运用此方法构造纵向数据分位数回归参数的置信区间。此方法应用于分位数回归区间估计的步骤如下:

1)令b=1;

2)从参数为1的指数分布中产生随机数Vi~exp(1),i=1,2,…,n;

4)重复步骤2)和3),直到产生B个β的估计。

1.3 诱导光滑法

诱导光滑法最初是由Brown和Wang[5]于2005年提出,用于估计秩估计的渐近方差。Wang[6]等将之用于构造分位数回归区间估计。由于此光滑方法不像核估计等需要额外估计窗宽,使之得到许多统计学家的青睐。

诱导光滑算法步骤如下:

1)设定Γ的初始值:Γ(0)=n-1Ip;

2 模拟比较

通过模拟研究从置信区间长度和覆盖率两个角度来比较上述3类方法在构造分位数回归参数的置信区间上的表现。从如下分位数回归模型产生数据(xi,yi)(1≤i≤n):

yi=β0+xiβ1+σ(xi)(εi-Qτ(εi))

i=1,2,…,n

β的置信水平为95%的置信区间的平均长度和覆盖率(σ(xi)=1)见表1。

表1 β的置信水平为95%的置信区间的平均长度和覆盖率(σ(xi)=1)

从表1可以看出,直接法和诱导光滑法的置信区间平均长度比自助法估计的置信区间长度短。当样本量为20时,直接法和诱导光滑法的覆盖率较低,但是当样本量增至50和100时,他们的覆盖率都有所增加。

表2 β的置信水平为95%的置信区间的平均长度和覆盖率(σ(xi)=)

表2中,直接法的覆盖率较低。随着样本量增大,覆盖率也没有增加,说明直接法需要误差独立同分布的假定。当误差不是独立同分布时,构造的置信区间不是很好,而自助法和诱导光滑法的覆盖率都能接近95%。虽然诱导光滑法的平均置信区间长度相比于自助法要短,但是当样本量较小时,诱导光滑法的覆盖率偏低。自助法中成对数据自助法的平均置信区间长度相对长一些,在覆盖率接近95%时,加权自助法的平均置信区间长度相对短一些。加权自助法在小样本时表现较出色。

3 结 语

分别介绍了3类区间估计方法的算法,并通过模拟比较他们在覆盖率与置信区间长度方面的表现。从模拟结果可以看出,在直接法中,由于用核估计方法来估计渐近方差中未知的密度函数,依赖于误差独立同分布的假定。如果误差分布不是独立同分布时,此估计效果不是很理想。重复抽样法计算估计的算法虽然需要上百次的重新计算估计,计算量比较大,但是覆盖率较好。诱导光滑法计算方法简单,其估计的置信区间长度最小,但是在小样本时覆盖率较低。建议如果数据样本量比较小时,考虑用加权自助法估计参数的置信区间,当样本量较大时,用诱导光滑法构造参数的置信区间。

[1] Koenker R, Bassett G. The asymptotic distribution of the least absolute error estimator[J]. Journal of the American Statistical Association,1978,73:618-622.

[2] 王纯杰,董小刚,陈嘉,等.基于分位数回归的长春市职工工资水平的分析[J].长春工业大学学报:自然科学版,2010,31(4):367-373.

[3] 何大强,张海燕.吉林省农村居民消费水平分析[J].长春工业大学学报:自然科学版,2013,34(4):452-456.

[4] Efron B. Bootstrap methods: another look at the Jackknife [J]. Annals of Statistics,1979,7(1):1-26.

[5] Brown B M, Wang Y G. Standard errors and covariance matrices for smoothed rank estimators [J]. Biometrika,2005,92(1):149-158.

[6] Wang Y, Shao Q, Zhu M, et al. Quantile regression without the curse of unsmoothness [J]. Computational Statistics & Data Analysis,2009,53(10):3696-3705.

[7] Pang L, Lu W, Wang H. Variance estimation in censored quantile regression via induced smoothing [J]. Computational Statistics and Data Analysis,2012,56(4):785-796.

[8] Leng C, Zhang W. Smoothing combined estimating equations in quantile regression for longitudinal data [J]. Statistics and Computing,2014,24(1):123-136.

[9] Lu X, Fan Z. Weighted quantile regression for longitudinal data [J]. Computational Statistics,2015,30(2):569-592.

[10] Koenker R. Quantile regression [M]. Cambridge: Cambridge University Press,2005.

[11] Koenker R, Machado J A F. Goodness of fit and related inference processes for quantile regression [J]. Journal of the American Statistical Association,1999,94(448):1296-1310.

[12] Hall P, Sheather S J. On the distribution of a studentized quantile [J]. J. R. Stat. Soc. B.,1988,50:381-391.

[13] Arcones M, Gine E. On the bootstrap of M-estimators and other statistical functionals[C]// In R. LePage & L. Billard (eds.), Exploring the Limits of Boorstrap,1992:13-47.

[14] Jin Z, Ying Z, Wei L J. A simple resampling method by perturbing the minimand[J]. Biometrika,2001,88(2):381-390.

[15] Tang C Y, Leng C. Empirical likelihood and quantile regression in longitudinal data analysis[J]. Biometrika,2011,98(4):1001-1006.

Comparison analysis of quantile regression interval estimation

YUAN Xiaohui, JU Tingting, CHEN Jing

(School of Basic Science, Changchun University of Technology, Changchun 130012, China)

Three confidence interval estimationmethod for quantile regression model are introduced, which are direct method, bootstrap and induced smoothing method. The performance and the features of these methods for the confidence interval estimation are compared by simulation.

quantile regression; induced smoothing; bootstrap.

2016-11-21

吉林省科技厅青年科研基金资助项目(20150520055JH)

袁晓惠(1983-),女,汉族,四川广元人,长春工业大学讲师,博士,主要从事缺失数据方向研究,E-mail:yuanxh@ccut.edu.cn.

10.15923/j.cnki.cn22-1382/t.2017.2.04

O 212.1

A

1674-1374(2017)02-0122-05

猜你喜欢
置信区间样本量位数
定数截尾场合三参数pareto分布参数的最优置信区间
医学研究中样本量的选择
p-范分布中参数的置信区间
多个偏正态总体共同位置参数的Bootstrap置信区间
五次完全幂的少位数三进制展开
连续自然数及其乘积的位数分析
航空装备测试性试验样本量确定方法
列车定位中置信区间的确定方法
遥感卫星CCD相机量化位数的选择
叶丽娅的年龄