右删失数据下回归函数的局部组合分位数回归估计

2016-08-02 05:43何晓霞王志明
武汉科技大学学报 2016年4期
关键词:样本容量置信区间位数

何晓霞,刘 熙,王志明

(武汉科技大学理学院,湖北 武汉,430065)



右删失数据下回归函数的局部组合分位数回归估计

何晓霞,刘熙,王志明

(武汉科技大学理学院,湖北 武汉,430065)

本文研究右删失数据情形下的组合分位数回归模型,采用局部多项式逼近来估计回归函数,得到回归函数在某一点的估计量的渐近正态性和区间估计,并通过蒙特卡洛模拟验证了所提方法的有限样本性质。

删失数据;回归函数;分位数回归;渐近正态性;局部多项式;非参数回归

在非参数统计中,通常用一个光滑函数来描述协变量X和响应变量Y之间的关系,而分位数回归(quantileregression)被广泛应用于探索二者之间的潜在关系。分位数回归的基本思想是根据因变量的条件分位数对自变量进行回归,从而得到分位数的回归模型。由于分位数回归可以刻画响应变量更多的分布特征,因此引起了研究人员的大量关注。Zou等[1]针对分位数回归估计效率容易受到分位数特定取值影响的问题而提出了组合分位数回归,该方法的优势在于能综合多处分位数回归的信息。局部多项式方法是一类性能良好的非参数回归估计方法,Kai等[2]提出了局部多项式组合分位数回归,并证明了当误差服从非正态分布时,该方法比普通的局部最小二乘估计方法具有更高的估计效率。Jiang等[3]提出了单指标模型局部线性组合分位数回归估计。吕亚召等[4]通过回归函数的多项式逼近,研究了部分线性单指标模型的组合分位数回归和变量选择。

上述研究都是基于完全数据,但在实际应用中,尤其是在生存分析以及可靠性理论分析中,往往得不到完整的数据,即数据存在删失。Koul等[5]提出了在误差分布未知的情况下删失数据的分位数回归模型。Wang等[6]基于左截断数据得到回归函数的局部组合分位数回归估计的渐近正态性质。关于删失数据的中位数回归分析也有不少研究成果[7-9]。

本文将考虑右删失数据情形下回归函数的估计,采用局部多项式逼近方法构造相应的损失函数。由于数据类型不同导致损失函数存在差异,文献[6]中的方法不能直接应用,因此本文充分利用右删失数据的K-M(Kaplan-Meier)估计的性质,运用泰勒展开得到相应估计量的渐近正态性。

1 问题描述

本文考虑的分位数回归模型为

(1)

式中:X=(X1,…,Xp)T为协变量;对于给定的非负整数q,τk=k/(q+1),k=1,2,…,q;ck=F-1(τk),其中,F为模型误差εi的分布函数;g(·)是未知的可微函数。

理论上,损失函数为

(2)

式中:ρτk(u)=u[τk-I(u<0)]为τk∈(0,1)时的分位数损失函数,其中I(·)为示性函数。对于给定的样本,当Xi在x0的邻域中时,g(Xi)可以线性近似表示为g(Xi)≃g(x0)+g′(x0)(Xi-x0),这样,上述目标函数可以局部线性表示为

其中ωi是以x0为中心的非负权重。为进一步简化上述损失函数,令ak=ck+g(x0),b=g′(x0),在右删失数据条件下观测到数组(Yi,Xi,δi),其中Yi=min(Ti,Ci),δi=I(Ti≤Ci),这里Ti为删失时间变量;Ci是删失变量,其分布函数为G。则损失函数为

(3)

2 模型假设及主要结果

为了估计模型中参数与未知函数的渐近性质,需要如下正则性条件:

(A1)K(·)为非负有界的连续对称密度函数,具有有界支撑[-M,M];

(A3)函数g(·)为二阶Lipschitz连续,且其二阶导数有界;

(A4)X的密度函数fX(x)在x0连续,fX(x0)>0,0≤f(s|X=x)≤B0,B0为正常数;

(A5)模型误差ε的密度函数f(·)为正且对称,其二阶导数有界;

(A6)窗宽hn满足hn→0,nhn→∞;

(A7)对于∀t∈[0,c],Ρr(t≤T≤c)≥ζ0≥0,这里ζ0是常数。

定理2假定条件(A1~A7)成立,则有

3 定理的证明

3.1定理1的证明

其中,

因此

[Bni,k]2=[Bni,k]2I(Δi,k≥ε)+[Bni,k]2I(Δi,k<ε)。

一方面,

另一方面,

因此,

(4)

运用泰勒展开式,得到

因此

因此有

(5)

根据鞅中心极限定理,有

(6)

应用凸引理[11]及二次渐近引理[12],得到

(7)

因为

类似地,Cov(w1k,w21)→ν1λkk′(x0),Var(w21)→ν2λkk′(x0),则应用Cramér-Wald定理,有

(8)

式中:W2是均值为0的正态随机变量。

因此可以得到

3.2定理2的证明

则可得

因此

进一步,由于

因此,有

定理2得证。

4 数值模拟

4.1相容性质

运用蒙特卡洛模拟法检验局部组合分位数回归(CQR)估计的有限样本性质,在分析中使用局部最小二乘(LS)估计作为比较对象。这里考虑模型误差分别服从正态分布与非正态分布的随机数据,模拟模型如下:

应用定理2,渐近均方差(AMSE)定义为

使AMSE达到最小值的最优窗宽为

针对每一种误差分布,均分别运用局部LS和CQR(q分别取5、9、19)估计,记录x0=0.75时估计量的偏差Bias、标准差Sd以及平均平方误差比率(RASE)。RASE定义为

从表1~表3中可以看出:

(1)当误差服从标准正态分布时,RASE值略低于1,表明局部组合分位数回归估计与局部最小二乘估计的效率很接近;当误差服从非正态分布时,RASE值大于1,表明前者较后者的估计效率更高。

表1 εi~N(0,1)的模拟结果

表2 εi~t(3)的模拟结果

表3 εi~Cauchy(0,1)的模拟结果

(2)误差分布、样本容量和删失率相同时,由Bias和Sd的数值可知CQR19的估计效率优于CQR5和CQR9的估计效率,即分位数的组合数量越多,估计效率越高。

(3)误差分布及样本容量相同时,随着删失率的增加,估计量偏差与标准差也随之增加,即删失率越小,估计效率越高;

(4)误差分布及删失率相同时,样本容量的增多能提高模型估计的精确性。

4.2置信区间估计

考虑模型误差εi服从标准正态分布N(0,1)的情况,模拟数据样本容量n分别为200、800,模拟次数为400,数据删失率为15%、30%、45%。分别运用局部LS和CQR(q=9)估计,记录x0=0.75时的平均置信区间长度(AL)与区间覆盖概率(CP),见表4。

从表4中可以看出:

(1)对于给定的样本容量与删失率,CQR9比LS的平均置信区间长度小,同时CQR9的覆盖概率更接近于95%,说明CQR9的估计性能更好;

(2)样本容量越大、数据删失率越小,则平均置信区间长度越小,覆盖概率越接近于95%。

表4 置信水平为95%时的平均置信区间长度与覆盖概率

[1]ZouH,YuanM.Compositequantileregressionandtheoraclemodelselectiontheory[J].TheAnnalsofStatistics,2008, 36(3):1108-1126.

[2]KaiB,LiR,ZouH.Localcompositequantileregressionsmoothing:anefficientandsafealternativetolocalpolynomialregression[J].JournaloftheRoyalStatisticalSociety:SeriesB(StatisticalMethodology),2010, 72(1):49-69.

[3]JiangR,ZhouZG,QianWM,etal.Single-indexcompositequantileregression[J].JournaloftheKoreanStatisticalSociety, 2012, 41(3):323-332.

[4]吕亚召,张日权,赵为华,等.部分线性单指标模型的复合分位数回归及变量选择[J].中国科学:数学,2014, 44(12): 1299-1322.

[5]KoulH,SusarlaV,VanRyzinJ.Regressionanalysiswithrandomlyright-censoreddata[J].TheAnnalsofStatistics,1981, 9(6):1276-1288.

[6]WangJF,MaWM,ZhangHZ,etal.Asymptoticnormalityforalocalcompositequantileregressionestimatorofregressionfunctionwithtruncateddata[J].StatisticsandProbabilityLetters, 2013, 83:1571-1579.

[7]PortnoyS.Censoredquantileregression[J].JournaloftheAmericanStatisticalAssociation, 2003, 98:1001-1012.

[8]WangHJ,WangL.Locallyweightedcensoredquantileregression[J].JournaloftheAmericanStatisticalAssociation, 2009, 104:1117-1128.

[9]ShowsJH,LuWB,ZhangHH.Sparseestimationandinferenceforcensoredmedianregression[J].JournalofStatisticalPlanningandInference, 2010,140:1903-1917.

[10]KnightK.LimitingdistributionsforL1regressionestimatorsundergeneralconditions[J].TheAnnalsofStatistics, 1998, 26(2):755-770.

[11]PollardD.Asymptoticsforleastabsolutedeviationregressionestimators[J].EconometricTheory, 1991, 7(2):186-199.

[12]FanJ,GijbelsI.Localpolynomialmodellinganditsapplications[M].London:Chapman&Hall,1996.

[责任编辑尚晶]

Localcompositequantileregressionestimatorofregressionfunctionwithrightcensoreddata

He Xiaoxia, Liu Xi, Wang Zhiming

(CollegeofScience,WuhanUniversityofScienceandTechnology,Wuhan430065,China)

Thispaperstudiesthecompositequantileregressionmodelfortherightcensoreddata.Byapproximatingtheregressionfunctionwithlocalpolynomial,theasymptoticnormalityandintervalestimationoftheestimatorforthefunctionvalueatapointareobtained.ThefinitesampleperformanceoftheproposedmethodisverifiedbyMonteCarlosimulations.

censoreddata;regressionfunction;quantileregression;asymptoticnormality;localpolynomial;non-parametricregression

2015-12-14

国家自然科学基金资助项目(11201356).

何晓霞(1979-),女,武汉科技大学副教授,博士.E-mail:hexiaoxia@wust.edu.cn

O212.7

A

1674-3644(2016)04-0309-08

猜你喜欢
样本容量置信区间位数
Maxwell分布参数的最短置信区间研究
p-范分布中参数的置信区间
多个偏正态总体共同位置参数的Bootstrap置信区间
五次完全幂的少位数三进制展开
连续自然数及其乘积的位数分析
采用无核密度仪检测压实度的样本容量确定方法
列车定位中置信区间的确定方法
分层抽样技术在课堂满意度调查中的应用研究
遥感卫星CCD相机量化位数的选择
多种检测目标下样本容量设计的比较