刘维奇,赫英迪,邢红卫
选择重尾阈值k的Bootstrap方法
刘维奇1,2,赫英迪2,3,邢红卫2
(1.山西大学管理科学与工程研究所,山西太原030006;2.山西大学数学科学学院,山西太原030006; 3.广东茂名职业技术学院,广东茂名525000)
详细讨论了重尾指数估计中选取k的Sum-plot方法和Bootstrap方法,并对Hall提出的Bootstrap方法作了改进,称为M-Bootstrap方法.并利用上述三种方法对已知重尾分布进行Monte-Carlo模拟,研究它们的可行性,比较它们的稳健性,改进的M-Bootstrap方法对重尾指数的估计在某些情况下优于Bootstrap方法.
重尾指数;重尾阈值;Sum-plot方法;Bootstrap方法;M-Bootstrap方法
重尾指数估计方法总体上分为参数估计和半参数估计,都与重尾阈值或估计中所用次序统计量的个数k有关.k的选取关系到估计的精确性,k的偏大或偏小都会造成估计的极大误差.
学者们从理论上提出了许多选取k的方法.其中一类是作图法,比如Hill[1]提出的Hill-plot,Kratz和Resnick[2]提出的qq-plot,Beirlant等[3]提出的Pareto分位数图,Resnick和Starica[4]给出的对Hill-plot改进的s mooHill-plot以及deHaan和Resnick[5]给出的对Hill-plot改进的AltHill-plot等,这些作图法都有一定的优越性,但整体而言它们都不能适用于所有情况的重尾分布.像Hill-plot,qq-plot,当随机变量服从Pareto分布时,这两种方法表现出十分优良的性质,能够很容易选取k值.一旦随机变量不服从Pareto分布,而是广义Pareto分布时,它们却不能很好地选取k,甚至无法选取k.Pareto分位数图,s mooHill-plot和AltHill-plot相对于Hillplot估计精度稍高一些,但是也不能对所有的重尾分布较好地选择k.Sousa[6]在其博士论文中提出的Sumplot方法在一定程度上克服了前几种方法中选取k所遇到的困难,而且具有比较好的性质.但是由于Sumplot方法是以观察图形得到k,因此选择k有一定的猜测性,因而会对重尾指数估计造成一定误差.另一类方法就是以估计重尾指数的均方误差(MSE)最小为标准来确定k,最优的k应该与均方误差一致.理论上MSE与k有关,增大k,方差减小,偏差增大.反之,减小k,方差增大,偏差减小.只有权衡方差和偏差使MSE最小,选取的k才是最优的.但是,MSE还与未知分布尾部指数α和二阶参数ρ有关,不能直接应用到实际问题中.基于此,1990年Hall[7]提出了利用Bootstrap方法来选取k,Danielsson[8]在2001年又对Hall的方法作了进一步改进,Gomes和Oliveira[9]在2001年给出了一个选取Bootstrap方法子样本的准则,Gomes等①GomesM I,Mendonca S,Pestana D.The bootstrap methodolgy and adaptive reduced-bias tail index and Value-at-Risk estimation.Working paper,2009.在2009年给出了针对降偏差重尾指数估计的Bootstrap方法.由于该方法计算量很大,有必要在保证估计特性的前提下提高估计的收敛速率以减少计算量.
Sum-plot方法[6]是基于{(k,Sk),1≤k≤n}应该是一条直线的理论依据来选取k.Sousa通过对不同样本容量的不同分布进行模拟,得出无论是分布的尾部指数0<α<2还是α≥2,Sum-plot方法对绝大多数分布而言都较其它方法优越,并且不受样本异常值影响,即具有稳健性.这里随机变量
其中Xn(1)≥Xn(2)≥…Xn(k+1)为次序统计量.
如果选择k,使Xn(k+1)足够大,那么对任意x>Xn(k+1),有Sk~α-1k.近似式表明图形中直线的斜率等于α-1,而且Sousa证明了α-1可以通过如下线性回归模型估计出来.
容易发现参数α-1的估计值等于回归模型的斜率^β1,即
进一步,如果β0=0,则就是Hill估计.
由于Sum-plot方法需要观察以坐标{(k,Sk),1≤k≤n}画成的散点图在哪一点偏离直线,因此选择的k有一定的猜测性,因而会对重尾指数估计造成不可避免的误差.
Danielsson等[8]对Hall的方法作了改进,使用新的统计量Mn(k)来代替γn(k).引入统计量
已经证明,当k→∞,k/n→0时,Mn(k)/(2γn(k))依概率收敛于γ,统计量Mn(k)/(2γn(k))-γn(k)和γn(k)-γ有相似的渐近性质,并且在一定条件下极小化AMSE和极小化AsyE(Mn(k)-2(γn(k))2)2可以得到同阶量的k(相对于n).因此,根据Bootstrap子样本X*
n1,选用统计量:
来确定k.
我们受Danielsson等[8]提出的Bootstrap方法的启发,用γ的相合估计~γn(k)代替γn(k),渐近均方误差变为
根据Bootstrap子样本X*n1,通过极小化AMSEM(n1,k1)和关系k=k1(n/n1)μ来确定k1与k.
定理1 假设k→∞,k/n→0.k(n)由AMSE(n,k)最小确定.则
S-1是函数S的反函数,A2(t)=∫∞tS(u)du(1+o(1)),t→∞.
假设A(t)=ctρ,c≠0,ρ>0,则
定理2 假设k1→∞,k1/n1→∞.假设A(t)=ctρ,c≠0,ρ<0,n1=O(n1-ε)(0<ε<1),由k1)最小确定k1.则
由定理1和定理2可知,k与n,k1与n1存在同样的幂指数关系式.这与Hall所预设的关系一致.所以我们仍旧取来确定k.我们取μ=,无形中假设了二阶形状参数ρ=-1,这证实了Hall的Bootstrap方法与ρ=-1有关.
随机变量Y1,Y2,…,Yn是i.i.d.,其共同分布为G(y)=1-y-1(y≥1),Yn,1≥…≥Yn,n是Y1,Y2,…,Yn的
引理1 0
定理1的证明:U(t)的定义等价于正则变化函数|logU(t)-γlogt-C0|以指数ρ正则变化,其中C0为常数.令A(t)=ρ(logU(t)-γlogt-C0).由Potter不等式,可得对任意0<ε<1,存在t0>0,对于t0>0,tx≥t0有,
(2)n→∞,(Pn,Qn)渐近正态,它们的均值为0,方差分别为1,20,协方差为4,其中
用Yn,k代替t,Yn,i/Yn,k+1代替x迭代不等式(i=1,2,…,k),然后乘以,得到
又
而Y1,…,Yki.i.d具有共同分布函数1-,于是由弱大数定律得
即
我们求(12)中右边的最小值点,得到定理1的结论,定理证毕.
定理2的证明:令Gn表示独立变量的均匀分布的经验分布函数.令n足够大,n1=O(n1-ε),则有
于是
因此,对所有的4≤t≤n1(lognn)2,
用Fn表示Xn的经验分布函数.,由(11),(13),(14)得,
所以对任意的0<ε<1,总存在t0>4,对于t0
同理
用Yn1,k1+1,Yn1,i(i=1,…,k1)分别代替t和tx,则不等式(15),(16)是以概率成立的.于是有
以概率成立.
我们极小化E((γ*n1(k1)-γn(k))2|Xn).
由定理1的证明过程可以得到
又¯γn是γ的相合估计,.定理2得证,定理证毕.
为了更好地说明问题,我们选用三种熟知的重尾分布,稳定分布Stable(1.5)分布、t-分布t(3)以及逆Γ分布IGa(1.5,1),分别采用Sum-plot方法、Danielsson等提出的Bootstrap方法(D-Bootstrap方法)和改进的Bootstrap方法(M-Bootstrap方法)进行模拟.结果表明,Sum-plot方法、Bootstrap方法和M-Bootstrap方法都能作为Hill估计中选择k的有力工具,它们和Hill估计结合起来估计重尾指数将是有效的.为便于比较,我们将三种方法的模拟结果列表如下(P512见表1).
表1 三种方法用于t,Cauchy,Fréchet,逆Ga,Burr和Pareto的结果Table 1 Results by the three methods on t,Cauchy,Fréchet,Inverse-Gamma,Burr and Pareto distributions
根据表1可以看出,应用三种方法得到的结果是令人满意的.相比之下,Sum-plot方法的精确性优于两种Bootstrap方法.从整体上看,两种Bootstrap方法估计的结果误差也是比较小的,都可以使用.从k选择上看,改进的M-Bootstrap方法更接近Sum-plot方法结果,对重尾指数的估计在某些情况下优于Bootstrap方法,特别是在计算量上明显优于Bootstrap方法.所以,M-Bootstrap方法是适用的,有意义的.两种Bootstrap方法个别情形下出现了较大偏差,这与方法本身的特点有关.基于两个子样本的Bootstrap方法受异常值的影响,我们所用的数据都是随机生成的,不免有异常值的出现.Bootstrap方法受样本容量的影响很大,这也是出现偏差的原因.
[1] H I LL B.A Simple GeneralApproach to Infererce about The Tail of a Distribution[J].Annals of Statistics,1975,3:1163-1174.
[2] KRATZM,RESN ICK S.The qq-estimator and Heavy Tails[J].Stochastic m odels,1996,12(4):699-724.
[3] BEIRLANT J,VYNCKIER P,TEUGELSJ L.Tail Index Estimation,ParetoQuantileplots,and RegressionDiagnostics[J].Journal of the Am erican Statistical Association,1996,436:1659-1667.
[4] RESN ICK S,STAR I CA C.Smoothing the Hill Estimator[J].Advances in Applied Probability,1997,29:271-293.
[5] DREES H,HAAN L D,RESN I CK S.How toMake a Hill Plot[J].Annals of Statistics,2000,28:254-274.
[6] SOUSA B.A Contribution to the Estimation of the Tail Indexof Heavy-tailedDistributions[D].TheUniversityof Michigan,2002.
[7] HALL P.Using the Bootstrap to Estimatemean Square Error and Select Smoothing Parameters in Non-parametricproblems[J]. Journal of M ultivariate Analysis,1990,32:177-203.
[8] DAN IELSSON J.Using a Bootstrap Method Choosethe Sample Fraction in Tail Index Estimation[J].Journal ofM ultivariateAnalysis,2001,76:226-248.
[9] GOMESM I,OL I VEIRA O.The Bootstrap Methodology in Statistics of Extremes-choice of the Optimal Sample Fraction[J].Extremes,2001,4(4):331-358.
BootstrapM ethod in Selecting Heavy-ta iled Thresholdk
L I U Wei-qi1,2,HE Ying-di2,3,XI NG Hong-wei2
(1.Institute ofM anagement Science and Engineering,Shanxi University,Taiyuan030006,China; 2.School of M athem atical Science,ShanxiUniversity,Taiyuan030006,China; 3.M aom ing Vocational Technical College,M aom ing525000;China)
We discuss the Sum-plot method and Bootstrap method in selectingkin heavy-tailed index esti mation, and improve the Bootstrap method proposed by Hall,known as the M-Bootstrap Method.The three methods were used to study the known heavy-tailed distributions byMonte-Carlo simulation technology,in cluding their feasibility, Moreover,their robustnesswas compared theM-Bootstrap method was better than the Bootstrap method in some cases for heavy-tailed index estimation.
heavy-tailed index;heavy-tailed threshold;Sum-plotmethod;Bootstrap method;M-Bootstrap method
O212
A
0253-2395(2010)04-0508-05
2010-07-16;
2010-07-30
教育部人文社会科学研究项目(07JA630027;06JA630035);山西省高校人文社科重点研究基地项目(20083006)
刘维奇(1963-),男,山西忻县人,教授,博士生导师,主要从事金融工程和时间序列等领域的研究,E-mail:liuwq@sxu.edu.cn