张军舰
(广西师范大学 数学与统计学院, 广西 桂林 541006)
似然方法是统计中非常重要的方法之一,自Fisher提出后引起很多学者的重视,得到非常丰富的研究结果,统计中大部分论文或多或少要用到似然方法。从最开始的参数似然方法,发展到如今的非参数似然和半参数似然方法,其理论和应用研究还在不断深入,详情可参见文献[1-3]。参数似然方法是要求总体的分布类型和形式已知,仅依赖若干个未知参数,接着通过似然函数对相应参数进行统计推断,进而研究相应的统计性质;非参数似然则不需要总体的分布类型或形式已知,它仅利用样本点的观测信息对分布作出估计,进而借助参数与分布函数的关系对参数进行估计;半参数则是介于参数与非参数之间,其部分信息需要知道分布结构,部分信息对分布类型或形式不做要求,在此基础上,对分布或相应参数做出统计推断。参数似然方法理论相对来说比较成熟,其应用非常广泛。但在实际中,对所研究问题的背景所知甚少,仅仅依靠经验或已有研究基础很难对分布类型或形式做出要求,这就必须考虑非参数或半参数似然方法,尽可能有效地利用部分已有信息,从而进行统计推断。本文正是在此基础上,结合团队多年研究内容,对非参数似然方法做一综述。
论文安排如下:第1章简述非参数似然的基本概念和思想,进而探讨基于经验似然推广的非参数似然方法,侧重点主要是估计方面;第2章重点考虑非参数似然拟合优度检验问题;第3章考虑更复杂数据的非参数似然方法;最后是总结和展望。
为便于理解,先从参数似然开始。假定所研究的总体为X,其对应的分布函数为F,概率函数为f(x,θ)(如果X是离散型随机变量,f(x,θ)就是X的概率分布列;如果X是连续型随机变量,f(x,θ)就是X的密度函数),其中f(x,θ)的分布类型或形式已知,参数θ∈Θ未知。现从总体X中抽取一个独立同分布(i.i.d.)样本X1,X2,…,Xn,希望通过样本获得参数θ的一个合理估计,极大似然估计(MLE)即是其中之一。给定X1,X2,…,Xn,θ的似然函数定义为
当总体分布未知时,概率函数f(x,θ)的分布类型或形式也是未知的,MLE自然没有办法求出,这时需要借助非参数似然函数,定义分布F的非参数似然函数如下
(1)
从前述可以看出,非参数似然的基本思想就是把概率函数用样本观测值的质量来替换,也就是把F限制在支撑点X1,X2,…,Xn上,即F≪Fn,若用F表示某一分布族,则
现在的问题是上述考虑的分布族仅利用样本信息,忽略了参数与未知分布之间的关系信息θ=θ(F)。如何利用θ=θ(F)所带来的信息?直观想法就是把所考虑的分布限制到一个更小的分布族中,其中θ=θ(F)用样本点上的质量表达出来,作为辅助信息使用,也就是考虑
其中λ满足
可以证明,在一定正则条件下,由经验似然方法得到的估计具有良好的统计性质:有类似于bootstrap的抽样特性,这一方法与经典非参数统计方法比较有很多突出优点,如构造的置信区间有域保持性、变换不变性、置信域的形状由数据自行决定、有Bartlett纠偏性、无需构造枢轴量等,详情可参见文献[1,5]。文献[6]将其应用到广义估计方程模型中,给出了经验似然更一般的理论。
假定所考虑的是与F相关的d维参数θ=(θ1,…,θd)T,θ与F的关联信息是通过r(≥p)个独立无偏的估计方程得到,也即
g(x,θ)=(g1(x,θ),g2(x,θ),…,gr(x,θ))T,r≥d,
满足EF{g(X,θ)}=0,则Profile经验似然比函数为
(2)
具体计算时,
其中λ满足
当然也可由此分别得到参数θ以及分布函数F相应的经验似然比估计
式(2)给出的Profile经验似然比函数极大地拓宽了其应用范围,只要寻找到满足条件的估计方程g(x,θ),就可以使用经验似然方法。Owen的方法可以看做是g(x,θ)=x-θ的特殊形式。经验似然提出后,引起很多学者的重视,形成了统计学的一个研究热点方向。如文献[7]将其应用到线性回归模型的统计推断中;文献[8]给出了密度函数的经验似然置信区间;文献[9]发展了非参数回归模型的经验似然;文献[10-12]发展了部分线性模型的经验似然;文献[13-15]将其应用于抽样数据的研究;文献[16]将其应用于经济模型的研究;文献[17-20]将其应用于相依样本;文献[2]综述了其在半参数模型中的应用;文献[3]综述了其在生存分析中的应用等。
尽管经验似然方法具有许多优势,得到广泛应用,但也存在一些不足,主要是2个方面:一是计算中需要迭代,计算比较复杂;二是均值参数μ有解需要在样本{X1,X2,…,Xn}的凸包内,对一般情况,则是要求0位于{g(X1,θ),…,g(Xn,θ)}的凸包内部等,统称为凸包问题。凸包问题在样本量较小时是不可以忽略的,文献[21]通过模拟显示,在一维或二维情况,有可能出现凸包问题(也就是经验似然无解情况)的比例达到50%。为了克服经验似然中存在的2个主要不足:计算复杂和凸包问题,许多学者对此进行研究,提出一些改进办法。
首先考虑计算复杂性问题。为了克服计算的复杂性,文献[5]提出可以考虑用经验欧氏距离来代替对数经验似然,进而提出经验欧氏似然方法,也就是说,针对式(1)的对数经验似然
可以看做是pi和1/n的对数似然距离,因此用其欧氏距离
来代替对数经验似然距离。文献[22]进一步研究经验欧氏似然方法,得到与经验似然类似的统计性质,说明该方法计算的简便性。
针对凸包问题,也有很多学者进行探讨,文献[27]给出经验似然t方法;文献[28-29]给出惩罚经验似然方法;文献[30-31]给出调整经验似然方法;文献[32-33]给出平衡经验似然方法等,也进一步探讨了这些方法的统计性质。也有学者把计算复杂和凸包问题结合在一起,提出调整经验欧氏似然、平衡经验欧氏似然、惩罚经验欧氏似然等方法,详细内容可参见文献[33-35]等。也有学者从Bayes角度对经验似然进行研究,提出贝叶斯经验思想并探讨他们相应的性质,具体可参见文献[36-40]。
下面讨论拟合优度检验问题。设总体X~F,分布函数F未知,从总体X中抽取i.i.d.样本X1,…,Xn,感兴趣的问题是检验
H0∶F≡F0↔H1∶F≠F0,
(3)
H0∶F∈Fθ↔H1∶F∉Fθ,
(4)
式中:F0为一个完全已知的分布函数;Fθ={Fθ∶θ∈Θ⊂Rd}为带有未知参数θ的分布族(分布类型或形式已知)。式(3)称为简单假设,式(4)称为复合假设。针对上述2种检验问题,常用的检验有2大类,一类是χ2型检验,另一类是经验分布函数(EDF)型检验。EDF型检验又可以分为上界型检验和积分型检验,经典的上界型检验包括Kolmogorov和Smirnov(KS)检验、加权KS检验等;经典的积分型检验包括Cramér和von-Mises(CV)检验、Anderson和Darling(AD)检验以及加权CV检验等。其后,EDF型检验又出现Berk和Jones(BJ)检验、Einmahl和Mckeague(EM)检验、修正的BJ检验以及本文作者所提出的广义非参数似然比检验(GNLRT)等。此处仅简单介绍一下非参数似然比检验,更具体的内容可见文献[41-49]。
先考虑简单假设情况,文献[41]定义上界型检验统计量
(5)
式中Fn(x)为经验分布函数,
λ∈(-∞,∞),q(·)为一个权函数。当λ=0,-1时,Kλ(t,s)分别取λ→0,-1的极限形式。类似地,定义积分型检验统计量为
(6)
事实上,Kλ(t,s)是(t,1-t)和(s,1-s)之间的幂偏差度量(详见文献[50]),但它不是常规意义上所说的距离(除λ=1/2外,它不满足对称性和三角不等式)。此外,它还满足:
K0(Fn(x),F0(x))即为文献[51]中所研究的非参数似然比检验统计量(经验似然比形式):
当λ取一些特殊值时,前面所提到检验都可以包括在此检验类中。例如2nRn,1(q)为加权KS检验函数的平方;2nTn,1(q)为加权CV检验函数;Rn,0(1)为BJ检验函数;Tn,0(1)为EM检验函数;Rn,-1(1)为修正BJ检验函数等。
如果X~F0为连续型随机变量的分布函数,相应的F0(X)服从(0,1)上均匀分布U(0,1),文献[41]和文献[53]得到如下理论结果:在简单零假设成立时,Rn,λRn,λ(1)(n≥2)的精确分布为
式中:
n较小时可以给出精确分布的显式表达;否则可以利用文献[54]的迭代算法求出其精确分布。由于权函数不依赖于样本和λ,加权上界型检验函数也有类似结论,这些结论包含文献[45](λ=0和-1)和文献[43](λ=1)的结论。当n较大时,用精确分布计算比较复杂,这时可以考虑用其极限分布计算。文献[41,55]给出如下结果:在简单零假设成立时,
式中:
式中{B(t):0≤t≤1}为Brownian桥过程(详见文献[57]中解释)。
如果样本容量n有限,尽管可以给出其精确分布,但随着n的增加,需要迭代的次数增加,计算时间较长。文献[53]从计算精度和时间长度综合考虑,并通过模拟显示:如果n≤110,分位数建议利用精确分布计算;如果n≥150,分位数建议利用模拟或其极限分布计算。不同λ和不同权函数q(·),功效较高的检验也不同。文献[53]发现,对给定的q(·),不存在对任何情况都一致最优的检验,在小样本情况,λ对检验函数的影响要比权函数的影响大一些,对于较大的|λ|,Rn,λ(q)(Tn,λ(q))使得F(t)和F0(t)之间的差异变得更大,再加上误差等因素,检验函数基本无用,故一般情况,文献[53]建议λ∈[-2,2]。
是否存在一个与λ无关的一致较优的检验统计量呢?文献[42]发现,在给定权函数q(·)时,功效一致较优的上界型非参似然比检验函数为
其中I为一个区间,一般情况下,如果q≡1,经验上可取λ∈I=[-2/3,0];如果q≡[t(1-t)]-1,经验上可取λ∈I=[-1,2]。在给定权函数q(·)时,功效一致较优的积分型非参似然比检验函数为
一般情况下,如果q≡1和q≡[t(1-t)]-1,经验上可取λ∈I=[-2,2]。文献[42,48]中给出较为详细的模拟说明。
对于高维数据的拟合优度检验,由于“维数祸根(Huber,1985)”的存在,在一维上比较有效的检验,在高维上未必还有效,这时一般采用投影或者变换的思想去处理。文献[42]借助投影追踪技术,提出投影追踪非参数似然比检验。当然,也有借助经验欧氏似然讨论检验问题,例如文献[58-60]等,其基本思想与前述讨论类似,感兴趣的读者可参见相关文献。
文献[61]指出,21世纪统计学主要面临3大问题:相依、高维和不完全数据的统计理论。针对这些复杂数据,本章简单综述在复杂数据下的非参数似然方法。
相依数据在实际工作中非常普遍,例如医学、生物学、金融学等许多领域都会出现相依数据。理论研究中,随机变量的函数、时间序列数据、马氏链和Copulas结构等都是相依数据。目前在相依序列数据中研究比较多的是鞅差序列、混合序列、相伴序列等。一般来说,此时数据结构比较复杂,样本内部不再是i.i.d.,传统统计方法的前提条件往往很难满足,理论性质讨论相对比较困难。目前的主要解决思想就是分组(Blockwise),把相依数据转化为独立或近似独立情况,然后再借助相关理论进行研究。针对混合相依的经验似然,文献[17]研究α混合相依序列;文献[18]研究φ混合相依序列;文献[62]研究一般混合相依序列等。针对相伴相依的经验似然,文献[19]研究负相伴相依序列;文献[20]研究正相伴相依序列等。还有较多文献也探讨相依序列下的经验似然并应用到各种模型中,具体可参见文献[62-71]等。
高维数据也是近年来学者们非常关注的研究方向,它在金融、生物信息、经济等多个领域都很普遍。前面简单介绍了高维数据的拟合优度检验问题,文献[42]利用投影追踪技术进行研究。此外,文献[29,72-74]利用前面介绍的非参数似然方法探讨高维数据的变量选择和模型建立等方法,也获得了一些重要的理论结果。
不完全数据主要包括缺失或删失数据、四舍五入数据等,是常见的数据类型。针对缺失数据,文献[75]给出部分线性模型的经验似然方法;针对删失数据,文献[2]总结了生存分析中的经验似然方法;针对舍入数据,文献[76-77]研究舍入数据的经验似然方法,文献[78]研究舍入数据的经验欧氏似然等。
除以上比较困难的3大数据外,现实生活中还有许多现象都可以借助非参数似然方法进行研究。例如当总体是离散分布时,如何合理利用非参数似然方法也是一个值得探讨的问题,文献[79-80]对此进行探讨。在风险分析中,VaR和ES的估计也是一个比较重要的问题,文献[39-40,81-82]分别利用经验似然、经验欧氏似然和贝叶斯经验似然对其进行探讨;文献[83]研究具有测量误差的纵向部分线性模型的经验欧氏似然方法;文献[84]研究半参数位置偏移混合模型的最小似然距离估计;文献[85]研究基于平滑经验欧氏似然的分位回归分布式估计等。
近年来,变点问题也得到越来越多学者的重视,它在经济、地质、气候、生物医学、图像处理以及信号去噪等方面都有较广泛的应用。针对参数模型的变点检测与估计,文献[86-87]给出较为详细的综述;针对非参数变点检测,文献[88-91]分别探讨经验似然的变点检测方法。近几年,把变点检测看成一个稀疏问题,借助变量选择方法,从不同角度对变点检测和估计的非参数方法重新进行讨论,取得一定成果。由于问题内容和解决办法相对比较复杂,在此不再赘述,感兴趣的读者可参见文献[92-98]。
非参数似然比是近年来的一个研究热点,不同于模型研究,它是一种方法上的创新,可以适用于多种模型。本文简单介绍非参数似然的发展思路,从估计、检验和复杂数据运用3个方面进行简单综述,给出一些基本的研究内容和结论,指出其在复杂数据研究中的应用,希望这些内容能提供一定的借鉴意义和参考价值,尤其是那些对非参数似然方法有兴趣的读者。
目前,非参数似然方法还有许多方面可以进一步考虑,例如:可以考虑构造pi与1/n之间的合理函数,进一步说明它们在估计和检验中的优势;如何充分利用辅助信息,提高估计或检验的精度;对于一些复杂数据或模型,如何把现有工具合理科学地应用好等。特别地,一些实际问题并不需要很复杂的方法或者模型,关键是尽可能地利用好已有相关信息,得到简单实用的模型或方法,较好地发现规律或问题,为决策者制定正确科学的决策服务。