万 丽 ,王庆飞 ,邵任翔
(1.广州大学 数学与信息科学学院,广州 510006;2.中国地质大学 地质过程与矿产资源国家重点实验室,北京 100083)
传统的统计计算和检验方式均基于高斯分布假设,然而,许多情况下,试验数据常常是非高斯分布的,如Pareto发现,占97%的个人收入分布接近对数正态分布,但剩下的3%收入迅速增加,且服从逆幂规律,从而产生厚尾特征。这说明存在中心极限定理并不适用的分布。大多数物理试验数据的变化存在很明显的尖峰现象,即相对高斯分布而言,在均值附近的数据点特别多,同时取极端值(过大或过小的数据点)的数据点也特别多[1,2],在统计分析中常将这些“异常值”去掉,Mandelbrot B认为这样做是不可取的,因为“异常值”的出现并不是一种偶然现象,并对包含这些“异常值”的经验数据集进行了研究,提出稳定分布模型[3]。
稳定分布是一类满足广义中心极限定理的分布,即无限多个可能方差无限大的独立同分布的随机变量之和,其极限分布是稳定分布。该分布具有4个参数,参数的不同取值对应着不同的分布,如高斯(Gaussian)分布、柯西(Cauchy)分布和列维(Levy)分布均是稳定分布的特殊分布,因此稳定分布模型描述实际中的高斯或非高斯噪声均具有适用性。
定义[4]称随机变量X服从稳定分布,如果存在参数0<α≤2,-1≤β≤1,及实数σ>0和μ,使得X的特征函数满足
这里sing(x)是符号函数,α称为稳定指数(index of stable),β 称为偏斜指数 (index of skewness),σ 是尺度指数(scale parameter),μ 是位置指数(local parameter)。
由随机变量X的概率密度函数是特征函数的傅里叶变换,得稳定分布的概率密度函数为
其中,稳定指数,α∈(0,2]描述尖峰厚尾的程度,α越小,尾部越厚、峰部越尖;偏斜指数,β∈[-1,1]描述偏态特征,β=0则分布对称,β>0则分布右偏,β<0则分布左偏;尺度参数σ>0表示随机变量尺度的变化;位置参数μ∈R表示均值的位置。 通常将稳定分布随机变量记为 X~Sα(β,σ,μ)。
特别地
当 α=2,且 β=0 时,X~S2(0,σ,μ)=N(μ,σ2),即服从高斯(Gaussian)分布;其特征函数为
Ψ(θ)=exp(iμθ-σ2θ2)
当 α=1,且 β=0 时,X~S1(0,σ,μ),概率服从柯西(Cauchy)分布,其特征函数为
Ψ(θ)=exp(iμθ-σ|θ|)
当 α=1/2,且 β=1 时,X~S1/2(1,σ,μ),概率服从列维(Levy)分布,其特征函数为
Ψ(θ)=exp{-|σθ|1/2[1+isign(θ)]+iμθ}
当 α∈(0,2),且 β ≠0时,X服从非高斯(Non-Gaussian)稳定分布,其特点为概率分布的尾部较高斯分布厚、峰部较高斯分布尖,表现出尖峰厚尾的分布特征。
需要说明的是,在大多数统计问题中,一阶矩(均值)E(X)和二阶矩(方差)Var(X)常被用来描述统计分布。然而,对于厚尾分布来说,这些不是普遍有用,因为当0<α<2时,对于任意0<q<α,E(|X|q)是有限的,但对 q≥α,E(|X|q)=+∞,由此可得,当1<α<2 时,一阶矩(总体均值)存在,而二阶矩(总体方差)无限大或不存在;当1<α≤1时,一阶矩(总体均值)和二阶矩(总体方差)均为无限大或不存在。
定义 若分布具有自相似性,即标度不变性,故其概率满足
式中δ是变换常系数;G(δ)与x无关,只是与δ有关的函数,可以证明,满足上式的只可能是幂函数。考虑到0≤p(x)≤1,所以幂指数取负号即P(x)∝x-D,D>0。 因此,分布的自相似性实际是概率函数与随机变量呈幂律关系,也称其具有标度不变性。
对稳定分布重点考虑分布的尾部分布特征。
当α=2,λ→∞时,高斯分布尾部的概率密度函数为
在这里符号“~”表示两边之比的极限为1。此时即随机变量服从均值为μ,方差为2σ2的高斯分布。
当α<2时,在稳定分布尾部特征指数α依概率服从幂律,即
此时,概率分布的尾部服从负幂律分布。
特别,当 0<α<2,β=1 时,即 X~Sα(1,σ,0),由公式(1)及Laplace变换得
而当β=-1时,由分布的对称性
X~Sα(1,σ,0)⇔-X~Sα(-1,σ,0)
从而有 P(-X>λ)~σ2Cαλ-α
即 P(X>-λ)~σ2Cαλ-α
对于-1≤β≤1可用性质得到类似结果[4]。
由此可得当0<α<2时,随机变量的概率分布服从幂律,即对于对称的稳定分布|λ|大的地方具有幂型拖尾;对于非对称的稳定分布,长的一端服从幂型拖尾,而短的一方迅速减小,即长尾具有自相似分形特征,α实质上就是分维[5]。
稳定分布是一种允许偏斜和厚尾的概率分布族。稳定分布模型不仅能描述实验数据的高斯分布特征,而且还能描述实验数据中大量的非高斯分布,即具有既能描述数据集的正常值、也能刻画其异常值的优点。同时,由于模型蕴含着自相似性,因此还可刻画数据集的分形特征。理论上,稳定分布模型是比传统单一模型更系统和全面地刻画随机变量概率分布的有效模型之一。
[1]Hippolyte F,Johnp N.Tail Behavior,Modes and Other Characteristics of Stable Distributions[J].Extremes,1999,2(1).
[2]Kolokoltsov V,Korolev V,Uchaikin V.Fractional Stable Distribution[J].Journal of Mathematical Sciences,2001,105(6).
[3]Mandelbort B.B.The Fractals Geometry of Nature[M].New York:Freeman,1982.
[4]Gennady Samorodnitsky,Murad S.Taqqu.Stable Non-Gaussian Random Precesses[M].New York:Chapman&Hall/CRC,1994.
[5]董连科.分形动力学[M].沈阳:辽宁科学技术出版社,1994.