次序统计量概率分布近似计算

2020-01-09 04:58王芝皓侯震梅窦燕
关键词:次序直方图概率

王芝皓, 侯震梅, 窦燕

(1.新疆财经大学 统计与信息学院, 新疆 乌鲁木齐 830012 2.新疆财经大学 新疆社会经济统计研究中心, 新疆 乌鲁木齐 830012)

通过样本对总体进行推断时, 次序统计量[1]是常用的统计量之一, 其不仅是充分统计量, 而且样本的分位数、极差等统计量都是由次序统计量得出的, 因此研究次序统计分布问题很有意义。 但次序统计量的分布不易计算, 同时在讨论次序统计量时往往会忽略随机变量的类型, 即是离散型还是连续型。 注意到离散型次序统计量的观测会出现有结的现象, 而连续型次序统计量一般不会出现结, 因此估计分布的方法应该有所区别。

直方图估计、核密度估计及MC算法是现阶段应用较广的估计方法[2-4], 本文采用该方法研究次序统计量分布的估计。 首先, 本文回顾了不同类型次序统计量分布的常用形式。 其次, 给出次序统计量分布函数的经验分布估计。 当随机变量是离散时, 给出概率质量的直方估计量; 当随机变量是连续时, 给出概率密度的核密度估计, 并对三种估计量的无偏性及估计精度进行了讨论, 即研究了估计量的期望、偏差和方差。 最后, 为避免复杂的计算, 根据推导的估计量, 给出了基于MC算法的次序统计量分布近似计算的算法, 并以Poisson与Gamma分布为例给出了模拟结果。

1 次序统计量的分布

样本数据有离散与连续之分, 在样本观测过程中, 离散型次序统计量在某一次序上的观测值可能会与其他次序的相同, 但连续型次序统计量几乎处处保证每一个次序上的观测都不相同, 根据此特点分别讨论离散与连续两种类型次序统计量的分布。

定理1[1]设X1,X2,…,Xn是来自某总体容量为n的样本, 总体的分布函数为FX(x), 则第k个次序统计量X(k)的分布函数FX(k)(x)为

FX(k)(x)=P(X(k)≤x)=

当随机变量为离散型时,其概率质量函数为

P(X(k)=xi)=

[FX(xi-1)]j[1-FX(xi-1)]n-j}

当随机变量为连续型时,其概率密度函数为

上述定理表明在研究次序统计量分布时可从分布函数、概率质量函数或概率密度函数三个方面进行讨论, 本文将对应定理1的内容给出一种新的对应每种分布的估计方法。

2 次序统计量分布的估计及其性质

假设某一研究对象的总体中能够获得任意多的伪随机数, 那么在估计次序统计的分布时,就可用频率逼近概率的过程去获得第k个次序统计量分布的估计。 具体地, 经验分布函数作为分布函数的估计, 离散型随机变量可用直方图去估计其概率质量函数, 连续型随机变量可用核密度去估计其概率密度函数。

2.1 次序统计量分布函数的估计

对任意类型的随机变量, 记第k个次序统计量的分布函数为

FX(k)(x)=E[I(X(k)≤x)]

那么X(k)的经验分布函数的矩估计为

其期望与方差分别为:

m→

2.2 离散型次序统计量概率质量的估计

当X为离散随机变量, 可能取值x1

fX(k)(xi)=P(X(k)=xi)

直方图估计量[5-6]为

m→

2.3 连续型次序统计量概率密度的估计

当X为连续随机变量, 记X(k)的概率密度函数为fX(k)(x), 核密度估计量[5-6]为

式中:h表示窗宽[7-8];K(·)是核函数, 本文选用Gaussian核, 即

将fX(k)(u) 在x点二阶Taylor展开可得

那么偏差可分为三个部分计算:

因此:

同理, 在计算偏差中运用Taylor展开可得

mh→

在上述计算过程中, 对于窗宽的选取文献[8-9]有更多的讨论, 本文选用Silverman's Rule of Thumb[4]的方法确定窗宽:

易知, 当模拟样本容量m→时, 估计量的方差会收敛到0, 核密度的偏差也会收敛到0,表明核密度估计是概率密度函数的相合估计。 因此只要m足够大就可以得到精度很高的估计, 而且在MC算法中是较为容易实现的。

3 次序统计量分布计算的MC算法

根据第2节得到三种估计量的期望、方差及偏差可知, 在可获得重复随机样本时, 运用MC算法去近似计算X(k)分布, 不但可以得到较高精度的估计量而且还避免了复杂推导与抽象的理解。 次序统计量分布估计的MC算法为:

设X~FX(x|θ) ,固定θ=θ0,则对j=1,2,…,m:

(2)离散时,直方图估计量为

(3)连续时,核密度估计量为

为进一步说明该算法的有效性, 分别以Possion与Gamma分布为例给出具体的结果。

例1 设X1,…,X20是来自总体Possion(λ=3)容量为20的样本,由式(1)知第3次序统计量的分布函数为

那么第3次序统计量的概率质量为

fX(3)(x)=FX(3)(x)-FX(3)(x-1)=

例2 设X1, …,X20是来自总体为Gamma(α=3,λ=0.3)容量为20的样本,密度函数为

那么第3次序量的分布函数与概率密度函数如下:

图1 Possion经验分布估计(ECDF)与真实分布(CDF)比较Fig.1 Comparison between estimators of CDF(ECDF)and real CDF of Possion(CDF)

图2 Possion直方图估计(hist)与真实概率质量(prob mass)比较Fig.2 Comparison between estimators of histogram (hist) and real PMF of Possion (prob mass)

图3 Gamma经验分布估计(ECDF)与真实分布(CDF)比较Fig3 Comparison between estimators of CDF (ECDF)and real CDF of Gamma(CDF)

图4 Gamma核密度估计(KDE)与真实概率密度(PDF)比较Fig.4 Comparison between kernel density estimation (KDE) and real probability density function(PDF) of Gamma

4 结论

在次序统计量分布的讨论中, 随机变量的类型很重要, 本文针对不同类型的随机变量,给出了次序统计量分布函数、概率质量函数及概率密度函数的相合估计,在此基础上给出了便于计算的MC算法。 结果表明: 首先, MC算法可以避免复杂的推导,若可以得到原始分布的伪随机数,那么任意次序统计量的分布就可估计; 其次,该算法的收敛速度较快而且是稳健的, 通过例子可以看出估计量具有良好的精度; 最后,该方法可为次序统计量的其他研究提供一个可供参考的分布估计方法。

猜你喜欢
次序直方图概率
符合差分隐私的流数据统计直方图发布
概率统计中的决策问题
概率统计解答题易错点透视
汉语义位历时衍生次序判定方法综观
概率与统计(1)
概率与统计(2)
Bp-MRI灰度直方图在鉴别移行带前列腺癌与良性前列腺增生中的应用价值
基于差分隐私的高精度直方图发布方法
生日谜题
中考频数分布直方图题型展示