董阳武,葛永慧
(1.山西煤炭职业技术学院地测系,山西太原030031;2.太原理工大学矿业工程学院,山西太原030024)
在广义高斯分布(GGD)总体参数估计中,首要问题是选取多大规模的样本。样本容量太小,会使估计不够精确;样本容量太大,又会造成估算效率低下及人力物力的浪费。文献[1-3]对参数估计时分别选取样本容量 N=2000、N=4096和 N=65 536,这些样本容量的选取是否科学合理,广义高斯分布参数估计精度与样本容量的关系如何,目前尚未见对此问题的论述。
本文从广义高斯分布参数估计精度要求出发,采用矩估计法估算其参数,通过仿真试验得到了广义高斯分布形状参数和尺度参数估计精度与样本容量的定量关系,并给出了参数估计中样本容量的确定方法,其在实际参数估算时极具实用性。
广义高斯分布概率密度函数(probability density function,PDF)可表示为[4-5]
形状参数估计方法有多种[6],但最常用的方法是极大似然法和矩估计法。极大似然法估计计算复杂,计算量大[7];而矩估计法被认为是实践中最高效快速实用的方法。因此,本文选用矩估计法对形状参数估计问题讨论。
由矩估计法可得[1]
理论上,式(2)通过迭代计算可解出参数p,且m1、m2取值与被估参数p大约相等时矩估计结果收敛于极大似然估计结果,估计精度高、效果好[1]。本文基于此理论估算参数p,使结果具有最优收敛性,但其参数估计精度与样本容量关系如何,在实际估算中,应如何选取样本容量方可达到所需要的估算精度和估计效果,本文将通过仿真试验对这些问题讨论。
要得到样本概率密度函数,除了要确定形状参数外,还需要计算尺度参数(标准差)。样本标准差计算公式为
式中,{x1,x2,…,xN}为来自均值 μ=0的 GGD 总体X样本。
仿真试验要得到形状参数估计精度与样本容量之间的关系,首先使样本容量N取不同值(N≤60 000),对于每一个样本容量N、形状参数p和标准差σ,样本发生器产生GGD样本,用式(2)对参数p估算M=1000次,计算这M=1000个估算值的标准差和相对误差。标准差和相对误差计算公式分别为
这样在仿真试验中就可得到每一个样本容量N能达到的形状参数估计精度rp。在仿真试验中形状参数 p 取0.5、1.0、1.5、2.0、2.5、3.0、3.5、4.0、4.5、5.0、5.5、6.0、6.5、7.0、7.5、8.0 等不同数值,当估计精度rp达到10%、5%、2.5%以下时可得到表1中形状参数估计精度与样本容量的定量关系,关系图如图1~图3所示。
表1 形状参数估值与样本容量关系
图1 形状参数估值与样本容量关系(rp=10%)
图2 形状参数估值与样本容量关系(rp=5%)
图3 形状参数估值与样本容量关系(rp=2.5%)
仿真试验要得到尺度参数估计精度与样本容量之间的关系,首先使样本容量N取不同值(N≤60 000)。对于每一个样本容量N,样本发生器产生GGD样本,用式(3)对标准差σ估算M1=1000次,得到这M1=1000个估算值的平均值、标准差和相对误差,这样的估算过程重复M2=10次,则可得到每次算得的相对误差平均值。样本标准差平均值、标准差、相对误差和相对误差平均值计算公式分别为
这样在仿真试验中就可得到每一个样本容量N能达到的尺度参数估计精度rσ。仿真试验中形状参数 p 取0.5、1.0、1.5、2.0、2.5、3.0、3.5、4.0、4.5、5.0、5.5、6.0、6.5、7.0、7.5、8.0 等不同数值,尺度参数 σ 取 1.0,当估计精度 rσ达到10%、5%、2.5%以下时可得到表2中尺度参数估计精度与样本容量的定量关系,关系图如图4~图6所示。
表2 尺度参数估值与样本容量关系表
从图1~图3可得到10%、5%、2.5%精度约束下每个形状参数估计精度与样本容量的定量关系。矩估计法对形状参数的估计最具代表性和典型性,因此对形状参数估算所有方法的定量关系具有普遍参考价值,这样在形状参数估计选取样本容量时就建立了一个参考标准,应参考图1~图3中的定量关系选择合理的样本容量,否则样本容量太大会造成估算效率低下、资源浪费等缺点,样本容量太小会使估算精度过低。
从图4~图6得到形状参数取不同值时尺度参数估计精度与样本容量间的定量关系。这样在尺度参数估计选取样本容量时也建立了一个参考标准,从图4~图6知,当p取不同值时σ估计收敛性不同,p越大,收敛性越好,因此σ估计收敛性与p有关,建议用式(3)估算σ时首先确定p,根据p值参考图4~图6判断估计收敛性,选择合理的样本容量估算σ,否则盲目选取样本容量会造成计算效率低、精度差、资源浪费。
图4 尺度参数估值与样本容量关系(rσ=10%)
图5 尺度参数估值与样本容量关系(rσ=5%)
图6 尺度参数估值与样本容量关系(rσ=2.5%)
[1]KRUPIN'SKI R,PURCZYN'SKI J.Approximated Fast Estimator for the Shape Parameter of Generalized Gaussian Distribution[J].Signal Processing,2006,86(2):205-211.
[2]KRUPIN'SKI R,PURCZYN'SKI J.Modeling the Distribution of DCT Coefficients for JPEG Reconstruction[J].Signal Processing:Image Communication,2007,22(5):439-447.
[3]PI M.Improve Maximum Likelihood Estimation for Subband GGD Parameters[J].Pattern Recognition Letters,2006(27):1710-1713.
[4]DERRODE S,MERCIER G.Unsupervised Multiscale Oil Slick Segmentation from SAR Images Using a Vector HMC Model[J].Pattern Recognition,2007(40):1135-1147.
[5]CAI J,CHEN CW.Joint Source-channel Coding of GGD Sources with Allpass Filtering Source Reshaping[J].Journal of Visual Communication and Image Representation,2005,16(1):19-37.
[6]KOKKINAKISK,NANDI A K.Exponent Parameter Estimation for Generalized Gaussian Probability Density Functions with Application to Speech Modeling[J].Signal Processing,2005,85(9):1852-1858.
[7]AIAZZI B,BARONTI S,SANTURRI L,et al.Information-theoretic Assessment of Multi-dimensional Signals[J].Signal Processing,2005,85(5):903-916.