郑昌红
摘 要 本文先从一个实际问题出发,引出离散型均匀分布的参数估计的合理性,进而讨论连续性均匀分布的参数估计的合理性,从而推出更一般的情况。
关键词 参数估计 矩估计 均匀分布 无偏估计
中图分类号:O212.1 文献标识码:A
在二战期间,德国坦克战斗力优于盟军。为了知己知彼,了解德军坦克数显然可以帮助盟军评估获胜几率和调整武器装备。因此盟军开始寻找方法进行推算,他们最后找到了重要线索。盟军发现德军墨守成规,每辆坦克都有一个独特的序列号,序列号有一个模式,代表了坦克生产订单,而且每个号码不会重复。那么怎么样根据缴获的德军坦克的编号来估计德军坦克数量呢?
观察整个问题,最终需要估计德军坦克的数量,这个数量是一个未知参数,其估计值要通过缴获的坦克编号得到。
设总体表示缴获的坦克的编号,德军坦克数为。显然缴获每一辆坦克都是等可能的,则的分布律为:( = ) = ,( = 1,2,…,)其中分布律中德军坦克数为未知参数。
这种分布不如可以理解成离散型的随机变量的均匀分布,即取得每个可能取值的可能性是一样的。
这里我们先给出第一种常规方法求出未知参数的矩估计。
根据总体的分布律,只有一个未知参数,所以只需求出其数学期望:
由于随机变量的可能取值为1,2,…,,显然这个估计量不能保证估计出来的坦克数比缴获的坦克编号中最大的大,所以用这个来估计坦克数不合理。合理的估计值一定要大于等于缴获的坦克编号中最大的,也就是说我们关心的其实是取得的最大编号。为了满足这个合理条件,我们通过编号最大值的分布来估计参数。
设总体表示缴获坦克的编号的最大值,德军坦克数为,缴获的坦克数为,则的分布律为:
那么如何求呢?这要用到二项式系数的相关方法 。
显然代数式 + + … + 中的系数为,经过求和有 + + … + = ,所以其的系数即为分子的的系数,也就是说 = 。
进一步可以得到: = = = ,从而 = ,所以矩估计为:。
首先一定满足估计值大于等于缴获坦克编号的条件。其次这个结果可以理解成估计值等于最大编号加上平均遗失的编号。
二战结束后,盟军通过德军遗留下来的资料发现,德国在1940年夏天到1942年秋天期间,每月生产坦克255辆。根据战后获得的德国内部统计数字,坦克的真实生产速度是每月256辆,仅仅差了一辆,用统计方法估计出来的坦克数量与实际坦克数量如此惊人的相似。这个结果比刚开始动用传统的情报收集方法:间谍活动、拦截和破译轴心国通讯,审讯俘虏这些手段估计出来的结果要准确得多。
这实际上是一个离散均匀分布的参数估计问题。自然我们想到连续性均匀分布的参数估计问题。
设随机变量~(),其中为未知参数。很容易求出的极大似然估计为:,即用样本的最小值和最大值分别来估计。但是显然估计偏大, 估计偏小。
下面我们用一般的矩估计的方法求的估计量。
的概率密度函数为:
则,解得:
所以的矩估计量为:
此估计量与上面的例子类似的存在缺点:对样本(,,…,),记 = (,,…,), = (,,…,),显然对任意样本观察值都有≤≤≤,所以上述矩估计不能保证的估计值小于最小的,的估计值大于最大的这个条件,也就是说这个估计量是不合理的。为了满足合理性,我们更应该关心样本中的最大和最小值的情况。即,的情况。
由于,,…,相互独立且同分布,设其分布函数为(),则
是,的线性组合,其估计的结果可以理解成:表示样本的最小值减去样本的平均距离,表示样本的最大值加上样本的平均距离,这个结果比起极大似然估计和一般的矩估计显然更合理。
很容易证明分别是的无偏估计量,由文献[3]还可以知道还是的一致最小方差无偏估计量。
由上面的讨论,我们可以把这个问题推广到更一般的情况。若随机变量的可能取值范围受未知参数的控制,那么我们用常规的点估计的方法估计出来的结果可能不合理,这时我们可以用类似于上述的方法对估计方法进行调整,使得估计量具有合理性。