游晟东
【摘要】我们通常需要对抽样得来的样本进行统计推断,而参数估计则是其中比较重要的课题。本文以两点分布和均匀分布为例,介绍参数估计的矩估计和极大似然估计方法,并用R语言模拟数据,进而通过编程实现上述两种方法。
【关键词】参数估计 两点分布 均匀分布 R语言
【中图分类号】G42 【文献标识码】A 【文章编号】2095-3089(2019)03-0151-02
1.前言
隨着科学技术的飞速发展,我们能够获取、存储和利用的数据越来越多。那么如何从大量的数据中提取出我们需要的信息,并对我们社会生活进行决策提供指导,才是我们真正关心的问题。举一个生活中的例子,假设我们从某灯泡生产商获取了200个小灯泡,现在对这200个灯泡进行持续照明试验,如果某灯泡持续照明时间超过1000小时,则认为其合格,否则不合格。于是我们可以得到这200个灯泡合格情况的数据,但我们所关心的是这批灯泡的合格率问题,因为这会影响这家厂商生产的灯泡能不能投放市场。而如何根据照明数据得到合格率的信息则是我们统计学中的问题,于是本文利用统计学中的参数估计方法,并结合R语言数值试验,分别得到了两点分布和均匀分布参数估计的结果。
2.两点分布与灯泡试验
2.1 模型建立
为了建立两点分布,我们首先考虑灯泡试验的概率空间,包括样本空间,事件域和概率测度。
若某灯泡持续照明时间超过1000个小时,我们称此灯泡合格,也称试验成功了。于是此灯泡试验的样本空间,即所有可能出现的基本结果的集合为
Ω=ω|其中ω代表小灯泡合格或者不合格
随机变量X=1,若灯泡合格0,若灯泡i不合格,即X只取0和1两个数。取此试验的事件域F为由随机变量X生成的σ-代数。对于样本空间里的每一个样本点ω,定义如下概率,若ω代表灯泡合格,则其概率为p,否则概率为1-p,其中p∈(0,1)。此时我们称随机变量X服从成功概率为p的两点分布。若我们对n个灯泡进行独立重复的照明试验,则X1+X2+…+Xn就代表n个灯泡中合格的个数,服从所谓的二项分布,所以两点分布也是一种特殊的二项分布。
2.2 矩参数估计
假设我们有了n个灯泡的试验数据,分别是X1,X2,…,Xn。矩估计方法就是用样本的矩去估计总体的矩。总体的一阶矩,即总体的数学期望为p,而样本的一阶矩就是样本的平均数 ,于是总体参数p的估计值为 = 。
现在用R语言依次生成10,100,1000,10000个服从成功概率为0.6的两点分布的随机数。这里的0.6可以看作是灯泡在理论上的合格率。得到的结果如下:
可以看出随着数据量的增大,我们的估计值和理论值越来越接近。而当n=10时,得到的估计指0.7与理论值0.6有较大差距,这是由于样本量较小导致的。
2.3 极大似然估计
极大似然估计的想法现在已经得到了样本,这是已经发生了的事实,我们就是要寻找那个使得最有可能导致现实结果的参数p。这里我们沿用2.2节的设定,则出现样本X1,X2,…,Xn的概率为L=p (1-p) ,称为似然函数。为了找出此函数在(0,1)上的最大值点,我们首先对L取对数,得到
lnL= xiln(p)+n- xiln(1-p)
然后,对p求导可得到L取得最大值的点为 ,和矩估计方法的形式相同。我们也可以直接利用R语言的optimize函数近似求解L在(0,1)上的最大值点,而不必借助于函数求导,当然也就意味着牺牲一些准确性。
3.均匀分布的参数估计
3.1 均匀分布简介
若随机变量的X的概率密度函数为:
p(x)= ,a≤x≤b0,otherwise
则称X服从区间[a,b]上的均匀分布,记作X~U(a,b)。这里的均匀分布和离散的随机变量不同,它取[a,b]上每一点的概率都为0,所以不可能写成概率分布列的形式,于是我们引出了概率密度函数的概念。为了进行矩参数估计,我们计算出均匀分布的一阶矩和二阶矩分别为:
E(X)=
E(X2)= +
3.2 矩估计
假设我们有来自[a,b]上均匀分布的样本X1,X2,…,Xn,令A1 代表样本的一阶矩,A2?勖 Xi2代表样本的二阶矩。于是矩估计的等式为:
=A1
+ =A2
解上述方程可得, =A1+ =A1-
下面我们利用R语言的runif函数依次生成服从[2,6]上的均匀分布的10,100,1000个随机数。然后利用上述矩估计公式得到结果如下表所示:
容易发现,和两点分布时情形基本类似,随着样本量的不断增大,我们的估计值会越来越接近理论值。
3.3 极大似然估计
样本x1,x2,…,xn对应的似然函数为L= 1[a,b] (xi)这里1是示性函数。则当a≤ xi且 xi≤b时,L= ,其他情形为0。于是,要使得L达到最大值,a,b的估计值为 = xi, = xi。沿用3.2的数据,我们只给出n=100时的估计值为 =2.026589, =5.966075。
4.总结
我们利用矩估计和极大似然估计方法得到了两点分布和均匀分布的参数估计,从数值上来看,两种方法估计的都较为准确,且随着样本量的增大,估计得误差也在慢慢地降低。从试验中还可以发现,R语言对于解决统计问题非常方便,语法简洁,易于编程。
参考文献:
[1]茆诗松. 概率论与数理统计简明教程[M].高等教育出版社,2012.
[2]Matloff N. R语言编程艺术[M].机械工业出版社,2013.