张大林 刘福波
【摘 要】本文主要研究了区间估计的概念,并得出了区间估计的相关原理. 其目的是加深人们对区间估计原理的理解,特别是对以前一些误区,进行全部了解。同时深入的学习了解了区间估计、置信区间、置信水平、区间精确度、可靠度这些知识,并理解了它们之间的关系以及联系。此外区间估计的实例应用与生活有着密切的联系,既让所学知识学以致用, 又充分体现了数学与生活息息相关。
【关键词】区间估计;置信区间;求解;实例应用
中图分类号: R446.11文献标识码: A文章编号: 2095-2457(2019)10-0012-004
DOI:10.19694/j.cnki.issn2095-2457.2019.10.004
The Principle of Interval Estimation and Its Application
ZHANG Da-lin LIU Fu-bo
(School of Mathematics and Statistics,Qiannan Normal University for Nationalities,Duyun Guizhou 558000, China)
【Abstract】The thesis mainly studies the concept of interval estimation and derives the correlation principle of interval estimation. Its purpose is to deepen people's understanding of the principle of interval estimation, especially the previous misunderstandings. At the same time, they learned in depth the knowledge of interval estimation,confidence interval, confidence level, interval accuracy and reliability, and understood the relationship between them. In addition, the examples of interval estimation apply a close connection with life, which not only allows students to learn what they have learned, but fully reflects mathematics. This is closely related to life.
【Key words】Interval estimation; Confidence interval; Solving; Application
0 引言
隨着科学技术的普及,数理统计知识的重要性逐渐被人意识到.在统计过程中参数的估计是一个不可或缺的部分,尤其是在上世纪60年代之后,计算机的发展更是推动这一领域的发展.在生活中,区间估计更是随处可见.产品优次品的检验、产品的使用寿命、销售业绩的评估、各类保险费用评估等。
1 区间估计概述
参数估计可以这样理解,在一组数据中对一定的样本量进行选择,之后对所有数据的分布条件预估,数据的分布空间,实际上就是预估得到的相关数据,所以我们也将这一过程称为区间预估,目前来说,使用比较广泛的预估方法有方差预估和均值预估两种。还有一种预估方式是点预估,指的是通过一个确定的点对参数进行估计,但是这种预估方法不能将预估的精度和误差反映出来,于是人们在此基础上发展出了参数空间的概念,通过参数的空间,能够对点预估的结果进行有效的度量。
区间估计指的是从空间中抽一定的样本量,然后对整组数据的分布情况进行预估,并将预估的结果作为整体分布的大致空间,并在进行预估时,其所需要的精度能够达到相应的要求。该估计能够处于特定的概率水平并对估计值所对应的取值范围进行相应的判断,进而对样本序列所对应的聚集、离散的程度进行认知。然而由于异常值能够使得所进行估计的区间出现误差,而且该推断是基于一定概率的基础上所产生的,因而没能考虑到小概率事件所带来的一系列影响。
估算区间,第一步,对确定的置信区间1-α掌握,在总体参数θ的大小位于某特定区间范围内的时候,概率置信区间1-α的情况下,这一区间可以确定为最终要求的空间,将这一过程用数学公式进行表示为Pθ( L≤θ≤ U),其中 L, U是区间估计时需要进行统计的量,( L, U)即为置信区间。因为预估的空间来源于样本,而样本的选取带有随机性,所以预估的空间也是不确定的。在日常生活中,人们所说对于某件事情有多少把握,其实也是一种空间预估。
1934年,著名统计学家J.奈曼创建了一种区间估计理论,并对其进行了严格的规定。根据J.奈曼对于空间的理论,进行空间求解过程中,一般都需要进行一下三种操作:(1)为保证空间的准确性,需要大量使用样本。(2)利用已知的抽样分布情况。(3)在得到预估空间之后,要利用假设检验的方法对其验证。[1]
2 区间估计及置信区间
2.1 区间估计的概念
假设在一组数中有一个总参数θ,存在一组样本x1,L,xn,而我们需要根据既有的样本进行空间预估,找到两个参数 L= U(x1,L,xn)和 U= U(x1,L,xn),同时量参数之间的关系为 L< U,经过观察,在知道了样本的观测值值以后,对总参数θ空间展开估算,这个区间的范围通常在[ L, U]这个值域中,因为采取随机的方式选择样本,预测的区间带有明显的不确定性这样的特征.且[ L, U]区间将全部的参数全部涵盖的可能性几乎为0.所以人们对于区间[ L, U]的估计的要求是尽量使盖住θ的概率Pθ( L≤θ≤ U)尽可能大,但是这一要求与区间分布的长度之间又有一定的矛盾,为了解决这一问题,我们一般会给定区间涵盖参数的概率,这样得到的区间更具有可比性,于是在此基础上产生了置信区间.
2.2 置信区间的概念
当对样本所在的空间进行构建,所得到的空间即为置信区间。在统计学领域中,对样本的某个部分的区间进行预估,所得到的空间即为置信区间(Confidence interval)。它展现出来的是数据落在这一范围内的概率,具有实际的预估意义.用另一种方式表达这个概率,即可信水平,很多时候也叫做置信水平。[2]
置信区间代表的意义就是:样本容量固定为n,假如对总体进行N=1000次抽样,就得到了1000个置信区间,这些区间有的包含θ的真实值,有的不包含.但假设当置信度1-α=95%时,这一千个区间就大约有1000×95%=950个包含了θ的真实值.例如,如果在一次投票选举活动中得知某位选手的支持率为55%,并得知其置信水平0.95以上的置信区间是(50%,60%),那么在实际投票过程中,该位选手的支持率在百分之五十到六十之间的概率将会超过95%,由此可以得出该选手支持率过办的概率超过 98%。与上述实例中的表示方法一致,人们在表示置信水平的时候一般都是使用百分数表示,所以上述中提到的0.95上的置信区间也可用百分数的形式来表示:95%置信区间.区间的两端的值的另外叫法为置信极限。
2.3 置信区间定义
一组数,如果存在总参数θ,样本为一组x1,L,xn,这个组数据对应的空间的参数则是E,如果α(0<α<1)已定, L= L(x1,L,xn)与 U= U(x1,L,xn)必定存在 L< U,在θ符合θ∈E的情况下,符合Pθ( L≤θ≤ U)≥1-α,θ的置信水平是1-α的情况下,置信区间对应的范围是[ L, U]。置信水平1-α可以表示为:当多次的对θ所对应的置信区间[ L, U]进行不断的使用时,使用过程中所产生的样本观测值是不一样的,而且与之相对应的区间也不相同,就每次产生的观测值来说,θ所对应的范围有几率处于[ L, U]中,也有几率不处于该范围的里面,但是按照平均水平来说,一般会有100(1-α)%包含θ。
参数θ虽然是一个未知量,但就数据本身而言,它是一个常数,常数没有随机性,但区间[ L, U]具有随机性。所以不等式Pθ( L≤θ≤ U)≥1-α也可以理解为:随机区间[ L, U]通过1-α的概率对θ所对应的真值进行包含,但是不可以理解为θ通过1-α的概率处于[ L, U]所对应的随机区间中.
举个例子假设α=0.01,不断的对参数进行1000次抽样,这一抽样的过程中,不包含θ真值的样本约为10个。
例1如果N(μ,σ2)的样本有10个,用x1,x2,…,x10表示这些样本,在置信水平确定的条件下1-α,对其置信区间进行计算,得
对上面的式子进行计算需要计算样本的平均和方差,也就是x,s。
解:若取α=0.50,则t0.95(9)=1.8331,上式化为
现假定μ=15,σ2=4,我们用随机模拟的方式在N(15,4)中产生一个样本,样本的数量为去10,产生的样本为:
通过该样本能够求出x=14.705,s=1.843,进而求出μ所对应的一个区间是:
[14.705-0.5797×1.843,14.705+0.5797×1.843]=[13.637,15.773]。
这个区间中的μ所对应的真值为-15.如今不断的使用100次这一方法,能够获得相应的样本100个,进而获得相应的区间100个,把该100个区间在图上绘制出来,通过图2能够发现,拥有参数真值等于15的区间共91个,其余的几个没有参数真值,这可以被当做对置信水平1-α=0.90所做出的一个合理解释。
假设α=0.50,那么t0.75(9)=0.7027,则μ的置信水平为0.50的置信区间为
该区间也包含了参数真值,类似地,我们也可以给出100个这样的区间,见图3。由图可知,在这100个区间中,包含真值15的有50个,其他不包括真值.这是置信水平1-α=0.50的一个合理解释。
通过定义能够发现,想要有效的对参数θ进行相应的区间估计,需要把依靠样本的两个界限找出来:
当将这一样本找出来时,将θ的值从[ L, U]中估算出来。
针对[ L, U]这一区间,我们所作出的要求为该区间能够包含θ,也就是说Pθ( L≤θ≤ U)需要比较大的值,即满足空间的可靠性,同时要求区间的长度 U- L越短越好。以保证空间的精确度,但是这两者本质上存在着矛盾,我们的做法是在保证可靠度在一定范围内时提高精确度.
3 如何计算区间估计
3.1 区间估计的计算方法
(1)确定要估计的参数θ(一般为μ,σ2)
(2)根据样本和总体的条件,能够获得所对应的置信区间的公式:
[ L(x1,L,xn), U(x1,L,xn)]
(3)样本值和的置信度所进行计算的的相应范围为:
[ L(x1,L,xn), U(x1,L,xn)]
3.2 求解置信区间的一般步骤
(1)寻求一个样本x1,x2,L,xn的函数:
Z=Z(x1,x2,L,xn;θ)
(2)Z是一个数字的集合,其分布情况与参数无关,所以如果给定一个置信度1-α, 会存在两个常数a和b,满足以下公式:
P{a≤z(x1,x2,L,xn;θ)≤b}=1-α
(3)根据上述公式的条件a≤z(x1,x2,L,xn;θ)≤b,将公式进行简化,可得到 L≤θ≤ U,式中的 L= L(x1,L,xn), U= U(x1,L,xn)都是根据对样本進行统计之后得到的数据。.
上面的计算属于等价变性,同时有Pθ{ L≤θ≤ U}=1-α,可以说[ L, U]属于θ的置信水平是1-α的置信区间。
例2已知一种材料在抗压能力上满足正态分布, 现在这批材料中随机选取10各样本,测得的耐压值为:
482 493 457 471 510 446 435 418 394 469
(1)结合相关数据,计算抗压水平μ的置信度是的置信区间;
(2)要是σ=30确定,计算平均抗压水平μ的置信度是的置信区间;
解(1)因为σ未知,所以在置信区间的计算时要使用t:
x= ×(482+493+457+471+510+446+435+418+394+469)=457.5,s=35.2176
μ的置信水平为的置信区间为:
[x- t (n-1), + t (n-1)],
通过表求出t1-0.025(9)=2.2622,因此μ所对应的置信水平为的置信区间是:
[457.5-2.2622×35.2176/ ,457.5+2.2622×35.2176/ ]
=[432.306,482.6936].
(2)当σ=30时,通过Z统计量对置信区间进行相应的计算,因此μ所对应的置信水平为的置信区间是:
[x- μα/2,x+ μα/2],
通过查阅表能够发现:μ1-0.025(9)=1.96,因此μ所对应的置信水平为95%的置信区间是:
[457.5-1.96×30/ ,457.5+1.96×30/ ]
=[438.9058,476.0942]
4 正态总体均值的区间估计
4.1 单个总体N(μ,σ2)的情况
置信水平1-α被相应的确认,N(μ,σ2)所对应的样本为x1,x2,L,xn,x,s2,分别表示为样本均值和方差。
4.2 均值μ的置信区间
4.2.1 σ2為已知
μ所对应的置信水平是1-α的置信区间是{x- zα/2,x+ zα/2},该区间所对应的长度是2× zα/2。
相应的推导为:由于x作为μ的没偏差的估计,而且Z= ~N(0,1), ~N(0,1)对所有不知道的参数都不依靠,通过标准正态分布所对应的情况,将α分位点表示为:
P= ≤z =1-α,
也可以说为P={x- zα/2≤μ≤x+ zα/2}=1-α,μ所对应的置信水平是1-α的置信区间为
- z ≤μ≤ + z ,
这样的置信区间常写成
± z 。
例3包糖机某日开工包了12包糖,称得重量(单位:克)分别为506,500,495,488,504,486,505,513,
521,520,512,485.假设重量服从正态分布,且标准差为σ=10,试求糖包的平均重量μ的1-α置信区间(分别取α=0.10和α=0.05)。[3]
解σ=10,n=12计算得x=502.92
(1)当α=0.10时,1- =0.95,查表得zα/2=z0.05=1.645,
- z =502.96- ×1.645=498.17,
- z =502.96+ ×1.645=507.67,
即μ的置信度为的置信区间为[498.17,507.67]。
(2)当α=0.05,1- =0.975,查表得z =z0.025=1.96,同理可得μ置信度为95%的置信区间为[497.26,508.58]。
4.2.2 σ2为未知
μ的一个置信度为1-α的置信区间为 ± t (n-1)。由于区间 ± z 中含有未知参数σ,不能直接使用此区间.但因为s2是σ2的无偏估计,可用s= 替换σ,根据定理推论知 ~t(n-1),P-t (n-1)≤ ≤t (n-1)=1-α,即P - t (n-1)≤μ≤ + t (n-1)=1-α,确定μ的置信水平是1-α的置信区间: ± t (n-1)。
例4有很多重量未知的糖果,按照随机的方式,自这些糖果挑选16袋称重, 称重如下(单位克):
506 508 499 503 504 510 497 512
514 505 493 496 506 502 509 496
当糖果所对应的重量处于正态分布的情况时,计算出均值μ所对应的置信水平为95%的置信区间。[4]
解α=0.05,n-1=15,查t(n-1)分布表已知:t0.025(15)=2.1315,计算得 =503.75,μ所对应的置信水平为95%的置信区间是[503.75± ×2.1315]即[500.4,507.1].这一情况表示糖果重量所对应的均值95%会是500.4~507.1其中一个,当该范围中任一值都属于μ的近视值时,其误差不大于 ×2.1315×2=6.61(克),这个误差的可信度为95%.
5 区间估计的实例应用
5.1 产品优次检测
例5包糖机某日开工包了12包糖,称得重量(单位:克)分别为506,500,495,488,504,486,505,513,
521,520,512,485.假设糖包的重量是符合正态分布的N(μ,σ2),计算出μ所对应的95%置信区间。[5]
解此时σ未知,n=12,α=0.05,x=502.92,s=12.35查t(n-1)分布表可知:t0.025(11)=2.201,于是 t (n-1),得μ的置信度为95%的置信区间[495.07,510.77]。
5.2 保险评估
例6保险公司随机的在所有的投保人中选出36个,并对这36个进行相应的年龄统计,如下表所示,对投保人的年龄所对应的的置信区间进行创建。
表1 36个投保人年龄的数据
解已知n=36,1-α=90%,zα/2=z0.05=1.645.根据样本计算得:x=39.5,s=7.77,均值μ在达不到置信度1-α时所对应的的置信区间为:
x±zα/2 =39.5±1.645× =39.5±2.13=(37.37,41.63)
投保人所对应的年龄的置信区间是37.37:41.63岁.
5.3 产品使用寿命
例7灯泡使用寿命方面满足正态分布,第一步测试灯泡的平均寿命位于置信区间按照随机的方式,对16只灯泡展开测试,具体测量情况显示如下。
表2 16只灯泡使用寿命的数据
解已知X~N(μ,σ2),n=16,1-α=95%,tα/2(n-1)=t0.025(15)=2.131,根据样本数据计算得:x=1490;s=24.77,总体均值μ没有达到1-α置信水平,所对应的置信区间为: ±t =1490±13.2=(1476.8,1503.2).这一类型的灯泡所能使用的平均寿命对应的置信区间是1476.8~1503.2小时。
6 结束语
通过本次设计,深入的学习了解了区间估计、置信区间、置信水平、区间精确度、可靠度,并理解了它们之间的关系以及联系,更加熟练的掌握并运用区间估计方面的知识。
【参考文献】
[1]茆诗松,程依明,濮晓龙.概率论与数理统计教程(第二版)[M].北京:高等教育出版社,2011.2(2015.12重印).
[2]馮忠蕙.置信区间估计与应用(六)[J].中国儿童保健杂志,1999年6月第7卷第2期.
[3]李鹏祥.样本容量对总体均值区间估计精度的影响[J].黄冈师范院学报,2009,12.
[4]吕黎明.关于非正态总体的区间估计[J].长春师范学院学报(自然科学版),2005,6,第24卷第2期.
[5]朱丹丹,朱红兵,何丽娟.参数区间估计方法在体育调查中的应用[J].科技创新导刊,2017,第34期.
[6]樊明智,王芬.区间估计与假设检验[J].河南许昌学院 数学系,2006.
[7]何春.关于污染数据的区间估计[J].广东工业大学学报,2001年9月,第18卷第3期.