马一江,韩利娜
(西安文理学院数学系,陕西 西安710065)
在实际工作当中,通常需要去估计具有某种特征的单位数占总体全部单位的比例,加以对总体比例进行判断。例如,在灯泡合格率的抽样当中,要通过样本的不合格率来估计整批灯泡的不合格率,并作出整批灯泡是否合格的判断。有时还需要从两个对立总体中抽取两个独立样本,估计两个总体的比例之差。具体来讲就是根据一定的概率即置信水平要求,估计总体比例或比例之差的范围,从而形成此类问题的区间估计。
下文分别讨论一个总体比例和两个总体比例差的置信区间的求法。
如果随机变量X代表在n次二项实验中具有某种特征的单位数,则X服从二项分布,其期望和方差分别为E(X)=nπ,D(X)=nπ(1-π),设随机变量p=X/n,有E(p)=π,D(p)=π(1-π)/n,可知样本比例p是总体比例π的无偏估计。根据中心极限定理,在大样本条件np>5,n(1-p)>5 的情形下,可以把二项分布问题转化为正态分布问题近似的去求解,所以有将p再经过标准化,得到服从N(0,1),在π未知的情况下,可以用p来代替π计算上式中z的分母,即:
若置信水平为1-α,则总体比例π的置信区间估计的概率表达式为即P{p-
因此,总体比例π的置信水平为1-α的双侧置信区间为:
例1:某公司要估计一批总数为5000个插座的不合格率,于是随机选取400个插座来进行监测,发现有32个插座不合格,试求该批插座的不合格率的90%的置信区间。
解:记合格插座为“X=0”,不合格插座记为“X=1”,整批产品的不合格率为π。已知n=400,N=5000,样品不合格率p=32/400=0.08,np=32>5,n(1-p)=32>5。
大样本条件满足,置信水平1-α=90%,α=10%,查“标准正态分布表”,得到zα/2=z0.05=1.645。因此这批插座的不合格率π的90%的置信区间为:
因此,有90%的把握认为这批产品的不合格率的置信区间为5.77%~10.23%。
当样本比例p在0 或1 附近或者样本容量n较小时,二项分布呈偏态,不能用上面的正态分布来近似,去估计总体比例π的置信上下限,此时需要采用查表法,以例说明。
例2:向55 人调查关于推荐张某某市人大代表的意见,其中表示赞成的有21 人,试估计赞成张某成为市人大代表总体比例的95%置信区间。
解:已知n=55,X=21,查百分率的可信限表[1]。
首先查出与n=55,X=21 相对应的95%置信限为28、57,以及与n=60,X=21 相对应的95%置信限为23、49。
设所要求的95%置信下限为p1,上限为p2,则:
于是总体比例的95%置信下限为25.5%,置信上限为54% ,说明赞成张某成为市人大代表95%的可能在25.5%~54%范围内。
在实际问题的研究中,一般需要对两个总体比例之差作一个了解,比如对两个大型公司、两个大企业的某个板块比例进行比较,还有就是对某两个行业比例作一个比较等,这就涉及到两个总体比例差的区间估计问题。
分别从两个总体中各自随机抽取容量为n1和n2两个随机样本,设两个总体比例分别是π1和π2,要估计π1-π2,先计算出两个样本比例p1和p2。可以证明出当n1和n2两者都很大(都是大样本)且总体比例不太接近0 或者1 时,p1-p2的抽样分布近似服从正态分布。
其中,E(p1-p2)=π1-π2,D(p1-p2)=
由于π1和π2均未知,上述公式中分母的总体比例π1和π2需要用样本比例p1和p2来代替,即这时统计量z近似服从N(0,1)。
如果置信水平为1-α,则两个总体比例差π1-π2的置信区间估计的概率表达式为:
此时,总体比例之差π1-π2的置信度为1-α的近似置信区间为:
例3:某公司有两个生产车间,分别用M 和N 表示。为了降低不合格率,该公司相关负责人对N 车间的工人进行相关培训。5个月后,该公司负责人对两个生产车间的产品质量进行了监测。从M 车间抽取了200 件产品,从N 车间抽取了220 件产品,查到不合格品率M 车间为pM=15%,N车间为pN=3%。试在95%的可靠度下,构造两个车间不合格品率之差的置信区间。
解:已知pM=15%,pN=3%,nM=200,nN=220,当置信度为95%时,zα/2=1.96。
因此,(πM-πN)置信区间估计为[0.0658,0.1742]。根据这一结果,有95%的可靠程度车间M 的不合格品率比车间N 高6.58%~17.42%,估计的误差为5.42%。
本文主要讨论了两个问题:①一个总体大样本情况下,可以将原本的二项分布近似为正态分布,从而得到总体比例的置信区间。如果样本容量较小,或者样本比例p在0 或1附近,此时二项分布呈偏态,则不能用正态近似法来估计总体比例的置信限,这时可以借助统计专用表百分率的可信限来求。②两个总体比例差的区间估计,从两个二项总体中抽出两个独立大样本,沿用正态近似的结论,建立了两个总体比例差的区间估计结构。
对于总体比例差的区间估计效果如何,可以进一步做显著性检验,这部分内容在后期将进一步研究探讨。