【摘要】本文首先对二项分布进行了回顾,然后从模型的背景出发分别从不同的角度探讨了其极限分布,并通过案例分析发现在很多二项分布的计算中适当的使用极限分布可以简化计算。
【关键词】二项分布 泊松分布 正态分布
【中图分类号】G64 【文献标识码】A 【文章编号】2095-3089(2018)42-0230-02
在概率论与数理统计中,二项分布是最常用的一类离散型分布,在生活中二项分布的例子比比皆是,但当它的参数比较大的时候其相关计算并不简单,这时若利用极限分布来近似替代二项分布会使计算大大简化,但由于学生对这些分布和其极限分布的相关定理理解不够清晰,使得对极限分布到底选择泊松分布还是正态分布感到疑惑。本文我们就重点来分析二项分布的相关极限定理。
1.二项分布的定义
1)背景模型:n重伯努利试验,即,每次试验中只有两种可能的结果(伯努利试验),独立重复地进行n次这样的试验。
2)定义:设X表示n重伯努利试验中事件A出现的次数,每次伯努利试验中事件A出现的概率均为p,则X可能的取值为:0,1,2,…n,X取各个值的概率分别为P(X=m)=C■■pmqn-m,其中m=0,1,2,…n,则称X服从参数为n,p的二项分布,记为X~B(n,p)
从定义可以看出,一个随机变量是否服从二项分布主要看随机试验是否满足其背景模型:1)X表示n次试验中我们所关心的事件A出现的次数;2)每次试验都是一个伯努利试验,即,只有两种可能的结果(事件A出现和事件A不出现),并且每次试验中事件A出现的概率都为p;3)n次试验相互独立。当试验满足以上三条时,我们就可以判定X~B(n,p)。
在生活中利用二项分布可以解决很多现实问题。下面我们给出一个例子:
例1.某车间有10台同型号车床。如果每台车床的工作情况是彼此独立的,且每台车床平均每小时开动12分钟。令X表示该车间任意时刻处于工作状态的车床数,试求同时处于工作状态的车床数大于8个的概率。
解析:1)该题目关心的是10台车床中处于工作状态的车床的数量;2)每一车床只有工作状态和非工作状态两种,所以对每一台车床的观察就是一个伯努利试验,且每台车床平均每小时开动12分钟,即他们处于工作状态的概率都是一样的;3)他们工作情况又是彼此独立的,也就是说对10台车床工作状态的观察就是10次独立重复的试验。所以此试验模型完全符合10重伯努利试验,X~B(10,p),因为本题关心的事件是处于工作状态的车床数,所以p是处于工作状态的概率。每台车床平均每小时开动12分钟,那么,任一时刻处于工作状态的概率根据几何分布可以计算p=■=0.2。所以,同时处于工作状态的车床数大于8个的概率P(X>8)=P(X=9)+P(X=10)=C■■0.290.81+C■■0.210
2.二项分布的极限分布
2.1 泊松分布
设随机变量可能的取值为:0,1,2,…k,…,X取各个值得概率分别为P(X=k)=■e-?姿,其中k=0,1,2,…,则称X服从参数为?姿的泊松分布,记为X~P(?姿)。
泊松分布可以看作是二项分布的一个极限分布,具体的理论依据就是泊松定理:
在n重伯努利试验中,事件A在每次伯努利试验中发生的概率均为pn,如果n→∞时,npn→?姿(?姿>0),则对任意k=0,1,2…,n,有■C■■p■■(1-pn)n-k=■e-?姿。
注:定理中的pn和事件A发生的概率根据总试验次数有关。当n充分大,pn充分小时,服从二项分布的随机变量X~B(n,pn)近似的服从参数为?姿=npn的泊松分布。事实上,当n充分大,pn充分小时,二项分布的概率P(X=k)=C■■p■■(1-pn)n-k计算并不简单,如果这个时候可以借助于泊松分布的话,泊松分布有现成的泊松分布概率值表就大大减少计算量。
例2.一个计算机硬件公司生产一种型号的微型芯片,每一芯片有0.1%的概率为次品,且各芯片是否为次品是相互独立的。求1000块芯片中至少有两块是次品的概率。
解析:设X表示1000块芯片中次品的数量,则X~B(1000,
0.001)
如果直接用二项分布来计算概率,则P(X=2)=C■■0.0012×0.999998,显然计算中幂的计算太复杂。这里的n=1000充分大,p=0.001充分小,我们可以根据泊松定理利用泊松分布来近似代替二项分布:P(X=2)=C■■0.0012×0.999998≈■e-1=■,?姿=np=1000×0.001=1
2.2正态分布
根据中心极限定:设独立同分布的随机变量序列X1,X2,…,Xn,…,EX=?滋,DXi=?滓2>0,则X=■Xi近似的服从正态分布N(?滋,?滓2)。二项分布可以看作是n个独立同分布的两点分布的和,所以当n→∞时,二项分布近似的服从正态分布。我们知道在计算概率的时候正态分布具有先天优势(现成的分布函数表可以查),所以计算二项分布相关的概率时,当n充分大时,我们可以借助正态分布来计算二项分布的概率。
例3:设电路供电网中有10000盏灯,晚上每一盏灯开着的概率都是0.7,假定各開或关的时间彼此无关,计算同时开着的灯数在6800到7200之间的概率。
解析:本题关心的是开着的灯的数量,每一盏灯只有开或者关两种状态,这就是一个伯努利试验,因为每盏灯开或关都彼此无关说明对每盏灯的观察是独立,且每盏灯开着的概率都一样都是0.7,由此可见,这10000盏灯中开着的灯的数量服从二项分布。我们可以设X表示10000盏灯中同时开着的灯的数量,则X~B(10000,0.7)。我们发现10000已经很大了,要计算此二项分布的概率是很不容易的,所以我们考虑用二项分布的极限分布近似替代二项分布来计算相应概率。又发现第二个参数为0.7比较大,所以泊松分布在这里就不适用,而根据中心极限定理我们完全可以用正态分布来近似替代。
解:设X表示10000盏灯中同时开着的灯的数量,则X~B(10000,0.7)
由中心极限定理知,X~N(7000,2100)
所以,P(6800 =?椎0(■)-?椎0(■) =?椎0(4.36)-?椎0(-4.36)=2?椎0(4.36)-1=0.99998 通过这个例子我们看到,利用中心极限定理将二项分布转换为其极限分布(正态分布)可以更方便快捷的得到概率。 3.小结 通过本文的总结,我们将学生容易搞混的几个分布进行对比探讨,发现他们的区别与联系:二项分布中,当n充分大,p充分小时,泊松分布是它的极限分布;当n充分大(p并不小)时,正态分布是其极限分布。实际应用中,当参数比较大时,概率的计算概率并不简单,然而,通过其极限分布近似替代二项分布便可以简化计算。 参考文献: [1]茆诗松等.概率论与数理统计[M]. 北京:高等教育出版社,2004. [2]龙永红.概率论与数理统计[M]. 北京:高等教育出版社,2009. 作者简介: 张爱丽(1984.11-),女,汉族,陕西凤翔人,博士,讲师,研究方向:数理金融。