侯国亮
[摘 要] 二项分布是一个非常重要的随机变量模型,很多随机现象都可以用二项分布模型来描述,但有关二项分布事件概率的计算却很麻烦。根据泊松定理和中心极限定理给出了二项分布事件概率的两种近似计算方法,具体例子表明两种方法简便有效。
[关 键 词] 二项分布;事件概率;泊松分布;正态分布;随机现象
[中图分类号] G642 [文献标志码] A [文章编号] 2096-0603(2018)01-0182-01
一、问题提出
二项分布是一个非常重要的分布,很多随机现象都可以用二项分布来描述,尤其是一些对人类生活、社会发展有着重大影响的随机现象都需要用二项分布来描述,比如,实验的成功与失败、种子发芽与不发芽、生男与生女、考试及格与不及格、产品合格与不合格、买彩票中奖与不中奖等。事实上,只要某种随机现象对应的随机试验是伯努利(Bernoulli)概型[注],则该随机现象就可用二项分布来描述。但有关二项分布事件概率的计算却很麻烦,需要借助简便有效的计算方法。本文在深入研究泊松定理和中心极限定理的基础上,给出了二项分布事件概率的两种近似计算方法,具体例子表明这两种方法简便有效。为了表述方便,下面首先给出二项分布的定义及其数学表示形式。
二项分布:如果随机变量的可能取值为0,1,2,L,n,且取每个可能值的概率为
PX=k=Cknpk(1-p)n-k,k=0,1,2,L,n,
则称随机变量服从以n,p为参数的二项分布,记作X∶B(n,p),这里Ckn表示从n个不同元素中取出个元素的组合数,即为Ckn=■,0
现就具体问题“设某保险公司的某人寿保险险种有1000人投保,每个人在一年内死亡的概率为0.005,且每个人在一年内是否死亡是相互独立的,求在未来一年中这1000个投保人中死亡人数不超过10人的概率”。运用二项分布相关知识,若设X为1000个投保人中在未来一年内死亡的人数,则X∶B(1000,0.005),进而事件{在未来一年中这1000个投保人中死亡人数不超过10人}的概率可表示为
PX≤10=■Ck1000(0.005)k(0.995)1000-k≈0.98652.
显然,在上面式子中要直接计算Ck1000(0.005)k(0.995)1000-k,k=0,1,2,L,10是相当麻烦的,需要借助简便有效的计算方法。
二、基于泊松定理的近似计算方法
定义2.1(泊松分布) 如果随机变量X的可能取值为全体自然数N,且取每个可能值的概率为
PX=k=■e-?姿,k=0,1,2,L,
則称随机变量X服从以?姿为参数的泊松分布,其中?姿>0,并记作X∶P(?姿).
定理2.2(泊松定理[1]) 设?姿>0是一个常数,n是任意正整数,设p=■,则对任一固定的非负整数k,有
■Cknpk(1-p)k=■.
该定理的证明是基础的、通俗易懂的,详细证明过程请参见文献[1]。
讨论2.3 因为定理2.2中的条件np=?姿(常数)意味着当n很大时p必定很小,所以上述定理表明当n很大,p很小时,有Cknpk(1-p)k≈■,这也就是说此时以n,p为参数的二项分布的概率值可以由参数为?姿=np的泊松分布的概率值近似。实践表明,一般当n≥20,p≤0.05时用■作为Cknpk(1-p)k的近似值效果颇佳。
回到部分1中的具体例子,因为n=1000远远大于20,p=0.005小于0.05,且有?姿=np=5,所以根据泊松分布定理及讨论2.3,可得
PX≤10=■Ck1000(0.005)k(0.995)1000-k≈■■e-5≈0.9863.
三、基于中心极限定理的计算方法
引理3.1 设随机变量X1,X2,L,Xn独立同分布,且Xi∶B(1,p),i=1,2,L,n,则■Xi∶B(n,p).
定理3.2(De Moivre-Laplace中心极限定理[2]) 设X1,X2,L是一个独立同分布的随机变量序列,且Xi∶B(1,p),i=1,2,L,Yn=■Xi则对任意一个x∈R,总有
■P■≤x=■■e■dt。
讨论3.3定理3.2 表明当n很大时,可认为Yn近似服从正态分布N(np,npq),其中q=1-p,又根据引理3.1可知Yn∶B(n,p),因此定理3.2可用于二项分布的近似计算。
再次回到部分1中的具体例子。由于n=1000比较大,且np=5,所以依据定理3.2及讨论3.3,有
PX≤10=P■≤■≈?椎■≈?椎(2.2417)≈0.9875.
其中?椎(x),x∈R表示标准正态分布函数。
四、结束语
1.文中所举例子表明,基于泊松定理的近似计算结果0.9863要比基于中心极限定理的近似计算结果0.9875更接近精确值0.9865,理论分析和实践验证表明,该结论具有一般性。
2.文中介绍的这两种近似计算方法具有普适性,即对任意二项分布事件概率计算问题,只要满足近似计算条件,均可用这两种方法进行近似计算。
[注]伯努利(Bernoulli)概型:实验的可能结果只有两个,实验在相同条件下可重复进行多次且各次实验结果互不影响(即所谓独立重复),在每次实验中两个可能结果发生的概率不变,满足这些条件的随机实验称为伯努利概型。
此概率值根据式子■Ck1000(0.005)k(0.995)1000-k用Matlab数学软件编程计算得到。
参考文献:
[1]盛骤,谢式千,潘承毅.概率论与数理统计[M].北京:高等教育出版社,2009.
[2]同济大学应用数学系.工程数学·概率统计简明教程[M].北京:高等教育出版社,2003.