王 进
(山东省淄博市高青县第一中学)
超几何分布、二项分布是高考常考的概率分布类型,这两种分布既有区别,又有关联,学生在初学时由于对两种分布的本质认识不清,极易造成混淆,进而在解题中出现错解.那么如何区分这两种分布?笔者归纳出如下几个区分点,供读者参考.
辨析从概念上来看:若随机变量X的分布列为(k=0,1,2,…,l,l=min{n,M}),则称X服从超几何分布.若随机变量X的分布列为1,p+q=1),则称X服从二项分布.从中可以看出,二项分布在每次试验中某一事件发生的概率是不变的,超几何分布是变化的.
例1某大型国际活动招募了50万青年志愿者,根据性别分层抽样,从中随机选取20人进行英语水平测试,所得成绩(单位:分)如图1所示.
图1
(1)从选出的8名男生中随机连续选取2次,每次选1人,记其中测试成绩在70分以上的人数为X,求X的分布列和数学期望;
(2)为便于联络,现将所有青年志愿者随机分成若干组(每组人数不少于5000),并在每组中随机选取m人作为联络员,要求每组联络员至少有1人英语成绩在70分以上的概率大于90%.根据图中数据,以频率作为概率,求m的最小值.
分析本题第(1)问从8人中随机连续选取2次,每次选取1人,第一次选取的学生成绩在70分以上的概率,与第二次选取的学生成绩在70以上的概率不同,故X服从超几何分布.第(2)问中每个志愿者的英语成绩在70分以上的概率都是相互之间互不影响,概率不变,故X服从二项分布.
解(1)8名男生中70分以上的有3人,故X的可能取值为0,1,2.
因此,X的分布列如表1所示.
表1
(2)由图1中的数据可知20人中英语成绩在70分以上的有10人,故从中任取1人,其成绩在70分以上的概率为人中至少有1人成绩在70分以上,情况较多,包括1人,2人,…,m人.据对立事件的原理得,即m的最小值为4.
辨析教材中对两种分布的模型解释:在N件产品中有M件次品,无放回地任取n件,其中次品数X服从超几何分布.在N件产品中有M件次品,有放回地任取n件,其中次品数X服从二项分布.从中可以看出抽取方式是有放回还是无放回,这是判断超几何分布与二项分布的一个关键条件.超几何分布是无放回,二项分布是有放回.
例2某套高考模拟试卷中单选题共有8道,已知小明能答对其中的6道.
(1)小明从中任选4道题作答,设答对题目的个数为X,求X的数学期望;
(2)小明从中每次取出1道题作答,取出后放回,连取4次,设答对题目的个数为Y,求Y的数学期望.
分析第(1)问从8道题中选4道,可理解为“一把抓”,没有顺序.第(2)问每次取1道题,有顺序,且取出后再放回,即第一次取时,8道题中有6道题会答,第二次再取时,仍是8道题中有6道题会答,每次取题互不影响,即独立重复,共重复了4次,故服从二项分布.
解(1)8道题中能答对6道,从中任选4道题,则至少能答对2道,故X的可能取值为2,3,4,相应的概率分别为
因此,X的分布列如表2所示.
表2
(2)每次取出1道题,取出后放回,8道题中有6道能答对,故每次取题答对的概率为连续取4次,即进行4次独立重复试验,答对题目的个数Y的可能取值为0,1,2,3,4.
因此,Y的分布列如表3所示.
表3
辨析在概率统计的应用中,我们常用样本数据特征来估计总体.因此在试验活动中,要明确是在总体中抽取,还是在样本中抽取.若在总体中抽取,甚至在某些情况下总体数量是不确定的,此时应按二项分布的类型来处理.若在样本中抽取,且无放回,则按超几何分布来处理.
例3每年的4月23日是联合国教科文组织确定的“世界读书日”,又称“世界图书和版权日”,为了解某地区高一学生阅读时间的分配情况,从该地区随机抽取了500名高一学生进行在线调查,得到了这500名学生的日平均阅读时间(单位:h),并将样本数据分成[0,2],(2,4],(4,6],(6,8],(8,10],(10,12],(12,14],(14,16],(16,18]这9组,绘制成如图2所示的频率分布直方图.
图2
(1)求a的值;
(2)为进一步了解这500名学生数字媒体阅读时间和纸质图书阅读时间的分配情况,从日平均阅读时间在(12,14],(14,16],(16,18]这3组内的学生中,采用分层抽样的方法抽取了10人.现从这10人中随机抽取3人,记日平均阅读时间在(14,16]内的学生人数为X,求X的分布列;
(3)以调查结果的频率估计概率,从该地区所有高一学生中随机抽取3名学生,记日平均阅读时间在(10,12]内的学生人数为X,求X的分布列及数学期望.
分析本题第(2)问,是从分层抽样得到的10人中,无放回任选3人,随机变量X服从超几何分布.第(3)问,是从地区所有高一学生中抽取,且总体人数不确定,故X服从二项分布.
解(1)a=0.1(求解过程略).
(2)根据分层抽样原理,可知在阅读时间为(12,14],(14,16],(16,18]内抽到的学生人数分别为5人,4人,1人.
从这10人中任选3人,则阅读时间在(14,16]内的人数X的可能取值为0,1,2,3,则
因此,X的分布列如表4所示.
表4
(3)由题意及(1)的结论知,从该地区所有高一学生中随机抽取1名学生,平均阅读时间在(10,12]内的概率为因该地区高一学生总人数不确定,故每次抽取概率不变,抽取3次,即进行3次独立重复试验.
X的可能取值为0,1,2,3,相应的概率分别为
因此,X的概率分布列如表5所示.
表5
辨析超几何分布与二项分布既有区别,又有联系.当总体的数量非常大,抽取样本数量很少时,可以近似地认为每次抽取时事件发生的概率不变,这样就可以看成每次抽取结果是相互独立的,进而将超几何分布近似地看作二项分布来处理.
例4某手机生产商一批次生产了50000台手机,其中次品率是2%,现从中不放回地依次抽取3台进行检验.求抽到次品台数X的概率分布列.
分析本题抽取方式为无放回,因此从问题的本质来看,属于超几何分布.手机总台数为50000,其中次品为台,合格的手机为49000台.现从50000台中抽取3台,则X的可能取值为0,1,2,3.我们先按古典概率类型来计算X取某一值时的概率,比如X=1.
因为总体数非常大,第一次抽取与第二次、第三次抽取次品率非常接近,我们可以认为每次抽到次品率均为2%,抽取3次,即3次独立重复试验,故抽到的次品数近似服从二项分布,此时
不难发现这两种计算方式所得的概率几乎相等,因此这种情况,我们可按独立重复概率类型来处理.
解X的可能取值为0,1,2,3.
因此,X的概率分布列如表6所示.
表6
另外,常见的概率分布类型还有两点分布,两点分布是一种特殊的二项分布,即只进行一次独立重复试验,只有发生与不发生两种结果,与其有关的问题相对于前两种要简单一些.
总之,在处理与概率分布有关的问题时,我们要明确各种概率分布的本质,以及不同概率类型之间的异同,结合题目条件,准确识别概率类型.