程海奎 章建跃
(1.河北师范大学数学科学学院 050024; 2.人民教育出版社 课程教材研究所 100081)
在必修课程中,通过引入样本点和样本空间的概念,完成了对随机事件的数学刻画;类比集合关系和运算,给出了事件的关系与运算的意义;在定义古典概型的基础上,结合古典概型研究了概率的性质、随机事件概率的运算法则;结合有限样本空间,给出了两个事件独立性的含义,并结合古典概型,利用独立性计算概率;在研究频率与概率关系的基础上,给出了用频率估计概率的方法,为求解随机事件的概率提供了多种工具和方法.
本单元是必修概率课程的继续,包含的内容有:结合古典概型,采用归纳的方式建立条件概率的概念,导出一般的概率乘法公式和全概率公式,为计算复杂事件的概率提供有力工具;引入随机变量概念,在更高的观点下,利用数学工具,采用统一的方式,系统、全面地研究离散型随机变量取值的概率分布以及数字特征;通过研究二项分布、超几何分布,进一步理解离散型随机变量在描述随机现象中的作用,更深入地理解随机思想在解决实际问题中的作用;根据频率稳定到概率的事实,借助误差数据频率分布直方图,建立正态分布模型,并用于解决有关实际问题.
课程标准指出,本单元的学习,可以帮助学生了解条件概率及其与独立性的关系,能进行简单计算;感悟离散型随机变量及其分布列的含义,知道通过随机变量可以更好地刻画随机现象;理解伯努利试验,掌握二项分布,了解超几何分布;感悟服从正态分布的随机变量,了解连续型随机变量;基于随机变量及其分布解决简单的实际问题.
课程标准强调了如下几点:
第一,结合具体实例,理解随机事件的独立性和条件概率的关系.事件的独立性和条件概率都是概率论的重要概念,要让学生通过对二者之间关系的探究,加深对这两个概念的理解.
第二,理解离散型随机变量在描述随机现象中的作用.要让学生通过具体实例领悟引入随机变量的必要性,初步学会利用随机变量抽象各种随机现象、利用数学工具和方法系统全面地研究随机现象.
第三,通过二项分布和超几何分布(离散型概率模型)和正态分布(连续型概率模型)的学习,进一步理解随机思想在解决实际问题中的作用.
(1)结合古典概型,了解条件概率,能计算简单随机事件的条件概率.
(2)结合古典概型,了解条件概率与独立性的关系.
(3)结合古典概型,会用乘法公式计算概率.
(4)结合古典概型,会用全概率公式计算概率.※了解贝叶斯公式.
(1)通过具体实例,了解离散型随机变量的概念,理解离散型随机变量分布列及其数字特征(均值、方差).
(2)通过具体实例,了解伯努利试验,掌握二项分布及其数字特征,并能解决简单的实际问题.
(3)通过具体实例,了解超几何分布及其均值,并能解决简单的实际问题.
(1)通过误差模型,了解服从正态分布的随机变量.通过具体实例,借助于频率直方图的直观,了解正态分布的特征.
(2)了解正态分布的均值、方差及其含义.
由上所述可知,课程标准只要求结合古典概型理解条件概率、乘法公式、全概率公式,不过这些概念和公式是有一般意义的;高中阶段重点研究取有限个值的离散型随机变量;对于连续型随机变量,只以正态分布为例,让学生知道这是一种取值不能一一列举且取任何单点值的概率为0的随机变量.
本单元内容分为两部分:一是结合具体试验,揭示条件概率是缩小的样本空间上的概率,导出乘法公式,求积事件的概率;在理解事件的关系与运算的基础上,用简单事件的运算结果表示复杂事件,归纳得到全概率公式和贝叶斯公式,从而丰富、完善概率的运算法则,为求一类复杂事件的概率提供有力工具;二是用随机变量刻画随机现象,建立概率模型解决实际问题,这是培养学生数学抽象和数学建模素养的重要载体.
本单元内容的学习基础主要来自以下几方面:
第一,必修概率中,建立试验的样本空间,将随机事件定义为样本空间的子集,在此基础上得出事件的关系与运算的含义、加法公式等,这些知识为构建条件概率概念、推导全概率公式建立了基础.
第二,随机变量是由样本空间到实数集上的映射,而函数是从实数集到实数集上的映射.因此,函数概念的学习过程(分析具体实例→归纳共同特征→抽象概括函数的一般概念),为抽象离散型随机变量及其分布列的概念提供了类比对象.当然,随机变量与函数有本质区别,随机变量的取值依赖于样本点,取值具有随机性,重点研究取值的概率.
第三,统计中总体的均值,虽然没有严格定义,但通过重复模拟试验,发现样本均值(观测值的平均值)稳定到总体均值,实际上这个稳定值就是随机变量的均值,这为揭示离散型随机变量均值的意义、抽象离散型随机变量的定义提供了重要思路.同样地,用方差刻画一组数据离散程度的过程为定义离散型随机变量方差奠定了基础.
第四,统计中的频率直方图直观地表示了连续数据的分布规律,它是用小矩形的面积表示变量落在某个区间内的频率.因为频率稳定到概率,所以频率直方图是建立正态分布模型的直观基础.
下面从内容本质的分析入手讨论本单元内容的育人价值以及教学中需要注意的问题.
对于事件A和事件B,当它们互斥时,和事件A∪B的概率P(A∪B)=P(A)+P(B);当它们不互斥时,有P(A∪B)=P(A)+P(B)-P(AB);当它们相互独立时,有P(AB)=P(A)·P(B).一个自然的问题是:当它们不独立时,如何计算积事件的概率?这就需要研究在某些限制条件下的随机事件的概率——条件概率.
随机事件的条件概率是概率论的重要概念之一,是概率论的理论基础,在理论和实践中都有重要应用.从知识的角度看,由条件概率可以得到两个不独立事件的概率乘法公式、全概率公式,它们是求一类复杂事件概率的有力工具;从认知角度看,学会利用条件概率、概率乘法公式和全概率公式计算较复杂事件的概率,可以有效提高学生对概率的理解水平.
许多教师反映,条件概率理解上有困难.我们认为,以往的概率课程中没有样本空间的概念,仅通过直观描述,缺乏数学刻画,这是造成困难的根本原因.顾名思义,条件概率是指在一个事件A已发生的条件下另一个事件B发生的概率,也就是说,它是以A为样本空间(缩小的样本空间),看事件B发生的概率.这样的解释非常直观,所以理解的困难也会大大降低.
为了降低学习难度,人教A版采取“问题情境——思考探究——抽象概括”的方式,结合古典概型实例,通过列举试验的样本空间,引导学生通过比较事件的有条件概率和无条件概率,发现如果附加某个事件A发生的条件,试验的可能结果一定是A中某个样本点,而A的对立事件一定不会发生,所以条件概率P(B|A)本质上就是在缩小的样本空间A上计算事件AB的概率,然后抽象概括得出条件概率的定义.
例如,三张奖券编号为1,2,3,其中1号和2号有奖,甲、乙、丙三人依次从中随机抽取一张,令A,B,C分别表示甲、乙、丙中奖的事件.样本空间包含6个等可能的样本点,用数字串表示,即
Ω={123,132,213,231,312,321};
A={123,132,213,231};
B={123,213,312,321};
AB={123,213}.
图1
从概念体系上看,无条件概率P(B)可以看成特殊的条件概率P(B|Ω).显然,条件概率也具有概率的三条基本性质.在古典概型中,条件概率很容易通过缩减样本空间得到.进一步地,条件概率的概念及其相关公式对于一般随机事件的概率都适用,具有普遍意义.
通过实例分析可知,求条件概率有两种方法:一是基于样本空间Ω,先计算P(A)和P(AB),再利用条件概率公式求P(B|A);二是根据条件概率的直观意义,增加了“A发生”的条件后,样本空间缩小为A,求P(B|A)就是以A为样本空间计算AB的概率.如果两个事件的发生有先后次序,则先发生的事件可以是后发生事件的条件,这为处理较复杂的概率问题提供了方法.
4.1.2 条件概率与独立性的关系
事件A和事件B相互独立的直观意义是A是否发生不影响B的概率.这样,由P(B|A)=P(B)等价变形得到P(AB)=P(A)P(B),将其作为两个事件独立的定义显得很自然.课程标准将两个事件的独立性移到了必修中,因为没有条件概率的概念,所以当时只能采用分析具体的随机试验,先直观判断,再计算相关事件的概率发现规律,归纳得出事件独立的定义.在本单元中,有了条件概率概念,就可以从理论上对条件概率与独立性的关系作出严密表述.
根据独立的直观意义容易猜想:事件A和事件B独立的充要条件是P(B|A)=P(B).教学中应先通过具体例子引导学生进行直观判断,再根据定义作出推理.要提醒学生注意以下两点:
(1)作为条件的事件A的概率必须大于0,但在事件的独立性定义中没有这个要求;
(2)如果事件A和事件B独立,概率都大于0,那么事件A发生不影响事件B发生的概率,同时事件B发生也不影响事件A发生的概率,于是
P(AB)=P(A)P(B)⟺P(B|A)=P(B)
⟺P(A|B)=P(A).
4.1.3 全概率公式蕴含的数学思想
课程标准增加了全概率公式和贝叶斯公式的内容,要求结合古典概型,学会用全概率公式计算概率.用简单事件的运算表示复杂事件,利用概率的运算法则简化概率的计算,这种思想方法具有普遍性.全概率公式蕴含的数学思想是:
如果某个事件B的概率不易直接计算,那么可以用与事件B有联系的n个两两互斥事件A1,A2,…,An(A1∪A2∪…∪An=Ω)分割事件B,然后利用加法公式和乘法公式求得事件B的概率,这个过程体现了化难为易的转化思想.
4.1.4 如何推导全概率公式
显然,这里的关键是如何选择事件组A1,A2,…,An,这组事件要满足:两两互斥,和为必然事件,且P(Ai),P(B|Ai)(i=1,2,…,n)容易求得.
人教A版设计了一个摸球问题:
这个问题的困难是,第二次摸球受到第一次摸球结果的影响,而第一次摸球的结果具有随机性.但在已知第一次摸到红球或黄球的条件下,就容易求得第二次摸到红球的概率(条件概率):
设Ri={第i次摸到红球},Bi={第i次摸到黄球},i=1,2.利用第一次摸球的结果,将R2分解为两个互斥事件的和事件, 即R2=R1R2∪B1R2,然后利用概率的加法公式和乘法公式,可得
P(R2)=P(R1R2∪B1R2)
=P(R1R2)+P(B1R2)
=P(R1)P(R2|R1)+P(B1)P(R2|B1)
这个问题虽然可以直接利用古典概型求解,但利用全概率公式计算概率,简洁且条理清晰.将这种方法一般化就可以得到全概率公式.
根据课程标准的要求,对于全概率公式,人教A版只对发现的规律做了一般性推广,并没有对全概率公式进行严格证明.其实,特殊情形的全概率公式证明过程同样可以推广到一般情形.
4.1.5 贝叶斯公式蕴含的数学思想
贝叶斯公式在概率统计中有大量应用,其本质是求条件概率,但蕴含着深刻的数学思想.假定A1,A2,…,An是导致试验结果的“原因”,P(Ai)称为先验概率,它反映了各种“原因”发生的可能性大小,它们在试验之前是已知的.现在试验结果是事件B发生了,这个信息将有助于探究事件发生的“原因”.条件概率P(Ai|B)称为后验概率,它反映了试验后对各种“原因”发生可能性大小的新认识.历史上,以贝叶斯公式为基础,发展出了系统的统计推理与决策方法.
贝叶斯公式是选学内容,建议教学中结合典型实例,渗透贝叶斯公式的数学思想,有条件的学校应尽量将其作为必学内容.
概率论研究随机现象的数量规律,其中包含两层意思,一是用数值刻画随机事件发生的可能性大小,二是研究某个数量指标(随机变量)取值的概率规律及这个变量的数字特征.研究方法为:首先建立随机试验的样本空间,构建概率模型,直接计算或估计随机事件的概率,或利用概率的运算法则,解决更复杂概率计算问题.在此基础上进一步抽象,引入随机变量的概念,借助于数学工具和方法系统全面地研究随机变量取值的概率分布以及数字特征,为决策提供依据.
4.2.1 离散型随机变量概念的抽象
现实世界中的许多随机试验,样本点与某个数量指标有关.例如,抛掷一枚骰子的点数X1;将一个试验重复n次观察某个事件发生的次数X2;随机抽样时样本中某类个体的个数X3;10000个意外伤害保险保单在一年内的赔偿次数X4;某市一年内发生的交通事故次数X5;某电商一个月内销售的笔记本电脑台数X6;等等.这些数量指标随试验的结果而变化,与普通变量最大的区别是它们的取值具有随机性,事先无法预知.对某些与数值没有直接联系的随机试验,也可以根据需要对可能出现的样本点进行赋值.
我们可以类比函数概念的抽象过程,引导学生进行离散型随机变量概念的抽象,具体可按如下步骤展开:
(1)分析一些简单、典型的随机试验,建立样本空间,直观表示试验的样本点与相应变量之间的对应关系,从中体会变量的取值依赖于样本点,其取值具有随机性;
(2)归纳具体事例的共性,得出①取值依赖于样本点,②所有可能取值是明确的;
(3)下定义,明确随机变量是样本空间到R上的一个映射,取值可以一一列举的随机变量称为离散型随机变量;
(4)通过实例进行概念辨析.
4.2.2 引入随机变量的好处
随机变量的引入是概率论发展史上的大事,也是对概率研究对象的进一步抽象.随机变量是对随机试验可能结果的量化表示,本质上是样本空间Ω到实数集R上的映射.引入随机变量概念后,可以用随机变量的表达式表示相关的随机事件,类比函数的表示方法表示离散型随机变量的分布列,计算随机变量的数字特征,进行决策.
现实中的随机现象数不胜数,有的较简单,有的很复杂,但有研究价值的只有有限的几类.引入随机变量概念后,我们可以按随机现象的本质特征,将随机变量进行分类(如离散型、连续型等), 选择不同的数学工具表示随机变量的概率分布,从而建立各种概率分布模型(二项分布、超几何分布、正态分布等),利用这些模型就可以方便且有效地描述随机现象.这与引入函数概念,再针对现实中直线上升(下降)、指数增长(衰减)、对数增长、周而复始等现象,选择不同的数学工具表示这些现象中变量间的对应关系,从而建立幂函数、指数函数、对数函数、三角函数等基本初等函数,利用基本初等函数可以有效地刻画现实世界中各种确定性现象,具有异曲同工之效.
对于有限样本空间,它的所有子集都是随机事件,但我们只关心其中某些事件的概率.例如,抛掷10枚硬币,样本空间包含210=1024个等可能的样本点,样本空间所有子集的个数为21024,这个随机试验包含的随机事件就有21024个.对于这么多个随机事件,我们关心的是正面朝上的次数分别为0, 1, 2,…,10这些事件的概率.如果定义X为掷10枚硬币正面朝上的次数,只要知道概率P(X=0),P(X=1) ,…,P(X=10)就足够了.如果要了解掷10次硬币,正面朝上的频率在[0.4, 0.6]之间的概率,由概率的可加性,只需计算
P(4≤X≤6)=P(X=4)+P(X=5)+P(X=6)
就可以了.
下面用一个具体例子说明利用随机变量解决问题的好处.
为了推广一种新饮料,某饮料生产企业开展了有奖促销活动:将6罐这种饮料装一箱,每箱都放置2罐能中奖的饮料,若从中随机抽出2罐,能中奖的概率为多少?
这个问题本质上是一个不放回摸球试验模型,我们可以用多种方法解决它,例如:
(1)设事件A表示中奖的事件,用古典概型可求事件A的概率.
(2)借助于树状图,合理设简单事件,将事件A表示为简单事件的运算,利用概率的运算法则可求A的概率:
设A1=“第一罐有奖”,A2=“第二罐有奖”.则
(3)如果用随机变量来解决这个问题,则具有了一般性.设X表示抽取的2罐中有奖的罐数,则X的可能取值为0,1,2.
中奖的概率为
P(A)=PX≥1=PX=1+PX=2
利用随机变量容易推广到:已知N罐中有M罐有奖,从中任意抽取n罐,则至少有k罐有奖的概率为
随机变量的概率分布完整地描述了随机变量的规律性,但在实际问题中,我们往往还需要知道一些从某个方面刻画随机变量特征的数量.例如:
一批产品的次品率为p, 随机抽取n件,其中的次品数X是一个离散型随机变量,在某些假定之下,可以得到X的分布列,但有时我们更关心次品数的平均值是多少.
对某一物理量进行测量,测量误差是一个连续型随机变量,我们既需要知道测量的平均误差,也关心误差分布的离散程度.如果平均误差接近0,而且离散程度较小,说明测量结果比较精确.
这些例子表明,一些与随机变量有关的数值,虽然不能完整地描述随机变量的规律性,但能集中反映随机变量在某些方面的重要特征.本单元重点研究离散型随机变量的均值(期望)、方差.
4.3.1 随机变量均值概念产生的历史背景
17世纪中叶,法国数学家帕斯卡(Pascal,1623—1662)和费马(Fermat,1601—1665)通信讨论“赌本分配”问题,下面是他们讨论中提出的一个问题:
甲、乙两人通过掷硬币进行赌博,每局正面朝上甲胜,反面朝上乙胜.双方各出50个金币,约定先胜三局者获得全部100枚金币.当赌博进行到第三局时,甲胜了两局,乙胜了一局,这时由于某种原因中止了赌博,那么该如何分配这100枚金币才比较公平?
在讨论过程中,他们提出了“赌本值”(value)的概念,即获胜的概率与得到赌金的乘积.后来荷兰数学家惠更斯(Huygens, 1629—1695)将“值”改称为“期望”(Expection).
对于离散型随机变量,自然地就将其所有可能取值与相应的概率乘积之和定义为随机变量的数学期望,也称为随机变量的均值.
4.3.2 如何抽象离散型随机变量的均值概念
采用如上方法直接定义的方式,符合概念产生的历史,但学生缺少认知基础,不易理解.人教A版利用学生已经建立的观念:对某个变量进行n次观测,观测值的平均数具有稳定性(频率的稳定性),帮助学生从具体实例出发理解随机变量均值概念:
(1)问题情境:甲、乙两名射箭运动员射中目标箭靶的环数的分布列如表所示,如何比较他们射箭水平的高低呢?
环数X78910甲射中的概率0.10.20.30.4乙射中的概率0.150.250.40.2
7×0.1+8×0.2+9×0.3+10×0.4=9.
即甲射中平均环数的稳定值为9,这个平均值的大小可以反映甲运动员的射箭水平.
(4)定义:一般地,将离散型随机变量的均值定义为:可能取值与取相应值的概率乘积之和,它是样本均值的稳定值.
统计中的随机抽样,本质上是对某个随机变量进行的n次观测,将这n个观测值整理成频率分布表,计算得观测值的平均数(样本平均数),由于离散型随机变量的分布列与频率分布类似,根据频率稳定到概率的事实,将随机变量的均值定义为样本均值的稳定值,形式上就是随机变量的可能取值与取相应值的概率乘积之和.
上述过程有如下特点:
第一,揭示了随机变量的均值与样本均值的关系,其表达式是随机变量可能取值的加权平均数,所以均值也称为期望;
第二,在未知随机变量分布列时,可以用样本均值估计随机变量的均值.
4.3.3 离散型随机变量均值的应用
对随机变量的均值和方差,重点要关注这些数字特征的意义是什么,概念是怎么抽象的,在决策中如何应用等.如果仅仅会计算简单随机变量的均值和方差,就失去了它应有的育人价值.所以,教学中应突出概念的抽象过程,揭示均值和方差的意义,帮助学生了解随机变量的均值与观测值平均数的关系,通过解决实际问题,了解随机变量的均值在决策中的应用.下面看一个利用均值(期望值)进行决策的问题.
问题某公司计划购买一台机器,该种机器使用5年后即被淘汰,机器有一易损零件,在购进机器时,可以额外购买这种零件作为备件,每个200元.在机器使用期间,如果备件不足再购买,则每个500元.假设这台机器在使用期内更换的易损零件数为随机变量X, 根据历史记录的数据,估计得X的分布列为
X 8 9 10 11P 0.20.30.30.2
现需要决策在购买机器时应同时购买几个易损零件?
首先明确决策的准则是购买易损零件总费用最少.设购买易损零件的费用为Y,则Y是X的函数,仍是一个离散型随机变量,所以应选择使E(Y)达到最小的购买零件数n.若在购买机器时同时购买n个易损零件,显然n可取8, 9, 10, 11,对应n的每个取值,可求出Y的分布列,进而求出E(Y),结果如下:
n 891011E(Y) 2350215021002200
由此可知,在购买机器时同时购买10个易损零件,可使平均费用最少.
利用随机变量的期望值进行决策,适用于大量重复试验的场合.例如,保险公司面对大量的保险客户,估计平均理赔金额,设计合理的费率是有意义的.仅就一次试验来说,用期望值决策未必是最好的选择.
4.3.4 离散型随机变量的方差
与离散型随机变量的均值类似,人教A版通过典型实例,在问题引导下,类比定义一组数据的方差,给出离散型随机变量方差的概念.
按照目的,从直观出发,逐步修正,直到构造出一个合理的数值指标,这是概率统计中的重要思想方法,在此过程中可以有力地促进学生抽象思维的发展.例如,在后续统计学习中,构造成对数据的相关系数,用于刻画两组数据线性关系的密切程度;在独立性检验中,构造检验的统计量等,都用到类似的思想.(未完待续)