胡嘉卉
【摘要】本文论述了在概率论与数理统计课程教学中开展数学实验的必要性以及应用实践,结论表明数学实验的开展既可以促进学生对理论知识的理解,又能够提高学生的应用能力.
【关键词】概率论与数理统计;数学实验;应用
【基金项目】 2021河南工业大学本科教学研究项目(项目编号: lxyjy202101);河南工业大学博士基金项目(项目编号: 2020BS037).
1引言
在大数据背景下,计算机软件及技术在各个学科领域内广泛应用,概率论与数理统计中的理论和方法体现出越来越重要的作用.其中,数理统计中处理数据的方法应用尤其广泛,遍及理学、工学、管理学和农学等专业领域.同时,这门课程也成为机器学习和人工智能发展的重要数学支撑.概率论与数理统计是理工科高等院校的必修课程,是硕士研究生入学考试的重要内容之一,好的教学效果不仅能为学生打下坚实的理论基础,满足其后续学习的需要,还有利于学生将所学知识应用到专业实践中去.然而,在大多数高等院校,这门课程目前的教学模式主要是教师通过板书以及PPT讲解理论知识,学生听讲并通过做作业对知识进行巩固.这种方式虽然能达到让学生掌握理论知识的目的,但在这种教学模式下,学生往往会觉得课堂枯燥,知识抽象难懂,学习兴趣不高,掌握不了所学知识的应用方法,很难在后续的学习中把理论知识应用到专业中去.为了提升教学效果,使学生能将所学知识与实践相结合,我们在原有课堂教学过程中适当引入一些数学实验,这样不仅能够增强师生互动,活跃课堂气氛,还有利于提高学生的动手能力.
笔者在教学过程中对部分重要且抽象的知识点应用MATLAB软件开展了数学实验,帮助学生深刻地理解所学内容,增强了学生的学习兴趣,提升了教学效果.下面就笔者的教学实践和效果进行论述和分析.
2概率统计课程中的实验教学
2.1模拟掷硬币实验
历史上,很多数学家都做过抛硬币实验,他们通过多次反复投掷均匀硬币,统计出硬币正面向上的频率,发现当实验次数较少时,频率值随机波动幅度较大;当实验次数较多时,频率值的随机波动幅度较小;随着实验次数的逐渐增加,正面向上的频率将逐渐稳定于固定值0.5.
然而在课堂上,成千上万次投掷真实硬币来重现这一结论是不方便也不现实的.我们可以带领学生一起编写MATLAB程序来模拟掷硬币实验,记录并观察多次实验的结果,同样可以得出相应的结论.
例1通过生成随机数模拟连续多次投掷硬币的结果,规定随机数小于0.5时为正面,否则为反面.记录重复10次,100次,1000次,10000次,100000次,1000000次实验出现正面的频率.
解 参考代码如下:
frequency = zeros(6,1);
for m = 1 : 6
a=0;
A=rand(10^m,1);
for i = 1 : 10^m
if A(i,1) < 0.5
a=a+1;
end
end
frequency(m,1) = a/(10^m);
end
frequency
运行结果列表如下:
表1列出了4组模拟结果.从结果可以看出,当实验次数较少时,比如10次,正面朝上的频率波动幅度比较大,最小0.3,而最大为0.7.但是随着实验次数的增加,正面朝上的频率逐渐稳定于固定值0.5.学生通过计算机生动地重现了历史上几位著名数学家做过的掷硬币实验,理解频率和概率的关系.同时,实验直观地解释了大数定律,即事件发生的频率依概率收敛于事件的概率,概率是频率的稳定值.
2.2验证泊松定理
泊松定理当n充分大(n≥20),而p较小(p≤0.05)时,服从二项分布的随机变量X近似服从泊松分布,即P(X=k)=Cknpk(1-p)n-k≈λkk!e-λ,其中λ=np.
在课堂上,我们通过下面的例2,告诉学生如何用MATLAB中的命令计算二项分布的概率,从而避免分布律的复杂计算,然后通过调整参数,验证泊松定理的结论.
例2某人对同一目标进行独立射击400次,設每次射击时的命中率均为0.02,试求至少命中两次的概率.
解设X表示400次射击命中目标的次数,那么X~B(400,0.02),我们可以根据二项分布的分布律直接计算出答案0.9972.另外,由于此题的参数满足泊松定理的条件,所以我们也可以用泊松分布的分布律近似计算概率.
同时,常用分布的概率还可以利用MATLAB命令计算,学生恰当应用软件,可以避免烦琐的计算.
参考代码如下:
X=0:400;
R=binopdf(X,400,0.02);
s=sum(R(3:401))
运行结果为s=0.9972.这里学生可以看到,程序运行结果和利用分布律计算的结果是一致的.
在此例子的基础上,我们引导学生对参数做一些调整,通过绘制二项分布和泊松分布的曲线来验证泊松定理的结论.绘制的曲线如图1和图2所示.
从绘制出的图像可以看出,当p足够小,n足够大时,即泊松定理的条件满足时,二项分布和泊松分布的分布律曲线是吻合的,如图1所示的情形.而当这个条件不满足时,如图2所示,二者会出现较大偏差,此时不能用泊松分布近似二项分布.
2.3蒙特卡罗(Monte Carlo)模拟
蒙特卡罗模拟是一种计算方法,其原理是通过大量随机样本来求出一个系统中的未知量.该方法的一般实现过程为:先设计一个适当的随机实验,使得某事件发生的概率与所求量有关,然后大量重复该实验,用事件发生的频率代替概率,从而近似计算出所求.随着计算机技术及软件的发展,蒙特卡罗方法很适合通过计算机模拟实现,这样能够节省大量成本.
例3用蒙特卡罗法计算圆周率π的近似值.
解 在一个边长为1 cm的正方形内画一个半径为1 cm的14圆,然后在这个正方形内生成均匀分布的随机点,落在圆内的点数占总点数的π4,我们求出这个频率,再乘以4,就得到π的近似值.通过不同数量的随机点得到的π的近似值如下表所示.可以看出,随机点越多,得到的π的近似值越精确,这也说明了随着实验次数的增多,频率逐渐趨于概率.
2.4参数的区间估计
如果得到样本向量X,我们调用命令[mu,sigma,muci,sigmaci] = normfit(X,alpha),可以得到参数的极大似然估计值mu和sigma,以及置信系数为1-alpha的置信区间muci和sigmaci.在课堂上讲到区间估计内容时,我们先讲解教材中的方法,然后通过例4和例5说明如何应用命令normfit求置信区间,比较得到的结果,并进一步阐明我们对于置信系数的理解.
例4从某年级中随机抽取10名女生,身高如下:162 cm,159 cm,168 cm,160 cm,157 cm,162 cm,163 cm,159 cm,170 cm,166 cm.求该年级女生平均身高的95%的置信区间.(假设女生身高服从正态分布)
解 我们先用教材中的方法解答,再调用命令normfit求解,然后进行对比.
解法一: 设该年级女生的平均身高为μ,欲求满足P(θ^1<μ<θ^2)=0.95的区间(θ^1,θ^2),先求满足P-λ<X--μSn<λ=0.95的λ.由教材的附表查表可得λ=tn-1α2=t9(0.025)=2.26.
故PX--λSn<μ<X-+λSn=0.95,其中X-=162+…+16610=163,S2=1n-1∑ni=1(Xi-X-)2=18.43.所以μ的置信系数为95%时,置信区间为(159.6,165.6).
解法二: 调用命令[mu,sigma,muci,sigmaci] = normfit(X,alpha),其中X为样本向量,alpha=0.05.
参考代码如下:
X = [162 159 168 160 157 162 163 159 170 166];
[mu,sigma,muci,sigmaci] = normfit(X,0.05)
运行可得:
mu =162.6000
sigma =4.2216
muci =
159.5800
165.6200
sigmaci =
2.9038
7.7071
其中,mu和sigma分别为总体期望和标准差的极大似然估计值,muci为本题所求,即平均身高μ的95%的置信区间,这与上面的计算结果是一致的.sigmaci为总体标准差的95%的置信区间.
由此可见,在掌握了基本理论的前提下,适当应用软件解决问题是快捷方便的.
例5假设X~N(10,4),模拟产生X的100组容量为24的重复观测样本数据,对于每一组样本数据利用normfit计算总体均值的0.95的置信区间,并考察在得到的100个置信区间中有多少个区间包含10.
解 参考代码如下:
function n = ex4()
n=0;
for i=1:100
x =normrnd(10,2,24,1);
[m,s,sci] = normfit(x);
if sci(1)<10 && sci(2)>10
n=n+1;
end
end
该函数的四次运行结果分别为n=96,n=95,n=96,n=99.该结果表明,如果置信系数为0.95,那么对于构造的100个区间来说,大约会有95个包含参数μ.事实上,对于一个具体的区间,如例4中得到的(159.6,165.6),它或者包含μ,或者不包含μ,两者必居其一,说它包含μ的概率是0.95并不合适.因此,置信系数0.95的意义是指多次重复抽样构造置信区间包含μ的频率大约是95%.也就是说,置信系数实际上是对构造置信区间的这种方法的可靠程度的整体评价.这样的教学模式一方面可以使学生学会应用软件中的命令进行参数估计,另一方面,也使学生更深刻地理解了置信系数和置信区间的含义.
2.5假设检验
在讲到假设检验部分时,除了给学生讲授教材中的理论知识以及借助查表的检验方法外,我们还向学生介绍了MATLAB中的命令,以使其快速地得到结论.
例6某工厂生产10 Ω的电阻,根据以往生产的电阻的实际情况,可认为其电阻值服从正态分布,标准差σ=0.1 Ω.现随机抽取10个电阻,测得它们的阻值为: 9.9 Ω,10.1 Ω,10.2 Ω,9.7 Ω,9.9 Ω,9.9 Ω,10 Ω,10.5 Ω,10.1 Ω,10.2 Ω,试问通过这10个实测值能否认为该厂生产的电阻的平均阻值为10 Ω?
这个题目我们可以用教材上的方法结合查表来做,这是我们课堂上讲授的基本理论和方法,是这部分内容的基础.基于此,我们进一步引导学生用MATLAB命令快速地解决问题,拓展学生的解题思路,增强学生对知识的理解和动手解决问题的能力.
解 我们先采用教材上的方法解答,再调用命令ztest解答,并对得到的结论进行对比.给定显著性水平α=0.05.原假设H0:μ=10;对立假设H1:μ≠10.
解法一:选取适当的统计量,构造小概率事件:
PX--μσn>λ=0.05
查表得到λ=1.96.由样本值可得X-=10.05,将样本值代入统计量得:
X--μσn=10.05-100.110=1.58<1.96
即统计量的取值落入接受域,故接受原假设H0.
解法二:应用命令ztest,可以更方便地得到结论.
参考代码如下:
X=[9.9 10.1 10.2 9.7 9.99.9 10 10.5 10.1 10.2];
sigma=0.1;
mu=10;
alpha=0.05;
h=ztest(X,mu,sigma,alpha,0)
运行结果为h=0.
这表明,在显著性水平α=0.05时,接受原假设H0.可见应用软件解决问题减少了计算量,提高了效率.需要注意的是,虽然软件的辅助可以给问题解决带来方便,节省时间,但是我们并不能忽略基本理论和数学思想的讲授,学生只有在理解并充分掌握了基础数学理论的前提下,适当应用软件,才能起到事半功倍的效果.
3结束语
在概率论与数理统计课程的教学中,教师适当引入数学实验,既可以加深学生对抽象理论知识的理解,丰富解决问题的思路,又可以提高学生应用知识的能力,进一步增强了学生的学习热情,提高了学生的学习兴趣,活跃了课堂气氛,增强了教学效果.本文论述了课程中开展的数学实验的部分例子,它们都具有理论内容重要、编程简单易行的特点,非常适合在课堂教学过程中同时开展.在不同学时、不同专业的课程教学中,我们会根据总课时量、课程进度、学生的学习能力等具体情况,适当增加或者减少部分数学实验.如果授课对象是软件应用能力比较强的理工科学生,我们还可以通过布置作业的形式让他们自行编程,实现一些简单的实验,并把该作业成绩按一定的权重计入期末总评成绩中,以实现对学生学习效果的全方面、多角度考查.
【参考文献】
[1]王松桂,张忠占,程维虎,等.概率论与数理统计(第三版) [M].北京: 科学出版社,2011.
[2]茆诗松,程依明,濮晓龙.概率论与数理统计(第二版) [M].北京: 高等教育出版社,2011.
[3]刘卫国.MATLAB程序设计教程(第三版) [M].北京: 中国水利水电出版社,2017.
[4]李娜,王丹齡,刘秀芹.数学实验概率论与数理统计分册 [M].北京: 机械工业出版社,2019.
[5]张崇岐,李光辉.统计方法与实验 [M].北京: 高等教育出版社,2015.