张志勇 张加红
摘要: 正态分布有着广泛的实用性和优美的数学特性,但高中生知识和生活经验不足,学习存在一定的“难”和“困”。梳理正态分布的前世今生,思考分布的特质疑难,探索利用GeoGebra的可视化优势设计探究性活动,旨在让学生在亲身操作中发现正态分布的奥妙,在直观形象中实现从离散型随机变量到连续性随机变量的跨越,在数与形的关联比较中认识参数的涵义价值。探讨“可”与“能”、评析“变”与“进”,关键在于利用可视化看见不可见,借助问题引领提升核心素养。
关键词:正态分布;数学探究;GeoGebra;概率密度
大数据时代,概率与统计已经广泛应用于社会生活的各个方面,法国数学家拉普拉斯说:“生活中最重要的问题,绝大部分其实只是概率问题。”如何在大数定理、抽样分析、中心极限定理等知识内容缺失的情形下,帮助学生形成数据意识、提升数据分析素养?如何优化基于数据表达现实的方法路径?如何运用数学方法收集数据、提取信息,进而构建模型、推断结论?……笔者以“正态分布”为例,探讨如何在GeoGebra软件的支持下,构建可视化学习环境,帮助学生在探究活动中认识正态分布的模型本质。
一、在内容解析中认识“难”与“困”
顾名思义,正态分布指“正常状态或自然状态”下的分布,现实世界中很多随机变量都服从或近似服从正态分布。同时,蕴涵客观事实和客观规律的正态曲线有着诸多优良特性,如流畅对称的优美线条,反映分布“常态”的“ 3σ原则”等。
(一)正态分布的前世今生
早在1734年,法国数学家棣莫弗在研究二项概率的近似计算时,用定积分代替求和,得到,首次揭开正态密度函数的神秘面纱,但没有用于刻画随机现象的概率分布。
1809年,德国数学家高斯《天体运动理论》一书出版。该书涉及随机误差分布的确定,所使用的数据分析方法,正是以正态误差分布为基础的最小二乘法(1801年计算“谷神星”轨道的方法)。高斯回应了当时天文学中处理数据观测误差的棘手问题[1]:
设真值为θ,n个独立测量值为X1,X2,…,Xn测量值的联合概率
L(θ)=L(θ;X1,X2,…,Xn)=f (X1-θ) f (X2-θ)… f (Xn-θ),其中f为待定的误差密度函数。
高斯直接取使L(θ)达到最大值的=(X1,X2,…,Xn),作为θ的估计(估计值称为极大似然估计),这是极大似然思想的首次亮相。高斯采用了逆向思考问题的方法,先承认算术平均 是应取的估计,再找到误差密度函数f,使得误差分布导出的极大似然估计正好等于算术平均值 ;经证明,所有函数中唯一满足条件的就是f (x)=[即为正态分布N(0,h2)]。高斯提出了极大似然估计的思想,同时又解决了误差的概率密度分布问题,因此正态分布也称“高斯分布”。
(二)正态分布的特质挖掘
如果连续型随机变量X的概率密度函数为f (x)=,x∈R(其中μ∈R,σ>0为常数),则称X服从正态分布(normal distribution),记为X~N (μ,σ2)。特别地,当μ=0,σ=1时,称X服从标准正态分布。其中f (x)称为正态密度函数,f (x)的图象即为正态密度曲线,F(x)=P (X≤x)=f (t)dt为X的分布函数。
由X的密度函数及图象可以发现,正态密度曲线是“中间高两边低”的钟形曲线(如图1),具有以下特征。(1)对称性:曲线关于直线x=μ对称;当x<μ时曲线上升,当x>μ时曲线下降。(2)单峰性:曲线在x=μ处达到峰值;当丨x丨无限增大时,曲线无限接近x轴。(3)等積性:曲线下方和x轴上方范围内的区域面积为1,即P(-∞<X<+∞)=1。(4)扁尖性:σ越大,曲线越扁平;σ越小,曲线越尖陡。(5)3σ原则:随机变量X的取值落在区间( μ-σ,μ+σ)内的概率约为68.27%,落在区间 (μ-2σ, μ+2σ)内的概率约为95.45%,落在区间(μ-3σ,μ+3σ)内的概率约为99.73%;也就是说X的取值几乎总是落在区间[μ-3σ,μ+3σ],在此区间以外取值的概率大约只有 0.0027。
(三)正态分布的疑难聚焦
我们知道,正态密度函数f (x)=中有两个参数:均值μ称为位置参数,决定分布的中心位置;标准差σ称为形状参数,σ的变化影响曲线的形状(高度和宽度)、决定曲线峰值高低。正态密度函数解析式结构复杂,学生只能知其然很难知其所以然。缺乏体验的生搬硬套,难以洞悉参数σ影响曲线形状的变化规律,对于“3σ原则”“当X~N (μ,σ2)时,Z=服从标准正态分布N (0,1) ”,只能“纸上谈兵”,落入无法言传的尴尬境地。
对于正态分布的处理,教材多是从分析测量误差数据引入,强调“随着样本数据量越来越大,分组越来越多、组距越来越小,频率直方图的轮廓越来越稳定,趋近一条光滑的钟形曲线”[2]。然而,频率直方图不断加密(数据量越来越大)揭示正态密度函数需要经历3次质的飞跃:从直方图到概率密度曲线的极限理解,再从概率密度曲线过渡到具有两个参数的正态分布密度函数,最后根据正态分布密度函数确定函数的两个参数恰好是数学期望和方差[3]。从历史视角看,正态分布的发现,源于棣莫弗的二项概率逼近工作,成于高斯的测量误差理论。从离散型随机变量过渡到连续型随机变量的探究,教师不仅要让学生“看到”正态分布的出处,感悟频率直方图逼近正态曲线、二项分布趋近正态分布的极限理解,而且要帮助学生直观“发现”正态分布的特性,如从二项分布的数学期望到正态曲线的对称性,从频率分布直方图的小矩形面积为频率到正态曲线与x轴之间的面积为1,等等。所有这些都离不开可视化技术的赋能创新。
二、在技术挖掘中探讨“可”与“能”
作为一款服務教与学的动态数学软件,GeoGebra实现了“形”(几何Geometry)与“数”(代数Algebra)的深度融合:指令输入和工具构造使动态演示过程更加逼真生动;代数运算系统(CAS)的无缝嵌入为数学探究提供完美支持。
对于正态分布,学生可以使用GeoGebra的“概率计算器”视区直接操作探究(如图2):打开“概率计算器”视区,绘制单个正态分布曲线,改变分布参数输入值,探究曲线的形态变化,思考参数对曲线的影响和关联;输入或拖动滑动条改变区间范围,借助给定区间范围的计算值的即时呈现理解概率的涵义;或者切换“累积”选项,借助P(X≤x)的度量值的变化感知分布函数与密度函数的差异。探究复杂一点的构造则需要在绘图区里展开:选中“概率计算器”视区,在右键菜单中点击“复制到绘图区”命令,导出分布图形到绘图区;或者输入指令“正态分布(<平均数>, <标准差>, <变量值>, <是否累积? true|false> ) ”,直接绘制正态分布曲线。绘图区中同时呈现二次分布直方图和正态曲线,改变“试验次数”和“频率值”动态展示从二项分布到正态分布的动态逼近,不仅可以进行不同概率分布间的纵向比较,而且可以绘制多条正态曲线,在横向比较中认识位置参数μ,分析形状参数σ对正态曲线的影响。
应用GeoGebra构建正态分布的可视化学习情境,可以突破因知识基础不足带来的学习之“难”和生活体验缺失导致的探究之“困”,为学生探究正态分布提供无限“可”与“能”:提供丰富的概率分布实例,在操作实践中感悟趋势逼近,在动态变换中发现分布特性,在直观想象中抽象概率模型……
三、在活动探究中提升“学”与“养”
数学探究活动是“围绕某个具体的数学问题,开展自主探究、合作研究并最终解决问题的过程”[4]。学生在GeoGebra支持下开展探究活动,经历正态分布的模型建构过程:在直观想象、数学抽象中发现和提出有意义的数学问题,在逻辑推理、数学运算中学会有逻辑地表达和交流,在发现、创造的过程中养成质疑、反思的习惯,在数学探究,活动操作中发展数学学科核心素养。
(一)情境创设,模型初见
问题1:我们知道,二项分布基于n重伯努利试验,即“随着实验次数的增加,频率稳定在概率附近”。那么,随着n的逐渐增大,频率分布、二项分布会呈现怎样的样态呢?
探究实验:在图3所示的场景中,选中“概率计算器”视区,点选“二项分布”选项,修改“试验次数”和“成功概率”的输入值,观察概率分布条形图的变化,直观感知二项分布的性质;在“绘图区”中,拖动滑动条改变试验次数,在连续动态变化中认识概率分布的趋势逼近。在图4所示的场景中,增大样本量、细化分组,在频率直方图的动态演变中进一步感知正态分布的极限存在,从量变到质变,从直观到抽象,如同棣莫弗当年一样瞥见正态曲线。
设计意图:正态分布的发现,源于棣莫弗的二项概率逼近工作,成于高斯的测量误差理论。正态分布的情境引入有两条路径:从二项分布逼近导入,感悟二项分布逼近正态分布的极限理解;由测量误差数据分析导入,“看见”光滑钟形曲线的渐变趋近。虽然没有微积分的推演论证,但在可视化技术的支持下,可以让学生学会用数学眼光看问题并增强数据意识。相比较而言二项分布条形图更规整,学生易于看出正态曲线的存在性;而误差数据分析的结果更真实,对学生数学抽象能力要求更高。在探究中,教师要提醒学生关注分布图、直方图的特性,如对称性、增减的趋势等,这是探究正态分布特性的基础和准备。
(二)特性思考,模型想象
问题2:在前面的探究中,我们已经“看”到了正态曲线,结合二项分布图和误差数据直方图,会发现正态曲线的哪些性质?进一步,能用一个函数模型来拟合正态曲线吗?
思想实验:学生以小组为单位,结合图3、图4的探究场景,讨论正态曲线的可能性质;并尝试拟合相应的函数解析式,以满足所得到的曲线性质。
设计意图:在图象的示意启发下,正态曲线的多数性质,如对称性、单峰性、扁尖性等,“显”而易“见”。教师引导学生重走高斯当年路,结合性质想象解析式,在反向思考中尝试有限度的数学再创造。在图象的支持下按图索骥有一定的可行性,如由对称性想到丨x丨、x2,由单调性想到、,由最大值想到e-丨x丨,e-x2,…,再由均值μ反映数据集中水平,标准差σ决定数据离散程度,猜测解析式中μ、σ的可能位置。
仅凭数学探究得出完整的正态曲线的解析式当然不现实。事实上,严密的数学推导,如系数的得出,不仅需要完整的微积分知识储备,而且需要深刻理解正态分布内涵。但学生对模型进行想象探究,有利于反向思考正态曲线的特性,同时也是为理解解析式做前置思考。在思想实验告一段落后,教师给出正态密度函数的解析式、讲解正态分布的定义并适当介绍正态分布解析式的数学发现历史(如图5)[5],在叙述数学研究不易的同时,凸显以列举方式尝试的价值和必要。
(三)参数探究,模型理解
问题3:μ、σ是正态密度函数f (x)=中的两个重要参数,那么均值μ、标准差σ是怎样影响并决定正态曲线的形状和特性的?
探究实验:在图6所示的探究场景中,学生度量、计算后确认正态曲线的形状特性;改变阴影部分区间范围,借助区间范围内的面积刻画,获得分布函数F(x)的直接认识,深化对称性、等积性的内涵认识。拖动滑动条改变μ、σ的数值,观察比较正态曲线位置、形状的相对变化,准确描述正态曲线的扁尖性。进一步地,学生可借助对“μ动σ定”和“μ定σ动”情形下系列正态曲线的整体连续展示(如图7和图8),深刻理解参数含义。
设计意图:对于对称性和单峰性,学生通过正态曲线的直观图象即可发现,借助密度函数解析式则可进行数学验证。对于等积性,由于缺少微积分的数学基础,学生需要有概率计算作铺垫,同时从频率分布直方图的矩形面积反向推证解释。扁尖性是数学探究的重点,学生不仅要感知单个图象,而且要建立整体认知。教师如此设计探究活动,不仅是为了学生获得曲线性质,更重要的是认识参数含义。
有别于离散型随机变量,连续型随机变量X的取值不能一一列举且任意单点值处的概率都是0。教材回避了分布函数F(x)的概念(P (X<a)=
f (x)dx、P (a≤ X≤b)= f (x)dx),只是“规定”区间概率为x轴上方、正态曲线下方围成的区域面积。由于高中阶段不研究一般的连续型随机变量,于是图6中的概率度量计算,其实有结合具体案例渗透分布函数F(x)概念之意。在教学中教师只有让学生多些操作体验才能弥补“规定”的欠缺。
(四)尺度把握,模型深化
问题4:参数μ、σ决定着正态曲线的位置和形状,那么不同“高矮”“瘦胖”的正态曲线有着怎样的相似基因呢?选择怎样的方案开展进一步的探究?
探究实验:在图9所示的探究场景中,学生拖动滑动条观察不同正态曲线中相似区间跨度内的概率值的变化,发现结果的相似性;从而认识“3σ原则”。
设计意图:探究活动不限于确认“3σ原则”,还指向不同正态曲线的“相似性”:“概率值P ( μ-kσ≤X≤μ+kσ)是一个只与k有关的定值”,说明σ是正态分布的尺度参数(用于丈量不同分布的相同规律),从而为不同正态分布间的相互转化提供依据,即“当X~N (μ,σ2)时,Z=服从标准正态分布N (0,1)”。事实上,学生借助标准正态分布数值表,可反推计算任意正态分布的随机变量概率值。
四、在行动反思中评析“变”与“进”
正态分布广泛存在于自然现象、生产和生活实践中,并且钟形曲线对称流畅,密度函数性质优美,是不可多得的数学研究对象。然而,学生知识基础薄弱,生活经验缺失,普遍难于理解这部分内容。为解决学生“知道是什么,但不知道为什么”的问题,教师应以帮助学生经历正态分布的模型建构过程为目标,可基于GeoGebra设置四阶段的数学探究活动,让他们在初见、想象、理解、深化的过程中,理解正态分布概念,发现正态曲线性质。
(一)信息技术赋能,可视化中看见不可见
二项分布的趋势逼近、频率直方图的极限演变、概率数值的即时计算、参数变化下的整体印象……GeoGebra构建的“所见即所得”的关联情境,以“形”之长弥“数”之短,让学生发现正态分布、建构密度函数模型,顺理成章、自然流畅。特别有意义的是,因为有丰富的实例和直观的图象支持,教师可以设计反向拟合正态密度函数解析式的思想实验,让学生重走高斯当年路,体验数学研究的乐趣和不易。
教师在技术赋能下开展数学可视化教学,将抽象的数学对象以可看见的表征形式直观呈现,可以使数学的关联性变得可见甚至可操作,帮助学生形象、直观、整体地认识和理解,进而洞悉数学本质。如图9中对尺度参数的认识,从正态曲线的“相似性”到不同正态分布间的相互转化,源于教材又高于教材。这样的可视化没有弱化学生的逻辑抽象,而是带来了更高的观念渗透和更深的思维启迪,让学生有更多的可能参与更高层次的思考与解决数学问题等活动。
(二)活动探究助力,问题引领下提升素养
数学教师固然应该教会学生许多必要的数学基础知识,但重要的是促进“人—知”互动,让学生在习得知识的过程中领悟数学思想。在正态分布的教学中,设置了四阶段的探究任务,让学生在亲身操作中发现正态分布的奥妙,在直观形象中实现从离散型随机变量到连续性随机变量的跨越,在数形关联比较中认识参数的含义价值。“学习任何东西,最好的途径是自己去发现”,学会用数学方法思考,提升数学学科核心素养,离不开数学探究活动的历练和信息技术的加持。
理想的数学探究应该尽可能由学生自主操作,“自主发现和提出有意义的数学问题,猜测合理的数学结论,提出解决问题的思路和方案”。然而,如果教师完全放手不管只会让学生手足无措。教师需要设计有梯度的探究活动,为学生提供适合的探究平台和实验情境,并以问题串的方式启发思路、提示方法。因此,设置合理而有梯度的问题链,提供必要的脚手架,以有效降低探究的门槛,尤为关键。过于宽泛、过于碎片都是不可取的,教师既不能放任不管又不能“嚼烂了喂给学生吃”。教师应在学生思维“关节点”与“关键点”处驻足停留,在关键环节、关键思想方法上启发学生思考。
注:本文系江苏省教育科学“十四五”规划课题“基于核心素养的高中数学大单元教学价值意蕴与路径探析研究”(编号:SJMJ/2021/10)、国家社会科学基金教育学一般课题“‘双减背景下义务教育阶段作业设计研究”(课题批准号:BHA220139)的阶段研究成果。
参考文献
[1] 陈希孺.数理统计学简史[M].长沙:湖南教育出版社,2021: 88-89.
[2] 人民教育出版社课程教材研究所中学数学课程教材研究开发中心.普通高中教科書 数学 必修性必修 第三册[M].北京:人民教育出版社,2020:84.
[3] 曹广福,罗荔龄.中学数学部分概率内容的教学策略[J].数学教育学报,2018(5):17-24.
[4] 中华人民共和国教育部.普通高中数学课程标准:2017年版 2020年修订[S].北京:人民教育出版社,2020:35.
[5] 李玲,徐章韬.正态分布的教学设计:从历史中寻找学生认知生长点[J].数学教育学报,2023(2):12-17.
(作者张志勇系江苏省常州市第五中学正高级教师,江苏省首批苏教名家培养对象,江苏省高中数学名师工作室主持人;张加红系江苏省常州市田家炳高级中学副校长,高级教师)
责任编辑:祝元志