对话教材编者 提升统计素养
——以由频率分布直方图估计总体数字特征为例

2022-11-24 01:20李素波张淑梅
中国数学教育(高中版) 2022年11期
关键词:均匀分布中位数直方图

李素波,张淑梅

(山西省平定县第一中学校;北京师范大学统计学院)

当今社会是大数据的时代,我们随时随地可以通过报刊、新闻媒体等渠道获得大量数据.然而,我们看到的往往不是原始数据,而是经过处理的各类统计图表,能够从图表中准确地读取信息,已经成为一个新时代公民的基本素养.《普通高中数学课程标准(2017年版2020年修订)》(以下简称《标准》)更将数据分析作为六大核心素养之一特别提出.数据分析也是学生学习统计部分应该提升的基本能力.从日常的教学实践中,笔者了解到部分教师对一些统计内容的认识还不统一,尤其是对于由频率分布直方图估计总体数字特征这部分内容.故撰写此文,与各位同仁讨论.

一、教学误区与观点

案例1:某教师的公开课教学片断.

师:图1为某班50名学生一次数学测试(满分100分)成绩的频率分布直方图,数据的分组依次为[20,40),[40,60),[60,80),[80,100].

师:图1体现出了样本数据的分布规律,然而原始数据丢失了.请大家思考,我们该如何利用频率分布直方图估计样本的平均数、中位数和众数?

学生思考.

师:事实上,在统计中,落在同一组的数据一般用中点值估计.下面谁来具体说一说如何估算这组样本数据的平均数?

生1:我认为成绩位于[)20,40的5名学生的得分都可以估为30分.同理,落在[)40,60内的10名学生的得分都可以估为50分;落在[)60,80内的20名学生的得分都可以估为70分;落在[ ]80,100内的15名学生的得分都可以估为90分.这样就可以将学生的平均成绩估计为

师:很好.下面我们换一个角度来看上述平均数计算公式.经过变形,上式可以继续整理为.其中,30,50,70,90为各组的中点值,为相应各组的频率.谁来归纳一下,利用频率分布直方图,还可以怎样估算样本数据的平均数?

生2:在频率分布直方图中,样本平均数为每个小矩形底边中点的横坐标与小矩形的面积的乘积之和.

师:很好.我们再来思考如何利用频率分布直方图中的数据来估计众数.我们知道,众数是一组数据中出现次数最多的数,那么在本例中,众数是多少呢?

生3:由于70这个数据出现了20次,出现次数最多,所以众数就是70.

师:结合上述确定平均数和众数的方法,我们继续思考如何利用频率分布直方图中的数据估计中位数,谁来说一下?

生4:由于落在同一组的数据可以用中点值代替,所以成绩位于[20,40)的5名学生都得了30分,同理落在[40,60)内的10名学生都得了50分,落在[60,80)内的20名学生都得了70分,落在[80,100]内的15名学生都得了90分.也就是说,这已经是一组具体可知的数据,可以认为这50名学生的成绩是由5个30分,10个50分,20个70分和15个90分构成的,按照由小到大的顺序排列好之后,可以知道第25和第26个数据都是70分,所以这组数据的中位数为

……

事实上,在统计学中,用频率分布直方图估计总体数字特征(包括平均数、中位数等),在没有其他信息假设的情况下,通常认为频率分布直方图各小区间内的数据是均匀分布的,并以此得到总体均值的估计公式、中位数的估计方法.

频率分布直方图中虽然无法体现原始数据,但知道每个小区间包含的数据个数.均匀分布是一种常用的连续型分布,可以理解为该小组内的几个样本数据是从均匀分布中抽取出来的.由于均匀分布的数学期望是中点值,所以我们可以用均匀分布的均值作为落在该小组内的几个样本数据的均值的近似.例如,在该案例中,可以认为区间[)20,40内的5个数据的均值近似为30,但不能解释成这5个数据都是30,这是有本质差别的.另外,从生4关于中位数的回答也可以看出,学生对于区间内的均匀分布是缺乏理解的,误认为同一小组内的数都估计成中点值.

案例2:日常教学实践中,学生提出的困惑.

曾经有学生在课后向笔者提问:已知一个频率分布直方图的样本量为100,其中区间[20,40)内的频率为0.1,那么[20,30)内的频率为什么就是0.05?[20,40)的频率是绘制频率分布直方图时由频数除以样本量得到的,这无可厚非,但是[20,30)内的频率是0.05要怎么解释呢?换句话说,[20,40)内共10个数据,将区间一分为二,[20,30)与[30,40)内就一定各有5个数据吗?如果将区间划分得更细致些,可得[20,21)内的频率为,进而得到在区间[20,21)内的频数为0.5,频数怎么会是小数呢?如果设这10个数据中最小的数为x0,那么根据频率分布直方图的信息,可得[20,x0)内的频率为,然而却没有频数,这不是矛盾了吗?

值得肯定的一点是该生是善于思考的,但鉴于所学统计知识有限,有此疑问也不足为奇,这体现了其在用离散的眼光看问题.问题的关键在于学生对均匀分布的理解是浅层次的.频率分布直方图是从连续型随机变量的角度出发设计的估算方法,设随机变量X服从区间[a,b]上的均匀分布,则X落在区间[m,n]内的概率.这里,X落在区间[m,n]内的概率仅与该区间的长度n-m有关,与[m,n]在区间[a,b]内的位置无关.在频率分布直方图中,我们用这样的连续型随机变量的分布近似表示各区间内样本数据的分布肯定会产生误差.因此,不能过分强调具体的离散数据是多少,这样是不合适的,用离散的思维去解释连续型问题,只能是近似估计,我们只是要让这个估计更合理.例如,在该案例中,按照平均分配,[20,30)的长度为[20,40)的一半,就认为[20,30)内的频率为;[20,21)的长度为[20,40)的,就认为[)20,21内的频率为然而,对于“[20,30)内的频率是不是5”“[20,21)内的频数出现了小数”不应该过分关注,只要认为其服从均匀分布就可以了.

二、案例分析

1.均匀分布

均匀分布是大学概率统计中最简单的连续型随机变量的分布,其定义如下.

事实上,在人教A版《普通高中课程标准实验教科书·数学3必修》(以下统称“旧教材”)中的几何概型中就出现过均匀分布的有关例题,教师对均匀分布的内容是熟悉的.一般地,服从均匀分布的随机变量落在某区间内的概率与区间本身的位置无关,仅取决于区间的长度.案例2中提及的学生没有连续型随机变量和均匀分布的认识,其实就是在理解上出现了问题.对此,教师要适当引导、及时纠正.

2.总体数字特征的估计

(1)总体均值的估计.

案例1中,在估算该班学生的平均成绩时,需要学生估计频率分布直方图中各分组内数据的和.对此,教师在设计教学时应该循序渐进、逐步引导.例如,可以让学生思考区间[20,40)内5个数据的和,是用5个20估计好还是用5个40估计好呢?让他们意识到用5个20估计明显估小了,而5个40明显估大了,所以都不合适.[20,40)内的均匀分布的均值为30,在没有信息假设的情况下,统计中一般把5个数据的均值估计为中点值30.

不妨设区间[20,40),[40,60),[60,80),[80,100]的均值依次为,显然有,=90.设四个区间内的频率分别为f1,f2,f3,f4,显然有.所以样本数据的均值为

从运算的效果来看,似乎案例1中教师的授课方式也没有问题,但从知识内涵角度来看,并不可以理解为[20,40)内的5个样本数据全是,[40,60)内的10个样本数据全是,[60,80)内的20个样本数据全是,[80,100]内的15个样本数据全是.例如,这里的5×30是均值的5倍,但是不能解释为其是5个30的和.

事实上,因为可以用频率分布直方图近似表示总体的分布密度,而总体的均值(数学期望)可以用分布密度得到,即取值与取该值概率的乘积之和,所以这里每个区间中点相当于取值,矩形面积近似表示取该值的概率,所以才有在频率分布直方图中样本平均数可以用每个小矩形底边中点的横坐标与小矩形的面积的乘积之和近似代替.

(2)中位数的估计.

由中位数的意义,可知在样本中有50%的个体小于或等于中位数,也有50%的个体大于或等于中位数.因此,在频率分布直方图中,中位数左边和右边的频率分布直方图的面积应该相等.

案例1中,因为[20,60)的频率为20×(0.005+0.01)=0.3,[20,80)的频率为20×(0.005+0.01+0.02)=0.7,所以可知中位数位于[60,80)之间.不妨设中位数为x,则根据均匀分布,落在[60,x)内的频率为故有则x=70.所以在该例中,中位数的估计值为70.案例1中生4及大部分学生错误的根本在于陷入了“同一组内的数据都用中点值代替”这一先入为主的误区.

(3)众数的估计.

由于在一组具体可知的数据中,众数定义为出现次数最多的数,所以在频率分布直方图中把众数估计为最高矩形底边中点的横坐标.在案例1中,由于[60,80)上的矩形最高,所以众数估计为70.然而关于这一统计结论也要正确理解,众数为70分,仅说明考试成绩位于[60,80)的学生人数是最多的,而不能说明成绩为70分的学生人数是最多的.

3.高考考查

利用频率分布直方图估计总体数字特征在高考中屡见不鲜.细心观察就会发现,在估计中位数和众数时,一般直接考查,没有任何信息假设.但是在考查数据的平均数(方差)时,一般会给出“同一组中的数据用该组区间的中点值为代表”这一前提.之所以给出这一前提,笔者认为有以下几点原因.第一,对于学生而言,想要完全理解由频率分布直方图估计总体数字特征的估计思想是有难度的,如连续型随机变量、均匀分布等.一旦给出同一组中的数据用该组的中点值为代表这一前提,那么这组数据就是具体可知的,学生的思路是清晰明了的,这样就可以大幅度降低理解和计算上的难度.第二,均值作为一组数据的代表,符合人们的直观和经验,具体数据(数据总数除以数据总个数)和平均数估算公式(中点值与频率乘积之和)两种方法计算的结果是一致的,因此也能起到考查统计里频率分布直方图中平均数的估计方法的目的.第三,将平均数与方差一起考查时,给出这一前提变得十分必要.由于高中阶段不涉及连续型随机变量的方差计算,只能对一组离散的数据求方差,而方差公式与每一个样本数据息息相关,所以必须给出这一前提才能求方差.

题目(2019年全国Ⅱ卷·文19)某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y的频数分布表如表1所示.

表1 产值增长率频数分布表

(1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例;

(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01.)

【评析】在此题的第(2)小题中,要求同时估计平均数与方差(或标准差),那么“同一组中的数据用该组区间的中点值为代表”这一前提是必须给出的,否则无法计算方差.

三、结束语

人教A版《普通高中教科书·数学》中由频率分布直方图估计总体数字特征这一知识点的呈现方式上与旧教材相比,更突出了估计方法,也就是对均匀分布的渗透.作为教师,我们要正确理解教材编写者的意图,深入研究教材,不可断章取义、片面理解.统计学关注的重点不是对与错,而是面对实际问题如何给出更好的决策.希望通过本文,能够帮助学生理解由频率分布直方图估计样本均值、中位数、众数等的估计思想,进一步提升学生的统计素养.

猜你喜欢
均匀分布中位数直方图
符合差分隐私的流数据统计直方图发布
数据的数字特征教学设计
Bp-MRI灰度直方图在鉴别移行带前列腺癌与良性前列腺增生中的应用价值
基于差分隐私的高精度直方图发布方法
电磁感应综合应用检测题
中考频数分布直方图题型展示
可逆随机数生成器的设计
尼龙纤维分布情况对砂浆性能的影响研究
中位数教学设计