张青云
在进行数据统计时,有时需要列出数据的频数分布表,或是以条形统计图直观地呈现频数分布情况,这些都涉及对数据进行分组的问题.数据分组的实质就是将数据分类,关键在于不重不漏.出于降低问题难度的目的,有时对数据已预先确定好组距及组数,但这个组距及组数是如何确定出来的,很多同学仍认识模糊.下面以苏教版教材八年级下册第24页习题第2题为例,对此进行分析说明.
问题:小丽调查了她所在班级50名同学的身高,结果如下(单位:cm):
141、154、149、154、162、165、168、150、155、163、144、168、150、157、155、171、155、160、145、163、145、155、152、160、148、145、169、152、160、163、158、157、159、160、168、150、157、152、158、155、157、157、159、162、145、150、158、144、155、172
一、 分组的第一步:计算数据的极差
找出样本数据中的最大值与最小值,求它们的差.比如该问题的极差是:172-141=31.
二、 第二步:决定组距与组数
组距是指各组的边界值之差.比如有一组显示为4.0≤x<4.3,则组距就是0.3. 通常在研究频数分布时,采用的都是等距分组,即每一组的边界值之差相等,其原因也是为了使后面画的频数分布直方图更直观.在频数分布直方图中,每一小组对应一个长方形,并以小长方形面积的大小来表示各小组内取值的频率.容易知道,条形长方形的面积=组距×条形的高,所以,在组距相同的情况下,条形的高可以直接与小组的频数相对应.频数越大,条形越高;频数越小,条形越低.
组距如何定?组距×组数≥极差.通常一组样本容量在100左右的数据,其组数适宜在7~12.比如:如果组距定为3,31÷3,那组数就定为11组;如果组距定为4,31÷4,那组数就定为8组;如果组距定为5,31÷5,那组数就定为7.具体选哪一种,要依问题的实际要求来定.本题样本容量是50,组距可以为4或5.
三、 分组确定各组的边界值
有两种确定方法:一是直接从最小(或最大)值开始,每一组以a≤x
另一种方式,是以比样本数据精确度更高一位的a
也可以以组距为4,采用上述两种方式来列频数分布表,读者可自行完成.当频数分布表完成后,画频数分布直方图就很容易了.
在教材第28页第2题,已经给定组距为5,教材第34页第8题要求更高,需要自行决定组数与组距,通过阅读本文,大家可以再次研究这两道题目.
(作者单位:广东省东莞市东莞中学松山湖学校)