陈忠
高中阶段,我们接触到的统计图表有以下四种:频率分布表,能从数量上比较准确地反映样本的频率分布规律;频率分布直方图,能直观地反映样本的频率分布情况;频率分布折线图,能反映数据的变化趋势;总体密度曲线,样本容量越大,估计越准确.
其中,频率分布表和频率分布直方图考查较多,本文主要解读这两种图表的绘制方式.
一、频率分布表的绘制
为了能直观地显示样本的频率分布情况,通常将样本的容量、样本中出现该事件的频数以及计算所得的相应频率列在一张表中,这张表叫做样本频率分布表.
例1 在一小时内统计一传呼台接收到用户的呼唤次数,按每分钟统计如下:
第一步,求极差(即每一组中最大值与最小值的差);
第二步,决定组距与组数.组距与组数的确定没有固定的标准,常常需要一个尝试和选择的过程. 将数据分组时,组数应力求合适,以使数据的分布规律能较清楚地呈现出来. 组数太多或太少,都会影响我们了解数据的分布情况. 数据分组的组数与样本容量有关,一般样本容量越大,所分组数越多:
组数=[极差组距]
第三步,将数据分组;
第四步,列频率分布表.频率分布表中频数总合计为样本容量,频率合计为1.
二、频率分布直方图的绘制
频率分布直方图有以下两个特征:
1.从频率分布直方图可以清楚地看出数据分布的总体趋势.
2.从频率分布直方图得不出原始的数据内容,把数据表示成直方图后,原有的具体数据信息就丢失了.
例2 高考阅卷有一个环节叫“试批”.某省为了了解和掌握考生的实际答卷情况,随机地抽取了100名考生的数学成绩,数据如下:
(1)列出频率分布表;
(2)画出频率分布直方图和折线图;
(3)估计该省考生数学成绩在100~120分之间的比例;
(4)设该省有20万考生,估计该省考生数学成绩不及格的人数(满分150分,90分及以上视为及格);
(5)根据折线图估计该省考生的数学成绩在哪一个分数段的人数将会最多.
解析 100个数据中,最大值为135,最小值为80,极差为135-80=55.
把100个数据分成11组,这时组距[=极差组数=5511=5].
(1)频率分布表如下:
注 表中加上“[频率组距]”一列,这是为画频率直方图准备的,因为它是频率直方图的纵坐标.
(2)根据频率分布表中的有关信息画出频率分布直方图及折线图,见下图.
(3)从频率分布表中可知,这100名考生的数学成绩在100~120分之间的频率为0.24+0.15+0.12+0.09=0.60,据此估计该省考生数学成绩在100~120分之间的比例为60%(0.60=60%).
(4)100名考生中,数学成绩不及格的频率为0.01+0.02=0.03,比例为3%.
200000×3%=6000(人).
估计该省考生数学成绩不及格的有6000人.
(5)折线图的最高点位于100~105分之间,据此估计该省考生的数学成绩在100~105分这个分数段的人数将会最多.
点拨 本例中,决定分点时,直接使用了最小值加组距,即80+5k(k=1,2,…,11),而没有把最小值减去某一个数(例如80-0.5=79.5)作为第1个分点,这是因为100个分数是明确的,即它们都在80~135分之间. 凡事都要具体问题具体分析,不可教条化. 本例是把5分看成一个分数段,统计各段的情况.
由这个例题,我们可以得出频率分布直方图的绘制步骤如下:
第一步,根据频率分布图确定组距和组数;
第二步,根据频率与组距确定矩形的高,高=[频率组距];
第三步,依据频率分布表以及确定的矩形大小绘制频率分布直方图.