随机抽样与用样本估计总体

2015-08-03 13:38赵银仓王健
数学教学通讯·初中版 2015年2期
关键词:平均数直方图总体

赵银仓++王健

随机抽样是研究如何合理收集数据,而用样本估计总体则是研究如何整理与分析数据,从样本的数据特征来了解整体的情况,由于样本的随机性,所以可以透过部分看整体. 在学习这一部分知识时,要通过实际问题情境,学习随机抽样、样本估计总体的基本方法,体会用样本估计总体及其特征的思想;通过解决实际问题,较为系统地经历数据收集与处理的全过程,体会统计思维与确定性思维的差异. 由于抽样方法与用样本估计总体所体现的统计思想是一种重要的思想方法,所以这部分成为高考每年必考的内容.

重点难点

随机抽样与用样本估计总体要求在解决统计问题的过程中,用随机抽样方法从总体中抽取样本,进一步体会用样本估计总体的思想,会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征;初步体会样本频率分布和数字特征的随机性.

在历年高考中,该部分知识在选择题、填空题和解答题中都有出现,考查的方向主要有抽样方法的选择,绘制、识别频率分布表和频率分布直方图、频率折线图、茎叶图,并能应用这些图表解决一些简单实际问题.

重点:掌握抽样方法的特点及它们之间的区别与联系,面对实际问题能合理选择抽样方法抽取样本;绘制频率分布表和频率分布直方图、频率折线图、茎叶图,会计算方差和标准差,并能计算样本平均数,还能进一步解释这些统计数据的实际意义.

难点:实际问题中抽样方案的确定;频率分布表和频率分布直方图的理解与应用,如计算平均数等.

方法突破

1.?摇随机抽样与用样本估计总体的基本思路

(1)简单随机抽样的特点:总体中个体性质相似,无明显层次;总体容量较小,尤其是样本容量较小;用简单随机抽样方法抽出的个体带有随机性,个体间无固定间距.

系统抽样的特点:适用于元素个数很多且均衡的总体,各个个体被抽到的机会均等;总体分组后,在起始部分抽样时,采用简单随机抽样.

分层抽样的特点:适用于总体由差异明显的几部分组成的情况;分层后,在每一层抽样时可采用简单随机抽样或系统抽样.

(2)作频率分布直方图的步骤:①求极差;②确定组距和组数;③将数据分组;④列频率分布表;⑤画频率分布直方图.

(3)标准差与方差:标准差、方差描述了一组数据围绕平均数波动的大小,标准差、方差越大,数据的离散程度越大,标准差、方差越小,数据的离散程度越小,因为方差与原始数据的单位不同,且平方后可能夸大了偏离程度,所以虽然方差与标准差在刻画样本数据的分散程度上是一致的,但在解决实际问题时,一般多用标准差.

2. 随机抽样与用样本估计总体的基本策略

(1)理解抽样方法的区别与联系

简单随机抽样是系统抽样与分层抽样的基础,是一种等概率的抽样,由定义应抓住以下特点:它要求总体个数较少;它是从总体中逐个抽取的;它是一种不放回抽样.

系统抽样又称等距抽样,号码序列一确定,样本即确定了,但要求总体中不能含有一定的周期性,否则其样本的代表性是不可靠的,甚至会导致明显的偏向.

(2)分析总体特征,选择合理的抽样方法. 抽样方法经常交叉使用,比如系统抽样中的第一均衡部分,可采用简单随机抽样,分层抽样中,若每层中的个体数量仍很大时,则可辅之以系统抽样.

(3)准确绘制频率分布表和频率分布直方图、频率折线图、茎叶图. 通过频率分布表和频率分布直方图可以对总体作出估计,这就依赖于绘制图表的准确性.在计数和计算时一定要准确,在绘制小矩形时,宽窄要一致,这样才能使绘制的频率分布图表准确地反应实际问题.

(4)理解估计总体的有关概述并熟记有关公式. 若取值x1,x2,…,xn的频率分别为p1,p2,…,pn,则其平均值为x1p1+x2pn+…+xnpn. 若取值x1,x2,…,xn的平均数为■,方差为s2,则ax1+b,ax2+b,…,axn+b的平均数为a■+b,方差为a2s2.

典例精讲

■例1 (2013年高考陕西卷)某单位有840名职工,现采用系统抽样方法,抽取42人做问卷调查,将840人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为( )

A. 11 B. 12 C. 13 D. 14

思索 当总体中所含的个体数比较大,并且个体间没有显著差异,被抽取的概率一样时,采用系统抽样法. 本题从840中用系统抽样抽取42人,则每20人为一组,每组抽取一人. 因此只需要按等间隔抽取规则求出编号落入区间[481, 720]的组数,并且还要弄清首未两组是否为全体.

破解 根据从编号1开始,每20人一组等距分组规则,第1组的编号区间为[1,20],第2组的编号区间为[21,40],以此类推,编号落入区间[481,720]的为第24组至第35组的全体,共有12组,所以抽取的42人中, 编号落入区间[481,720]的人数为12人,故选B.

■例2 (2014年高考广东卷)已知某地区中小学生人数和近视情况分别如图1和图2所示. 为了了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生进行调查,则样本容量和抽取的高中生近视人数分别为( )

图1 图2

A. 200,20?摇 B. 100,20?摇?摇?摇?摇

C. 200,10 ?摇?摇 D. 100,10

思索 由于中小学生的年龄差异明显,因而近视情况的差异很大,所以选用分层抽样方法. 本题考查统计图表的实际应用,问题的关键是识图,读懂题目给出的图表,明白其中数据的意义.

破解 根据题中的图可知,该地区中小学生一共有10000人,因为要抽取2%的学生,所以样本容量是10000×2%=200. 因为高中生的近视率为50%,所以抽取的高中生近视的人数为2000×2%×50%=20. 故选A.endprint

■例3 (2014年高考北京卷)从某校随机抽取100名学生,获得了他们一周课外阅读时间(单位:小时)的数据,整理得到数据分组及频数分布表和频率分布直方图(如图3).

图3

(1)从该校随机选取一名学生,试估计这名学生该周课外阅读时间少于12小时的概率;

(2)求频率分布直方图中的a,b的值;

(3)假设同一组中的每个数据可用该组区间的中点值代替,试估计样本中的100名学生该周课外阅读时间的平均数在第几组.(只需写出结论)

思索 本题要能够读懂频数分布表及直方图,明确图表中每个数据的数学意义:频数分布表以2小时为单位分组,直方图中矩形的高为频率与组距的比,宽为阅读时间,面积为阅读时间在该范围的频率,直方图中小矩形的面积和为1. 从频率分布直方图来估计平均值,等于直方图中每个小矩形的面积乘小矩形底边中点的横坐标之和.

破解 (1)根据频数分布表,100名学生中课外阅读时间不少于12小时的学生共有6+2+2=10(名),所以样本中的学生课外阅读时间少于12小时的频率是1-■=0.9. 故从该校随机选取一名学生,估计其课外阅读时间少于12小时的概率为0.9.

(2)课外阅读时间落在组[4,6)内的有17人,频率为0.17,所以a=■=■=0.085. 课外阅读时间落在组[8,10)内的有25人,频率为0.25,所以b=■=■=0.125.

(3)由频数分布图中的数据可得平均数为■=0.06×1+0.08×3+0.17×5+0.22×7+0.25×9+0.12×11+0.06×13+0.02×15+0.02×17=7.68,所以样本中的100名学生课外阅读时间的平均数在第4组.

■例4 (2014年高考湖南卷)某企业有甲、乙两个研发小组,为了比较他们的研发水平,现随机抽取这两个小组往年研发新产品的结果如下:(a,b),(a,b),(a,b),(a,b),(a,b),(a,b),(a,b),(a,b),(a,b),(a,b),(a,b),(a,b),(a,b),(a,b),(a,b). 其中a,a分别表示甲组研发成功和失败;b,b分别表示乙组研发成功和失败.

(1)若某组成功研发一种新产品,则给该组记1分,否则记0分. 试计算甲、乙两组研发新产品的成绩的平均数和方差,并比较甲、乙两组的研发水平.

(2)若该企业安排甲、乙两组各自研发一种新产品,试估计恰有一组研发成功的概率.

思索 本题综合考查随机样本的收集,用样本的平均数与方差估计总体. 根据规定用1和0来表示研发的成功与失败,将随机抽取的研发结果转化为关于反映甲、乙成绩的两组数值,计算它们的平均值与方差,以此来比较它们的研发水平.

破解 (1)甲组研发新产品的成绩为1,1,1,0,0,1,1,1,0,1,0,1,1,0,

1,其平均数为x甲=■=■,方差为s2甲=■1-■?摇2×10+0-■?摇2×5=■.

乙组研发新产品的成绩为1,0,1,1,0,1,1,0,1,0,0,1,0,1,1,其平均数为x乙=■=■,方差为s2乙=■1-■?摇2×9+0-■?摇2×6=■.

因为x甲>x乙,s2甲

(2)记E={恰有一组研发成功}.在所抽得的15个结果中,恰有一组研发成功的结果是(a,b),(a,b),(a,b),(a,b),(a,b),(a,b),(a,b),共7个,故事件E发生的频率为■. 将频率视为概率,即得所求概率为P(E)=■.

变式练习

1. (2014年高考天津卷)某大学为了了解在校本科生对参加某项社会实践活动的意向,拟采用分层抽样的方法,从该校四个年级的本科生中抽取一个容量为300的样本进行调查. 已知该校一年级、二年级、三年级、四年级的本科生人数之比为4∶5∶5∶6,则应从一年级本科生中抽取________名学生.

2. 为了考察某校各班参加课外书法小组的人数,在全校随机抽取5个班级,把每个班级参加该小组的人数作为样本数据. 已知样本平均数为7,样本方差为4,且样本数据互相不相同,则样本数据中的最大值为________.

3. 以下茎叶图记录了甲、乙两组各五名学生在一次英语听力测试中的成绩(单位:分),已知甲组数据的中位数为15,乙组数据的平均数为16.8,则x,y的值分别为________.

图4

4. (2014年高考广东卷)某车间20名工人年龄数据如下表:

(1)求这20名工人年龄的众数与极差;

(2)以十位数为茎,个位数为叶,作出这20名工人年龄的茎叶图;?摇?摇?摇?摇?摇

(3)求这20名工人年龄的方差.

5. (2014年高考重庆卷)20名学生某次数学考试成绩(单位:分)的频率分布直方图如图5所示.

图5

(1)求频率分布直方图中a的值;

(2)分别求出成绩落在[50,60)与[60,70)中的学生人数;

(3)从成绩在[50,70)的学生中任选2人,求此2人的成绩都在[60,70)中的概率.

参考答案

1. 60 2. 10 3. 5,8

4. (1)众数为30,极差为21.

(2)略 (3)12.6

5. (1)据直方图知组距为10,由(2a+3a+6a+7a+2a)×10=1,解得a=■=0.005.

(2)成绩落在[50,60)中的学生人数为2×0.005×10×20=2. 成绩落在[60,70)中的学生人数为3×0.005×10×20=3.

(3)记成绩落在[50,60)中的2人为A1,A2,成绩落在[60,70)中的3人为B1,B2,B3,则从成绩在[50,70)的学生中任选2人的基本事件共有10个,即(A1,A2),(A1,B1),(A1,B2),(A1,B3),(A2,B1),(A2,B2),(A2,B3),(B1,B2),(B1,B3),(B2,B3). 其中2人的成绩都在[60,70)中的基本事件有3个,即(B1,B2),(B1,B3),(B2,B3). 故所求概率为P=■. ■

猜你喜欢
平均数直方图总体
加权平均数的应用
符合差分隐私的流数据统计直方图发布
2020年秋粮收购总体进度快于上年
外汇市场运行有望延续总体平稳发展趋势
用直方图控制画面影调
直击高考中的用样本估计总体
基于空间变换和直方图均衡的彩色图像增强方法
基于直方图平移和互补嵌入的可逆水印方案