李琳
要点一、随机抽样
(一)要点整合
1.简单随机抽样
(1)定义:一般地,设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.这样抽取的样本,叫做简单随机样本.
(2)常用方法:抽签法和随机数法.
2.分层抽样
(1)在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样.
(2)分层抽样的应用范围:当总体是由差异明显的几个部分组成时,往往选用分层抽样.
3.系统抽样
(1)定义:当总体中的个体数较多时,可以将总体分成均衡的几部分,然后按照预先制定的规则,从每一部分抽取一个个体,得到所需的样本,这种抽样的方法叫做系统抽样.
(2)系统抽样的步骤:假设要从容量为N的总体中抽取容量为n的样本.
①先将总体的N个个体编号;
②确定分段间隔k,对编号进行分段.当Nn(n是样本容量)是整数时,取k=Nn;
当总体中的个体数不能被样本容量整除时,可先用简单随机抽样的方法从总体中剔除几个个体,使剩下的个体數能被样本容量整除,然后再按系统抽样进行.这时在整个抽样过程中每个个体被抽取的可能性仍然相等.
③在第1段用简单随机抽样确定第一个个体编号l(l≤k);
④按照一定的规则抽取样本.通常是将l加上间隔k得到第2个个体编号l+k,再加k得到第3个个体编号l+2k,依次进行下去,直到获取整个样本.
(二)常用结论
(1)不论哪种抽样方法,总体中的每一个个体入样的概率都是相同的.
(2)系统抽样一般也称为等距抽样,入样个体的编号相差分段间隔k的整数倍.
(3)分层抽样是按比例抽样,每一层入样的个体数为该层的个体数乘抽样比.
(4)三种抽样方法的特点、联系及适用范围
类别共同点各自特点联系适用范围
简单随机抽样
系统抽样
分层抽样①抽样过程中每个个体被抽到的可能性相等;
②每次抽出个体后不再将它放回,即不放回抽样
从总体中逐个抽取总体个数较少
将总体均分成几部分,按预先定出的规则在各部分中抽取在起始部分取样时,采用简单随机抽样总体个数较多
将总体分成几层,分层进行抽取各层抽样时,采用简单随机抽样或系统抽样总体由差异明显的几部分组成
(三)考向举例
1.简单随机抽样
例1 下列抽取样本的方式属于简单随机抽样的个数有( )个.
①从无限多个个体中抽取100个个体作为样本;
②盒子里共有80个零件,从中选出5个零件进行质量检验.在抽样操作时,从中任意拿出一个零件进行质量检验后再把它放回盒子里;
③用抽签方法从10件产品中选取3件进行质量检验;
④某班有56名同学,指定个子最高的5名同学参加学校组织的篮球赛.
解析:①不是简单随机抽样,因为被抽取样本的总体的个数是无限的,而不是有限的;②不是简单随机抽样,因为它是有放回抽样;③明显为简单随机抽样;④不是简单随机抽样,因为不是等可能抽样.答案:1个
点拨:应用简单随机抽样应注意的问题
(1)一个抽样试验能否用抽签法,关键看两点:一是抽签是否方便;二是号签是否易搅匀.一般地,当总体容量和样本容量都较小时可用抽签法.
(2)在使用随机数法时,如遇到三位数或四位数,可从选择的随机数表中的某行某列的数字计起,每三个或四个作为一个单位,自左向右选取,有超过总体号码或出现重复号码的数字舍去.
2.系统抽样
例2 (2019年高考全国Ⅰ卷文数)某学校为了解1000名新生的身体素质,将这些学生编号为1,2,…,1000,从这些新生中用系统抽样方法等距抽取100名学生进行体质测验.若46号学生被抽到,则下面4名学生中被抽到的是______号学生.
________________________
A.8号学生 B.200号学生
C.616号学生 D.815号学生
解析:由已知将1000名学生分成100个组,每组10名学生,用系统抽样,46号学生被抽到,所以第一组抽到6号,且每组抽到的学生号构成等差数列{an},公差d=10,所以an=6+10n(n∈N),若8=6+10n,解得n=15,不合题意;若200=6+10n,解得n=19.4,不合题意;若616=6+10n,则n=61,符合题意;若815=6+10n,则n=80.9,不合题意.故选C.
点拨:系统抽样中所抽取编号的特点
系统抽样又称等距抽样,所以依次抽取的样本对应的号码就是一个等差数列,首项就是第1组所抽取样本的号码,公差为间隔数,根据等差数列的通项公式就可以确定每一组内所要抽取的样本号码.
提醒:系统抽样时,如果总体中的个数不能被样本容量整除时,可以先用简单随机抽样从总体中剔除几个个体,然后再按系统抽样进行.
3.分层抽样
例3 (2018年高考全国卷Ⅲ文)某公司有大量客户,且不同龄段客户对其服务的评价有较大差异.为了解客户的评价,该公司准备进行抽样调查,可供选择的抽样方法有简单随机抽样、分层抽样和系统抽样,则最合适的抽样方法是______.
解析:由题可知满足分层抽样特点.由于从不同龄段客户中抽取,故采用分层抽样,故答案为:分层抽样.
点拨:分层抽样问题的类型及解题思路
(1)求某层应抽个体数量:按该层所占总体的比例计算.
(2)已知某层个体数量,求总体容量或反之求解:根据分层抽样就是按比例抽样,列比例式进行计算.
(3)分层抽样的计算应根据抽样比构造方程求解,其中“抽样比=样本容量总体容量=各层样本数量各层个体数量”.
要点二、用样本估计总体
(一)知识整合
1.频率分布直方图
(1)纵轴表示频率组距,即小长方形的高=频率组距;
(2)小长方形的面积=组距×频率组距=频率;
(3)各个小方形的面积总和等于1.
2.频率分布表的画法
第一步:求极差,决定组数和组距,组距=极差组数;
第二步:分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间;
第三步:登记频数,计算频率,列出频率分布表.
3.茎叶图
茎叶图是统计中用来表示数据的一种图,
茎是指中间的一列数,叶就是从茎的旁边生长出来的数.
4.中位数、众数、平均数的定义
(1)中位数
将一组数据按大小依次排列,处于最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.
(2)众数
一组数据中出现次数最多的数据叫做这组数据的众数.
(3)平均数
一组数据的算术平均数即为这组数据的平均数,n个数据x1,x2,…,xn的平均数x=1n(x1+x2+…+xn).
5.樣本的数字特征
如果有n个数据x1,x2,…,xn,那么这n个数的
(1)平均数x=1n(x1+x2+…+xn).
(2)标准差s=1n[(x1-x)2+(x2-x)2+…+(xn-x)2].
(3)方差s2=1n[(x1-x)2+(x2-x)2+…+(xn-x)2].
(二)常用结论
1.频率分布直方图中的常见结论
(1)众数的估计值为最高矩形的中点对应的横坐标.
(2)平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.
(3)中位数的估计值的左边和右边的小矩形的面积和是相等的.
2.平均数、方差的公式推广
(1)若数据x1,x2,…,xn的平均数为x,则mx1+a,mx2+a,mx3+a,…,mxn+a的平均数是mx+a.
(2)若数据x1,x2,…,xn的方差为s2,则数据ax1+b,ax2+b,…,axn+b的方差为a2s2.
(三)考向举例
1.茎叶图
例4 (2017年高考山东高考)如图所示的记录了甲、乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则x和y的值分别为( )
A.3,5 B.5,5 C.3,7 D.5,7
解析:由两组数据的中位数相等可得65=60+y,解得y=5,又它们的平均值相等,
所以15×[56+62+65+74+(70+x)]=15×(59+61+67+65+78),解得x=3.答案:A
点拨:茎叶图的应用
(1)茎叶图通常用来记录两位数的数据,可以用来分析单组数据,也可以用来比较两组数据.通过茎叶图可以确定数据的中位数,数据大致集中在哪个茎,数据是否关于该茎对称,数据分布是否均匀等.
(2)给定两组数据的茎叶图,比较数字特征时,“重心”下移者平均数较大,数据集中者方差较小.
2.频率分布直方图
例5 (2018年新课标Ⅰ卷文)某家庭记录了未使用节水龙头50天的日用水量数据(单位:m3)和使用了节水龙头50天的日用水量数据,得到频数分布表如下:
未使用节水龙头50天的日用水量频数分布表
频数151310165
(1)在答题卡上作出使用了节水龙头50天的日用水量数据的频率分布直方图:
(2)估计该家庭使用节水龙头后,日用水量小于0.35m3的概率;
(3)估计该家庭使用节水龙头后,一年能节省多少水?(一年按365天计算,同一组中的数据以这组数据所在区间中点的值作代表.)
解析:(1)根据题中所给的使用了节水龙头50天的日用水量频数分布表,算出落在相应区间上的频率,借助于直方图中长方形的面积表示的就是落在相应区间上的频率,从而确定出对应矩形的高,从而得到直方图;(2)结合直方图,算出日用水量小于0.35的矩形的面积总和,即为所求的频率;(3)根据组中值乘以相应的频率作和求得50天日用水量的平均值,作差乘以365天得到一年能节约用水多少m3,从而求得结果.
(1)
(2)根据以上数据,该家庭使用节水龙头后50天日用水量小于0.35m3的频率为
0.2×0.1+1×0.1+2.6×0.1+2×0.05=0.48,
所成角的正弦值;
(2)若点M,N分别在AB,PC上,且MN⊥平面PCD,试确定点M,N的位置.
解:(1)由题意知,AB,AD,AP两两垂直.
以{AB,AD,AP}为正交基底,建立如图所示的空间直角坐标系Axyz,则
B(1,0,0),C(1,2,0),
D(0,2,0),P(0,0,2).
从而PB=(1,0,-2),
PC=(1,2,-2),
PD=(0,2,-2).
设平面PCD的法向量n=(x,y,z),
则n·PC=0,n·PD=0,即x+2y-2z=0,2y-2z=0,
不妨取y=1,则x=0,z=1.
所以平面PCD的一个法向量为n=(0,1,1).
设直线PB与平面PCD所成角为θ,所以
sinθ=|cos〈PB,n〉|=|PB·n|PB|·|n||=105,
即直线PB与平面PCD所成角的正弦值为105.
(2)设M(a,0,0),则MA=(-a,0,0),
设PN=λPC,则PN=(λ,2λ,-2λ),
而AP=(0,0,2),
所以MN=MA+AP+PN=(λ-a,2λ,2-2λ).
由(1)知,平面PCD的一个法向量为n=(0,1,1),
因为MN⊥平面PCD,所以MN∥n.
所以λ-a=0,2λ=2-2λ,解得,λ=12,a=12.
所以M为AB的中点,N为PC的中点.
评注:这类问题的基本特征是:针对一个结论,条件未知需探索,或条件增删需确定,或条件正误需判断.解决这类问题的基本策略是:执果索因,先寻找结论成立的必要条件,再通过检验或认证找到结论成立的充分条件.在“执果索因”的过程中,常常会犯的一个错误是不考虑推理过程的可逆与否,误将必要条件当作充分条件,应引起注意.
(作者:石鹏,如皋市石庄中学)