王国平
学习统计内容时,应准确理解三种抽样方法的定义,分清它们之间的联系与区别,灵活选择恰当的抽样方法抽取样本。高考主要考查样本的频率分布中的有关计算、样本特征数、回归分析等。
1.三种抽样方法
高考重点考查分层抽样,其次是系统抽样、简单随机抽样。分层抽样是按比例抽样;系统抽样首先是对总体进行分段,注意分段时可能要排除一些个体,各段的间距是一样的;简单随机抽样要注意随机数表的应用。
例1 某学校有男、女学生各500名。为了解男女学生在学习兴趣与业余爱好方面是否存在显著差异,拟从全体学生中抽取100名学生进行调查,则宜采用的抽样方法是( )。
A.抽签法 B.随机数法
C.系统抽样法 D.分层抽样法
解:求解本题要弄懂三种抽样方法之间的区别和联系。
简单随机抽样适用于样本较小的抽样,选项A、B不适合。系统抽样适用于样本容量大且总体差异不明显,选项C不适合。本题中的样本差异明显,适合分层抽样,选D。
跟踪训练1:将参加夏令营的500名学生分别编号为001,002,…,500,这500名学生分住在三个营区,从001到200在第一营区,从201到350在第二营区,从351到500在第三营区。若采用分层抽样的方法抽取一个容量为50的样本,则三个营区被抽取的人数分别为(
)。
A.20,15 ,15 B.20,16 ,14
C.12 ,14 ,16 D.21,15 ,14
提示:根据分层抽样,按l0:1的比例抽取,则分别应抽取的人数为20,15,15。应选A。
2.频率分布直方图的应用
频率分布直方图直观形象地表示了样本的频率分布,从这个直方图上可以求出样本数据在各个组的频率分布。根据频率分布直方图估计样本(或者总体)的平均值时,一般是采取组中值乘以各组的频率的方法。
例2(2014年高考广东卷)已知某地区中小学生人数和近视情况分别如图1和图2所示。为了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生进行调查,则样本容量和抽取的高中生近视人数分别为( )。
A.200,20 B.100,20 C.200,10 D.100,10
解:本题考查统计图表的实际应用。由图1可知该地区中小学生一共有10 000人。由抽取2%的学生,可知样本容量是10000×2%=200。由于高中生近视率为50%,可得高中生近视的人数为2000×2%×50%=20。选A。
跟踪训练2:(2014年高考新课标卷)从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标值,由测量结果得频数分布表(如表1)。
(1)作出这些数据的频率分布直方图。
(2)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表)。
(3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品80%”的规定?
3.用样本的数字特征估计总体的数字特征
平均数与方差都是重要的数字特征,是对总体的一种简明的描述,它们所反映的情况有着重要的实际意义。平均数、中位数、众数描述其集中趋势,方差和标准差描述其波动大小。
例3 为了考察某校各班参加课外书法小组的人数,从全校随机抽取5个班级,把每个班级参加该小组的人数作为样本数据。已知样本平均数为7,样本方差为4,且样本数据互不相同,则样本数据中的最大值为
。
解:借助题目条件,可知样本数据中最大值不会超过12,可采用逐一讨论的方法。由于样本数据互不相同,这是不可能成立的。若样本数据为4,6,7,8,10,代人验证可知符合题目要求,此时样本数据中最大值为10。答案为10。
跟踪训练3:(1)在某次测量中得到的A样本数据如下:82,84,84,86,86,86,88,88,88,88。若B样本数据恰好是A样本数据每个都加2后所得数据.则A,B两样本的下列数字特征对应相同的是( )。
A.众数 B.平均数 C.中位数 D.标准差
(2)甲、乙两名射击运动员参加某大型运动会的预选赛,他们分别射击了5次,成绩如表2所示(单位:环)。
如果甲、乙两人中只有1人人选,则入选的最佳人选应是一。
提示:(1)对样本中每个数据都加上一个非零常数时不改变样本的方差和标准差,但众数、中位数、平均数都发生改变。应选D。
4.线性回归方程
在解决具体问题时,要先进行相关性检验,通过检验确认两个变量是否具有线性相关关系,若它们之间具有线性相关关系,则可求出回归直线方程。
例4 (2014年高考新课标卷)某地区2007年至2013年农村居民家庭人均纯收入y(单位:千元)的数据如表3所示。
(1)求y关于t的线性回归方程。
(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入。
附:回归直线的斜率和截距的最小二乘估计公式分别为:
下面对一组数据的分析,不正确的说法是( )。
A.数据极差越小,样本数据分布越集中、稳定
B.数据平均数越小,样本数据分布越集中、稳定
C.数据标准差越小,样本数据分布越集中、稳定
D.数据方差越小,样本数据分布越集中、稳定
提示:根据极差、平均数、方差、标准差的定义即可判断。
极差反映了最大值与最小值的差的情况,极差越小,数据越集中、稳定。
方差、标准差是用来衡量一组数据波动大小的量,方差、标准差越大,表明这组数据偏离平均数越大,即波动越大,数据越不稳定。方差、标准差较小的数据波动较小,稳定程度较高。
平均数偏小,说明数据整体上偏小,不能反映样本数据的稳定与否。
应选B。