统计备考中需要把握的4个方面
◇湖南刘兆平
统计单元在数学高考的命题分量超过了课标规定的课时分量,这是因为统计问题在考查考生的运算求解能力、数据处理能力以及应用意识、创新意识等方面扮演着重要的角色.本文分4个方面例谈统计单元的备考热点.
13种抽样方法
抽样是一项统计工作的开始,需要我们根据研究对象的特征确定抽样方法.常用的抽样方法主要有简单随机抽样、分层抽样、系统抽样.应用中要把握3种抽样方法的适用条件,正确选择利用.
例1(2015年福建卷)某校高一年级有900名学生,其中女生400名,按男女比例用分层抽样的方法,从该年级学生中抽取一个容量为45的样本,则应抽取的男生人数为________.
例2(2012山东高考理)采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,…,960,分组后在第1组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入区间[1,450]的人做问卷A,编号落入区间[451,750]的人做问卷B,其余的人做问卷C.则抽到的人中,做问卷B的人数为().
A7;B9;C10;D15
当总体容量较小,样本容量也较小时,可采用简单随机抽样法;当总体由差异明显的几部分组成,可采用分层抽样法;当总体容量较大,样本容量也较大时,可采用系统抽样法.
23种常用图表
抽样所得到的数据,需要进行汇总整理,数据的处理结果,我们通常将其表示为频率分布直方图、茎叶图、随机变量分布列,以直观、整齐的形式地体现样本数据特征.
例3(2015年湖南卷)在一次马拉松比赛中,35名运动员的成绩(单位:min)的茎叶图如图1所示.若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是________.
13003456688891411122233445556678150122333图1
总体分布反映了总体在各个范围内取值的可能性的大小,利用样本的频率分布去估计总体分布,样本容量越大,这种估计也就越精确.
例4(2013全国新课标Ⅱ卷) 经销商经销某种农产品,在一个销售季度内,每售出1 t该产品获利润500元,未售出的产品,每1 t亏损300元.根据历史资料,得到销售季度内市场需求量的频率分布直方图,如图2所示.经销商为下一个销售季度购进了130 t该农产品,以X(单位:t,100≤X≤150)表示下一个销售季度内的市场需求量,T(单位:元)表示下一个销售季度内销商该农产品的利润.
图2
(1) 将T表示为X的函数;
(2) 根据直方图估计利润T不少于57000元的概率;
(3) 在直方图的需求量分组中,以各组的区间中点值代表该组的各个值,需求量落入该区间的频率作为需求量取该区间中点值的概率(例如:若X∈[100, 110),则取X=105,且X=105的概率等于需求量落入[100,110]的概率),求利润T的数学期望.
(1) 当X∈[100, 130)时,
T=500X-300(130-X)=800X-39000.
当X∈[130,150]时,T=500×130=65000.
(2) 由(1)知利润T不少于57000元当且仅当
120≤X≤150.
由直方图知需求量X∈[120, 150]的频率为0.7,所以下一个销售季度内的利润T不少于57000元的概率的估计值为0.7.
(3) 依题意可得T的分布列为
T45000530006100065000P0.10.20.30.4
所以ET=45000×0.1+53000×0.2+61000×0.3+65000×0.4=59400.
此题将概率与统计、函数等知识自然结合起来命制了一道综合性较强的概率应用题,主要考查了考生的分析问题与解决问题的能力,注重知识的交会和渗透是本题的“闪光”之处.解决此题的关键是结合频率分布直方图理顺概率P与需求量X、利润T之间的关系.
35个数字特征
对样本数据进行整理后,通过对样本数据的分析来估计总体分布,即通过对样本数据的评价分析来研究总体的数字特征.对数据评价的主要参考有期望(平均数)、中位数、方差(反映样本数据的波动程度的量)、标准差、众数(反映样本数据的集中程度).具体应用中应根据需要选择合适的数字特征.
图3
例6(2014年福建卷)为回馈顾客,某商场拟通过摸球兑奖的方式对1000位顾客进行奖励,规定:每位顾客从一个装有4个标有面值的球的袋中一次性随机摸出2个球,球上所标的面值之和为该顾客所获的奖励额.
(1) 略.
(2) 商场对奖励总额的预算是60000元,并规定袋中的4个球只能由标有面值10元和50元的2种球组成,或标有面值20元和40元的2种球组成.为了使顾客得到的奖励总额尽可能符合商场的预算且每位顾客所获的奖励额相对均衡,请对袋中的4个球的面值给出一个合适的设计,并说明理由.
(2) 根据商场的预算,每个顾客的平均奖励为60元.所以先寻找期望为60元的可能方案.对于面值由10元和50元组成的情况,如果选择(10,10,10,50)的方案,因为60元是面值之和的最大值,所以期望不可能为60元;如果选择(50,50,50,10)的方案,因为60元是面值之和的最小值,所以数学期望也不可能为60元,因此可能的方案是(10,10,50,50),记为方案1.
对于面值由20元和40元组成的情况,同理可排除(20,20,20,40)和(40,40,40,20)的方案,所以可能的方案是(20,20,40,40),记为方案2.
以下是对2个方案的分析:
对于方案1,即方案(10,10,50,50),设顾客所获的奖励为X1,则X1的分布列为
X12060100P162316
X1的期望为
X1的方差为
对于方案2,即方案(20,20,40,40),设顾客所获的奖励为X2,则X2的分布列为
X2406080P162316
X2的期望为
X2的方差为
由于2种方案的奖励额都符合要求,但方案2奖励的方差比方案1的小,所以应该选择方案2.
本题主要考查古典概型、离散型随机变量的分布列、数学期望、方差等基础知识,考查数据处理能力、运算求解能力、建模意识,考查分类与整合思想.分别求出2种方案的期望与方差,并比较它们的大小,即可得出结论.
42种统计模型
生活中除了函数关系这种确定性的关系外,还大量存在因变量的取值带有一定随机性的2个变量之间的关系,即相关关系.研究2个变量之间的关系,首先要采取样本,然后将采取的样本数据进行处理,得到模型.不同的方式得到不同的模型,再利用模型描述2个变量之间关系的强弱.
例7(2015年福建卷)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下表所示的统计数据.
收入x/万元8.28.610.011.311.9支出y/万元6.27.58.08.59.8
据此估计,该社区一户收入为15万元家庭年支出为()万元.
A11.4;B11.8;
C12.0;D12.2
由已知得
本题主要考查回归直线方程的求法,应用回归直线方程进行预测、估计的思想方法,意在考查考生的数据分析能力和实际应用能力.
例8(2013年福建卷)某工厂有25周岁及以上工人300名,25周岁以下工人200名.为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁及以上”和“25周岁以下”分为2组,再将2组工人的日平均生产件数分成[50,60)、[60,70)、[70,80)、[80,90)、[90,100]5组分别加以统计,得到如图4、5所示的频率分布直方图.
图4 图5
(1) 从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到1名“25周岁以下组”工人的概率;
(2) 规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完成2×2列联表,并判断是否有90%的把握认为“生产能手与工人所在的年龄组有关”.
P(χ2≥k)0.1000.0500.0100.001K2.7063.8416.63510.828
(1) 略.(2) 由频率分布直方图可知,在抽取的100名工人中,“25周岁及以上组”中的生产能手有60×0.25=15,“25周岁以下组”中的生产能手有40×0.375=15,据此可得2×2列联表如下:
分组生产能手非生产能手合计25周岁及以上组15456025周岁以下组152540合计3070100
所以得
因为1.79<2.706,所以没有90%的把握认为“生产能手与工人所在的年龄组有关”.
变量间的相关关系与统计案例主要考查线性回归方程的计算或回归分析的思想与方法的应用问题、独立性检验的基本思想及应用.
(作者单位:湖南省娄底市第三中学)