■胡 焕
高考命题中的统计问题,虽然难度不大,但解题也得讲究方法,可谓方法得当,事半功倍。那么统计问题主要有哪些常用的解题方法呢?
统计学是一门独立的学科,统计术语有着独特的含义,求解统计问题应遵循相关的定义。
例1(1)在一次马拉松比赛中,35名运动员的成绩(单位:min)的茎叶图如图1所示。
图1
若将运动员按成绩由好到差编号为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是
(2)我国古代数学名著《数书九章》有“米谷粒分”题,其大意是:粮仓开仓收粮,有人送来米1534石,验得米内夹谷,抽样取米一把,数得254粒内夹谷28粒,则这批米内夹谷约为( )。
A.134石 B.169石
C.338石 D.1365石
解:(1)依题意可将编号为1~35号的35个数据分成7组,每组有5个数据。
在区间[139,151]上共有20个数据,分在4个小组内,每组抽取1人,共抽取4人。答案为4。
(2)254粒和1534石中夹谷的百分比含量是大致相同的,据此可估计这批米内夹谷的数量。设1534石米内夹谷x石。由题意可得解得x≈169(石),即这批米内夹谷约为169石。应选B。
本题涉及简单随机抽样和系统抽样的有关定义,只有掌握了相关定义才能顺利解题。对于系统抽样,不仅要理解它的适用范围,更要掌握这种抽样的方法和特征。
依据统计中有关概念的意义建立方程求解问题,也是统计问题常用的解题方法。
例2将容量为n的样本中的数据分成6组,绘制频率分布直方图,若第1组至第6组数据的频率之比为2∶3∶4∶6∶4∶1,且前三组数据的频数之和等于27,则n的值为( )。
A.60 B.55
C.50 D.45
解:由题意可设第1组至第6组数据的频率分别为2x,3x,4x,6x,4x,x,则2x+3x+4x+6x+4x+x=1,解得所以前三组数据的频率分别是由题意可得前三组数据的频数之和为,解得n=60。应选A。
本题通过两次列方程并解方程,使问题得到解决,这充分说明方程思想在统计问题中的重要性。
统计问题离不开运算,而且有时运算相当烦琐,这时根据统计中的有关公式的特点,采用整体代换的方法,可以大大减少计算量。
例3现有10个数,其平均数是4,且这10个数的平方和是200,那么这组数的标准差是( )。
A.1 B.2
C.3 D.4
(2)已知样本数据x1,x2,…,xn的平均数为,样本数据y1,y2,…,ym的平均数为),若样本数据x1,x2,…,xn,y1,y2,…,ym的平均数为=a+(1-a),其中0<a<,则n,m的大小关系为( )。
A.n<m B.n>m
C.n=m D.不能确定
解:(1)设这10个数为a1,a2,…,a10,则++…+=200,且a1+a2+…+a10=40,所以其方差s2=×[(a1-4)2+(a2-4)2+…+(a10-4)2]=×[++…+-8(a1+a2+…+a10)+160]=4,可知标准差为4=2。应选B。
在有关方差的计算问题中,利用整体代换的方法可以优化解题过程。
统计中经常涉及一些图表问题,解题时往往需要制作图表,或从给出的图表中读取有关信息,因此解决统计问题必须要用好图表,且要重视数形结合法的应用。
例4理论预测某城市2020年到2024年人口总数与年份的关系如表1所示。
表1
(1)请画出表中数据的散点图。
(2)指出x与y是否线性相关。
(3)若x与y线性相关,请根据表中提供的数据,用最小二乘法求出y关于x的回归方程=bx+a。
(4)据此估计2025年该城市的人口总数。
(参数数据:0×5+1×7+2×8+3×11+4×19=132,02+12+22+32+42=30)
解:(1)画出表中数据的散点图,如图2所示。
图2
(2)由散点图可知,样本点大致分布在一条直线附近,故x与y呈线性相关关系。
对两个变量进行研究,通常是先作出两个变量间的散点图,根据散点图直观判断两个变量是否具有线性相关关系,如果具有线性相关关系,就可以应用最小二乘法求出线性回归方程。由于样本可以反映总体,所以可以利用所求的线性回归方程,对这两个变量所确定的总体进行估计,即根据一个变量的取值,预测另一个变量的取值。