广东省广州市第十六中学(510080) 何嘉颖
对比旧人教A 版、新人教A 版、新人教B 版以及旧北师大版、新北师大版五个版本教材中分层随机抽样的定义,可以发现五个不同教材的分层随机抽样的定义都有涵盖两个与分层随机抽样相关的特点:一是把总体分为互不相交的层,二是在每层中进行随机抽样.
其中,新人教A 版与其他四个课本定义有明显区别.一是四个课本定义中都对进行分层随机抽样时各层应如何抽样作了说明,即对每层抽样时除了要进行随机抽样,还强调需要“按一定比例”进行抽样.二是新人教B 版还具体描述了“按一定比例”进行抽样的具体操作,即“按层在总体中所占比例”进行抽样.三是新人教A 版没有对各层应如何抽样作说明,但提及了一个分层随机抽样时的分配方式“比例分配”.
从教材的内容来看,其他四个课本定义中所强调的“按一定比例”进行抽样都是指“比例分配”.也就是说,新人教A版是一个包含其他四个课本定义内涵的更广义上的分层随机抽样定义,即分层随机抽样对各层的抽样方式有多种,“比例分配”是其中一种方式.新人教A 版所给出的分层随机抽样定义与大学教材中的定义一致,除“比例分配”(按层权分配)外,分层随机抽样还有Neyman 分配(按层权与层标准差的乘积成正比分配)、最优分配(按估计量方差达到最小分配)、不按比例分配等.分层随机抽样的本质是按照一定的方式得到更能反映总体,更能反映实际的样本.
《普通高中数学课程标准(实验版)》和旧教材对分层随机抽样的要求不高,分层随机抽样的概念是“比例分配”下分层随机抽样定义,主要是让学生掌握比例分配下各层样本量与总体的关系,学会进行比例的换算.《普通高中数学课程标准(2017年版)》对分层随机抽样的要求有所提高,包括增加了分层随机抽样的样本均值和样本方差,但侧重点仍在“比例分配”下的分层随机抽样.
新人教A 版除了增加了均值和方差计算外,其对分层随机抽样定义本身的要求也有所强化.即需要知道分配方式有多种,按不同分配方式可以得到不同的样本,且这些样本的获得均是可行的;需要区别按比例分配与其他分配方式下样本均值与方差估计总体的意义.
新课程标准和新人教A 版对分层随机抽样的要求转变对教师的教学以及学生有关分层随机抽样的学习提出了新的要求.教师需重视对新课程标准与新教材的研究与学习,改变自己对分层随机抽样的固有看法.除了补充有关分层随机抽样的样本均值和样本方差外,还需要着重理解不同分配方式下样本的关系以及这对样本均值和样本方差估计总体的影响.
以下提供简单两个例子用于理解不按比例分配分层抽样的现实意义.
例1某大学有男生2000 人,女生3000 人,本月举办了一个人数为500 人的交友配对活动(一男一女为一对),参加该活动的男女生各250 人.活动结束后对500 人进行了问卷回访;并以此估计全校学生对举办该类活动的认可情况.
在该例中,由于是“一男一女的配对活动”,因此样本无法实现按比例分配.
例2某学生正进行某项针对全校学生的、与性别相关的研究性学习,需对全校进行问卷调查.该生通过自己的朋友圈进行问卷发布,受该生朋友圈扩散限制,回收的问卷共100 份,其中男生10 份,女生90 份.全校男生600 人,女生400 人.受研究截止时间限制,该生只能对已回收的100 份问卷进行数据分析,并以此估计全校学生的情况.
在该例中,样本与总体并非按比例分配,且总体中男生人数多于女生人数,但样本男生人数少于女生人数,因此用该样本估计总体会有较大误差;但在现实中受各方面因素所限,常会出现该例的情况.教师可利用此例让学生理解它的现实意义,并引导学生思考如何优化方案以及方案是否合理性,如扩大样本量,剔除女生样本或增加男生样本以达到比例分配等.
从分层随机抽样样本均值和总体均值的计算公式看,对分层随机抽样的均值计算是对各层平均数进行加权平均数;其中权重为各层个体数在总个体数的占比.
由于新人教B 版和新北师大版两版教材对分层随机抽样的定义局限于“比例分配”,因此所给出的样本平均数可直接估计总体平均数,即两版教材并没有过多探究分层随机抽样样本均值估计总体的意义,而只侧重于公式的计算.
新人教A 版中分层随机抽样定义包括了“按比例分配”和“不按比例分配”两种,因此均值计算涉及许多相关量,且与分层随机抽样有关的均值也有多个,包括总体的均值、总体中各层的均值、样本的均值、样本中各层的均值,如以层数为2 为例,涉及6 个均值计算.在这6 个均值计算中,只要分配方式确定,都可以相应计算出各自的均值;并且由分层随机抽样的定义,各层的样本均值都可以估计对应层的总体均值.而问题的核心在于总样本的均值并不一定可以估计总体的均值;对大多数的分配方式,总体的均值是对各层样本平均数进行加权平均,而权重为各层总个体数在总个体数的占比;只有在“按比例分配”下,总体均值恰好可用总样本均值进行估计.
例(新人教A 版第184 页练习3)[1]高二年级有男生490 人,女生510 人,张华按男生、女生进行分层,通过分层随机抽样,得到男生、女生的平均身高分别为170.2cm 和160.8cm.
(1)如果张华在各层中按比例分配样本,总样本量为100,那么在男生、女生中分别抽取了多少名? 在这种情况下,请估计高二年级全体学生的平均身高;
(2)如果张华从男生、女生中抽取的样本量分别为30 和70,那么在这种情况下,如何估计高二年级全体学生的平均身高更合理?
分析(1)中明确指出这是按比例分配样本,因此对全体学生平均身高的计算既可以使用也可以使用(2) 中所给男生和女生的样本量明显不是比例分配样本,因此对全体学生平均身高的计算只可以使用若使用估计,则163.62,此时会出现较大误差.
对比三个版本对分层随机抽样均值的介绍,都有体现分层随机抽样下样本均值计算的公式推导,以及用它对总体均值的估计.在教学中,对样本均值公式的推导、其中涉及的多个相关量的关系的梳理以及样本均值公式的意义都是教学的重点.此外,针对新人教A 版分层随机抽样均值,除了对样本均值公式本身的推导以及意义的解释外,应说明只要知道各层样本量,都可以计算样本的均值,只是所得均值并不一定能用于估计总体均值; 应说明总体均值计算公式与一般情况下分层随机抽样均值计算公式的关系,即可以用来估计总体均值;应说明在按比例分配下总体均值计算公式与分层随机抽样均值计算公式的关系,即可以直接用样本均值估计总体均值.
教师在教学中,可注重分层随机抽样均值计算公式的推导并在推导过程中加入对公式含义的理解;可以给出不同形式的例子以便学生在熟悉均值计算公式的计算;还可以结合实际情境来判断计算所得均值是否能更合理反映总体的情况.如对“新人教A 版第184 页练习3”进行改编,给出例子中1000 位学生的身高数据;给出某种分层随机抽样下样本的身高数据,让学生进行计算与探究.
值得注意的是,在用分层抽样的样本均值估计总体均值时,无论是按比例分配还是不按比例分配的情况,对各层总体均值都默认可用各层样本均值进行估计.即默认简单随机抽样中样本均值可估计总体均值;对这一性质,课本在简单随机抽样一节仅以“在简单随机抽样中,我们常用样本平均数去估计总体平均数”说明,但没有阐述本质原因.实际上,这一性质涉及统计学中点估计的无偏性,即“对任意总体而言,样本均值是总体均值的无偏估计”.但对学生而言,这一性质超出了课程标准的要求范围,因此没有进行阐述而是作为一个默认性质给到学生.但教师在教学中需要理解这一性质的原理,以及“样本方差并不是总体方差的无偏估计”,以便理解教材在对分层抽样方差的阐述中不类比均值来阐述的原因.
在新北师大版教材中,以一实际例子(新北师大版必修第一册P171 例6)出发,给出了层数为2 时样本方差的计算过程,并抽象概括出方差的一般计算公式以及推导过程.
在新人教B 版教材中,以一实际例子(新人教B 版必修第二册P79)出发,直接给出了层数为2 时样本方差的计算公式,但并没有给出公式的推导过程;还给出了样本方差的变形公式.
在新人教A 版教材中,以一实际例子(新人教A 版必修第二册P212 例6)出发,给出了层数为2 时样本方差的推导过程,但没有抽象概括出一般计算公式;在新人教A 版P216的习题9.2 第十一题给出了在分层随机抽样中,层数分为3层时样本方差的一般计算公式.
在各个版本教材中都只给出了样本方差的计算公式,并直接用该样本方差直接估计总体方差;而没有给出总体方差的计算公式,以及在不同分配方式特别是按比例分配下的样本方差与总体方差的联系.这与样本方差并不是总体方差的无偏估计有关.
例(新人教A 版214 页练习5)[1]某学校有高中学生500 人,其中男生320 人,女生180 人.有人为了获得该校全体高中学生的身高信息,采用分层抽样抽取样本,并观测样本的指标值(单位:cm),计算得男生样本的均值为173.5,方差为17,女生样本的均值为163.83,方差为30.03.
(1)根据以上信息,能够计算出总样本的均值和方差吗?为什么?
(2)如果已知男、女样本量按比例分配,你能计算出总样本的均值和方差各为多少吗?
(3)如果已知男、女的样本量都是25,你能计算出总样本的均值和方差各为多少吗? 它们分别作为总体均值和方差的估计合适吗? 为什么?
分析(1) 总样本的均值和方差都需要知道各层的样本量才可以计算,因此不能够计算出总样本的均值和方差.(2) 中明确指出这是按比例分配样本,因此总样本的均值总样本的方差.(3) 可以计算总样本的均值和方差,46.892.但是它们不能作为总体均值和方差的估计.
方差是样本各值与平均数差的平方的加权平均数,反映数据的偏离程度.由则其中,可理解为各层方差的加权平均数,可理解为各层平均数与总体平均数的方差.分层抽样中的方差受到各层内样本和层与层之间的分配两方面因素影响,一般把称为层内方差,把称为层间方差;因此在统计学中,分层抽样的方差一般可分解为组间方差与组内方差之和.
在教材中只给出了直接用样本方差来估计总体,而并没有给出总体方差的计算公式,以及样本方差与总体方差的联系.下文将给出两种样本方差估计总体方差的方案.
方案一在分层随机抽样中,若层数分为2 层,第1、2 层包含的个体数分别为M和N,第1、2 层的总体平均数分别为,,总体平均数为,设总体方差为S2,第1、2 层的总体方差分别为S21,S22,则S2=
上述方案使用了课本所给的方差定义(S2=进行分层抽样方差公式的推导; 同时在方案中,用各层样本方差作为各层总体方差的估计.但从统计学的角度,该方差并非对总体方差的无偏估计,即用该样本方差并不能准确的估计总体方差.
方案二
定义设x1,x2,...,xn为取自某总体的样本,则它关于样本均值的平均偏差常用作为样本方差,也称无偏方差[2].它是总体方差的无偏估计.
用无偏方差定义给出相应的分层随机抽样方差计算公式,下文所涉方差均为无偏方差.
在分层随机抽样中,若层数分为2 层,第1、2 层包含的个体数分别为M和N,第1、2 层的总体平均数分别为,,总体平均数为,设总体方差为S2,第1、2 层的总体方差分别为S21,S22,则
由此可见,在无偏方差下,不能直接由总样本方差估计总体方差;但可由各层样本方差及抽样比估计总体方差.此外,当抽样比是按比例分配时,总样本方差最小.
命题设从均值为µ,方差为σ2>0 的总体中分别抽取容量为n1和n2的两独立样本,和分别是这两个样本的均值.对于任意常数a,b(a+b=1),Y=+都是µ的无偏估计,且当时,使D(Y)的方差达到最小.
证明易知,由于且则有=aµ+bµ=(a+b)µ=µ,Y是µ的无偏估计得证.由于两样本独立,D(Y)=由a+b=1,D(Y)=则令则得证.
从分层随机抽样方差的计算公式可见,无论是公式的推导,记忆,理解,还是公式的计算与应用都是教学的难点.此外,针对新人教A 版的内容,直接用样本方差估计总体方差时所用到的是样本平均数,即无论是否按比例分配,所使用的都是样本本身的样本量;这与用样本平均数估计总体平均数时,使用的是总体比例不同.
面对新教材中的这一大变化,教师在教学中需做好备课工作,课前要对分层随机抽样方差计算公式的推导、理解、应用理解透彻;考虑到计算公式的抽象性,符号字母的多样性,应考虑对教材例题进行适当设计,如先减少样本量,让学生考虑样本量很小(如样本量为10)时,应如何计算样本方差,从中归纳概括出样本方差的计算公式.而对样本方差的计算公式推导,由于涉及求和符号以及相应的运算性质,学生在此前并未接触,因此容易使学生产生障碍.因此应考虑学生的层次进行选择,如在让学生根据例子自行归纳出计算公式后,直接类比给出公式而不推导(新人教B 版),或在拓展出另外补充推导过程但不具体细致讲解,而是分析相关思路(新北师大版),或利用具体例子进行推导(新人教A 版).在推导时应考虑尽量避免求和符号的使用,或者应在前期教学中对求和符号及运算性质进行训练或熟悉,以避免求和符号造成的障碍.此外,结合新课程标准对学生核心素养以及思维的培养与拓展,教师也可设计问题串引导学生探究样本方差估计总体方差的优化方案,以加深学生对方差的理解.