蔡卉
为了解决现实生活中我们碰到的很多问题,必须收集相关数据并加以分析. 然而从节约费用等方面考虑,一般是从总体中收集部分个体的数据得出结论,也就是要通过样本情况去推断总体情况. 为了使样本具有好的代表性,设计抽样方法时,最重要的是要将总体“搅拌均匀”,即使每个个体有相同的机会被抽中.
随机抽样即是建立在随机原则基础上,从总体中抽取部分进行收集数据的方法,是统计学的基础,常用抽样方法有简单随机抽样、分层抽样和系统抽样三种. 这三种抽样方法各有特点,在使用这三种方法时,只有准确把握它们之间的联系与区别,才能准确、合理地从总体中抽取样本. 本文结合具体实例对三种抽样方法的区别与联系加以叙述.
一、简单随机抽样
若总体中没有差异明显的层次,一般优先考虑采用简单随机抽样.当总体容量较小时,宜用抽签法;当总体容量较大,样本容量较小时宜用随机数表法.
例1 为了考查某校的教学水平,抽取这个学校高三年级部分学生本学年考试成绩进行考查. 为了全面地反应实际情况,采取以下三种方式进行抽查:(已知该校高三年级共有20个教学班,并且每个班内的学生已经按随机方式编号了学号,假定该校每班学生人数都相同.)
(1)从全年级20个班中任意抽取一个班,再从该班中任意抽取20人,考查他们的学习成绩;
(2)每个班都抽取1人,共计20人,考查这20名学生的成绩;
(3)把学生按成绩分成优秀、良好、普通三个级别,从中共抽取100名学生进行考查.(已知若按成绩分,该校高三学生中优秀生共150人,良好生共600人,普通生共250人.)
上面三种抽取方式中各自采用何种抽样方法?
解析 第一种情况由于总体样本较少,宜采用简单随机抽样;
第二种情况由于总体样本较多,并且总体中没有明显差异,宜使用系统抽样法和简单抽样法相结合;
第三种情况由于总体中由成绩差异明显的三层构成,所以宜使用分层抽样法和简单随机抽样法.
二、系统抽样
系统抽样相对于简单随机抽样最主要的优势就是经济性,系统抽样方式比简单随机抽样更为简单,花的时间更少,并且花费也少.但使用系统抽样方式最大的缺陷在于总体单位的排列上,系统抽样所得样本的代表性和具体编号有关(简单随机抽样所得样本的代表性与个体的编号无关),如果编号的个体特征随编号的变化呈现一定的周期性,可能会使系统抽样的代表性很差.
例2 某单位在岗职工人数为624人,为了调查工人上班时从离开家到单位平均所用的时间,决定抽取[10%]的工人进行调查,试问最好采用什么抽样方法完成这一抽样?如何抽取?
解析 由于在岗职工没有明显差异,并且总体人数较多,故适宜采用系统抽样法.首先,将在岗的职工624人用随机方式编号:000,001,002,…,623;第二步,由题知应抽取62人的样本,应为[62462]不是整数,所以应从总体中剔除4人(由于总体容量较多,样本容量较少,故剔除方法宜用随机数表法),将余下的620人,重新编号为000,001,002,…,619分成62段,每段10人,在第一段000,001,002,…,009这十个编号中,用简单随机抽样选取一起始号[i0],则编号[i0,i0+10,i0+20,…,i0+61×10]为所取的样本.
三、分层抽样
若总体是由差异明显的几个层次组成,则宜用分层抽样,当抽样比与各层的个体数的乘积是整数时,则该积就是该层的抽样数;当抽样比与各层个体数的乘积不是整数时,则该积经过四舍五入后就是该层的抽样数.
例3 选择合适的抽样方法抽样,并写出抽样过程.
(1)有30个篮球,其中甲厂生产的有21个,乙厂生产的有9个,抽取10个入样;
(2)有甲乙厂生产的30个篮球,其中一箱21个,另一箱9个,抽取3个入样;
(3)有甲乙厂生产的300个篮球,抽取10个入样;
(4)有甲乙厂生产的300个篮球,抽取30个入样.
解析 应结合三种抽样方法的使用范围和实际情况,灵活地使用各种抽样方法解决问题.
(1)总体由差异明显的几个层次组成,故选用分层抽样法.
第一步,确定抽取个数.因为[1030]=[13],所以甲厂生产的应抽取21×[13]=7(个),乙厂生产的应抽取9×[13]=3(个);
第二步,用抽签法分别在甲厂生产的篮球中抽取7个,在乙厂生产的篮球中抽取3个,这些篮球便组成了我们要抽取的样本.
(2)总体容量较小,样本容量也小,用抽签法.
第一步,将30个篮球编号,编号为00,01,02,…,29;
第二步,将以上30个编号分写在大小形状相同的小纸条上,揉成小球,制成号签;
第三步,把号签放入一个不透明的袋子中,充分搅匀;
第四步,在袋子中逐个抽取3个号签,并记录上面的号码;
第五步,找出和所得号码对应的篮球即为要抽取的样本.
(3)总体容量较大,样本容量较小,宜用随机数表法.
第一步,将300个篮球用随机方式编号,编号为:001,002,003,…,300;
第二步,在随机数表中随机确定一个数作为开始,如第8行第29列的数“7”,任选一个方向作为读数方向,比如向右读;
第三步,从数“7”开始向右读,每次读取三位,凡不在001~300中的数跳过去不读,遇到已经读过的数也跳过去不读,便可依次得到286,211,234,297,207,013,027,086,284,281这10个号码,这就是所要抽取的10个样本个体的号码.
(4)总体容量较大,样本容量也较大,宜用系统抽样方法.
第一步,将300个篮球用随机编号,编号为:000,001,002,…,299,并均分成30段;
第二步,在第一段000,001,002,…,009这十个编号中用简单随机抽样抽出一个(比如002)作为起始号码;
第三步,将编号为002,012,022,…,292的个体抽出,组成样本.
总体来看,三种抽样方法在抽样过程中,每个个体被抽到的机会都相等且都是不放回抽取. 简单随机抽样是最基本的抽样方法,适用于总体容量较少的样本,从总体中逐个抽取;系统抽样适用于总体容量较多但单个体差异不大的样本,将样本总体分成几部分,再按预先定出的规则部分抽取;分层抽样适用于由差异明显的若干部分组成的样本,将总体分成几部分,每一部分按比例抽取. 在学习此部分内容时,应该明晰三者间的差别,从而在解题过程中有针对性地使用.
[练习]
1.一个单位有职工500人,其中未到35岁的有125人,35到49岁的有280人,50岁以上的有95人,为了了解这个单位职工与身体状况有关的某项指标,要从中抽取一个容量为100的样本,试问:应用什么方法抽取?能在500人中任意抽取100人吗?能将100个份额均分到这三个部分中吗?
2.某社区有500个家庭,其中高收入家庭125户,中收入家庭280户,低收入家庭95户,为了调查社会购买力的某项指标,要从中抽取一个容量为100户的样本记作①;某学校高一年级有12名女排球运动员,要从中选出3人调查学习负担情况,记作②. 那么完成上述两项调查采用的抽样方法分别是什么?
3. 某学校附近的一家小型超市为了了解一年的客流量情况,决定用系统抽样法从一年中抽取52天作为样本实施调查(即从每周抽取1天,一年恰好有52个星期),你觉得这样的选择合适吗?为什么?
4. 假设甲、乙两种品牌的同类产品在某地区市场上销售量相等,为了解它们的使用寿命,现从这两种品牌的产品中分别各随机抽取100个进行测试,结果统计如下:
(1)估计甲品牌产品寿命小于200小时的概率;
(2)这两种品牌产品中,某个产品已使用了200小时,试估计该产品是甲品牌的概率.
5.为了调查某学校的教学水平,将抽取这个学校高三年级的部分学生本学年的考试成绩进行调查。为了全面反映实际情况,采取以下三种方式进行抽查(已知该学校高三年级共有20个班,并且每个班内的学生按随机方式编好了学号,假定该学校每班学生人数都相同):
(1)先从全年级20个班中任意抽取1个班,再从该班任意抽取20人,考查这20人的学习成绩;
(2)从每个班中各抽取1人,共计20人,抽查这20人的成绩;
(3)把学生按成绩分成优秀、良好、普通三个级别,从中抽取100名学生进行调查(若按成绩分,则该校高三学生中优秀生共150人,良好生共600人,普通生共250人).
根据上面的叙述,试分别写出三种抽查方式各自抽取样本的步骤.
[参考答案]
1. 适宜选用分层抽样法.因为总体中的个体年龄有比较明显的差异,所以不能在500人中任意抽取100人,又因为各部分的人数占总体的比例不同,所以也不能将这100个份额均分到三部分中.
2. 由于①中总体容量较大,并且家庭收入差异明显,宜使用分层抽样;②中总体容量较小,宜采用简单随机抽样.
3.从顾客类型及顾客作息时间等方面进行分析,看每周相同的一天是否能很好地反应总体.这个选择不合适,因为超市位于学校附近,其顾客多为学生,其客流量受到学生作息时间的影响,周末时,客流量会明显减少,寒、暑假也会影响超市的客流量,这样必然导致样本不能很好地反映总体,正确的方法是利用简单随机抽样或分层抽样进行抽样,可以把一周分为7天,一年分为52层,每层用简单随机抽样的方法,抽取适当的样本.
4.(1)甲品牌产品寿命小于200小时的概率为[14].
(2)已使用了200小时的该产品是甲品牌的概率为[1529].
5.第一种抽样方式的步骤如下:
第1步,在这20个班中用抽签法任意抽取1个班;
第2步,从这个班中用简单随机抽样的方法抽取20名学生,抽查其考试成绩.
第二种抽样方式的步骤如下:
第1步,在第1个班中,用简单随机抽样的方法抽取一名学生(其学号为a);
第2步,在其余的19个班中,选取学号为a的学生,共计20人.
第三种抽样方式的步骤如下:
第1步,分层.因为若按成绩分,其中优秀生共150人,良好生共600人,普通生共250人,所以在抽取样本时,应把全体学生分成3层;
第2步,确定各层抽取的人数.因为样本容量与总体的个体数之比为100∶1000=1∶10,所以在各层抽取的个体数依次为15,60,25;
第3步,按层次分别抽取.分别在优秀生、良好生、普通生中用系统抽样的方法各抽取15人、60人、25人.