时 涛
(泰山医学院统计学教研室,山东 泰安 271016)
美国从1790年开始就每十年普查一次,但是科技日新月异,全国性普查很有可能找到替代品。丹麦没有普查,法国也准备取消普查。美国社区调查已经开始,而且繁式调查问卷在2000年之后就已经逐渐取消了[1]。从时间和金钱角度来考虑,抽样调查来得更快捷和节约。而抽样调查的一个关键问题就是样本量的科学确定,即多大的样本量才能更好的估计总体信息。
样本量就是样本中所包含的单位的个数,即抽样个体数。样本量直接影响抽样误差、调查的费用、调查所需的时间、调查访员的数量以及其他一些重要的现场操作的限制条件。样本量过大,会造成人力、物力和财力的浪费;样本量过小,会造成抽样误差增大,影响抽样推断的可靠程度。需要多大的样本量,这是调查管理人员必须明确的问题。
1.1要考虑的因素
影响样本量的因素首先是估计值要求达到的精度。估计量的抽样误差越小,则估计值越精确。因此,随着抽样方差的不断减小,估计值的精度就会逐渐提高,所需的样本量相应也就越大。总体指标的变异程度、总体大小、样本设计和所使用的估计量、回答率都会影响精度,从而影响样本量。在计算样本量的公式中,具体涉及如下几个因素。
(1)抽样推断的可靠程度。要求推断的可靠程度越高,概率度的数值越大,抽样单位数也就要求多些;反之,则可少抽一些。
(2)总体标志变异程度。方差大,需要多抽一些;方差小,可少抽一些。
(3)极限误差的大小。极限误差大可以少抽些,极限误差小则应多抽些。
(4)抽样方法与组织方式。在相同条件下,重复抽样需要多抽一些,不重复抽样可少抽一些。
(5)实际调查运作的限制(人力、物力和财力的可能条件)。客户提供的经费能支持多大的样本?调查持续的时间有多长?需要多少访员?能招聘到的访员有多少?在确定调查最终所需的样本量时,还必须考虑样本量计算公式没有涉及到的这些限制。
1.2精度及其影响因素
调查估计值的精度与样本量是紧密相关的:随着样本量的增加,调查估计值的精度也会不断提高,换句话说,对应估计量的抽样方差就会不断减少。所以,样本量取决于调查估计值所要求的精度,而精度又受以下因素影响。
1.2.1总体的变异程度
在调查总体中,我们所研究的变量或指标随着个人、住户、企业或农场等的不同而不同。虽然我们不能控制这种变异性,但它的大小却影响给定精度水平下对研究指标估计所必需的样本量。若总体指标变异性很大,或具有所研究特征的单元数量很少,要求精确估计是很困难的,需要较大的样本量。因此,为确定调查所需的样本量,需要得到目标总体的研究指标变异程度的估计值。因为通常情况下变异的真值是未知的,所以需要从过去相关主题的调查或从试调查中得到它的估计。
一旦实施调查,统计调查机构就会认识到,如果所研究指标的实际变异程度大于确定样本量时估计的变异程度,那么调查估计值的实际精度就会低于期望的精度。相反,如果所研究指标的实际变异程度比所估计的变异程度小,调查所得到的估计值会比预计的更精确。
为确保达到调查要求的精度,在计算样本量时,一般对某一指标的总体变异程度采用较为保守的估计。即在实际中如果事先不知道调查中要测量指标变异程度的数据,那么就假定研究指标具有最大的变异程度。例如,对于二元变量(如成数估计),一般假定总体中该变量的变异程度为最大,即假定P=0.5。
抽样调查时,调查指标通常不止一个,指标的变异程度一般不相同。对某一指标来说足够大的样本,对变异程度更大的另一个指标来说可能就偏小。因此,为确保样本量对所有的研究指标都足够大,应该根据最大变异程度或被认为最重要的指标,来确定样本量。
1.2.2总体大小
在样本量确定过程中,总体所起的作用因它的大小而有所差异。对于小规模总体,它起着重要作用,而大总体对样本量影响的作用很小。
表1 总体大小与所需样本量(P=0.5)
表1是要求在置信度为95%下,误差限为0.05,用简单随机抽样估计P,对应总体大小所需的样本量(取P=0.5计算)。由表1可知,为达到要求的精度水平,随着总体大小的增加,样本量增加的比率逐渐减小到零。对于单位数为50的调查总体,需要44个有效单位的样本,而对两倍于此的调查总体,并不需要将样本量翻倍。对于N=5000或更多的调查总体,所需的样本量快速地逼近n=400。因此对于简单随机抽样,在真实总体比例是P=0.5的情况下,400份有效问卷对于大于5000的总体,已足以满足给定的精度要求。
对于很小规模的总体,通常必须调查较大比例的样本,以取得所期望的精度。因此在实际操作中,对小规模总体经常采用普查。
1.2.3样本设计和估计量
计算样本量时,通常假定采用的抽样为简单随机抽样。对于同样大小的样本及同一估计量,当使用复杂的样本设计时,估计量可能比简单随机抽样精确,也可能没有简单随机抽样精确。当估计值更精确时,所采用的样本设计更为有效。如果在确定样本量时是按简单随机抽样公式计算的,那么应考虑实际使用抽样设计的效率,需要对它进行调整。
在分层抽样中,一方面当分层的变量与调查指标相关时,所得的估计通常比相同样本量的简单随机抽样更精确,或者至少一样精确。另一方面,因为群内相邻单元通常比较相似,所以整群抽样估计的精度通常低于使用同一估计量进行估计时简单随机抽样的估计值的精度。一般来说,当样本量采用简单随机抽样的计算公式,而实际使用的是更复杂的抽样方式时,为达到给定精度所需的样本量,应该在此基础上乘以一个设计效应因子。设计效应是对于相等的样本量,给定样本设计估计量的抽样方差对简单随机抽样估计量的抽样方差的比率。对于简单随机抽样设计,设计效应等于1;对于分层抽样设计,设计效应一般小于1;对于整群抽样设计,设计效应一般大于1。若过去相同或相似主题的调查所用的抽样设计与我们计划实施的抽样设计相同或相似,就能得到当前调查主要变量设计效应的估计值,也可以从试调查中得到设计效应的估计值。
1.2.4调查的回答率
调查回答率是用回收到的有效问卷数与计划样本量的比来表示的。产生无效调查问卷的原因主要有:样本单元超出调查范围;在住户调查中,住宅是可居住的却无人居住(是空的);样本单元没有回答。为了达到估计要求的精度,调查机构需要根据预计的回答率调整样本量的大小,根据预计的回答率确定一个较大的样本才可能达到精度要求。预计的回答率是依据对同一总体的小范围的试点调查或者过去类似的调查得到的。例如,如果根据计算,初始样本量是400,预计回答率为60%,那么样本量就应该定为:n=400/0.60=667。
调查机构一旦与客户确定了某一回答率,就必须尽最大努力保证达到这个回答率。如果不能达到所预期的回答率,就会影响调查结果的精度。实际回答率偏低会导致有效样本单位数小于精度所需要的样本单位数。
为了妥善处理无回答,并不能只简单地增加样本量。因为在调查中,如果拒绝回答者与回答者在所研究指标上存在显著的差异,就会产生估计的偏误。1936年美国杂志《文学文摘》在进行关于美国总统选举的调查时,就出现了这方面的问题。
假设回答率是100%,在简单随机抽样下,通常使用误差限和估计量的标准差来确定所需的样本量。例如,在调查中常用的不放回简单随机抽样情况下,总体均值估计量的标准差(即抽样平均误差)的表达式为:
极限误差为:
对于简单随机抽样,给定成数估计p的精度,将方差p(1-p)代入公式即可。若在以往调查中可得总体成数的一个较好估计p,那么直接将它代入公式就可以得到所需的样本量;否则可以用p=0.5,因为这时总体的方差最大。
如果抽样不是简单随机的,那么在计算样本量时,还需要对抽样设计的设计效应B的估计值,若回答率小于100%,还需要一个回答率的估计值r。
如果调查涉及到许多研究域,并要对每一子总体确定精度要求,则可能会使总样本量显著增大,并可能导致样本量超出客户的预算和现有资源的承受能力。一般来说,要求估计的域越多,需要的样本量就越大。因此需要在精度与费用之间进行折衷,以保证估计的误差在可接受的范围之内。通过增大每一层估计值的允许误差,或合并其中某些域,使精度和费用达成平衡。
总之,样本量的确定基本原则就是:精度一定条件下费用最省;费用一定条件下精度最高。
[1] 戴维S穆尔.统计学的世界[M].北京:中信出版社,2003:96.
[2] 冯士雍.抽样调查理论与方法[M].北京:中国统计出版社,1999:24.