对多目标抽样的再认识

2013-02-14 13:52:55杨光辉
统计与决策 2013年8期
关键词:总体辅助样本

杨光辉

(深圳大学经济学院,广东 深圳 518060)

0 引言

经典的抽样调查理论与方法都是围绕单目标抽样调查框架发展的,多目标(多主题)抽样调查,就是指对众多的调查指标的调查,是借助于单目标抽样中比较成熟的技术发展起来。在各种抽样调查实践中,系统地展现多目标抽样的特点和分类的研究尚未见到,相关研究散见于各种单目标抽样理论与实践中,并将其作为特殊情况进行简单讨论,原因在于多目标抽样调查的复杂性给深入研究带来很大困难。虽然多目标抽样调查的复杂性增加和规范理论基础不够完善,所能提供的答案不能达到所提出问题的等级和复杂要求,实践上还不够规范,但多目标抽样调查在操作上的经济,获取多变量目标结果的丰富,其优点超过缺点,使人们广泛地运用多目标抽样调查,并且在满足现实需要的基础上逐步扩大运用领域。

在我国现行统计调查体系中,各级(国家、省、市、县(区)、乡)都需要抽样调查数据,以掌握本级行政区域内的各种经济社会发展资料,按现时普遍采取的做法,就是层层增加样本量。各级抽样调查在基层的抽样选点不相同,指标要求、上报时间等方面不一样,使得基层工作十分繁重,导致抽样调查工作的效率不高。且不说样本量的层层加码,在理论上是否科学,就增加样本量这件事本身还涉及到经费问题。针对服务于不同管理部门的抽样调查,针对满足不同调查目标要求的抽样调查,以减少重复浪费,同时还要提高数据的准确性,以发挥多目标抽样调查的作用推上了统计工作者的重要日程中。

1 多目标抽样问题的产生

多个目标抽样调查如果采用各自的目标,分别进行抽样设计,借助严格的单目标抽样调查理论,是可以获得理想的结果。然而,现实中人们在开展抽样调查中并非仅仅要获得单一目标的数据,许多指标的调查不是分开进行的。

有些抽样调查中设计的调查表反映的指标多、范围广,虽然是一次性调查,但表现为多个目标抽样调查的特点;有些本属于不同的调查,考虑到成本问题,在调查中将它们捆在一起,通过共同的样本单位,减少调查样本的容量,实现节约成本的目的,构成多目标抽样调查;还有一些是通过不同的调查结果,经过一定的组合整理,或者通过增加样本单位等方法实现了其它目标的抽样调查目的,也就是变相的多目标抽样调查。在多目标抽样调查中,除了自身依然存在单目标抽样的各种问题外,还增加了许多新的问题。

从抽样调查目的看,有的是各目标之间存在相关性,为了研究各目标之间的关系而开展多目标抽样调查;有的是各目标的抽样单位和抽样框相同,为了避免不必要的浪费和节约经费,常常将各目标结合起来调查;甚至于为降低调查成本,将关系并不密切的各目标结合在一起展开调查。

从抽样调查工作的内容上看,多目标抽样调查工作过程增加了以下内容:首先要明确各目标的不同要求,在众多目标中,有些是主要目标,有些是次要目标,有些调查指标是辅助性的。第二是确定多目标之间的关系,在各目标要求明确情况下,目标之间存在一定的联系,目标之间的关系对抽样设计有重要的影响。第三是确定各目标与总体之间的关系,由于各目标都有各自的总体,各总体的特征与各目标之间的关系会影响抽样设计。

从抽取的样本看,有必要澄清样本与样本单位的概念。在单目标抽样理论中,样本常常与样本单位不分的,原因是样本单位仅仅负担该单目标的信息,或者说,即使该样本单位包含有其它信息,但分析中仅将针对该目标的信息单独拿出来作为统计推断中的样本。但在多目标抽样理论中,我们必须将样本和样本单位概念区分开来。因为多目标抽样实践中,抽取的是包含各目标信息的样本单位,而不是样本,此时的样本是要依据不同的目标从样本单位中获得的。有些目标的样本来自所抽取的全部样本单位,有些目标的样本可能是从所抽取的样本单位中再抽样获得的。

从多目标抽样的调查总体看,总体的概念也需要与单目标抽样总体区分开来。通常说来,调查所针对的总体是从构成总体单位的角度理解的,此时,多目标调查的各目标总体是一致的。从单目标抽样看,各种针对不同目标的抽样应当有不同的总体,各目标所对应的总体存在差异,各目标总体的分布特征不同。由此,针对多目标的资料收集方法就不同,特别是多目标抽样框的确定成为不易处理的工作,进而,抽样方法的选择和样本量的确定变得复杂。。

在我国现已开展的抽样调查实践中,占绝大多数的是多目标抽样调查。至今能够用数理方法证明完全合理的多目标抽样调查方案很少。对于大多数抽样调查方案所需几十、上百个指标,目前被抽中的样本单位(采用单目标抽样方法)对每个被调查指标是否都具有代表性,推断的误差是否合理等,都没有得到合理地解释。

在多目标抽样调查的理论实践中,什么是多目标抽样以及由此产生的问题尚未得到系统阐述。有关的概念并不明确,哪些属于多目标抽样调查的范畴?存在哪些需要注意的问题?如何看待和处理各种形式的多目标抽样问题?多目标抽样还存在许多没有解决的理论问题,实践中也存在许多具体操作问题等等。

2 多目标抽样的实质与再认识

2.1 多目标抽样的实质

理论上多目标抽样概念是相对于单目标抽样的。到底什么是多目标抽样呢?有关文献中对多目标抽样采用了如下的定义:抽样调查按照其估计指标数量的多少分为单目标抽样和多目标抽样。单目标抽样是在一次调查中估计目标只有一个,即利用一套样本只估计总体的一个指标。多目标抽样,也称多主题抽样、多指标抽样,它是在一次调查中估计目标有两个或两个以上,即利用一套样本估计总体的两个或两个以上的指标。

单目标抽样总体的概念有两个,一是目标总体,二是抽样总体,为了解释方便,我们都假定抽样总体与目标总体是一致的,简称总体。但在多目标抽样中总体有两种理解,一是指构成总体单位的集合,二是指某一标志的所有标志值的集合,在多目标抽样条件下,针对各目标的总体是不同的,其抽样框也不同。但在抽样调查实践中,人们对总体进行调查,并从各调查单位中获得各目标的数据,总体的含义在此属于第一种,此时,多目标抽样总体中的单位担负着多目标的信息。

多目标抽样必须有一个可以进行统计推断的抽样框,它包括具体的目录以及能够计数的全部抽样单位,抽样框的构造和确定是多目标抽样设计中面临的最困难问题之一。

按照与多目标之间的关系划分,抽样框有如下类型:

(1)各目标使用同一个抽样框,抽样框是由包含多目标信息的抽样单位构成;(2)各目标使用不同的抽样框,各抽样框是由包含单一目标的信息单位构成;(3)各目标使用若干个抽样框,此时,抽样框是由包含多目标信息的单位构成,或者,同一抽样单位被归入不同的抽样框,或者,各抽样框是由包含不同目标信息的抽样单位构成。

多目标总体中,由于各目标所对应的总体存在差异,其抽样框的结构,框内所包括的信息,以及这些信息的质量,将决定多目标抽样设计的类型和估计的方法。缺乏辅助信息的简单抽样框只能用于简单抽样设计,包含辅助信息的复杂抽样框可以用于较复杂的抽样设计,有助于提高抽样设计的效率。

总体的单位虽然包括了多目标的信息,相应地多目标抽样的样本单位是在多目标的抽样框设计基础上获得的,抽样方法必须根据抽样框自身的特点展开,所抽取的样本单位必须是各目标都可接受的样本单位。相对于各目标,来自同一样本单位总体的各样本都有相同的抽样分布,否则,某些目标的抽样分布满足无偏有效等要求,而另一些目标或达不到估计推断要求。因此,针对各目标的样本不可能都符合各目标总体分布的要求,或则说没有将多目标样本单位完整地抽取出来。

抽样总体或许是单目标总体或若干多目标总体的组合,由于对抽样框的特点认识不足,或者抽样方法不合适,使得同一样本单位总体对一个目标是有“代表性”的,而对另外一个目标则不具备“代表性”。

从多目标抽样框中抽取的样本单位有多种可能,例如各个目标有各自独立的样本单位,或若干目标有共同的样本单位,或者各目标有相互交叉的样本单位。不同的样本单位对各目标而言其样本分布特征是完全不同的。由此获得的样本统计量和统计推断的设计就有很大的区别。按照单目标抽样框的设计方法,存在着针对多个目标的一框多用的抽样设计,也存在着针对多目标各自构成的抽样框分别抽样的设计,也存在着将各目标的抽样框交叉结合在一起的混合抽样设计。因此,多目标抽样中,除了要有完善的多目标抽样框,还需要有建立在合适抽样框基础上的抽样方法。

对于承载了多个目标信息的样本单位,对于各目标具有不同的特性或分布,在保证对大多数目标尽可能无偏的情况下,对部分有偏目标通过平衡的方法加以纠正。即针对目标有偏的样本单位总体,或构造有偏样本统计量,使其估计的结果无偏,或对该样本单位总体,通过补充抽样方法使新的抽样单位总体无偏。

当实践中要求对一批目标展开抽样调查时,若调查工作本身可以归结为一个总的目标,那么总目标下存在着许多子目标,名义上的单目标抽样调查,实际上是相互联系的多个子目标的调查,这可以归为多目标的抽样调查。此时的抽样调查问题主要是如何安排好总目标与子目标的关系,如何协调好各子目标中有相互联系的部分。

按照上述思路来认识,多目标本身的含义不仅仅来自总体中的指标的多个,也来自目标总体的多个,调查的设计必须顾及各目标之间的关系,这种关系又是那么复杂,使抽样框和抽样方法的设计变得多样化,相应地,构造样本统计量进行估计的方法也多样化,使得多目标抽样的含义变得非常丰富。因此,多目标抽样调查其实是一件复杂的系统工程,其中最重要的是抽样设计工作。

多目标抽样问题本质上是一种非全面调查方法,是用样本推断总体以获得自然社会经济现象的准确数据,并在此基础上分析数据的规律特征及其内在联系。问题之所以突出,除了本身是一种抽样调查,要根据实际情况选择合适的方法,要在抽样精度和抽样成本的矛盾中获得统一外,还需要对各目标进行权衡,增加了抽样调查的复杂性,这就要求人们在多目标抽样调查中,更系统全面地考察现实问题,尽可能扩大人们认识问题的范围,进而能充分利用各种手段解决问题。

综上所述,广义上讲,多目标抽样就是抽样调查中牵涉到多个目标的各种问题和解决办法的调查体系。狭义上说,多目标抽样就是在一次抽样调查工作中涉及到多个目标的各种问题和解决办法的调查体系。

2.2 多目标抽样再认识

实践中,许多单目标抽样问题,其实就是多目标抽样问题的简单处理,例如,我国1%人口抽样调查中,除了主要的人口总量指标外,还包括人口的年龄、性别、地域、家庭、婚姻、受教育程度等结构指标,所有的指标推算全都是来自同样的一个样本单位,在对数据的分析归纳整理中,人们通常采用单目标抽样的分析推算方法。

有些为多层次服务的抽样问题其实也可以看作是多目标抽样,这里的多目标其实就是不同层次部门的目标,基层样本单位既可以为基层部门服务,也可以构成上层部门抽样调查样本单位的组成部分,多目标样本单位,经过适当的取舍构成不同层次部门所需要的调查样本单位。

事实上,许多多目标抽样问题的解决可以采用具有相同总体的,并经过精心设计的所谓“单目标”抽样方法来解决:(1)这些多目标问题其实就是具有相同抽样总体和相同抽样单位的单目标抽样问题;(2)与这一类问题不同的是在抽样过程和选择样本单位上虽然一致,但在抽样的数据采集方面和数据推算方面采用了不同的办法;(3)具有不同抽样总体或不同抽样单位的多个单目标抽样问题,由于经济上的原因,为了节省经费,根据各个目标之间存在的关系,可以采用专门的多目标抽样方法,实现各单目标抽样的目的。

多目标抽样问题的研究着重在于后两方面,前者,一般说来不存在多少障碍,由于具有相同的总体或抽样单位,将多个目标结合在一起进行抽样,比起分开来抽样要经济的多,所以不存在是否节约了经费,而只存在是否能够达到各目标抽样的精度问题和节约经费的多少问题。后者,问题可能比较复杂些,首先是当抽样总体不同的情况下,若存在抽样总体的相似性,那么在抽样过程中,可以通过利用共同的辅助变量寻找替代的抽样单位,也可以利用抽样总体在地理上的接近,节约抽样调查中的重复差旅费用。从节约调查经费的角度思考,各个单目标抽样的样本单位可以起到互相共享,或互相补充的作用,以降低多目标抽样的样本容量。

多目标抽样调查设计,可包括,根据某些指标确定最大样本单位数目,然后根据样本单位针对不同的目标进行分析处理的二重抽样方法,或者对各样本单位的具体采样步骤和内容作差别化处理的方法,或者可利用在最少样本单位基础上逐步追加新样本单位的抽样方法,追加样本单位的采样内容可以逐步增加等方法。

3 多目标抽样中所要解决的问题

3.1 多目标抽样的分类问题

传统分类方法并没有包含多目标抽样,而是针对单目标抽样情形的概率抽样方法,包括五种主要的组织形式:简单随机抽样(纯随机抽样)、等距抽样(机械抽样、系统抽样)、类型抽样(分层抽样)、整群抽样、多阶段抽样。分类意味着逻辑上应该是并列的,但事实上这五类方式并非是并列关系,而是呈交叉状态的。在单目标抽样条件下我们可以按以下方式进行分类:

(1)按抽样基本单位的不同分:以总体为抽样单位的“单位抽样”;以子总体(群)为抽样单位的“群抽样”;以及这两种抽法的结合。

(2)按在抽样框内抽取基本单位时是否有规律分:有规律抽样;无规律抽样;以及这两种抽法的结合(半规律抽样)。

(3)按抽样时是否对总体进行事先分类分:事先分类的抽样;事先末分类的“无分层抽样”。

(4)按抽样时是否分步骤分类有:单阶段抽样;分阶段抽样。

(5)按样本单位抽取的困难程度分:无障碍抽样;有障碍抽样。

除此之外,抽样调查组织方式还可按是否考虑顺序、抽样可否重复、可否抽取子样本等特点进行分类。并且,所有这些分类都是可交叉混合的。

在多目标条件下对抽样调查如何进行分类呢?除了按照单目标提供的特征进行分类外,还需要围绕多目标的特点进行,而且除原有的各种分类外,涉及到多目标中的各目标和相应的各种处理方法与各种分类的交叉,形成了复杂的分类体系。有关分类方法的探讨对人们深入了解多目标抽样、指导多目标抽样调查实践有重要意义。

3.2 样本单位代表性问题

样本的代表性问题主要表现在样本的统计分布结构与相应总体的统计分布结构之间存在的误差,包括随机误差和系统误差。随机误差是样本分布的特征偏离总体分布的特征,是由于两者各自的范围所致,是可以测定的。系统误差是指样本结构与总体结构不相符合而造成的带有非随机抽样的误差。

在多目标条件下,虽然样本单位承载多个目标的信息,但由于样本自身的缺陷,使得容易产生系统误差。因为,各目标之间决非相互独立的,也非完全相关,而存在某种程度的相关关系,正是这种目标变量之间存在相互关系,使得样本分布以及用于推断复杂化。如果相关关系十分密切,同一个样本对多目标的代表性还不是严重问题。但实践中,这样的多目标样本单位并非那么容易获得。

要使抽取的样本具有代表性,其重要方法之一是要充分认识总体,在抽样之前获得充分多的辅助信息,并正确利用辅助信息以确保获得代表性较好的样本。针对多个目标场合,保证随机原则和利用辅助信息之间存在一定的矛盾,在抽样和估计方法上,如何处理好样本的多目标代表性需要权衡,需要在理论与实践上更深入的研究。

3.3 抽样成本问题

多目标抽样很自然地导致抽样成本的降低。人们在降低抽样成本方面有许多可以调控的空间,在保证一定抽样精度条件下,不同抽样方法其抽样成本有差异。而多目标抽样的方法可选择的余地比较大,在保证各目标精度要求的情况下,人们可以构造更加精确的多目标抽样框,充分利用各种辅助信息,此时,抽样成本不仅仅是抽样单位的多少,而且包括抽样过程中其它不可忽略但难以计算的成本。如此,抽样问题变成在一定成本条件下,如何选择符合要求的抽样方法问题,或者是如何处理好多目标抽样要求条件下成本与效率的平衡问题。

3.4 如何保证多目标抽样的随机原则问题

随机原则是抽样调查的基本原则,是指样本单位的抽取不受主观因素的影响,保证总体中每个单位都有相等的中选或不中选可能性。多目标抽样条件下,确保随机原则就是保证总体各单位针对各目标都有相同的中选或不中选的可能性。例如,把产粮区划分为平原和山区两类。实际上是将总体划分为二个,使总体内部标志变异变小,然后分别从不同总体随机取样,这就不能说是破坏了随机原则.而是更好地坚持了随机原则。

由于抽样实践中的简化操作,一个样本单位承担多个目标的信息,使得抽样随机原则受到影响,这是不可避免的。人们有所作为地是尽可能减轻这种影响,控制这种影响所带来的误差。

3.5 如何获取和运用辅助信息问题

辅助信息是与调查指标相关,且对总体的每个单位都是已知的信息。包括反映总体结构的信息;反映抽样单位规模的信息;与调查指标密切相关的辅助指标信息。

利用辅助变量可以从样本单位的抽取、估计量的构造、样本容量的确定等方面改进抽样设计。一般来说,利用同一抽样方法取得样本单位,并以此来估计总体标志值时,利用与调查标志有关的辅助信息比不利用辅助信息有更好的精确度或抽样效率。

在多目标抽样场合,各目标之间存在一定程度的联系,而且各目标运用辅助信息方面也存在一定的联系,或者是选择共同辅助信息,或者选择部分相同部分不同的辅助信息,或者是不同的辅助信息。甚至于将一部分目标的抽样的分析结果当成其它目标抽样的辅助信息等等,此时的多目标抽样如何设计和实施、如何选择辅助信息、如何根据各目标之间的关系运用相应辅助信息的抽样方法有许多值得研究的问题。

3.6 多目标总体抽样框问题:

由于各目标之间存在差异,使得多目标抽样的效果有很大的差异。首先,要确定各目标所对应的总体,并在此基础上将各目标抽样框简单化,其结果使得部分目标总体与所对应的抽样框存在差异,多目标抽样总体的确定及其抽样框则成为多目标抽样工作中必须面对的问题。第二,要避免抽样框失真,按照通常的抽样设计,抽样框失真会引起抽样估计中的偏差,从而降低估计结果的科学性。第三,要掌握完整的抽样框,即要掌握某一时点上静态的全社会的统计单位,又要掌握动态的统计单位。在实践中,人们常常将抽样工作简单化,在摸清“抽样框”的实际真实情况上是很难完全掌握的,它与抽样成本密切相关。

3.7 多目标抽样方法与推算估计的设计问题

推算估计与抽样调查结合起来的设计问题,在多目标抽样场合更加突出。除了利用传统的单目标抽样调查方法获得的样本并构造合适的统计估计方法来推算总体参数的各种设计外,还应包括针对多目标总体的抽样方法与针对各目标的统计估计方法等多种抽样方法与推算估计相结合的设计。例如,依据各目标在总体中的分布,对部分是偏态分布的目标,可以通过辅助信息,再利用针对性的样本或构造有偏的样本估计量,进而对部分目标获得实际误差较小的抽样推算思路。又如,在各目标具备不同辅助信息或辅助模型的基础上,进行统一的交叉抽样,使各样本单位在不同目标中发挥不同的作用,而且使样本在推断各目标上实现较好的平衡等等。事实上,包括上述多目标抽样思路的具体设计问题,远没有被人们加以充分讨论,构成多目标抽样调查理论中非常重要的研究内容。

[1](美)W.G.科克伦著,抽样技术[M].北京:中国统计出版社,1985.

[2]冯士雍、施锡铨.抽样调查---理论、方法与实践[M].上海:上海科学技术出版社,1996.

[3]邵宗明,冯士雍.分层次和多目标抽样调查方法研究[R].国家社会科学基金资助项目研究报告,1999.

[4]黄良文,吴国培.应用抽样方法[M].北京:中国统计出版社,1991.

[5]赵俊康.统计调查中的抽样设计理论与方法[M].中国统计出版社,2002.

[6]华仁海,陈茂奇.多主题抽样调查综合研究[J].南京经济学院学报,2001,(2).

[7]董逢谷.多目标抽样调查技术研究[J].上海统计,2001,(11).

[8]沈岩,陈长华,施令同.多主题抽样在农村统计工作中的实践与思考[J].江苏统计,2002,(9).

猜你喜欢
总体辅助样本
小议灵活构造辅助函数
倒开水辅助装置
用样本估计总体复习点拨
2020年秋粮收购总体进度快于上年
今日农业(2020年23期)2020-12-15 03:48:26
外汇市场运行有望延续总体平稳发展趋势
中国外汇(2019年6期)2019-07-13 05:44:06
推动医改的“直销样本”
直击高考中的用样本估计总体
随机微分方程的样本Lyapunov二次型估计
减压辅助法制备PPDO
村企共赢的样本