贺建风
农业发展缓慢、农民收入低下、农村普遍贫困等“三农”问题是关系国计民生的根本问题,也是阻碍城乡融合发展的难题。党的十九大报告指出必须始终把解决好“三农”问题作为全党工作的重中之重,并提出了乡村振兴的新时代战略构想。目前我国正处在决胜全面建成小康社会和建设社会主义现代化强国的关键时期,而“三农”问题无疑是我国前进道路上的拦路虎,只有“三农”问题彻底解决了,全面建成小康社会和建设社会主义现代化强国的宏伟目标方能顺利实现。有关农业、农民和农村各方面的统计数据是有效处理“三农”问题的依据。因此,获取详细而准确的高质量统计数据则是解决“三农”问题的关键。
现阶段,抽样调查方法是获取我国“三农”领域数据的最主要手段。抽样框的设计是抽样调查的基础,如果基于不完善的抽样框进行调查,所得到的统计推断结果往往质量不高。由于中国城镇化进程的快速发展,传统上基于周期性普查资料编制的单一抽样框无法实现连续多个调查期的持续完整覆盖。将多个已有的不完整抽样框整合起来形成一个完整的抽样框体系的方法称为多重抽样框方法,多重抽样框能够解决单一抽样框覆盖不全的问题。国外基于多重抽样框进行抽样设计和抽样估计的理论研究始于Hartley(1962),他最先对双重抽样框的估计方法进行理论研究,提出了方差最小条件下的最优估计量。随后,Fuller and Burmeister(1972),Kalton and Anderson(1986),Skinner and Rao (1996,2000),Lohr and Rao(2006)等人对多重抽样框的估计问题进行了更深入的理论研究。在多重抽样框的应用研究方面,Hartley(1974)在农业抽样调查中提出采用名录框与地域框组合的双重抽样框系统,这表明在相同的精度要求下,双重抽样框相比较单一抽样框花费更少。此外,FAO(Food and Agriculture Organization)(1996)描述了联合国农业调查中的双重框设计,提出一个抽样框是农业单位的名录框(费用便宜,但不完整),另一个抽样框是地域框(覆盖完整,但费用昂贵)的基本思路。国内对于多重抽样框调查的理论研究和实际应用开展得较晚,涉及这一领域开展研究的学者较少。在理论方法领域中,金勇进(1996)对双重抽样框的概念进行了简略的介绍;雷钦礼介绍了双重抽样框的抽样方法及筛选估计量的形式;贺建风对各种双重抽样框估计方法进行了系统梳理,做了详细的分类和比较;贺建风研究了基于多重抽样框情形下的连续性抽样估计方法。但是对于我国抽样实践中该如何基于多重抽样框实施抽样设计和抽样估计的研究未曾多见,仅贺建风针对我国服务业抽样调查的情况进行了探索研究。
本文以我国“三农”问题涉及的主体为抽样调查对象,研究在我国“三农”抽样中,基于多重抽样框的合理抽样设计和科学抽样估计方法。文章余下部分的安排如下:第二部分简要介绍目前我国“三农”抽样调查的运行方式及其抽样框问题;第三部分将深入分析适合我国目前国情的“三农”抽样方法,并按对“户”抽样和对“地”抽样两种情形分别给出了基于多重抽样框的抽样方案设计;第四部分则在抽样设计的基础上,按照基于设计的思路给出相应的总体总值估计量、相应的估计量方差以及方差的估计量;第五部分则是对全文的总结和未来研究的展望。
自1949年以来,最早开展的抽样调查便是“三农”领域中的农产量抽样调查。早在1963年,国家统计局就有专门的农产量抽样调查方案。改革开放后,我国政府统计部门的各级组织机构逐渐得到恢复,到1984年,随着各级农村抽样调查队的建立,“三农”抽样调查才逐渐成型,不仅包括原有的农产量抽样调查,还增加了农村住户情况和农村基本经济情况的抽样调查。1994年,我国明确了建立以周期性普查为基础,经常性抽样调查为主体的政府统计调查体系,并将这一规定写入了《中华人民共和国统计法》中。至此,现代化的统计调查制度在我国得以基本建立。其中,涉及“三农”问题的周期性普查有农业普查与人口普查两大类,均是10年开展一次,涉及“三农”问题的抽样调查(简称“三农”抽样)则包括农产量调查、城乡住户调查、人口变动情况调查、农村经济基本情况调查和其他专项调查等。随着经济社会的发展,更多类型的“三农”问题调查将不断涌现,如农民生活质量、农村老龄人口健康情况、农村留守儿童问题、农村文化生活状况、乡村生态建设和农村自然资源等专题抽样调查。
目前,为了调查过程的实施方便,我国政府统计部门开展的大型抽样调查一般是以省(自治区、直辖市)为总体,实施多阶段抽样设计,对于涉及“三农”问题的抽样调查也不例外。由于多阶段抽样是分阶段实施的,抽样框可以分阶段进行准备,因此能够在一定程度上化解由于全局抽样框不完善带来的代表性不足问题。在多阶段抽样中,第一阶段只需对初级抽样单元编制抽样框,其余各阶段,只需要对被抽中的上一级抽样单元准备抽样框即可。多阶段抽样调查既可以节省编制大范围抽样框的费用,又比较容易操作,且抽样过程易于组织和控制,相对比较适合我国现阶段的国情。但是由于每个阶段抽样都会带来误差,另外由于最末阶段延伸过细可能导致所选样本具有同类性而严重影响其代表性,因此,抽样的阶段数越多,则抽样误差越大且样本的代表性较差。如果抽样调查的阶数较少,例如进行一阶、二阶抽样时,则会面临难以构建完整覆盖的全局抽样框问题。目前,我国“三农”抽样调查中的阶数呈逐渐减少的态势,很多地方已实行了省直接抽村的调查方式。所以,多阶段抽样与完整抽样框的构建之间如何权衡是目前我国“三农”抽样调查中的主要矛盾之一。
随着经济社会的不断变化,农民的务工迁移和农地的经营流转现象已越来越普遍。基于周期性普查资料编制单一且能完全覆盖的“三农”抽样框已成为抽样实践中的难题。相对而言,在一个普查周期的初期阶段,单一抽样框覆盖性可能较好。但是经过2至3年以后,调查对象往往会出现很大的变动,原来的抽样框覆盖性会越来越差,而抽样框的维护和更新的成本又十分高昂。基于此,我国学者贺建风最早提出基于双重抽样框的视角编制“三农”抽样框来解决单一抽样框覆盖不全的问题,并给出了简单抽样框和复杂抽样框的编制思路,但是针对双重“三农”抽样框情形下的具体抽样设计和抽样估计问题并未展开深入研究。本文接下来的章节将在编制多重(包含双重)抽样框的基础上,深入探讨基于多重抽样框的“三农”抽样设计和估计方法,为我国“三农”抽样调查的改进提供一套全新的思路。
基于多重抽样框进行抽样调查,可以弥补单一抽样框无法完整覆盖的缺陷,同时也可以尽量减少多阶段抽样调查的抽样阶段数,进而在节约成本的同时提高估计精度。现阶段,随着城市化的持续推进和农村经济社会的快速发展,我国“三农”调查对象变动日益频繁,使用基于名录框和地域框相结合的多重抽样框系统进行抽样设计已经势在必行。我国政府统计部门正在开展或将来可能要开展的各类涉及“三农”问题的抽样调查,应该根据各类调查项目自身的特点和调查实践的可操作性设计基于多重抽样框背景下的抽样方案,从而避免单一抽样框无法完整覆盖的问题。按照调查对象和关注问题的不同,我国政府统计部门的各类抽样调查可以分为人口住户类、社会经济类和其他专项调查三大类。就具体到涉及“三农”情况的抽样调查而言,人口住户类调查主要包括城乡住户调查、人口变动抽样调查等,主要目的是了解各类人口和住户的生产、收入、消费和迁移等基本情况;经济社会类调查有农业调查、农村居民消费价格调查等;其他专项调查有农村医疗健康状况调查、农村居民满意度调查等。
在“三农”抽样调查中,如果需要了解的调查对象是以村为基本单位的农村发展情况,例如村办企业、村内幼儿园和教师情况等,则可以将行政村设计为抽样末端单位,按照行政管理的需要,以省或者县作为抽样总体。这种情况下,我们可以称为对“村”抽样,只需要编制完整的包含各村编码的名录抽样框即可,相对而言较为容易,重点在于摸清乡村撤销合并的情况。然而现实的调查中,更多的时候是需要调查村以下的农户或者地块,深入了解农户的生产、生活情况和农地的耕作情况。若抽样调查对象为农户或农业生产经营单位,如城乡住户抽样、农业企业经营情况抽样等,视为对“户”抽样调查,若抽样调查对象为农业用地,如农产量抽样、养殖业调查、经济作物耕种调查等则可视为对“地”抽样调查。本节将按对“户”抽样调查与对“地”抽样调查两种情况分别给出基于多重抽样框的抽样设计方案。
本文对于“户”的界定包含两大群体,一类就是普通的农户,在我国主要是人数众多的小农户,经营规模和耕种面积不大,一般群居在自然村落中;另一类是农业经营单位和规模经营大户,随着土地流转政策实施,越来越多的农业经营单位和规模经营大户在乡村出现,为了更好地统一起来,本文将这部分调查对象也归类为广义上的“户”。对于经营大户和经营单位而言,相对比较容易获取他们的详细名录,可进行基于名录框的抽样设计。但是,对于众多小农户来说,由于编制完整的名录框较难,因此可考虑基于地域框来进行抽样。
根据多重抽样框的定义,针对多重抽样框进行样本抽选时,各抽样框的抽样过程相互独立。当“三农”抽样调查的调查对象为“户”时,据以抽样的名录框由各级行政区划清单和规模以上农户及农业生产经营单位名册构成,地域框为特定行政区划下地域分块的有限集合,整个地域框是一份特定行政区划下的具有空间地理信息的地图,条件成熟的县区可构建基于地理信息系统的电子地图模式的地域框对地块进行分割。
图1 基于名录框的对“户”抽样调查过程图示
1.基于名录框的抽样实施过程
在对“户”抽样调查中,基于名录框的抽样过程可设计为二阶段抽样调查的模式,具体实施过程如图1所示。
第一步,确定初级抽样单元,并按与调查目的有关的辅助标志进行分层。在我国各级行政管理中,中央与省(市、区)两级最重要,因此本文认为以省为总体实施抽样比较合理,这也是目前一般的做法。我国一般可按照行政区划来界定初级抽样单元,但初级抽样单元设在哪一级呢?如果选择市(地、州、盟)一级为初级抽样单位,由于市以下有县(区、市、旗)、县以下有乡镇,抽样层级过多会带来较大的抽样误差。而我国同一个县区内,一般而言农业生产条件相差不大,而且有些县是国家抽样调查县,设有专门的抽样调查队,因此确定县一级为初级抽样单元比较合适。根据对“户”抽样调查的具体小类项目,按有关标志对初级抽样单元进行分层,将具有相似特征的初级抽样单元归为同一层,尽量做到层内差异小、层间差异大。比如,在住户抽样调查中,可按照人均可支配收入对县进行分层;在主要畜禽抽样调查中,可按照所调查主要畜禽(猪、鸡等)的历史出栏规模等辅助信息对县进行分层。
第二步,对初级抽样单元实施分层抽样,得到第一阶段样本。对初级抽样单元进行抽样可以在各层内独立进行,抽样方式为层内简单随机抽样,各层抽样比的大小可视层内抽样单元的具体特征而定。例如在主要畜禽抽样调查中,可将初级抽样单元按照养殖规模分为主要畜禽养殖特大县、养殖大县和普通养殖县三层。结合调查人员配置和财政预算,对养殖特大县这一层,尽可能实施全面调查;对于养殖大县这一层,可以按较高的抽样比实施简单随机抽样;对于普通养殖县则可以视具体情况进一步降低抽样比。
第三步,准备好第一阶段抽样中被选初级单元内的下一阶抽样单元名录,即农业生产经营单位与规模以上农户的清单,实施抽样得到第二阶段样本。根据具体的调查研究目的,利用复杂名录框的有关资料,对名录框中的规模以上农户和农业生产经营单位按有关标志排队,然后进行抽样。如果调查对象为农业生产经营单位,则抽样方式为全面调查;如果调查对象为规模以上农户,则在调查资源充足时可以采用全面调查方式,而调查资源不足,则可以采用πps抽样方式来获取样本。
2.基于地域框的抽样实施过程
在对小农户抽样调查中,基于地域框的抽样过程可以设计为三阶段抽样。第一阶段抽样同样为省抽县,可以基本沿用对名录框第一阶段的方案,第二、三阶段抽样的设计则与名录框的情况差异较大。具体实施过程如图2所示。
第一步,确定初级抽样单元,并按与调查目的有关的辅助标志进行分层。具体操作同上。
第二步,对初级抽样单元实施分层抽样,得到第一阶段样本。具体操作同上。
第三步,准备已抽中县的地域框,对地域框中的单元进行系统抽样,得到第二阶段抽样单元。在第二阶段抽样实施前,首先需要提供该县的地域框,地域框由各县内的所有地域分块构成。考虑到最终调查单元为具体的规模以下农户,因此地域框的分块可直接选用最新的人口普查或者农业普查小区。根据具体的调查研究内容,对该县区内的所有人口普查小区进行编码并按有关标志排队,而后实行系统抽样,得到第二阶段抽样单元。
图2 基于地域框的对“户”抽样调查过程图示
第四步,编制抽中普查小区的所有规模以下农户名册,进行简单随机抽样,最终得到第三阶段抽样单元。第三阶段抽样单元为规模以下农户,一般来说,在同一普查小区内,规模以下农户间的各类特征基本一致。因此,最后阶段抽样可以采用简单随机抽样的方式实施,考虑到操作的简便和方差估计的需要,每个样本普查小区抽取2户规模以下农户即可。满足基本要求,如果需要调查更多户的话,情况完全一致。
以上对“户”调查的方案,对于调查内容为涉及农业经济状况问题的情形较为适用。如果涉及流动人口情况、留守儿童状况以及农村妇女地位等调查内容为人口与社会问题的情形,则情况较为简单,不必设计规模以上农户,可直接按照基于地域框的抽样思路来实现,需要注意的是地域框中无须排除规模以上农户,另外,农业生产经营单位本身就不在抽样范围内。这样,以上抽样设计的思路可分别适用于各类对“户”抽样的“三农”领域调查。
当“三农”抽样的调查对象为“地”时,名录框也可由规模以上农户和农业生产经营单位的名册构成,调查对象是其所经营的农业用地,抽样过程可以看成由“户”连接到“地”的方式,但这里规模以上调查户的判断标准需要根据具体的调查项目进行适当调整;地域框由行政区划内所有实际农业用地分块构成,抽样过程的最末阶段表现为对分块进行抽样。
图3 对“地”抽样调查过程图示[注]图中左边实线箭头流程表示基于名录框的抽样过程,右边虚线箭头流程表示基于地域框的抽样过程,而第一阶段的省抽县过程,左右两边流程实际上为同一套初级样本县。
基于名录框的抽样设计可以基本沿用对“户”抽样时的方案,即二阶段抽样。不同之处在于他们的辅助变量的选用,这里要选择与对“地”调查项目密切相关的特征值。比如在农产量抽样调查中,可以按主要种植类型、播种面积等标志为辅助变量;实施πps抽样得到样本县之后,对其中的规模以上农户和农业生产经营单位的农业用地进行全面调查。
地域框的基本单元为农业用地分块,分块的构建是地域框形成以及抽样过程能否顺利实施的关键。我国可依据农业普查资料和卫星遥感技术所获取到的农业用地信息进行地域框构建,各县统计部门负责本辖区地域框分块构建的全面工作,同时,尽量争取与当地农业局等农业管理部门开展合作。为了便于管理和实际操作,以行政村为实际操作部门确定各村内分块的划分。就分块的划分而言,首先要根据农业用地使用情况进行分类,按照农业用地的统计分类标准结合最新的卫星遥感信息,将农村的土地按照用途分为农业用地、林业及森林占地和山地、湖泊等其他土地三大类。然后利用网格线对各类农业用地的地域进行等分划块;最后结合实际调查的可行性,绘制出各分块边界调整线,调整后的分块面积与等分划块的面积误差尽量控制在10%以内。实际抽样的地域框分块过程,要求尽量做到不重不漏,并按序号编码,分块的边界线最好选择地面实际存在的自然界线(如田埂、沟渠、道路、桥梁等)。基于精度和费用以及管理方便等方面考虑,基于地域框的对“地”抽样调查也可以设计为二阶段抽样。第一阶段抽样同样以各县为初级抽样单元,以县区农业用地面积等资料作为辅助变量,实施省抽县的πps方式抽样。第二阶段抽样则是在抽中县的基础上抽选地域框分块,在抽选分块之前,先按照分块的具体农业用地使用情况进行分层,将相同类型的分块归为同一层;然后对各层实行独立抽样,抽样方式为简单随机抽样;对于抽中分块,选用合格的调查员进行实地观测,从而获取调查数据。具体过程如图3所示。
“三农”抽样调查的估计目标一般是获取总体总值或均值的推断信息,当实施连续性抽样调查时还需要估计目标总体在时间上的变动量。从上一节的抽样设计方案可知,基于多重抽样框的“三农”抽样方式大多设计为二阶段抽样,只有在对“户”抽样调查中,针对地域框进行样本选取时才涉及三阶段抽样的情况(对此,本文后面将单独讨论)。因此,可以按照二阶段抽样的理论进行估计量设计。
本文设计的各多阶段抽样方案有一个共同的特点就是第一阶段均为省抽县,对于由某省内所有县级行政区划所构成的抽样框显然只有一个。因此,第一阶段抽样实际上是基于单一抽样框进行的,可以直接根据一般的抽样估计方法推算总体特征值。对于县以下的第二阶段抽样则表现为从多重抽样框中取样,分别为从名录框和地域框中抽选样本。一般来说地域框只有一个,且完全覆盖特定地区。而名录框可能为一个,也可能有多个,例如由多个行政部门提供不同的名录册,就形成了多个名录框。如果名录框只有一个,则与地域框构成双重抽样框结构,可以利用双重抽样框估计方法对研究变量的总体特征进行推算。如果名录框不止一个,则与地域框就构成多重抽样框结构,可以利用多重抽样框估计方法对研究变量的总体特征值进行推算。为了估计公式的简化,本文仅分析名录框只有一个的情形,对于多个的情形可以在本文研究的基础上进行扩展。
首先,按照π估计量思路,可以给出适用于“三农”抽样调查的估计方法,以省为总体的总值估计量为:
(1)
其中:y
为第一阶段抽样时第i
个样本的研究变量总值,π1为第一阶段抽样时第i
个单位的入样概率,n
为省内样本县个数,并记N
为省内县的总个数。公式(1)中y
的具体数值需要根据第二阶段的样本信息进行估计,而第二阶段为从名录框与地域框结合的多重抽样框中取样。按照上一节的抽样设计可知,地域框完全覆盖了整个县区,是一个完整的抽样框,显然不完整的名录框包含于地域框中。记A为地域框,B为名录框,设子域a为属于抽样框A且不属于抽样框B的部分,子域ab为两个框的公共部分。所以y
的估计量为:(2)
(3)
(4)
因此,将(2)、(3)、(4)代入(1)可得,总体总值的估计量为式(5)的形式:
(5)
(6)
其中第一阶段的抽样方差为:
(7)
(8)
第一部分V
的无偏估计量为:(9)
其中
(10)
(11)
(12)
(13)
对地域框的抽样并不是最终阶段的取样,还需要对各普查小区按照简单随机原则抽取2个规模以下农户,因此,式(3)可具体写成:
(14)
其中:y
1为第i
个样本县内第k
个分块中第1个规模以下农户的调查变量值,y
2为第i
个样本县内第k
个分块中第2个规模以下农户的调查变量值,M
为第i
个样本县内第k
个分块中规模以下农户的总数。将式(1)、(2)、(13)和(14)结合在一起,可以得到对“户”抽样调查时的总体总值估计量:
(15)
根据式(6)、(7)、(8)和三阶段抽样估计量方差的公式可以推算出估计量的方差:
(16)
(17)
对“地”调查的抽样过程比对“户”调查要相对简单,无论是名录框还是地域框均为二阶段抽样设计,第一阶段抽样为按土地面积成比例的πps抽样,第二阶段抽样为基于多重抽样框下的抽样设计。因此,第一阶段的π估计量可以设计为HT估计量的形式:
(18)
式(18)中y
的具体值由第二阶段抽样的样本信息估计可得。在第二阶段抽样中,基于名录框的单元进行的是全面调查,对于地域框的单元实施的是分层随机抽样。根据式(3)和(4)可得第i
个样本县中y
的估计量为:(19)
将估计量代入式(18)中,可以得到对“地”抽样调查时的总体总值估计量为:
(20)
根据式(6)、(7)、(8)可以给出估计量的方差计算公式:
(21)
(22)
(23)
本文在已有的多重抽样框理论研究的基础上,结合我国“三农”抽样的实际情况,基于多重抽样框的思路,开展了“三农”抽样调查的抽样设计和抽样估计研究。通过本文的研究,建立了一套基于多重抽样框的“三农”抽样调查设计方案,并为样本推断总体特征提供了估计量设计,同时也给出了估计量的方差以及方差的估计量,为我国政府统计部门搜集“三农”问题的数据提供了一条新路径。建立这套基于多重抽样框的“三农”抽样调查体系可以为涉及“三农”问题的实际调查工作者提供方法上的指导。同时,该抽样调查体系的构建思路还可以为其他抽样调查领域实施基于多重抽样框的抽样调查提供参考和帮助。
限于篇幅,本文未就提出的抽样设计方案和估计量的功效进行检验。下一阶段研究的主要任务是积极开展与政府统计部门的合作,将本文提出的设想和方法应用于我国政府统计部门的“三农”抽样调查中,对所给出的设计方案和估计量效果进行检验,为我国将来开展基于多重抽样框的调查方法奠定基础。