开展精准扶贫第三方评估的最优化抽样

2018-12-11 11:48仅,李
大理大学学报 2018年11期
关键词:样本容量样本量贫困人口

时 仅,李 涛

(1.云南国土资源职业学院工商与信息学院,昆明 652501;2.西南大学地理科学学院,重庆 400715)

一、研究背景

改革开放以来,我国政府实施了大规模的扶贫开发,成效举世瞩目,从1978年至2014年,全国贫困人口和贫困发生率大幅下降〔1〕。为推动贫困地区发展,调整城乡二元化结构,确保2020年全面实现小康社会,2013年至2015年,习近平同志在湘西、云南、贵州等地考察时提出了精准扶贫的理念及“六个精准”的扶贫工作思路,并将精准扶贫作为中国扶贫的基本方略〔2〕。党中央、国务院在制定“十三五”国民经济和社会发展规划中,也明确指出国家和地方各级政府要把扶贫工作的重点转向精准扶贫,其目的就是要建立精准扶贫机制,切实做到真扶贫,扶真贫。至此,全国范围内的精准扶贫攻坚战正式打响,尽管在党和国家的领导下,各地区扶贫攻坚工作初见成效,但在精准度衡量的问题上,缺少对扶贫工作及时客观的督查和检查。2015年,国务院首次将“第三方评估”机制引入精准扶贫工作成效中,确定了以中国科学院作为第三方评估机构,中国科学院地理科学与资源研究所作为主持单位,并在全国范围内组建了33支调研队伍,通过采取专项调查、抽样调查和实地核查等方式,紧紧围绕精准识别与精准帮扶“两个方面、三项内容”开展每年一次的第三方评估〔3-4〕。

将“第三方评估”机制引入精准扶贫,是我国扶贫工作精准化的一项创举,其作用重大、意义深远。首先,第三方评估作为检验脱贫实效的重要手段〔5〕,有利于推动精准扶贫持续深入。由于开展第三方评估的后备力量均为高校及科研单位中地理学与资源环境领域的专家和学者,因此评估过程十分注重评估内容的全面性、评估指标的科学性及评估方法的有效性,同时作为评估的“第三方”时刻本着中立的身份和地理学、环境学专业的视角,能对扶贫工作进行严格督促,并有效规避官方“自说自话”的评价模式,使得评估结果本身更趋于公平、客观、可靠,评估结果的延伸成为创新精准扶贫工作机制的重要决策依据。其次,第三方评估的关键任务是查实问题、总结经验、以评促改、科学引导,有利于统筹脱贫全局。精准扶贫是一项系统工程,由于各地区的实际情况和工作开展方式存在差异,在所难免的失误会直接影响精准扶贫的最终效果。第三方评估通过对各地贫困人口识别精准度、贫困人口退出精准度和贫困人口对帮扶工作满意度进行科学测算,确保当地公众参与和透明化监督的前提下,及时发现精准扶贫工作中存在的突出问题和共性经验教训。有利于我们针对突出问题,因时因地制宜地提出整改建议,裨补阙漏,针对共性经验教训,全国范围内树立正反面典型,扬长避短,最终创建精准扶贫科学模式,助力全国贫困地区的减贫和发展。

目前,国内学者基于精准扶贫第三方评估结果,就精准扶贫的项目绩效分析、实践困境、对策建议、工作机制及贫困退出机制等宏观问题进行了深入研究〔6-10〕,促进了学术理论与实际问题的紧密结合,充分发挥了地理学服务国家战略需求的重要作用。由于调研是评估的基础,第三方评估是切实打好精准扶贫攻坚战的前提,因此确保调研的精准性至关重要。但在实际调研评估过程中,甚少有学者就调查方式及调查样本等微观问题提出研究和探讨。从统计学角度,不同类型数据的收集需采取不同的调查方式,如普查、抽样调查、重点调查、典型调查等。其中本次精准扶贫第三方评估的调研任务——对中西部22个省(区、市)贫困人口识别精准度、贫困人口退出精准度和贫困人口对帮扶工作满意度调查——主要采用抽样调查的方式。对于抽样调查,样本容量很关键,其直接影响抽样误差、评估成本、评估时间等。样本量过大,会造成人力、物力、财力的浪费;样本量过小,会造成抽样误差增大,影响抽样推断的可靠性,进而影响调研报告的准确性。因此,在面临经费与精度的双重制约时,样本量的选取成为调研工作开展前亟待解决的问题。

本文以C市T区关于贫困人口识别精准度的第三方评估调研为例,探讨确定抽样调查最优化样本量的方法,旨在提高评估内容的精准性和科学性,实现统计学与地理学等学科的融合,共同为“十三五”期间更好地推进精准扶贫工作提供帮助和指导。

二、抽样样本量的确定

抽样调查是一种非全面的调查,与其他调查方式相比,在经济性、实效性、准确性、灵活性上具有明显的优势。在开展抽样调查中,一般要遵循随机原则和最大抽样效果原则。其中,最大抽样效果原则指在既定的调查费用下使用抽样误差最小,或者在给定的精度下使调查费用最少。本文将基于随机原则和最大抽样效果原则综合确定样本量。

(一)抽样设计

在抽样调查中,抽样方式包括简单随机抽样、分层抽样、整群抽样和系统抽样。简单随机抽样操作简便,一般采用抽签法或随机数法来进行,能较好地保证抽样数据的随机性,但使用的前提是总体的个数不宜太多;分层抽样是根据总体的主要特征进行分层按比例随机抽样,确保每个个体被抽到的概率相等,能适用于个数较多的总体;整群抽样是将总体中各单位归并成若干个互不交叉、互不重复的集合,然后在保证群内差异大、群间差异小的前提下,以群为抽样单位整体抽样,它适用于个数较多的总体,能较好地节省经费,但与随机抽样相比误差往往较大;系统抽样是将个数较多的总体分成均衡的几个部分,然后按照预先制定的规则,从每个部分抽取若干个体,得到样本。

在开展关于贫困人口识别精准度的第三方评估调研中,涉及到的调研总体(贫困人口数)较大,且调研地区的下属区域有明显的行政划分,各个行政单元内特征不鲜明、差异不明显,如果仅采用某一种抽样方式,难以达到良好的抽样效果。本文结合各种抽样方式的特点和调研实际,扬长避短,采用分层抽样与系统抽样结合的抽样设计,来提高抽样效率和样本的代表性,具体做法是:按调研地区的行政划分确定抽样的层级,再结合各个行政单元的贫困人口比例对贫困人口进行随机抽样。

(二)样本量计算

在一定抽样方式下,样本量越大,估计精度就越高,但理论和实践证明,样本量并非“多多益善”〔11〕。为保证第三方评估工作的实效性,本文将分别从经费和精度两个角度综合计算抽样调查的样本量。

1.由经费计算样本量

将由经费计算的样本量计为np,一般情况下,根据费用要求可构建费用函数为

由于本文的抽样调查设计有层级划分,各层的单位样本调查费用存在差异,因此构建的费用函数为

由式(2),进一步推导得出由经费计算的样本量

其中,CT为总经费,C0为固定调查费用,Ca为单位样本调查费用,i为层的编号,j为层的个数,Ci为第i层的单位样本调查费用,Wi为第i层的贫困人口总数占各层贫困人口总数和的比例。

由式(3)可确定样本量的上限,即经费所允许的最大样本量,为避免经费超支,np结果要取整。

2.由精度计算样本量

在第三方评估贫困人口识别准确率的调研中,一般采用不放回抽样〔12〕的方式,具体做法是:依次抽查各个行政单元建档立卡贫困户人口的真实贫困情况,将调研结果符合贫困条件的计为1,不符合贫困条件的计为0,然后汇总调研结果的均值,即得到贫困人口识别准确率。

由于调研总体的方差σ2未知,需要开展预抽样,并用样本方差S2替代,在统计学上,样本均值经过标准化处理得到的随机变量服从自由度为n-1的t分布,在不放回抽样时,总体均值的置信区间为

其中,N为调研区贫困人口总规模,n为预抽样的样本量。

由于临界值t∂2要查t分布表(自由度在n-1)得到,在大样本的场合,t分布于标准正态分布非常接近,因此本文中用正态分布表的临界值z∂2来代替t∂2,并将由精度计算的样本量计为nq,得到

由式(5)和(6)可以看出,样本容量与极限误差成反比,当减少极限误差时,需要增大样本容量;与置信度及预抽样的样本标准差成正比:置信度越高,样本标准差越大,样本容量越大。结合预抽样的情况,本文主要从置信度和极限误差来综合反映抽样的精度,并依次计算置信度为90%、95%、99%,极限误差在3%、5%时的样本量,但当计算结果带有小数时,样本容量nq要取比这个数大的最小整数。

(三)样本量调整及最优化样本量

1.样本量调整

考虑到实际调研中会出现调查样本的无响应情况,比如抽中调查对象调查时不在家、与其交流有障碍、被访者听不懂或不配合调查等情况,进而产生回答样本数与计划样本数的偏差。因此就精度确定的样本,还需要考虑调查回答率,根据预计的调查回答率调整样本量的大小,具体的操作为

其中,r为预计调查回答率,ns为经预计调查回答率调整后的样本量,本文中的预计调查回答率依据预抽样中的实际回答率来确定,即实际预抽样结果与计划预抽样结果的比值。

要注意的是:调查中如果确定了调查回答率,在后续的抽样中要尽可能保证达到这个回答率。如果低于所预期的回答率,一定程度上还会影响调查结果的精度。另外,无响应样本往往代表了扶贫中的特殊对象和群体,因此在实际的调查工作中,须重视无响应的样本。

2.最优化样本量

要确定调研的最优化样本ny,需要将经费和精度确定的样本量进行综合考虑:①当np≤ns时,须认真权衡经费与精度,若经费更重要,则选取ny=np,并重新估算在最大经费条件下样本量达到的精度,若精度更重要,则选取精度适中,经费最少的样本量。②当np≥ns时,此时主要考虑精度,在不超过经费的情况下,选取最大精度的样本量ny=ns。

由于本文中采用的是分层抽样与系统抽样相结合的抽样设计,在确定最优化样本总量之后,需要根据调研的各个行政单元的贫困人口比例进行分类计算,即得到每个层级的样本量

三、实证研究

本文以C市T区为例,T区位于C市西北部,下辖22个镇(街道),长期以来,以农业和工业为主导发展经济。截至2015年,全区户籍人口为952 144人,据国办系统2015年的统计数据得知,T区共有50个贫困村、15 353户贫困户、50 272名建档立卡贫困人口,经统计汇总,得到各镇(街道)的贫困村数量和贫困人口比例(见表1)。

表1 C市T区各镇(街道)的贫困村数量和贫困人口比例汇总情况

在开展精准扶贫第三方评估中,由于受到时间、成本等限制,无法采用普查的方式来得到贫困人口识别准确度,故只能从中抽取一部分对象加以调查研究,并根据对这一部分对象的调查研究结果,再去推论和估计总体情况。在确定合适的样本容量之前,即正式抽样调查前,先进行预抽样,从全区随机选取10个镇(街道),依次为:A镇、C镇、E镇、F镇、I街道、K镇、N镇、P镇、T镇、V镇,各镇(街道)平均分配3个贫困户,合计110名贫困人口进行调查。预抽样中出现了12人无响应的情况,剩下的98人中有5人已脱贫或不符合贫困人口条件,因此在预抽样中,样本均值(即贫困人口识别准确度)为94.90%,样本标准差S为2.18。

预计调研总经费为20万元,扣除固定经费3万元,结合T区各镇(街道)单位样本调查费用和贫困人口比例,采用式(3),估算得到经费所允许的最大样本量np为7 218个。在总体方差未知的不放回抽样中,采用公式(6)得到不同精度条件下(置信度依次选取90%、95%、99%,极限误差依次选取3%、5%)的样本容量和经调查回答率调整后的样本容量(见表2)。

表2 不同精度条件下的样本容量

将经费和精度确定的样本量进行对比,确定出在既满足经费又满足精度条件下的最优样本量为7 148,此时能保证在不超支经费的前提下,置信度达95%,抽样误差为5%,进而推断出贫困人口识别准确度的置信区间为[0.903,0.995]。另将T区的建档立卡贫困户和贫困人口进行大致的折算,得到3.27人∕户,故需调研2 186户。按各镇(街道)的人口比例,确定T区各镇(街道)的抽样总户数,由于之前开展的预抽样计入抽样总户数中,扣除预抽样户数,得到正式抽样的样本情况(见表3)。

表3 C市T区抽样调查统计情况

本文基于精准扶贫第三方评估工作的实践,以调研贫困人口识别准确度为例,对抽样调查的抽样方式和最优化样本进行了研究和论证。对于具有一定地理划分且内部特征不鲜明、差异不明显的调研对象,不能仅以某一种抽样方式进行抽样,为提高抽样效率和样本代表性,需采用多种抽样方式结合的抽样设计,本文仅以适用于较大总体的分层抽样与系统抽样结合进行说明,当面对特别复杂的调研对象时,还需要采用分层、多阶段、整群和权数结合的抽样设计〔13〕。在实践中,对于样本量确定的过程本质上是经费与精度的权衡的过程,经费制约着样本量的上限,精度保证了抽样的准确性和科学性。通过将经费计算的最大样本量与不同精度条件下的样本量进行比较和分析,能最终确定出符合实际调研所需的最优化抽样。

猜你喜欢
样本容量样本量贫困人口
医学研究中样本量的选择
采用无核密度仪检测压实度的样本容量确定方法
隐形贫困人口
航空装备测试性试验样本量确定方法
Sample Size Calculations for Comparing Groups with Binary Outcomes
十八大以来每年超千万人脱贫
要让贫困人口真正受益
2013年各省贫困人口数量及贫困发生率
广义高斯分布参数估值与样本容量关系
多种检测目标下样本容量设计的比较