基于倾向得分匹配与加权调整的非概率抽样统计推断方法研究

2016-12-20 03:30金勇进
统计与决策 2016年21期
关键词:总体均值调整

刘 展,金勇进

(中国人民大学a.统计学院;b.应用统计科学研究中心,北京100872)

基于倾向得分匹配与加权调整的非概率抽样统计推断方法研究

刘 展a,金勇进b

(中国人民大学a.统计学院;b.应用统计科学研究中心,北京100872)

文章针对非概率抽样统计推断问题,提出了一种解决方法:首先采用倾向得分匹配选择样本,然后采用倾向得分逆加权、加权组调整和事后分层调整三种方法对匹配样本进行加权调整来估计目标总体,并比较不同方法估计的效果。蒙特卡罗模拟与实证研究表明:当网络访问固定样本大小与目标样本大小的比率小于3时,三种加权方法估计的效果均比未加权时匹配样本的估计效果好;当网络访问固定样本大小与目标样本大小的比率不小于3时,倾向得分事后分层调整与未加权的匹配样本估计效果较好。

倾向得分;匹配;加权调整;非概率

0 引言

在当今的大数据时代,大数据还不能代替总体,但大数据下的抽样仍然是必要的。只是由于数据的大体量、非结构,且数据来源复杂化,难以构造抽样框,使得一些抽取的样本属于非概率样本,难以将传统的抽样推断理论应用到非概率样本中。与此同时,随着网络调查特别是网络访问固定样本的发展,非概率抽样重新引起了人们广泛的关注与重视,如何解决非概率抽样的统计推断问题,不仅是大数据背景下抽样调查面临的严重挑战,也是网络调查发展的迫切需求。

解决非概率抽样统计推断问题的一种方法就是样本匹配。样本匹配多年来一直被用于观察性研究中,主要目的是根据一个或多个协变量找到与处理组相匹配(近似)的对照组,从而减少处理效应估计的偏差,直到最近才被提倡用于网络访问固定样本的相关调查中[1]。所谓网络访问固定样本[2]就是愿意完成网络调查的网络访问(上网)人群,这就意味着存在一个潜在的受访者的样本数据库,在未来的数据收集中,如果他们被选择为调查对象,他们将愿意配合完成调查。目前已有研究者对网络访问固定样本调查中的样本匹配问题进行了一些研究。Rivers[3]在2006年就提出可使用样本匹配从网络访问固定样本中抽取代表性样本。Vavreck与Rivers[4]在2008年采用了这种方法,他们首先从公布的美国社区调查文档中抽取了一个38000人的随机样本,并对每个随机样本单元从网络访问固定样本中找到了最近的匹配单元,并利用匹配单元的调查数据来估计总体。Rivers与Bailey(2009)[5]使用了2008年美国总统选举的数据评价了利用从网络访问固定样本中选择的匹配样本进行推断的效果,提出由于不完美的匹配,有必要在匹配后对匹配样本进一步加权调整。Terhanian与Bremer(2012)[6]基于平行调查(一个随机数字拨号电话调查和一个网络访问固定样本调查)使用倾向得分来选择匹配样本,相对于直接基于协变量的匹配来说,倾向得分匹配具有将匹配的维度降为一维的优点,这极大的简化了匹配的过程,因而受到广泛的使用。事实上,倾向得分已经被用于非概率抽样的加权调整阶段(Terhanian et al.,2001;Lee&Valliant,2009),直到最近才被引入非概率调查的匹配抽样之中(Rivers,2007;Terhanian&Bremer, 2012)。基于此,本文考虑在非概率样本选择阶段采用倾向得分来选择匹配样本,同时为了减少不完美匹配造成的偏差,进一步采用倾向得分对匹配样本进行加权调整,从而降低估计的偏差,提高估计的精度。

本文针对非概率抽样的统计推断问题,提出在样本选择阶段采用倾向得分匹配选择匹配样本,进一步对匹配后的样本采用倾向得分逆加权、加权组调整和事后分层调整三种方法进行加权调整,估计目标总体,并比较各种方法估计的效果,以期丰富非概率抽样的统计推断问题研究,促进非概率抽样的广泛应用,也给大数据时代下海量数据的处理与分析提供一定的启示。

1 非概率抽样的统计推断方法

对于非概率抽样的统计推断,可分为两个阶段来考虑,第一个阶段是非概率样本的选择阶段,可考虑采用倾向得分匹配来选择样本;第二个阶段是加权调整阶段,主要是对第一阶段选择的匹配样本进行倾向得分加权调整,最终实现对目标总体的估计。

1.1 基于倾向得分匹配的样本选择

倾向得分为在给定协变量Xi的条件下,个体i接受处理的条件概率[7]。假设是否接受处理为Di(接受处理,Di=1;否则Di=0),则第i个单元的倾向得分定义为:p(Xi)=P(Di=1|Xi)。根据倾向得分来进行匹配的方法就是倾向得分匹配(Propensity Score Matching,PSM)。这里,所谓的匹配就是假设个体i属于处理组,找到属于对照组的某个体 j,使得个体 j与个体i的协变量或倾向得分取值尽可能相似,即Xi»Xj或p(Xi)»p(Xj)。为了刻画个体j与个体i之间的相似(相近)程度,产生不同的距离函数定义方法,也由此产生不同的匹配方法,常用的匹配方法有:最近邻匹配、卡钳与半径匹配、分层或区间匹配、核与局部线性匹配等。

基于倾向得分匹配样本选择的基本思想是首先从抽样框(包含一系列的协变量)中抽取一个概率样本,其中目标总体单元个数为N,样本量为n,每个单元i都有一个目标变量Yi和一些协变量组成的向量 Xi=(Xi1,Xi2,...,Xip),i=1…n,p为协变量的个数,称这个样本为目标样本,因为这是一个概率样本,因此具有总体的代表性。为了便于讨论,假设从抽样框中抽取的概率样本为简单随机样本。本来将调查目标样本中的对象,但是当发现目标样本的调查比较困难时,并不要求用目标样本中的对象完成调查,相反地寻找网络访问固定样本(包含了与抽样框相同的一系列协变量)中与目标样本对象相似(近)的成员,称为匹配单元,匹配单元的集合称为匹配样本,邀请匹配样本单元完成调查。假设匹配样本的回答率为100%,可以看到匹配样本本质上属于非概率的样本。这里,在寻找网络访问固定样本中与目标样本对象相似(近)的成员,即选择匹配样本时,采用倾向得分匹配方法。引入二值示性变量Di,如果单元i在目标样本中,则Di=1(相当于接受处理),否则Di=0,在本文中Di=0表示单元i在网络访问固定样本中。倾向得分匹配方法具体步骤如下:

(1)估计倾向得分

倾向得分常常需要估计,在估计 p(Xi)=P(Di=1|Xi)时,可使用参数估计(probit或logit)或非参数估计,最流行的方法为logit,即常常将示性变量(D)作为因变量,单元的协向量 X作为解释变量建立Logistic回归模型来得到。具体地,假设Xi都经过中心化变换,则有:

由式(1)可得:

(2)匹配样本的选择

当选择匹配样本时,对目标样本的每个成员,有必要在网络访问固定样本中找到最近的匹配单元,可以采用一些匹配方法,方法之一就是最近邻匹配。最近邻匹配(Nearest Neighbor Matching,NNM)[8]包括单一无放回最近邻匹配、单一有放回最近邻匹配和多重最近邻匹配,本文主要采取单一无放回最近邻匹配。设集合

为目标样本(D=1)中每个单元i的一个邻域,|| ||是一个范数,如1-范数、2-范数、¥-范数等。单一无放回最近邻匹配就是将与Xi最近的Xj对应的一个网络访问固定样本单元(Dj=0)选择为匹配单元,且该匹配单元仅能匹配一个目标样本单元。当然匹配方法不一定在所有的情形下都是非常有效的,当它满足以下两个条件[9]时最可能有效:

假设1:可忽略性。假设网络访问固定样本关于用于匹配的变量(简称匹配变量)是可忽略的。这意味着如果本文检验匹配变量值完全相同的网络访问固定样本成员和非网络访问固定样本成员,则通常这两者在调查中的回答将没有区别。

假设2:共同的支撑。对于网络访问固定样本成员和非网络访问固定样本成员,匹配变量的分布应该有重叠。

1.2 倾向得分加权调整

在基于倾向得分匹配的样本选择中,已将目标样本与网络访问固定样本结合,建立了Logistic回归模型,估计出匹配样本第k个单元在目标样本中的倾向得分为(Xk),则相应的第k个单元在匹配样本中的倾向得分估计为假设采用倾向得分匹配方法最终选择的匹配样本为sM,可以利用匹配样本单元的倾向得分估计进一步对匹配样本进行加权调整,从而实现对目标总体的估计。考虑采取以下三种倾向得分加权调整方法:

(1)倾向得分逆加权

其中Y0k为匹配样本单元k的观察值,dMk为匹配样本单元k的基础权数,由于匹配样本为非概率样本,没有基础权数,但因其与目标样本相匹配,所以匹配样本单元的基础权数可采用与之相匹配的目标样本单元的基础权数,即为目标样本单元入样概率的倒数。因本文主要讨论的目标样本为简单随机样本,故每个目标样本单元的基础权数均为

(2)倾向得分加权组调整

其中sMg是在第g组中匹配样本单元的集合。同理,若目标样本为简单随机样本,则

(3)倾向得分事后分层调整

其中YˉMg为在第g层中匹配单元目标变量均值。

2 模拟研究

为了检验采用倾向得分匹配来选择样本,并对匹配样本进行倾向得分加权调整后的估计效果,采用蒙特卡罗模拟进行分析。

2.1 方法

数据生成过程如下:

目标总体协变量:X1~N(0,1),X1Î[-1,1];X2~N(0,1),X2Î[-1,1];ρ(X1,X2)=-0.6

网络访问固定样本协变量:X1~N(0.8,0.4),X1Î [-1,1];X2~N(0.7,0.35),X2Î[-1,1];Cov(X1,X2)=0.3

由上可知,网络访问固定样本关于协变量(匹配变量)是可忽略的,且目标总体与网络访问固定样本的协变量分布有重叠,但协变量的分布不同。在模拟中,目标样本是从目标总体中简单随机抽取的样本量n=1000的样本,因为E(X1)=E(X2)=0,θ0=E(Y)=0为总体参数真值,从目标总体中抽取的简单随机样本将产生θ0的一个无偏估计;同时考虑网络访问固定样本的规模分别为1500、2000、3000、5000、10000。因为目标变量依赖于协变量X1、X2,因此若X1、X2来自目标总体协变量的分布,则示性变量D=1,若X1、X2来自网络访问固定样本协变量的分布,则示性变量D=0,并进一步由协变量与示性变量估计倾向得分,利用倾向得分匹配选择匹配样本,匹配方法为单一无放回最近邻匹配。最后,采用倾向得分逆加权、加权组调整和事后分层调整三种方法对匹配后的样本进行加权调整,估计目标总体均值θ0。重复进行蒙特卡罗模拟1000次,并计算1000次模拟数据集上目标总体均值估计的均值(Mean)、标准差(SD)和均方误差(RMSE)。此外,数据的生成、倾向得分匹配与加权调整均在R软件中进行。特别地,单一无放回最近邻匹配采用的是Package Matching中的Match函数进行编程。

2.2 结果

利用未加权匹配样本以及对匹配样本采用倾向得分逆加权、加权组调整、事后分层调整后,计算目标总体均值估计的均值(Mean)、标准差(SD)和均方误差(RMSE),见表1。由表1可见,利用未加权匹配样本估计目标总体均值,随着网络访问固定样本规模的增大,其均值绝对值从0.285逐渐减少至0.003;标准差先减小后增大,基本稳定在0.030~0.045之间,估计比较稳定。对匹配样本采用倾向得分逆加权估计目标总体均值,随着网络访问固定样本规模的增大,其均值绝对值从0.012先增大后减少至0.071;标准差在0.030~0.055之间波动。对匹配样本采用倾向得分加权组调整估计目标总体均值,随着网络访问固定样本规模的增大,其均值绝对值从0.076先减小再增大再减小至0.061;标准差在0.030~0.050之间波动。对匹配样本采用倾向得分事后分层调整估计目标总体均值,随着网络访问固定样本规模的增大,其均值绝对值从0.001开始波动最终升至0.003;标准差先减小后逐渐增大,基本稳定在0.025~0.045之间。总的来说,随着网络访问固定样本规模的增大,各种方法下估计的均值绝对值均在0.001~ 0.285之间,并且各种方法下估计的波动较小,比较稳定。

表1 匹配样本未加权与三种方法加权调整后的模拟结果

进一步结合表1与图1来分析各种方法下的RMSE。首先从不同方法的网络访问固定样本规模变化来看RMSE,使用未加权的匹配样本估计目标总体均值,RMSE随着网络访问固定样本规模的增大,先急剧减小后趋于稳定(稳定于0.040左右),估计效果变好并逐渐稳定。采用倾向得分逆加权估计目标总体均值,RMSE随着网络访问固定样本规模的增大,先增大至最高(N=3000,RMSE= 0.160)后逐渐减小,估计效果先变差然后逐渐变好。采用倾向得分加权组调整估计目标总体均值,RMSE随着网络访问固定样本规模的增大,先减小至最低(N=2000,RMSE=0.038),后增大至最高(N=3000,RMSE=0.124),此后逐渐下降,估计效果呈波动状态。采用倾向得分事后分层调整估计目标总体均值,RMSE随着网络访问固定样本规模的增大,变化较为平稳,基本稳定在0.025~0.045之间,估计效果非常好并且非常稳定。

另一方面,从不同网络访问固定样本规模来比较四种方法估计的RMSE,当N=1500和2000时,未加权匹配样本估计的RMSE均最大,倾向得分事后分层调整估计的RMSE均最小,倾向得分加权组调整与逆加权估计的RMSE均处于两者之间,可见倾向得分事后分层调整估计的效果最好,倾向得分加权组调整与事后分层调整估计效果次之,未加权匹配样本估计效果最差。当N=3000和5000时,倾向得分逆加权估计的RMSE均最大,估计效果均最差,其次是倾向得分加权组调整估计,此时未加权匹配样本估计的RMSE均较小,估计效果较好,但估计效果最好的仍然是倾向得分事后分层调整估计。当N=10000时,倾向得分逆加权与加权组调整估计的RMSE仍然较高,未加权匹配样本估计与倾向得分事后分层调整估计的RMSE基本相同,估计效果差不多。总的来说,当网络访问固定样本规模较小时,三种加权方法下的估计效果均好于未加权的匹配样本估计;当网络访问固定样本规模较大时,未加权的匹配样本估计效果较好;无论网络访问固定样本规模如何变化,倾向得分事后分层调整估计的效果始终都是最好的。这与Rivers(2007)[10]所提到的“当网络访问固定样本规模较小时,对匹配样本的事后分层调整是有用的,有助于减少不完美匹配所造成的偏差。”想法是一致的。同样的思想Rivers和Bailey(2009)[5]在“2008年美国全国选举的匹配样本推断”一文中也提到,并且他们进一步指出当网络访问固定样本大小与目标样本大小的比率比5还小时,有必要对匹配后的样本加权。本文的模拟结果与之不同的是当网络访问固定样本大小与目标样本大小的比率比3(非5)小时,有必要对匹配后的样本加权,可采取倾向得分逆加权、加权组调整和事后分层调整三种方法加权,估计效果均比未加权的匹配样本估计好。存在不同的原因可能是本文在样本匹配时采用的匹配方法(倾向得分匹配)与Rivers和Bailey不同,说明若将倾向得分用于样本选择阶段,可能会出现当网络访问固定样本大小与目标样本大小的比率(大于等于3)比5还小时,仍可直接利用匹配样本估计目标总体均值,而无需进一步加权调整。

图1 网络访问固定样本规模与RMSE之间的关系

3 实证分析

本文采用2014年美国社区调查中阿拉斯加州的数据http://factfinder.census.gov/faces/nav/jsf/pages/searchresults. xhtml?refresh=t,进一步验证本文所提出的方法。选取阿拉斯加州数据中的年龄、公民身份、婚姻状况、教育、性别、就业状况记录、种族、过去12个月的工资或工资收入共8个变量,6787个个案。其中年龄在1岁以下的记为0,1到99岁分别记为1,…,99;公民身份的取值为1、2、3、4、5,1表示在美国出生,2表示出生于波多黎各、关岛、美属维尔京群岛或北马里亚纳群岛,3表示出生在国外的美国父母,4表示加入美国国籍的美国公民,5表示非美国公民;婚姻状况的取值为1、2、3、4、5,1表示已婚,2表示丧偶,3表示离异,4表示分居,5表示未婚或者15岁以下;教育的取值为0到24,0表示小于3岁,1表示没有上学,2表示幼儿园,3表示学前班,4到9分别表示小学一年级到六年级,10到12分别表示初中一年级到三年级,13、14分别表示高中一年级和二年级,15表示高中三年级但无文凭,16表示普通高中文凭,17表示GED证书或者同等学历证明,18表示上了大学但不到1年,19表示上了1年或以上的大学但没有学位,20表示准学士学位或专科毕业证书,21表示学士学位,22表示硕士学位,23表示除了学士学位还有专业学位,24表示博士学位;性别的取值为1、2,1表示男性,2表示女性;就业状况记录取值为0到6,0表示小于16岁,1表示聘用的文职人员且正在工作,2表示聘用的文职人员有一个职位,但并没有工作,3表示失业,4表示武装部队且正在工作,5表示武装部队有一个职位,但并没有工作,6表示无劳动能力;种族取值为1到9,1表示白人,2表示黑人或非裔美国人,3表示美国印第安人,4表示阿拉斯加本地人,5表示既是美国印第安人又是阿拉斯加本地人或者不确定是美国印第安人还是阿拉斯加本地人,6表示亚洲人,7表示夏威夷原住民和其他太平洋岛民,8表示一些其他种族,9表示两个或多个种族。过去12个月的工资或工资收入取值为0到999999美元,该变量取值的最大值为366000,最小值为0,均值为20516.589,标准差为33308.300。

假设该6787个单元构成目标总体,从目标总体中简单随机抽取一个样本量为1000的样本(目标样本),并以过去12个月的工资或工资收入为目标变量,其他变量为协变量。假设网络访问固定样本为从目标总体中除去目标样本后的剩余单元中选取(通过网络招募),其规模分别为1500、2000和3000。在不同的网络访问固定样本规模下,利用倾向得分匹配选择样本,匹配方法为单一无放回最近邻匹配;并对匹配后的样本采用倾向得分逆加权、加权组调整和事后分层调整三种方法进行加权调整,估计目标总体均值,每种方法重复进行10次,最终计算的目标总体均值估计的均方误差(RMSE)见表2。

表2 匹配样本未加权与三种方法加权调整后的RMSE

由表2可见,当网络访问固定样本规模为1500和2000时,采用倾向得分逆加权、加权组调整和事后分层调整三种方法估计目标总体均值的效果均优于未加权时匹配样本的估计效果,并且倾向得分事后分层调整的估计效果最好,倾向得分加权组调整的估计效果次之。当网络访问固定样本规模为3000时,采用倾向得分事后分层调整的估计效果最好,其次是未加权时匹配样本的估计,两者估计的RMSE相差不大,并且采用倾向得分逆加权和加权组调整的估计效果均不如未加权时匹配样本的估计效果。可以看到,实证结果与模拟结果基本一致。

4 结论

本文提出采用倾向得分匹配选择样本,并对匹配后的样本利用倾向得分逆加权、加权组调整和事后分层调整三种方法进行加权调整,从而提高估计的精度,实现对目标总体的统计推断,并进一步采用蒙特卡罗模拟和实际数据比较各种方法的估计效果。蒙特卡罗模拟与实证研究表明:当网络访问固定样本大小与目标样本大小的比率比3小时,有必要对匹配后的样本加权,可采取倾向得分逆加权、加权组调整和事后分层调整三种方法加权,估计效果均比未加权的匹配样本估计的效果好;当网络访问固定样本大小与目标样本大小的比率不小于3时,倾向得分事后分层调整与未加权的匹配样本估计效果较好,可以考虑利用未加权的匹配样本或者倾向得分事后分层调整进行估计。

本文所提出的方法将倾向得分同时运用于非概率的样本选择阶段与加权调整阶段,提高了估计的精度,丰富了非概率抽样的统计推断方法。同时,由于网络访问固定样本具有成本较低,且能得到较快回答的特点,使得本文所提出的方法具有较强的可操作性。

[1]Baker R,Brick J M,Bates N A,et al.Summary Report of the AAPOR Task Force on Nonprobability Sampling[J].Journal of Survey Statis⁃tics and Methodology,2013,1(2).

[2]Svensson J.Web Panel Surveys--Can They Be Designed and Used in a Scientifically Sound Way?[C].HongKong:59th World Statistics Congress,2013.

[3]Rivers D.Sample Matching--representative Sampling From Internet Panels[J].Polimetrix White Paper Series,2006.

[4]Vavreck L,Rivers D.The 2006 Cooperative Congressional Election Study[J].Journal of Elections,Public Opinion&Parties,2008,18(4). [5]Rivers D,Bailey D.Inference From Matched Samples in the 2008 U. S.NationalElections[J].American Association of Public Re⁃search--JSM,2009.

[6]Terhanian G,Bremer J.A Smarter Way to Select Respondents for Sur⁃veys?[J].International Journal of Market Research,2012,54(6).

[7]Rosenbaum P R,Rubin D B.The Central Role of the Propensity Score in Observational Studies for Causal Effects[J].Biometrika,1983,70 (1).

[8]Smith J A,Todd P E.Does Matching Overcome LaLonde’s Critique of Nonexperimental Estimators?[J].Journal of Econometrics,2005,125 (2).

[9]Caliendo M,Kopeinig S.Some Practical Guidance for the Implementa⁃tion of Propensity Score Matching[J].Journal of Economic Surveys, 2008,22(1).

[10]Rivers D.Sampling for Web Surveys[C].The 2007 Joint Statistical Meetings,2007.

(责任编辑/易永生)

C811

A

1002-6487(2016)21-0004-05

国家社会科学基金资助项目(15BTJ014);中国人民大学2015年度拔尖创新人才培育资助计划项目

刘 展(1981—),女,湖北宜昌人,博士研究生,研究方向:抽样调查技术与数据分析。

金勇进(1953—),男,北京人,教授,博士生导师,研究方向:抽样调查技术与数据分析。

猜你喜欢
总体均值调整
夏季午睡越睡越困该如何调整
用样本估计总体复习点拨
2020年秋粮收购总体进度快于上年
工位大调整
外汇市场运行有望延续总体平稳发展趋势
均值—方差分析及CAPM模型的运用
均值—方差分析及CAPM模型的运用
沪指快速回落 调整中可增持白马
直击高考中的用样本估计总体
关于均值有界变差函数的重要不等式