艾小青
(北京工业大学a.经管学院;b.首都社会建设与社会管理协同创新中心,北京 100124)
特定抽样下有效样本量的性质研究
艾小青a,b
(北京工业大学a.经管学院;b.首都社会建设与社会管理协同创新中心,北京 100124)
常见的放回抽样等方法操作比较简单,但缺点是有效样本量是不确定的,而是取决于抽样的随机结果。文章对PPS抽样和泊松抽样下有效样本量的性质进行了研究,通过数理推导和统计模拟揭示了有效样本量的分布特征,给出了特定条件有效样本量的置信区间。
有效样本量;PPS抽样;泊松抽样
很多抽样方法都存在有效样本量不能事先确定的问题,最终的有效样本量往往取决于抽样的结果,所以是随机的[1]。比如群规模不相等时的整群抽样,当抽出群的规模较大时,最终样本单元就多,反之就少;比如各种放回抽样,在依次抽取时都将已抽出的样本单元放回抽样总体再重新抽取,导致有些单元可能会重复抽到,抽出的有效样本量小于等于抽取的次数。
PPS抽样和泊松抽样是现实中两种应用较多的抽样方法,它们都存在有效样本量非确定性的问题[2],但少有文献深入研究其有效样本量的具体性质到底是怎样的[3],本文将对此问题进行深入探讨,通过数理推导和统计模拟揭示有效样本量的分布特征。对有效样本量性质的准确把握,能够更好地指导实际的抽样设计。
有限总体包含N个单元,单元变量取值分别为Y1,Y2,…,YN,总体总量为
任何概率抽样的关键是了解总体单元的入样概率。一阶入样概率πi表示单元i被抽出的概率;二阶入样概率πij表示不同两个单元i和 j都被抽出的概率。
定义一阶示性函数:
二阶示性函数:
单元i在最终的样本中则一阶示性函数取值为1,否则为0。因为总体单元中抽出了n个有效样本单元,意味着必有n个单元的一阶示性函数值为1,所以,有效样本量与一阶示性函数值的关系是:
示性函数具有如下性质:
有效样本量n的期望即总体所有单元的入样概率之和:
有效样本量n的方差为:
设存在一个规模辅助变量,总体N个单元的规模分别为X1,X2,…,XN,总体规模总量为单元i的规模比重为Pi=Xi/X。
以规模变量作为辅助信息,进行PPS抽样:设样本量为T,即独立重复进行T次放回抽取,每次抽取时单元i被抽到的概率都为Pi。单元i的一阶入样概率为:
单元i,j(i≠j)的二阶入样概率:
特别注意的是,这里的样本量T,实质是抽取的次数,而实际抽出的有效样本量n必然小于等于T,因为在放回抽取下有些单元会重复抽到。
根据式(9)和式(10),有效样本量n的期望和方差为:
当总体单元数N较大且各单元的规模比重都接近为0时,单元被重复抽到的概率很小,有效样本量n的期望值接近T。
n的理论取值范围为1到T之间,P(n),n≤T表示T次抽取后,有效样本量为n的概率,其概率分布比较复杂,根据全概率公式,其理论表达式为:
当N较大于T且总体单元没有规模比重极大的个体时,单元被重复抽到的概率很低,有效样本量n一般接近T。当抽取次数T较大或者总体单元中存在规模比重极大的个体时,单元被重复抽到的概率较大,有效样本量n将小于T。
使用R软件进行了PPS抽样的统计模拟,其中规模比重辅助变量根据均匀分布生成,总体单元数N确定为1000。模拟次数为10万次,考察了不同抽取次数T下,不确定性有效样本量的分布(直方图)以及特征值(期望和标准差等)。
(1)由表1可以看出,抽取次数T较小时,有效样本量n分布比较集中,基本上等于或稍小于抽取次数T,差值一般不超过2。T越小,n=T的概率值就越大,有效样本量n的期望值与抽取次数T也越接近,抽取次数小于40时,两者的绝对差值不超过1,相对差值不超过0.03。
表1 不同抽取次数下有效样本量的概率值和特征值
(2)由图1可以看出,随着抽取次数T的增加,有效样本量n分布将更为分散,并且趋于正态化。当抽取次数等于100时,有效样本量近似为正态分布。这样就能给出当抽取次数T较大时,有效样本量的95%的置信区间为:
图1 不同抽取次数下有效样本量的分布特征
泊松抽样是严格的不放回不等概率抽样,总体单元i的入样概率πi事先确定。针对总体的各个单元分别独立抽取,每个单元可能抽出也可能没抽出,这是它最特别的性质。
每个单元是否抽出是随机的,服从0,1结果的二项分布,单元i抽出的概率即为事先确定的πi,而最终抽出的单元数量(有效样本量)必然也是随机的。
单元之间的抽取都是相互独立的,所以二阶入样概率为:
根据式(9)和式(10),有效样本量n的期望和方差为:
n的概率分布相对比较简单,总体的N个单元有n个单元抽出来了,相应单元被抽出的概率为πi,有N-n个单元没被抽出来,相应单元没被抽出的概率为( ) 1-πj,不同单元的抽取是相互独立的,所以根据全概率公式,有效样本量n概率分布的理论表达式为:
根据中心极限定理可知,当总体单元数N较大时(N>30),在这现实中一般都是满足的,有效样本量n近似服从正态分布[4]。
入样概率确定后,有效样本量n的期望和方差根据式(18)和式(19)可以直接计算出来。再通过R软件统计模拟(模拟次数为10万次),其中各单元的入样概率根据均匀分布随机赋值,展示在不同总体单元数N下有效样本量n的分布特征。
由图2可以看出,有效样本量的分布基本都是对称的,尤其是当总体单元数N越大时,越近似于正态分布。这样就能给出总体单元数N较大时,有效样本量的95%的置信区间为:
图2 不同总体单元数下有效样本量的分布特征
PPS抽样和泊松抽样在实际抽样调查中有着广泛的应用,但它们的有效样本量实质上无法事前确定,而是取决于抽取结果的随机变量。本文对两种抽样下有效样本量的性质进行了深入研究,通过数理推导给出了有效样本量的概率分布,以及相应的特征值(期望和方差),通过统计模拟给出了有效样本量的分布特征,特别是给出了一定条件下有效样本量的置信区间,这样虽然无法事前确定有效样本量的最终结果,但可以有概率层面的推断和了解。
本文研究结果有着一定的理论和现实意义,一方面有助于我们更加深入理解抽样设计的原理和抽样结果的特征,另一方面对有效样本量有了更准确的事前预判,能够更好地指导抽样的方法设计以及调查的组织开展。
[1]Antal E,Tille Y.A Direct Bootstrap Method for Complex Sampling De⁃signs From a Finite Population[J].Journal of the American Statistical Association,2011,16(494).
[2]Rao C R,Rubin H.On a Characterization of the Poisson Distribution[J]. Sankhyā the Indian Journal of Statistics,1964,(32).
[3]Antal E,Tillé Y.Simple Random Sampling With Over-replacement[J]. Journal of Statistical Planning and Inference,141.
[4]金勇进,杜子芳,蒋妍.抽样技术(第二版)[M].北京:中国人民大学出版社,2008.
(责任编辑/易永生)
C811
A
1002-6487(2016)23-0012-03
北京市社会科学基金基地项目(14JDJGC040);北京工业大学日新人才项目;北京工业大学首都社会建设与社会管理协同创新中心项目
艾小青(1982—),男,湖南邵阳人,博士,副教授,研究方向:抽样调查、经济统计。