基于经验加权方法的无回答问题研究

2011-05-18 08:05王克林刘建平

统计与决策 2011年13期

王克林，刘建平

（1.广东商学院经济贸易与统计学院，广州 510320；2.暨南大学经济学院，广州 510632）

0 引言

无回答误差是非抽样误差的一个重要来源。它普遍存在于各种类型的统计调查中，且能对调查结果产生严重影响。当无回答误差比较严重时，也就是当某次统计调查中落入到某一区域的样本量很小甚至为零时，对该区域的估计问题称为小域估计。小域问题在国内外的大型抽样调查中都是存在的，是一个世界性的难题。无回答会使总体目标估计量产生偏倚，方差增大。因此，无回答也是国内外非抽样误差研究中一个长盛不衰的课题。在我国，政府统计往往都采用多阶段抽样调查的方式。这种抽样调查方式中所产生的非抽样误差是非常值得关注和研究的[1]。其中一个方面，这种抽样调查在抽样方案设计时考虑的多数都是总体或子总体估计的需要，因而统计调查所获得的数据往往只能满足较大区域估计的需要。有时即使某区域样本量不小但无回答误差严重时，该区域的样本量往往很难保证利用传统的推断估计方法达到所要求的可靠性。因而，探索有效解决分层抽样中由于无回答等原因导致某些层样本量偏小而无法估计的问题是满足我国政府统计多层次推断的迫切需要。

对小域估计问题，赵雪慧在其博士论文（2005）[2]中已经对国内外关于小域估计的理论进展和实际应用做了全面研究；对于无回答的影响、调整和降低措施，在一般的抽样调查著作中都有介绍。冯士雍等（1997）[3]的研究都比较全面。本文对此不再做详细介绍和综述，本文尝试将多阶模型中的空模型和经验加权方法应用于研究无回答问题。

1 多阶模型中的空模型

多阶模型分析通常是从空模型，又称截距模型，或无条件均值模型开始的。根据 Goldstein（1996），[5]王济川等（2008）[4]的研究，空模型的基本格式可表示如下：

将式（1）、式（2）和式（3）所示空模型记为模型 1。式（1）表示微观层面的变量关系。其中，yij表示第j组第i个个体的取值水平；β0j和eij分别代表第j组因变量均值和围绕该均值的个体随机差异。式（2）表示宏观层面的变量关系，总截距γ00代表的是yij的总（平）均值；u0j代表第j组的因变量均值（β0j）与总均值（γ00）之间的差异。式（3）是式（1）和式（2）的组合，包括了固定效应（γ00）和随机效应（u0j和 eij）两部分。该模型的微观层（水平1）和宏观层（水平2）公式中均没有解释变量。若在式（1）中纳入水平1解释变量并将其系数设为随机的，则模型就变为随机系数回归模型；若在式（2）中纳入水平2解释变量（即场景变量），模型就变为有条件约束的回归。Goldstein(1988)介绍了多阶模型的一般形式。由式（2）可见，分层抽样中第j层研究变量Yij的均值估计值可以表示为：

采用Goldstein（1996）介绍的多阶模型估计方法很容易得到式（4）中各层均值的估计值估计多阶模型采用的方法是（有约束的）极大似然估计。因此，根据式（4）得到的各层均值的估计不仅具有小样本估计的优良性质，还具有大样本性质，如一致性、渐近正态性等。

2 经验加权方法

经验加权方法是多阶模型估计方法的一种。按照经验加权方法，分层抽样中第j层均值的参数估计是利用第j层子样本和整体样本数据估计出来的最佳加权平均参数估计值。有很多学者，如 Lindley&Smith （1972）[6]、Raudenbush&Bryk（2002）[7]、王济川等（2008）[4]、赵雪慧（2005）[2]也将其称为经验贝耶斯方法。本文依其原意，称其为经验加权估计方法，且不详细讨论其估计原理，仅就其在无回答估计中的应用进行研究。

在式（1）～（3）所表示的多阶模型中，β0j的经验加权估计值可以表达为和的加权线性组合：

由式（5）可见，在经验加权中，起关键作用的是权重系数ρj。经典文献中将ρj称为可靠性，它度量了参数估计值的可靠性。根据王济川等（2008）的研究，在不存在测量误差的假设下，空模型中β0j估计值的可靠性可以表示为：

其中，nj表示第j层样本量。式（6）揭示了可靠性ρj是nj的函数。显然，ρj的取值范围在区间[0，1]之内。第j层的权重ρj越大，说明 β0,j的估计值的可靠性越大，则在的经验加权估计值中所占比重就越大；否则总均值所占比重就会较大。从式（6）还可以看出，ρj的大小与第j层的样本容量nj成正比。当第j层存在无回答时，或者其样本量nj较小时，由式（6）可见，权重系数 ρj就比较小，对的估计就会收缩，多阶模型的参数估计值就会被“拉”向用整个样本计算出的参数估计值。因此，该方法也被称为“收缩估计法”。

3 实证研究

上文介绍了两种解决统计调查中某些层（组）样本数据稀少的情况：直接利用多阶模型中的空模型进行估计的式（4），我们将其称为多阶模型方法（MLM）；利用经验加权法估计参数的式（5），将其记为经验加权方法（EW）。下面运用2007年广东城镇住户调查资料对这两种方法进行比较验证。数据来源可参阅王克林等和刘建平（2010）的研究。

由表1可见，不同估计方法的估计结果差异很大。首先，从整体上看，所有的可靠性估计值（ρj）均高于0.90，说明样本均值对总体均值的估计是可靠的。其次，从估计效果来看，经验加权方法（EW）的估计效果要优于多阶模型（MLM）的估计效果。EW方法估计误差率的均值为0.16%，远低于MLM估计的2.00%。MLM估计结果中误差率超过5.0%的地区有五个；而EW估计结果中误差率除了14号地区为1.64%外，其余地区误差率均低于1%。另外，EW估计误差率的方差为0.5443，远低于MLM估计的3.7978。由此可见，EW估计误差率不仅低，而且稳定。

最后，再从小样本的估计结果看，EW对小样本的估计效果要远远优于MLM估计。EW估计中，样本量为50的地区估计误差合计为1.51%，远低于MLM估计的24.46%。MLM估计中误差率超过5%的五个样本单元中，有四个来自小样本；而EW估计中误差率超过1%的样本单元仅有一个，也来自小样本。这说明EM估计方法更适合存在无回答时小样本层的估计。这里，不妨稍微讨论一下为什么EW估计的效果会是最好的。从式（6）可见，对应于的权数ρj实际上是与的可靠性成比例的。如果β0j的估计值方差较小，说明β0j围绕总体均值估计值的波动程度较小，此时β0j的估计就会更多地被“拉向”总均值的估计，即这就是EW方法也被称为条件收缩估计的原因。因为可靠性ρj的估计值与层样本量nj呈正相关。因此，当样本量较小时，利用整个样本进行的参数估计值（总均值的估计）在EW估计中就占有较大比重。也就是说，EW估计在层样本数稀少时“借助”了全部样本的信息而MLM估计仅依靠层内稀有数据的信息。这就是为什么EM估计方法相对于MLM方法更适合存在无回答时小样本层的估计的原因。

表1 多阶模型（MLM）估计结果与经验加权法(EW)估计结果的比较

[1]王克林,刘建平.调查员误差的计量模型与测度方法[J].统计与决策，2009,(10).

[2]赵雪慧.域估计与方法研究[D].北京：中国人民大学,2005.

[3]冯士雍，倪加勋，邹国华.抽样调查理论与方法[M].北京：中国统计出版社,1997.

[4]王济川等.多层统计分析模型——方法与应用[M].北京：高等教育出版社,2008.

[5]Goldstein.Multilevel Statistics Models[EB/OL].1996.http://www.soziologie.uni-halle.de/langer/multilevel/books/goldstein.pdf.

[6]Lindley,D.V.,Smith,A.EM.Bayes Estimates for the Linear Model[J].Journal of the Royal Statistical Society,Series B,1972，34.

[7]Raudenbush,S.W.，Bryk,A.S.Hierarchical Linear Models:Applications and Data Analysis Methods （2ndEdition）[M].Newbury Park,CA:Sage，2002.