以一种全新的视角看待拉希里方法

2014-09-28 01:50杨屹
2014年22期

杨屹

摘要:本文通过研究抽样调查中的PPS抽样,发现实现这个方法的代码法和拉希里方法存在着紧密的联系,通过一个全新的视角看待拉希里方法,发现拉希里方法和代码法本质上是一样的,代码法是PPS抽样的一维表现形式,而拉希里方法是PPS抽样的二维表现形式。他们仅仅是表现方式上的差异,其本源是一样的。

关键词:PPS抽样;代码法;拉希里方法;一一对应

1.背景介绍

调查这种古老的方法,自古有之,古代就有调查的例子,不过限于当时的科技水平,调查的方法往往比较简单单一,随着现代经济的发展,社会变得越来越复杂,简单的调查方法不能够适应实际的需要,于是就出现了很多现代意义上的调查方法。这些调查方法有的精妙绝伦,有的简单易行,各有千秋。

而近代抽样调查这么学科的开端是在1895年,当时的挪威统计学家凯尔在国际統计学会第五届大会上首先提出了抽样的科学概念,抽样就是用代表性样本方法来代替全面的调查,这样抽样就有了科学的意义,抽样这么学科也才有了真正的意义,之后,随着时间的推进,各种抽样的方法层出不穷,我们在这里不一一列举。

抽样调查根据抽取样本概率的不同,非为概率抽样和非概率抽样。抽样调查的目的是根据样本的情况推断总体的情况。与全面调查相比,抽样调查有其独特的优势,第一,与全面调查相比,抽样调查调查的样本要少很多,减少了很多工作量,提高了效率,又由于其科学性,所以其效果却不必抽样调查差多少。所以抽样调查逐步取代了全面调查,是全面调查望尘莫及。然而在抽样调查的发展过程中,建立在概率论上的概率抽样由于其方法和理论的科学性,逐步取代了有目的抽样,也使其它非概率抽样销声匿迹。从1933年开始,世界将概率抽样理论研究提高到了一个新的高度,将概率抽样的实际应用推进到了一个更广阔的领域。在经济社会中扮演着越来越重要的角色。

抽样调查由于其科学性的理论依据在现代的社会中发挥着越来越多的作用,不仅仅是在经济部门中,在其他社会科学和医学中也发挥着重要的作用,没有抽样调查,可以说好多研究就没法进行,没有抽样调查,好多社会部门都不能运转了,现代社会越来越离不开抽样调查了。他已经和我们的生活有了千丝万缕的联系,抽样调查已经深入到我们生活的方方面面,他也发挥了举足轻重的作用。这就是抽样调查在我们的生活科研中的真实面貌。总之,抽样已经和我们的生活有机的联系在一起了,已经密不可分,难舍难分了。

我们这里主要讨论不等概抽样当中的PPS抽样,即与规模成比例的放回不等该抽样。实行PPS抽样的方法主要有两种,一种是代码法,另一种是拉希里法,一般来说,代码法适合总体单元数不是很多的情况,而当总体单元数很大的时候,就采用拉希里法。代码法简单易懂,往往容易接受,但拉希里法有一个判断与决策的过程。过程略显复杂,不易被人看懂其中的奥妙。本文就是通过解剖拉希里法,来探索其中的奥秘,发现拉希里方法本质上是代码法在二维上的一个推广[1]。

PPS抽样简介,PPS抽样,即概率与规模成比例的抽样,是一种非常常见的有放回的不等概抽样方法。因为总体中各抽样单元的规模可能差别很大,造成各抽样单元的地位不相等。若这时仍然采取简单随机抽样的方法,会产生很大的抽样误差。例如:各个工厂的抽样调查,由于各个工厂或者企业的规模差别相当大,如果仍然按原来的简单随机抽样,会造成非常小的工厂和非常大的工厂被抽中的概率相等,这与实际显然不符合。

假设某个总体有N个单元,假如每一个单元都有表明其规模大小的一个度量,那么就设第i个单元的规模为Mi,于是,自然而然的,总体的总规模就是M0=∑Ni=1Mi,假如每个单元的概率设为Ni=MiM0,由此可见,概率与规模成正比,这就意味着,在每次抽取的过程中,每个单元的入样概率与其规模的大小成比例,这种放回的与规模成比例的概率抽样就是所谓的PPS抽样[2]。

代码法简介,代码法又称累计和法,其过程是这样的,在PPS抽样中,设第i个单元的规模为Mi,就是它的代码数,那么总规模M0,就是累计代码数。总体所有的单元排列好顺序后,单元1对应自然数1到M1,单元2对应自然数数M1+1到M1+M2,单元3对应自然数数M1+M2+1到M1+M2+M3,重复此过程,一直累计代码到M0。每次抽取的时候,就在1,M0内产生一个随机数,设为m0,那么代码m0对应的单元就会被抽中,这就是一个样本量的抽取过程,依次重复这样的过程n次,便得到一个样本量为n的PPS样本。

拉希里方法简介,拉希里法又称最大规模法,其具体的过程是这样的,在区间1,N内产生一个随机数,设为i,那么就对应单元i,其规模就是Mi;令M=max1≤i≤N(Mi),就是所有单元规模中的最大者。接着,在区间1,M内产生一个随机数,设为m;最后决策:若m≤Mi,则单元i被抽中,反之无效,重新再抽;重复以上步骤,直到抽出n个样本单元[3]。

2.两者之间的关系的探讨

从表面上看起来,代码法与拉希里法似乎是两种完全不同的方法,分马牛不相及,代码法是把各个单元的规模累加起来,然后选取一个单元,而拉希里法是是最大规模进行比较来判断是不是抽中这个单元。但实际上,它们却存在着千丝万缕的关系,而且本质几乎是大同小异。可以这样说,拉希里法是对代码法维数上的推广,把一维的代码法推广到二维的情况,这种推广实际上是对总体单元数过于庞大的缺陷进行的改进,是通过增加判断与决策的过程来实现的,其原因是在把代码法推广到二维上的时候,我们的抽样会产生一些冗余,我们所要做的就是把这些冗余给去掉,改进抽样的效率,防止抽样变的不可靠。

接下来,本文来讨论这两种方法之间的内在联系性。把拉希里法所有可能产生的i和m分别作为矩阵中每个元素的第一分量和第二分量,则就够成了一个N行,M*列的矩阵。为了便于表述,假设规模Mi之间存在如下的关系:M1≤M2≤…≤MN=M。其余情况类似。矩阵如下图所示:

1,11,2…1,M1…2,12,2…2,M1………………N,1N,2…N,M1…1,M22,M2…N,M2…………1,M2,M…N,M

在本文当中,称每一次由拉希里方法产生的i,m为一个坐标点,当m≤Mi时,本文称这样的坐标点是有效坐标点,即不需要再进行抽取,已经产生一个样本。当m>Mi时,本文称这样的坐标点为无效坐标点,即还要进行抽取,还没有产生一个样本。

接下来,由拉希里方法的过程可以知道,并不是每次抽取的坐标点都是有效的,即要对这些左边点进行筛选,选取那些有效坐标点。筛选之后的矩阵如下图所示:

1,11,2…1,M12,12,2…2,M1………………N,1N,2…N,M1…2,M2…N,M2………N,M

然后,构造一个映射:f: a,b|c

c=ba=1∑Ma-1i=1Mi+ba≥2 1≤a≤N,a∈N,1≤b≤Mab∈N

不难知道,把矩阵当中的有效坐标点代入到这个映射当中的时候,得到的c就是代码法当中m0。反过来,给定一个m0,也可以求出唯一的一个坐标点a,b,这样,代码法和拉希里方法就建立起了一个一一对应的关系。

从这个一一对应的关系可以看出,代码法的本质就是从从一个一维的正整数集合中选取一个数,只是由于有时候这个集合所包含的元素太多,会造成操作上和计算上的麻烦。而拉希里方法的本质就是从一个矩阵当中随机的选取一个坐标点的过程,当这个坐标点是无效坐标点的时候,即这个点在我们抽样的实际操作过程中没有意义的时候,我們就选择舍弃,然后重新选取,直到取到一个有效坐标点,即那个坐标点符合我们抽样中的实际意义。

不难发现,从代码法拓展到拉希里法的时候,我们抽样空间的维数发生了变化,从原来的一维变化到了后来的二维。维数的增加虽然增加了操作步骤上的麻烦,但是却大大减少了计算量,这是从代码法到拉希里法的一个明显的变化。从代码法拓展到拉希里法的时候,另一个重要的变化是,增加了很多无效坐标点,即出现了一些没有实际意义的坐标点,这些坐标点的出现,使拉希里方法的操作过程变得不怎么干净利落,有很大的冗余程度,就是每一次随机选取一个坐标点的时候,并不是每个坐标点都是有实际意义的。在在一定程度上降低了拉希里方法操作上的便利。然而,究其原因,出现这些无效坐标点是由于每个个体的规模存在着不同,在从一维拓展到二维的时候出现了一些没有实际意义的点。有时候,这些无效坐标点带来的弊端可能是无法容忍的,它会大大降低抽样的效率,即抽到一个样本所付出的成本。但一般情况下这些无效点带来的弊端不是这么大,所以综合以上情况,拉希里方法对处理单元的数量比较多和单元的规模参差不齐的时候,还是优于代码法的。

那么究竟对于什么的情况,拉希里方法的效率比较低呢,通过上面的矩阵不难发现,就是当最大规模特别大,而其余的规模比较小的时候,冗余程度会特别大,当然也不止这种情况,这只是一种非常特殊的情况,总的来看,就是当各个抽样的单元差别越大的时候,抽样的效率会越低,当各个抽样的单元差别越小的时候,抽样的效率会比较高,这也不难理解,从我们的矩阵当中分析,就一目了然。

3.结论

本文通过比较和分析PPS抽样中的代码法和拉希里方法,发现了拉希里方法其实是代码法的推广,代码法是从一个一维空间中抽取一个元素,而拉希里方法是从一个二维空间中抽取一个元素,但两者有异曲同工之妙。这两种方法之间还在某种程度上存在着一一对应的关系,这种关系其实还反映出这两种方法本质上是一样的,只是我们的观察的角度不一样。从代码法拓展到拉希里方法的时候,虽然增加了操作的步骤,但大大简化了计算的复杂度,此可谓此消彼长。

本文还分析了拉希里方法什么时候抽样的效率比较大,什么时候抽样的效率比较小,当各个单元的规模相差很大的时候,拉希里方法的冗余度就会增加,抽样效率会降低,当各个单元的规模相差很小的时候,拉希里方法的冗余度就会降低,抽样效率会增加。

4.展望

本文通过比较和分析PPS抽样中的代码法和拉希里方法,发现了拉希里方法和代码法的内在的联系,他们的本质都是同一个道理,如果按照数学的说法,一个便是是一维的表现形式,另一个便是二维的表现形式,但是他们的本质都是一样的,所以我们有必要发问,那么一维的代码法和二维的拉希里法是否存在高维的拓展形式呢,如果存在高维的拓展形式,他们到底是怎么样的呢,这就需要我们继续去探讨代码法和拉希里法的本质然后把它拓展到高维的形式,这是本篇文章没有解决的问题,要继续探索这些问题,有待我们进一步的深入探讨。(作者单位:首都经济贸易大学)

参考文献

[1]Kish L. Survey Sampling[M].New York: John Wiley & Sons,1965.

[2]金勇进.抽样技术[M].北京:中国人民大学出版社,2002.

[3]孙山泽.抽样调查[M].北京:北京大学出版社,2004.