徐媛媛 台婷婷
内容提要:以2011年我国31个省市自治区和2012年部分省份的旅游外汇收入统计数据为基础,运用多种估计方法,估计了2012年我国旅游外汇总收入、抽样方差及在95%的概率保证程度下旅游外汇收入总量的置信区间。经过对几种方法的比较发现.PPS抽样估计值与当年的外汇总值相当,说明在总体单元差异大的情况下,技术上采用PPs抽样方法,可以以较低的成本完成更精确的估计
关键词:抽样技术;PPS抽样;旅游外汇收入
中图分类号:F590文献标识码:A 文章编号:1003-4161(2015)01-0094-04
DOI:10.13483/j,cnki.kfyj.2015.01.022
旅游外汇收入也称国际旅游收入,是指本国为人境的国际旅游者提供的商品及各种服务所得到的外汇收入。入境旅游是我国旅游“三大市场”中开发最早、发展最快的市场。据中国统计局公布的资料,1994年来华进行人境旅游的外国人数仅4368.45万人次,而旅游外汇收入也仅仅73.23亿美元。而2012年,入境人数已达13240.53万人次,旅游外汇收入500.28亿美元,比1994年分别增长了203.1%和583.2%。我国的旅游业正以它强劲的创汇能力和快速发展的势头成为我国经济发展的支柱性产业之一。在这种情况下,有必要对旅游外汇收入进行更加精确的估计。我们知道当抽样单位的大小与目标变量之间相关时,采用PPS抽样方法,可以提高抽样效率纠。本文通过分析2011年我国31个省市自治区和2012年部分省市自治区的旅游外汇收入统计数据,对旅游外汇收入估计的PPS抽样等三种方法进行比较,寻求最佳的估计方法,以便为相关旅游政策的制定提供依据。
一、抽样方法简介
(一)简单随机抽样及其估计量
1.简单随机抽样概念
假设总体有N个单元,从中进行逐个不放回的抽样,抽取n个单元。这n个单元组成一个简单随机样本,这种抽样的方法称为简单随机抽样。
2.简单随机抽样下总体均值和总体总值
(1)定义。在简单随机抽样中,若总体有N个单元,抽取容量为n(n (二)分层抽样及其估计量 1.分层抽样概念 分层抽样(stratified sampling)又叫类型抽样或分类抽样。分层抽样是指将总体的N个单元划分为互不交叉重叠的L层,然后各层进行独立抽样。若设各层所包含的单元数分别为Ni,显然若各层均进行简单随机抽样,那么这种分层抽样称作分层随机抽样。设总样本量为n,各层的样本量分别为n1,n2,…,nL,显然 2.分层随机抽样下总体均值和总体总量(1)定义 在分层抽样下,分别根据各层样本计算出各层均值Y,、的估计值Y,通过各层的权重Wn进行加权平均,然后得到总体的均值Y的估计量。分层随机抽样下,记Y为l,层的样本均值Yh,若将总体均值Y的简单估计记为Yst则有分层随机抽样样本均值Yst和总体总值Yst的方差分别为 (三)PPS抽样及其估计量 1.PPs抽样概念 放回不等概抽样中,假设总体中第i个单元的大小或规模的度量为M。总体的总规模为每次抽样中第i个单元被抽中的概率用zi表示,如果这种不等概抽样就称作PPs抽样(probabilily proportional Lo size),即放回的与规模大小成比例的概率抽样。 2.实施方法 本文采用规模累积等距抽选法实施PPS抽样。设总体有N个单元,各单元规模度量分别为M1,M2,…,MN(整数),其中第i个单元相应地分配Mi个代码(i=l,…,N),总共有个代码。若欲抽取容量为n的样本,则须先确定等距抽样的间隔。然后在l~K之间随机抽取一数r,其所在代码区间对应的单元就作为第一个被抽中的单元,如此,r,r+K,…,r+(n-1)k等数字所在的代码区间的相对应的单元即为被抽中的单元。这种抽样方法的特点是每个单元被抽中的概率与该单元M.的规模大小成比例。 3.PPs抽样下总体总量和方差 (1)定义 汉森和赫维茨于1943年针对PPS抽样方法给出了估计总体总量的无偏估计量,称为汉森一赫维茨(Hensen-Hurvitz)估计量: 其中,Yi为样本的第i个单元的变量值,而为人样的第i个单元根据其规模大小入样的概率。另外YHH是无偏的。 (2)方差 二、数据分析 (一)数据收集与处理 本文使用数据来自于《2013中国统计年鉴》,选取2011年和2012年各地区按旅游外汇收入(万美元汁)总额的数据进行分析。对数据进行初步分析,我们发现2011年我国旅游外汇收入最大值与最小值之差为1389999万美元,相差2242.934多倍,单位之间的差异非常大。下面我们分别用简单随机抽样、分层抽样、PPS抽样来估计2012年我国旅游外汇收入的总额。 (二)总体总量的简单随机抽样估计 给我国31个省市自治区分别编号为01~31,利用随机数表抽取13个地区作为样本,抽中的13个地区如下表l所示。下面以这13个地区的旅游外汇收入来估计2012年我国31个省、市、自治区的旅游外汇收入。 利用公式(2)得总体总量估计: 利用公式(4)得总体方差估计: 置信度为95 010的置信区间为: 2012年,全国的实际旅游外汇收入总额为5002800万美元,位于置信区间内。 (三)总体总量的分层估计
根据不同地区2011年旅游外汇收入总额,将31个地区分为四层,如表2所示。
各子层采用简单随机抽样方法按比例抽取样本,分别抽取4个(宁夏、青海、贵州、吉林)、3个(河北、内蒙古、湖北)、3个(陕西、天津、山东)、2个(福建、江苏)样本,四层总计12个样本。各层统计结果见表3。
利用公式(6)对我国2012年旅游外汇收入总额进行估计:
Yst=10x17337+7×86211.333+8x224917.667+6×526269.5=5733807.667。
由公式(8),可以得到总体方差估计:
置信度为95%的置信区间为
2012年,全国的实际旅游外汇收入总额为5002800万美元,位于置信区间内。
(四)总体总量的PPS抽样估计
以各地区为单元,以其2011年旅游外汇收入额作为各单元规模,并进行累计,得到表4。采用規模累积等距抽选方法抽取10个样本地区。将Mo:EMi=5968204除以样本量n=10,得到抽样间隔K在1~K之间抽取一个随机数r=259895,显然处于北京的代码范围,因而北京入样。然后选取r+K,r+2K,…,r+(n-1)k的地区:依次是内蒙古、上海、江苏、浙江、福建、湖南、广东(计入2次)云南,总共10个样本9个省市入选。
这10个样本地区入样的概率用计算,结果见表5。
用这10个样本省的旅游外汇收入来估计2012年全国旅游外汇收入总额,由公式(9)汉森一赫维茨估计量得:
故推断,全国31个省市2012年全国旅游外汇收入总额为4975896.243万美元。
由公式(11)得总体总值方差估计为置信度为95%的置信区间为
2012年,全国的实际旅游外汇收入总额为5005800万美元,位于置信区间内。
(五)三种估计方法的比较
1.总体总值估计的比较
一般抽样调查中取得的样本数越多,成本就越高,但得到的结果会越精确。简单随机抽样、分层抽样和PPS抽样分别抽取了13、12和10个样本,样本数逐渐递减。其中,尽管PPS抽样抽取了最少量(10个)的样本,但其对总体总值的估计值4975896.243万美元最为接近2012年旅游外汇收入的实际值5002800万美元。
2.抽样效果的比较
简单随机抽样、分层抽样和PPs抽样三者的总体方差以PPS抽样方法下的方差最小,为2.855×10l,在95%的置信度下的置信区间为(3928550.007,6023242.478),为三者中范围最小。这表明PPS抽样方法相比其他两种方法更加精确。
综上所述,PPS抽样方法能以较低的调查成本得到较好的抽样效果。
三、结论
通过对2011年我国31个省市自治区旅游外汇收入进行PPS抽样,利用2012年部分省区数据估计出2012年全国旅游外汇收入总额为4975896.243万美元,95%的置信程度下的置信区间为(3928550.007,6023242.478)。2012年实际值为5002800万美元,处于置信区间内。通过对简单随机抽样、分层抽样与PPS抽样三种方法进行比较,发现不论是对总体总量的估计还是其抽样误差大小来说,PPS抽样对我国旅游外汇收入估计的精确度更高,而且由于抽取了较少的样本,抽样成本会更低,总体效果要由于前两者。所以,当需要对各单元之间差异比较大的总体i井行估计时,宜采用PPS抽样。