狄晓园 张琴芳
摘要:本文参照国家统计年鉴和重庆统计信息网的数据,采用简单随机抽样估计、分层抽样估计和PPS抽样估计方法对我国电力消耗量进行估计,并且三种估计方法进行比较分析,最后得出采用分层随机抽样估计方法的效果是最好的。
关键词:简单随机抽样;分层抽样;PPS抽样;电力消耗量
一、原理介绍
(一)简单随机抽样
简单随机抽样就是从总体的N个单元中,以此整批抽取n个单元,使任何一个单元被抽中的概率都相等,任何n个不同单元组成的组合被抽中的概率也都相等。当总体单元之间差异不大时,简单随机抽样简便、有效。
(二)分层抽样
分层抽样又称为类型抽样或分类抽样,即在每一层中独立进行抽样,总的样本由各层样本组成,总体参数则根据各层样本参数的汇总做出估计,这种抽样就称为分层抽样,所得样本称为分层样本。当总体规模N与样本容量n都较大,总体单元之间的差异也较大时,可以采取满足组内差异小、组间差异大的分组原则进行分层抽样。
(三)PPS抽样
按规模大小成比例的概率抽样,简称为PPS抽样,它是一种使用辅助信息,从而使每个单位均有按其规模大小成比例的被抽中概率的一种抽样方法。当抽样单元规模差异很大时,经常采用不等概抽样,即每个单元入样的概率不相等。
二、抽样估计方法在全国电力消耗量估计中的应用
(一)简单随机抽样估计
1、样本容量的确定。调查全国电力消耗是以省(市)为抽样单元,从我国31省(市)去掉西藏自治区按照30%的比例抽取10个样本单元先做一个小型试验来估计样本容量,具体步骤如下:由于此次调查的目的是用2013的全国各地区电力消耗估计2013年全国电力消耗总量,因此先用简单随机抽样方法,利用SPSS统计软件直接抽出2012年10个样本单元计算出S2,Δ2,其中S2=1N-1∑Ni=1Yi-Y2,Δ=zα2ν(y),最后利用样本容量公式n =S2z2α2Δ 2计算出所要抽取样本单元的个数,其中S2代表2012年电力消费的总体方差,Δ代表极限误差。最后计算得n=12。
2、抽样框。样本容量确定之后再次利用SPSS直接抽取样本单元分别是北京、天津、河北、山东、浙江、福建、湖南、广西、四川、陕西、甘肃、宁夏。
3、估计方法。本篇论文中采用了三种估计量,分别是简单估计、比率估计和回归估计,具体计算过程只列举了比率估计,但后面对三种估计量进行了对比。
对全国电力消耗量进行估计时,选取工业增加值为辅助变量,经过计算检验二者相关程度较高,两者的相关系数为0.937,适合做比率估计。
由表一可以看出,比率估计和回归估计的精度要高于简单估计的精度,前两者估计精度相差不大但回归估计要略好于比率估计。
(二)分层随机抽样
1、样本容量的确定。首先根据各地区电力消耗量绘出折线图发现各地区电力消费差异比较大,因此可以根据电力消耗多少将30个地区划分为三层。第一层包括河北、江苏、浙江、山东、河南、广东六个城市;第二层包括山西、内蒙古、辽宁、上海、安徽、福建、湖北、湖南、广西、四川、云南十一个城市;第三层包括北京、天津、吉林、黑龙江、江西、海南、重庆、贵州、陕西、甘肃、青海、宁夏、新疆十三个城市 。
然后按照比例分配确定每一层的样本单元数:利用公式nh=n×NhN;接着用随机数表在每一层里面生成样本单元:其中第一层样本单元分别是河北、山东;第二层样本单元分别是山西、辽宁、上海、安徽;第三层样本单元分别是北京、吉林、黑龙江、海南、甘肃。
2、估计方法。点估计
lrs=∑Lh=1Whlrh=∑Lh=1Whh+βhh-h=1508.302
方差估计(不能事先设定各层的回归系数βh)
将βh取为第h层回归系数Bh的最小二乘估计bh,bh即为样本回归系数:
bh=∑nhi=1yhi-hxhi-h∑nhi=1xhi-h2
v(lrs ) = ∑Lh = 1W2h 1-fh nh nh -2(nh -1)s2yh (1-r2h )= 3109.784
3、精度比较。将分层抽样三种估计方法所得出的结果总结于表二中进行比较。从表二可以看出,对于全国电力消耗量抽样估计方法中,比率估计的效果最差。
(三)PPS抽样估计
1、样本容量的确定。在PPS抽样中最常用的是按照总体单元的规模大小来确定单元每次入样的概率。在对全国电力消费抽样估计中选取各地区工业生产总值Mi来度量规模,总体的总规模为M0=∑Ni=1Mi,每次抽样中第i个单元被抽中的概率用Zi表示,Zi=MiM0。
根据简单随机抽样确定的样本容量n=12来确定PPS抽样中样本单元,根据k=M0n来确定样本间距k,在1~k用随机数表产生一个随机数,并确定相应的初始地区,以后在总体中每隔k个地区抽出一个地区作为样本单元。在对全国电力消耗进行PPS抽样中赋予每个地区与Mi相等的代码数,将代码数累加到M0,每次抽样都产生一个[1,M0]之间的随机数,设为m,则代码所对应的地区被抽中。
根据公式k=M0n计算得k=7034949,在1~k之间利用随机数表生成6642828时所抽到的城市无重复,且它处于河北的代码范围,因此河北作为抽中的第一个样本,以后每隔k个单元抽出一个作为样本单元。最后抽得样本分别是:河北、辽宁、上海、江苏、浙江、福建、山东、河南、湖南、广东、四川、新疆。
2、计算估计值
(1)总值估计。根据所抽出来的这12各地区的工业生产总值作为辅助变量,来估计2013年全国电力消耗量。采用汉森—赫维茨估计量,由公式HH=1n∑ni=1YiZi计算得HH=47997.211,由此可以得2013年全国电力消耗的估计总值为47997.211。
(2)方差估计。总体总量的抽样方差由公式(HH)=1n(n-1)∑ni=1(yiZi-HH)2计算可得(HH)=33662680.22。
三、不同抽样估计方法效果比较
通过采用简单随机抽样、分层抽样和PPS抽样分别对全国电力消耗总值、均值、方差及电力消耗区间估计,不同的方法估计出的效果有所不同,精度比较如表三:
从表三可以看出,选取不同的方法对全国电力消耗量进行估计效果略有不同,用分层随机抽样估计方法估计的结果最好,简单随机抽样估计和PPS抽样估计结果相差不大,后者略好于前者。
四、结论
本文通过采用简单随机抽样估计、分层随机抽样估计和PPS抽样估计方法对我国电力消耗量进行估计,计算并分析比较最后得到分层随机抽样估计效果是最好的,因为简单随机抽样估计是一种最基本的抽样估计方法,当总体单元差异不大时效果较好;PPS抽样估计适用于抽样单元规模差异很大的估计,而本文案例所估计的电力消耗量,地区之间有差异很大的,也有差异很小的,所以采用分层随机抽样估计方法,满足组内差异小、组间差异大的原则,因此可以得到较好的估计效果。但是它也有一定的局限性,分层抽样抽样框较复杂,费用较高,误差分析也较为复杂。(作者单位:重庆工商大学)
参考文献:
[1]金勇进,杜子芳,蒋妍.抽样技术[M].中国人民大学出版社
[2]李金昌,苏为华.统计学[M].机械工业出版社