二重抽样在居民卫生支出调查中的应用*

2011-02-03 03:49第四军医大学卫生统计学教研室710032谭志军徐勇勇曹文君
中国卫生统计 2011年2期
关键词:均数辅助卫生

第四军医大学卫生统计学教研室(710032) 谭志军 徐勇勇 曹文君

二重抽样在居民卫生支出调查中的应用*

第四军医大学卫生统计学教研室(710032) 谭志军 徐勇勇△曹文君

目的探索二重抽样在居民卫生支出调查中的应用。方法 利用二重抽样π估计、比估计和回归估计三种估计方法估计样本均数与方差,并采用偏差、相对偏差、方差以及均方误差四个指标评价抽样效率。结果 同一估计方法的抽样效率随抽样比例的增加而提高;同一抽样比例下,π估计的抽样效率最低,比估计和回归估计的抽样效率相近;随着相关系数的减小,比估计和回归估计的效率优势逐渐减弱。结论 可应用二重抽样调查居民卫生支出;具体应用中,应根据研究变量与辅助变量相关性以及估计精度的要求选择合适的估计方法。

居民卫生支出 二重抽样π估计 比估计 回归估计

*资助基金项目:2009ZX10002-027

△通讯作者:徐勇勇,E-mail:xuyongy@fmmu.edu.cn

由于我国卫生保障体制不健全,加之医疗费用上涨过快,导致家庭疾病经济负担不断加重。实施新型农村合作医疗制度和城镇居民基本医疗保险以来,各级政府和卫生部门急需有关居民疾病经济负担的变化情况和制度运行效果的信息。居民卫生支出是衡量居民家庭疾病经济负担的一个重要指标。二重抽样是一种高效率的抽样调查方法。本文从抽样设计和估计方法两方面探讨应用二重抽样调查居民卫生支出。

资料来源

资料来源于第四次国家卫生服务调查陕西省扩点样本的《家庭一般情况调查表》调查数据。本研究纳入的原始变量包括家庭人口数、家庭年收入、家庭年支出、家庭年消费性支出、食品支出、衣着及日用品支出、交通通讯支出、住房水电及燃料支出、教育支出、文化娱乐支出、医药支出、其他支出。数据表中变量名分别为h1、h12-h21。所有指标中h19的无回答率最高,为12.3%,其余均低于10%。

统计方法

1.二重抽样估计量

本文公式中的符号意义:N为有限总体大小,n为第一重样本的样本量,m为第二重样本的样本量,f=m/n为抽样比例。

(1)π 估计量〔1〕

式中,πa,i为第一重样本抽样单元的入样概率,πi|sa为第二重样本的条件入样概率,完全随机抽样机制下,

式中,r、syx分别为第二重样本研究变量与辅助变量的样本相关系数和协方差。

(3) 回归估计量〔3〕

二重抽样对总体均数的回归估计:

式中,β为第二重样本的回归系数。

二重样本回归估计方差的样本估计:

2.抽样设计

以4 161户为第一重样本,采用简单随机无放回抽样从中抽取第二重样本。根据以往卫生服务调查的反馈,家庭收入数据不易调查,家庭支出数据相对容易获取;在支出调查项目中,总支出比其他各项支出相对容易。因此,选择家庭年支出作为辅助变量。通过比较二重抽样估计结果与现有资料的实际计算结果,论证在此项调查中应用二重抽样的可行性。

3.统计方法

由于家庭规模影响数据可比性且各变量不服从正态分布,遂对原始数据做以下处理:第一步,各变量除以家庭人口数,求得各指标人均值;第二步,以函数log(hi/h1+1)对人均指标作变换,其中h1为家庭人口数,i=12,13,…,21。

设第一重样本的计算结果为各研究变量的总体参数。为便于理解,用转化后变量的均数估计作指数,计算原始变量的均数(几何均数)。用以下四个指标评价抽样效率〔4〕:(1)估计偏差(bias):二重抽样均数估计与参数的差值;(2)相对偏差(relative bias):(估计值-参数)/参数×100%;(3)方差(variance):二重抽样均数估计的方差;(4)均方误差(MSE):bias×bias+variance,即总误差。通过以上四个效率指标,评价不同抽样比例、估计方法以及变量相关性的抽样效率。利用SAS9.1.3的抽样过程proc surveyselect编写宏程序TWOPHASE进行重复抽样并描述抽样结果〔5,6〕,重复抽样次数均为100次。

结果与分析

1.处理后各变量与辅助变量的相关与回归分析结果(表1)

表1 对数变换后各研究变量与辅助变量的相关和回归分析结果

2.人均卫生支出重复抽样结果

视“人均卫生支出”的几何均数为参数,其值为239.3元。“人均卫生支出”的重复抽样结果见表2。

表2 人均卫生支出几何均数估计结果

表2表明,对于“人均卫生支出”调查,不同估计方法的估计效率均随着抽样比例的增加而升高;同一抽样比例下,π估计的效率低于比估计和回归估计,后两者的效率非常相近。其他研究变量的重复抽样结果显示,各变量均有此趋势。

3.相关性大小与抽样效率

为研究辅助变量与研究变量的相关性大小与抽样效率的关系,分别对10个研究变量进行重复抽样。为便于比较,选择相对偏差作图,见图1。

图1表明,对于相关性大小不同的变量,三种估计方法之间的效率差异不同:相关性越大,π估计与比估计和回归估计的效率差异越大,而后两者之间的效率差异只有略微变化。其他三种效率指标的重复抽样结果均有此趋势。

以人均居民卫生支出调查为例,如果控制相对偏差在2%以内,第二重样本需要的最小抽样比例约为0.4。据此保守估计,资料收集时间可缩短为原来的40%,估计偏差的平均值在4元左右。

图1 不同相关性变量相对偏差图

讨 论

1.医药卫生支出调查的新挑战

随着我国信息化和工业化步伐的加快,由政府主导的抽样调查面临新的挑战。居民卫生支出调查也不例外,具体表现在:(1)城市与农村地区的交通、通讯等基础设施不断升级,为政府实施卫生服务调查提供了坚实的硬件基础和良好的外部保障;(2)快速城镇化导致人口流动性增大和行政建制变化频繁,为抽样框的制作和维护增加了困难〔7〕;(3)信息化建设刺激了信息利用者的需求,如更快的收集速度、更准的调查结果、更少的调查费用、更高的权威性、更广的获知渠道等。

2.二重抽样的优点

正确地应用二重抽样,不仅可以充分利用已有或易于调查的辅助信息,降低调查困难,减少调查费用,还可以在个体水平和样本水平减少调查时间,降低被调查者的回答负担,从而提高调查质量。当辅助信息已知时,二重抽样的效率更高。

3.估计方法的选择

重复抽样结果显示,抽样比例、相关性、估计方法是估计效率的影响因素。应用过程中应综合考虑选择合适的方法。比如,在同样估计精度和抽样比例要求下,变量相关性高,则选择比估计或回归估计,变量相关性低,可选择π估计。当然,二重抽样是有精度损失的,必须保证估计精度在可接受范围内。本文仅讨论了一个辅助变量的应用,二重抽样多辅助变量回归估计的效率比单变量的效率更高〔8〕。

结 论

二重抽样在居民卫生支出调查应用中的可行性得到论证。正确应用二重抽样,可以达到节约时间、降低回答负担、提高调查效率与质量的目的。在抽样设计阶段,应充分利用已有或易于获得的辅助变量;在估计阶段,应根据辅助变量与研究变量的相关性以及估计精度的需求,选择合适的估计方法。

1.Brus DJ,Te Riele WJM.Design-based regression estimators for spatial mean of soil properties:the use of two-phase sampling when themeansof the auxiliary variables are unknown.Geoderma,2001(104):257-279.

2.金勇进,杜子芳,蒋妍编.抽样技术.北京:中国人民大学出版社,2008,224-225.

3.施锡铨.抽样调查的理论和方法.上海财经大学出版社,1999,113-114.

4.Bennett S,Radalow icz A,Vella V,et al.Computer simulation of household sampling schemes for health surveys in developing country.International Journal of Epidemiology,1994,23(6):1282-1286.

5.SAS Institute Inc.SAS for Monte Carlo Studies:A Guide for Quantitative Researchers,2002.

6.王睿,贺佳.随机抽样方法的SAS实现.中国卫生统计,2007,24(1):85,93.

7.傅青叶.论社会经济调查抽样框的构建.统计与决策,2003(5):51-52.

8.Pradahan BK.A chain regression estimator in two phase sampling using multi-auxiliary information.Bulletin of the Malaysian Mathematical sciences society,2005,28(1):81-86.

The App lication of Two-phase Sam p ling in the Household Health Expenditure Survey

Tan Zhijun,Xu Yongyong,CaoWenjun.Department of Health Statistics,Fourth Military Medical University(710032),Xi'an

Objective To study the feasibility for the application of two-phase sampling in the household health expenditure survey.MethodsThree types of estimator of two-phase sampling,the πest imator,the ratio estimator and regression estimator,were used to estimatemean and variance.Bias,relative bias,variance and MSE were considered as effect measures to summarize the performance of various sampling schemes.Results For the three estimators,the efficiency increases as the sampling rate became larger.For the same sampling rate,the efficiency of πest imatorwas much lower than the ratio estimator and regression estimator and there was no distinct difference between ratio estimator and regression estimator.As the correlation coefficient decreases,the advantage of the ratio estimator and regression estimator in the performance weakened.ConclusionIt is feasible to apply the two-phase sampling to survey the household health expenditure.And in practice,the choice of estimator should be made base on the correlation of study variable and auxiliary variable and the requirement of estimate accuracy

Household health expenditure;Two-phase sampling;πestimator;Ratio estimator;Regression estimator

猜你喜欢
均数辅助卫生
小议灵活构造辅助函数
倒开水辅助装置
基于大数据分析的易混淆车辅助识别系统设计与实现
卫生歌
提高车辆响应的转向辅助控制系统
讲卫生
办好卫生 让人民满意
关于均数与偏差
关于均数与偏差