杨圣伟 /国家统计局孝感调查队
抽样调查系统误差及其产生的原因
杨圣伟 /国家统计局孝感调查队
系统误差按照产生的来源可分为抽样框误差 (Frame Error)、无回答误差(Nonresponse Error)和计量误差(Measurement Error)。按照抽样调查实施的过程可以分为设计误差、调查误差、回答误差和汇总误差。
抽样框误差是指目标总体和抽样总体不一致时产生的误差,主要的误差类型有五个方面。
一是抽样总体不能覆盖目标总体,也称作丢失目标总体单元。产生的主要原因是对目标总体估计不足,对变动的样本总体未能及时更新。例如在城乡一体化住户调查的抽样过程中,对新建的小区未能纳入,造成总体缺失。
二是抽样样本超出目标总体,也称作样本包含非目标总体单元。例如在规模以下企业抽样调查过程中,原来确定的样本由于“升规”,成为规模以上企业,就会造成抽样的样本超出“规模以下企业”这个总体目标。
三是复合联接造成的误差,指目标总体元素可能联接着多个抽样框单位。如在城乡一体化住户调查中,如果按照房屋抽样,可能出现两种误差,一类是2家或以上家庭共同租住某一房屋,抽中该房屋后就会出现一个样本框(房屋)对应2个以上的样本(家庭);另一类是某个家庭拥有多套房产,那么该家庭在按照房屋抽样的时候,被抽中的概率就远远高于其他家庭,造成样本对整体的代表性出现偏差。
四是抽样框陈旧。例如,小微企业调查和个体工商户调查中的样本消失。城乡一体化住户调查过程中的房屋拆迁等。
五是辅助信息不准确。在实际抽样调查过程中,往往会使用辅助抽样框(如分层抽样、PPS抽样等)和不同的估计方法(如比率估计、回归估计等),如果辅助信息不完全或者不准确,就会影响到估计的准确度。如住户调查的大样本调查过程中,如果对大样本的收入调查不准确,就会造成在住户调查样本抽取过程中的分层信息误差,最终影响住户调查样本的代表性。
以上几种抽样框误差产生的原因,主要是对样本总体估计不足,对样本框的选取不合适。特别是由于抽样调查的总体大都是动态的、不断发展变化的,造成抽样框误差的产生,而且以上几种误差往往同时存在并互相影响。
无回答误差是指不能从所有样本单位和问卷中的所有问题中获得有用的数据。金勇进将无回答误差描述为“调查单位被选入样本,却没有接受调查”或“接受调查,但对调查中的某些问题未给予回答”。无回答误差按照产生的来源可以分为:
一是无法找到调查对象。该类在CPI调查过程中较为常见。例如,商品季节性缺失造成价格无法获取(夏季无法采集到羽绒服的价格)。商品停止销售造成价格无法获取等。在住户调查中,调查户举家外出在一个月以上,造成数据无法采集。
二是调查对象拒绝接受调查。如住户调查的拒绝记账,小微企业调查的拒访,CPI调查的拒绝提供真实价格等。
三是调查对象由于对调查指标含义不清而无法回答,或答案不完整而无法获取有用数据。
四是调查对象主观拒绝回答某些调查指标。如住户调查中不愿意记录赌博收入等。
此外还有被调查者由于忘记回答调查,造成调查超过时限;疏忽大意遗漏某调查项等。无回答误差,有的属于客观性,有的则属于主观性;有的属于有意识,有的则属于无意识;有的属于调查人员方,有的则属于被调查者方。产生的原因也比较复杂,对于客观原因造成的,可以通过插值等技术性手段进行补充。对于主观原因造成的,可以通过法制保障严格控制减轻。如,对于拒绝接受调查的调查对象普及法律知识、宣讲依法上报统计资料的义务等使其接受调查;对于因担心隐私问题而拒绝回答某些调查指标的,可以明确告知并坚决履行对调查对象身份、资料等保密的义务,打消其心理负担。
计量误差是指调查中所获得的数据与所欲调查项目的真值之间不一致产生的误差,主要分为三类。
一是抽样方案设计阶段产生的误差。主要来自于不同措辞的不同表达,包括文字表达歧义、不简练等,或者问卷设计过长,导致调查者、被调查者产生疲劳而造成的数据失真现象。
二是调查阶段产生的误差。调查员会有意或者无意造成的数据失真,被访者也会有意或无意造成数据失真。
三是数据处理阶段工作上的差错所带来的误差,包括错误的编码、录入等。
计量误差主要是工作性误差,需要在调查实施过程中严格遵守调查制度和统计调查基本规则,严禁使用具有导向性的提问方式,严禁出现编造、伪造、篡改数据等违反《统计法》的行为。抽样调查中系统误差种类繁多,贯穿于整个抽样调查的全过程。从产生的原因来看,既有主观故意,又有客观限制。在充分研究系统误差规律并从方法上对系统误差进行事后修正外,必须准确认识抽样调查系统误差产生的原因,并深入研究控制对策,以提高统计调查数据质量。