数量特征敏感问题问卷设计

2016-08-01 06:13刘建平
统计与信息论坛 2016年4期

刘建平,梁 敏

(暨南大学 经济学院, 广东 广州 510632)



数量特征敏感问题问卷设计

刘建平,梁敏

(暨南大学 经济学院, 广东 广州 510632)

摘要:目前,数量特征敏感问题调查主要采用随机化策略,该策略需使用随机化装置,从而需要在现场实施。提出一种问卷设计技术,该技术用无关问题替代随机化装置,因而不需要调查者亲临现场,不受调查规模及调查单位聚散的限制,使得调查更加方便、实用、经济。给出了相应的无偏估计量,推算出估计量的方差和方差的估计量并举例说明。

关键词:敏感性问题;随机化回答技术;问卷设计

一、引言

在抽样调查中,我们经常会遇到各种各样的敏感性问题,即所调查的内容涉及商业机密或个人隐私而不便向外界透露的问题。例如考生的作弊现象、社会上的赌博吸毒以及企业偷税,等等。对于这类敏感性问题,调查中若采用直接调查的方式,很难取得被调查者的配合,往往会引起被调查者的抵触而拒绝回答或故意做出错误的回答,从而大大增加非抽样误差。

为了改进参与者合作,鼓励真实回答,Warner在1965年首次创立了随机化回答模型[1]。他利用特殊的随机化装置,设计制作外表相同的卡片,上面分别写有需要调查的敏感性问题及其对立问题。被调查者按事先设定的比例随机抽取一张卡片,根据自己的真实情况做出“是”或“否”的回答。这样调查者并不知道被调查者回答的是哪个问题,从而起到保密作用。

此后,人们通过各种努力来不断修改、完善Warner模型,取得了很多研究成果,主要分为两大类型:属性特征敏感问题随机化回答模型和数量特征敏感问题随机化回答模型,其中数量特征敏感性问题的随机化回答模型主要有无关问题模型、转移模型、随机截尾模型、加法模型和乘法模型等[2-3]。使用这些模型进行调查时都需要在现场使用随机化装置并在现场回答,这就使得上述调查方法成本高,操作不便,不易大范围进行。因此,很多随机化回答技术并没有在社会实践中推广开来,而问卷方式调查可克服以上缺点,目前已有学者在属性特征敏感问题的问卷调查方面做了研究[4]。下面提出数量特征敏感问题的一种问卷调查技术,该技术用无关问题替代随机化装置,因而不需要调查者亲临现场,不受调查范围、调查规模及调查单位聚散的限制,使得调查更加方便、实用、经济。

二、数量特征敏感问题问卷调查方法

设X是敏感性数量特征变量,其均值是EX,方差是V(X)。而U1是不相关属性特征变量(令U1=1表示具有无关特征A,U1=0表示不具有无关特征A),具有无关特征A的人在总体中的比例为p 。U2是另一个与U1及X都不相关的数量特征变量,其均值是EU2,方差是V(U2)。估计目标量为EX。

(一)比例p以及均值EU2已知时

从总体中以放回简单随机抽样方法抽取一个样本量为n的样本回答下述问卷:你有无关特征A吗?如果没有,请如实回答U2的取值;如果有,请如实回答X的取值。你的回答是()。

(1)

其方差为:

(2)

(3)

(二)比例p已知但均值EU2未知时

考虑两个独立的放回简单随机样本s1和s2,其样本容量分别为n1和n2,n=n1+n2,样本s1对应问卷与(一)相同,而样本s2对应直接问卷:请如实回答U2的取值。你的回答是()。

(4)

其方差为:

(5)

(6)

(三)比例p以及均值EU2未知时

从总体中以放回简单随机抽样方式抽取三个相互独立的样本s1,s2和s3,其样本容量分别为n1、n2和n3,n=n1+n2+n3,样本s1和s2对应问卷与(二)相同,而样本s3对应直接问卷:你有无关特征A吗?如果有,请回答“是”,否则请回答“否”。你的回答是()。

(7)

(8)

(9)

三、数值举例

以上三种情况中,最后一种最复杂,下面举例说明这种情况。

某大学欲估计全体本科生上两个学期考试作弊次数的均值,于是从总体中以放回简单随机抽样方式抽取三个相互独立的样本,其样本容量分别为150、130和100,这380个学生在指定的只对他(她)们可见的网页上填写问卷,问卷开头给出一段说明性文字,写明本次调查的目的并强调所使用的方法只能得到全体学生作弊次数的均值而不能推断出每个学生的作弊次数。

第一个样本的学生回答下述问卷:请问你父亲是否吸烟?如果不吸,请回答你有几个亲叔叔;如果吸,请回答你上两个学期考试作弊总次数。你的回答是()。

第二个样本的学生回答下述问卷:请回答你有几个亲叔叔。你的回答是()。

第三个样本的学生回答下述问卷:请问你父亲是否吸烟?你的回答是()。

四、结束语

本文中表述的是无重复单元的情形,对于有重复单元的情形,则文中所有估计量都只用不相同单元计算,这样得到的估计量比采用全部单元计算得到的估计量更有效,这是因为这些异值单元是充分统计量[5]。

由前面的讨论可知,p、EU2已知时的估计精度比p、EU2未知时的估计精度高,这是由于因调查p、EU2而减小了调查EX的样本量,不过从实践角度来看,p、EU2未知的情况更常见。当p、EU2未知时,尽管随机化回答装置能够增加EX的信息,从而有助于减少EX的方差,但这种精度上的得益不足以抵消由于随机化回答带来的损失,因此,文中新增加的问卷设计采取直接回答的装置而非随机化回答装置。

最后,在设计问卷时,要讲究问卷的排列顺序,将较易回答的问题放在前面,而将敏感问题放在后面,以免给人以唐突感。如文中问卷设计为:

你有无关特征A吗?如果没有,请如实回答U2的取值;如果有,请如实回答X的取值。

而不是:

你有无关特征A吗?如果有,请如实回答敏感变量X的取值;如果没有,请如实回答U2的取值。你的回答是()。

参考文献:

[1]Warner S L.Randomized Response:A Survey Technique for Eliminating Evasive Answer Bias[J].Journal of the American Statistical Association,1965(3).

[2]孙山泽,孙明举.数量特征的随机化回答模型(上)——随机化调查方法V[J].数理统计与管理,2000(6).

[3]孙明举,孙山泽.数量特征的随机化回答随机变量加法、乘法模型——随机化调查方法Ⅵ[J].数理统计与管理,2001(1).

[4]彭秀云,闫在在.双辅助信息敏感性问题问卷调查技术[J].数学的实践与认识,2008(5).

[5]Basu D.On Sampling with and without Replacement[J].Sankhya,1958(12).

(责任编辑:张治国)

收稿日期:2015-10-16;修复日期:2016-01-17

作者简介:刘建平,男,山西怀仁人,教授,博士生导师,研究方向:抽样调查理论;

中图分类号:C811∶O212.2

文献标志码:A

文章编号:1007-3116(2016)04-0013-04

A Questionnaire Survey Technique of Quantitative Sensitive Questions

LIU Jian-ping,LIANG Min

(School of Economics,Jinan University,Guangzhou 510632,China)

Abstract:The randomized response technique(RRT) is a commonly used survey method when collecting quantitative sensitive information.In this technique,a randomizing device and face-to-face personal interviews are required.We propose a questionnaire survey technique in which we use an unrelated question instead of randomizing devices.Therefore,it is not limited in application to on-site and small-scale surveys and thus is more convenient,more practical and cost effective.Unbiased estimates and their variances are obtained.For completeness we present estimators for the variance of our estimator.A numerical example is also reported.

Key words:sensitive question; randomized response technique; questionnaire survey

梁敏,女,江西吉安人,博士生,研究方向:抽样调查理论。

【统计理论与方法】