敏感性问题抽样调查方法研究

2009-04-19 03:11饶贤清

中国经贸导刊 2009年19期

饶贤清

一、敏感性问题抽样调查的发展

敏感性问题是指机构、组织或个人由于经济、安全、形象等原因不宜或拒绝让外部知晓的问题，如政府机密、企业商务秘密、个人隐私等。敏感性问题一般具有隐秘性和可变性的特点，用一般的调查技术难以获得有效的数据资料，若采用直接调查的方法，调查者将得不到可靠的样本数据，无法作出可靠的推断，就会产生无法控制的非抽样误差。因此研究敏感性问题的抽样调查方法是很有必要的，而如何获得可靠的样本信息是研究敏感性问题抽样调查方法的关键，处理敏感性问题的核心不在于设计过于复杂的模型，而在于运用有效的方法消除被调查者的担忧与顾虑，达到提高调查数据可靠性的目的。

1965年Warner提出了敏感性问题的随机化回答调查方法。随机化回答是指在调查中使用特定的随机化装置，使得被调查者以预定的概率p来回答敏感性问题，宗旨是最大限度地为被调查者保守秘密，从而取得被调查者的信任，该方法是设置一随机化装置，让被调查者根据随机化结果回答其中的一个问题。如调查某校学生的作弊率，向被调查者提出两个问题：

问题1：你在考试中作过弊吗?

问题2：你从未在考试中作过弊吗?

被调查者随机抽取一个问题回答，调查员不知道每个人具体回答的是哪个问题，但回答问题1的人占的比例p是事先确定的。当被调查者抽到的问题与自己的情况一致时，回答“是”；相反时回答“否”，调查者只知道最后的回答结果，从而起到了为被调查者保密的效果。

由于在Warner的方法中所提的两个问题都具有敏感性特征，被调查者可能仍存戒心。不予配合，而且回答问题的被调查者占的比例不能为1／2。因此，统计学家在Warner模型的基础上提出了许多随机化回答调查方法，1967年Simmons提出了用无关问题y去替代Warner模型中的对立问题，使被调查者的合作态度有了明显改善。但是无关问题发生的概率是待定的。估计量的估计偏误会引起敏感性问题所占的比例的估计量的估计偏误，导致总的误差增大；1969年Greenberg提出了数量特征敏感性问题的无关问题随机化回答方法；1971年Moors针对具有两项选择的敏感性问题提出了双样本随机化回答模型，从总体中抽取两个相互独立的样本，第一个样本使用随机化回答，第二个样本直接回答无关问题，该模型进一步消除被调查者的顾虑；1973年Greenberg针对Simmons模型中无关问题的概率未知的情况下，提出了双无关问题的双样本随机化回答模型，在该模型的随机化调查中，每一样本的被调查者均需回答两个问题，一个是被调查者使用随机化装置选择的问题；一个是调查者直接询问的无关的非敏感性问题；1977年K·Jakhasi和H·Sahasegawa提出了隐含的随机化回答模型，这一模型操作简单，不需使用任何随机化实验装置，又不失随机的特性；2000年Sargin-der等人对Moors模型作了改进。提出了相关样本下的随机化回答方法；2000年Padmawar等人提出数量特征敏感性问题的随机变量和模型；2004年Kim等人提出了多样本下的Wamer模型。

二、敏感性问题抽样调查的模型设计

根据抽样调查的理论，随机化回答模型一般应符合以下的条件：

首先能最大限度地保护被调查者的隐私，对被调查者的隐私保护程度越高，被调查者的合作程度就越高，取得的调查数据就越真实；否则，被调查者就会拒绝回答或作出错误的回答，从而增大由错误信息引起的误差。在新建立的随机化回答模型中，应尽量使被调查者对所提问题回答“是”或“否”的概率基本相同。以使被调查者认为调查者从被调查者的回答中推测被调查者具有或不具有某种敏感性特征的概率接近于1／2，从而，消除了被调查者的顾虑。

其次，估计量应具有较小的误差。对于随机化回答模型，抽样误差是不可避免的，但对于同一个目标量，在样本容量相同的条件下，使用不同的模型会产生不同的抽样误差，抽样误差越少，估计的精度也就越高，调查才有实际意义。

最后，建立的随机化回答模型要简便易行，模型越简单，实施越方便，工作量就越少，调查的费用就越少，同时，也易于取得被调查者的合作，避免回答差错。在建立随机化回答模型时，我们应首先考虑保护被调查者的隐私。消除被调查者的顾虑，有时甚至宁愿牺牲某些精度来换取被调查者的配合，只有这样。被调查者才会作出真实的回答，调查者取得的数据才可靠。敏感性问题的随机化回答技术的宗旨是尽可能地消除被调查者的疑虑，并使估计量的方差尽可能地小，建立的模型必须首先考虑是否能消除被调查者的担忧，在此基础上，使得调查的误差尽可能的少。

三、敏感性问题的抽样调查方法的展望

由于敏感性问题具有复杂性、多样性和可变性的特点，在进行敏感性问题的随机化调查时，往往要对调查人员进行培训，每一个调查人员必须准确掌握随机化回答模型的原理，同时，要让被调查者对随机化装置进行确认，使每一个被调查者确信调查人员无法从其回答中推断自己对敏感性问题的真实回答。随机化回答抽样调查的时间过长，费用增大，不利于在实践中推广，有时被查者并未理解或不相信这种方法。使得敏感性问题的随机化回答调查法在应用中有一定的局限性。

对敏感性问题的抽样调查，Warner首先提出了随机化回答技术，此后，国内外学者先后提出了一些其他的抽样调查方法。方法一是Simith等人1974年提出的“区组化总计回答技术”，它不是让被调查者根据随机化装置来决定回答哪个问题，而是将问题进行随机化，最简单的二元回答的情况下，把问题分为二类，一类包含敏感性问题和几个非敏感性问题；第二类仅有敏感性问题，在调查中只要求被调查者提供问卷中所答问题的答案之和，这样既可以对敏感性问题的答案保密，又可以根据两类问卷中平均总量的差异进行估计。方法二是Oh和Scheuren 1983年提出的“拟随机化回答技术”，它建立在被调查的总体可以分为回答层和无回答层的假设上，对回答层的每个个体来说，所调查的问题并不存在敏感性，被调查者以概率1真实回答敏感性问题；无回答层的个体以概率p随机化回答敏感性问题，由二层的估计量对总体敏感性问题进行估计。方法三是涂光华和马岚提出的“分层弱化模型”，它根据敏感性调查的不同目的，研究造成该调查问题为敏感性问题的原因，由此选择与之相关的非敏感分层标志以划分不同的调查层，再根据每层被调查者的不同心理特点或性格特征相应设计分层弱化或非弱化的敏感性问题，达到降低敏感性问题的敏感度争取被调查者合作的目的。

上述三种敏感性问题的抽样调查法都存在一定的局限性，方法一同随机化回答调查一样误差比直接调查大，在小样本的情况下，误差可能为负值；方法二是建立在假设的基础上，缺乏一定的可靠性；方法三分层弱化的效果如何衡量以及敏感性问题如何估计都有待进一步的研究。抽样调查的目标是设计最优的调查方案，找到参数的无偏佔计，并使抽样调查的误差尽可能地小。事实上，在抽样调查中完全消除估计址的偏倚是不可能的，因此，在对敏感性问题进行调查时，可以考虑一个具有较小方差的有偏估计。