孙 萍,赵东方
(1.乌鲁木齐职业大学,乌鲁木齐 830002;2.华中师范大学 数学与统计学学院,武汉430079)
敏感性问题是指与个人(或单位)的隐私(或私人利益)有关而不便向外界透漏的问题。例如,是否存在行贿、受贿情况,考生是否存在考试作弊,个体工商户是否偷税、漏税,是否为同性恋者等。对于这些敏感性问题,若采用直接问答的形式,被调查者就会产生抵触情绪,拒绝回答,或者,接受调查但不愿据实回答。
抽样调查中,经常会遇到敏感性问题的调查工作,由于涉及到被调查者的隐私问题,很难得到被调查者的配合,因此造成了调查的困难、以及调查结果的不准确。
1965年,S.L.Warner设计了一种随机问答方法,巧妙的解决了这个问题[1]。1969年,B.G.Greenberg改进了S.L.Warnerder的方法[2]。现在,S.L.Warner的随机调查法得到了广泛的应用[3][4]。
随机问答法的具体步骤如下:
第1步:调查问卷的卡片,每张卡片只问下列问题之一
问题1:你属于集合A
问题2:你不属于集合A
假设问题1共有a张卡片,问题2共有b张卡片,要求:p=a/(a+b)≠1/2,其中,p叫做卡片参数。
第2步:被调查者随机抽取一张卡片,卡片上只有一个问题,被调查者只回答“Yes”,或者“No”,然后,将卡片放回卡片盒。
在整个调查过程中,调查人不知道被调查者回答的是哪个问题,只知道回答结果Yes或No,这样,被调查者就有很大的可能说真话。
第3步:假设调查了n个人,m个人回答“Yes”,根据全概率公式:
于是,我们就可以得到百分比α的估计值。
【案例1】某地调查个体工商户偷税漏税问题
问题1:我偷过税
问题2:我从不偷税
卡片设计:卡片参数p=1/6,即,6张卡片有一张是问题1,其余5张是问题2。
调查过程:被调查者随机抽取一张卡片,看见问题后,将卡片保密放回卡片盒,然后告诉调查人,Yes或No。
调查结果:随机调查100个个体户,共有75人回答“Yes”,根据公式计算可得:
于是,我们可以认为,某地可能有1/8=12.5%的个体户偷过税。
S.L.Warner的随机调查法,其中两个问题都与敏感性话题直接相关,很容易引起被调查者的戒备,所以,B.G.Greenburg建议,用其它一个毫不相干的问题代替问题2。
调查问卷的卡片,只问下列问题之一
问题1:你属于集合A
问题2:你属于集合B
假设,属于集合A的人群的百分比为αA(待求指标),属于集合B的人群的百分比αB(已知指标),问题1共有a张卡片,问题2共有b张卡片,p=a/(a+b),被调查者共有n人,其中m人回答Yes,那么就有:
从中解出αA:
【案例2】某高中调查学生谈恋爱比例
问题1:我谈过恋爱
问题2:我的身份证尾数是奇数
相对于问题1,αA待求;相对于问题2,αB=1/2。
卡片参数:p=9/10,即,10张卡片中有9张是问题1。
被调查者n=100,其中,23人回答Yes,即,m=23,根据公式计算:
于是,我们可以认为,这所高中大约有20%的学生谈过恋爱。
在S.L.Warner模型中,待求百分比α=1/(2p-1)(p-1+m/n)p≠1/2,其中,卡片参数p的取值,必须使得0≤α≤1,下面,我们画出α的图形:
图1 m/n<0.5的图形
图2 m/n>0.5的图形
图中p轴上方水平线对应α=1。
通过观察图形,我们看到0≤α≤1的条件并不总是得到满足,特别是在p=0.5附近,这个条件完全被破坏,于是,为了确保0≤α≤1成立,我们就要考虑卡片参数p的取值范围。
总的原则:p的取值要远离0.5。
若取p<0.5,由,可以得到,,即,根据所调查的问题的背景知识,卡片参数p应该尽可能的小。例如,已知患艾滋病的人群比例比较小,可以取p=1/9、p=1/10等等(此时,10张卡片有一张是问题1:你有艾滋病?)。
若取p>0.5,由,可以得到,,即,根据所调查的问题的背景知识,卡片参数p应该尽可能的大。例如,已知有某种坏习惯的人群比例比较大,可以取p=7/10、p=9/10等等(此时,10张卡片有9张是问题1:你有×××坏习惯?)。
即,卡片参数p应该尽可能大一点。
总结:卡片参数p的取值范围,总的设计原则是,(1)在S.L.Warner模型中,p的取值应该远离0.5;(2)在B.G.Greenberg的改进模型中,p的取值应该尽可能靠近1。
[1]Warner,S.L.Randomized Response:A Survey Technique for Elimi⁃nating Evasive Answer Bias[J].Journal of the American Statistical As⁃sociation,1965,(60).
[2]Greenberg,B.G.,et al.The Unrelated Question Randomized Re⁃sponse Model:Theoretical Framework[J].Journal of the American Sta⁃tistical Association,1969,64(326).
[3]M.Ostapczuk,M.Moshagen,Z.Zhao,J.Musch.Assessing Sensitive Attributes Using the Randomized-response-technique:Evidence for the Importance of Response Symmetry[J].Journal of Educational and Behavioral Statistics,2009,(34).
[4]M.Ostapczuk,J.Musch,M.Moshagen.A Randomized-response In⁃vestigation of the Education Effect in Attitudes towards Foreigners[J].European Journal of Social Psychology,2009,(39).
[5]赵东方.数学实验与数学模型[M].武汉:华中师范大学出版社,2003.
[6]赵东方.数学模型与计算[M].北京:科学出版社,2007.