联合比估计法在敏感性问题调查中的应用

2024-05-15 06:48刘媛媛冀鹏浩吴国荣
统计与决策 2024年8期
关键词:估计量被调查者卡片

刘媛媛,冀鹏浩,吴国荣

(内蒙古农业大学 理学院,呼和浩特 010018)

0 引言

随着抽样调查理论的不断发展与完善,其涉及的领域也越来越广泛。在调查研究中,当涉及个人隐私或不良信息(如偷税、吸毒)等敏感性问题时,采用直接问询的方式进行调查往往无法获得真实数据,导致调查结果出现偏差。1965 年,Warner 模型的提出开创了随机化回答技术的先河,随机化回答技术是进行敏感性问题调查和推断总体特征比例的一种行之有效的方法[1]。Warner随机化模型的设计原理是根据要调查的敏感属性设计两个相对立的问题,让被调查者按预定概率从中抽取一个问题回答。除被调查者外,任何人均不知道被调查者回答的是哪个问题。被调查者可以毫无顾虑地按真实意愿作答,既有效地保护了被调查者的隐私,又可以获得真实、可靠的调查数据。到目前为止,很多定性敏感性问题的调查模型都是Warner模型的延续和改良。在众多学者的努力下,大量保护度好、精度高的随机化调查模型和估计方法相继问世。在模型的研究和设计过程中,由最初的通过改进随机化装置,逐渐转向将抽样方法、估计方法与随机化装置改进相结合,力求得到更完美、精度更高的随机化调查模型。

在抽样调查中,若能在有效利用与敏感变量相关的辅助信息的同时,又合理地选择抽样方法,则对于提高调查精度将会起到很好的促进作用。在实际调查中,一个具体的方案大多是不同的抽样方法与估计方法各种形式的组合[2]。将分层技术与比估计法按不同次序进行组合,可得到两类比较复杂的非线性估计法——分别比估计法和联合比估计法。分别比估计法是先分别对各层进行比估计,然后汇总,按层权平均得到总体参数的估计[3]。联合比估计法是先对两个指标求总体均值或总量的分层估计,然后用他们构造比估计[4]。这两类估计方法有效地利用了辅助信息与分层技术,是提高目标量估计精度较理想的方法,所以近年来引起了很多学者的关注。Kadilar 和Cingi(2006)[5]对目标量的简单估计、比估计、分层估计和联合比估计进行了效率比较。闫在在和田兵(2011)[6]研究了基于辅助变量偏斜系数的分别比估计。刘媛媛等(2012)[2]基于分别比估计法,对Warner 模型中的敏感属性比例估计量的均方误差式进行了理论推导及效率比较。王春枝和赵国杰(2017)[7]在分层抽样方法下,结合辅助变量,探讨了分别比估计法、联合比估计法、分别回归估计法和联合回归估计法的应用条件。乔松珊和张建军(2019)[8]研究了总体均值的分别比估计法的改进及应用。目前,将联合比估计法应用于敏感性问题随机化调查技术中的研究相对较少。因此,本文以改进估计方法为切入点,运用联合比估计法,对分层抽样下Warner 模型中敏感属性比例的估计量及其均方误差进行理论推导和效率比较,目的是提高估计量的调查精度。

1 分层抽样下的Warner模型[9]

根据辅助信息将总体N分成L层,用Nh表示第h层的总体容量,应用放回简单随机抽样法从每层中独立地抽取容量为nh的样本。每层采用Warner 随机化回答装置:在盒子中按ph和1-ph的比例均匀地放有外形完全相同的两类卡片,卡片上分别写有“你有敏感属性Y吗?”和“你没有敏感属性Y吗?”。被调查者从盒子中任取一张卡片,根据抽到的问题与自身属性匹配的情况作出真实的回答。该项调查的目的是根据调查数据估计在总体中具有敏感属性Y的比例π[10]。记zˉh为第h层nh个被调查者中回答“是”的个数的均值;Wh=Nh N为第h层的层权;πh为第h层总体的敏感属性比例,则πh的一个无偏估计为:

进而得到分层总体中具有敏感属性的比例π 的一个无偏估计为:

估计量π̂s的性质有:

(1)无偏性,即E(π̂s)=π;

2 新模型的建立

新模型是基于分层抽样下的Warner模型引入辅助变量,对调查的敏感属性比例和辅助变量分别作分层估计,再对他们作比估计。通过新估计量的构造来提高总体敏感属性比例的估计精度。具体实施和推导过程为:将大小为N的有限总体分成L个不相迭的子总体,其大小分别为N1,N2,…,NL(Nh皆已知,,应用放回简单随机抽样法从每层中独立进行抽样。设πh为第h层中的回答者具有敏感性指标Y的比例;Xh和Xˉh分别是第h层辅助性指标的总值和均值,敏感性指标值和辅助性指标值之间具有较好的正相关性。

记:

显然有

采用的随机化装置Rh(h=1,2,…,L)如下:

卡片a:有敏感性指标Y?辅助性指标X。

卡片b:没有敏感性指标Y?辅助性指标X。

每个被调查者从装有卡片a和b的盒子中独立地进行随机抽样,然后对所抽到的卡片进行如实回答。设ph和1-ph分别为在第h层中抽到卡片a和b的比例,在总体Y中,层间的ph取值一般是不相同的。从第h层中抽取容量为nh的样本(),第h层中的nh个个体独立使用随机化装置的回答如下:(zh1,xh1),(zh2,xh2),…,(zhnh,xhnh);h=1, 2,…,L。

设:

在本文中,ER(zhi)=ph yhi+(1-ph)(1-yhi)(ER是关于随机化回答的数学期望运算)。则有:

第h层中个体回答“是”的比例为:

联合比估计法是先对分层样本的调查变量和辅助变量作分层估计,再对他们作比估计。则总体敏感属性比例πRc的联合比估计量为:

根据式(1)至式(3)推导联合比估计量π̂Rc的期望和均方误差。

2.1 期望

其中,ER是关于随机化回答的数学期望运算,Ed是关于抽样设计的数学期望运算。

则有:

当nh较大,、Cyxh都较小时,可得

2.2 均方误差

将E(π̂Rc)的推导式(式(4))代入式(5)的第二部分,可得:

将式(6)代入式(5)得:

其中:

根据E(π̂Rc)的推导式,得:

将式(8)至式(10)代入式(7)得:

3 效率比较

基于分层随机抽样对敏感性问题调查比例的分层估计法与联合比估计法进行效率比较。在分层随机抽样方法下,敏感属性比例π 的估计量的方差为:

在联合比估计方法下,敏感属性比例π 的估计量的方差为:

当nh较大、比估计有效时,联合比估计的精度优于分层估计的精度的条件是2ρhCxhCyh->0 ,即ρh>Cxh2Cyh。

4 调查实例

基于分层随机抽样,运用分层估计法与联合比估计法对某学校某专业300 名学生某门课程考试的作弊行为进行调查。通过数值分析,估算学生作弊的比例及其方差。根据该门课程的考试成绩将300 名学生分为三层,81~100 分为第一层,60~80 分为第二层,60 分以下为第三层。综合各因素,总样本量取n=90,按比例确定各层样本量,层内采用简单随机抽样法。每层运用本文所建立的新模型随机化装置:在盒子中按ph和1-ph的比例均匀地放有外形完全相同的两类卡片a和b。

卡片a:你在考试中有作弊行为吗?在5次作业中独立完成的次数是多少?

卡片b:你在考试中无作弊行为吗?在5次作业中独立完成的次数是多少?

每个被调查者独立地从装有卡片a和b的盒子中进行随机抽样,然后根据抽到的问题回答“是”或“否”及独立完成作业的次数。将每个被调查者未能独立完成作业的频率作为辅助变量X。详见表1。

表1 分层情况与调查数据

在分层随机抽样方法下,作弊比例πs的估计值及其方差估计值为:

在联合比估计方法下,作弊比例πs的估计值及其方差估计值为:

由调查数据的算例可知,当分层合理、各层的样本量较大时,联合比估计法的精度优于分层估计法的精度。运用联合比估计法对敏感属性比例作估计时,寻找与调查指标相关性较高的辅助变量是调查过程中的难点问题,也是导致两种方法下方差估计值较接近的主要原因。

5 结束语

分层抽样是抽样调查中常用的抽样方法,在实施过程中的组织管理和数据汇总都比较简便,若分层合理,则可较大程度地提高估计量的精度。比估计是一种比较复杂的非线性估计法,除了调查指标Y外,还需要可利用的辅助性指标X。若调查指标与辅助指标之间具有较好的正相关性,则会有效提高调查变量的估计精度。因此本文将分层技术与比估计相结合的联合比估计法应用于敏感问题的随机化调查中。得出的结论是:若各层的样本量相对较大,比估计有效,即ρh>Cxh2Cyh,则联合比估计法的精度优于分层估计法的精度。

猜你喜欢
估计量被调查者卡片
一个可供选择的全随机化模型
摆卡片
倒过来的卡片
一张卡片
浅谈估计量的优良性标准
基于配网先验信息的谐波状态估计量测点最优配置
高职学生社会责任意识调查报告
负极值指标估计量的渐近性质
余姚市民幸福感民意调查分析
使用变异系数和Kurtosis系数的双辅助变量的比估计