Two-parameter logistic模型的Gibbs抽样敏感度分析
----基于Pólya-Gamma分布

2022-08-22 07:54付志慧山丹丹王立柱
关键词:样本容量区分度模拟实验

付志慧, 山丹丹, 周 末, 王立柱

(1. 闽南师范大学 数学与统计学院, 福建 漳州 363000;2. 沈阳师范大学 数学与系统科学学院, 沈阳 110034;3. 福建省粒计算及其应用重点实验室, 福建 漳州 363000;4. 福建省数据科学与统计重点实验室, 福建 漳州 363000)

0 引 言

目前,大部分基于logistic项目反应模型的MCMC[1-2](markov chain monte carlo)估计方法主要是利用MH(metropolis-hastings)算法[3]来实现,然而,MH算法需要在生成马氏链的每一步计算接受概率或拒绝概率,这样会影响收敛速度。相对而言,由Gibbs抽样方法产生的马氏链上的值都会保留下来,大大提高了收敛速度[4-5]。近年来,很多学者研究了项目反应模型的Bayes估计方法[6]。1995年,Chib[7]将Gibbs抽样方法和MH算法相结合,对2PL模型和3PL模型(three-parameter logistic item response model)进行比较,并给出了MCMC估计。在教育与心理测量领域,1992年,Albert[8]首次将Gibbs抽样方法应用于两参数正态卵形模型中。1999年,Patz等[9]研究了MCMC在三参数IRT模型中的应用,并讨论了缺失数据问题。然而,对于2PL模型,上述大部分抽样方法都要结合MH算法,降低了估计效率和收敛速度。针对常用的广义线性模型----logistic模型,2013年,Polson等[10]提出了一种新的基于Pólya-Gamma分布的数据增加抽样方法。在此基础上,2019年,Jiang[11]首次将该方法应用到心理测量理论的2PL模型中,推导了基于Pólya-Gamma潜变量分布的Gibbs抽样方法,其收敛速度和效率要优于MH算法。

在项目反应理论(item respond theory, IRT)[12]背景下,人们普遍认为需要较大的样本容量才能准确估计模型参数,这使得IRT在小样本的情况下不太适用[13]。然而,贝叶斯分析的优势在于对模型参数假定合适的先验分布,从而对小样本数据集也可以得出较准确的参数估计结果。本文在随机模拟实验部分进一步验证了这一结论。具体地,本文通过模拟发现,即使是对于相对较小的样本量n=100,较长的测验长度I=40,得出的估计误差也不是很高----区分度参数a的RMSE在0.2左右,难度参数b的RMSE在0.4左右。另外,在本文的模拟实验设置下,发现采用较精确的先验分布(N(0,1))可以得出比较准确的估计结果。

1 2PL模型和Pólya-Gamma分布介绍

假设有n个被试者,I个项目,yij表示第j个被试者回答第i个项目的得分,yij=1表示回答正确,yij=0表示回答错误。令pij表示第j个被试者对第i个项目回答正确的概率, 2PL模型表达式为

其中:j=1,2,…,n;i=1,2,…,I;ai表示项目i的区分度参数;θj表示第j个被试者的能力参数;bi表示项目i的难度参数。

本文需要引进潜变量分布----Pólya-Gamma分布,它是Gamma分布的无限混合。具体地,设X为一个随机变量,其中b>0,c∈R为分布参数,若

(1)

则称X~PG(b,c)。

2 潜变量的引进和抽样过程

即wij|·~PG(1,ai(θj-bi))。其中:被试者j=1,2,…,n;项目i=1,2,…,I[11]。

从而得到各参数的满条件分布,θj的满条件分布为

bi的满条件分布为

ai的满条件分布为

3 模拟实验

本节主要针对2PL模型通过模拟实验对基于Pólya-Gamma的抽样方法进行敏感度分析。考虑的指标有样本容量(sample size)、测验长度(test length)以及题目参数先验分布的选择(prior specification),具体取值见表1 。

表1 模拟实验设计Table 1 Simulation experiment design

本文使用RMSE和BIAS来评估项目参数估计的准确性,具体定义为

4 实验结果分析

表2和表3分别得出了区分度参数a和难度参数b的估计结果。 所得结论总结如下:

表2 区分度参数a的RMSE和BIASTable 2 RMSE and BIAS of the discrimination parameter a

表3 难度参数b的RMSE和BIASTable 3 RMSE and BIAS of difficulty parameter b

1) 对于题目区分度参数a,随着样本容量n的增加,RMSE逐渐减小。具体地,在先验为N(0,1)I(a>0)、测验长度I为20时,被试个数n为100,300,500,1 000对应的RMSE分别为0.267 5,0.200 0,0.139 5,0.091 5。同时,随着测验长度I的增加,RMSE也逐渐减少。例如:在先验为N(0,1)I(a>0)、被试n为500时,测验长度I为10,20,40对应的RMSE分别为0.144 0,0.139 5,0.139 3。

2) 同样地,对于题目难度参数b,随着样本容量n的增加,RMSE也逐渐减小。具体地,在先验为N(0,1)、测验长度I为20时,被试个数n为100,300,500,1 000对应的RMSE分别为0.335 0,0.321 0,0.257 5,0.179 0。同时,随着测验长度I的增加,RMSE也逐渐减少。例如:在先验为N(0,1)、被试n为500时,测验长度I为10,20,40对应的RMSE分别为0.322 0,0.257 5,0.213 0。

3) 在不同的先验假定下,随着先验方差的增加,对应参数的RMSE增大。具体地,对于区分度参数a,在先验为N(0,1)I(a>0)、测验长度I为40时,被试个数n为100,300,500,1 000对应的RMSE分别为0.219 5,0.156 8,0.139 3,0.105 0。在先验为N(0,22)I(a>0)、测验长度I为40时,被试个数n为100,300,500,1 000对应的RMSE分别为0.244 5,0.161 5,0.153 8,0.108 3。在先验为N(0,52)I(a>0)、测验长度I为40时,被试个数n为100,300,500,1 000对应的RMSE分别为0.309 5,0.172 3,0.171 8,0.113 3。

4) 对于题目区分度参数a,BIAS的绝对值最高为0.165 5,最低为0.000 3。对于题目难度参数b,BIAS的绝对值最高为0.197 0,最低为0.003 5。这些偏差结果都是可以接受的。

5 结论及展望

本文主要针对2PL模型,对基于Pólya-Gamma分布的Gibbs抽样方法进行了模拟研究,分析了在不同实验设置下的估计效果。结果发现,随着样本容量和测验长度的增加,估计结果的精确性有所提高。同时,在先验方差取值较小的情况下,得到的估计结果相对准确。本文的模拟实验设置仅讨论了样本容量n为100,300,500,1 000的情况,对于较大的样本容量,如n为5 000,10 000的情况并没有考虑,这将作为我们下一步的研究内容。这种高效的Pólya-Gamma抽样方法也可以应用到3PL模型[14]及等级项目反应[15]等多级评分模型中。

猜你喜欢
样本容量区分度模拟实验
采用无核密度仪检测压实度的样本容量确定方法
断块油藏注采耦合物理模拟实验
浅谈试卷分析常用的几个参数及其应用
图形推理测量指标相关性考察*
分层抽样技术在课堂满意度调查中的应用研究
浅观一道题的“区分度”
基于模拟实验研究不均匀沉降对加宽路面结构的影响
单维参数型与非参数型项目反应理论项目参数的比较研究*
射孔井水力压裂模拟实验相似准则推导
弹道修正模拟实验装置的研究