![](https://img.fx361.cc/images/2023/0202/a74712dbedfb57391d5b65a7d237d06cfe42b93d.webp)
另外, 将模拟生成的θ和b截取在−3至3之间,a介于0.2至2.0之间。模拟的3个被试样本以及题库的描述统计量如表1所示。模拟生成的a与b之间的相关系数等于0.2507, 与预设的真值0.25非常接近。
3.2 新题生成
对每种测验情境, 都模拟生成20个新题(m=20)。为了减少随机误差, 对包括生成新题、模拟被试在新题上的作答以及标定新题的整个过程重复100次(rep=100)。另外, 模拟新题参数的方法与模拟旧题参数的方法相同, 也是从(19)式所示的先验分布中随机抽取。同样, 新题的a介于0.2至2.0之间,b介于−3至3之间。
3.3 CAT全过程模拟程序描述
从初始题的选择方法、选题策略、能力估计方法以及终止规则等方面对CAT全过程的模拟进行描述:(1)一开始对被试能力一无所知, 所以将每名被试的能力值初始化为0 (即=0); (2)基于被试的能力估计值, 采用最大费舍信息量方法从题库或剩余题库中选择第一个或下一个最适合被试作答的题目施测被试; (3)根据当前被试的能力真值以及当前题目的参数真值基于2PLM计算正确作答概率P, 然后将P与从均匀分布U(0,1)中随机抽取的小数z进行比较。如果P≥z, 模拟作答为1; 否则, 模拟作答为0; (4)被试完成对每个题目的作答后, 对被试能力的更新分为两种情况:当测验长度较短(比如小于5)或出现全0或全1的作答模式时, 采用后验期望法(Expected A Posteriori, EAP)更新被试的能力估计值; 否则, 采用MLE方法对进行更新; (5)采用固定长度的终止规则, 并且预设测验长度分别为t=10,20和30。也即上述的题目选择、作答模拟以及能力估计等过程不断重复, 直至测验长度达到t为止, 结束测验。
在模拟CAT时还有一些重要细节值得强调:(1)在实现EAP时, 假设能力的先验分布为标准正态分布, 并且在[−3, 3] 上均匀抽取61个积分结点3选取61个积分结点的理由是:在预研究中, 我们考查了3种不同积分结点数 (分别为21个、41个和61个) 对EAP估计精度的影响。结果发现, 使用21个积分结点的精度最差, 采用41个结点已经可以得到较高的估计精度, 但为了保险起见, 还是选取61个结点。(S=61), 于是步长step=6(S−1)=0.1, 积分结点qs=(−3)+(s−1)×step以及与之相伴随的权重; (2)在实现MLE时, 采用牛顿−拉夫逊方法(Newton-Raphson, N-R)与二分法相结合的方式求解非线性方程。而且在具体编程时, 一般先采用速度较慢的二分法寻找包括零点的区间, 待找到后再换用迭代速度较快的N-R (迭代精度设为0.001); (3)不管是采用EAP还是MLE, 都将最终的能力估计值截取在[−3, 3] 之间。也即, 当能力估计值大于3时, 将其赋值为3; 当能力估计值小于−3时, 将其赋值为−3。
3.4 在线标定实施程序描述
由于在线标定包括在线标定设计与在线标定方法两个重要环节(陈平等, 2013), 所以接下来分别对两者的实施细节进行描述。
3.4.1 在线标定设计描述
考虑到随机在线标定设计实施起来非常方便而且能够提供准确稳定的标定结果(比如Ban et al.,2001; Chen et al., 2012), 本研究在CAT测验过程中采用随机在线标定设计将新题分配给被试作答。具体而言, 首先从由20个新题组成的新题集中随机选择5个新题(即C=5), 然后将它们置于被试CAT的随机位置。另外, 由于参与作答每个新题的被试数会影响新题的标定精度, 因此参照Chen等人(2012)的做法, 本研究也将作答每个新题的被试数都控制在平均水平——(N×C)m, 也即对于3种样本大小, 作答每个新题的被试数分别控制在250((1000× 5)20)、500((2000× 5)20)和750((3000× 5)/20)。这可以通过预先构建一个行和都等于C、列和都等于(N×C)m的随机矩阵V=(vij)N×m来实现,其中vij用于标识被试i是否会作答新题j。vij=1表示被试i会作答新题j, 否则vij=0。以3000的样本大小为例, 简单说明V的构建方法:首先构建大小为(m C)×m(即4× 20)的基本矩阵单元VB
![](https://img.fx361.cc/images/2023/0202/bf23db0b3c1e610d3f64c12d56c9ce1e1ea1e471.webp)
其中⊗表示克罗内克积(kronecker product)符号,易知VB的行和都等于C(即5)、列和都等于1。所以, 如果将(N×C)m(即750)个VB纵向合并(或将⊗右边的行向量换成大小为750× 5且元素全由1组成的矩阵)然后随机调换行的位置、列的位置, 即可得到行和都等于C、列和都等于(N×C)m的矩阵V。对于1000和2000的样本大小, V的构建方法类似。
3.4.2 在线标定方法实施程序描述
CAT测验结束后, 计算机已经收集所有被试在旧题上的作答以及在新题上的作答,根据与已知的旧题参数还可计算所有被试的能力估计值以及相对应的能力估计误差方差。接下来, 再使用本文讨论的5种方法对新题进行标定。注意在具体实施不同方法时, 可能会用到上述的不同信息。比如, 对于Method A (True), 只需要被试能力真值就能标定新题; 而对于Method A (Original), 需要用于新题标定; 对于FFMLE- Method A和ECSE-Method A, 则需要用到以及Method A (Original)得到的估计结果等信息; 实施MEM需要用到以及等信息。
本文讨论的5种方法在算法层面都需要使用N-R迭代, 而且预研究(未考虑新题参数的先验分布)还发现:当用于标定新题的被试数较少(比如本文1000的样本大小所对应的250)时, 容易出现迭代不收敛的情况。为了解决此问题, 本研究将贝叶斯众数估计(Bayes Modal Estimation) (Mislevy,1986) 的思路融入到这5种方法中, 即使用贝叶斯版本的在线标定方法, 也即在标定过程中考虑新题参数的贝叶斯先验。虽然以往有些研究(比如Ban et al.,2001)使用固定的贝叶斯先验, 但在在线标定情境下, Wainer和Mislevy (1990)提出更为合理的方案:首先对题库中所有旧题的参数分布进行分析, 然后将其作为新题参数的先验分布。基于此, 本文将(19)式所示的旧题参数先验分布作为新题参数的先验分布, 记为g(γ)。值得注意的是, 贝叶斯版本的在线标定方法较原始版本方法的变化仅在于:在对数似然函数项(对于前4种方法)或对数边际似然函数项(对于MEM)后面都增加了贝叶斯先验项——lng(γ)(详见Baker & Kim, 2004; Zheng, 2014)。
![](https://img.fx361.cc/images/2023/0202/cb5d143f1199cfcd60318a91f323058ded9cd91a.webp)
其中函数norminv(•)用于计算标准正态累积分布函数的逆,prj表示作答新题j的所有被试在该题上的通过率,aμ是旧题a参数的先验均值。
3.5 评价指标
对于每种测验情境, 采用均方根误差(Root
Mean Squared Error, RMSE)、偏差(Bias)以及皮尔逊相关系数(r)评价CAT的能力估计精度, 使用RMSE、Bias、r以及加权均方误差(Weighted MSE,WMSE)评价各种方法的标定精度。采用最小EM循环数(Min_Cycle)、最大EM循环数(Max_Cycle)、平均EM循环数(Mean_Cycle)评价MEM的标定效率, 使用平均程序运行时间(Mean_Time)评价各种方法的标定时间。
3.5.1 均方根误差
![](https://img.fx361.cc/images/2023/0202/642f7ecd522395267877def61b9bf50552be2412.webp)
3.5.2 偏差
![](https://img.fx361.cc/images/2023/0202/6b8ccadaffe17dbd75a7d0bec2ae8e3200547f09.webp)
Bias指标中各符号的含义同RMSE指标, 两者都是越小越好。
3.5.3 加权的均方误差
该指标用于评价题目参数的总体返真性, 具体计算估计的项目特征曲线(Item Characteristic Curves, ICCs)与真实ICCs的平均加权面积差异。
![](https://img.fx361.cc/images/2023/0202/20aa255d8a80d450ec85f07a59155b564be7a145.webp)
3.5.4 最小/最大/平均EM循环次数
因为MEM一般需要多次EM循环才能满足收敛标准, 所以记录这些指标以评价MEM的标定效率。
![](https://img.fx361.cc/images/2023/0202/e2059b85af604ffe92f6a1b9fd789197f8e9727e.webp)
其中EM_Cycle(c)是第c次重复时MEM所需的EM循环次数, 函数min(•)、max(•)和round(•)分别用于求取最小值、最大值和四舍五入值。这3个值都是越小越好, 说明效率越高。
3.5.5 平均程序运行时间
该指标用于反映采用每种方法标定所有新题的平均计算时间, 单位是秒。
![](https://img.fx361.cc/images/2023/0202/7269c17739fb147c826983b189aa28ced8aaee76.webp)
其中Running_Time(c)表示第c次重复时运行某种在线标定方法程序所用的时间。值越小说明标定效率越高。
另外, 本研究还使用r衡量能力(题目)参数估计值与真值间线性关系的程度大小,r值越高说明能力估计精度或题目标定精度越高。
4 结果与结论
4.1 结果
本文从三个方面对研究结果(如表2至表7所示)进行分析:(1)不同测验情境下CAT的能力估计精度; (2)不同测验情境下各种方法的标定精度; (3)不同测验情境下各种方法的标定效率。
4.1.1 CAT的能力估计精度
表2描述的是在9种测验情境下模拟的CAT测验的能力估计精度。由表中数据可知, 所有测验情境下得到的Bias都非常接近0, 范围从0.0002到0.0146。而且不管样本量有多大, RMSE都随测验长度的增加而严格单调递减,r都随测验长度的增加而严格单调递增。比如, 对于1000的样本大小, 当测验长度从10增加到30时, RMSE分别为0.3615、0.2635和0.2253; 对于3000的样本大小, 当测验长度从10增加到30时,r从0.9360增加到0.9757。总体来讲, 模拟的CAT能够为被试提供准确的能力估计值。
4.1.2 在线标定方法的标定精度
表3至表5呈现的分别是测验长度为10、20和30时不同样本量下各种方法的标定精度结果。为了描述方便, 分别将Method A (True)、Method A(Original)、FFMLE-Method A、ECSE-Method A以及MEM记为M1至M5。值得强调的是, 对于样本量N=1000、2000和3000, 分别有250、500和750名被试参与每个新题的标定。而且在所有测验情境下的所有100次重复中, 5种方法的迭代程序都正常收敛, 这说明使用贝叶斯版本的在线标定方法可以避免N-R迭代不收敛的问题。
![](https://img.fx361.cc/images/2023/0202/3b034a7fd8b68b13e7bb4a18d69eb39a4da58613.webp)
表2 不同测验情境下CAT的能力估计结果
由表3可以看出, 3种样本量下的Bias都非常接近0, 范围从−0.0985到0.0072, 这说明估计的题目参数与真实题目参数间的平均差异较小, 对题目参数的修复能力较强。另外, 将两种新方法M3和M4与M2进行比较, 可以发现:(1)从题目参数的总体返真性来看, M3和M4的WMSE与M5的值相同, 而且都一致小于M2的WMSE, 这说明对能力估计误差进行校正可以改进Method A的标定精度,符合预期假设; (2)当样本量为1000时(nj=250),M3和M4在a上的RMSE (分别为0.1616和0.1678)明显小于M2的值(0.1943), 但在b上的标定精度有微小的降低(相对于M2, M3和M4在a上的RMSE降低16.83%和13.64%、而在b上的RMSE仅增加1.02%和1.36%)。但是当样本量增加到2000和3000时(nj=500和750), M3和M4较M2的优势开始突显, M3和M4在a和b上的RMSE都明显小于M2的相应值。这说明当样本量足够大时, FFMLE和ECSE的优良性质得到充分体现, 这与 Stefanski和Carroll (1985)的研究结果一致; (3)尽管M3与M4的表现比较接近, 但还是可以看出M3总体上优于M4, 这说明使用(16)式对能力估计误差进行校正比使用(17)式进行校正能够获得更准确的标定结果。而且M3的表现已经非常接近于性能最优的M5; (4)样本量越大, RMSE和WMSE都越小、r越大, 说明标定精度越高。
当测验长度由10增加到20时, CAT提供的能力估计精度已有较大幅度的提高(详见表2), 留给M3和M4“通过校正能力估计误差改进标定精度”的空间就更小了。于是可以预见M3和M4较M2的改进幅度相对于测验长度为10时会更小一些,这通过观察表4中数据可以得到证实, 具体体现在:(1) M2、M3、M4与M5的WMSE已基本相同(特例是:当样本量为2000时, M2的WMSE稍高一点); (2)在所有3种样本量下, M3和M4在a上的RMSE都比M2的稍低一些, 然而它们在b上的RMSE都要比M2的稍高一些。至于为什么这两种新方法不能像游晓锋等人(2010)的方法一样可同时改进a和b的估计精度, 原因可能是:a本质上是2PLM中θ的回归系数, 非常容易受到θ的测量误差的影响; M3与M4对中蕴含的测量误差进行校正, 从而可提高a的标定精度, 但是并未采取类似于“夹逼平均法” (游晓锋等, 2010)的任何措施以提高b的标定精度。总体而言, M3和M4的表现还是优于M24当样本量为1000时, 相对于M2, M3和M4在a上的RMSE降低4.04%和4.11%、而在b上的RMSE只增加0.78%和0.82%; 当样本量为2000时, 相对于M2, M3和M4在a上的RMSE降低9.59%和9.34%、而在b上的RMSE只增加1.88%和1.94%; 当样本量为3000时, 相对于M2, M3和M4在a上的RMSE降低11.84%和11.93%、而在b上的RMSE只增加3.05%和3.37%。所以, 如果将a和b的标定精度看成同等重要的话, M3和M4的表现在总体上优于M2。; (3) M4的表现与M3和M5的表现已非常接近。一种可能的解释是:M4受测验长度的正面影响(即测验长度越长, M4的相对表现更好)可能较M3更大一些; (4)随着样本量的增大, 标定精度也提高。另外, 3种样本量下的Bias也都非常接近0,范围是从−0.0421到0.0161。
![](https://img.fx361.cc/images/2023/0202/dd28796b1ccd48b2c3df183ae32c1dde040719f2.webp)
表3 测验长度为10时不同样本量下各种方法的标定结果
![](https://img.fx361.cc/images/2023/0202/d0c2b959ec8ea5a4489e16bf15d85025c292167e.webp)
表4 测验长度为20时不同样本量下各种方法的标定结果
随着测验长度增加到30, CAT的能力估计精度进一步提高, 留给M3和M4的改进空间进一步减小, 主要表现在以下方面:(1) M2、M3、M4与M5在3种样本量下的WMSE完全相等; (2)当用于标定新题的被试数较少时(nj=250), 相对于M2, M3没有改进标定精度。只有当nj达到500甚至是750时,M3通过校正能力估计误差在a上可以小幅度改进M2的标定精度; (3)注意当测验长度达到30且样本量为2000和3000时, M4已经成为总体上表现最好的方法5当样本量为2000时, 相对于M2, M4在a上的RMSE降低2.85%、而在b上的RMSE增加2.23%; 当样本量为3000时, 相对于M2, M4在a上的RMSE降低3.49%、而在b上的RMSE增加2.94%。同样,如果将a和b的标定精度看成同等重要的话, M4的表现在总体上优于M2。, 这进一步证实M4受测验长度的正面影响较大。另外, 样本量越大, 标定精度也越高。而且3种样本量下的Bias也都非常接近0, 范围从−0.0153到0.0238。
4.1.3 在线标定方法的标定效率
表6描述的是9种测验情境下关于MEM方法EM循环次数的统计结果。从表中可以看出, 在所有测验情境下, MEM的标定效率都比较高, 最多只需要7次EM迭代就能满足收敛标准, 最少只需要3次迭代就能收敛, 平均迭代次数为6次(当测验长度为10时)或4次(当测验长度为20和30时)。而且还可以发现:MEM所需的EM迭代次数受样本量影响不大, 但会受测验长度的影响, 比如当测验长度增加时, 最大迭代次数单调递减(注意有一个特例, 即当测验长度为30且样本量为2000时, 最大迭代次数是5)。这主要是因为如果被试作答更多的旧题, 在MEM的E步中就可以得到更精确的能力后验分布, 从而导致更快的收敛。
![](https://img.fx361.cc/images/2023/0202/0af2108def09c00f5a55f950cabbc14ba3b85bb7.webp)
表5 测验长度为30时不同样本量下各种方法的标定结果
![](https://img.fx361.cc/images/2023/0202/a64e446f46a532adb74e8073b0415deee74f9ffa.webp)
表6 不同测验情境下MEM的EM循环次数结果
表7呈现的是在9种测验情境下各种方法的平均运行时间。从表中容易看出, 在所有测验情境下,Method A类4种方法(M1、M2、M3和M4)的标定效率都很高, 整个标定过程在瞬间完成, 平均用时不到0.02秒。而且还可以发现:相对于M1和M2,M3和M4所花的时间稍多一点, 这主要是因为M3和M4首先在M2的基础上对能力ˆθ中包含的测量误差进行校正, 然后再基于M2标定新题。相比之下, MEM的算法更复杂, 所需的平均运行时间明显更多(范围在6.0827秒与21.0330秒之间), 所花时间约为其他4种方法的544倍至1618倍之间。尽管如此, MEM这种运行时间上的增加并不具有显著的实际意义, 因为即使采用算法最复杂的MEM也只需22秒不到的时间即可完成标定任务。但是当将这些方法推广到多维CAT情境时, Method A类4种方法较MEM的时间优势就开始突显。在一项预研究中发现:Method A类4种方法的多维版本只需2秒以内的时间即可完成标定, 而MEM的多维版本则需要长达1至2个小时的运行时间, 这在实践中可能难以接受。
![](https://img.fx361.cc/images/2023/0202/988e027dbb749fb4b70a486c891c1fee6d6577a6.webp)
表7 不同测验情境下各种方法的平均运行时间
4.2 结论
基于上述研究结果, 可以得出以下结论:
(1)当CAT测验长度较短或中等时(比如t=10或t=20), MEM总体上表现最优。新方法FFMLE-Method A和ECSE-Method A较Method A总体上可以改进标定精度(t=10时的改进幅度最大), 而且与MEM的表现非常接近6其实在标定新题的过程中, MEM也和两种新方法一样对能力估计误差进行了控制。具体表现在:MEM在M步中是通过最大化对数边际似然函数来估计新题参数, 而边际似然函数是在联合似然函数的基础上通过积分把能力θ积掉而得到。所以从本质上讲, MEM通过积掉θ来控制能力的估计误差。。所以, 在实践中如果对运行时间有较高要求的话, 强烈建议选择两种新方法中表现相对更好的FFMLE-Method A作为在线标定方法; 否则, 建议使用MEM。
(2) 当CAT测验长度较长(比如t=30)且样本量较大(比如N=2000和3000)时, 建议使用总体表现最好且标定效率较高的ECSE-Method A;
(3) 在CAT新题标定过程中融入新题参数的先验信息, 能够避免迭代算法不收敛的问题;
(4) MEM的标定效率较高, 在不同条件下只需3至7次EM迭代就能满足收敛标准;
(5) 模拟的CAT可为被试提供准确的能力估计值。
5 讨论及今后的研究方向
Quellmalz和Pellegrino (2009)着重强调在线测验在大规模评价项目中的重要作用, 比如国际学生评价项目(PISA)以及美国教育进展评估(NAEP)都计划使用计算机施测或已经使用计算机呈现阅读材料。目前美国已有超过27个州(包括Maryland、North Carolina和Oregon等)在州范围或学期末的测验中使用在线测验形式。另外, 作为2001年美国小布什政府“不让一个小孩掉队” (No Child Left Behind)法案的扩展, 2009年奥巴马政府颁布的“力争上游” (Race to the Top)法案要求美国基础教育阶段(K-12)的州测评必须是计算机化的而且应该使用创新的题型。因此, 由23个州组成的共同体——“大学与职业准备测评联盟” (Partnership for Assessment of Readiness for College and Career,PARCC)正在紧锣密鼓地准备他们的在线州测评,而由另外25个州组成的“智能均衡测评联盟”(Smarter Balanced Assessment Consortium, SBAC)也正在积极合作为其州测评设计CAT (Zheng,2014)。这些都为CAT中的在线标定技术提供了良好的发展前景。
Method A是最早提出的、最简单的CAT在线标定方法。针对Method A的理论缺陷, 本文将FFMLE和ECSE与Method A相结合得到两种新方法——FFMLE-Method A和ECSE-Method A, 它们借鉴FFMLE和ECSE的误差校正思路从理论上对被试的能力估计误差进行校正。为了考察两种新方法的表现, 本研究在多种测验情境下将它们与Method A (True)、Method A (Original)和MEM进行比较, 得到一些有意义的结果, 比如:(1)通过对能力估计误差进行校正, 新方法在大多数实验条件下总体上可以改进Method A的标定精度; (2)当CAT测验长度较短(比如10题)时, 新方法对Method A的改进程度最大7由2.3节对两种新方法的描述可知:当t→∞时, →, 因此当nj足够大时, 两种新方法的统计量具有优良统计特性。然而对于较短的测验长度 (比如t=10), 上述假设会受到某种程度的违背,但这时新方法对Method A的改进程度最大, 一种可能的原因是:测验较短时, CAT提供的能力估计精度较低, 留给改进的空间就比较大, 因此新方法通过校正能力估计误差改进标定精度的幅度也较大;而违背上述假设受到的惩罚可能稍小一些。欢迎在今后的研究中对此有更为严格的解释。; (3)由于考虑新题参数的先验信息, 所有在线标定程序的N-R迭代全部收敛。但是,本文还存在一些不足值得今后进一步探讨:
首先, 从严格意义上讲, 所有在线标定方法(包括Method A)的标定精度都会受到题库中旧题参数的估计误差的影响。换句话说, 在构建CAT题库时, 题库中每个题目的参数都估计自某个标定样本, 因此都存在某种程度的估计误差(Cheng,2008)。这部分的误差除了会传递到接下来的评分过程中, 对评分样本的能力估计产生影响并低估能力估计的标准误(Cheng & Yuan, 2010); 也会传递到MEM中E步和M步的相关计算中。本文提出的新方法(FFMLE-Method A和ECSE-Method A)在标定新题的过程中仅对能力估计误差进行校正, 如果还能够首先校正旧题参数的估计误差(也即对两类误差都进行校正), 意义将不言而喻。另外, 本文讨论的FFMLE和ECSE能否用于对旧题参数的估计误差进行校正, 也有待进一步的研究。
其次, Chen等人(2012)将Method A推广至认知诊断CAT (CD-CAT)领域(记为CD-Method A)。类似于Method A, CD-Method A也具有理论缺陷, 即将被试知识状态(KS)估计值视为KS真值, 这样KS的估计误差也会传递到对新题的标定过程中。因此,今后值得研究的一个新方向是将FFMLE和ECSE应用于CD-Method A, 并对KS的估计误差进行校正。需要指出的是, 不同于CAT中的待估能力是一维的连续变量, CD-CAT中待确定的KS是多维的二分离散变量, 这使得对KS估计误差的校正会更加复杂。而且在DINA等认知诊断模型中, FFMLE和ECSE是否仍具有优良的统计特性也有待进一步的考证。另外, 汪文义、丁树良和游晓锋(2011)讨论在CD-CAT测验过程中植入新题时, 同样考虑了KS的估计误差, 并提出边际MLE (MMLE)方法对属性进行标定。Chen, Liu和Ying (2015)提出的“单个题目标定方法” (SIE)也考虑了KS估计的不确定性, 并成功应用于新题参数和新题属性向量的同时估计。因此, 另一个有趣的问题是探索如何将MMLE和SIE方法应用于KS估计误差的校正中。
再次, 尽管本文提出的两种新方法能够克服Method A的理论缺陷、并改进Method A的标定精度, 但是它们需要在较大样本的前提下才能表现出较好的效果(也即当作答每个新题的被试数量nj=500和750时, 新方法的标定精度才开始突显;与此对应的总被试样本量N=2000和3000, 因为N=nj×(m C)且采用的是随机在线标定设计), 而大样本的收集在真实测验情境中往往会比较困难,所以这是新方法的局限性之一。今后应当重点考虑如何在小样本情境下改进Method A的标定缺陷。
最后, 为了讨论方便本文仅考虑固定长度的CAT终止规则, 今后还可以在变化长度的CAT测验情境中探讨新方法FFMLE-Method A和ECSE-Method A相对于Method A和MEM的表现。另外, 在更为复杂的CAT测验情境下考查FFMLE-Method A和ECSE-Method A的表现也是值得探索的研究方向, 比如能够满足题目曝光控制、内容均衡以及题目类型均衡等非统计约束条件的CAT、允许检查并修改答案的CAT等。
Baker, F. B., & Kim, S. H. (2004).Item response theory: Parameter estimation techniques(2nded.). New York: Dekker.
Ban, J.-C., Hanson, B. A., Wang, T. Y., Yi, Q., & Harris, D. J.(2001). A comparative study of on-line pretest item—calibration/scaling methods in computerized adaptive testing.Journal of Educational Measurement, 38(3), 191–212.
Ban, J.-C., Hanson, B. A., Yi, Q., & Harris, D. J. (2002). Data sparseness and on-line pretest item calibration-scaling methods in CAT.Journal of Educational Measurement,39(3), 207–218.
Birnbaum, A. (1968). Some latent trait models and their use in inferring an examinee’s ability. In F. M. Lord & M. R.Novick (Eds.),Statistical theories of mental test scores(pp.379–479). Reading, MA: Addison-Welsey.
Carroll, R. J., Ruppert, D., Stefanski, L. A., & Crainiceanu, C.M. (2006).Measurement error in nonlinear models: A modern perspective(2nded.). London: Chapman and Hall.
Chang, H. H. (2012). Making computerized adaptive testing diagnostic tools for schools. In R. W. Lissitz & H. Jiao(Eds.),Computers and their impact on state assessments:Recent history and predictions for the future(pp. 195–226).Charlotte, NC: Information Age.
Chang, H. H. (2015). Psychometrics behind computerized adaptive testing.Psychometrika, 80(1), 1–20.
Chang, H. H., Qian, J. H., & Ying, Z. L. (2001). a-stratified multistage computerized adaptive testing with b blocking.Applied Psychological Measurement, 25(4), 333–341.
Chang, H. H., & Stout, W. (1993). The asymptotic posterior normality of the latent trait in an IRT model.Psychometrika,58(1), 37–52.
Chang, Y.-C. I., & Lu, H. Y. (2010). Online calibration via variable length computerized adaptive testing.Psychometrika, 75(1),140–157.
Chen, P. (2011).Item replenishing in cognitive diagnostic computerized adaptive testing——Based on DINA model(Unpublished doctorial dissertation). Beijing Normal University.
[陈平. (2011).认知诊断计算机化自适应测验的项目增补——以DINA模型为例(博士学位论文). 北京师范大学.]
Chen, P., & Xin, T. (2011a). Developing on-line calibration methods for cognitive diagnostic computerized adaptive testing.Acta Psychologica Sinica, 43(6), 710–724.
[陈平, 辛涛. (2011a). 认知诊断计算机化自适应测验中在线标定方法的开发.心理学报, 43(6), 710–724.]
Chen, P., & Xin, T. (2011b). Item replenishing in cognitive diagnostic computerized adaptive testing.Acta Psychologica Sinica, 43(7), 836–850.
[陈平, 辛涛. (2011b). 认知诊断计算机化自适应测验中的项目增补.心理学报, 43(7), 836–850.]
Chen, P., & Xin, T. (2014).A new online calibration approach for multidimensional computerized adaptive testing. Paper presented at the National Council on Measurement in Education, Philadelphia, PA.
Chen, P., Xin, T., Wang, C., & Chang, H. H. (2012). Online calibration methods for the DINA model with independent attributes in CD-CAT.Psychometrika, 77(2), 201–222.
Chen, P., Zhang, J. H., & Xin, T. (2013). Application of online calibration technique in computerized adaptive testing.Advances in Psychological Science, 21(10), 1883–1892.
[陈平, 张佳慧, 辛涛. (2013). 在线标定技术在计算机化自适应测验中的应用.心理科学进展, 21(10), 1883–1892.]
Chen, Y. X., Liu, Y. C., & Ying, Z. L. (2015). Online item calibration for Q-matrix in CD-CAT.Applied Psychological Measurement, 39(1), 5–15.
Cheng, Y. (2008).Computerized adaptive testing – new developments and applications(Unpublished doctorial dissertation). University of Illinois at Urbana-Champaign.
Cheng, Y., & Yuan, K. H. (2010). The impact of fallible item parameter estimates on latent trait recovery.Psychometrika,75(2), 280–291.
Clark, R. R. (1982).The errors-in-variables problem in the logistic regression model(Unpublished doctorial dissertation).University of North Carolina, Chapel Hill.
Flaugher, R. (2000). Item pools. In H. Wainer, N. J. Dorans, R.Flaugher, B. F. Green, & R. J. Mislevy (Eds.),Computerized adaptive testing: A primer(Chap.3, 2nded., pp. 37–59).Mahwah, NJ: Erlabum.
Guo, F. M., & Wang, L. (2003).Online calibration and scale stability of a CAT program. Paper presented at the annual meeting of National Council on Measurement in Education,Chicago, IL.
Jones, D. H., & Jin, Z. Y. (1994). Optimal sequential designs for on-line item estimation.Psychometrika, 59(1), 59–75.
Lien, D.-H. D. (1985). Moments of truncated bivariate lognormal distributions.Economics Letters, 19(3), 243–247.
Lord, F. M. (1980).Applications of item response theory to practical testing problems. Hillside, NJ: Erlbaum.
Mislevy, R. J. (1986). Bayes modal estimation in item response models.Psychometrika, 51(2), 177–195.
Parshall, C. G. (1998).Item development and pretesting in a computer-based testing environment. Paper presented at the colloquium Computer-Based Testing: Building the Foundation for Future Assessments, Philadelphia, PA.
Qi, S. Q., Dai, H. Q., & Ding, S. L. (2002).Principles of modern educational and psychological measurement. Beijing,China: Higher Education Press.
[漆书青, 戴海琦, 丁树良. (2002).现代教育与心理测量学原理. 北京: 高等教育出版社.]
Quellmalz, E. S., & Pellegrino, J. W. (2009). Technology and Testing.Science, 323(5910), 75–79.
Stefanski, L. A., & Carroll, R. J. (1985). Covariate measurement error in logistic regression.Annals of Statistics, 13(4),1335–1351.
Stocking, M. L. (1988).Scale drift in on-line calibration(Research Rep. 88–28). Princeton, NJ: ETS.
Tian, J. Q., Miao, D. M., Yang, Y. B., He, N., & Xiao, W.(2009). The development of computerized adaptive picture assembling test for recruits in China.Acta Psychologica Sinica, 41(2), 167–174.
[田健全, 苗丹民, 杨业兵, 何宁, 肖玮. (2009). 应征公民计算机自适应化拼图测验的编制.心理学报, 41(2), 167–174.]
van der Linden, W. J., & Ren, H. (2015). Optimal Bayesian adaptive design for test-item calibration.Psychometrika,80(2), 263–288.
Wainer, H., Dorans, N. J., Flaugher, R., Green, B. F., Mislevy, R.J., Steinberg, L., & Thissen, D. (1990).Computerized adaptive testing: A primer. Hillsdale, NJ: Lawrence Erlbaum.
Wainer, H., & Mislevy, R. J. (1990). Item response theory,item calibration, and proficiency estimation. In H. Wainer,N. J. Dorans, R. Flaugher, B. F. Green, R. J. Mislevy, L.Steinberg, & D. Thissen (Eds.),Computerized adaptive testing: A primer(Chap. 4, pp. 65–102). Hillsdale, NJ:Erlbaum.
Wang, C. (2012).Semi-parametric models for response times and response accuracy in computerized testing(Unpublished doctorial dissertation). University of Illinois at Urbana-Champaign.
Wang, W. Y., Ding, S. L., & You, X. F. (2011). On-line item attribute identification in cognitive diagnostic computerized adaptive testing.Acta Psychologica Sinica, 43(8), 964–976.
[汪文义, 丁树良, 游晓锋. (2011). 计算机化自适应诊断测验中原始题的属性标定.心理学报, 43(8), 964–976.]
Weiss, D. J. (1982). Improving measurement quality and efficiency with adaptive testing.Applied Psychological Measurement, 6(4), 473–492.
You, X. F., Ding, S. L., & Liu, H. Y. (2010). Parameter estimation of the raw item in computerized adaptive testing.Acta Psychologica Sinica, 42(7), 813–820.
[游晓锋, 丁树良, 刘红云. (2010). 计算机化自适应测验中原始题项目参数的估计.心理学报, 42(7), 813–820.]
Zheng, Y. (2014).New methods of online calibration for item bank replenishment(Unpublished doctorial dissertation).University of Illinois at Urbana-Champaign.