基于属性多级化的认知诊断计算机化自适应测验设计与实现*

2015-02-05 09:13涂冬波
心理学报 2015年11期
关键词:题库测验选题

涂冬波 蔡 艳

(江西师范大学心理学院,江西省心理与认知科学重点实验室,南昌 330022)

1 引言

认知诊断计算机化自适应测验 (Computerized Adaptive Testing for Cognitive Diagnosis,CD-CAT)建立在传统 CAT的基础之上,同时赋予传统 CAT新的功效——认知诊断。它是将认知诊断的基本理论、方法与计算机化自适应测验相结合的产物。CD-CAT因充分结合了认知诊断和计算化自适应测验的双重优点而深受国内外研究者推崇。但就目前国内外研究来看,CD-CAT中涉及的属性和测验 Q矩阵的元素基本都是由 0-1组成(Cheng,2009;Wang,Chang & Huebner,2011; Wang,2013; Mao &Xin,2013; Hsu,Wang,& Chen,2013; Chen,Liu,&Ying,2014; 陈平,辛涛,2011; 涂冬波,蔡艳,戴海琦,2013; 汪文义,丁树良,宋丽红,2014),即

a

=1说明被试i掌握了属性k; 若

a

= 0说明被试i未掌握属性k; 若

q

= 1说明项目j测量了属性k; 若

q

= 0说明项目j未考察/测量属性k。在传统0-1化的属性基础上,为了更为细致地考察被试具体掌握了属性的哪个水平层次以及细化项目测量的属性水平层次,学者们开始提出了属性多级化思想(Karelitz,2004; de la Torre,Lam,Rhoads,& Tjoe,2010; Chen & de la Torre,2013),用于考察被试具体掌握/达到属性的哪种水平; 多级化属性中,知识状态取值不仅是 0-1,也可以是其它取值,用于表明被试掌握了属性的哪种水平层次,如

α

= 0代表被试j未掌握属性k (即Level 0),

α

= 1代表被试i掌握了属性k的水平1 (Level 1),

α

= 2代表被试i掌握了属性k的水平2 (Level 2)。相对应的

q

代表了项目j测量属性k的哪个水平,如

q

0代表项目j未测量属性k,

q

= 1代表项目j测量了属性k的水平1,

q

= 2代表项目j测量了属性k的水平2,依此类推。当然,如果被试要正确答对项目,则被试的知识状态就需达到项目测量相应属性水平层次。例如:如果项目i测量的属性

q

=(1,2),而若属性A1和A2均有3种水平(Level 0、Level 1和Level 2),则被试至少需掌握属性A1的水平1和属性A2的水平2才可能答对该项目,即当被试的掌握模式

α

= (1,2)或(2,2)时才可能答对该项目。属性多级化的思想不仅可以进一步细化项目测量的属性水平层次,同时还可以进一步细致考察被试具体掌握了属性的哪个水平层次。与传统0-1属性相比,传统 0-1属性思想是将被试判为未掌握和掌握两个水平(只能将被试区分为两类),而多级化属性思想则将被试判为未掌握和具体掌握了属性何种水平(即能区分出更多类型的被试),因此提供的信息更为丰富和细致,对被试的诊断也更具价值和指导意义(de la Torre et al.,2010)。

将属性多级化的思想融入到认知诊断计算机化自适应测验(CD-CAT)是一种全新的测量思想,它能充分发挥两者的优势。与传统0-1化的CD-CAT相比,它能高速、快效、准确地(CD-CAT优势)为被试提供更为细致和丰富的诊断信息(属性多级化的思想),对被试的诊断也更具价值和指导意义。比较可惜的是,查阅相关文献,我们发现目前国内外还未开展有关于属性多级化的CD-CAT研究。鉴于属性多级化的优势,本研究拟将属性多级化思想融入传统0-1化的CD-CAT中,开发出适合属性多级化的CD-CAT(简记为 pCD-CAT),重点探讨 pCD-CAT的设计思路及其实现,并同时与国际上流行的属性0-1化的CD-CAT进行比较,为进一步拓展CD-CAT在实践中的应用提供新技术和新方法支持。

2 属性多级化认知诊断计算机化自适应测验设计

2.1 属性多级化的认知诊断模型

要实现属性多级化的CD-CAT (pCD-CAT),首先需开发出相应的认知诊断模型(cognitive diagnosis model,CDM)。本研究对传统属性0-1化的R-RUM(reduced Reparameterized Unified Model; Hartz,2002)模型进行改造,开发出适合处理pCD-CAT的认知诊断模型。式 2.1是传统的属性 0-1二值化R-RUM的项目反应函数:

经过公式2.2和2.3变换,则属性0-1化的传统的R-RUM模型可以多级化拓展为公式2.4,本文将属性多级化的R-RUM模型简记为PA-R-RUM模型。

表1 属性多级化的二值转换及其项目答对概率,qjk=(1,3),=(1,1)

对于 PA-R-RUM 模型项目参数及被试参数的联合估计算法我们已实现,且参数估计精度比较理想,限于篇幅这里就不具体展开相关参数联合估计的公式与算法(感兴趣的读者可向作者索要)。考虑到在 pCD-CAT环境下,项目参数一般是已知的,需要估计的是被试参数(即在项目参数已知的条件估计被试参数),所以在文章2.2部分我们详细介绍了在pCD-CAT环境下,PA-R-RUM模型被试参数条件估计的3种算法及相关公式。

2.2 属性多级化的pCD-CAT参数估计算法

CD-CAT环境下的参数估计多指项目参数已知的条件下估计被试的知识状态(Knowledge States,KS),Huebner和 Wang (2011)以及 Feng,Habing和Huebner (2014)的研究中指出目前认知诊断框架下被试知识状态的条件估计方法主要有:极大似然估计法(Maximum Likelihood Estimation,MLE),极大后验估计法(Maximum a Posteriori,MAP)和期望后验估计法(Expected a Posteriori,EAP)。

则PA-R-RUM模型的似然函数为,

则被试

i

的知识状态的极大似然(MLE)估计值为,

即MLE是指使似然函数(见式2.6)具有最大值所对应的知识状态作为被试知识状态的估计值。

那么,被试

i

的知识状态的极大后验(MAP)和期望后验(EAP)估计值分别为:

即MAP指在给定作答向量X条件下具有最大后验概率的知识作为被试知识状态的估计值; EAP是以被试知识状态的后验期望值作为估计值。

2.3 pCD-CAT选题策略

CD-CAT通常是根据信息量来选择最适合被试作答的项目,由于知识状态的非连续性,当前CD-CAT环境下主要是根据Kullback –Leibler信息量指标进行选题,常用的方法有KL信息量(Kullback–Leibler),PWKL信息量(Posterior-Weighted KL),HKL信息量(Hybrid KL)等(Cheng,2009; Hsu et al.,2013)。考虑到知识状态-属-多级化的pCD-CAT下,信息量的计算与传统CD-CAT不尽相同,因此本研究将传统CD-CAT下的KL、PWKL和HKL三个信息量分别记为PA-KL、PA-PWKL和PA-HKL,以示区别。

Kullback–Leibler信息量的计算公式见2.11,

则HKL信息量(Hybrid KL)可计算为,

2.4 pCD-CAT终止规则

与传统CAT一样,CD-CAT的终止规则主要有两种,定长(fixed length)和不定长(variable length)。定长是指固定CD-CAT的测验长度(如20题),即如果某被试在 CD-CAT中达到了该长度,则停止测试。定长CD-CAT的特点是所有被试所用的题量均相等; 不定长CAT是指固定测量精度,即如果某被试在CD-CAT中达到某一设定的测量精度,则停止测试。不定长CD-CAT的特点是被试的测量精度基本一致,但被试所用的题量不尽相同。Hsu等(2013)以及 Tatsuoka (2002)在其研究中曾使用后验概率(posterior probability)作为测量精度指标,即当被试判为某个知识状态的后验概率达到事先要求水平(如0.8),则终止测试,本研究拟沿用这一做法。

3 pCD-CAT的实现及与传统CD-CAT的比较

为了进一步验证第二部分关于pCD-CAT设计的可行性,并同时为了探讨其与传统 CD-CAT(即属性0-1二值化的CD-CAT)的比较,本文开展了3项Monte Carlo模拟实验研究:

实验1

:定长CD-CAT条件下pCD-CAT效果

实验2

:不定长CD-CAT条件下pCD-CAT效果

实验3

: pCD-CAT与传统CD-CAT的比较

3.1 题库结构及其Monte Carlo模拟

题库共测量5个独立的认知属性,每个属性的水平数分别是2,2,3,3和4,详见表2。表2中既有 0-1 化的属性(

α

α

),又有多级化的属性(

α

,

α

α

),且

α

,

α

α

的水平数不尽相同,是一种混合型且相对复杂的属性结构。

表2 题库测量的属性及其水平数

由表2可知,被试的知识状态(KS)或属性掌握模式共有 2×2×3×3×4=144 种,项目测量模式则有144-1=143种(即除去全为0的模式)。为了保证题库中各种类型的试题都有,本研究中共模拟生成350道试题(并保证每种类型的试题在题库中至少有2道,143×2=286,其余350-286=64题则从所有可能的143种项目测量模式中随机生成)。同时,为了保证各种知识状态(KS)或属性掌握模式被试的存在,研究中模拟 1000名被试(并保证每种知识状态或属性掌握模式的被试至少6人,144×6=864,其余1000-864=136人则从所有可能的144种知识状态中随机生成)。

3.2 实验条件

3.2.1 属性多级化的认知诊断模型

采用 2.1部分中本研究开发的 PA-R-RUM 模型。该模型既可以处理属性 0-1化的测验情景,也可以处理属性多级化的测验情景,还可以处理 0-1属性和多级属性混合的测验情景。

3.2.2 参数估计方法

3.2.3 选题策略

将本研究 2.3部分设计的 PA-KL、PA-PWKL和PA-HKL三种选题策略运用到pCD-CAT中,即选择具有相应最大信息量的试题,将随机选题策略(记为 Random)作为参照基准,并比较这几种选题策略的特点及优劣; 同时探讨传统CD-CAT下的常用选题策略是否适应于pCD-CAT环境。

3.2.4 终止规则

3.3 评价指标

3.3.1 属性判准率(Classification Accuracy)

采用单个属性判准率(Attribute Match Ratio,AMR)和所有属性平均边际判准率(Average Attribute Match Ratio,AAMR)和模式判准率(Pattern Match Ration,PMR)三个评价指标。

N

表示被试

i

的整个属性掌握模式是否判对,判对为1,判错为0; 表示被试

i

的属性

k

是否判对,判对为1,判错为0。

3.3.2 题库安全性(Test Security)

采用题目曝光率(exposure rate,ER)和测验重叠率(test overlap ration,TOR)指标来衡量题库的安全性。

测验重叠率(test overlap ration,TOR)是反应不同被试共同调用试题的重叠情况,重叠率越高说明题库越不安全。因此测验重叠率的计算与项目曝光率、测验长度和被试量有关,Chen,Ankenmann和Spray (2003)在其研究中给出如下计算公式。

3.3.3 测验效率(Test Efficiency)

测验效率主要用来评价不定长pCD-CAT的测试效率,即在相同测量精度下,平均使用的题数即为测验效率。如果平均使用的题数越少说明pCD-CAT测试的效率越高,反之效率越低。

L

指不定长CD-CAT中被试

i

使用的题数。

表3 定长pCD-CAT的判准率

4 实验1:定长条件下pCD-CAT效果

实验1采用3×4两因素实验设计,第一因素为测验长度,分15、20和25题三个水平; 第二个因素为选题策略,分随机选题策略、PA-KL、PA-PWKL和PA-HKL四种选题策略。

表3和表4分别是定长pCD-CAT下的被试属性判准率及题库安全性的结果。

表4 定长pCD-CAT的题库安全性

总之,实验 1结果表明,总体来讲本研究设计下的定长 pCD-CAT具有较高的属性判准率,且题库的安全性尚可。几种选题策略相比较而言,PA-PWKL和 PA-HKL选题策略整体上最佳,而PA-KL选题策略由于较低属性模式判准率及相对较高的测验重叠率和曝光率,因此 PA-KL选题策略不太适用于不定长pCD-CAT。

5 实验2:不定长条件下pCD-CAT效果

考虑到随机选题策略(Random)在不定长 pCDCAT下,为了达到后验概率大于0.8的测量精度需要非常多的试题(如超过 100多题),因此已基本失去了CAT的价值,因此实验2中未考虑Random选题策略。

实验2采用3×3两因素实验设计,第一因素为测量精度指标——后验概率

p

,分0.75、0.80和0.85三个水平; 第二个因素为选题策略,为 PA-KL、PA-PWKL和PA-HKL三种选题策略。同时实验2控制了每个被试的最大使用题量为 60题,即如果被试做完 60题后仍未达到预先设定的测量精度则停止测试。

表5和表6分别是不定长pCD-CAT下的被试知识状态(KS)判准率及题库的安全性与测验效率的结果。

表5 不定长pCD-CAT的判准率

表6 不定长pCD-CAT的题库安全性与测验效率

总之,实验 2结果表明,总体来讲本研究设计的不定长 pCD-CAT同样具有较高的属性判准率,且题库的安全性较理想。几种选题策略相比较而言,PA-PWKL和PA-HKL选题策略整体上最佳,但KL选题策略因诊断正确率、题库安全性及测验效率低等原因仍不适用于pCD-CAT。

6 实验3:属性多级化CD-CAT与传统CD-CAT的比较

为了保证结果的可比性及简化实验,实验3完全采用实验1的数据,结果见表7。

表7可知,不论是在哪种选题策略下,采用传统的CD-CAT处理pCD-CAT的知识状态判准率都非常低; 且与实验1相比,边际判准率AAMR平均下降了 18.2%,而模式判准率则平均下降高达 44.2%;尤其是当采用HKL和PWKL选题策略时,PMR分别下降了67.2%和67.6%。总之,实验3结果表明,在认知诊断计算机化自适应测试中,当属性多级化时不宜采用传统CD-CAT诊断方法,而本文设计的pCD-CAT是一种不错的选择。

表7 属性多级化情景下传统CD-CAT的判准率

考虑到不定长pCD-CAT下,使用传统CD-CAT方法处理pCD-CAT情景下属性诊断正确率较低(见表8)。若使用传统属性0-1的CD-CAT来处理属性多级化 CD-CDAT,且要使测量精度或后验概率大于 0.75,则需要非常多的试题(平均超过 100题),因此已基本失去了CAT的价值,因此实验3中未报告不定长下条件的结果。

表8 传统属性多级化0-1二值化CD-CAT的题库安全性

7 研究结论与讨论

7.1 研究结论

本研究在传统CD-CAT的基础上进行拓展,开发设计了可以处理属性多级化的 CD-CAT (记为pCD-CAT),Monte Carlo模拟实验结果表明:基于属性多级化框架下设计的pCD-CAT具有较好的诊断正确率、题库安全性和较高的测验效率,说明本研究设计开发的 pCD-CAT基本可行,可以用于实现属性多级化的计算化自适应诊断,弥补了传统CD-CAT不足; 当属性多级化为多级化时,若采用传统 CD-CAT方法,则诊断正确率非常不理想(属性模式判准不到 30%),表明传统 CD-CAT在属性多级化为多级化测验情景时不适宜,而本文设计的pCD-CAT是一种不错的选择(属性模式判准高达80%及以上); 模拟实验还同时表明,KL选题策略不适合 pCD-CAT环境; 整体来看 PWKL和 HKL选题策略具有较理想的判准率、题库安全性和高测验效率。同时,本研究中所有算法采用 Matlab 7.0语言编程实现,在普通笔记本电脑(i5-2450M,CPU 2.5GHz,RAM 2.00G)运行环境下,平均每个被试完成20题的pCD-CAT用时不到1秒,这符合 CAT的速度要求,当然随着计算机电脑性能的提高以及使用更为优化的语言编程(如 FORTRAN语言等),其运算速度还有望进一步提高。总之,本研究对于进一步拓展 CD-CAT在实践中的应用提供了方法和技术支持。

7.2 讨论与研究展望

pCD-CAT是一项全新的研究领域,为了推动pCD-CAT更好地服务实践,未来至少在以下领域可进一步深入:

(1) 关于pCD-CAT新选题策略算法研究

作为一项初始研究,本研究成功地将传统CD-CAT的PWKL和HKL选题策略的思想方法应用于 pCD-CAT环境中; 未来研究可以进一步考虑香农熵(Xu,Chang,& Douglas,2003)和互信息量(Mutual information,Wang,2013)等选题策略在pCD-CAT中的效果。

(2) 关于pCD-CAT题库安全性控制技术研究

测量精度与题库安全性向来是 CD-CAT环境下的一对矛盾体。如果想保证CD-CAT有较高的诊断正确率,则必然会导致过多地使用题库中优秀的试题,从而使题目曝光率偏高; 同样,如果想要使题库中的题目被均匀的使用,则必然会损失一定的测验精度。本研究设计的 pCD-CAT也不例外,未来研究应该尽量在两者间寻求平衡。令人幸喜的是目前国内外已有学者已关注 CD-CAT中兼顾诊断准确率和题库安全性的研究(Wang et al.,2011; Hsu et al.,2013; 汪文义等,2014),当然这些研究方法及结果是否适用于pCD-CAT环境还有待进一步探讨。

(3) 关于pCD-CAT下多级属性的标定

属性多级化的 pCD-CAT理论上可以比传统CD-CAT提供更为丰富、更具价值的诊断信息,能将被试区分出更多种类型被试(详见引言部分),这对于拓展认知诊断在实现中的应用提供了重要的方法学支持。当然,在实践中,对多级化属性的标定(即测验Q矩阵的标定)将比传统0-1属性面临更大的挑战。当前 0-1属性框架下,属性主要是由专家来标定,有研究(Decarlo,2011)表明测验 Q矩阵的标定是一项十分复杂的任务,专家们针对同一份测验往往会有多个不同的测验Q矩阵。那么,对于多级化属性的标定显然比传统的0-1属性标定更为复杂。因此,pCD-CAT在实践中的应用还需进一步解决其属性标定技术等问题。

Chen,J.S.,& de la Torre,J.(2013).A general cognitive diagnosis model for expert-defined polytomous attributes.

Applied Psychological Measurement, 37

(6),419–437.Chen,P.,& Xin,T.(2011).Item replenishing in cognitive diagnostic computerized adaptive testing.

Acta Psychologica Sinica,43

(7),836–850.

[陈平,辛涛.(2011).认知诊断计算机化自适应测验中的项目增补.心理学报,43(7),836–850.]

Chen,S.Y.,Ankenmann,R.D.,& Spray,J.A.(2003).The relationship between item exposure and test overlap in computerized adaptive testing.

Journal of Educational Measurement,40

,129-145.Chen,Y.X.,Liu J.C.,& Ying,Z.L.(2014).Online item calibration for Q-Matrix in CD-CAT.

Applied Psychological Measurement,38

(1),5–15.Cheng,Y.(2009).When cognitive diagnosis meets computerized adaptive testing:CD-CAT.

Psychometrika, 74

,619– 632.de la Torre,J.,Lam,D.,Rhoads,K.,& Tjoe,H.(2010,May).

Measuring grade 8 proportional reasoning:The process of attribute identification and task development and validatio

n.Paper presented at the annual meeting of the American Educational Research Association,Denver,CO.DeCarlo,L.T.(2011).On the analysis of fraction subtraction data:The DINA model,classification,latent class sizes,and the Q-matrix.

Applied Psychological Measurement,35

(1),8–26.Feng,Y.L.,Habing,B.T.,Huebner,A.(2014).Parameter estimation of the reduced RUM using the EM algorithm.

Applied Psychological Measurement, 38

(2),137–150.Hartz,S.(2002).

A bayesian framework for the unified model for assessing cognitive abilities:Blending theory with practicality

(Unpublished doctoral dissertation).University of Illinois at Urbana-Champaign.Hsu,C.L.,Wang,W.C.,& Chen,S.Y.(2013).Variable-length computerized adaptive testing based on cognitive diagnosis models.

Applied Psychological Measurement, 37

(7),563–582.Huebner,A.,& Wang,C.(2011).A note on comparing examinee classification methods for cognitive diagnosis models.

Educational and Psychological Measurement,71

(2),407–419.Karelitz,T.M.(2004).

Ordered category attribute coding framework for cognitive assessments

(Unpublished doctoral dissertation).University of Illinois at Urbana-Champaign.Mao,X.Z.,& Xin,T.(2013).The application of the Monte Carlo approach to cognitive diagnostic computerized adaptive testing with content constraints.

Applied Psychological Measurement, 37

(6),482–496.Tatsuoka,C.(2002).Data analytic methods for latent partially ordered classification models.

Journal of the Royal Statistical Society:Series C (Applied Statistics),51

,337–350.Tu,D.B.,Cai,Y.,& Dai,H.Q.(2013).Item selection strategies and initial items selection methods of CD-CAT.

Journal of Psychological Science,36

(2),469–474.

[涂冬波,蔡艳,戴海琦.(2013).认知诊断CAT 选题策略及初始题选取方法.心理科学,36(2),469–474.]

Wang,C.(2013).Mutual information item selection method in cognitive diagnostic computerized adaptive testing with short test length.

Educational and Psychological Measurement,73

(6),1017–1035.Wang,C.,Chang,H.H.,& Huebner,A.(2011).Restrictive stochastic item selection methods in cognitive diagnostic computerized adaptive testing.

Journal of Educational Measurement,48

,255–273.Wang,W.Y.,Ding,S.L.,& Song,L.H.(2014).Item selection methods for balancing test efficiency with item bank usage efficiency in CD-CAT.

Journal of Psychological Science,37

(1),212–216.

[汪文义,丁树良,宋丽红.(2014).兼顾测验效率和题库使用率的CD-CAT选题策略.心理科学,37(1),212–216.]

Xu,X.L.,Chang,H.H.,& Douglas,J.(2003,April).

A simulation study to compare CAT strategies for cognitive diagnosis

.Paper presented at the Annual Meeting of National Council on Measurement in Education,Montreal,Canada.

猜你喜欢
题库测验选题
新年刊
“整式的乘法与因式分解”优题库
脑力急旋风
选题有误
两个处理t测验与F测验的数学关系
数字测验
猿题库技术压阵 深耕 K12在线教育市场
猿题库
你知道吗?
你知道吗