张 军
(北京语言大学汉语进修学院,北京100083)
单维项目反应理论模型分参数型(Parametric Item Response Theory,PIRT)与非参数型(Nonparametric Item Response Theory,NIRT)两种。PIRT 模型适合于等距量表或比率量表水平的测量;而NIRT的测量限于顺序量表水平。(Meijer,Sijtsma,&Smid,1990;Sijtsma & Verweij,1992)前者使用难度、区分度、猜测度等若干项目参数刻画项目特征曲线,描写项目的测量特性;而后者不要求反应数据符合某种特定函数形态,比前者限制要少,只使用量表适宜性系数H(scalability coefficients)衡量项目测量被试的适宜性。
关于PIRT 与NIRT 两种模型下项目参数之间的关系,有的研究者做了有益的分析。Roskam 等(1986)、Jansen(1982)和Mokken 等(1986)认为H 系数是一个能反映项目综合性能的统计量,它与潜在能力的方差、难度的全距(the spread of item difficulties)和区分度三个因素有关,当其中两个因素保持不变,H系数就是另一个因素的递增函数,但是一个特定的H值并不能提供有关三个因素的具体信息。
Sijtsma,Emons,Bouwmeester 和Ivan(2008)认为Hi 系数的取值取决于项目区分度、难度与潜在变量分布的交互作用。他们模拟了分布情况分别为(均值= -2,标准差=1)和(均值=1,标准差=1)两种能力群体对5 个多级项目的反应数据,样本容量都是5000 人,这5 个项目的三个等级的难度各不相同,区分度都是1.4。经计算,虽然项目的区分度相同,但Hi 系数却因为能力分布与难度的不同而大小不同。张军(2010)使用自动选题策略分析试卷维度时,发现项目的区分度对通过H 系数进行的量表构建过程有较大影响。除以上三个因素以外,是否还存在其他因素与H 系数有关,如潜在能力分布的均值、难度分布的均值等,以及潜在能力、难度、区分度三个因素如何综合影响H 系数,这些问题尚未有研究涉及。
单维性和局部独立性是单维参数型项目反应理论两大基本假设,除此以外,PIRT 还要求潜在能力与被试项目反应之间的关系符合某种特定的函数形态。根据函数的不同,主要有两种单维PIRT 模型:正态拱形模型(Lord,1952)和逻辑斯蒂克模型(Birnbaum,1957)。这两种模型的项目特征曲线的形态都呈S 型,根据所含项目参数的多寡又分为单参数模型(难度)、双单数模型(难度、区分度)和三参数模型(难度、区分度、猜测度)。
若给逻辑斯蒂克模型添加个调节系数1.7,那么两种模型差别极小,但逻辑斯蒂克模型计算起来相对方便,遂使用更为广泛。难度参数与潜在能力参数在同一量纲中(Hambleton & Swaminathan,1984),一般处于-3 到3 之间,取值越大,说明项目越不容易答对;区分度处于0 到2 之间,取值越大,项目特征曲线越陡峭,项目对被试的区分能力越强;猜测度愈高,被试愈容易通过猜测回答正确。
单参数模型不含区分度,相当于区分度等于1的双参数模型,是双参数模型的特殊形态,其对数据的要求更严格,所以双参数或三参数模型在拟合数据上更加灵活。在大样本数据情况下,难度和区分度两参数都能得到良好的估计,猜测度却相对不太稳定,因此在实践中,双参数模型优势最明显。双参数逻辑斯蒂克模型的形式如下:
注:ai为项目i 区分度;bi为项目i 区分度
D 为调节系数,取值1.7;θ 为被试潜在能力参数
Mokken(1971)提出了NIRT 中的单调匀质模型(The Monotone Homogeneity Model,MHM)和双单调模型(The Double Monotonicity Model,DMM)。MHM 模型有三个基本假设:单维性、局部独立性、单调性。前两个假设与PIRT 相同,但是NIRT 不要求被试潜在能力与项目反应之间的关系符合某种特定函数形态,只要求项目反应曲线非单调递减,即若存在两个潜在能力值θa和θb,且θa≤θb,那么P(xj= 1| θ = θa〉)≤P(xj= 1| θ = θb〉。DMM 除以上三个假设外,另要求所有项目特征曲线不交叉,即非交叉性,类似于PIRT 中的单参数模型。从假设要求来看,NIRT 模型比PIRT 模型更自由,其对被试潜在能力与项目反应之间关系的理解更宽泛,所以若某数据拟合PIRT 模型,那它必然亦拟合NIRT 模型。
为衡量数据是否拟合NIRT 模型,Mokken 采用了Loveinger(1947)提出的量表适宜性系数(scalability coefficients)。系数分为:项目i 与项目j 间的量表适宜系数Hij;项目i 与剩余项目全体的量表适宜系数Hi;全体项目的量表适宜系数H。计算公式如下:
注:R(i)指除i 以外其他题的总分。
若数据拟合NIRT 模型,那么三种量表适宜性系数就都处于0 和1 之间。Mokken(1971)认为仅当H >c 时,那个量表才有用。c 是低限,可根据需要设定,至少为0.3。当0.3 ≤H <0.4 时,被认为是较弱程度的量表;当0.4 ≤H <0.5 时,程度中等;当0.5≤H 时,程度强。换言之,如果H 处于0 到0.3 之间,我们就不能相信项目组有足够共同的东西能将被试在一有意义的潜在特质上排序(张军,2010)。
为研究被试能力、项目难度和区分度三个因素与量表适宜性系数的关系,设计本实验。
实验希望解决四个问题:(1)区分度分布不同,难度分布相同的项目测量能力高低不同的群体时,项目的Hi 系数是否不同,即区分度分布与Hi 系数的关系。(2)难度分布不同,区分度分布相同的项目测量能力高低不同的群体时,项目的Hi 系数是否不同,即难度分布与Hi 系数的关系。(3)项目区分度分布、难度分布、被试群体潜在能力分布三个因素对试卷H 系数的综合影响。
由于真实的测验数据难以严格满足实验控制要求,实验使用软件WinGen3(Han & Hambleton,2007),采用蒙特卡罗方法模拟若干套拟合双参数逻辑斯蒂克模型的数据,然后再计算这些项目的Hi与H 系数,进而比较分析NIRT 与PIRT 两种模型项目参数的异同。为保证被试与项目样本的充分性,模拟的数据为10000 个被试对100 个项目的反应。
潜在能力一般服从正态分布,实验模拟了三个能力高低不同的被试群体:低能力分布Θ1(均值= -2,标准差= 1)、中等能力分布Θ2(均值= 0,标准差= 1)与高能力分布Θ3(均值= 2,标准差=1)。在项目反应理论中,难度参数与能力参数处于同一量纲中,所以实验模拟了三个与不同能力分布相对应的难度参数分布,分别为:Β1(- 2,1)、Β2(0,1)、Β3(2,1)。区分度处于0 到2 之间,服从均匀分布。按取值大小,分四种类型:低区分度分布A1(0.1,0.5)、较低区分度分布A2(0.6,1.0)、较高区分度分布A3(1.1,1.5)和高区分度分布A4(1.6,2.0)。
被试能力分布、项目难度分布、项目区分度分布为三个自变量,量表适宜性系数为因变量。被试能力与项目难度分布分别有3 个水平,区分度分布有4个水平,实验为3 ×3 ×4 交叉设计,共36 套模拟数据,具体见表1。
表1 实验设计表
实验使用统计软件R 中2.7.5 版本的mokken软件包(Van der Ark,2010)计算36 套模拟数据中100 个项目的Hi 系数与每套试卷的H 系数,使用SPSS13.0 计算每套试卷中所有项目区分度与Hi 系数、难度与Hi 系数之间的皮尔逊相关系数。
4.3.1 区分度分布与项目Hi 系数的关系
相关系数的高低代表了两列变量的共变性,正相关表示其存在一致性变化,反之,负相关表示其存在相反的变化趋势。表2a、b、c 列出当难度分别固定为B1(- 2,1)、B2(0,1)、B3(2,1),不同区分度分布的项目测量不同能力分布的被试群体时,项目区分度与Hi 系数之间的皮尔逊相关系数。如表2a 中第一行的0.971、0.965 和0.944 分别表示当难度分布为B1(-2,1),区分度分布为A1(0.1,0.5)的100 个项目在用于测量三个不同能力分布时,项目区分度与Hi 系数的相关系数。同样,表中每列表示不同区分度分布的项目用于测量同一能力分布被试时,项目区分度与Hi 系数之间的相关系数。**表示在0.01 水平上显著,*表示在0.05 水平上显著。
表2a 难度固定为B1(-2,1)
表2b 难度固定为B2(0,1)
表2c 难度固定为B3(2,1)
表2 里36 个相关系数中有29 个在0.01 或0.05水平上显著,这说明无论被试能力是什么分布,当难度固定时,区分度与Hi 系数存在正相关,但区分度越大,它与Hi 系数相关的程度愈趋于弱化。如表2a第一列,从上到下,随着项目区分度的增加,相关系数从0.971 降到0.307。只有当B2(0,1)和Θ1(-2,1)时,A3(1.1,1.5)与A4(1.6,2.0)两个分布的区分度与Hi 系数呈相反情况。当B1(-2,1)和Θ3(2,1)时,A3(1.1,1.5)和A3(1.1,1.5)两个分布的区分度与Hi 系数也呈相反情况,但由于在统计上都不显著,所以不予考虑。因此,换言之,Hi 系数与项目区分度有一定相关性,但项目Hi 系数的计算能防止区分度大的项目对其取值造成过度影响。
另外,测验用于测量与难度分布相匹配的能力分布群体时,其区分度与Hi 系数的相关总是高于难度分布于能力分布不匹配时的相关。如表2a 的每行中,总是第一列的相关最高;表2b 的每行中,总是第二列的相关最高;表2c 的每行中,第三列的相关最高。所以,当难度分布于被试群体能力分布匹配时,项目区分度与Hi 系数一致性会得到加强。
4.3.2 难度分布对项目Hi 系数的关系
表3a、b、c、d 列出当区分度分别固定为A1(0.1,0.5)、A2(0.6,1.0)、A3(1.1,1.5)和A4(1.6,2.0),不同难度分布的项目测量不同能力分布的被试群体时,项目难度与Hi 系数之间的皮尔逊相关系数。表3a 表明,当固定为低区分度分布A1(0.1,0.5)时,不同难度分布的项目区分度与Hi 系数均无相关。侧,即于被试而言,项目较容易时,难度与Hi 系数呈正相关。换言之,项目越难,其Hi 系数越大。如表3b中,当难度为B1(-2,1),能力分布分别为Θ2(0,1)和Θ3(2,1)时,相关系数为0.586 和0.786。
表3a 区分度固定为A1(0.1,0.5)
表3b 区分度固定为A2(0.6,1.0)
表3c 区分度固定为A3(1.1,1.5)
表3d 区分度固定为A4(1.6,2.0)
(2)当项目难度分布处于被试能力分布的右侧,即于被试而言,项目较难时,难度与Hi 系数呈负相关,即项目越容易,其Hi 系数越大。如表3c 中,当难度为B3(2,1),能力分布分别为Θ1(- 2,1)和Θ2(0,1)时,相关系数为-0.821 和-0.779。
(3)当项目难度分布和被试能力分布匹配,即于被试而言,项目难度适当时,难度与Hi 系数无相关或呈非常弱的相关性。如表3c 中,当B1(- 2,1)和Θ1(-2,1)时,相关仅为0.009,且不显著。只有表3d 中,当B1(- 2,1)和Θ1(- 2,1)、B3(2,1)和Θ3(2,1)两种情况时,情况特殊,系数分别为0.417和0.656,且均在0.01 水平上显著,这可能与高区分度这一因素有关。
4.3.3 三个因素对试卷H 系数的综合影响
H 系数的大小反映了整个试卷测量某被试群体的综合性能。36 套试卷代表了36 种情境,实验计算了这不同情境下H 系数的取值,取值大小的变化揭示三个因素对试卷H 系数的综合影响,具体见表4。
表4 不同情境下H 系数的取值
经分析,表4 中H 系数的变化表现出三种规律:
(1)当能力与难度分布不变时,区分度越大,H值越大。如当B1(-2,1)和Θ1(-2,1)时,随着区分度分布从A1到A4,H 系数从0.025 增加到0.474。
(2)当区分度分布不变时,测验难度分布与被试能力分布匹配时,H 值最大。如第一、二、三、四列中,B1(-2,1)与Θ1(-2,1)分布匹配,所以这四列中第一行的H 系数在每列中都是最大的。同理,第五、六、七、八列中,第二行的H 系数在每列中最大;第九、十、十一、十二列中,第三行的H 系数在每列中最大。
(3)当能力与难度分布匹配时,区分度达到1.1以上时,测验才能达到0.3 的低限,如B1(-2,1)与Θ1(-2,1)分布匹配,当区分度分布为A3(1.1,1.5)和A4(1.6,2.0)时,H 系数取值为0.327 和0.474;当能力分布与难度分布接近匹配时,区分度达到1.6 以上时,测验才能达到0.3 的低限,如B1(-2,1)与Θ2(0,1)分布临近,当区分度分布为A4(1.6,2.0)时,H 系数为0.366;当能力分布与难度分布差异较大时,无论区分度多大,测验都达不到0.3 的低限,如B1(- 2,1)与Θ3(2,1)分布差异较大,在何种区分度分布下,H 系数均小于0.3。
NIRT 模型比PIRT 的基本假设更宽松、自由,它为理解潜在能力与项目反应之间的关系提供了一个更宽阔的视角。项目反应数据若拟合PIRT 模型,那必然拟合NIRT 模型,某种程度上,PIRT 模型是NIRT 模型的特例。
两者使用不同的项目参数描写项目的测量特性,研究的实验结果表明项目难度分布、区分度分布和被试群体的能力分布这三个因素交互影响着Hi系数和H 系数,两种模型的项目参数间有着复杂的关联性。
张军.(2010).非参数项目反应理论在维度分析中的运用与评价.心理学探新,30(3),80 -83.
Birnbaum,A.(1957).Efficient design and use of tests of a mental ability for various decision - making problems. USAF School of Aviation Medicine,Randolph Air Force Base,Texas.
Hambleton,R.,& Swaminathan,H.(1984).Item response theory:Principles and applications.Hingham:Kluwer.
Han,K. T.,& Hambleton,R. K. (2007).“Windows Software that Generates IRT Model Parameters and Item Responses”WinGen3.Retrieved from http://www.umass.edu/remp/software/wingen/
Jansen,P. W. G. (1982). Measuring homogeneity by means of Loevinger’s coefficient H:A critical discussion. Psychologische Beitrage,24,96 -105.
Lord,F. (1952). A theory of test scores. Psychometric Society,New York.
Loevinger,J.(1947).A systematic approach to the construction and evaluation of tests of ability. Psychological Monographs,61,4.
Meijer,R.R.,Sijtsma,K.,& Smid,N. G. (1990). Theoretical and empirical comparison of the Mokken and the Rasch approach to IRT.Applied Psychological Measurement,14,283 -298.
Mokken,R.J.(1971).A theory and procedure of scale analysis.The Hague:Mouton/Berlin:De Gruyter.
Mokken,R. J.,Lewis,C.,& Sijtsma,K. (1986). Rejoinder to“The Mokken Scale:A critical discussion”. Applied Psychological Measurement,10,279 -285.
Roskam,E.E.,Van den Wollenberg,A.L.,& Jansen,P.G.W.(1986). The Mokken Scale:A critical discussion. Applied Psychological Measurement,10,265 -277.
Sijtsma,K.,Emons,W.H.M.,Bouwmeester,S.,& Nyklicek,I.(2008). Nonparametric IRT analysis of quality - of - life scales and its application to the world health organization quality-of-life scale(WHOOL -Bref).Quality of Life Research,17,275 -290.
Sijtsma,K.,& Verweij,A. C. (1992). Mokken scale analysis:Theoretical considerations and an application to transitivity tasks.Applied Measurement in Education,5,355 -373.
Van der Ark,L.A.(2010).“Getting Started with Mokken Scale Analysis in R.”Retrieved from http://CRAN. R - project.org/package=mokken.