李传益
作文等主观性试题的评分差异太大时需要组织评分员进行重评,而采用传统人工重评的方法费时费力,且仍然解决不了重评中存在的主观性问题。那么,对于评分差异能否寻求另外的方法来解决?正如Lunz etal.(1990)所说:“由评分员个体差异所引起的评分差异我们是无法预先估计的,但是为了保证分数的可靠性,我们需要对评分员的某些特征进行数学上的客观调整”。
本文尝试用Longford介绍的调整评分员不一致项(残项)的方法对评分员给出的差异较大的分数进行客观、数学上的调整,希望这种调整方法能最大限度地减少评分误差,使评分员给出的分数尽量接近被试的能力,并能解决大规模标准化考试主观评分人工复评中的主观性问题。
在主观题评分中,被试的表现可能要受到测验任务、被试自身水平以及评分员的影响。对此,Longford(1995)采用了一种方差分量模型,利用方差分量和收缩系数提供了有关被试真分数和评分员评分的信息。它将被试、项目、评分员或评分组看成是影响真分数的因素或侧面,其中,评分员的变异有来自评分员自身的变异和评分员之间的变异,它们又都可以分解为严厉度方差和不一致性方差(残项方差)。将影响被试能力的误差总来源分解后,评分的质量可以用评分员评分不一致的方差分量来描述,或者说是用评分员所估计的真分数和被试的真实能力之间的差异,也叫均方误差(Mean Squared Error,MSE)来评价。如果均方误差太大,超过了一定的限度,就要对这种有差异的分数进行调整,模型中的收缩系数可以将均方误差MSE减小到最低限度,其目的是为了减少由于评分员评分的不一致而造成的系统误差。该方法除了探讨影响真分数变异的各种误差来源外,在分数调整方面更具优势。可以说,该模型主要是针对主观题评分问题提出来的,它不需要严格的前提假设,应用简单,适用性强;而且,该方法重在评价整个评分过程,关注的是单个评分员的评分行为,特别适用于大规模标准化考试的主观题评分。另外,它的计算相对来说比较简便,容易操作。
大规模标准化评分实践中,每篇作文一般由两名评分员评分,评分员的一些状态(如情绪波动、外界环境影响、疲劳程度等)会影响评分的准确性。这些因素统称为评分员评分的不一致项或残项。
如果评分员本身或评分员之间存在着差异,他们的评分就会影响残项方差,不能真正反映被试的能力。当残项方差σe2很大的时候,有必要对不一致性分数进行调整,以便更有效地估计被试的真分数。这种残项调整模型可用下式表示:
其中:αi为调整后的分数;ui是使MSE最小的关于试题层面的调整系数,或叫收缩系数;yi,zjik和y将在下文介绍。
该模型依赖于对评分员的任务分配,也就是说依赖于评分员的工作量nji。Di,1中的整评分员评分残项。,MSE的值最小。一般情况下,评分员的工作量大,其收缩系数就大,但其评分的MSE反而会减小;残项方差大,收缩系数也大;而真分数方差大,收缩系数就小。
三个平方和统计量的计算公式:
N=IK表示评分总次数,它可以分解为所有评分员工作量的和,即,N=n1+…+nj。
在本实验中,对参加2006年10月高等汉语水平考试(HSK)作文评分,但评分等级差异超过3级(不包括3级)最多的24名评分员所评的1 503份作文的分数运用残项调整模型进行调整。
本实验中方差部分的计算用FOXPRO6.0自编程序完成;数据的分布和一致性分析及其相关图表用SPSS11.0完成。
分数调整前,首先用公式(1-3)和公式(1-4)计算三个平方和以及方差的值,它们分别是SE=4451.00,=17383.18,ST=19924.52,=3.70,=0.84,=2.12。由于的值小于的值,因此可以说,此次评分的误差主要是由于评分员的不一致性造成(Longford,1995)。
然后,根据公式(1-1)和公式(1-2)对评分等级超过3级的分数进行调整。表1列出了每位评分员分数调整的相关参数的概要。
表1 评分员分数调整相关参数概要
为了对比分数调整前后的情况,在表2中给出了分数调整前后单样本K-S检验、卡方检验以及斯皮尔曼和肯德尔等级相关数据。从表2可以看出,调整后的分数较之调整前的分数有了可观的改善,调整后分数的分布更接近正态。
分数调整前后评分员评分的一致性程度见表3,这些数据充分说明分数调整后评分员间的评分误差大大减小。
表2 分数调整前后评分员评分的数据检验结果
表3 分数调整前后评分员评分一致性表
本研究利用Longford(1995)介绍的调整评分员评分残项(不一致项)的方法,对高等汉语水平考试作文评分进行了一次分数调整实验,分数调整后评分员评分的差异明显减小,更接近被试真实水平的期望值,而且分数的分布有了很大的改善,用这种方法代替传统人工重评的方法可以提高主观题考试的信度,同时也可以提高评分的效率,它主要表现在以下几个方面:
(1)通过对调整前后的分数进行正态分布和一致性检验,发现调整以后的分数的真分数方差增大,残项方差和均方误差MSE都比分数调整前减小。
(2)分数调整前评分等级差超过(含)4级以上需要调整的作文共有243份,经过残项调整模型调整后的有效作文有216份①在进行残项调整时,实际上所有的243份作文的分数都得到了调整,只是由于HSK作文评分量表没有小数,在进行四舍五入运算时,有一部分调整分数被舍去,因而有效的作文调整份数为216,这一点反映了该模型的保守性。,占总数的88.9%。分数调整后,评分员之间的评分一致性显著增强:等级差超过(包括)4级以上的作文只有92份,仅占总数的6.1%,这比分数调整前降低了10.1%。
(3)评分员之间的评分差异经过分数调整后也大大缩小,评分更趋中,有差异的分数大多都调整到了3级以内(包括3级)。比如:被试302523200108的原始分数等级是5级和9级,残项调整模型调整的结果为6级和8级。
(4)评分员之间的相关系数改善了很多,分数调整以后更服从正态分布。
应用残项调整模型以后,评分员的评分一致性显著提高,但应用该模型也存在一些不尽如意的地方:(1)进行残项调整后,仍有92份作文的等级差超过(含)4级;(2)有些作文的等级差比残项调整前更大了。比如:分数调整前,被试501525100087的评分等级为11级和7级,进行残项调整后,该被试的分数等级为11级和6级。这种情况约占7%,虽然数量不多,但也影响到了分数调整的质量。造成这种情况的原因是评分员评分内部不一致性造成的,这就要求评分员在评分时一定要保持内部一致性,不要忽高忽低。
[1]Lunz,M.E.,Wright,B.D.,and Linacre,J.M.Measuring the impact of judge severity on examination scores.Applied Measurement in Education,1990(3):331-345.
[2]Longford,T.Models for Uncertainty in Educational Testing.New York:Springer-Verlag New York,Inc.1995.