宋吉祥 李付鹏
(安徽省教育招生考试院命题中心,合肥,230022)
学业水平考试实行等级赋分是新一轮高考改革的重要内容。根据试点省市已出台的文件规定,学业水平等级性考试科目以等级成绩计入高校招生录取总成绩,具体转换时,先按等级性考试科目的考生原始成绩从高到低划定若干个等级;再将各等级内的考生原始成绩,依照给定的转换方法,分别对应转换到相应的分数区间,得到考生的等级成绩。因此,等级划分的准确性和一致性在很大程度上决定了等级成绩转换的科学性和公平性。
本文利用项目反应理论的Lee方法,使用大规模教育考试的实测数据,对改革试点省市学业水平等级性考试科目采用五等级和八等级等比例转换方法进行分数分类的一致性和准确性研究。
在教育测量中用分类一致性和分类准确性指数来评价分数等级分类的可靠性。分类一致性指在重复测验中被试被划分为同一类别的程度,也即两次平行测验中被试观察分类相同的概率。由于很少对同一被试进行两次平行测试,分类一致性通常是通过单一测试来估计,并且对测量误差和真实分数的分布有很强的假设[1]。以考试分数的分类为例,对于只有一个及格分数线的考试来说,考生重复参加考试时被相同地划分为及格或不及格的概率,这就是分类一致性[2]。该定义也可以推广到多个分数等级的情况[3]。分类准确性是指被试观察分类与真实分类相同的概率[4]。假定通过某种方法得知考生的真分数,根据考生在考试中得到的观察分数所作的分类和根据其真分数所作分类的一致性就称为分类准确性。
从某种意义上来说,分类一致性反映的是对考生决策的信度,而分类准确性反映的是对考生决策的效度。也就是说,等级分类准确性和一致性类似于常模参照考试的信度和效度。在实行等级计分的学业水平考试中,如果考生重复参加一项考试的分数是在同一个等级之内,就可以认为分类具有一致性;如果考生被分类在相应的能力等级水平,就认为分类具有准确性。
目前已发展了多种分数分类准确性和一致性的方法。从方法所属的测量理论分类,可以分为基于经典测量理论的方法和基于项目反应理论的方法。从方法所属的试题计分类型分类,可以分为二级计分的方法和多级计分的方法。本研究主要探讨项目反应理论的Lee方法为代表的基于观察分数的分类情况。Lee方法使用IRT作为心理测验的基础。假设θ和g(θ)分别表示被试潜在特质及密度函数,x 表示观察分数,x1,x2,…,xh-1分别表示将被试分为k类的k-1个等级分数,h表示被试分类类别,h=1,2,…,k。分数分类一致性和分类准确性指数可按如下方法计算得到。
分数分类一致性指数。根据IRT模型估计项目反应概率,考虑到条件求和分数分布以及划界分数,条件分类概率可通过计算在类别h上所有分数x的条件概率之和得出。条件分类一致性φ(θ)被定义为能力为θ的考生在平行测验上被归为同一类别h的概率,即θ分布上的条件分类一致性。根据能力分布的密度函数,对条件求和分数概率求积分,就可得到所有考生在测验中被一致分类的概率,即边际分类一致性。另一个反映边际分类一致性系数的指标是Kappa系数,是指测验真实分类一致性与最大可能分类一致性的比值K=(φ-φc)/(1-φc),φc表示由于偶然机会造成的分类结果一致的概率,其计算公式为,p(h)为 θ在分布上条件分类一致性概率进行积分后的边际一致性概率,通过对条件分类概率pθ(h)在所有的θ取值区间进行积分所得。
分数分类准确性指数。假设在总成绩测量中有一组真实的分数,即 τ1,τ2,…,τk-1,可确定每个具有能力参数为或者真分数为τ的考生真实的分类状态。如果已知考生真实的分类状态η(1,2…,K),可计算出真分数下的条件分类概率准确分类的条件概率,γ(θ)=pθ(η),边际分类准确度指数为。分类准确度通常通过假正向和假负向错误率来评估。条件假正向分类错误率是指考生被划分到高于考生真实类别的概率,条件假负向分类错误率是指考生被划分到低于考生真实类别的概率。对于θ∈η*,条件假正向分类错误率和条件假负向分类错误率可分别表示为,,边际正向分类指数和边际负向分类指数分别为。有关Lee方法更为详细的介绍可参见有关文献[5]。
通过模拟研究,分析到Lee方法估计分类一致性和准确性指数,探讨高中学业水平考试五等级赋分方法和八等级赋分方法的分类一致性和准确性。
研究数据取自某省某年度高中大规模测试的考试成绩,抽取样本量2942(不含零分考生)。试题来自综合科目,共计90道,这里选取前60道进行研究。试题编码后的主要统计信息见表1所示。60道试题,均为四选一选择题,采用0~1计分方式编码(答对得1分,答错得0分),总分为60分;总体平均分38.27分,标准差10.12,成绩呈负偏态分布。
表1 试题编码后的主要统计信息
基于Rasch模型的测量,在检验分数分类的一致性和准确性之前,需进行试题数据与Rasch模型的拟合分析。只有当数据拟合模型时,Rasch测量的客观和等距的优良特性才能表现出来,后续统计分析的结果才是有效的。表2提供了Infit MNSQ(Infit Mean Square)和 Outfit MNSQ(Outfit Mean Square)卡方拟合指标。Infit MNSQ和Outfit MNSQ可接受的取值范围在很大程度上取决于研究目的,一般建议取0.5~1.5的范围[6]。从表2中可知,这里Infit MNSQ的值基本处于0.7~1.3,说明学生的能力水平与题目难度比较吻合。Outfit MNSQ的值仅有个别试题的拟合统计指标略高于1.5,没有拟合统计指标低于0.5的试题。总体上来说,本研究选取的数据基本拟合Rasch模型,可以进行后续的Rasch分析。
表2 试题拟合统计
本研究讨论的是试点省市学业水平等级性考试科目采用的五等级和八等级等比例转换方法。八等级赋分方法将每门等级性考试科目中考生的原始成绩从高到低分为 A、B+、B、C+、C、D+、D、E共8个等级,对应的等级比例依次为3%、7%、16%、24%、24%、16%、7%、3%。五等级赋分方法将每门等级性考试科目中考生的原始成绩从高到低分为A、B、C、D、E共5个等级,对应的等级比例依次为15%、35%、35%、13%、2%。两种等级赋分方法的划界分数均是按照考生成绩分布与各等级既定比例确定。等级划分从总体上决定了对考生能力层次的划分。基于本研究样本,经测算,五等级的划界分数依次为50、38、27、20,八等级的划界分数依次为 55、52、47、38、31、25、21。
一般认为,不同等级的被试应具有一定的水平差异,划分等级时,一个基本的要求是每相邻两个等级的条件标准测量误差之和必须小于两个等级的划界分数之差[7]。图1给出了五等级赋分和八等级赋分的成绩分布密度曲线图,表3给出了分数分布及条件标准测量误差。由于两个等级模拟使用的数据相同,图1中两个图形的密度曲线图是相同的,图形具有较为明显的双峰特点,正态性略差。与五等级相比,八等级区间之间的分差小一些,最小的分数区间为[52,55],仅有3分的差异。等级B+和B的划界分数52分,等级B+和等级A的划界分数为55分,两个划界分数之差为3分,52分和55分处的条件标准测量误差分别为1.81和1.29,两者之和略高于区间分差3分。表3显示条件标准测量误差较大的区域在中低分区间,两种等级赋分方式各等级区间具有一定的差异,也都没有出现等级区间端点分数重叠或较为接近的现象。五等级和八等级两种等级划分方式,五等级相邻两个等级的条件测量标准误差之和均小于两个等级的划界分数之差,八等级在中低分端出现相邻两个等级的条件测量标准误差之和略高于两个等级的划界分数之差的情况。初步判断,五等级分类更为合理。
图1 五等级(上)和八等级(下)的成绩分布
表3 分数分布与条件测量标准误差(CSEM)对应关系
表4给出了五等级赋分和八等级赋分的分类准确性和一致性统计指数。结果显示,五等级和八等级赋分的各项统计指数都不是很高,分类一致性和准确性指数都低于0.8,边际分类一致性指数高于Kappa系数,正向错误分类和负向错误分类均比较高。其原因可能是多方面的,既可能与等级划分有关,也可能与测验编制有关。
表4 分数分类一致性和准确性
但就分类一致性和准确性比较而言,分数分类准确性的指数好于分类一致性;就五等级赋分和八等级赋分比较而言,五等级赋分的分类一致性和准确性指数好于八等级赋分。
图2给出了五等级和八等级分类一致性指数的可视化分布图。每个单元格都显示了在两个假设的平行测验形式上实现等级组合的概率。对角线代表分类一致性的概率。考生在2个平行测验中被一致分类的概率可能和划界分数的位置有关,由于八等级临界分类点更多,划界分数附近的考生更多,就更容易在两次划分中被分到不同的等级;五等级临界分类点较少,划界分数附近的学生相对少一些,相对来说,被错误分到两个相邻等级的概率也就少一些,分类的一致性略高一些。从图2中可以看出,五等级中两次被分类超过一个等级的可能性为零。对于八等级,有可能在一次被分类为A,而在另一次被分类为B+或B,其他等级也存在类似的情况。
图2 五等级(左)和八等级(右)分类一致性
计算分类准确性的目的是确定在给定其真实能力水平的情况下是否将个人实际划分为适当的类别[8]。如果根据个人的真实分数,我们的分类决策不准确,那么考生真实分类时可能被高估或低估。图3给出了五等级和八等级分类准确性的图形化分布。显示了两类等级划分方式都是在划界分数点附近的分类准确性具有下降的趋势,远离划界分数点的分类准确性具有上升的趋势;两类等级划分方式在均值附近的分类准确性均较低;分数的两端和较宽分数区间的分类准确性相对高一些,较窄的分数区间的分类准确性相对较低;也显示出五等级的分类准确性明显好于八等级。
图3 五等级(上)和八等级(下)分类准确性
上述研究表明,在IRT模型下分类一致性和分类准确性指数受等级数量、划界分数位置、分数分布等因素影响。
划界分数位置的影响。划界分数在测验分数分布中的位置对分类一致性和分类准确性的估计影响较大。靠近划界分数的分类一致性和分类准确性有降低的趋势,远离划界分数的分类一致性和分类准确性有升高的趋势。这显示测验分数在等级划界分数附近的考生更容易在两次或多次划分中被分到不同的等级,而测验分数距划界分数较远的考生相对更能够被划分到同一个等级。当划界分数靠近测验分数平均值时,分类一致性指标和分类准确性指标较小,而当划界分数在分数分布的两端,也就是在平均分的临近区间中,划界分数与测验分数平均值距离变大时,分类一致性指标和分类准确性指标也变大。这与目前的研究结论具有一致性[9][10]。
等级划界分数数量的影响。测验等级划分的数量少一些,分数分类一致性和分类准确性相对高一些,测验等级划分的数量多一些,分类一致性和分类准确性相对低一些。这显示等级数量越少,处于划界分数点及其附近的考生数量也相对较少,两次或多次被划分到不同等级的考生数量也相对较小。
分数分布的影响。等级划界分数点落在考生分数分布较为密集的区域,等级分类的一致性和准确性相对更低一些。这说明在较为密集的分数分布区域进行等级分数的划分,必然存在着有较多的学生处于不同临界等级的附近,两次或多次分类被划分到不同等级的可能性更大一些。
本文采用一份大规模教育测量数据,以高中学业水平等级性考试科目两种赋分方法为例进行了分类一致性和分类准确性的研究,得出如下启示:第一,等级赋分应保持适当的等级数量。较多的等级数量易造成分数分类一致性和分类准确性较低,前三轮高考改革试点省市依次减少等级数量,这个改革方向是正确的,目前大多数高考改革省市实行的五等级赋分方法是较为适当的。第二,等级赋分应根据分数分布合理设定划界分数。目前试点改革省市,第一批省市以3分一个等级的均匀等距分数区间设定等级,第二批部分省市和第三批、第四批省市在高分端和低分端实行小的分数区间等级,在分数的中部实行较大的分数分布区间等级,后者更加符合大规模测试分数分布的规律,一般认为具有一定规模测试考生人数的原始分数服从正态分布,测验分数的分类一致性和分类准确性更高,更加具有科学依据。但是,对所有学科使用基于观察分数的固定百分比确定划界分数的方式,还有待进一步研究。第三,等级赋分对学业水平考试命题提出了较高的要求。试题命制应充分考虑考试的分数分布,试卷的平均分应设定在尽量远离等级分数划界点的位置,由于均值附近一般分布较多的考生,使划界分数尽量远离测试的平均分,避免出现较多的考生被错误的分类。同时,要合理划分学生的学业水平,在命题时就要规定不同知识深度水平试题的比例,一方面要满足课程标准规定的不同认知类型比例的要求,以便于保证考试的认知要求或能力结构与课程标准的能力结构相一致;另一方面也要与学业水平考试等级的划分要求相一致,由于学业水平考试科目在国家课程设置上天然存在着课程内容、学时和要求的差异,不同的课程在未来高校不同专业学习中也各有侧重,而实现不同学科分数之间的可比性,则要求不同科目的基本条件具有一致性,特别是在统计指标上具有一致性,应该合理设置考试内容与试卷结构,在确定不同知识深度水平的试题比例时,要考虑学生达到某一水平,正确应答的试题比例和数量,合理设定各学科试卷难度,进一步提高试题质量。
本文的研究有一定的局限性。分数分类的影响因素非常多,运用一个特定的理论和分析方法分析的结果可能不具有普遍性,不同的学科也可能具有不同的分数分布特征,还有其他的一些因素都有可能影响分析结果。因此,本文研究结果的稳定性和有效性还需要进行进一步的验证,这是下一步的工作。