论成绩测试结果的解释与使用

2011-12-31 00:00:00黄涛
教学与管理(理论版) 2011年9期


  测试评估是学校教育中检测教学大纲执行情况、教学质量、学生水平必不可少的手段。我们期望编制出高质量试卷,并通过测试结果分析获取反馈信息,做出正确判断,进一步改进和提高教学质量。然而相当一部分教师在使用测试结果时常常做出错误的解释、推断或决策,导致高质量测试的无效使用,并且不利于改进和提高教学质量。下文逐一讨论纠正这些认识和使用误区。
  一、测试结果使用与测试质量的关系
  测试结果解释和使用似乎是判定与决策问题,且一般认为通过高质量测试即可获取可信的测试结果,进而做出合理推断或决策。恰恰相反,测试结果使用的合理性,即基于测试分数做出的解释或特定推断是否有效,决定着测试实施的有效程度。
  正确理解测试质量与结果分析的关系要从测试质量衡量标准说起,它有两项指标。其一是信度,指测试结果的可信程度,是教育测量心理学借用其他学科研究成果,探索发展为一个稳定、成熟的概念。其二是效度,传统解释为检验是否考了应该考查的内容。几十年来它是一个不断发展变化的概念,但当代效度研究表明效度并不仅仅是对试卷本身质量的评价,是关于测试结果使用与证据和理论的一致性问题。测试结果的解释与使用不仅仅是测试使用的归属,也是效度证据的重要支撑,是验证测试实施有效性的重要证据。如果测试分数被误用或滥用,即使测试设计非常周全,其实施也是无效的。
  二、测试结果的使用是相对于测试目的而言
  任何测试均有其特定目的和用途,如检验教学效果、评估学生能力水平、选拔学生、诊断学习弱点等。测试目的不仅是测试实施的起点,决定着不同测试类型的选用(水平测试、成绩测试、诊断测试、潜能测试等),也是测试使用的归属,即获取何种信息,决定如何解释和使用测试结果。
  我们常见的两种测试类型分别为成绩测试和水平测试,我们应注意两类测试以下三方面特性的区别。
  首先是时间特性。成绩测试检测时间范围为特定的学习阶段,如一单元、一学期等。水平测试则强调从当前时间点追溯至过去,是从过去到现在的一个较长累积时间,有的甚至可追溯至婴幼儿期。
  其次是命题依据特性。成绩测试基于所讲授的知识与技能,其设计须依据教学大纲的规定范畴。水平测试不参照任何教学大纲或教材,也不考虑是自学还是通过学校教育途径等,而是依据学科理论标准进行设计,检测受试者的现有能力水平。
  再次是学生差异表现特性。成绩测试关注的焦点是教学大纲规定内容是否掌握,界定作为学生个体的合格与不合格问题,换句话说是关心具体分数的高低或绝对值大小,并不关注与其他学生的比较。
  上述三方面特性的差异,决定了成绩测试与水平测试结果的解释使用应不同。下文藉此进一步纠正教师们对成绩测试结果的使用误区。
  1.整体教学效果检验误区:试题偏难或易,不能区别好、中、差三类学生
  整体教学效果的检验可通过学生分数分布图直观了解,该分布曲线图通常有三类:正态分布、正偏态分布和负偏态分布(如图1至3所示)。多数教师错误地认为成绩测试分数的最佳分数分布图为正态分布,体现了学生间的差异,较好地区分了好、中、差三类学生。
  从成绩测试与水平测试学生差异体现特性的不同可知,正态分布应为水平测试的最佳分布。当出现正偏态情况时说明试题偏难,多数受试者得了低分,测试不能体现中低水平间的差异;相反为负偏态则说明试题偏易,多数受试者得了高分,测试不能体现中高水平间的差异。
  唯有负偏态分布才是成绩测试的最佳分数分布。严格依照教学大纲要求科学设计的成绩测试实施后,多数学生得了高分,不应解释为试题偏易,反而说明教学效果好,多数掌握了规定内容,这正是我们教育教学应达到的目标。出现正偏态情况时,多数学生得了低分,若解释为试题偏难,会使教师注重试题难易分析,而忽视了关键问题分析,即多数学生未掌握规定内容的原因。
  对成绩测试分数分布状态的错误认识不仅造成教师对教学效果检验的错误判断,且不利于查找教学中存在的问题,进一步改进和提高教学质量。
  2.个体分数解释误区:分数差异反映了学生能力水平差异
  学校教育中教师们习惯对学生分数进行排序,依此解释评判个体学生的能力水平差异,这便混淆了成绩测试与水平测试结果的不同解释和使用。
  首先,两类测试时间特性的不同表明,成绩测试检测时间范畴为一定的阶段,它仅体现本阶段学生的知识技能掌握情况,显然不能代表长时间积累的能力水平,这样的错误解释评判不仅误伤学生学习能动性,且不利学生查找本阶段学习问题并加以纠正。
  其次是体现学生差异的排序问题。上述表明成绩测试关心具体分数的高低或绝对值大小,其分数常用百分制,体现学生个体掌握程度的百分比。因此,对成绩测试结果排序比较不关注焦点,也是不科学的。而水平测试才关心分数后面所隐藏的相对于特定团体的位置信息,并不是具体分数的高低。它常采用并建立百分位来体现个体分数在整体中的相对位次,同时使得不同时间的测试分数具有可比性。
  3.决断分数确认误区:划定60分为合格分数线
  决断分数的掌握是个程度问题,怎样及在哪里划定决断分数,其合理性也是一个不容忽视的测试效度问题。
  首先,决断分数的传统、统一划分法是不科学的。历来的研究及做法常以学生为中心或以测试为中心展开确认,而本文主张以测试为中心,即依照测试内容确定决断分,这也是由成绩测试目的及其命题依据特性所决定的。
  成绩测试决断分的确定可像驾驶执照考试一样,预先设定是否具有独立驾驶能力的关键判断标准。这要求我们充分熟悉教学大纲,融会贯通教学内容,把握各知识技能点的相互关系,确定哪些为学生独立自学与进一步研究必须的,即本阶段的基础、必备、以点概全的学习内容,体现这些内容的各试题分数总和即为该测试的决断分数。但尚有两问题需重视。其一是判断学生分数是否合格,不应仅看总分,须考察该分数的获取是否是通过正确回答了确认决断分组成的试题。其二是测试含主观与客观试题时,客观题可进行正误的绝对判断,而主观题却又是案中案的程度决断问题,并涉及评分标准的详细、具体和可操作性。合理的主观测试评分标准不仅有利对掌握程度的判定,且能使不同阅卷员尽可能一致地理解评分标准并执行,减少分歧,提高测试分数可信度。
  其次,由于测试自身或阅卷等因素均有测量误差,个体分数的真实性相对于一定的把握度总在测量误差上下这个范围内,同时决断分数的确定也是依据经验和主观判断的近似合理量化。因此对距决断分数较近的上下分数判定,特别是关系学生个体命运时,建议结合学生平时表现慎重重新评判。
  其实决断分数确定并不是新问题,正是由于其确定的复杂性和难度使得我们投入的人力和研究精力相对较少,有时甚至被习惯性忽略。
  测试结果合理解释与使用不仅仅是正确判断与决策的问题,更是提供测试有效实施的重要证据,它是相对于测试目的而言的。因此,解释和使用测试结果时,应注意两类不同用途的测试,避免成绩测试运用中整体教学效果检验和个体分数解释上的误判。同时笔者期望测试决断分数确定的合理性能得到进一步深入研究,以保障测试的有效使用,确保测试结果解释与判断的正确合理,进一步改进和提高教育教学质量。
  参考文献
  [1] Ebel, Robert & Frisbie,David.Essentials of Educational Measurement(5th ed..New Jersey:Prentice Hall.1991.
  [2] Payne,David.Applied Educational Assessment.Wadsworth Publishing Company.1997.
  [3] 邹申.语言测试.上海:上海外语教育出版社,2005.
  (责任编辑 白文军)