测试评估是检验教学大纲执行情况、教学质量、学生水平的重要手段,唯有高质量测试的有效使用才能获得真实的反馈信息。
相当部分教师多从试卷结构、难度、考点分布等传统角度去考量试卷的编制,其质量貌似较高,然则经专家评估就会发现其严重问题。本文就如何科学进行测试总体设计,保障高质量测试命题进行探讨,使其既有利于检测教学效果,又有助于改进和提高教学质量。
一、测试质量衡量的主要指标
检测试卷质量的主要指标是信度和效度。传统解释中,信度指测试结果的可信程度,采用统计、定量的考查方法;效度是检验是否考了应该考查的内容(即有效性),既可定性亦可定量地进行考查。效度比信度更重要、更全面,高效度是高信度的前提保障。对于一般教师而言,要保障高质量的命题,首先应通过定性的考量来提高测试效度[1]。
二、测试总体设计是高质量试卷的重要保障
效度的研究在不断探索进行中,迄今为止可分为单一概念、种类概念和整体概念三个研究发展阶段。
单一概念阶段(20世纪三、四十年代)的效度称为相关系数效度。种类概念阶段(20世纪四、五十年代至八十年代)的效度主要分为三种:内容效度、校标关联效度(含预测效度和共时效度)及构建效度,目前国内多数教材仍使用这类概念。整体概念阶段(20世纪八、九十年代至今)的效度研究规避了种类效度内涵的含混,扩大效度的外延研究,统一为更具一般意义、几乎无所不包的有效性概念,即测试结果的解释使用与证据和理论的一致性程度。考察测试效度需提供五方面的效度证据:试卷内容;反应过程(即测试构建与受考者或评分员心理反应的拟合度);试卷内部结构;测试分数与其他外部变量之间的关系;测试的后果。
从整体效度概念可知,部分效度证据的提供(如试卷内容与结构)在试卷设计中可得以保障。因此,科学进行测试总体设计,定性地考量保障测试效度,是高质量命题的重要前提。
三、成绩测试总体设计的科学方法与步骤
测试开发与实施包含三个环节:设计阶段,包括明确考试目的、考试范畴、考试对象等;操作阶段,包括设计考试主体框架、选择考试方式和编制试卷;实施阶段,包括测试实施、测试结果分析和试卷质量分析。
本文主要讨论成绩测试的总体设计,它包括测试开发的设计阶段,也包括操作阶段的一部分。
粗通统计分析原理的教师们可利用SPSS软件省时、便捷地开展测试评估的定量分析。SPSS为国际最有影响的三大统计软件之一,现更名为“统计产品与服务解决方案”软件(Statistical Product and Service Solutions)。它具有良好操作界面、自动统计绘图、数据深入分析、功能齐全、输出结果美观、易学易用等特性。在国际学术交流中有条不成文的规定,凡用SPSS软件完成的计算和统计分析,可以不必说明算法。
1.明确测试目的,选择测试类型
明确测试目的,包含受试对象、测试目的与用途、考试范畴等,是任何考试都面临的首要任务。它既是测试实施的起点,也是测试使用的归属。
每一测试都有其特定目的,如检测教学效果、考查学生水平、选拔学生、诊断学习弱点等。根据不同的测试目的和用途,应选择不同的测试类型,如水平测试、成绩测试、诊断测试、潜能测试等。而不同测试类型的总体设计,其侧重点各不相同。
学校教育中的平时测验、期中和期末考试、课程结业考试等,旨在检测学生在一定阶段对所讲授知识与技能的掌握情况,均属成绩测试。如若方便地选用已有水平测试试题进行某次期末考试,尽管能体现学生现有能力水平差异,却无法检测本期的课程教学效果。多数教师也明确此点,但却未充分重视成绩测试的目的用途,特别在下述步骤中其侧重点的考虑常与水平测试设计混淆。
2.有效结合效度与信度因素,确定考试方式
考试方式可分为直接测试和间接测试。直接测试要求学生直接运用某种技能或能力去完成与真实环境相一致的任务。如测试写作能力,可简单直接地让学生写一篇作文。间接测试通过考察构成某一能力的微技能,采用间接、迂回的方法来测试学生的某一能力。如写作能力是由篇章结构、用词、语法、连贯等各项微技能组成,通过对这些微技能的测试,可间接了解学生写作能力的强弱。
直接测试须用主观试题,间接测试可用客观试题。直接测试与间接测试各有优缺点(见表1),但人们对间接测试是否能真正测试预期能力心存疑虑(如现行语言测试能否真正了解学生的语言能力)。由表1可见,既要保障效度,又要考虑信度,应根据测试目的与内容综合考虑,合理组合运用两种测试,充分发挥各自优势,弥补另一形式的缺陷。例如,即使是写作测试,为减少阅卷员的主观判断,提高测试分数的可信度,除采用高效度的直接测试外,我们可适当增加间接测试方式(如改错等)。
3.依据教学大纲列举具有适合性和代表性的测试内容细目表
试卷内容是效度证据的具体、重要体现,总体设计时应详细、全面列举测试内容细目表,注重其适合性与代表性。
成绩测试的特点之一是基于所讲授的知识与技能,其内容的适合性须依据教学大纲的范畴,这是与水平测试的根本区别所在。水平测试不与任何教学大纲、教材、学习途径(自学或学校教育)等挂钩,是根据学科理论所设计的标准来测试受试者的现有能力与水平。
但教师们时常忽略成绩测试内容的适合性。如选择阅读题时,多数仅注重材料难度,忽视考量大纲规定的阅读微技能。如,大纲要求学生领会作者态度或观点,若考点均是推理判断,即使难度适中的试题也是不适合的。尤其对英语教师,不难确定语法与词汇内容的适合性,而设计听说、阅读、写作测试时却极易忽略内容的适合性,即具体微技能的考虑和列举。
测试内容的代表性首先表现在考点是教学大纲规定内容的均匀分布,其次表现在这些考点是否具有以点概全的特性。
4.明确教育目标,确定试题题型
考试方式确定后须选择适当的试题题型,相当一部分教师常按定式或选择便于阅卷的题型。如英语课程教学大纲规定的内容是倒装,其教育目标是正确运用倒装结构。若选用便于阅卷的多项选择,尽管考点体现了大纲内容,但像多项选择这样的客观题只能考查学生是否记忆或领会了倒装结构,我们仍不能检测出大纲规定的能否正确运用这一教育目标。
因此,对于成绩测试而言,在列举大纲规定的测试内容细目表时,必须明确与之相关联的教育目标,依此确定与之匹配的题型,避免貌似恰当的命题设计,即仅内容相关而教育目标却不匹配。这是绝大多数教师命题时存在的严重问题。
新版布卢姆教育目标分类的提出,为我们描述并确定教育教学目标提供了规范的体系。它将认知领域教育目标分为知识向度和认知历程向度。其中认知历程向度引导教师怎样教和学生怎样学,分为一个从低到高的渐进目标层次,即记忆、领会、应用、分析、评鉴和创造。在测试评估中不同层次的教育目标须设计不同的题型,通常客观性试题适合测低层次的目标,主观性试题适合检测较高层次的目标(见表2)。
5.考量评分分值、测试时间、可操作性等问题
各考点分值分配是试卷结构的重要体现,首先应有与考试方式保持一致的设计思路,即综合考虑各题型效度与信度的因素。其次体现教学大纲重点的部分应相应突出比例。
考试时间亦不容忽视,它既受题量、题型(如英语语言测试中每一语法或词汇多项选择须20秒左右;每一阅读理解多项选择平均须1至2分钟等)、题目长度、试题难度、受试者年龄与熟练程度等综合因素的影响,又须考虑试卷分发、监考指令发布的时间等。
此外,还需考虑测试实施的可操作性,如考场设置、设备、阅卷组织等所需的财力、人力问题。
6.编制试卷结构表
完成上述工作后,须编制一张含试卷组成部分、题型、题量、分值、时间等的二维试卷结构表。该表与测试内容及教育目标明细表是成绩测试总体设计的核心组成,为下一步命题任务的具体化提供了有章可循的规范。同时高质量测试往往需经多次或多年测试修改,相对稳定的明细表和结构表在一定程度上保证了各试卷的统一性。
四、关于难度问题的认识误区
细心的读者会诧异上述步骤未考虑试题难度问题,这恰由成绩测试的特性所决定。
成绩测试旨在检测学生对所学知识技能的掌握,其焦点是规定内容是否掌握。如同驾照考试,只要通过了设定技能考核就可获取驾照,它不关心驾驶技能的熟练与精湛差异。水平测试则不同,其目的是检测受试者的现有能力与水平,它关心能否体现受试者之间的水平差异,具有选拔性质。
因此,水平测试设计须考虑易、中、难试题的适当比例,以便区分受试者之间的差异,而成绩测试的难度不是我们关注的焦点,即使试题极难或极易,只要是教学大纲规定的,就应是考查的范畴。
我们须明确测试总体设计是高质量试卷的重要保障,正确把握成绩测试总体设计步骤。其中特别注重题型的选择与确定应与测试内容相关联的教育目标匹配,其次应纠正对难度问题的错误认识。
此外,应明确测试目的与用途的首要性和重要性,它不仅决定测试总体设计侧重点的不同,也决定测试结果如何被使用,即基于测试分数作出的特定推断或决策。相对于测试目的而言的测试分数误用或滥用,不仅导致设计周全的测试是无效的,且不利于教学检测结果的正确判断,也不利于改进和提高教学质量。关于分数解释与分析,作者将另文阐述。
参考文献
[1] 桂诗春.标准化考试——理论、原则与方法.广州:广东高等教育出版社,1986.
[2] 黄涛.新版卢布姆教育目标分类对外语教学与测试改革的启示.西华师范大学学报,2009(2).
[3] Payne,David A.Applied Educational Assessment.Wadsworth Publishing Company.1997.
[4] 邹申.语言测试.上海:上海外语教育出版社,2005.
(责任编辑关燕云)