梅松竹
(淮北师范大学 教育学院,安徽 淮北 235000)
试题,特别是大规模、高利害的试题,其命制是一项科学性、技术性、程序性和创造性都非常强的工作,其开发与维护也是一个复杂的、长期的、资源密集型的工作[1]。试题开发者期望获得代表性、公平性的试卷来达到测量目的,并为考试分数的解释和使用提供充分依据。
传统命题依赖于命题者个人经验,难以证明学生是否已经真正达到了预期标准。“证据中心”是教育评价的新兴理念,它在考生应答、测量目标、分数解释之间建立起强大证据链,并以充分的理由为彼此提供证据支持。基于证据中心的试题开发(Evidence-Centered Item Developing,ECD)是基于测量构念的证据论断而创建的一种教育评估方法,格外关注潜在影响力和意想不到的构念[2]。ECD为课程、标准和评价的一致性提供坚实的基础,同时提高了分数解释的有效论断[3],形成学习结果的证据模型。期望的学习结果或相应的学科能力、学业水平,作为评价审核测评目标的依据;评价目标以评价论断为载体,并为评价论断的形成提供证据;评价论断是评价系统形成的重要组成部分,并为评价系统提供证据;评价系统为学习结果的测评提供手段和方法以及证据解释;通过对学习结果的反思和评价改变教学策略和学习方法,以确保学生获得学业成功;考试的能力水平和学业成就可以析出相关的多个证据,形成一个证据集合;被收集的证据可以用来判断和评估学生是否达到了期望的学习结果。这是一个证据收集和验证环环相扣的过程,体现出基于证据中心的试题开发的科学性和严谨性。
在试题命制和开发的过程中,每一步骤都需要有足够的证据支持所做的决定。ECD要求每个测量目标都要被表示成证据链的一环,并通过一个测量主线铰接在一起,使得评价论断、证据和任务模型组成一个具有证据性的论断[4]。ECD的形成包括六个关键步骤:(1)定义测量内容领域或范围;(2)生成评价论断;(3)定义知识、技能和能力;(4)鉴别证据类型;(5)创建任务模型;(6)开发试题任务。在上述六个步骤中[5],定义测量内容领域或范围是前提,生成评价论断是关键,定义知识、技能和能力是主导,鉴别证据类型是核心,创建任务模型是手段,开发试题任务是成果。六个步骤环环相扣,紧密联系,构成基于证据中心的试题开发与设计系统。
共同核心州立标准(Common Core State Standards,CCSS)是美国绝大多数州普遍采用的教育评价标准,它对基础教育质量监测、学业水平测评、大规模教育评价试题的开发具有重要指导意义,其形成经历了开发模型、析出证据、形成论断和制定标准四个核心环节。
标准的形成过程如此,命题的过程正好与之相反。ECD正是发端于评价标准,智慧平衡评价联盟(Smarter Balanced Assessmeat Consortium,SBAC)将ECD程序设计为:基于评价标准选择恰当的论断,根据论断寻找相应证据链,依据证据开发任务模型,再通过任务模型来设计试题。
ECD在评价标准设定与分数的解释使用之间形成杠杆机制,以达到二者平衡与协调[6]。“证据”是基于证据中心试题命制模式的关键因素和内隐主线,它是连接标准和试题的桥梁。一方面,证据可以解释试题或任务模型是否体现了评价标准的相关要求;另一方面,证据可以用来确定评价标准或评价论断是否落实于试题或评价任务之中[7]。
ECD为教育评价的设计提供了概念和知识表征的结构及其证据关系,对大规模教育测评和技术提升试题的开发特别有益[8]。以技术提升试题为例,其开发设计包含领域分析、领域建模、概念性评估框架、评估元素实现、评估运行与交付等过程。
图1中包含了指定功能模型,其目的是为了产生证据,用以表明学生可以创建分数视觉表征。鉴于论断、评价目标、证据、任务模型与试题的一致性要求,该试题的设计用来收集恰当的证据,用以支持相应的教育论断。考生可以解释和应用数学概念和开展数学程序,流畅地展示对分数的理解。
图1 基于证据中心的试题设计样题
根据ECD模式,基于试题命制的内容规范、认知规范、情境刺激规范、技术规范和评价审核等要素,将ECD流程较为详细地描述为图2。
图2 基于证据中心的试题设计流程
该流程是ECD的总体框架,涵盖了试题开发过程中的绝大多数要素,这些环节并非绝不可少,也不是唯一的顺序关系。但是在客观条件允许的情况下,遵循此流程来设计和开发试卷,无疑是以更高的行业规范和技术标准为试题开发提供质量保障,增加命题环节的证据链接,为高质量的试题开发提供充分的依据支持。
ECD流程为试题开发提供了思路指导和设计规范,确保了试题命制与内容标准、认知标准、评价标准的一致性,并以证据交互为中心,减少试题开发的盲目性、无序性和波动性。为了给一线教师提供ECD的快捷渠道,给命题审核者提供简洁对照表,建立基于证据中心的试题开发技术卡,如表1。
表1 基于证据中心的选择反应试题开发技术卡
设计此类试题开发技术卡的前提是广泛认同的测量领域、评估论断和评价基准,一致认可的试题难度、知识深度和认知复杂度的判断标准,以及试题开发的行业规范和制度保障,只有这些条件均满足,才能设计出“标准”的试题开发技术卡,进而生成期望的试题。
续表1
ECD是在现代教育测量背景下发展而来的一项试题开发与评估的理论模型与技术模式,它建立在先进的行业标准和技术规范之上,具有教育评估的前瞻性和引领性,对我国基础教育质量监测与评价既有理念上的冲击,又有技术上的震撼,值得我们深刻反思与全面借鉴。
ECD的最大特点就是命题开发过程中关注证据的设计、析出与验证。因此,证据模型的每一步骤是否恰当、充分,还需要进一步审核:我们希望学生获得什么样的成就;其目的是什么;已有证据是否证明学生达到预期目标;还需要补充哪些其它的证据来支持评价论断;需要开发新的评价系统,还是沿用已有评价系统;需要何种制度变革来确保持久的成功;所收集的证据能否拓展到新的领域。这些证据审核可以形成有机的、复合的、完整的证据链和铰接结构,相互提供证据支持,从而保证所形成的教育论断和教育决策的科学性和公信力。
在试题开发的整个过程中,需要始终坚持基于证据中心的设计原则。基于证据的试题设计可以改善试题和任务的可获得性,有助于澄清测量构念和评价目标,还可以应用于开发样题和任务模型,反映试卷开发过程中的证据收集和证据使用,并为评估论断和评价目标提供进一步的证据支持。为此,需要完善证据的析出过程,仔细考虑基于评估结果的论断和基于论断的构念,评估论断和评价目标的开发要先于试题规范的开发;给出支持评估论断和评价目标的具体证据;设计任务模型来析出需要的证据,提供试题和任务的关键特征;澄清欲测量的“目标性构念”和可能产生的“非目标性构念”,判断先验知识和技能对测量构念的影响。
基于证据中心的试题开发设计系统是一个功能强大的工具,用以确保通过评价论断的相关证据被收集。作为试题的开发和审核的核心工具,还有几个关键问题需要注意。首先,通过试题理解被测量的评估目标,识别要收集的证据,这一点非常重要。其次,通过检查任务模型,理解试题开发和审核中的一些关键特征,并进行证据搜集。最后,一旦确定试题很适合诱发相关证据,还要追问是否还存在其他试题特征对特定群体产生不必要的“偏见”,否则很难准确地收集证据。
综上,基于证据中心的试题开发是连接评价标准、测验试题、考生应答和教育论断的桥梁,强调证据的析出与支持,是对试题质量偏低、命题指导不力、教育决策缺乏公信力的有力回应,对我国基础教育的考试改革和学科素养评价意义重大。