课堂需要什么样的评价*

2015-12-21 08:32:24王少非

当代教育科学 2015年18期

关键词：测验目标评价

●王少非

课堂需要什么样的评价*

●王少非

传统的评价理论及其所期望的实践并不完全适合于课堂。课堂评价理论的构建必须建基于学习的基本原理，充分考虑评价与课程、教学之间的互动关系。课堂评价实践关注与目标相关的学习；收集学生学习的充分的准确的信息；在教-学活动中持续实施。

评价；学习；课程；教学；课堂评价

评价在人类社会生活中无处不在，是人类社会生活中最普遍的现象之一。所有的评价也许都遵循相同的逻辑，但不同领域的评价一定存在差异，比如地沟油的检测与学术论文的评审一定不同。那么，所有的“教育评价”都一样吗？鉴于本文的目的，更确切的问题是，传统的教育评价理论及其所期望的实践适合于课堂吗？如果不适合，那么课堂需要什么样的评价？笔者认为，源于大规模测验的基于心理测量学的传统教育评价理论和实践不适合于教师日常专业实践层面的评价，课堂需要适合于课堂的评价理论和评价实践。

一、为何传统教育评价理论和实践不适合于课堂

这里所称的“传统教育评价”主要是指以往大多数以《教育评价学》为名的教材中所涉及的评价理论以及其所要求的实践，其核心就是支撑美国心理学会（American Psychological Association，APA）、美国教育研究会（American Educational Research Association，AERA）和美国教育测量委员会（National Council on Measurement in Education，NCME）所制定的《教育与心理测验标准》的测量理论，本质上来源于大规模测验，秉持的是一种心理测量学范式。

（一）心理测量学的假定不能在课堂中成立

心理测量学建基于几个基本假定之上。首先，测验应测量个体稳定的特征。测验应当准确可靠地测量内在的、稳定的、不受“污染”的特性，测量的结果不能受背景的影响。其次，测验就是对某种单一属性的测量。测验就是对某种单一的属性的估计，与整体分数有高相关的试题意味着它能检测所想要测的那种属性，具有高区分度，是良好的试题；而与整体分数没有高相关的试题则意味着它检测了所想要测的属性之外的东西，缺少高区分度，不应容纳在测验之中。第三，测验分数对于不同个体具有本质上相同的意义。测验分数具有普遍意义，标准化和标准参照测验所测到的东西存在一种单一的、一致的、超越了社会情境和历史的意义。正因如此，不同个体在相同的测验中获得的分数可以进行直接的比较。第四，技术具有价值中立性。测验是一种价值中立的科学工具，只能按其科学价值来判断。达成目标或结果的工具或最佳路径的选择被看作一种技术选择，而不是一个价值选择，因此测验专家能够不用价值判断而作出技术决定。[1]

当心理测量学成为教育评价的基本范式后，效度、信度、区分度等源于这些假定的技术指标也就成了教育评价理论的核心观念。问题是，这样一些假定在课堂情境中不能成立。课堂，就其本意而言，是特定的物理场所的一种，与工厂、农场一样，但经常被用来指代其中所发生的事——教育或学习。课堂是学习发生之处，就为学习而设置，而学习的本质就是“变化”，就此而言，对学习的评价也就是对变化的评价。从这一点来看，基于心理测量学的评价理论本质上是反学习的。这也许就是为什么基于心理测量范式的传统评价理论从根本上不适合课堂的关键原因。而且，我们追求什么样的学习，这在不同社会背景和历史时代的课堂中是不一样的，本质上基于我们的价值选择，而由于评价的技术取决于其所评价的学习的性质，因而也就必然是价值负载的。此外，评价的结果对于不同的学生在不同的情境中经常有不同的意义，有利于学生学习的不是分数，而是关于其个人学习的信息；课堂的目的也不在于对学生进行区分，而在于帮助学生学习或实现“变化”。

（二）基于心理测量学的教育评价局限于“对学习的评价”

无可否认，教育评价领域在借用心理测量学范式时也曾经尝试依据教育评价的特性进行过一些改造——布鲁姆的教育目标分类学实际上表明教育者开始清楚地表达对一种专门服从教育目的的评价的需求，而格拉瑟对常模参照测验和标准参照测验的区分，就是一种将教育评价从心理测量学中分离出来的一个重要尝试。[2]一些专门指向于教育评价的专业规范也曾经被编制且得到应用，如《教育中的公平考试实践规范》（Code ofFairTesting Practicesin Education，JointCommittee on Testing Practices，1988），《学生评价系统的原则与指标》（Principles and indicatorsforstudentassessmentsystems， National Forum on Assessment，1998）等。但问题是，这些评价理论或许关注到学习了，却只局限于“对学习的评价”（assessment of learning），经常只是将评价当做教学过程的附加环节加以考察，而没有以学习为核心，在教育情境——即学习、课程、教学、评价的互动关系中——考察评价，评价止于对学习的判断，缺少对课程、教学的关怀。在柏拉克（Berlak，H.）看来，这种评价不只是不适合教育，甚至对学校教育产生了明显的阻碍作用。[3]可能正因为如此，出身于心理测量学的斯蒂金斯（Stiggins，R.）等承认，长期以来测量学界对教学的贡献甚少，“测量学界一直来忽视课堂评价，这让他们错过了通过改善课堂评价促进学校改善的黄金机会。”[4]

（三）基于心理测量学范式的教育评价原理无法为教师所用

即使这些评价规范适合于课堂，教师也无法运用，实际上也没有必要运用。首先，作为专业规范，主要用于规范相关成员的专业行为，而这些规范的成员经常是学者、研究者、测验公司；而且通常没有监控执行的机制，其落实都更多地依赖于专业共同体的自律。其次，专业自律的背后实际上隐含着一个“技术精英”的意识，强调专业共同体，并将之与“非专业”的外行隔绝开来。标准和规范成为隔绝专业与非专业人员的工具之时，包括教师在内的众多“专业”以外的人会本能地疏离这一专业及其标准和规范。第三，标准和规范本身也存在缺陷，如相关的规定过于原则，只笼统地陈述了标准而未提供指导标准达成的指南，也没有说明如何执行，未能清楚地描述证明评价达成了技术标准所要求的证据。这显然导致了运用上的麻烦，比如，在美国关于测验的诸多诉讼案例中，原告和被告双方邀请的专家证人都声称支持标准中的一般原则，却可以对标准和规范作出完全相反的解释。[5]最后，更重要的是，即使教师们拥有了相关的专业知识，他们事实上也不会用——谁会在自己实施的课堂测验中运用那种实际上已经成为一种统计学事务的测验技术呢？再说，只有几十个学生的班级中又有什么必要运用那种技术呢？

二、课堂需要什么样的评价理论

课堂中的评价是以学习为核心的，目的在于促进学习，而且与课堂中的其他活动之间存在着紧密的联系。这意味着，在有效的课堂中，一切都应当围绕学习来展开，而且必须遵循或反映学习的本质和基本原理。同时，围绕着学习展开的一切都应当是相互配合的，如果相互之间没有联系，或者不匹配，那么就可能无助于学习，甚至可能损害学习。如果我们要构建课堂评价的理论，就必须基于学习的基本原理，必须在整个系统中及其与各个子系统关系中考察评价。

（一）课堂评价与学习理论

若课堂中的评价要评价学习并保证这种评价能够促进学习，我们就必须理解学习的本质和基本原理。只有在此基础上建构的评价理论才可能真正适用于课堂。尽管到目前为止我们尚未穷尽对学习的理解——只要大脑这一“黑箱”没有被完全打开，对学习的理解就不可能穷尽——但迄今为止关于学习的研究仍然能够为我们提供关于学习的重要发现。首先，学习总是建基于学习者先前已有的知识经验以及认知框架。奥苏伯尔在其《教育心理学：一种认知观》的扉页中所写：“如果我不得不把全部教育心理学还原为一条原理的话，我将会说，影响学习的唯一最重要因素是学习者已经知道了什么。”建构主义认为，学习是意义的主动建构，是学习者以自己原有的知识经验为基础，对新信息重新认识和编码，通过新旧知识经验间的反复的、双向的相互作用过程而建构意义。如果教学不能在新的信息与学生已有的理解之间建立联系，那么这种教学不可能真正有效。

其次，深入的学习需要事实性知识，更需要在概念框架中的理解，以及有利于促进应用的组织方式。学习不只是记住一些事实性知识，更为重要的是获得知能（expertise），能够应用知识，实现迁移，解决新的问题。因此，所学知识的概念化组织或者“大观念”（big idea）比知识本身更重要。

第三，学习能力的发展是最为重要的学习。如果个体心理和行为上的变化都可以通过学习来获得，那么在终身学习的时代就没有什么学习比学习能力本身的发展更为重要了。包括自我评价在内的元认知策略就是学习能力的最关键的成分之一，元认知策略的习得不仅能够极大改善当前的学习，而且会极大影响未来的学习和发展。

（二）课堂评价与课程、教学

课堂中影响学习的因素非常多样，既包括学生内部的因素，也包括学生之外的因素。就学生之外的因素来说，最重要的也许就是三个元素或“信息系统”[6]：课程、教学和评价。实际上课堂中学生以外的影响学习的因素基本上都可以归入这三个子系统。这三个子系统也就相当于教师专业实践的三个领域——按波帕姆（Popham，W.J.）的看法，这构成了“我们称之为‘教育’的游戏中的三个竞技场”。[7]

令人遗憾的是，多年来我们对这三个“竞技场”的认识并不到位。从教师层面来说，课堂就是教学的场所，一涉及课堂，中心话语就是教学，在绝大多数情况下，教学还被狭化为“怎么教”，教师的核心关注点是如何处理内容、运用什么方法、让学生从事哪些活动、安排哪些环节或步骤；课程是课程专家的事，教学甚至不需要考虑目标，更不会联系课程目标——许多教师备课时都只关注教学过程设计，至多在教学过程设计完成后拍拍脑袋加上几点教学目标；至于评价，如果是大规模评价，那是评价专家的事，或者教研部门的事，如果是课堂层面的评价，有现成的试卷和作业本，不需要去编制或设计，甚至不用做选择，所要做的仅仅是批改，而批改经常被视为“负担”。在近年课程改革的语境中，课程开始逐渐进入教师的日常话语，甚至成为教师日常话语中的热词——尽管实践中并不一定成为关注焦点。但评价在教师的话语和实践中依然边缘。

但这不能归咎于教师。根本的原因在于我们并没有生产出适合教师的评价理论，更确切地说，是没有生产出适合于课堂的评价理论。传统的评价理论本质上是心理学和统计学的混合物，在操作中更已成为一种比较纯粹的统计学事务了。更为糟糕的是，这些评价理论是去情境化的，没有在评价与课程、教学之间建立联系。

评价与课程、教学之间的关系的确远未清晰化，但我们依然可以看到一些联系。我们先来看评价与课程的关系。真正意义上的教育评价不同于心理测量学，所要评的是学习的结果，而不是与生俱来的固定的品质。从课堂来说，尽管服从于教育的目的，但课堂学习的目标是有限目标，从属于课程目标，因此，课堂中的评价一定得是与课程匹配的。换言之，课程目标决定了评价。但需要指出的是，现实中许多评价无关乎课程，所谓的“神题”[8]的普遍存在就是明证，这说明课程对评价的制约是一种应然。但评价对课程的影响却是一种实然，只要有评价存在，这种评价一定会影响课程——教师领悟的课程部分源于对评价（包括考纲）的领悟，基于这种领悟在课堂中运行的课程会受评价的影响，而学生实际经验到的课程同样受到评价的引导——所谓“考什么，就教什么，学什么”就是表现。这种情况几乎是无法避免的，就此而言，评价即课程，至少构成了隐性课程的一部分。[9]

再看评价与教学的关系。评价通常被视为教学环节终结时的一个附加环节，作为对教学结果的一种判断，因此所评应为所教。这表明教学对评价的制约，教什么就应评什么，不能评未教也未要求学生学的东西。其实，评价与教学的关系远非那么简单，两者之间存在着复杂的互动关系，而且这种互动贯穿于教学过程的始终——在很多情况下，尤其在与学生互动时，教与评实际上很难分得开，评即是教，教即是评。有效的评价不仅有助于学生达成学习目标，而且示范了有效的评价。特别重要的是，有效的教中即使看不到明显的评，但评其实无处不在，就像苏格拉底在他的诘问中，每一个问题背后都有评。只有基于评价的教学才可能是有效的教学。换言之，在有效的教学中，评价是教学的基础。

要生产适合于课堂的评价知识，就必须在课程-教学-评价的互动关系中来审视评价。在这一方面，理论界做得远远不够。在教育追求科学化的过程中，分化、专门化被视为科学的标志，不同领域的专家各有一块自留地，相互隔绝，结果产生了波帕姆所说的“高度专门化的钝化效果”。[10]也许这种分化、专门化对于纯理论研究是必要的，但如果我们试图对课堂产生影响，那么我们就必须将课堂当做一个整体，必须联结课程、教学和评价。“课程与教学”之间已经有好的联系，但与两者与评价之间似乎依然存在着清晰的边界。可心理测量学界早就在反思这种分界了，前面所提的波帕姆的观点就体现了这种反思，而布鲁克哈特（Brookhart，S.M.）等已经在致力于开发一种具有“教学关怀”的“课堂测量学”（classroometric）的测量理论了。[11]

三、课堂需要什么样的评价实践

课堂需要什么样的评价实践？这取决于课堂中评价的目的。课堂中的评价最终是为了学习的，通过对课程、教学的影响，有时也直接影响学习。因此，课堂中的评价不是“evaluation”所隐含的“引出价值”，或价值判断，而应当是“assessment”所强调的收集信息。判断在以选拔、认证等为目的的外部评价中是有价值的，但在以促进学习为核心的课堂中就没有意义——如果有意义的话，这种意义经常局限于对学生情绪动力的影响，而这种影响既可能是正面也可能是负面的。课堂中的评价实践应当致力于收集学生学习的充分的准确的信息，并将信息用于支持课程、教学甚至于评价本身的改善，或直接支持学生学习的改进。这样一种课堂评价实践应当遵循一些重要的实践原则。

（一）课堂评价必须关注与目标相关的学习

课堂评价旨在促进学习，那么就得关注学习。课堂评价本质上是一种成就评价而不是心向评价，应当关注学生通过学习获得的结果和学习的过程，而不是智力、“聪明”之类与生俱来的稳定的心向；关注学生在学习过程中所做的事，而不是他是一个什么样的人。学生实际发生的学习极为多样，通过学习获得成就也非常多样，但课堂评价应当关注的不是所有的学习，而是要关注学生通过教师的教学而产生的学习，应当是学校课程所要求的学习，是课程和教学目标所指向的学习，而不能是学生的那些与社会经济地位相关的学习。尽管我们的社会、学校、教师对学生的最终发展很多期望，但课堂评价只能关注有限的要求或目标，也就是评价所涉的范围内的教学目标。特别需要指出的是，课堂评价的目标还应当是教学目标中所涉的核心目标，学生的学习总是基于先前的学习基础，对某一目标的达成可能会受以往目标达成状况的影响，但评价不应关注以往的目标。比如，本课的目标是学生能写出一个总-分-总结构的片段，那么评价的核心目标就应在于这样一个结构，而不是有没有错别字，是否存在语法错误，是否存在标点符号用法错误等，尽管这些的确会影响学生所写的片段的质量。也许这样做可能引发对教师责任心的质疑，但问题在于，即使关注到所有的问题，如果问题得不到解决，那就没有任何意义。实际上，只关注当前目标所要求的那些问题会更有效。希洛克斯（Hillocks，G.）在评述书面写作研究时，注意到在纠正错误的研究中，相比较于只标注出当前教学所关注的错误的教师，将每一错误都标注出来的教师在提升学生作业质量上更无效。[12]

这意味着，课堂评价应当是一种基于目标的评价，换言之，评价目标应当与教学目标和学习目标一致。当我们将课堂评价理解为收集信息时，我们经常会将要收集的信息理解为学生当前学习的信息。这没错，但必须明确，同样的信息在不同的框架中有完全不同的意义，在一个参照系中有意义的信息放到另一个参照系中就可能没有任何意义——就像GPS，如果只告诉你在某处，却没有将当前所处的位置与你的目的地联系起来，对于你到达目的地有何意义呢？因此，准确地说，课堂评价要收集的信息不是学生当前学习状况的信息，而是关于当前学习状况与目标状况的关系的信息。如果所评非所教，评价目标与教学目标、学习目标不一致，那么就无法收集到关于学生当前学习与目标状况的关系的信息，也就无法支持学生的学习，无法支持课程、教学、评价的改善。

（二）课堂评价必须收集学生学习的充分的准确的信息

严格地说，评价促进学习的关键不在于信息收集本身，而在于评价信息的适当运用，即用以支持学生的学习决策和教师的课程、教学乃至于评价决策。但如果所收集的信息不准确，那么基于这些信息的决策就不可能是有效的，甚至会产生误导。试想，如果GPS不能为准确确定你当前所在的位置，它能否给予你如何到达目的地的正确指令？要保证所收集的信息的准确性，首先评价的方法或工具要用对，这取决于评价的目标，关键在于所用的方法或工具能够引出学生那种包含了你想收集的信息的活动或反应。正如你想知道气温，你得用温度计，而不能用鼠标；如果你想收集学生在某个实验操作上的信息，你得让学生去操作，而不是出一份卷子来让他做；如果你想了解学生在某个高层次学习目标上的表现，你也就不能用填空题或者匹配题去检测。其次，这种方法或工具应当是高质量的，地摊上买的一个温度计可能用水替代了水银，自然不可能让你准确地知道当前的气温；低质量的评价工具也不可能让教师获得关于学生学习的准确信息，比如一道选择题，要求学生在一个句子中确定有几个错别字，教师是不可能从学生的回答中收集到有意义的信息的。再次，所收集的信息应当是充分的，这是保证信息准确性的重要前提。我们并非没有马航370的任何线索，但我们到目前为止依然不知其所终，原因也许就是只有一颗卫星接收到它的“握手”信息，如果有三颗以上的卫星接收到它的信息，那定位会准确得多——GPS之所以能准确定位，就是因为它综合了4颗以上卫星所接收的信息。同样，只根据学生在一道题目上的表现对其知识掌握的情况做出推断完全可能存在偏差，但如果试卷上针对同一知识点有多道题目，那么从学生的表现中做出的关于其对该知识点的掌握情况的推断就会准确得多。这需要教师们运用测验、观察、交流以及各种评价技术获得关于学生学习的多样信息，并运用这些相互印证，来准确地对学生学习状况进行定位——课堂评价的信度就在于此。[13]

（三）课堂评价必须在教-学活动中持续实施

在课程理论中，课程评价被视为课程的要素之一，但对课程要素的常见表述法经常让人以为评价是课程实践的终结环节；教师日常的评价实践也容易让教师产生一种印象：评价是一个相对完整的教学过程终结时的活动。评价是课程实践的一部分，但课程四要素之间绝不是一种简单的线性关系，即使存在顺序，至少也是一个反复的循环——课程实践就是课程四要素反复循环，螺旋式上升的过程。在教学理论中，评价被视为教学终结之后的附加于教学之上的一种活动。但评价不是凌驾于教学之上的一个孤立的环节，而是教学过程的有机组成部分，与教、学互为前提，事实上，课堂中许多行动很难分得清是教还是评，至少，每一种教的行动背后都有评价。

“教学即决策”，这一观念正被越来越广泛的认同。毫无疑问，这一观念至少部分地反映了教学的本质，教师的任何行动都是决策的结果，只不过这种行动背后的决策过程或显或隐。当然，有效的教学背后的决策一定不是那种拍脑袋的决策，或者仅基于某种隐含观念的想当然的决策，而是有依据的决策。如果说教学开始之前准备阶段的决策可能涉及到多方面的依据的话，那么教学过程中决策的主要依据就是学生的学习状况。教学发生于一个变动不居的情境中，永远无法仅依赖于执行事先的决策来完成，有效的教学需要教师持续不断地收集学生学习的信息，并在这些信息的基础上作出有助于教学改善，最终促进学生学习的决策。定期的评价也能够成为教学决策的基础，但试想一下，你要不要用一台隔一个小时才能给你一次信息的GPS？现实中大部分评价都只提供了学生在特定时间点上的学习状况的“快照”（snapshots），但新的评价实践必须秉持一个新观念，即“评价是持续的关注学生进步的信息流的创造。”[14]

实际上课堂中的信息流是一种客观存在，关键在于教师要意识到这种信息流及其对教学进而对学生学习的意义，并主动自觉地去收集运用这些信息。这也许有些难，但技术的发展能够提供帮助。20多年前，我父亲在老家开了一间卖五金日杂的小店。店不大，但货物种类很多。记得当时每隔个把月，小店就要关门歇业一次，就为了盘点存货。歇业一两天会带来损失自不必说，更为麻烦的是盘点的工作量非常大。可是，如今许多便利店甚至很大的百货商店都不再歇业。难道他们不需要盘点存货？秘密就在于货物上的条形码和电子收款系统。因为有了这些装置，每一次出货都能被记录下来，形成了关于货物流动的持续的信息流，店主随时都可以获得丰富的信息，比如存货情况，比如哪种品牌的花生米最畅销。如果我们的课堂也有类似的装置能够随时收集、储存、处理学生学习的信息，而不需要专门抽出时间“歇业”来考试，那么这些持续的信息流就能为课程、教学的改善，最终为学习的改善提供强大的保障。鉴于当今信息技术日新月异的发展，这样的装置并非镜花水月，应该指日可待——大数据时代都来了，提供小数据还不容易吗？但仅有这样的装置是不够的，关键还在于教师能否有效运用其产生的数据。也许，我们需要及早为这样一个时代的到来做好准备。

[1]王少非.校内考试监控研究[M].上海：华东师范大学出版社，2009：33-34.

[2]Gipps，C.（1996），Assessment for learning[A]，In：Little，A.& A.Wolf（eds.）Assessment in Transition：learning，monitoring and selection in international perspective.Pergamon.P254.

[3]Berlak，H.（1992），The need for a new science of assessment [A]，In：Berlak，H.，et al，Toward a New Science of Educational Testing and Assessment，State University of New York Press，P12.

[4]Stiggins，R.J.＆ Conklin，N.F.（1992），In teachers’hands：Investigating the practices of classroom assessment[M]，State University of New York Press，P12.

[5]Madaus，G..（1992），An Independent Auditing Mechanism for Testing[J]，Educational Measurement：Issue and Practices，1992（1），26-30，31.

[6]Bernstein，B.1977.转引自：Patricia Broadfoot，Marilyn Osborn，Keith Sharpe，and claire Planel.PupilAssessmentand Classroom Culture：A Comparative Study ofthe Language ofAssessmentin England and France[A].In：David Scott（2001）.Curriculum and Assessment.Ablex Publishing.41～62.

[7]Popham，W.J.，Curriculum，Instrnction， and Assessment：Amiable Allies or Phony Friends[R]，presented at the annual meeting of the National Council on Measurement in Education，April 22-24，2003，Chicago，Illinois.

[8]如果在网络上搜索，我们能够找到很多关于“神题”的网页。这些神题通常指学生甚至成人都无法解决的题目，在我看来，这些神题的共同的特征就是评非所教。

[9]王少非.论评价的课程意蕴——兼论课堂评价的隐性课程性质，待发表.

[10]Popham，W.J.，Curriculum，Instrnction，and Assessment：Amiable Allies or Phony Friends[R]，presented at the annual meeting oftheNationalCouncilon Measurementin Education，April22-24，2003，Chicago，Illinois.

[11]Brookhart，S.M.，Helena，M.T.，Developing Measurement Theory forclassroom AssessmentPurposesand Uses[J].Educational Measurement：Issues and Practice，2003（4）.

[12]转引自：chappuis，J.How Am I Doing？[J].Educational leadership，70（1）：36-41.

[13]Smith，J.K.（2003），Reconsidering Reliability in classroom Assessmentand Grading [J].EducationalMeasurement：Issuesand Practice，26-33.

[14]Simpson，M.，Differentiation and Assessment[A].In：David Scott（2001）.Curriculum and Assessment.Ablex Publishing.25～40.

（责任编辑：张斌）

*本文为华东师范大学课程与教学研究所教育部人文社会科学重点研究基地重大项目“义务教育阶段促进学习的课堂评价研究”（项目编号：13JJD880014）的成果，也是国家社科基金项目“我国体育课程论学科体系建设研究（项目编号：12BTY032）”的成果。

王少非/华东师范大学课程与教学研究所兼职研究员，教育学博士，台州学院教授，主要研究教师教育、教育评价