超越纸笔测试：表现性评价的应用

2011-11-28 06:06周文叶

当代教育科学 2011年20期

关键词：纸笔表现性评分

● 周文叶

超越纸笔测试：表现性评价的应用

● 周文叶

有效评价的关键在于学习结果与评价方式的匹配。我们必须超越客观纸笔测验，根据所考察学习结果的类型选择合适的评价方式。表现性评价能检测客观纸笔测验检测不了的学习结果，本文对其内涵与特征进行阐述与分析，并提供了一个具体的应用案例。

表现性评价；目标；任务；评分规则

传统上我们对学生学业评价的理解比较狭窄，主要限于对事实性知识的考查。因此，评价主要借助于纸笔考试来实现。但在新课程提出了知识与技能、过程与方法、情感态度价值观三大课程目标领域的背景下，学生学习结果的范围被大大地扩展了，不只包括事实性知识，更强调如问题解决、批判性思考之类的高层次的认知技能；不仅包括学术性的知识和技能，更强调一些非学术性的成就，如综合素质。对于高层次的认知技能和综合素质，常用的纸笔考试往往无能为力。因此，我们必须超越纸笔测验，采用一种能检测纸笔测验检测不了的学习结果的评价方式——表现性评价，以期达到评价方式之间的平衡，同时这也是有效评价的前提。

一、多维目标需要多元评价方式

正如我们不能拿尺子测量时间，用钟表测量长度一样，客观纸笔测验很难检测高层次的思维技能和综合素质。也就是说，每一种评价方式都有适合其评价的对象，同时也具有局限性——不能或不适合检测其他内容。因此，我们期望学生应知和能会多样化的学习结果，就需要采用多元评价方式来检测学生的表现。

（一）客观纸笔测验的局限性

客观纸笔测验作为教育评价的主流形式，已经有很长的历史，并且在技术上也已经相当完善，它能够以比较低廉的成本保证比较客观公正的评价。但是，也正是由于我们过多地考虑考试实施的可操作性，评分的客观性，无论我们期望的学生学习结果是什么，也无论我们的评价目的是什么，客观纸笔测验都占据了霸主的地位，不易于客观评价的内容往往被排斥在外。

被滥用的客观纸笔测验只能检测与记忆、理解有关的极其狭隘的领域，而忽视了更加重要的学习目标：较高层次的思考、推理、判断、评价和应用的能力等。它的致命弱点是不能促进学生的理解与反思，给学生这样的一种误导：对大多数问题来说，只有一个正确的答案。学生被训练成答题的机器——他们能很好地回答试卷上的问题，但缺乏解决实际问题的能力；他们只要求记住试题的答案，而不是去建构解决复杂问题的知识和能力。质疑、批判、创造等高级思维能力的培养不受到重视，学校成为工厂，生产出同一的产品。很多时候，教师仅仅为学生能选出正确答案而教，教师在告诉学生如何准备考试时有时候甚至会说：“不要思考！只要你选出正确的答案就行。”在教学中关注的只是什么是易于检测的，什么是会检测得到的，而并非关注对学生的学习来说什么是重要的。为了提高考试分数，把更多教学的时间用来反复的练习。由此，学生在学习中也只需要再认，而不是去建构答案和寻求解决方法。

（二）评价方式与学习结果的匹配是有效评价的核心

我们批判客观纸笔测验对教育、教学，乃至学生的成长带来危害，当然问题的本质并不在于我们使用客观纸笔测验的评价方式，而在于我们不假思索地滥用该方式。事实上，客观纸笔测验对学习目标中的某些目标是最有效的评价方式，只是它检测不了应该处于课程核心地位的丰富而复杂的任务。因此，我们解决问题之道并不是要取消客观纸笔测验，而是要建立一个平衡的评价方式体系。其中“平衡”的核心内涵在于评价方式与学习目标之间的匹配程度。在具体的运用过程中，我们一定要根据各种评价方式的特点来均衡地使用他们，只有这样，我们的评价才可能是可靠的、有效的。

评价是获得、解释证据的过程。如何获得证据，获得的证据是否足以说明我们所期望的学习结果，是问题的关键。这也就是学习结果与评价方式的匹配问题。不同的学习结果具有不同的学习过程和条件，评价它们的内容、标准和方法也应当不同。对陈述性知识的评价主要看学生能否正确回答“是什么”的问题，当然并不是让学生机械复述书本上的概念定义，而是要求学生陈述符号或语词表达的意义，选择类型的题目（如是非题、多项选择题、匹配题等）可以评价学生对概念的辨别和理解，可以评价学生能否在各种变式下运用规则，简单建构反应题（如简答题、填空题）适合评价学生运用几个规则创造一个新规则的能力。[1]对程序性知识的评价，不在于检测学生是否正确复述，而是考查学生面对各种必须应用学过的概念与规则的情境时，能否顺利进行运用和操作。[2]程序性知识和认知策略针对的是“怎么做”和“为什么这样做”的问题，因此，对它们的检测应当在一些具体的情境中进行。总之，不同类型的学习结果各自的特性不一样，在选择评价方式时，需要因考查的结果类型不同而决定。

（三）表现性评价：检测客观纸笔测验检测不了的学习结果

表现性评价不仅评价学生“知道什么”，更重要的是评价学生“能做什么”。事实上，表现性评价的这一特点，在音乐、美术、体育等课程的评价中已经得到了很大程度的体现。我们评价一位学生的音乐素养，主要看的是他的音乐表现才能如何，而不是他是否知道有关音乐的知识。相对于传统的选择式考试，表现性评价是对学生“能做什么”的直接评价。传统的选择式考试是通过对学生在纸笔选择式考试上的表现来间接地测量他某一方面的能力，它只能测量学生“知道什么”，但却不能评价学生“能做什么”。比如，通过多项选择题、完形填空等形式的选择式纸笔考试对一个人使用外语的能力作出测量，而事实上，这个学生在实际生活中运用外语进行表达和交流的能力到底如何却不得而知。正如琳恩(Linn，R.)等人指出的，多项选择等纸笔测验的价值，主要在于它是作为其它有价值表现的征兆或相关因素。[3]相反，表现性评价则绕过了作为预测或征兆的中间地带，直接对学生“能做什么”的行为表现进行评价。表现性评价要求学生完成的是我们确实想要评价的行为，而不是看上去像而实际上没有发生的行为。[4]

表现性评价不仅评价学生行为表现的结果，更重要的是评价学生行为表现的过程。当前，绝大多数学生学业评价都是结果评价，我们关注的只是学生最后取得了多少成绩。而表现性评价则强调学生的实际表现及历程。例如，要评价学生的实验能力，我们不仅对学生的实验成果及获得的数据进行评价，更重要的是对学生在实验过程中对实验的设计、使用仪器和实验技巧等实验过程方面的表现进行评价。因此，典型的表现性评价不仅关注如完成的课题、美术作品、研究报告等学习结果，而且关注这些学习结果得以产生的整个过程。事实上，有些学习内容没有形成最终的有形的产物而只有过程，如演讲、唱歌、跳舞、讨论等。表现性评价既是对这些学习过程的评价，又是对其产物的评价，是全面的评价。

表现性评价不仅是对某个学习领域、某方面能力的评价，更重要的是对学生综合运用已有知识进行实作与表现能力的评价。表现性评价不仅仅局限于评价学生的记忆、认知能力，它更关注非认知因素，如与人合作的能力、参与社会活动的能力等，突出了情感、态度、价值观因素在学生发展中的重要地位。表现性评价理念下的学生不再只是跟书本、习题、考卷打交道的书虫，他们必须参与操作、实践表现，从而全面地发展能力。他们也必须综合而又灵活地运用所学知识，进行思维加工和判断，进行各种探究活动，有个性地展现自己的才能，从而培养创新能力。

二、表现性评价的内涵与特征

上世纪八十年代末，表现性评价在国外受到广泛关注，掀起了一场基于表现性评价的教育改革浪潮。然而，表现性评价的概念内涵、结构要素等基本问题都还处在不断的实践和发展之中。

（一）表现性评价的内涵

什么是表现性评价，有很多的答案，许多学者经常概括地使用表现性评价、基于表现的评价、真实性评价、备择评价等术语来指代相同的意义。[5]其中表现性评价领域最具思想深度的两位先锋威金斯（Wiggins，G.）和斯蒂金斯（Stiggins，R.）的观点比较具有代表性。威金斯强调，表现性评价要求学生完成一个活动，或制作一个作品以证明其知识与技能等，即让学生在真实情景中去表现其所知与所能。[6]著名的评价权威斯蒂金斯在1987年就指出，“表现性评价为测量学习者运用先前所获得的知识解决新异问题或完成具体任务能力的一系列尝试。在表现性评价中，常常运用真实的生活或模拟的评价练习来引发最初的反应，而这些反应可直接由高水平的评价者按照一定的标准进行观察、评判，其形式包括建构反应题、书面报告、作文、演说、操作、实验、资料收集、作品展示。”[7]十年之后，斯蒂金斯又给予表现性评价一个更为明确的界定，“表现性评价是基于对展示技能的过程的观察，或基于对创造的成果的评价。”[8]总体而言，这样的评价是形成性的，学生可能会在一个方案设计上花费许多天时间，他们有多次机会调整和改进它，因而，能给予学生许多机会来证实他们的学习，最后达到颠峰的评价事件或表现可能是一个日常生活中常见的任务，完成它可以代表对知识整体的精通和掌握。尽管还有许多学者还从不同角度对表现性评价进行界定，但毫无疑问的是，表现性评价强调“实作”与“表现”。

表现性评价要求学生生成些什么，而不是选择一个答案，是一种观察学生积极地参与到完成某项任务之中的评价，这样的任务经常是一个人在实际现场可能做出的表现或模拟，它代表了学习的目标或标准的成就。表现性评价和教学通常是相互缠绕的，以致于不可能把两者区分开来，因此，要求这样的评价更复杂，涉及到用整合的任务来决定学生是否已经达成了期望的结果或标准。可见，实施表现性评价，一是要求学生执行表现任务，二是用以判断结果和表现的评价标准。而表现性任务和评分规则都是依据我们期望学生能表现出来的学习结果来设计和开发的。因此，表现目标、表现任务和评分规则，就构成了表现性评价的三个核心元素（图1）。

（二）表现性评价的特征

表现性评价是开放的、复杂的、真实的，贯穿于整个教学中，不像传统的评价那样，只在单元或学期结束时执行一次；就管理而言，虽然它们需要更多的时间，但它们能和教学融合在一起，来提供学生的表现，能给予教师许多新的方法来看到学生的进步和成就。

1．真实情境中的任务

“真实”，要求我们将评价所测的能力直接与生活中复杂的能力连接，以提高学生习得的能力迁移至学校学术情境之外之生活中的程度。这些真实情境中的任务，既是学习任务，也是评价所要完成的任务，它关注的重心是如何发现和建构知识，而不仅仅是简单地获取知识。真实性任务比起传统的纸笔测验要复杂，同时它也是非常普遍的，例如：写一个宣传小册子、制作一幅地图、创作一个食谱、评价某种行为、制作一盘录像带、写一本儿童读物、编一个计算机程序等等，这些都是与现实生活有关的真实性任务，都要求学生展示不同方面的知识和理解，为培养学生“带得走”的能力提供各种各样的机会。

2．学生的建构反应

表现性评价要求学生建构反应，学生必须自己创造出问题解决方法或通过自己的行为表现来证明自己的学习过程和结果，而不是选择答案。建构反应和选择反应是两种不同的认知过程，选择反应的评价以完全结构化的任务限制了学生反应的类型；而建构反应的评价学生可以按照自己的方式自由反应，使学生的创造力得以表现，建构反应更加接近真实世界的问题解决。大部分的表现性任务要求学生参与一系列复杂的决定，学生必须分析问题，选择各种各样的方法去解决问题，通过书面、口头等其他形式交流问题解决方法等。因此，他们必须综合而又灵活地运用所学知识，进行思维加工和判断，进行各种探究活动，有个性地展现自己的才能，从而创造性的解决问题。这也正体现了现代认知建构主义学习理论，把学生看作学习过程中意义建构的积极参与者，而非分散知识的接受者。

3．清楚明了的评分规则

表现性评价有清楚明了的评分规则，因此学生都知道他们将被怎样评价。传统的教学评价，教师给予学生任务，但没有解释说明他们所期望的细节，学生在“试误”的基础上，试探性地完成任务，希望自己准确地猜中教师要求他们完成任务的意图。在表现性评价中，给予学生实施评价的规则。当教师写下他们对学生的期望时，教师就开发出了评价所期待的图景，能帮助学生确切地理解教师对他们的期望是什么。开发评分规则要求教师反复推敲，不断地修订它们。提供给学生的评分规则能有助于消解评价的神秘性，当完成评价时，允许学生聚焦于重要的成分和因素。给学生展示以往学生完成评价时的表现或成果的例子，也能传递给学生有关教师对评价的期望。

4．评价与教学的统整

表现性评价具有教学性成分，学习和评价能同时执行，它能很好地与教学统整在一起。例如，当实施一个舞蹈单元时，学生可以创编一个舞蹈序列，来表明对某些舞蹈概念和原理的理解。当学生编舞时，他们学习关于舞蹈的种类、动作造型、流畅性、水平等内容。然后，通过评分规则来对他们呈现的舞蹈进行评价。因为学生有评分规则，当他们完成任务时，可以进行自我评价或同伴评价；当学生完成任务以后，教师基于评分规则指导学生和向学生说明教师的期望，也能提供额外的反馈。给予学生的评分规则是教师用以评价最终的学习成果的标准。这样，学生的学习任务和评价变得不可分割，不同的教学类型可以和评价融合在一起。

三、表现性评价的具体应用：案例与建议

表现性评价在国外已经有比较丰富的实践经验和理论探索。在我国，随着素质教育的不断推进，也有越来越多的人关注和研究表现性评价。然而，如何实质性地实施表现性评价，不仅是理念层面的问题，更是一个实践问题，需要有更多的人去尝试，去探索。

（一）一个表现性评价案例[9]

本案例来自于美国米尔沃基帕布里克学区，它主要由三个部分组成，第一部分为表现性目标，第二部分为表现性任务和一位学生作业及教师的评价（表1），第三部分为评价学生问题解决水平的评分规则（表 2）。[10]

该表现性评价指向于小学数学学科的问题解决，在评价之前，该学区统一制定了问题解决的五个关键要素，即：

策略的选择：数学中常使用的策略包括：画图表、制作模型、猜测和检查、将信息分类、制作清单、将问题划分为几部分、逆向推理和简化问题。评价的重点在于学生是否能够将先前的知识运用到问题中，将知识与恰当的策略选择联系起来，并对策略的恰当性做出回应。

问题的组织：恰当地组织问题有助于对问题的思考。“问题组织”的评价重点在于是否能确定问题中的必要的信息，并通过图表等方式阐述相关的信息。

用数学交流：在解决问题的过程中，解释和阐述“如何看待数学问题”，可以加深学习者对数学概念的理解，提供解决问题的灵感。因此，是否对其所选择的策略和解决问题的思路提供充分的说明是该指标的评价重点。

问题解决的方案：善于解决问题的人常常会反省自己所做的尝试，分析所采用策略的有效性，检验例外和证实结果。该指标的评价重点为：是否通过有效地使用运算、图表和阐述等方式，获得对该问题的正确解决方案，并做出验证。

运用数学：数学能力的增长应该与恰当地运用数学术语以及数学推理能力的增长同步。因此，是否能使用恰当的数学语言进行数学推理和数学运算即是评价的重点。

事实上，上述问题解决的五个要素就是我们期望学生掌握的学习结果，也即表现目标。设置表现性任务和评分规则都应当紧紧围绕这五个维度展开。

表1 表现性任务及一位学生作业

表2 表现性评价标准说明（小学数学科）

从表1中可看出，该表现性任务设置了一个模拟真实的情境，来检测学生的数学问题解决能力。鉴于学生的表现，并依据评分规则，教师对该生在问题解决中的“问题的组织”能力水平上的评分结果为“4”等级。

（二）表现性评价的应用建议

从上述案例可见，应用表现性评价不是一项简单的任务，尤其是表现目标的确定，它需要综合考虑多种因素；评分规则的开发也是如此，它不仅要体现与目标的一致性，还需要了解学生的实际水平，根据不同学生的不同表现层次来描述评分规则的具体内容。下面的建议[11]有利于帮助教师设计和应用表现性评价。

1．在教学过程开始之前开发评价

在过去，教师等到教学活动完成以后才开发评价，评价往往基于所教授的内容、活动、练习的时间来开发。而在基于标准的课程中，评价基于标准来设计，然后基于评价选择内容和活动，所选的内容和活动将允许学生展示在某条标准上的能力，而不是在某个内容或活动上的能力，这对教学设计来说代表了一个巨大的范式转型。当教师使用基于标准的表现性评价时，学生的学习会更好地与课程标准保持一致。

2．采用适用于学习过程的评价

评价可以从两方面来审视：促进学习的评价和对学习的评价。促进学习的评价通常与形成性评价联系在一起，它的意图是促进学生的学习。教师可以用形成性评价来判断学生已经学会了多少，然后规划下面的课程和教学。在基于标准的课程中，学习是很难与评价区分开来的。安排一个特定的表现性任务或练习，它既是要学习的课程内容、学习活动，也是一种评价。在完成表现性任务的过程中，学生要积极地投入这项学习活动，同时他们也展示了知识、技能、体能、态度、方法以及与他人的关系。在这里，评价是学习经验，而学习经验因为相伴的评分规则而成为评价，也就是前文所说的评价与教学的统整。

3．用一项评价任务达成多条标准

开发学生学业评价时，不需要为每条标准开发不同的评价，开发的评价任务和评分规则应尽可能多地包含多条标准。例如，当呈现一个作品时，学生能展示动作技能方面的能力、认知性知识、与他人的关系、以及对这项内容和活动的乐趣。一个户外教育中的颠峰活动能从不同的行为现场提供了评价多条标准的相同机会。使用少量具有深度的评价意味着教师只要管理少量的评价，完成少量的文书工作，给教师节省用于评价的时间。

4．确信学生知道你将怎样评价

没有理由把学生蒙在鼓里，不让他们知道你要评价什么、你将依照什么标准来评价。提前给予学生评价内容和评价标准，他们可以为此早作准备。许多教师担心，这又将成为考什么教什么学什么，威金斯指出，如果这个考试是有价值的、值得学生去花时间的，这不成什么问题，关键是你考些什么，是否能达成标准。[12]表现性评价中要求学生执行的表现任务或练习，都是学生值得花时间努力的，给予学生评价的标准，让学生知道教师的期望，他们可以对自己的能力和进步进行自我评价，使学习过程更加有效。

[1]丁家永．国外对知识测量与评价研究的新发展[J]．外国教育研究，2000，(3).

[2]高民.论知识的分类测量与评价[J].教育理论与实践，1999，(9).

[3]参见王小明.一种高级学习的评价方法[J].全球教育展望，2003，(11).

[4]Borich，Gary D．＆ Tombari，Martin L．中小学教育评价[M].国家基础教育课程改革“促进教师发展与学生成长的评价研究”项目组译，北京：中国轻工业出版社，2004，180．

[5]Herman， J．， P．Aschbacher，and L．Winters．A practical guide to alternative assessment.Alexandria,VA:Association for Supervision and Curriculum Development.1992.

[6]李坤崇．多元化教学评量[M]．台北：心理出版社，1999，134．

[7]Stiggins， Richard J．Design and Development ofPerformance Assessments[J]．Educational Measurement:Issues and Practice,1987(6).

[8]Stiggins， R．Student centered classroom assessment.2ed[M].Upper Saddle River,NJ:Prentice Hall,1997，77．

[9]本案例由杭州市余杭区教育科学研究所邵朝友提供。

[10]罗丹，美国小学数学科中表现性评价档案袋的收集与实施——以米尔沃基帕布里克学区为例.外国中小学教育[J].2007(10)．应用时略做修改。

[11]参见崔允漷等．基于标准的学生学业成就评价[M].上海：华东师范大学出版社，2008，143.

[12]Wiggins,G..A true test:Toward more authentic and equitable assessment[J].Phi Delta Kappan,69,1989:703-713．

周文叶/华东师范大学网络教育学院

（责任编辑：张斌）