一种新的学习评估：学习段评估述评

2017-01-09 21:57杨志红

高教探索 2016年12期

杨志红

摘要：缘于对传统总结性评估的不足、评估“用户”们的观点以及教师的评估的优势，学习段评估孕育而生。学习段评估的本质就是将教师的判断也用于报告学生的成就，并与学习性评估相结合，既实现其客观评定的目的，又达成其促进学习的愿景。在运用和开发的过程中，特定的评估方法和模式保证了教师的评估的信度和效度，以及评估强化学习的功能。

关键词：学习段评估；教师的评估；学习性评估

“对学生的学习进行评估，并对成绩进行记录和报告不仅是教育的基本组成部分，也是学生个人经历的重要且必要的成分。”[1]为了确保评估能够反映现代教育的重要成果，体现公平性、可靠性，发挥其促进学习的积极作用，学习段评估（assessment of learning，也有学者译作“对学习的评价”及“学习的评估”）在世界多个国家和地区发展起来。本文从缘起、原理和方法三个方面对其展开论述，以期对当前我国学生的学习评估改革起到一定的推动作用，为教师进行评估提供一定的借鉴。

一、学习段评估兴起的背景

学习段评估缘起于传统总结性评估的不足、评估“用户”们的观点以及教师的评估的优势。

研究者对总结性评估的批判主要集中在外部测试的使用，尤其是对基于单一的测试结果评价学生、教师、学校等外部“高利害”测试表示了担忧。早在20世纪90年代，美国研究者就已获得大量的研究证据，表明频繁的“高利害”测试对课程和教学会产生负面影响，并且逐渐意识到测试和考试的低可靠性。[2]21世纪初期，英国评估改革小组（the Assessment Reform Group）就相关文献进行了系统性综述，结果不仅发现测试对学生的学习动机有不良影响，而且进一步确认了测试对教师和教学的负面影响。[3]具体表现为：第一，当通过测试具有高利害性时，教师就会采取知识传递的教学风格，这种风格有利于那些喜欢通过程式化掌握信息的方式的学习的学生，却不利于偏爱创造性学习方式的学生。第二，外部测试对课程有限制性的影响，这会导致测试时只关注科目内容，而牺牲了学生的创造性、个性及社会性发展。第三，“高利害”测试通常会导致学生将大量的时间用于练习测试，高度关注学生的测试表现，而忽略其它成就。第四，教师能有效地训练学生通过测试，即使当学生没有掌握测试预期测量的理解能力或高阶思维能力的情况下，学生也能通过考试。第五，教师自身进行的评估也主要关注评估的终结性功能，而不是评估的学习促进功能。据此，很明显，基于纯粹外部测试的总结性评估导致实际教学内容（即测试题目所体现的内容）与当今多变性、技术性世界对学生获取和评价信息、理解性学习以及终身学习的能力素养要求之间的不匹配性，窄化了学习观。同时，也抑制了学习性评估在实践中的运用和发展，阻碍了评估对学习的改善功能。

评估信息的使用者——家长、学生、教师、高等教育机构和雇主对总结性评估的看法在一定程度上对其发展走向具有重要的影响。研究表明，家长更关心评估信息能帮助儿童取得更大的进步，而不是其排名。同时，他们希望总结性评估能涵括更为广泛的学习成果，并认为教师实施的总结性评估更有利于学生学习动机的激发和自尊的发展。[4]学生一方面认为，总结性评估是必要的，另一方面，他们又关心多样化的学习经验，要求评估内容的多样性。而且，他们指出，教师的判断存在偏见，但是清晰的评估标准和教师们之间的合作可以减少该类偏见，重要的是，教师进行的总结性评估能为学生提供自我评估的机会，发展自主学习能力。[5]教师非常关注总结性评估内容的全面性，而不只是方便于测试的内容，并且认为，有效的评估实践要能为学生提供评估自身学习的机会，发展独立学习能力。然而，教师既不信任其他教师的判断，也不信任测试分数，因为存在为了通过考试而强化训练的嫌疑。[6]高等教育机构和雇主指出，他们用以选拔学生的依据不只是学生已取得的测试成就，还需要有关学生是否有能力进行学习和对学习负责的信息，以便他们能从将来的学习或培训中获得收益，坚持学习。当然，高等教育机构也不信任教师的评估，因为教师为了提高学生的入学机会会自行夸张分数。[7]上述评估信息用户们的较为一致的观点就是，希望总结性评估能涵括更多的学习成果，不能只依靠测试这种评估方式，并要求发挥总结性评估改进学习的用处。而且，教师进行的总结性评估有其有利的一面，但存在信度问题，然而，却也有改进的办法。

通常认为，评价服务于某一目的的评估的有效性有四个指标：效度、信度、影响和资源。对于任何评估而言，其首要的特质是有效性，即确实评估了其预期评估的内容。其次，评估必须提供可靠的资料数据，尤其是对于“高利害”评估而言。而且，鉴于教育系统成分的相互依赖性，还要考虑评估对系统内其它要素的影响。当然，评估的成本也是必须考虑的因素，要考虑成本与收益的适度平衡，有的评估可能要耗费大量的金钱和师生的时间。根据这四个特质，对通过教师进行的总结性评估和通过测试进行的总结性评估进行比较，发现前者的优势要明显强于后者。具体比较情况见表1。[8]

能反映课程的完整的目标；没有考试的焦虑以及不用进行测试训练，学生可在常规学习中展示其所能；效度取决于教学中提供的机会。

被认为不可靠和存在偏见；所做判断要求调解；经过适当的培训能够达到与测试相似的可靠水平。

反映和加强所教学的内容；能运用学习性评估的证据；为学生提供自我评估的机会。

因为额外的责任，可能增加教师的负担；培训和调节要素；较少的外部测试意味着更少使用商业测试；学生的学习时间增加；教师的时间从准备测试中解放出来。

通过测试的总结性评估

全部目标的一个样本；被评估的目标的一个样本；确保基于同样的试题和任务对所有的学生做出判断。

抽样意味着有很大比例的学生会被归错类；需要一定的外部任务或测试确保学校之间比较的自信。

导致训练测试的内容，教学测试技巧，引发课堂评估的终结性氛围；学校确保所有的学生都学习认证机构规定的具体内容。

占用大量的教学和学习时间；学校实施外部测试需要大量的成本；分离了评估者和教师的角色。

基于上述研究结论，英国的哈伦（Wynne Harlen）对传统的终结性评估进行了改造，创生了评估的新形态——“学习段评估”（assessment of learning）。学习段评估认为，应该将教师的判断也用作对学生学习进行报告和认证的基础，以确保对外部测试的信心。同时，将学习性评估（assessment for learning，即以促进学生的学习为目的）融入其中，这既实现了学习段评估促进学习的功能，又迎合了当今教育改革的意图：加强真实情境中的学习和评估。这消解了测试的消极影响，迎合了评估信息用户们的需要，充分发挥了教师的评估的优势。当前，英国、中国香港、澳大利亚、新西兰、美国等国家和地区都在践行学习段评估理念，尤其是在英国，几乎各教育阶段的、高利害或低利害的评估中都将教师的评估整合其中。

二、学习段评估的原理和方法

自学习段评估理念提出以来，对其进行了不同的定义。新西兰教育督察办公室（The Education Review Office）认为，学习段评估就是在规定的时间（given time）总结和报告学生成就的过程，其中，应该给教师、学校管理者、家长和学生提供有关学生进步和成就的可靠和合理的信息。[9]这是一个较为宽泛的定义，如果将其脱离具体的学习段评估背景，会使人误认为这就是传统的总结性评估。加拿大曼尼托巴省协同其他地区合作开发了“加拿大西北部教育合作草案”，明确提出运用学习段评估。他们认为，学习段评估是一种用来确认学生的所知、展示他们是否实现了课程成果、证实他们的能力、并且就学生将来的安置做出决定的策略，并向家长、其他教育者、学生自身、雇主等提供成就证据。[10]这个定义将学习段评估看作是一种策略，基本明确了评估内容，既有知识、也包括技能、能力等，这有别于传统的总结性评估对知识的关注。但是，这个定义没有完全体现学习段评估的特质，且操作性不强，教师难于实施。

据此，可以给学习段评估下一个更为具体、全面的描述性定义。学习段评估，是依据课程标准中的宏观目标以及与宏观目标相一致的具体课时目标，综合运用包括测试在内的多种手段收集有关学生学习成果的证据，并根据课程表现标准和学生标准分别对其进行分析和解释。一方面，实现其在特定的时间总结学生成就的目的，以向家长、教师、学生、学校管理者、雇主等报告学生达成的学业水平，其中，教师的判断占有极其重要的地位；另一方面，实现其及时改善学习的目的。总之，从传统总结性评估到学习段评估的概念进化，体现了从“通过考试选拔人才”的“择优筛选”到“为每个学生的学习负责”的“全民问责”的评估改革走向。

（一）学习段评估的两大目的

学习段评估兼具鉴别、报告学生学业成就和促进学生学习两大目的。这两大目的彼此交融，不可分割。

1.鉴别、报告学生学业成就

该目的有时亦称为“认证目的”，着眼于通过多种手段、尤其强调运用教师的判断检测学生是否达到了一定课程标准所规定的宽泛的目标要求，进而将此结果报告给家长、教师、学生、高等教育机构和雇主等，以此证明学生的学业水平。

2.促进学生学习

学习段评估与教师进行的学习性评估相结合，开发了清晰、具体的课时目标以及相关的评估标准，这有利于学生明确努力的方向和目标，并根据评估标准完成学习任务，判断已取得的学习成就。同时，这也有助于教师把握学生学习图景，及时解释评估结果，提供描述性反馈，从而帮助学生明确下一步的学习计划，这能极大地激发学生的学习动机，激励其付出更多的学习努力，让学生相信通过自身的努力可以取得学业上的进步，进而形成能力成长型的心理动机。同时，学习段评估也给学生提供了参与自我评估、同伴评估的机会，有利于深化其对学习目标、评估标准的认识，提升其对学习过程的自我认识、自我监控和自我调节能力。最后，学习段评估要求学生和教师合作，从学习性评估中挑选合适的证据用于报告学习成就，这可以深化学生对一般性评估标准的理解，掌控总体性学习目标，最终促使学生将评估信息看作是一种学习助益，而非一种标示优劣的标签。

（二）学习段评估的过程和特点

1.学习段评估的过程

学习段评估体现了新的评估理念，实施时应理解并运用其中的关键环节，才能发挥其应有的效能，实现上述两个目的。关于学习段评估的过程，见图1。[11]

根据图1，可以看出学习段评估包括四个环节：通过测试、任务或常规教学活动，生成证据；挑选、总结证据；根据课程标准，判断成就；报告成就。

第一个环节：通过测试、任务或教学活动，生成证据。与传统的总结性评估的唯一测试证据来源不同，在学习段评估中，学业成就判断的证据来源于测试、序列常规教学活动或特定任务。其中，一定的测试和特定的任务可保证评估的信度，这仍然是学习段评估所需要的。同时，教师的常规教学活动也是证据来源，它可以提高评估的效度，学生也因此参与评估。教师和学生首先理解、掌握一般性学习目标（例如，发展调查技能），将其分解为许多具体的课时目标，并据此设计学习活动，实现课时目标，从而最终达成总体性目标。同时，教师将学习性评估融入日常教学，设计评估标准和任务，通过多种方法进行学习评估，或将评估活动与学习活动整合起来，互为彼此；学生也进行自我评估和同伴评估，从而生成了全面的学习成就证据，如知识和技能性目标、情感性目标、问题解决和其它高阶思维技能等。一方面，教师和学生借助学习性评估，利用这些证据，实现具体课时目标；另一方面，有些证据将被师生挑选出来，用文件夹收集好，用于特定时间段的成就报告。

第二个环节：挑选、总结证据。在学习段评估中，用来报告成就的证据所涉及的是一般性学习目标，而非具体的某一学习目标。在报告成就的规定时间，教师和学生从第一个评估环节生成的、源于常规教学活动的证据中挑选出最适合于报告成就的证据，并采取一定的方式，就有关学生一般性目标的发展情况，对这些证据进行总结。在此需要注意的是，从与具体学习目标相关的判断到与一般学习目标相关的判断并不是一个简单的判断相加的过程。

第三个环节：解释证据，判断成就。为了确保教师的评估的信度，需要根据适用于所有学生的评估标准对挑选、总结出来的证据进行解释，从而做出基于标准的判断。而如果教师受具体学生的情况影响，按照学生参照标准进行解释，则会造成偏见。因此，需要采取某些有效的方法对教师的成就判断进行一定的调节。最后，报告成就。

2.学习段评估的特点

基于上述分析，可以概括出学习段评估的主要特点。第一，学习段评估以教师的判断为基础或以外部测试为基础或以两者的结合为基础，而不像传统的总结性评估只借助测试获得的证据对学业成就进行判断，在确保信度的同时，也提高了评估的效度。第二，学习段评估并不是作为常规学习的一部分的循环活动，只是在需要对成就进行报告时才进行评估。传统的总结性评估相当频繁，几乎每个教学单元或每周结束时都要进行，这给教与学造成了严重的负面影响。而学习段评估只在规定的时间进行，其中的“段”为某一课程结束时，或学年结束时，或中考和高考时，其它时间尽量借助评估促进学习。第三，学习段评估既实现了总结、报告学习的目的，又实现了促进学习的目的，这与传统的总结性评估将鉴别和选拔作为唯一目的不同，它迎合了所有的评估都有促进学习的功能的理念。第四，学习段评估与学习性评估相结合，为学生提供了自我评估的机会，这是有效的评估的一个重要标准。而在传统的总结性评估中，学生几乎被置身于评估之外。第五，学习段评估与宽泛目标的成就相关，这些目标通常以一般化的术语进行表述。

（三）学习段评估的机制和方法

深入理解学习段评估的过程和特点，发现其蕴藏着两个关键机制：教师的评估和学习性评估。

1.教师的评估

所谓教师的评估指的是，教师有计划、系统地收集证据，并基于他们的专业判断，对他们的学生的学习成就做出推断，并在规定的时间报告成就。此处，收集证据的方式的“系统性”远不及测试的要求严密，其证据来源于常规学习、项目报告、具体的作业、实地任务或展示等。而且，教师的评估局限于对自己的学生的评估。[12]然而，虽然教师的评估的效度要优于测试和考试的效度，但在某些情况下，与测试和考试的信度相比，其评估信度较低。而且，任务（即证据来源）和标准（证据据此转化为等级、分数）的具体化程度是影响其信度的两个主要因素。影响方式是，通过具体程度不同的任务和标准相结合形成的不同评估方法来影响其信度，评估方法不同，效度和信度也不同。据此，可以通过教师的评估方法来提升评估信度，并确保效度。

将任务和标准两个维度结合，可形成1、2、3、4四大领域的评估方法，具体见图2。

首先，关于教师的评估的效度与评估方法的关系。对于教师的评估而言，评估任务的具体化程度是将其包含在评估系统的核心原因，任务越具体，评估中能体现的学习成果越少，教师的评估就失去了其效度意义。而且，如果没有限制完成任务的条件，只是将教室转化为考试场所，并因此失去了教师评估时使用常规学习活动的优势，那么具体化任务也没有任何意义。在领域1和领域2的评估方法中，任务被高度具体化，效度取决于选择评估项目设计时制定的任务以及标准与任务的匹配度，而不是教师。在领域3的评估方法中，任务和标准都具有一般化，教师虽然控制证据的来源，但是，由于标准的非具体性，造成了教师选择任务的困境。然而，在领域4中，具体化的标准能帮助教师选择评估任务，实现评估的高效度。因此，领域4的评估方法能够有效地保证教师的评估的效度。

其次，关于教师的评估的信度与评估方法的关系。领域1的评估方法的任务和标准都高度具体化，这种评估方法可以提供可靠的数据资料。但是，此时，教师担当的角色是管理和实施他人制定的评估工具，也即实施外部测试，而非自己在进行学习段评估。在领域3评估方法中，任务和标准都不具体，采用这类评估方法，其评估信度特别低。如，最初在Vermont和Texas实施的档案袋系统即属于此领域的方法，教师自由选择置于档案袋中的内容，并根据一定目标的实现程度，评价学业。这种低信度归因于任务和借用一般化术语表述的标准之间缺乏匹配性，以及教师运用标准的不一致性。因此，人们试图通过具体化任务的手段（领域2）来提高其信度，但这仍然无法将信度提高到足以用来报告个体成就的水平，而且，这种方法有可能会导致教师和学生只关注那些规定的任务的风险。然而，在领域4的评估方法中，标准非常细致、具体，而任务却极为一般、宽泛。运用此领域内的评估方法进行评估，其信度特别高。“主题轮廓”是其中一种具体的方式。其它的研究也证实，当标准被具体化时，教师就可以做出高信度的判断。因此，领域4的评估方法有利于教师的评估的高信度。

由此，领域4中的评估方法，即评估标准的高度具体、清晰和任务的一般化能为教师的评估的信度和效度提供基本的保证，是教师进行学习段评估的基本方法。因此，用于进行学习段评估的方法不仅有传统的测试或考试，教师可以根据领域4中有关对标准和任务的要求，创生出许多具体的评估方法，用于评估学习产品和学习过程，如，展览品、表现、展示、表演、档案袋等。

然而，需要注意的是，具体的评估标准只为可靠的教师的评估提供了潜能，其仍可能会产生偏见。这主要是缘于教师可能对评估标准理解不透彻，或标准本身不够清晰，致使其将与学生表现无关的信息等因素考虑在内，从而影响了评估的信度。因此，需要对教师的评估进行调节。调节的原则是，让教师在评估过程中承担更多的责任，以及给予教师更多的机会对评估过程和评估产品进行调节。当前，评估调节的主要方式有：调整分数，教师协议，运用范例，开发实践团体。然而，实践中运用最多的是教师个体使用范例对自身的评估进行调节，以提高评估的信度。

2.学习性评估

学习段评估要实现促进学习的目的，理论上而言，这需要追问两个问题：用于报告成就的证据能被用来帮助学习吗？用于帮助学习的证据能被用来报告成就吗？

首先，第一个问题：用于报告成就的证据能被用来帮助学习吗？传统的用于报告成就的证据通常来源于测试，一般以分数或等级的形式呈现结果，信息极具笼统性，而且也无法及时获得。而能起到帮助学习的作用的证据需具备细致性、及时性。于是，布莱克等提出了以下总结性评估的形成性使用的方法：运用测试题目使学生巩固理解和帮助复习；让学生参与设置试卷问题；让学生给自己和他人的测试打分等。[13]然而，这些情况只发生于教师控制的评估中。当然，教师也可以通过和学生讨论已评分的试卷的方式使用外部测试，或从评估成绩中看出学生能力发展的变化，并据此制定下学期的教学计划。学生可以在教师的指引下，学会利用评估的结果进行反思。但是，在实践中，这几乎不会发生，实际上也很少发生，因为这种评估通常都发生于某一个学段结束时，距离下一次的教学和学习或许还有一段时间，教师可能并不会真正根据评估结果设计教学，学生也已经不在校园，无法及时反思、利用。即使教师运用测试对学习进行反馈，也有严重的局限性，会出现“为了测试而教”的危险，以及以频繁收集的用以报告成就的证据代替用以帮助学习的证据。

英国评估改革小组提出的学习性评估的十个原则为判断评估是否具有帮助学习的功能提供了标准：它是关注学生怎样学习吗？它是结构性的吗？它能激发动机吗？它能促进对目标和标准的理解吗？它能帮助学生知道如何改善吗？它能发展自我评估的能力吗？它意识到所有的教育成就吗？[14]显然，服务于报告成就的证据无法满足这些标准，当然，也就无法达成帮助学习的目的。

其次，第二个问题：用于帮助学习的证据能被用来报告成就吗？用于帮助学习的证据主要源自课堂上常规的持续性活动，是有关于学生个体的具体课时目标的成就，对证据进行解释并做出判断的标准则是学生参照和与具体目标相关的标准参照。而用以报告成就的证据则与宏观的学习目标相关，对其进行解释并做出判断则必须基于与这些宏观学习目标相关联的、适用于所有学生的标准。但是，具体课时目标与宏观目标之间具有内在的一致性，可以根据学生具体课时目标的达成情况来推测其一般性目标的实现度。据此，只要对用做帮助学生学习的证据进行适度总结，并基于用于所有学生的标准，对其进行重新解释，那么，此证据也可用以总结、报告成就。也就是说，用于帮助学习的证据能被用来报告成就。

在学习段评估中，实现将用于促进学习的证据来报告成就的思路就是，将学习性评估与学习段评估相结合，平时进行学习性评估，需要对学习成就进行总结、报告时，再进行学习段评估。在实践中的具体操作过程见图3。[15]

用于总结、报告成就的证据和促进学习的证据都来源于序列相关的学习活动，即图表中的a、b、c、d等。学习活动左边的箭头表示来源于活动的证据与具体的课时目标之间的关系，学习性评估循环使用这些证据帮助学习，以便达成具体的课时目标。学生在学习性评估循环中扮演重要的角色，他们需要理解学习目标和质量标准的操作性意义，以便进行自我评估和同伴评估；教师也会及时提出针对个体学生的反馈建议，改进教学计划。据此实现评估改进学习的作用。

学习活动右边的箭头表示将证据用于报告成就。但是，并不是所有来源于学习活动的证据都将用于总结、报告成就，教师和学生将共同从学习性评估生成的证据中挑选出最适合的证据，然后，对其进行综合思考和概括，才能用于报告成就。挑选的方法为：基于评估标准与成就水平的对应性，通过检视学生学业成就最有可能达到、明显不能达到、明显能达到的水平的相应评估标准，就能挑选出最佳证据。这个过程给学生提供了参与评估的机会，他们逐渐理解了那些与具体课时目标具有内在统一性的宽泛目标，同时，也有助于深化其对具体学习目标的理解，从而促进他们的学习。由于挑选证据的目的是为了体现成就报告时学生达到的水平，而不是说明一段时间的学习后学生取得的进步，因此，需要对挑选证据的过程和结果进行一定的调节，以防止因为将与评估标准无关的信息考虑在内而造成对标准进行不同的解释或偏见。

3.证据双重使用的案例。[16]在8年级学生的科学课堂上，学生正在学习不同的材料传递热能的情况。在一段时间，他们在调查被用于制作物体表层的不同材料的隔离特点，教师提供给他们金属容器，他们将水放在该容器内，并用布将该容器外部包裹好。将温度计置于水中，用来测量这个装有水的容器的温度变化。但是，要设计这个调查，需要做出几个决定，如：放入容器内的水的起始温度为多少？在温暖的实验室而不是在寒冷的室外进行这个调查能获得有用的结果吗？如何确保比较是公平的？做出这些决定需要学生运用有关传导的知识、知道热能传递的其它方式，还需要学生明白如何进行公正的比较。

在他们进行计划时，教师引导他们注意设计调查时应该关注他们资料收藏夹中收藏的一份材料，这是在他们的前期讨论中产生的。当学生计划和实施他们的调查时，教师观察他们的行动，并且倾听他们的讨论，偶尔也会要求小组学生解释他们做某事的理由。在就他们的发现进行报告的阶段，教师有更多的机会收集证据，并将其用于帮助学生理解热能是如何传递的，以及发展学生的探究技能。

因此，在上课期间，教师会通过提问、通过要求学生给出论述和行动的正当理由、通过要求学生解释调查计划的某一部分如何帮助其实现目标来回应其所听到的和看到的，以引起对所做决定的再次思考。换句话说，教师正在使用证据帮助学生学习。教师也会对学生所要求的帮助做好记录，以便在随后的学习中能进一步跟踪。

在学年结束时，必须对学生取得的成就进行报告，此时，教师审查那些来自本节课以及其它科学课的证据。教师对来自具体活动的证据进行整合、总结、思考，以便对每个学生的一般性概念和探究技能的发展水平形成一个总体性判断。在对此进行准备的时候，教师给学生时间检查他们各自的资料夹，就如何收集和使用证据获得结论以及结果的解释，要求学生对他们后面的调查和以前的调查进行比较，然后，挑选出最好的学习例子。

通过提供课堂时间给学生挑选证据，教师就能和个体学生进行交谈，以确保他们理解了挑选证据的标准，并正确地使用。然后，教师对照标准（criteria，描述性的）检查这些证据，这些标准对应着相应的成就报告水平（standard，判断性的）。最后，部门领导对这个结果进行审查。在部门调节会议上，对作为样本的三个学生所收集的证据进行了讨论。

三、对我国评估制度改革的启示

在真正直面英国等国家教育界声势浩大的学业评估转向时，不难看出，转向所带来的主要冲击在于评估理念，但这种冲击似乎并没有产生预期的效果。这种结果与预期的偏离主要源于根深蒂固的竞争性评估目的的存在，无论是基于常模参照，还是基于标准参照，无论是以考试为手段，还是以日常作业为途径，评估都带有竞争性的特质。在竞争性评估体制下，反馈直接指向的是等级性学习成果，而不是学习过程，对评估信度的高度重视致使自我评估和同伴评估无法实施，评估设计的窄化和为了测试的教学将注意力抽离了对学习者的进步的关注，通过事先设置的奖励来激发学习者动机的方法与基于社会建构主义理论的学习性评估理念相违背，竞争性评估的巨大资源需求也很可能会挤压用于学习性评估的资源。由此，遮蔽了教师的评估和学习性评估功能的正常发挥，难于从根本上实现评估促进学习的目的。但无论如何，英国的学生学习评估向前迈进了一大步，很多经验值得我们吸纳、借鉴。

第一，倡导学习性评估理念，借助评估改善学生的学习。评估的最终目的应是促进学生的学习，而不是获得有关学生学业成就判断的结果。根据布莱克和威廉等人对形成性评估的研究结果，英国评估改革小组提出了学习性评估思想，利用评估促进学习，认为评估领域的未来应该是“为了学习的评估”，而不是“对学习的评估”。基于此评估思想，哈伦等人提出的学习段评估理念，即以促进学习为主要目的，只在必要时对学生的学业进行认证和报告。此评估理念关注学生全方位学业成就的发展，重视学生能力的提升，更重要的是，它重视学生内部动机的养成，发展学生的自我调节学习能力，形成自主学习观念。就我国目前的学习评估现状来看，总结性评估相当频繁，“月考”现象严重，而且，评估方式还是以考试为主。然而，这只是对学生的学业成就进行判断，评估的目的在于得到一个评分，而不是促进学生的学习。而且，评估内容只能关注学生对事实性知识的掌握、学生的知识广度和结果的可比性，而无法顾及其它的学习成果，如批判性思维、创新能力、解决问题的能力等其它高阶思维能力，这是我国需要进一步予以改善的地方。

第二，将教师的评估纳入学生学业成就认证和报告的体系内，将总结性评估与教师的日常教学相结合。通过对比教师进行的总结性评估和通过测试进行的总结性评估，英国研究者发现前者的总体性优势要强于后者，而且前者的不足也可以通过评估方法、专家调节、教师培训等方式得以补救，据此，将教师的评估也用作学生学业成就的报告。学习段评估理念采纳了此做法，为了向各评估信息的使用者报告学业成就，用于获取证据的方式不仅有测试和考试，还有教师在日常教学中通过各种方式，如表演、展示等收集的有关学生各个方面的学习证据，两者结合起来共同用于报告学生的学业成就，以使评估更为公平、合理、全面。反观我国用于报告学生学业成就的评估，还是以通过考试收集的证据为主导进行判断。虽然，自新课改以来，各个学科课程标准中都提出鼓励教师在课堂上采用各种方式进行学习评估，但是，一方面，基于教师和学生本身的评估素养，实践中很难真正实施，而且，课程标准中的评估实施只是以建议的形式呈现，只是一个理念，缺乏操作性；另一方面，即使教师采取不同的方式进行了学习评估，也没将其评估结果纳入学生学业成就的报告中。对此，我们需要给予一定的关注，进行适当的调整，在一定的程度上使用教师的评估，以实现真正的评估公平和可信。

参考文献：

[1]Harlen，W..On the relationship between assessment for formative and summative purpose[M]// Gardner，J.Assessment and learning.London：Sage，2006b.

[2]Satterly，D..Quality in external assessment[M]//Harlen，W.Enhancing Quality in Assessment.London：Paul Chapman.1994.

[3]ARG（Assessnment Reform Group）Testing，Motivation and learning[Z].Cambridge：University of Cambridge Faculty of Education，2002：2-7.

[4]Hutchinson，C.，Pirie，M..‘Views of Scottish parents about waht matters in learning and assessmnet. Paper presented at the ASF Seminar，July.2005.

高教探索2016年12期

高教探索的其它文章: 大学跨学科合作的学科整合机制及其模式选择; 高校创新团队建设的必要性及组织优势分析; 我国高等院校绩效预算评价研究; 学习动机对大学生学习投入的影响：人际互动的中介效应; 应用型高校实践教学质量评价指标体系研究; 研究型大学人文通识课到课率与课堂因素关系探究