陈海曼,顾秀林
(上海师范大学 教育学院,上海 200234)
美国SBAC英语评价体系的特征和启示
陈海曼,顾秀林
(上海师范大学 教育学院,上海 200234)
“智能平衡评估联盟”基于《共同核心州立英语标准》开发出SBAC英语评价体系,该体系具有“以证据为中心、基于数字图书馆的形成性评价、设置合理有效的成就水平、强调表现性任务的运用”四个特征。借鉴SBAC英语评价体系,我们可以有以下尝试:坚持学业成就评价体系和课程标准的一致性;探索基于证据的评价;建立大范围全方位的评价资源库;设置合理成就水平;应用表现性任务。
共同核心州立英语标准;SBAC英语评价体系;特征;启示
顾秀林,浙江嘉兴人,上海师范大学教育学院硕士研究生,主要从事课程与教学论、教师教育研究。
美国原有州英语学科评价体系存在诸多问题,如只关注考试成绩而忽视英语实际水平的提升,各州统考评价内容不够全面,以及测试结果滞后无法有效指导教学等。为此,美国政府于2010年9月通过“力争上游计划”(Race to the Top)拨款1.75亿美元专项资金开发 “智能平衡评估联盟”(Smarter Balanced Assessment Consortium, SBAC),并基于《共同核心州立英语标准》(Common Core State Standards for English, CCSS, ELA)[1],开发出SBAC英语评价体系,以期全面改善英语教学质量。
SBAC是由州主导的组织,由管理州负责主要的预算、政策和管理决策。管理州包括加利福尼亚、华盛顿等15个州,美属维尔京群岛和印度教育部。[2]每个管理州都必须履行和加州大学洛杉矶分校(University of California at Los Angeles, UCLA)签署的学术合作备忘录(Memorandum of Understanding),并且和所有成员州(除了管理州,还包括两个合作州爱荷华州和北卡罗莱纳州)共享服务——如项目管理、评估技术体系的维护和强化等。
SBAC英语评价体系包括终结性评价(Summative Test)、临时性评价(Interim Test)和基于数字图书馆的形成性评价(Formative Assessment)。终结性测试(Summative test)或期终测试(End-of-year Tests),用于测评学生从3年级到高中的英语学习成就及其进步情况。教师还可以通过灵活可选的临时测试,检测学生的学习进步。[3]基于“数字图书馆”的形成性评价则是SBAC评价体系的主要组成部分。其中,数字图书馆是一个教师交流、共享教学资源、评价模型的网站。教师可全年使用数字图书馆(Digital Library)里的专业发展资料和教学资源等资源,以满足学生学习发展的需要。[4]总的来说,总结性评价结果用途广泛,如监测学生对大学学习和以后就业的准备程度,检测学生的能力水平,衡量CCSS达标程度等。而临时性评价和形成性评价最初的目的就是支持教学,提高学生学习水平,以最终达到总结性评价的高期望。具体关系如图1 所示:
图1 SBAC英语评价体系图
SBAC还开发了形式丰富多样、内容生动有趣、主题贴近生活的测试题,以确保测试符合学生发展要求。此外,无论是终结性评价、临时性评价,还是基于数字图书馆的形成性评价,教师都可以让学生以电脑适性模式(Computer Adaptive Format)的方式接受个性化测试(关于“电脑适性模式”具体在下文介绍)。为了满足特殊群体的评价需求,SBAC评价体系的附加支持部分,提供了适应于残疾学生和母语非英语的英语学习者(English Language Learners)的评价方式。[5]
1.以证据为中心
SBAC评价体系最大的特色在于在评价时以证据为中心(Evidence-centered Design,ECD)。ECD使得测试的设计集中于寻找证据,使得整个设计过程趋于简单,避免了其他内容或形式性的干扰或影响(Williamson et al, 2003 )。[6]ECD虽早已出现在教育评估领域,但因其需要消耗大量人力、财力,且决策过程复杂,之前尚未大面积投入州教育评价工作中。然而,联盟州教育工作者参与度广,参与人员实力强,政府给予财政支出,使得证据为中心的设计正式投入使用。
作为评估过程中的重要一步,联盟总结了ECD的六大要点,并将它们投入设计和发展智能平衡评价体系中。[7]这六大要点及其关系如图2所示。
图2 ECD六大要点[7]
ECD使得测试的目标更加清晰准确,每一个考察点都有相应题目,针对性强,提高了测试效度。同时它还可以提供更详细、可信任的成绩分析报告,不仅可以避免纠纷,还可以为教与学提供参考资料。
2.基于数字图书馆的形成性评价
数字图书馆是面向教育工作者,并由教育工作者收集和递交教学指导和专业学习资源的网站。图书馆资源和CCSS的要求一致,帮助教育工作者实施形成性评价,改善教学。图书馆鼓励交流和合作,支持全国教育工作者分享教学资料和教学经验,互相点评等。
数字图书馆除了采用先进技术建立一个资源丰富、交流通畅的网络平台以外,在实体上通过以下三步进行具体建构:
(1)联盟与专家组、成员州、K-12教育工作者和高等教育工作者合作,共同开发数字图书馆资源。[7]专家组帮助联盟开发出专业学习和教学资源的质量标准指南(Quality Criteria Guide)这两份指南,用来协助教育工作者和专家们提交和审查数字图书馆的形成性资源。
(2)每个成员州由K-12教育工作者和高等教育工作者组成8~12人的州领导小组(State Leadership Teams, SLTs)。州领导小组负责为州教育工作者网(State Networks of Educators, SNEs)招聘和训练教育工作者。只有SNEs的成员教育工作者,才有资格向数字图书馆提交资料。这些资料投入使用前,需要经历三道审查。未能过关的资料将退回给提交者,并给予其反馈和改进意见。
(3)最后,近1200名K-12教育工作者和高等教育工作者组成州教育工作者团,接受SBAC关于正确解读评价体系的培训。
基于数字图书馆的形成性评价,使教师的教和学生的学都能获得动态反馈,及时调整教与学策略,提高学生课程学习效率。形成性评价具有四大特点:阐明有意学习,提取证据,解释证据,依证据行动。其中,“阐明有意学习”有两大要素:学习目标和成功标准。学习目标揭示了学生在课程结束后应该知道什么,而成功标准则明确了师生可以使用的证据——鉴定学生如何通向学习目标之路。“提取证据”是提供师生需要的信息,鉴定学生在通往有意学习目标的路上,身处何处。解释证据是师生解释他们收集到的证据,判断学生是否达到学习目标和学习成就标准,辨别学生的已知和未知模块。“依证据行动”是指师生使用动态反馈,决定下一步进程。数字图书馆的每一项资源都为形成性评价的这四种性能服务。
3.设定合理有效的成就水平
联盟开发了一套多步骤的成就水平设定(Achievement Level Setting)过程,依据学生在总结性评价中的表现,设立分数线将学生分为不同的成就水平。[7]具体步骤如下:
(1)第一步:在线讨论
为了扩大参与度,联盟邀请了联盟州的教育工作者、家长和其他一些市民,参与在线成就目标设定。在线环节中,成千上万的教师和其他相关团体独立评审测试题目,并提出建议——学生进入大学和就业所需的表现水平。
(2)第二步:现场讨论
教育工作组和其他成员州提名的合伙人商议和推荐四种成就水平的分数线:1级(Level 1)、2级(Level 2)、3级(Level 3)、4级(Level 4)。
(3)第三步:跨年级评审
在现场讨论之后,一个主要由教育工作者组成的小团体开始评审第一步和第二步中推荐的成就水平。跨年级评审的目的——确保成就水平的设定,顺利贯通各年级,准确反映学生年复一年的进步情况。跨年级评审的小组成员检查之前的推荐项目,提出改善各年级成就水平连贯度的建议。
(4)第四步:州批准
成员州最终评审、调整和批注推荐项目。在11年级成就水平设立过程中,高等教育领导者参与决策,以确保成就水平反映高校的期望。一个独立的技术咨询委员会和一名专家审计员,监督这些过程是否合理实施。每个成员州必须决定是否采取联盟成就水平或设置自己的成就标准。
虽然CCSS界定了学习进阶,描述了每个年级段所包含的内容要求和技能要求,但是CCSS并未划定学生应该知道多少(掌握知识的程度),这才算是为大学学习和以后就业做好准备。联盟承担起这项任务,做大量研究,界定学生为入大学和就业做准备所需掌握的知识、技术和能力。为达成这一目标,在2013年5月的合作大会(Collaboration Conference)中,管理州联盟采用了成就水平说明(Achievement Level Descriptors, ALDs)。ALDs描述了在标准化测试中,学生应达到了知识、技术和能力要求。[9]联盟的ALDs划分了四种成就级别:1级、2级、3级和4级。3级和4级的学生达到入大学和就业的准备要求。除了报告分数,ALDs还具有其他的功能,如指导政策和标准设定(创设分数线)以及试题开发。
为了展现这一整套目的,联盟开发了一系列ALDs,各不相同但又互有联系,表1就介绍了这四种类型的ALDs:
表1 四种类型的ALDs
四类ALDs的体系的轮廓和相互关系如图3:
图3 ALDs体系的轮廓和四种类型ALDs的相互关系[10]
之前,在测试开发环节的末期才创建ALDs,仅用来总结学生的表现。而新的改革使得ALDs创建于测试开发环节的早期,对学生表现的期望可以指导对测试的构思和开发。ALDs是依据大学内容准备(College Content Readiness)的操作性定义以及策略框架来指导分数解析。但SBAC尚未开发出职业准备的操作性定义以及策略。不过,它正朝这个目标努力。
4.强调表现性任务的运用
SBAC创建了丰富多样的试题类型,如选择反应测试题(Selected-response Items)、结构反应测试题(Constructed-response Questions)、非传统反应测试题(Non-traditional Response Questions)、表现性任务(Performance Tasks)等,并且这些测试题都以电脑适性模式(Computer Adaptive Format)的方式进行。电脑适性模式是指:学生通过预先设定的软件作答,当学生正确回答问题时,将会出现更具挑战性的题目;反之,则出现更简单的题目。这样个性化的测试,有助于学生展示所学,在合理范围内争取更多进步。[11]
SBAC最具代表性的测试类型是表现性任务(Performance Tasks)。表现性任务测量学生的批判性思维和问题解决能力,学生将自己所学的知识和技能应用于复杂的现实世界。[12]一个主题或方案串联一系列问题或活动,这些活动用于测量学生能力,如理解深度、写作和研究技巧、复杂分析能力。而传统的测试题并不能充分测量学生的这些能力。这些表现性任务用时1到2课时,在电脑上完成(但并不是电脑适性模式)。表现性任务或由电脑自动打分,或由专业教师打分。它既可以在临时性评价和总结性评价中使用,又可在数字图书馆中作为教学模型和创新的重要资源。例如SBAC提供的8年级英语表现性任务样题,以“生产和使用便士(penny)的经济利弊”为话题,提供了4篇文献资料,要求学生进行自主探究。在第一部分,设置了三个问题,鼓励学生使用证据理解文献资料回答问题,检测学生的批判思维能力和阅读理解能力。如下:
案例 关于“生产和使用便士的经济利弊”话题的表现性任务[13]
话题:生产和使用便士(penny)的经济利弊
资料1:Penne wise, or 2.4 Cents Foolish? (作者:Jeff Sommer)
资料2:Is the Penny Worth It? (作者:Rachel Mancuso)
资料3:Give a Penny-Save the Day! (作者:Ted Waterhouse)
资料4:The Ever-Changing Penny (作者: Maria Story)
第一部分:
题目1:材料2说明了对美国消除便士的潜在影响, 请从文中提取两个细节,解释材料2如何加深读者对此的理解。
题目2:所有资料的主题都有关便士。学生打算研究降低生产便士的成本,参考哪项资料最合适?从你所选的资料中,选取两条信息,支持你的回答。
题目3:填表。资料3和资料4是否支持以下观点。
表2 生产系使用便士的经济利弊
第二部分:
以便士为主题,写一篇议论文,并进行报告展示。要求学生使用自己的话,清晰表达自己对“便士”看法。可以参考笔记和文献资料,但注意引用格式。
第二部分同时还展示了需注意的问题和评分标准,如组织/目的、证据/连贯、语言表达等。通过学生阅读和理解一定文献后,鼓励学生自我创作、表达观点,有利于学生学以致用,同时注重学生对证据的使用,发展学生的批判思维能力和创新能力。
表现性任务是相对于仅仅以知识技能为主、强调客观唯一答案的纸笔测试任务而言的。但它并不排斥纸笔测试,不追求复杂或难以操作。它强调评价目标的正确性、可操作性和有效性,鼓励学生使用高阶思维技能,深入分析思考,推理探究,寻找支撑证据并综合运用。
1.坚持学业成就评价体系和课程标准的一致性
学业成就评价体系和课程标准的一致性是评价结果有效性的重要指标。基于课程标准的评价是学业评价体系和课程标准“一致性”(alignment)的核心。[14]SBAC英语评价体系基于《共同核心州立英语标准》开发形成,评价理念以《共同核心州立英语标准》为向导,做到“为学习的评价”“对学习的评价”和“作为学习的评价”,致力于帮助学生为入学和就业做好准备。评价技术也与评价标准调整一致,试题所检测的知识技能范围及其比例,与课程内容标准的知识技能范围及其比例相一致;完成试题需要的思维能力与课程准备的思维能力相一致。不仅如此,SBAC英语评价体系在2016年4月发表了《智能平衡联盟:一致性报告(修改稿)》,检测、反馈和报告评价体系是否与课程标准保持一致性。[15]具体而言,涉及证据表述与内容标准的一致性、测试蓝图和内容标准一致性、证据表述和试题库一致性、试题库和内容标准一致性等方面。新课标提出培养学生“全面发展”“核心素养”的理念,但学业成就评价对这些理念的观测差强人意,导致应试化现象严重,和课程标准背道而驰。同时,对于评价体系是否与课程标准相一致的大规模检测、反馈和报告较少,有待加强。
2.探索基于证据的评价方式
SBAC评价体系中基于证据的评价方法,使评价的过程集中于寻找证据,评价更加科学、客观、公正、操作性强。这种强调证据的界定、证据的选择、证据的收集、证据的使用的评价方式是评价领域的一大创举。我国英语评价体系也可以借鉴这种方式,形成以证据为中心的评价体系。我们认为以证据为中心的英语评价体系可以从以下几方面入手:(1)界定证据。根据具体学习内容和学习目标确定相应的证据表现,界定清楚哪些是证据,哪些不是证据。(2)对证据进行分类。可以根据教学的三维目标分为知识类证据、能力类证据和态度类证据。(3)获取证据。不同类型的证据需要运用不同的获取方式。知识类证据可以采用纸笔测试的形式获取。能力类证据可以通过具体问题解决情景中的行为表现中获得。态度类证据是最复杂的一种证据,需要在日常生活中对学生的行为表现的观察、记录来获得。(4)使用证据。通过对收集上来的证据进行分类、整理、分析,对学生的学习状况进行评判,形成评价的结果,并将评价的结果反馈于教学,从而改进教学。
3.建立大范围全方位的评价资源库
SBAC充分调动各方资源,通过竞争性资助,吸引联盟州的参与,建立协助形成性评价实施的数字图书馆和总结性评价、临时性评价所需要的评价项目资源库。在大数据时代背景下,数字图书馆与传统概念上的图书馆有所不同,其服务模式由被动、等待、共性化转向积极主动、自动推送和个性化,提供再生信息服务。由传统意义上只是共享资源的图书馆转变为不仅是共享资源,而且是促进教师合作的交流平台。评价项目资源的开发参与人员包括教师、高等院校工作人员、学科专家、测量专家、职场代表和相关专业人士等。评价项目不限于选择反应型试题和结构反应型试题,还包括非传统反应测试题和表现性任务。SBAC在网上发布测试样题和练习题等,确保学生具有公平的了解和接触的权利。除此之外,还出台成绩水平设定和成就水平说明,更好地解读评价结果和学生发展需要。针对评价资源发展现状,我国应积极调动各方资源,加大评价资源库开发人员的广泛度,丰富评价资源库内容,借鉴SBAC建立数字图书馆经验,建立大数据时代背景下的大型多功能的新型数字图书馆。
4.合理设定成就水平
SBAC评价体系中合理的设定成就水平是其一大亮点。其合理性具体表现为两点:(1)多方参与成就水平的设置;(2)成就水平设置多样性。在成就水平的过程中联盟通过在线讨论、现场讨论、跨年级讨论等多次讨论将一线教师、家长、社会成员都纳入成就水平的设置上,尽可能使成就水平的设置符合不同群体的需求。在成就水平的表现上,不仅设置了不同水平之间分界线的临界值ALDs,还设置了政策ALDs、范围ALDs、报告ALDs,不同的ALDs都有不同的功能,这样的成就水平设置能满足多样化的需求。在这方面,我国《义务教育英语课程标准(2011)》(后简称《标准》)的制定过程中更多是专家讨论。因此,我们认为应该在《标准》制定过程中,纳入教师、家长和社会其他成员等多种社会群体的参与,以反映更多的社会需求;在《标准》的制定上,应当针对政策制定者、试题编写者、教师、家长等不同需求,制作不同的《标准》版本。
5.使用表现性任务
表现性任务能测量学生的批判性思维和问题解决能力。表现性任务让学生基于真实的问题情境,运用所学知识解决具体的问题。为了大量使用表现性任务,联盟编制了大量表现性任务的题目,形成表现性任务题库。教师可以方便地使用题库里的表现性任务对学生进行考核。表现性任务的大量运用是一种提高评价效能的可靠尝试。为此,我国应当根据测试的目标编制大量的表现性任务题目,通过网络的途径使教师能共享表现性任务,以推广表现性任务的使用。此外,我们也应当开发类似电脑适性模式这样的软件来辅助教学评价,使其更加便利化、个性化。
[1] Common Core Standards Initiative. Common Core State Standards for English Language Arts & Literacy in History/Social Studies, and Technical Subjects[S]. Washington, D. C. : Common Core State Standards Initiative, 2010-06-02.
[2] Smarter Balanced Assessment Consortium. Smarter Balanced Assessment Governing Board Procedures[EB/OL]. [2015-07-30]. http://www.smarterbalanced.org/wp-content/uploads/2015/08/Smarter-Balanced-Governance.pdf
[3] Smarter Balanced Assessment Consortium. 2016-17 Interim Assessment Blocks Overview[EB/OL]. [2015-08]. http://www.smarterbalanced.org/wp-content/uploads/2015/08/Interim_Assessment_Blocks_overview.pdf
[4] Smarter Balanced Assessment Consortium. Digital Libaray[EB/OL]. [2015-09]. http://www.smarterbalanced.org/wp-content/uploads/2015/09/Digital-Library-Factsheet.pdf
[5] Smarter Balanced Assessment Consortium. Accessibility & Accommodations[EB/OL]. [2015-08]. http://www.smarterbalanced.org/wp-content/uploads/2015/08/SmarterBalanced_Accessibility_Factsheet.pdf
[6] Williamson, David M., Malcolm Bauer, Linda S. Steinberg, Robert J. Mislevy &John T. Behrens. 2003. Creating a Complex Measurement Model Using Evidence Centered Design. On-line: http://www.eric.ed.gov/ERICDocs/data/ericdocs2sql/content_storage_01/0000019b/80/1b/2c/09.pdf.
[7] Smarter Balanced Assessment Consortium. End of Grant Report[EB/OL]. [2015-07].http://www.smarterbalanced.org/wp-content/uploads/2015/08/SB-EndOfGrantReport-F2.pdf.
[8] Smarter Balanced Assessment Consortium. The Formative Assessment Process[EB/OL]. [2015-09]. http://www.smarterbalanced.org/wp-content/uploads/2015/09/Formative-Assessment-Process.pdf
[9] Smarter Balanced Assessment Consortium. Smarter Balanced Assessment Consortium: 2013-14 Technical Report[EB/OL]. [2016-01-14]. http://www.smarterbalanced.org/wp-content/uploads/2015/08/2013-14_Technical_Report.pdf
[10] Smarter Balanced Assessment Consortium. Smarter Balanced Assessment Consortium: Achievement Level Setting Final Report[EB/OL]. [2016-09-04]. http://www.smarterbalanced.org/wp-content/uploads/2016/05/ALS-Final-Report_no-Appendix.pdf
[11] Smarter Balanced Assessment Consortium. Smarter Balanced Assessment Consortium: English Language Arts & Literacy Computer Adaptive Test(CAT) and Performance Task (PT) Stimulus Specifications[EB/OL]. [2015-04] http://www.smarterbalanced.org/wp-content/uploads/2015/08/ELA-Stimulus-Specifications.pdf
[12] Measured Progress/ETS Collaborative. Smarter Balanced Assessment Consortium: Performance Task Specifications[EB/OL]. [2012-04-16] http://www.smarterbalanced.org/wp-content/uploads/2015/08/PerformanceTasksSpecifications.pdf
[13] Smarter Balanced Assessment Consortium. Smarter Balanced Assessment Consortium: English Language Arts Practice Test Scoring Guide Grade 8 Performance Task[EB/OL]. [2014-05-16] http://www.smarterbalanced.org/wp-content/uploads/2015/08/ELA-Stimulus-Specifications.pdf
[14] 胡根林,赵梦雷. 一致性研究:实现基于标准的评价——2015年语文教育论著评析之四[J].教育大参考,2016,(5):13-16.
[15] HumRRO. Smarter Balanced Assessment Consortium: Alignment Study Report[EB/OL]. [2016-04] http://www.smarterbalanced.org/wp-content/uploads/2016/05/Alignment-Study-Report_HumRRO.pdf
Characteristics and Inspirations of SBAC, ELA Assessment
CHEN Haiman,GU Xiulin
(Education College,Shanghai Normal University,Shanghai 200234)
Based on CCSS, ELA (Common Core State Standards for English language arts & literary in history/social studies science and technical subjects), SBAC (Smarter Balanced Assessment Consortium) has developed the ELA assessment. Generally, the ELA assessment has four typical characteristics: focusing on evidence; Digital Library as an important tool of formative assessment; reasonable and effective Achievement Level; and application of Performance Tasks. Learned from SBAC, ELA assessment, there are five suggestions for language achievement assessment in China: The consistency of academic achievement assessment and curriculum standards should be enhanced; evidence is worth emphasizing in assessment; comprehensive resource databases should be constructed in large scale; we ought to set reasonable and effective Achievement Level; and the setting and application of performance tasks are encouraged.
CCSS, ELA SBAC, characteristics, inspirations
陈海曼,安徽阜阳人,上海师范大学教育学院硕士研究生,主要从事英语学科课程与教学论、教师教育研究。