刘吉良 骆康演
2010 年6 月,为应对各州参差不齐的州教育标准,解决教育质量不断降低的问题,深化基于标准的改革,美国各州协同颁布《共同核心州立标准》(Common Core State Standards,简称CCSS)。大学和职业准备评价联盟(The Partnership for Assessment of Readiness for College and Careers,简称PARCC)评价体系应运而生。PARCC 评价体系旨在评估美国基础教育k-12 年级在英语语言艺术/文化(English Language Arts/Literacy,简称英语)和数学科目方面的学习成果,以便使学生更好地为大学和职业生活做好准备。PARCC 注重批判性思考和解决问题的能力,鼓励学生挑战自我,完成更艰巨的任务,考试标准与各州独立的教育标准相比发生了较大改变,所以在施测后部分学生的成绩并不理想,但该体系的支持者认为,严格的测试能更好地衡量学生的学习水平和发展潜力。在调查中,大部分的教育者表示,“‘诚实的’新测试能获得更多真实信息,更好地了解学生的真正能力”。
首先,美国出现了教育国家化的趋势。纵观美国教育发展史,大致可分为三个阶段:教育权力自由发展时期、州管理教育时期、联邦参与教育管理时期。以往,美国教育主要由州政府和学区控制,教育标准和测试方式由州政府制定,联邦政府在教育管理中的作用较弱。20 世纪80 年代以来,标准化运动兴起,统一的标准和考试逐步渗入基础教育领域,联邦政府不断加强国家对各州教育的参与和控制,如1983 年的《国家处于危机中》(A Nation At Risk)教育报告表明联邦政府可以通过教育专业机构对基础教育实施必要的干预;1991 年,《2000 年美国:教育战略》报告(American 2000:An Education Strategy)要求制定全国性的各科课程标准和测试标准;2002 年的《不让一个孩子掉队 法 案》(No Children Left Behind Act,简 称NCLB),希望建立共同的课程标准、高质量的评估体系和问责制来促进基础教育改革;2009 年,《力争上游法案》(Race to the Top Legislation)要求各州建立与CCSS 一致的评价体系[1]。
其次,美国教育标准不断提高的要求。已有的州立评价体系往往侧重对学生基础知识和基本技能的评价,并没有为学生设定一个需要努力才能够达到的目标,而且评价目的仅仅是考查学生是否学了,没有对更高阶的思维能力和深层次的学习能力进行评估。已有体系重视考题的客观性,忽视了学生语言文字表达能力和思维的发展,结果导致在校学生语言文字表达能力下降的现象,不利于选拔优秀人才,对学校教育改革产生了不良影响。一项对马萨诸塞州企业主的调查显示,69%的企业主认为,请到有足够工作能力的雇员是一件较难的事,大部分的高中毕业生在使用英语写作,如备忘录、信件和技术报告等方面的能力欠缺[2]。
PARCC 评价体系以英语和数学科目为重点评估对象,将总结性评价与形成性评价相结合。总结性评价用于各州的问责,发挥的是测试的作用,所以又称为测试工具(testing tools),主要测试学生的知识水平能否达到CCSS 的要求。形成性评价用来指导教师的教学工作,所以又称为教学工具(instructional tools),主要包括诊断性工具、形成性工具和听说测评。
总结性评价即在教学活动完成之后,判断学生是否达到或在何种程度上达到课程目标中的要求,概括化程度较高。总结性评价由表现性评价和年终评价两部分组成,每学年9 场考试,即每个年级的学生要参加5 场表现性评价考试(3 场英语、2 场数学)和4场年终评价考试(2场英语、2场数学),它的结果用于支持学生、教师、校长和学校的问责制决策(见表1)。
表1 总结性评价的内容
1. 表现性评价
为了展现自己的知识和技能,学生进行某项活动或者生产出某个产品,对此的评价称之为表现性评价。论述题和其他要求深入回答的试题可以展示学生思考和组织的过程,教师可以看出论点的逻辑、组织答案的方式以及学生的结论,因此像作文、故事、报告、提问这类笔试评估均属于表现性评价[3]。表现性评价是每个学生都必须参与的测试,在3/4学年时运用。评价主要使用计算机或其他电子设备实施,在测试完成后同时运用计算机和人工进行评分。评价结果在实施后两周内报告。为了提高分数的有效性,后期还会随机抽取小部分论文进行人工的二次评分。
在英语科目上,表现性评价主要考查学生的写作能力及从文本中获取证据来论证论点的能力,主要题型为选择题和写作题。在数学科目上,表现性评价主要是测试学生运用技巧、原理去解决问题的能力,共20 道选择/填空题和14 道左右的简答题,重点分析学生对概念、实际应用及解决数学问题的推理性能力等。评分后,数学上的表现性评价将占到学生总结性成绩的40%至50%。英语科目的表现性评价则没有具体的占比,而是将各项目的分数分为1-5等级详细列在成绩单上,从而让家长和教师能够迅速了解该学生是否达到了预期能力水平。
2. 年终评价
年终评价属于必考,在9/10学年时进行,以计算机作为考试媒介及评分工具。英语的考试题型全部为选择题,要求学生阅读短文,回答问题,侧重对学生阅读理解能力的考查。项目的难度和数量都将随年级的上升而逐级增长。如3-5 年级的学生需完成45-55 道题,6-8 年级 50-60 道,9-11 年级 55-65 道。数学则由一系列创新的、机器可测项目组成,集中在一些重要的领域,侧重解决创造性的问题。对高中学生来说,PARCC 测试的数学部分由代数1(Algebra 1)、代数2(Algebra 2)和几何学(Geometry)组成,包括42道左右的选择/填空题。
形成性评价即在教学过程中进行,用以提供反馈,改进教学活动,包括为数学和英语科目准备的诊断性工具、形成性工具以及单为英语科目研发的听说评价(见表2)。在形成性评价部分,各成员州可以有选择地执行,评价结果不用于教师或学校问责。
表2 形成性评价的内容
诊断工具是为了确定学生的长处和需要,提供有用的信息指导教学工作,让教师了解学生学会了多少知识、学生是否为学习CCSS 要求的关键内容和技能做好了准备等。具体作用包括:第一,通过一系列的测试,找出学生在阅读、数学和写作这三方面的优点和不足;第二,为教师提供测试结果,以协助他们制定教学计划;第三,帮助教师跟踪学生的进步轨迹。
形成性工具(Formative Tools)主要提供给K-3年级的学生,让教师了解学生对知识的熟悉程度,能否展示知识以及他们的进步和成长过程。形成性工具将被纳入课程之中,以发现学生“隐藏”的学习信息。
听说评价(Speaking and Listening)考查K-12 年级学生的英语听、说能力。根据CCSS 的要求,K-12阶段的学生养成良好的听说能力是他们长远发展的关键。“听”是指学生能够理解复杂信息、想法和口头论据的能力。“说”是指学生能够提出复杂的信息、想法和有效的证据。听说能力的考查工具包括实践任务、课堂讨论、听力记录和互动的在线课程(网络课程资源,学生可跟读,提高自主学习积极性)。
CCSS 对美国基础教育阶段的数学和英语科目进行了标准设置,相对应的,PARCC 评价体系也是对英语和数学两门核心课程进行评价。下面以英语科目为例,对评价模块的内容标准进行简要概述。具体表现为:
第一,阅读复杂文本的能力。要求学生在掌握词汇的基础上,能够分析、比较不同复杂程度的文本,完成50 道左右的选择题,题材来自管理科学领域、历史/社会研究、技术学科和艺术等方面(见表3)。词汇是阅读理解的一个重要组成部分,不同阅读情境下对它进行评估更有效,预期学生通过对给定文本的细致阅读、比较和分析,从而合成一些新的属于自己的观点[4]。文章的长度不是考查的重点,重心是适合的复杂程度、丰富的文本内容等,从而使学生获得对特定知识领域的深层次理解。
表3 测试阅读能力的试题(7年级)
第二,据文本进行有效写作的能力。学生仔细阅读相关文本,通过收集、分析、整合和展示,论证相关资料,形成有说服力的、条理分明的书面论文。考核任务主要包括文本分析任务、模拟性研究任务和叙事写作任务(见表4)[5]。文本分析任务要求学生阅读两篇文学类文章,完成六组选择/填空题,写一篇分析性文章;模拟性研究任务提供两篇说明文,六至九组选择/填空题、一道说明文写作题;叙事写作任务要求学生阅读一篇小说类文章,完成五组选择/填空题,写一篇叙事型的文章。在每个年级,这些资料都包括了较为宽泛的阅读难度范围和文本复杂性水平,从而可以让较高水平和较低水平的学生都能展现他们的技能。
表4 测试写作能力的试题(7年级)
第三,开展研究性学习的能力。此部分的评估主要建立在“据阅读文本进行有效写作的能力”的基础上,要求学生展示自己的能力,收集资源、评价资源的相关程度,报告个人的思想和想法,通过研究来回答疑问和解决问题。
第四,口语和听力能力。学生需具备沟通和人际交往的能力,包括(但不限于)进行正式演讲、有效协同工作、认真听取别人的观点、共享研究结果等能力。该部分的评估由教师在课堂中以现场口试的方法进行,可在学年的任意时间段内实施,学生根据教师提供的文本发表自己的看法,并回答其他同学的提问。
第五、学术性语言能力。主要体现在阅读、写作和口语上,要求学生拥有严格准确的语法知识、口语和书面英语能力。
该英语评价模块的内容为评价的实施提供了切实的指导,它强调了学生必须通过对不同复杂程度文本的细致阅读和分析比较,逐渐培养高阶思维,提升英语写作水平,从而具备大学和职场要求的英语能力。
标准化改革运动兴起以来,所有的会员州都存在据《不让一个孩子掉队》的要求而设立的本州独立的评价体系,与旧有的州立评价体系相比,PARCC评价体系拥有自己的独到之处。
PARCC是基于标准的评价,它与CCSS的一致性也决定了评价体系的有效性。首先,二者的基本定义一致,CCSS 对学生的知识和技能标准做了界定,它要求学生在K-12 教育阶段的学习应该能使他们在高中毕业的时候有能力适应大学的入门级和学术性课程,而进入职场的学生足以出色地完成新进员工培训项目。PARCC 的存在意义即测试学生的成绩,衡量学生知道什么,能做什么,以确保学生能够运用获得的知识和技能在大学和职场获得应有的成功。更为重要的是,PARCC 将学习重心放在“问题解决”“深度学习”“批判性思维”等能力的发展上面,这恰恰也是CCSS 所强调的核心能力[6]。其次,PARCC的整个设计流程都是基于CCSS的,它对标准进行了解读和重组,根据标准来布置其测评点。与CCSS 的一致性保证了测试在会员州之间的可比性,有利于提高各州的竞争,打破目前各州教育质量不高的局面,学生在这些州之间的迁移也不再会遭遇由课程标准差异所带来的学习障碍。而旧有的州立评价体系依据本州的课程标准而设立,以自己为参照,与别州的学校没有可比性,易导致学校固步自封,止步不前。
PARCC 测试强调学生的学术能力,相比以往的大规模标准化测验,PARCC 重视学生批判思考、问题解决、研究和合作等核心知识和技能的增长,PARCC 强调以“证据”为中心的评价方法,要求学生展示他们的思维过程,即他们需要提供文本来支持和证明他们的答案,在复杂性学习和高阶思维技能方面有了进步,突破了原本局限于考查学生基本知识和技能的狭隘评价取向。
以英语为例,在旧评价体系中的选择题部分,学生必须在没有上下文的情况下识别单词的意义,易造成死记硬背式学习。PARCC 测试中,在Part A 中学生可通过联系上下文得到单词的含义;在Part B中,学生被要求找到文章中相应的短语来支持Part A 的答案。Part B 的过程即要求学生告知教师他如何思考的过程,要求学生将自己的理解过程展现出来,而不是单纯关注一个最终的结果(见表5)。
表5 五年级的英语选择题新旧比较
在写作部分(见表6),PARCC 要求3-11 年级学生阅读多个文本,根据题目要求写下自己的观点,并在文中选取相应内容证实它。旧评估体系的写作题通常不为学生提供相关阅读材料,这使得学生的文章缺少证据性文本的支撑,较难有说服力。而PARCC 的写作提示中清晰地标明了阅读和写作的标准,给予学生展示其分析能力的机会。学生对同一主题的多个文本进行分析并完成论文,其过程即模仿学术研究的开展。教师通过分析学生在完成写作的过程中展现出的读、写等能力,评价他们是否为升学和就业做好了准备。
表6 七年级的英语写作题新旧比较
PARCC 将计算机技术运用在开发、管理、测试、打分、成绩报告各方面,贯穿于整个评价体系的建设和发展,较之前已有的评价体系具有进步性。在测试时,学生能够便捷地利用拖拽、复制和粘贴等功能,减少重复性工作,使作答更方便、快捷。与纸笔测验相比,计算机测试提供的试题与现实的相似度更高,可大量利用图片、视频等直观性较强的材料,考生可以在计算机高还原度的模拟情境中进行操作。例如,一道数学题的要求是在购物袋不破的前提下,可最多装入多少瓶果汁。此时,学生在计算机界面上可看到几个承重能力不等的购物袋和几瓶一定重量的果汁,学生可通过拖拽将果汁放入袋中,从而增加考试的直观性和可理解性。PARCC 大部分的试题都是由机器自动评分,数据可全部通过网络即时传输,反馈周期较短,时效性强。PARCC 联盟承诺测试结果在实施后两周内报告给学生、家长和教师。而且,PARCC 开发了在线网络系统,为教师、家长和学生提供了大量的开放式资源,学生和家长都可以根据个人需要下载学习资料、参加模拟测试,更便捷地使用在线的高质量测验题库等。
总之,PARCC是以CCSS为依据建立起来的学生学业评价体系,在基本观念上,它强调促进学生的升学和就业;在内容上,它融合形成性评价和总结性评价;与原有的州立评价体系相比,该体系突出学术性、技术性和可比较性等特点,重视批判性思考、问题解决、研究与合作等核心知识和技能的发展,以培养学生的复杂学习能力和高阶思维技能,其内容和特点对改善我国基础教育学业评价体系具有一定借鉴意义。