张均兵
剑桥评价的高校选拔特色考试对中国高考改革的启示
张均兵
为了录取到更优秀的学生,用附加方法来识别哪些考生合适和在接受高等教育中有成功的潜力显得日益重要。适应这一要求,剑桥评价开发了高校选拔特色考试。该考试包括通用测试和专业测验两种类型。通用测试用于评价学生学习任何一个专业都需要的思维技能。专业测验用于评价学生在其申请的特定专业方面有无成功的潜力。该考试对中国高考改革尤其是完善我国自主招生考试具有重要借鉴意义,即重视关键能力的考查;注重专业发展潜力的考查;重视特色入学考试的效度研究;重视特色入学考试的共性与个性的关系。
剑桥评价;高校选拔特色考试;通用测试;专业测验
在英国,所有高等教育机构都实行大学自治,自主招生。尽管学生达到了大学录取的一般标准,但是这未必保证该生能被大学录取。因为现在符合大学一般录取标准的学生越来越多,尤其是生源状况越来越多样化的情况下。为了录取到更优秀的学生,英国许多高校尤其是名牌大学于是采取了加试政策,即报考某大学的学生除符合其一般录取标准外,还要参加申请专业另外指定的相关考试,通过该考试来识别哪些学生合适和在接受高等教育中有成功的潜力。剑桥评价开发的高校选拔特色考试就是上述要求的产物,正如其开发目的中所言:“(1)帮助高等教育机构对相同能力的学生进行区分;(2)证明预测效度;(3)测量学生成绩的一种附加方法;(4)因为资质的多样性而采用的一种普通测量手段;(5)允许世界范围内的学生有平等的机会。”剑桥评价的高校选拔特色考试主要包括两种类型:一种是通用测试(Generic Tests),即评价学生学习任何一个专业都需要的思维技能,如思维技能考试(Thinking Skills Assessment,TSA)。另一种是专业测验(Specialist Tests),即评价学生在其申请的特定专业方面有无成功的潜力,如生物医学考试(BioMedical Admissions Test,BMAT)、第六学期数学纸笔考试(Sixth Term Mathematics Exam Paper,STEP)、英语文学录取考试(English Literature Ad⁃missions Test,ELAT)。在这两种考试类型中,开发较早的是通用测试TSA。
TSA是剑桥评价研发设计和深入研究的一种通用测试。目前已被剑桥大学、牛津大学和伦敦大学学院采用。剑桥大学和伦敦大学学院的TSA试卷包括50道选择题,考试时间为90分钟。其中,25道试题考查问题解决能力,另外25道试题考查批判性思维技能。问题解决能力和批判性思维技能都是接受高等教育必需的。解决问题的能力侧重于用数字和空间技能进行推理,许多问题设计新颖,都是学术或专业工作中遇到的,考生的任务就是要找到或创造一个解决独特问题的办法。批判性思维要求用日常书面语言进行推理,这是学术性学习基本的能力,经常涉及的是仔细思考一个提出的争议点,希望考生将其推进或进行捍卫。选择题一般是提供5个备选项,正确选项只有1个。问题解决能力和批判性思维技能这两种类型的试题在试卷中会交叉出现,没有进行分类呈现。每个试题难度不一,但分值都是1分。TSA在50道选择题方面采用了相同的记分方式。给每道选择题的分数是1分,分数被校准为TSA等级体系(大约从0~100分),分数保留小数第一位。这个等级体系的百分比不是建立在原始分的基础上,而是建立在用统计技术计算出来的学生能力的评估基础上的,这要考虑每道题和整套试题的难度,因此,学生分数具有可比性。TSA成绩一般在50分左右,大约仅有10%的学生成绩会高于70分。分数自动生成,因此剑桥评价不接受成绩复查的要求。另外,牛津大学的TSA试卷结构除包括上述考试时间为90分钟的50道选择题外,还包括一个考试时间为30分钟的任务写作题,旨在考查学生用书面语有效沟通的能力,能否组织思想并清晰简明的表达出来。TSA考试方式包括在线或纸笔考试2种形式。
2001年,剑桥大学的部分学院开始采用TSA。当人们发现TSA能够成功预测学业成绩时,该考试在剑桥大学得到了广泛推广。现在29个学院中有27个学院对一些课程要求其申请者参加该考试。各学院都有自己的政策,规定哪些课程必须要通过该考试。剑桥大学规定需通过TSA的课程有8个,即计算机科学、经济学、工程学、土地经济学、自然科学(物理、生物)、哲学、社会学和政治学。考试日期由学生申请的学院决定,一般在11月或12月面试时。自开考以来,剑桥大学TSA报名总人数截至2009年已达到18 952人,总体上看呈上升趋势。从表1、表2、表3的统计数据可以看出,剑桥大学各专业要求参加TSA考试的,录取学生的TSA成绩普遍高于拒收学生的TSA成绩,且各专业的录取分数及所起的作用和占的比重也存在差异。计算机专业录取的学生中TSA成绩相对偏高,而经济专业录取的学生中TSA成绩相对偏低。在计算机专业的新生录取中,有TSA成绩的学生所占比例最高,在录取决策中所起作用较大,而在经济专业的新生录取中,有TSA成绩的学生所占比例较低,在录取决策中所起作用较小。另外,在各专业录取的学生中,除经济专业外,问题解决能力(PS)的成绩普遍高于批判性思维技能(CT)的成绩。
表1 2003年TSA平均成绩(标准差)
表2 2004年TSA平均成绩(标准差)
表3 每年有TSA数据的学生所占的比例
牛津大学有关需通过TSA的课程规定在不断变化。自2007年以来,牛津大学规定需通过TSA的专业是哲学、政治学与经济学(PPE)。因此,在2008年以前,TSA以PPE录取考试著称。自2008年以来,除PPE外,牛津大学还规定经济学与管理(E&M)也应通过TSA。牛津大学指出,申请PPE、E&M专业的学生数量逐年在增加,录取决定很复杂,因为学生具有不同的学科背景,而学习PPE、E&M专业需要具备一定范围的能力。TSA帮助教师评价学生是否具备学习PPE、E&M专业的技能和性向。另外,从2009年起,牛津大学规定,实验心理学(EP)、心理学、哲学和生理学(PPP)也要通过TSA考试。考试日期在11月面试前。开考以来,牛津大学TSA的报名人数总体上看在逐年增加,截至2009年,报名总人数已达到6 829人。
BMAT是针对报考医学、兽医医学及相关课程的学生而设计的纸笔考试,旨在测量学生的科学知识和思维技能,这些对学生来说是接受高等教育成功的基础。该考试始于2003年11月。目前已被剑桥大学、牛津大学、伦敦帝国大学、伦敦大学学院、皇家兽医大学5所大学采用。该考试在11月考试,12月公布成绩。自2003年开考以来,从总体上看BMAT报名人数呈上升趋势,截至2009年报名人数已达到39 320人。
BMAT试卷包括三部分内容:第一部分是性向和技能测验,考试时间是60分钟,共35道题,题型是多选或简答,旨在考查本科学习中常用到的一般技能,包括问题解决能力、理解论证能力、数据分析能力和推理能力。第二部分是科学知识和应用,考试时间是30分钟,共27道题,题型是多选或简答,其内容限定在非专业性的科学和数学课程中通常遇到的内容。第三部分是任务写作题,考试时间是30分钟,学生可从四个试题中任选一个作答。
STEP是针对报考数学的学生而设计的纸笔考试,旨在测量在某些大学学习数学课程而取得成功所必需的那些技能。重点考查学生以新颖独特的方式应用数学知识的能力。其试题比A-Level试题长,找到解决途径需要恒心和洞察力。该考试最初由OCR管理,2008年移交到剑桥评价的一个专门的负责与大学录取有关的评价小组管理。剑桥大学、沃维克大学、布里斯托尔大学、牛津大学、伦敦帝国大学都鼓励申请者参加该考试。
STEP由数学1、数学2和数学3三份试卷构成。数学1和数学2建立在A-Level数学大纲的基础上,数学2比数学1更具有挑战性。数学3的内容更宽泛,仅适用于比A-Level数学更深的学习。每份试卷考试时间都是3个小时。每份试卷包括三部分内容:纯理论数学(8个问题),数学方法(3个问题),概率和统计(2个问题)。每道试题分值一样,学生选答6道,对学生的评价基于对这6道试题的回答情况。对选择哪道题回答没有任何限制。STEP有3份试卷,正常情况下学生被要求参加2份试卷的考试。学生应当向他们正在申请的大学咨询,以获知自己需要参加哪些考试。一般来说,大学会在他们的邀请函中详细列出学生需要参加的考试种类。STEP在每年7月考试,即A-level之后。考试结束后,一般在8月,每个学生就能得到结果报告,得到每份试卷的考试结果。学生的结果报告也提供给剑桥学院,剑桥学院可以要学生试卷的复印件来帮助他们的录取程序。考试结果分为5个等级:出色、很好、好、满意和未经分类的。从表4的数据看,自2005年以来,每年报考STEP的学生人数在逐步增加。
表4 每年报考STEP的学生人数
ELAT于2006年8月在一些学校和学院开始试点。2007年牛津大学正式采用。正式开考以来,报名人数呈上升趋势,截至2009年,学生人数达到4 122人。一般在11月考试,考试时间长达90分钟,次年1月公布成绩。作为面试前的录取考试,主要为选拔与英语语言学习有关的专业的学生而设计。凡是报考牛津大学下列专业的学生都要参加该考试,即英语语言和文学、古典文学和英语(3年或4年)、英语和现代语言课程。其中,英语和现代语言课程具体包括9门课程:英语和凯尔特语、英语和捷克语(斯洛伐克语)、英语和法语、英语和德语、英语和意大利语、英语和现代希腊语、英语和葡萄牙语、英语和俄语、英语和西班牙语。该考试旨在考查关键技能,如仔细阅读,对语言元素诸如形象化描述、暗指、句法、词形和文章的结构等的注意力,理解鉴赏力,以及对不熟悉的文学素材的构思和表达能力。
考试形式是给学生6篇从散文或戏剧中挑选出来的诗歌或者短文,散文既包括小说类文学作品,也包括非小说类文学作品。这6篇短文以某种方式有机联系在一起,这种联系能使对短文的解说更清晰。要求学生从提供的6篇短文中抽取2~3篇,以自己感兴趣的方式将这被抽取的2~3篇短文进行比较或对照,写一篇短文。提醒学生要格外注意文章结构、语言和文体风格规范等突出特征,要求文笔流畅,用词准确。ELAT既不是泛读测验,也不是基于这种假设,即有一些文章所有的学生在这个教育阶段应该都阅读了。因此,参考其他文章或作者的将不给分,对那些在他们的短文中尽力应用理论框架的学生也不给分。试卷满分是60分。所有试卷实行双人阅卷。每个阅卷人不能超过30分。两个阅卷人的分数相加得出的最终分数不能超过60分。如果两个阅卷人的分值相差5分或者更多,第三个阅卷人将对试卷做出评价,两个最接近的分数相加,即得出学生成绩。试卷阅卷不是由牛津大学而是由外部的阅卷专家进行。然而,最后等级划分是由一个专门小组来决定的,小组成员包括牛津大学英语学院的工作人员以及从各学校和公学挑选出的代表。ELAT成绩一共包括4个等级:第1等级(高级)表明学生最有可能被通知面试(除非因为其他原因而未通知面试);第2等级表明学生可能被邀参加面试;第3等级表明学生或许不被要求面试(除非有其他强有力的证据要求该学生参加面试);第4等级表明学生几乎没有可能被邀参加面试(除非其他因素超过了该考试的权重)。
剑桥评价高校选拔特色考试仍处在实验阶段,对其结果的使用一定要小心。其结果在使用上仅仅是大学录取的附加手段,不能代替传统的选拔标准。因此,它们都得到了一个正在运转的研究项目的支持,该项目旨在证明特色考试在技术上的成就,这包括评价学生特色考试得分、教育历史、人口统计的细节和随后的大学成绩之间的关系。Joanne L Emery和Mark D Shannon的相关研究表明:根据效度研究中的相关系数解释指南,TSA的总分与学生在大学的专业学习有正相关性,与第一学年或第二学年的成绩相关性多处于“可能有用”和“非常有用”的范围。对第一语言不是英语的留学生来说,这种相关性更高,但经济专业的学生除外(见表5、表6)。另外,BMAT也得到了现有研究的支持。Emery和Bell的研究表明:BMAT的总分与学生在大学的专业学习有正相关性。平均来说,在BMAT中得分越高的学生经过5年的学习后,其在大学的考试等级越高。5年过后,BMAT得分仍然与学生考试结果有重要的相关性。就预测考试成绩来说,BMAT第二部分“科学知识和应用”比第一部分“性向和技能测试”呈现出更强的预测性,这一发现仅仅适用于剑桥大学。
表5 效度相关系数解释指南
《国家中长期教育改革和发展规划纲要(2010—2020年)》中指出:“以考试招生制度改革为突破口,克服一考定终身的弊端”,“按照有利于科学选拔人才、促进学生健康发展、维护社会公平的原则”,“逐步形成分类考试、综合评价、多元录取的考试招生制度”。为此,必须“深化考试内容和形式改革,着重考查综合素质和能力”。英国剑桥评价为高校选拔优秀学生而开发的特色考试,对中国高考改革尤其是完善我国自主招生考试具有借鉴意义。这主要表现在以下几个方面:
表6 TSA2003与第1学年考试成绩的相关性
信息社会对人的能力的要求越来越高。根据多元智能理论,能力的种类、表现繁多,有些易于测量,有些不易测量。因此,在评价一个人的能力时,应注重对其相关行为、知识与技能进行客观的考查。高考作为选拔性考试究竟应该如何进行能力考核,确实是一个很具有挑战性的问题。剑桥评价开发的TSA就是一种有益的探索。在信息化时代,面对各种信息,解决问题的能力、批判性思维技能以及书面表达能力将显得越来越重要,这些关键能力是接受高等教育必需的,所以剑桥评价在高校选拔特色考试中非常重视这些关键能力的考查。剑桥评价认为,高风险评价面临的挑战是:学生被动、一味地接受各种观点,不思考、盲从、缺乏迁移技能。早在1860年,T H Huxley就抨击了不良考试的弊端,即考试造就了好的仆人和弱的主人。学生学习只是为了通过考试,而不是为了学会学习;他们通过了考试,但是他们并没有学会学习。剑桥评价致力于纠正这一弊端,提出了“个人、学习和思考技能框架”(A framework of Personal,learning and thinking skill)。该框架包含6种技能,其中,属于功能性技能的有英语、数学和信息技术,这2种技能是学习、生活和工作中必备的。该框架还注意到了4种基本的技能:自我管理能力;处理与他人关系的能力;管理自我学习的能力;表现能力和工作能力。正是这6种技能将使年轻人以自信和能胜任的个体形象进入工作和成人生活。符合这一框架的人将具备以下特征:自主探究者、创造性思考者、反思型学习者、团队合作者、自我管理者和有效参与者。该框架为学校教育评价及成人能力评价提供了指导。
根据多元智能理论,每种智能具体到每个人身上表现是不同的。譬如,有人在某一种或某几种智能方面表现突出,而其他的可能较为逊色。这就决定了每个人的智能类型及学习类型具有独特性。人与人的差别主要在于这些智能在每个人身上的组合方式、表现形式、发展顺序、发展程度各不相同。如果给予适当的教育并加以鼓励,每个人都能使自己的某方面智能达到相当高的水平。这些说明,实行统一考试和统一选拔具有很多弊端,在对学生进行评价时应该运用多元评价策略,针对学生最具潜力的智能方面给予及时的、恰当的积极评价,这不仅能让学生进一步了解自身智能优势,发挥好自身的优势智能,还有助于学生自信心的建立,促进学生的身心健康和谐地发展。针对专业发展要求和学科特点,剑桥评价开发的BMAT、STEP、ELAT等特色入学考试是符合学生身心发展规律的,也有利于各种类型、各种层次的大学有针对性地选拔学生,促进高校的特色发展。
剑桥评价认为,对体制和任何个体来说,录取过程中的任何附加成分必须有充分的价值以满足进一步证明有理的需要。这些附加成分必须能增进申请者的高质量的信息,而不是复制从其他渠道得到的信息,在录取中,它必须有助于做出更加有效的决定。剑桥评价在研发高校选拔特色考试中一直秉持这一理念,很重视考试的效度。因此,效度的验证就成为考试开发和评审程序的核心工作。如前所述,剑桥评价在TSA、BMAT、STEP、ELAT等特色入学考试项目上都非常重视考试效度方面的相关跟踪研究,如深入评价学生高校选拔特色考试中的考试得分、教育历史、人口统计的细节和随后的大学成绩之间的关系等,以进一步完善入学考试的选拔功能。剑桥评价从1858年2月成立起,早已形成了立足国内、放眼全球的考试评价体系,并逐渐成长为欧洲最大的考试评价机构。每年的学生有800万名,涉及150个国家。剑桥评价的发展壮大与其高质量的专业化服务密切相关。
在提供个性化的特色入学考试时,如何根据不同高校和专业要求妥善处理共性与个性的关系是一个值得重视的问题。剑桥评价在这方面进行了某些有益的探索和尝试。如前所述,TSA在剑桥大学、牛津大学和伦敦大学学院既有共性,也有差异性。这不仅表现在形式上,还表现在内容上。在考试形式上,剑桥大学和伦敦大学学院只考50道选择题,而牛津大学除50道选择题外,还要求考写作题。在考试内容方面,各大学和各学院也是有差异的,但在兼顾差异性的同时,也考虑到了某些共性因素。如TSA试点成功后,剑桥大学要求社会和政治科学课程的批判性思维技能采用统一的版本。同样,各大学在STEP试卷种类的选择上也体现了这一点。
[1]http://www.admissionstests.cambridgeassessment.rg.uk./adt/.
[2]http://www.admissionstests.cambridgeassessment..org.uk./adt/digi⁃tal.Assets/116636-TSA-Specification-October-2009.pdf.
[3]http://www.admissionstests.cambridgeassessment..org.uk./adt/tsa⁃oxford.
[4]http://www.admissionstests.cambridgeassessment.org.uk/adt/tsacambridge/research.
[5]http://www.admissionstests.cambridgeassessment.org.uk/adt/digital.Assets/103045_Predicting_Degree_Performance_with_the_TSA_-_report_2__31-08-06_.pdf.
[6]http://www.admissionstests.cambridgeassessment.org.uk/adt/bmat/about.
[7]http://www.admissionstests.cambridgeassessment.org.uk/adt/step.
[8]http://www.admissionstests.cambridgeassessment.org.uk/adt/step/about.
[9]http://www.admissionstests.cambridgeassessment.org.uk/adt/step/research.
[10]http://www.admissionstests.cambridgeassessment.org.uk/adt/elat/research.
[11]http://www.admissionstests.cambridgeassessment.org.uk/adt/elat.
[12]http://www.admissionstests.cambridgeassessment.org.uk/adt/elat/about.
[13]http://www.admissionstests.cambridgeassessment.org.uk/adt/digital.Assets/103044_Summary_of_TSA_research__01-06-07_.pdf.
[14]中共中央国务院.国家中长期教育改革和发展规划纲要(2010—2020年)[M].北京:人民出版社.2010:39-40.
Special Admissions Tests for High School Developed by Cambridge Assessment Giving Enlightenment for Reform of College Entrance Examination of China
ZHANG Junbing
The need for additional methods to identify candidate’suitability and potential for success in higher education is gaining increasing importance,particularly in response to the widening participation agenda.Special admissions tests for high school developed by Cambridge Assessment meet the demands.The tests include two distinctive types:Generic tests that assess the thinking skills of the individual that can be applied to any subject area.Specialist tests that assess the potential the individual has to succeed in the particular subject for which they are applying to study.The tests are helpful to improve Chinese university entrance examination especially an independent admission.Special admissions tests for high school should attach importance to test key abilities and the potential for a subject and study the tests’validity and deal with the relations between similarity and personality according to different universities and subjects.
Cambridge Assessment;Special Admissions Tests for Universities;Generic Ttests;Specialist Tests
G405
A
1005-8427(2012)02-0037-7
教育部考试中心