陶百强 李明楷 李建平
对我国高考英语命题中建构性题型答案可控性的探讨
陶百强 李明楷 李建平
随着我国高中英语课程标准对测试题型的建议和基础英语教学及测试界对英语语言产出能力要求的提高,全国版和大部分分省命题省份高考英语试卷引入了一些建构性题型,从而扭转传统高考英语试卷中选择性题型占绝对优势的现状,但是,建构性题型答案可控性和高考英语测试的效度和阅卷信度密切相关,最终影响高考公平。本文对全国各地高考英语试卷中的典型的建构性题型进行了研究和思考,借鉴国外实践和作者的思考,提出了系列加强我国高考英语命题中建构性题型答案可控性的措施,以供有关命题机构参考,以尽力确保我国高考的权威性和公平性。
语言测试;高考英语;高考命题;建构性题型;答案可控性
《国家中长期教育改革和发展规划纲要(2010—2020年)》提到“完善高等学校考试招生制度……保证国家考试的科学性、导向性和规范性”,[1]高考试题命制严谨科学是国家考试科学性和规范性的具体体现,同时事关考试安全。教育部考试中心历届领导都对命题的专业化和质量提升高度重视,如考试中心刊物《中国考试》2013年第1,2期连续刊载时任考试中心主任姜钢先生的文章强调命题质量和命题安全问题,“命题工作是高考的最为重要的环节”。[2]命题工作也是关系国家教育考试安全的因素,“将命题工作程序化、规范化、标准化,实施对命题工作的科学管理……为保证考试的效度和信度,要完善试题质量和评卷质量标准建设,使分数的解释和使用更科学、合理、有效”。[3]
对于微观层面的命题中的答案可控性问题,教育部考试中心原主任戴家干指出,“加强评分标准的操纵性和可控性,保证选拔的可靠性。为了解决这个问题,高考基本实现由采点赋分向按能力层级和采意赋分的过渡,使高考评分更适应于灵活性和开放性的试题”。[4]
高考分省命题或自主命题决策推行后,2014年全国有19套高考英语试卷且各地题型多样化,但命题尚有完善空间。随着社会的发展,社会对高考命题质量和水平的期望值加大,在公平已成为核心价值观元素之一的时代背景下,高考利益攸关者更期望测试公平。
本着促进命题技术更趋完善和促进高考命题更专业化的初衷,本文首先提出问题,然后陈述现状,最后借鉴国外著名英语考试的一些经验和专家意见,基于笔者的认识,提出我国高考英语建构性题型的答案控制建议,以供我国各地高考命题机构和命题实践工作者参考。
国内高考测评界或中学教学界(含很多学科)习惯将测试题分为客观题和主观题,且将选择题等归入客观题,而将非选择题都归入主观题,此观点和分类欠妥,此概念误用涉及很多学科,测评研究专著Measurement&Assessment in Teaching第7,8章将简答(含填空题)、匹配、正误判断、多项选择题等归入为客观题。[5]虽国内一些教育测量专著对主客观题定义有科学阐述。[6][7][8][9]但是,对主客观题的不妥理解和称呼似已习惯成自然,如在中国知网(CNKI)分别搜索标题“主观题”和“建构题”/建构性题型,后者罕见于我国最大的学术数据库。
我国一些官方文件也存在类似题型误解,如《普通高中英语课程标准(实验)》建议“适当减少客观题,增加有助于学生思维表达的主观题”。[10]《2005年普通高等学校招生全国统一考试大纲的说明》(英语科)也存在对主客观题型的误解,后续考试大纲版本已更正。[11]
实际上,国外测评界早在20世纪已罕用主客观题来称呼或分类题型,20世纪六七十年代很多国外学术论文都提到建构性题型这个术语。[12][13]
主客观题仅从阅卷角度分类,即需阅卷人主观评判的题型为主观题,否则为客观题。国外学术界基于试题本身一般将题型分为选择性题型(select⁃ed-response item formats,SR题型)和建构性题型(constructed-response item formats,CR题型)。我国著名外语测试专家、全国大学英语四、六级考试委员会前主任委员、上海交通大学杨惠中教授曾认为“把试题分为客观题和主观题的分法并不准确……比较正确的说法是constructed-response和select⁃ed-response items,后者可称作“选择性作答题”或“选择性反应题”;前者可称作“构成性作答题”或“构成性反应题”(私人交流)。[11]
兹列举对建构性题型的定义和相关阐述:
(1)《朗文语言教学与应用语言学词典》对建构性题型的定义(113页):要求考生通过写、读或做事而非从所给选项选择答案的方式回答开放性问题的测试题或任务,最常见建构性题型含填空题(fillin),简答题(short-answer)和行为测试(performance assessment),与之相对的是选择性题型,常见题型为多项选择、正误判断和匹配题(473页)。[14]
(2)专著Psychological Testing and Assessment:An Introduction to Tests and Measurement谈选择性题型:选择性题型要求考生从一组选项中选择选项答题,常见的三种选择性题型为多项选择、匹配及正误判断题;建构性题型要求考生提供或创造正确答案,而非仅仅把答案选择出来(257页)。[15]
(3)一些国外教育测评学术界将MC(典型的选择性题型)和建构性题型对立,因多项选择题型是使用频率最高的选择性题型。[16]
将测试题型按两分法归类(即选择性和建构性题型)的观点也受到西方学者质疑,如加州大学Mi⁃chael E.Martinez认为两分法可能有误导作用,因CR中各种题型本身对考生的知识结构加工测量和自我调节功能等方面要求各异,如CR中的填空题型可能仅仅需简单回忆能力,从记忆中提取的非考生主观思考的答案不存在建构思维过程,[16]国内研究者关丹丹也提出类似质疑,“主客观题不是绝对的两端,而是一个连续体”的观点。[17]应对此质疑的另一归类法将题型归类为接受性试题和产出性试题,语言测试学家James Dean Brown在《语言项目中的测试与评价》一书将试题题型归类为接受性试题(receptive response items)产出性试题(productive re⁃sponse items)以及个性化试题(Personal response items,指根据考生个人情况而答题如自我评价selfassessments)和档案袋评价(portfolios)。[18]James D Brown赞同将广义的建构性题型定义为需要考生生成答案而非选择或匹配答案的题型。[19]
在学术研究自由的时代,鲜有学术术语的定义一致的情况,按学术界习惯性的术语,本文采用建构性题型这一术语。
“高考必须首先是科学的,才能最大限度地控制误差,才能最大限度地做到公平”,[20]建构性题型的答案控制问题处理不当会让测量误差失控。与显性的命题失误如答案不唯一或答案本身存疑等相比,建构性题型答案可控性处理失当或答案失控是隐性的命题失误,但是此类命题瑕疵威胁到大规模高利害教育考试的公平性。高考作为大规模、高利害考试,其“设计者有很重的社会责任,因为许多年轻人的未来取决于考试结果。他们必须尽一切可能保证自己所开发的考试对考生的语言能力提供准确、客观和公正的测量”。[21]
上海市自1985年开始高考自主命题,2002年北京自主命题,2004年增天津、辽宁、江苏、浙江、福建、湖北、湖南、广东、重庆9省市自主命题,2005年增山东省、江西省、安徽省自主命题,2006年增四川、陕西后全国共有16省市自主命题,自主命题在本世纪初快速推进导致高考卷型多元化,高考英语科体现在题型变革方面,绝大部高考卷引进了除写作外的其他建构性题型(参见表1)。大量使用的建构性题型的答案若制订不科学或不严谨将威胁测试效度,若答案存在瑕疵,阅卷环节的评卷员无权限擅自决定更改评卷标准,2012年4月1日起施行的《国家教育考试违规处理办法》第十三条规定考试工作人员不得在评卷中擅自更改评分细则或者不按评分细则进行评卷。所以,考务机构在命题和阅卷之试阅环节控制答案非常重要,若阅卷正式开始后陆续发现更多可接受答案,因涉公平和阅卷效率等,中途全部返工按修正后的答案重新阅卷基本不现实。
确保较高的测试效度和评分信度,研究答案的可控性和科学性很重要,香港学者的实证研究发现命题问题或瑕疵(flawed items)对优生不利,[22]不宜惩罚提供参考答案外的可接受答案的优生。建构性题型的答案可控性已被一些研究者注意,如“山东、天津等高考卷的阅读简答题作为主观性相对较强的题型,答案的非唯一性需要对阅读表达评卷中的信度进行研究以确保考试公平公正”。[23]
“虽多项选择题并非应试教育的始作俑者,如杨惠中、桂诗春所言,‘仿佛只要取消所谓的客观题,采用主观题,应试教育的问题就会迎刃而解,这是十分肤浅的看法’。[21]但若不论测试什么语言能力都用该题型是欠妥的……减少题型效应的办法是题型多样化,如IELTS题型每次考试不一定相同。笔者主张,语言理解能力测试宜用选择性反应题,语言表达能力测试宜用建构性反应题。”[24]
题型改革是我国新课标英语高考的重要方面。我国从2004年开始高中实施新课程改革后,2007年开始各地陆续进入新课标高考,新课改高考依据高中英语课标中“减少客观题,增加主观题”的评价建议,绝大部分高考英语卷新增写作除外的建构性题型,详见表1。
表1 2014年全国高考英语试卷建构性题型统计表(注:写作除外)
看似命题比MC题型简单的建构性题型同样涉及命题质量中的重要因子——答案可控性问题。命题者在命题中难免会带有自己先入为主的看法,[25]然而,认知的多元化、个性化以及思维角度的不同或语言意义和语言符号并非一一对应关系,建构性题型答案制定可能有疏忽,常见问题是答案未穷尽或答案无法被穷尽,从而导致建构性题型答案失控。无法确保答案可控影响测试题效度,甚至惩罚思维活跃、语言水平更高的考生。
引入了建构性题型的高考命题机构对此类试题的问题也很重视,如在高考英语科引入较多建构性题型的湖南考试院的李冰、李瑛认为“增加非选择题并不意味着增加考试的主观性,降低其客观性。无论何种考试,较高的评分客观性都是人们努力追求的,因为它体现的是试题的信度和考试的公正性。”[26]
下文选取部分建构性题型答案可控性存疑的实例说明建构性题型的命制需谨慎处理,鉴于高考考试大纲是指导与约束命题的规范性文件,故举例含考试大纲样卷。举例提及的命题可能存在的瑕疵或被后期合理阅卷环节抵消,如在阅卷环节进行了试阅或答案增补或进行采意赋分阅卷模式,也可以一定程度消除命题阶段未考虑到的答案失控问题。
请阅读下面短文,并根据所读内容在文章后表格中的空格里填入一个最恰当的单词。每个空格只填一个单词。(限于篇幅未附阅读文本与表格。)
江苏省教育考试院公布的答案:
71.performance/act/activity 72.easy
73.properly/appropriately/successfully/rightly
74.urgent 75.culture
76.growing/increasing/rising
77.expected/supposed/required
78.public 79.likely 80.harm/damage
虽命题人在制定答案时试图增强答案可控性,有的空白给出了一个以上答案。然而,所给答案并未囊括其他可接受答案,鉴于命题考点设置原因,很多空白无法穷尽可接受答案,故可接受答案随考生词汇水平上升而增加。例:
71.其他可接受答案:apology/one/behavior(be⁃haviour)…
73.其他可接受答案:correctly,justly,decently,well,suitably,fittingly,befittingly,fitly…
74.其他可接受答案:pressing…
76.其他可接受答案:expanding,mounting,esca⁃lating…
77.其他可接受答案:requested…
湖南卷写作第一节:先阅读短文然后填空(试题多设计为表格形式),每空不超过3词。(限于篇幅未附阅读文本和图表)
请看湖南省教育考试院公布的官方答案:
71.MOOCs 72.no requirement
73.cannot afford 74.no formal qualifications
75.Potentials 76.providing
77.Challenges
78.particularly difficult delivery
79.evaporating 80.considering
以上部分答案存在其他可接受的正确答案,虽在官方公布的答案中未曾提及,但是,湖南省考试院研究者李冰、李瑛在《语言运用能力的考查—高考英语(湖南卷)非选择题的设计思路》一文中提到了该题的其他部分可接受答案:“第71题:Introduc⁃tion to MOOCs/On/Of/About MOOCs;第73题:cannot pay(for),haven’t money for;第 75题:advantages/Benefits/Positive factors等与“潜力”(potentials)语义相近语法正确表述;第76题:offering”。[26]
邓杰、范晓玲、黄琼、杨捷以湖南省教育考试院高考评价课题组名义撰写的《2013年湖南省高考英语学科考生水平评价及教学建议》一文涉及第73小题的抽样分析,其中未给其他可接受答案(湖南省教育考试院高考评价课题组:“〖考试内容〗隐性细节 〖考核目标〗概括表达〖答案〗cannot afford。[27]
从以上都和湖南考试院有关的命题研究者的文章看,高考阅卷点是否统一增添了考试院发布的官方答案以外的其他可接受答案虽欠明确,但据和湖南考试院有关专家的私人交流获知,“获取信息正确,表达无误,字数符合要求给满分;其他情况,酌情给分,因此,在评卷场地,通过调阅学生试卷进行抽样插标,尽可能发现可增补的可接受答案,且阅卷过程中发现新的可接受答案后经过学科专家组确认,立即更新”。[28]湖南高考卷阅卷环节的相对严密的机制弥补了命题过程中无法完全把握的答案可控问题。
福建省教育考试院专家显然意识到答案可控性问题,考试说明对短文填词这一建构性题型命制做出约束:“设题尽可能做到答案的唯一性”,[29]这是非常负责的命题约束,但答案可控性实际取决于具体命题者,以2013年福建省高考英语试卷短文填词题型为例(试题略)。
答案:
76.to 77.believes
78.him 79.which
80.before 81.activities
82.for 83.participate
84.time 85.up
此题绝大部分考点答案唯一(每空限填1词),符合该省考试说明要求。但仍有少数考点似有其他可接受答案,如:
第77题:A good citizen_____(相信)that he should serve the community and not the community serve him.
所给答案为believes,其他可接受答案举例,依据主要出自牛津高阶英汉双解词典(第7版):[30]
(1)thinks:to have a particular idea or opinion about sth/sb;to believe sth.认为;相信[30]
(2)deems:(formal)(not usually used in the pro⁃gressive tenses)to have a particular opinion about sth.“认为,视为;相信”[30]
(3)holds(Oxford:牛津词典第17义项(formal)to consider that sth is true[30]
(4)considers:填写该空若不拘泥于某些英汉词典的解释,若依据英语语境,considers也完全正确(to think of sb/sth in a particular way。[30]
(5)feels:牛津词典义项7:THINK/BELIEVE(认为,相信):to think or believe that sth is the case;to have a particular opinion or attitude[30]
第 81题:our school has lots of_____(活动)which prepare you____good citizenship.
所给答案为activities,其他可接受答案举例:
(1)programs:计划,方案,活动安排[30]
(2)projects:规划的工作;学校的课题活动等[30]
(3)events:公开活动;社交场合(a planned pub⁃lic or social occasion:a fund-raising event;the social event of the year);[30]《美国传统英语词典》义项C:A social gathering or activity;[31]a planned occasion or ac⁃tivity(such as a social gathering)。[32]
尽管福建省高考考试说明非常重视且明确“设题尽可能做到答案唯一性”,然而,由于中文提示类考点设置命题有先天缺陷,几乎必然导致答案不唯一。
江西省2014年高考英语考试说明阅读表达样题(限于篇幅未附阅读文本):[33]
According to the passage,how can the program be best described?(one word)
所给答案:Controversial.然而,所给答案有很多近义词或同义词,如:arguable,debatable,disput⁃able,moot,contentious,controvertible等,囿于各种原因难以穷尽可接受答案。
2014年江西高考英语科试题未出现类似设题方式。但是,江西英语卷阅读表达题型的评分标准为“重义不重词”,即意思表述正确,表达形式可以多样,但必须语法正确,且在一定词数范围内。这虽然有利于优秀学生能力的发挥,但也给评卷工作增加了一定的负担。)
MC题型在我国高考英语测试中曾长期占主角,但根据陶百强对此进行的近10年的系统研究结果显示,[34][35][36][37]因MC题型命制对命题要求非常高,特别是英语学科语法类MC题型涉及语言的演化,且我国英语语法知识与教学系统较陈旧,极易现命题瑕疵。2014年全国高考卷对语法类MC题型进行改革,用语篇型语法填空题代替单句型语言知识(MC)题型,高考专家改革题型的四个原因之一是命题问题,因该题型“容易产生一题有多个可接受答案的情况,影响考试的科学性和公平性”。[38]
以下为2014年考试大纲样题:
阅读下面材料,在空白处填入适当的内容(不多于三个单词)或括号内单词的正确形式(限于篇幅,试题略)。
考试大纲所给参考答案:
1.happened 2.when
3.gone 4.earlier
5.making 6.Anyway/Besides
7.it 8.the
9.must 10.mind/memory
一些试题还存在其他可接受答案,如:
第1题:has happened;
第6题:Furthermore;Further;Additionally;In ad⁃ditionally;Moreover;Presumably;Probably;Certainly;Definitely;Surely;Obviously;Clearly
第8题:our(fridge)
教育部考试中心主持的全国高考英语科对题型改革前进行实证研究,语法填空题型的设计专家已考虑到答案可控性问题,正式评卷前评卷教师对试题试评,即先行评阅几百份试卷,以对已确定的答案审核,并找出其他可接受答案,正式考试评分时则采取客观评分法,严格按照试评后确定的答案进行评阅。[38]但试阅是否能穷尽所有可接受答案?我国考生众多,如2014年使用全国卷的考生总量多达300多万,多大的试阅比例合适?试阅比例从理论上越大越好,越能穷尽其他可接受答案,但抽样试阅有偶然性,试阅后确定的正式评卷答案仍可能无法穷尽可接受答案。我国台湾建构性题型试阅比例大约为2%~4%【计算依据:台湾100学年度学测英语试阅的英语建构性试题卷为3 000多份,考生试卷总量为143 852份(缺考除外);台湾101学年度指考试阅比例为4%(3 000份试阅卷来自各考区,101学年度指考台湾合计考生人数为75 934人】。试阅虽很大程度上加强了该题答案可控性,但阅卷成本增加,且我国考生众多的国情导致试阅卷数量较多,这对考试机构是很大的挑战。
“我们这个外语考试的大国,在考试实施技术和测试研究方面尚落后于西方某些发达国家”。[39]借鉴国外成熟的此类建构性题型的命题指导思想和实践对推进和完善我国高考内容改革很有意义。下文以英国文化协会、剑桥大学考试委员会和澳大利亚教育国际开发署(IDP)共同举办的雅思考试(IELTS)和剑桥大学英语考试部(Cambridge Eng⁃lish Language Assessment)开发的第一英语证书考试(FCE,First Certificate in English)为例,因真题涉及版权问题,故本研究以考试主办方公开发布的样题为例。
雅思考试A类即学术类(Academic)和G类即培训类(General Training)考试都可能包含表格填空、图表填空、流程图填空等建构性题型(Table com⁃pletion,Diagram label completion,Flow-chart comple⁃tion),但其命题指导思想和命题考点设置与我国类似试题明显不同,主要区别是其答案可控性非常强。
雅思学术类考试—填表题样题(Table completion)
填表题样题首先呈现了一篇介绍dung beetles(蜣螂,俗名屎壳螂)的阅读文章(原文略,阅读原文请向作者索取或查询IELTS官网)。样题要求填表,每空要求从阅读短文中选择不多于三词填空(样题略)。
Answers:
9.temperate 10.early spring
11.two to five/2-5 12.sub-tropical
13.South African tunneling/tunnelling
Alternative answers are separated by a slash(/).(可接受答案用斜线/隔开)
分析以上填表题样题可知,答案可控性强的双重原因:
A.命题考点皆为信息(information),即事实或细节性内容,着重考查考生通过阅读提取有效信息的能力;此类考点设计避免了考生答案失控。
B.要求考生从阅读原文选取词填空(不超过3个词)。
雅思考试的此类题型命制值得我国高考英语命题者借鉴,通过阅读提取有效信息是一项重要阅读技能,此设计思路似优于通过填充表格考查词汇能力的设计理念。
分析FCE旧版考试大纲样题和2015年1月实施的新版考试大纲英语知识运用(Use of English)中的Open cloze(开放式完形填空)样题(见下附文)可得出结论:此题型的设计者严格控制了可接受答案,且样题命题者给出的答案囊括了任何考生可能填写的可接受答案,此举避免了阅卷环节的一些可能出现的问题(如阅卷环节发现更多的可接受答案)。根据本文笔者陶百强与FCE设计专家的私人交流来看,他们早在命题环节就确保答案可控,“……我们竭尽全力确保试题(答案)可控,排除以下可能性:考生因给出的答案不在参考答案之内而不能得分……每题都经过经验非常丰富的命题团队命题,且试题在试测前要经过漫长和谨慎的编审流程……对于填空题,我们命题组一般每题给出唯一答案,虽然我们偶尔也给出两个答案,某题给出三个答案的情况很罕见,我们对含一个以上答案的小题特别谨慎,因为在这种一题多答的情形下,答案不唯一可能表明还存在其他的可接受答案”。[44]
新版FCE样题(2015年1月后启用的FCE考试大纲第二部分,限于篇幅样题略)的语篇填空(open cloze)要求考生填入一个词的答案方法似更有利于答案控制,样题的9-16题中,仅第13,14题给出多个答案,即 13 which/that,14 out/on/at。若命题人欲考查代词,依衔接理论,考生完全可以不用代词而用“重复”这种衔接手段作答,假设限定了答案为一个词,则排除了考生使用“词语重复”这个语篇衔接手段答题。
纵观IELTS和FCE中的建构性题型(写作除外),答案可控是它们共同的命题特征且被命题者高度重视。作为高利害测试的高考,确保考生不因正确答案不在命题者所提供的标准答案范畴内而受到不当惩罚,确保所有可接受答案被包括在命题者所提供的参考答案中,从测试公平的角度和国外实践来看,此点非常重要,也是此类建构性题型命制最大的难点,尽管此题命制貌似简单。
笔者认为,我国高考该类建构性题型考查定位可借鉴国外著名语言测试实践,考查定位为测试考生的英语快速阅读能力,试题答案设置力求严格可控。
下文按时间顺序,对加强高考英语建构性题型(写作除外)的答案可控性提出系列建议,以供高考英语试题设计专家和命题专家酌情参考。
考试大纲研制是控制命题质量和科学水平的首要环节,建构性题型答案可控性因素宜于考试大纲研发环节就考虑到。考试大纲研制宜基于测试目标、命题资源、考生数量、阅卷成本估算和资源等因素综合决定题型,如上海题型涉较多建构性题型,但山东、广东等考生群体很大的省份若采用因阅卷成本制约需慎重考虑。亟待强化考试大纲研制环节,考试大纲研制与题型改革等应基于研究和证据(Research-&evidence-based),吸纳其他国家题型实践经验,避免随意化的考试大纲决策,教育部考试中心主持的全国版高考英语卷历次题型改革前都进行了严谨的实证研究,值得分省命题地方借鉴。
考试大纲研发方不宜纯粹为了减少选择性题型而引入建构性题型,宜从全卷考虑,避免不同题型承担相同或相近的语言考查功能,避免为了题型多样化而多样化,以致增加后期的命题难度和阅卷成本甚至致答案失控。
目前我国高考英语建构性题型部分考点存在答案失控风险,根源在于考试大纲研制环节的测试目的和答题要求等存先天性缺陷,此非后期命题人所能控制。
(1)目前流行我国多地的高考英语科的阅读填表(空)题型:如湖南阅读填空题功能为“运用英语进行信息转述和概述的能力……考查获取识别信息,表达信息的能力,考查归纳概括表达能力和考查语言转述能力。”[26]考试研发机构欲测试的“表达信息的能力,考查归纳概括表达能力和考查语言转述能力”考点设计必有答案多元问题,因语言表达方式是多元化的。建议此类题型考点设置以快速提取信息为考查目标,而非着眼于语言表达,参见前文FCE和IELTS此类题型的设计原则。
(2)填充空白的答案词数问题:一般来说,试题空白中所容许填入的词数越多,则答案控制越难。如:全国卷语法填空题考生可填入不多于3词,导致该题无法测试某些代词考点,因考生完全可选择词汇重复这一语篇衔接手段答题,而可能规避用命题人欲求的代词填空。答案词数幅度也影响阅卷成本,因目前技术无法自动识别考生手写文字故无法机器阅卷,特别是建构性题型按常规都采用了双人阅卷,此举已致阅卷成本增加。
(3)根据中文词汇提示写对应的英文单词存在先天缺陷,答案可控性不佳,如福建、陕西等高考英语考试说明中建构性题型含此类考点。
(4)陈述考生个人观点的考点不宜设置,如山东阅读表达未曾设置类似考点是慎重的。
《普通高等学校招生全国统一考试分省命题工作暂行管理办法》[教考试(2006)2]以及分省命题地方都对高考命题进行了规范,含命(审)题人员选聘条件,其中对其职称都提出了要求,如《普通高等学校招生全国统一考试分省命题工作暂行管理办法》规定命题组长的选聘条件是“应具有高级专业技术职务……”,命题和审题教师的条件是“一般应具有副高级或以上专业技术职务”等;《普通高等学校招生全国统一考试福建省命题工作实施细则(施行)》对命题教师的选聘条件提到“普通高校或普通高中具有(或相当于)高级专业技术职务的现职教师”等,虽学术造诣和专业知识一般与职称成正比,但选聘标准不宜僵化,“唯职称论”和“唯资历论”可能不利命题。
最重要的是,除了具有较高的学科专业基本功外,应重点考量命(审)题教师的专业背景和研究方向或兴趣,因为不是任何研究方向的高深造诣都直接有益于专业性很强的命题工作。
思想是通过语言表达的,“同一个思想可以用不同的语言形式表达”,[4]“俄罗斯学著名语言学家Апресян从转换生成学说中得到启示,认为人的语言能力有两方面的体现:说话人以不同方式表达同一思想的能力,受话人透过不同外观形式的句子理解其相同语义的能力。(Апресян 1967:8-9)”。[40]所以,某些考点出现多个可接受的答案是正常的(除非考试大纲和命题环节做了技术控制),这时,建议利用好语料库语言学研究成果,特别是涉及语法或词汇类试题更应如此,参见李建平、陶百强论文《英语语料库及相关软件在高考英语命题中的运用》。[41]此外,语法类考点要跟上世界英语语言的演变并以基于语料库的权威语法专著为命题依据,而非基于过时陈旧的词法或句法知识。
命题者考虑后续阅卷工作并让命题有利于确保评分信度。基于阅卷考量,建议某考点不宜出现3个以上可接受答案,可接受答案过多会加重阅卷人记忆负荷,加之阅卷强度和时间压力大,易致阅卷人疲劳,即使双人阅卷仍可能导致阅卷误差。所以,在命题环节就应考虑到后续的阅卷可能出现的问题。
对采意赋分的考点,建议利用多部同义词典检索答案。在世界各种语言中,英语的同义词相对较多,可能因英语在过去几个世纪不断从其他语种吸纳词汇,故一些空白容易出现较多可接受答案。此外,英国英语和美国英语的区别也可导致答案多样化,如:…the cost of ___1(transport)…一般会想到给答案为 transportation(AmE).但英国英语多用transport。此类考点命题人尽量给出所有可接受的答案,不排除高水平考生写出的某个正确词汇甚至阅卷人员也不认识的情况,故不宜将答案控制完全依赖后期阅卷。
在教育提倡创造性和思维能力培养的背景下,教育评估领域也应保护思维开阔的考生,不宜以命题者的先入之见和知识以及思维层面去禁锢考生思维和语言表达的多元化。
虽各卷命题组都配套了审题环节,但为了进一步加强答案可控性,建议强化审题环节。
虽“教育部考试中心负责对实行分省命题的省、自治区、直辖市的高考命题工作进行指导、业务培训、监督和评价”(《普通高等学校招生全国统一考试分省命题工作暂行管理办法》)……考试结束后向教育部考试中心报送命制的试题、参考答案及评分参考,评卷结束后报送命题工作总结和试题评价情况”,由此文件可知,各自主命题高考试卷质量高考前完全由各地控制,教育部考试中心原来仅事后监督评价等,从2013年开始此环节进行改进,从2013年开始各省市5月下旬报送高考试卷清样给教育部考试中心以备审核。建议考试中心成立常设独立审题专家组,高考前对未付印试题重大疏漏予以纠偏,特别加强对试卷的建构性题型增加精细审题流程,以在高考前发现和解决问题。
思维和语言表达的多元化是采意赋分的主要原因,很多自主命题高考卷的建构性题型在阅卷时采意赋分,如山东、湖南等有完善措施。山东阅读表达“命题期间要求命题老师尽量不出太开放的题,从实际情况看,基本上我省命题人员能预测多数可能答案”;湖南省建构性题型阅卷原则“获取信息正确,表达无误,字数符合要求给满分;其他情况,酌情给分……通过调阅学生试卷抽样插标,尽可能发现可增补的可接受答案”。[28]此外,湖南卷阅卷人在“阅卷过程中发现新的可接受答案后经过学科专家组确认,立即更新”,此举进一步避免遗漏可接受答案。
采意赋分阅卷尽管尽量吸纳各种可接受答案,避免对考生不当惩罚,但也有缺陷,如阅卷质量取决于阅卷人的英语语言水平,特别是词汇能力,建议要求阅卷人凡遇到不认识的作答词汇必须查询词典或提交阅卷领导小组决定。此外,采意赋分必然导致阅卷成本增加,越完善的采意阅卷措施产生成本越大,如前文提到的湖南阅卷(阅卷过程中随时更新可接受答案)影响测试的可操作性。
大规模测试中建构性题型实施双人阅卷是国际惯例,[42]ETS考试专家认为建构性题型最大的问题之一是阅卷中的时间和费用问题,因评卷要求经严格培训的阅卷员耗费大量时间,且要求精心设计的制度来监督评分的一致性和准确度。[43]ETS具有非常严密严谨的CR题型阅卷程序,(Constructedresponse scoring-Doing it right),有回头抽检机制(back scoring ETS)。建议我国基于科学命题和阅卷等考务能力的提升需求,参照国外同类高利害考试价格酌情提高考试费用,以保证专业化教育测评的科学运营和相关的科研工作产生的经费需求。
正式阅卷前进行试阅或试评是加强答案可控性的重要补救措施,我国高考全国卷2014年首次引入的语法填空题型有试评制,“正式评卷前,评卷教师需对所有需人工评阅的试题进行试评,即先行评阅几百份试卷,以对已确定的答案进行审核,并找出其他可接受的答案。正式考试评分时则采取客观评分法,严格按照试评后确定的答案进行评阅,出现任何错误(如拼写、大小写、词性)都不给分”。[38]
根据私人交流,部分省份高考阅卷(写作除外的建构性题型)实际上也存在试评环节。建议试阅仅作为命题环节答案控制的补救措施而非依赖措施,因涉及试阅成本以及试阅程序囿于试阅比例和抽样的随机性而难以穷尽可接受答案,正如上文剑桥FCE考试设计专家Jason Street所言,“我们对含一个以上答案的小题特别谨慎,因为在这种一题多答的情形下,答案不唯一可能表明还存在其他可接受答案”。[44]试阅虽能一定程度弥补命题环节的答案控制问题,但会耗费大量人力财力,我国台湾101学年指考英文科建构性题型试阅比例高达4%,但我国大陆考生数量众多,试阅比例较大势必耗费较高的考务成本,我国相对低廉的考务费恐难以支撑。
一些国家或地区在重要考试引入答案公示制度以确保测试的公平性和科学性,如韩国负责高考命题的韩国教育课程评价院考后听取考生对正确答案的意见,答案公示期为4天。[45]我国台湾大考中心于2004年9月3日颁布实施法规《国家考试试题疑义处理办法》;2012年8月10日颁布实施其修正版,“应考人对笔试试题或公布之测试式试题答案(以下简称答案)若有疑义,应于该次考试全部笔试结束之次日起五日内向考选部或受委托办理试务机关、团体申请……填具申请试题疑义相关资料,并上传佐证资料”。
其实,我国大陆的司法考试在2004年就实施答案公示制度,考生“可对试题及答案提异议:考试结束后,司法部将及时向社会公布考试试题及参考答案。应试人员对试题参考答案有异议的,可在9月28日前登录司法部网站,在‘2004年国家司法考试试题参考答案异议专区’中对参考答案提出意见并说明理由。司法部将组织专人收集整理意见,并在试卷正式评阅前提交“试题参考答案审查专家组”研究论证。待异议审查工作结束后,开始试卷评判。”[46]
在高考制度中,适时引入基于科学和民主决策理念的答案公示制度,将进一步确保高考试题中建构性试题的答案可控性,建立高考答案疑义机制具有重要意义,如体现以人为本,践行教育公平原则,维护国家考试的权威性和严肃性;缓解考试机构和命题者的压力:容许出错且能后期及时纠错会减缓命题者巨大心理压力。
但因我国高考考生人数众多,考务机构处理试题疑义需大量考务成本投入,似可试点引入此机制。为避免大量无效的疑义来件,亦可要求考生联络相关学科领域专家或多名教师联署附议并提供权威依据。
高考命题评价,虽为了发扬长处有必要总结优点,但不宜仅大唱赞歌而回避问题,否则会让问题积重难返。建议各地考试机构系统收集阅卷人在评卷过程中的反馈,从各种渠道接收社会反馈信息,特别是考后刻意收集负面反馈意见并慎待,反思命题得失,并将有效信息利用于为今后的考试大纲修订和命题实践。反思能进一步积累经验,以不断完善高考这一全球最大规模的高利害考试。
限于数据获取的局限性,本文基于文本和文献研究,今后研究建议能获取考生答题数据的考试机构结合考生具体答题反应进行相关深入研究。由于未获取考试机构大量的具体阅卷细则,文中观点可能有失偏颇。总之,如何充分利用好建构性题型的优势,平衡好题型优势和答案可控性,这是一个值得深入研讨的课题,研究结果对大规模高利害测试的命题实践具有重要意义。
[1]国家中长期教育改革和发展规划纲要(2010—2020年)[M].北京:人民出版社,2010.
[2]姜钢.深化考试内容与形式改革切实提高命题专业化水平[J].中国考试,2013(1):3-8.
[3]姜钢.教育考试安全面临的形势和对策[J].中国考试,2013(2):3-6.
[4]戴家干.高考改革与教育公平公正[J].中国高等教育,2006(12):7-9.
[5]Miller,M.D.,Linn,R.L.,&Gronlund,N.E..Measurement and as⁃sessment in Teaching,10th.Edition[M].Upper Saddle River,NJ:Pearson Education,Inc.2009:172,194.
[6]李筱菊.语言测试科学与艺术[M].长沙:湖南教育出版社,1997:143.
[7]刘润清,韩宝成.语言测试和它的方法[M].北京:外语教学与研究出版社,2000:13-14.
[8]张敏强.教育测量学[M].北京:人民教育出版社,1998:68.
[9]王孝玲.教育测量[M].上海:华东师范大学出版社,1989:216.
[10]教育部.普通高中英语课程标准(实验)[S].北京:人民教育出版社,2003:42.
[11]陶百强.关于《2005年普通高等学校招生全国统一考试大纲的说明》(英语科)的一点意见[J].基础教育外语教学研究,2006(2):53-54.
[12]Coulson,J.E.,&Silberman,H.F.Effects of three variables in a teaching machine[J].Journal of Educational Psychology,1960,Vol.51(3):135-143.
[13]Silverman,R.E.,&Alter,M.Note on the Response in Teaching Ma⁃chine Programs[J].Psychological Reports,1960,Vol.7:496.
[14]Richards,J C.&Schmidt,R.W.Longman Dictionary of Language Teaching and Applied Linguistics(2ndedition)[M].Harlow,Essex,UK:Longman,1992:113,473.
[15]Cohen,R.J.,&Swerdlik,M.E.Psychological testing and assess⁃ment:An introduction to tests and measurements(7th ed.)[M].Bos⁃ton,MA:McGraw-Hill,2010:257.
[16]Martinez,M.E.Cognition and the question of test item format[J].Educational Psychologist,1999,34(4),207-218.
[17]关丹丹.主观题与客观题辨议[J].中国考试,2008(7):51—55.
[18]Brown,J D.语言项目中的测试与评价/Testing in Language Pro⁃grams:A Comprehensive Guide to English Language Assessment[M].北京:高等教育出版社,2006:47,51,58.
[19]Brown,J.D.personal communication,June 4,2014.
[20]杨学为.高考必须首先是科学的[J].考试与招生,2012(3):45-46.
[21]杨惠中,桂诗春.语言测试的社会学思考[J].现代外语,2007:30(4):368-374.
[22]Tarrant,M.&Ware,J.(2008).Impact of item-writing flaws in multi⁃ple-choice questions on student achievement in high-stakes nurs⁃ing assessments[J].Medical Education,2008(42):198-206.
[23]李明楷.新高考英语题型功能与题型创新[J].教育与考试,2011(4):25-28.
[24]陶百强,陈效.我国高考英语考试大纲(说明)的问题与思考[J].教育与考试,2008(4):29-34.
[25]高升.如何做好外语试卷的校对工作[J].中小学外语教学,2004(8):16-18.
[26]李冰,李瑛.语言运用能力的考查——高考英语(湖南卷)非选择题的设计思路.中国考试,2014(3):58-64.
[27]邓杰,范晓玲,黄琼,杨捷.2013年湖南省高考英语学科考生水平评价及教学建议[J].教育测量与评价,2013(12):4-29.
[28]李冰(湖南省教育考试院),私人交流,2014年6月20日.
[29]福建省教育考试院.2014年普通高等学校招生全国统一考试福建省语文·数学·英语考试说明[M].福州:福建教育出版社,2014:200.
[30]Hornby,A.S.王玉章,等,译.牛津高阶英汉双解词典(第7版)[Z].北京:商务印书馆/牛津大学出版社(中国)有限公司,2009.
[31]The American Heritage Dictionary of the English Language,3rd Edition[M].Houghton Mifflin,1992.
[32]Event.[EB/OL].[2014-06-10].http://www.merriam-webster.com/dictionary/event.
[33]江西教育考试院.2014年普通高等学校招生全国统一考试江西卷(语文、数学、英语)考试说明[M].南昌:江西高校出版社,2014.
[34]陶百强.加强高考命题科学性提高高考命题的质量—以2006年分省自主命题失误为例[J].中小学英语教学与研究,2007(3):45-51.
[35]陶百强.2008年高考英语自主命题失误研究报告及建议[J].英语考试研究,2009(1):14-19.
[36]陶百强.2007年高考英语命题失误研究与对策[J].英语考试研究,2009(6):7-12.
[37]陶百强.2010年我国高考英语命题瑕疵与商榷[J].英语考试研究,2011(2):21-28.
[38]刘庆思,程蒙蒙.高考英语科启用语篇型语法填空题的研究[J].中小学外语教学(中学篇),2013(11):1-5.
[39]刘庆思.加强测试研究提升考试质量[J].外语测试与教学,2011(1):9-11.
[40]靳铭吉.转换生成思想·语言能力·外语教学[J].俄语语言文学研究,2008(4):30-35.
[41]李建平,陶百强.英语语料库及相关软件在高考英语命题中的运用[J].考试研究,2014(2):44-48.
[42]Hogan,T.,&Murphy,G.Comparative Review:Recommendations for Preparing and Scoring Constructed-Response Items:What the Experts Say[J].Applied Measurement in Education,2007,20(4),427-441.
[43]Livingston,S.A.Constructed-Response Test Questions:Why We Use Them;How We Score Them.ETS R&D Connections,No.11.Educational Testing Service,September 2009.
[44]Street,J.(Assessment Manager responsible for the FCE Use of Eng⁃lish Cambridge English),personal communication,March 12,2014.
[45]韩国每年一度高考结束竞争激烈堪比中国[EB/OL].[2014-06-01].http://news.xinhuanet.com/edu/2010-11/19/c_12794745.htm.
[46]司法考试增加分值及时间试题和答案上网公示[EB/OL].[2012-03-12].http://www.people.com.cn/GB/shizheng/1027/2529160.html.
致谢:教育部考试中心外语处英语测试专家刘庆思、湖南省教育考试院英语学科专家李冰以及山东省教育招生考试院、江西省教育考试院专家、夏威夷大学James Dean Brown和剑桥大学外语考试部专家Jason Street对本文亦有贡献,特此致谢。
(责任编辑 周黎明)
Controllability of Answers for Constructed-Response Items in Matriculation English Test
TAO Baiqiang,LI Mingkai and LI Jianping
The national matriculation English test papers and most provincial versions of MET have employed constructed-response(CR)test item formats for a less-MC-dominant testing style in response to testing-related recommendations of the National High School English Curriculum Standards,increasing expectations from ELT and English testing experts for English learners’productive English language skills.Controllability of answers for constructed-response items impacts dramatically on MET validity and score reliability and potentially threatens college entrance fairness.Based on research into some typical CR test item formats in MET test papers and CR item writing practice in foreign countries and the authors’reflections,the authors have recommended a series of suggestions for limiting potential answers for CR items to ensure test fairness of college entrance examinations.
Language Testing;Matriculation English Test(MET);Gaokao Item Writing;Constructed-response Test Items;Controllability of Answers
G405
A
1005-8427(2014)10-0022-13
陶百强,男,江西金太阳教育研究院英语教研组长,研究员(南昌 330020)
李明楷,男,江西省教育考试院,副教授(南昌 330038)
李建平,男,山东省教育招生考试院,助理研究员(济南 250011)
本文所研究的建构性题型仅限于具有相对客观的阅卷标准的建构性题型,研究对象不含写作题,虽写作属建构性题型。文中从略的样题或试题备索。