取消高考大纲后的新型考试研发模式探析

2021-01-07 12:17杨志明潘送球孔淑仪杨笑颖
湖南师范大学教育科学学报 2020年6期
关键词:课标理解能力量表

杨志明,潘送球,孔淑仪,杨笑颖

(1.湖南师范大学 测评研究中心/外国语学院,湖南 长沙 410081;2.湖南省教育考试院,湖南 长沙 410012)

2019年,国务院办公厅印发了《关于新时代推进普通高中育人方式改革的指导意见》(以下简称《指导意见》),要求“在实施普通高中新课程的省份不再制定考试大纲,学业水平选择性考试和高等学校招生全国统一考试命题都要以国家普通高中课程标准和高校人才选拔要求为依据,促进教考有效衔接”[1]。2020年,中共中央和国务院印发了《深化新时代教育评价改革总体方案》(以下简称《总体方案》),强调要“改进结果评价,强化过程评价,探索增值评价,健全综合评价,着力破除唯分数、唯升学、唯文凭、唯论文、唯帽子的顽瘴痼疾,建立科学的、符合时代要求的教育评价制度和机制”[2]。显然,取消高考大纲已成必然,搞好四个评价是未来的努力方向。但是,在“取消考试大纲”[1,3]情况下如何搞好考试研发工作挑战极大。一旦重大考试出现任何失误,如信度不高或效度证据不足,或分数表达和使用不当,或结果不公平(fairness)等问题,则不仅会危害为国选才和基础教育等工作,而且会给考试工作和管理者带来重大责任[4-9]。本文以英语学科为例,参考《中国高考评价体系》(以下简称高考评价体系)[10-13]、《中国英语能力等级量表》(以下简称量表)[14-16]及《普通高中英语课程标准(2017年版)》(以下简称课标)[17],结合中国国情,从教育测量学的角度探索考试研发的新模式[18-20],为改进教育评价制度和机制提供新的视角。

一、课标和量表概述

高考评价体系[10]明确要求,今后的高考命题要确保“立德树人、服务选才和引导教学”一个核心目标,覆盖“必备知识、关键能力、学科素养和核心价值”四个层次的内容,使用“基础性、综合性、应用性和创新性”四种命题手法。就英语科来说,要体现这“一核”“四层”“四翼”要求,就必须掌握课标和量表的基本内容及其相互关系。

1.课标概述

课标规定:“英语课程的任务是:激发和培养学生学习英语的兴趣,使学生树立自信心,养成良好的学习习惯和形成有效的学习策略,发展自主学习的能力和合作精神;使学生掌握一定的英语基础知识和听、说、读、写技能,形成一定的综合语言运用能力;培养学生的观察、记忆、思维、想象能力和创新精神;帮助学生了解世界和中西方文化的差异,拓宽视野,培养爱国主义精神,形成健康的人生观,为他们的终身学习和发展打下良好的基础。”[17]简单地说,课标的重点在于指导教学活动,包括对教学目标、教学设计、教学过程和教学评价等各个方面的指导。它涵盖了“主题语境、语篇类型、语言知识、文化知识、语言技能、学习策略”六大要素,强调了“知识与能力、过程与方法、情感态度与价值观”的三维学习和评价目标。其突出特点表现为如下两个方面:

其一,课标要求在传授英语知识的同时,要帮助学生发展“语言能力、思维品质、文化意识和学习能力”四种学科素养,要体现英语学科工具性和人文性相融合的特点。此外,课标还强调帮助学生运用英语学习其他学科知识的价值,鼓励学生利用英语,有效地汲取世界文化精华,传播中华文化,进而发展跨文化交流能力,树立人类命运共同体的意识及多元文化意识,形成开放包容的态度等,最终为学生继续学习英语,或选择就业及适应世界多极化、经济全球化和社会信息化奠定基础。

其二,课标倡导指向学科核心素养的教学观念和教学设计;鼓励学生开展自主性学习、合作式学习、参与式学习和探究式学习;强调教学设计要注重启发式,要体现英语学习的综合性、关联性和实践性特点;要求学生通过学习理解、应用实践和迁移创新等形式,把语言、文化和思维融为一体,特别要求学生能从语篇中提取和整合信息,能对事实、概念和过程知识做出恰当的诠释和评价,能运用英语表达个人的观点、意图和情感态度,能体会中外文化的异同,形成多元思维的意识和批判性思维的习惯,发展英语的学习能力和运用能力。

2.量表概述

与课标不同,量表侧重于英语能力维度和层次两个方面。其主要内容包括以下两个方面:

其一,量表对英语能力维度给予大量操作性界定。比如,关于英语知识和能力结构,量表把它表述为“语言知识(组构知识和语用知识)”、“语言理解能力(听、读)”、“语言表达能力(说、写)”、“语用能力(理解、表达)”、“翻译能力(口译、笔译)”及“使用策略(言语策略)”共六个维度。其中,“语言理解能力”、“语言表达能力”和“翻译能力”分别包含了“描述”“叙述”“说明”“指示”“论述”“互动”“策略”七个子维度,“使用策略”则细分为“理解策略(听、读)”、“表达策略(说、写)”、“翻译策略(口、笔)”及“组构知识学习策略”四个子维度。

具体地,阅读理解能力指的是“读者阅读并处理书面材料时,运用各种知识(包括语言知识和非语言知识)和策略,围绕所读材料构建意义的能力。包括识别与提取书面信息的能力、概括与分析书面信息的能力、批判与评价书面信息的能力”[14]。听力理解能力指的是一种综合认知能力,“由与听力活动相关的识别、提取、概括、分析、批判、评价等认知能力组成”[14]。口头表达能力指的是“说话人在分析情境、参与者、表达目的、交流渠道等语境因素的基础上,恰当地运用语言知识和交际策略,有效地完成口语交际任务,实现交际目的”[14],其口头表达策略包括了“规划”“执行”“评估与补救”三个子维度。书面表达能力指的是“撰写不同功能文本的能力”,其书面表达策略也包括了“规划(构思)”、“执行(撰写)”及“评估与补救(修改)”三个子维度。语用能力指的是“结合具体语境,运用各种知识和策略,理解和表达特定意图的能力,包括语用理解能力和语用表达能力”[14]。翻译能力包括口译能力和笔译能力。其中,口译能力指的是“通过口头表达形式,调用语言知识和策略将一次性的源语听力文本转换为目的语文本的跨文化语际中介能力”[14];笔译能力指的是调用语言知识和策略将源语文本转换为目标语文本的跨文化语际中介能力;翻译策略也包括“规划”、“执行”及“评估与补救”三个子维度。

其二,英语量表对不同英语能力水平从行为表现角度给予了大量描述。比如,关于英语阅读理解能力,量表对九个层级的表现水平给予了详细界定,覆盖了从“入门”到“杰出”等级的水平(详见表1)。

从表1可看出,学生在阅读中,不仅需要会阅读纯文本,同时也要会从书信、通知、告示、新闻报道等可能包含文字、表格、符号等多模态的文章中加工并处理信息。即,英语量表对阅读理解能力不仅具体界定了会做哪些事情(能力结构),而且对不同层次(级别)的行为表现做出了具体描述。根据这个描述,无论是研发英语阅读理解测验,还是进行教学设计和实施教学过程,都比较容易判断出学生的短板,以及当前的发展水平层次,对教师的教和学生的学,都具有重要指导意义。

表1 《中国英语能力等级量表》阅读理解能力部分等级水平的行为描述[14]

3.量表与课标的比较

课标和量表都十分关注英语学习的目的、内容、层次、过程、手段和结果等各个方面。现参照中国高考评价体系[10-13],分别从课标和量表的定位,以及“必备知识”“关键能力”“学科素养”“核心价值”角度比较它们的异同。

第一,课标和量表的定位、目的、内容,以及应用范围和理论基础具有差异。英语课标的定位是明确界定英语学科对不同年级学生所要求掌握的知识、能力、情感、态度、价值观和文化理解等方面的内容,目的是指导教学和教学评价。课标内容主要涵盖了英语学科关于教学目标、教学内容、教学方式和教学评价等方面的要求。比如,课标提倡以“主题—语篇—语言—技能—策略—文化”为框架设计课程,其要求就是一种具体的教学指导建议。此外,课标的应用范围比较广,涵盖了英语教学和评价的所有方面。其理论基础主要是各种有关人类语言习得的理论,如认知语言学、心理语言学、神经语言学,以及有关第二语言习得的理论和课程论原理等。

量表的定位是从行为表现的角度阐述语言习得和运用的方方面面,目的是为诊断英语能力的结构特点和层次水平提供逻辑框架,其内容涵盖了“信息输入”(阅读理解、听力理解)、“信息储存”(语言知识的获得)、“信息加工”(使用策略和翻译能力)、“信息输出”(口头表达和书面表达)这样一个完整认知加工过程的各个环节,体现了清晰的认知语言学理论基础。其应用范围主要在确立教学目标、指导考试命题、诊断学业特点与水平、开展成长性评估等方面。其能力层次的描述涵盖了从“入门”水平到“杰出”水平共九个等级。

第二,课标与量表关于英语知识的界定比较接近。课标所指的语言知识,包括语音、词汇、语法、语篇、语用知识及相关的文化知识,并在课标中具体罗列了相关的词汇和语法项目。量表所指的语言知识,包括“组构知识(语法知识和篇章知识)和语用知识(功能知识和社会语言知识)”两个方面,并分别从“语法”“语音系统和书写形式”“词汇”“句法”“篇章”“修辞或会话”“衔接”“组构”共八个维度进行了细致解读。显然,课标与量表关于语言知识的界定内容基本一致,但二者的表述角度有所不同,量表的逻辑性和操作性更强。

第三,课标与量表关于英语能力的内容基本重合但表述不同。课标定义的语言能力指的是“在社会情境中,以听、说、读、看、写等方式理解和表达意义的能力,以及在学习和使用语言的过程中所形成的语言意识和语感”[17]。其中,“听”“读”“看”是理解性技能,“说”和“写”是表达性技能。特别地,“看”特指利用多模态语篇中的图形、表格、动画、符号及视频等理解意义的技能。显然,“看”属于一种比较特殊的阅读,所以把它与“听、说、读、写”并列的做法在逻辑上比较勉强。量表所定义的语言能力以思维加工为参照标准,内容包括“理解能力(听力、阅读)”、“表达能力(口语、写作)”、“语用能力”、“翻译能力”及“使用策略(言语策略)”五个维度。同时,每个维度又依据书面或口语材料的不同,分别从“描述”“叙述”“说明”“指示”“论述”“互动”“策略”七个子维度做了细化解读。显然,课标与量表关于语言能力的内容重合不少,但量表的内容更为丰富,其层次性、逻辑性和操作性都更强。

第四,课标与量表关于学科素养的界定有较大差异。课标所界定的英语学科素养,包括语言能力、文化意识、思维品质和学习能力四个维度。其中,语言能力在前文中已有解释,此处从略。文化意识指的是“对中外文化的理解和对优秀文化的认同,是学生在全球化背景下学生所表现的跨文化认知、态度和行为取向”[17]。思维品质指“学生思维在逻辑性、批判性、创新性等方面所表现的能力和水平”[17]。学习能力指“学生积极运用和主动调试英语学习策略、拓宽英语学习渠道、努力提升英语学习效率的意识和能力”[17]。与此不同,量表没有对英语学科素养做专门的界定,但量表关于语言能力的描述与课标所界定的学科素养有很多重合内容。比如,量表中关于“理解能力”和“表达能力”所包含的内容体现在课标的语言能力和思维品质维度之中,关于“语用能力”和“使用策略”的定义与课标中关于“学习能力”的解释也有较多共同之处,并在很多方面体现了“文化意识”。此外,课标关于学科素养的界定在逻辑上不够理想,因为“语言能力”“思维品质”“学习能力”之间存在很多重叠内容,“文化意识”也广泛渗透在其他三个维度之中。同时,课标本身对语言能力和学科素养没有做明确的区分。从测验研发和改进教学等角度来看,量表比课标显得更为实用。

第五,课标和量表关于英语学科核心价值观的表述有明显差异。课标在关于课程性质的描述中对核心价值问题有过专门的说明,强调要“全面贯彻党的教育方针、落实立德树人根本任务、……培养社会主义建设者和接班人……”。量表对核心价值没有专门的论述,而是把核心价值渗透在理解能力、表达能力及语用能力的定义之中。比如,要求学生会鉴赏语言艺术及社会价值,会跨文化交际,并具有文化差异的对比意识等。两者不同之处在于:课标突出的是文化意识的培养,对比文化差异,对于不同文化,要求能取其精华,弃其糟粕;量表除了要求体现文化层面的认知,还包含了对社会、文化评论中的多项思辨能力。课标和量表对于英语学科的核心价值问题都未做深度阐述。

二、基于课标和量表的考试研发模式

在研发英语考试项目时,量表和课标都具有重要价值,但二者在知识、能力、素养及价值等方面的表述存在一定差异,因此很有必要从中提炼出一个考试研发的综合模式。

关于英语测试,国外许多著名的考试项目,如托福(TOEFL)和雅思(IELTS),都是围绕着英语“听、说、读、写”四个方面进行操作的。与此不同,课标主张英语学科应该包括“听、说、读、写、看”五个方面[17],其相应的学科素养包括“语言能力、思维品质、文化意识和学习能力”四个维度[17]。量表认为,英语能力应该包括“语言知识”、“理解能力”、“表达能力”、“语用能力”、“翻译能力”和“使用策略”(言语策略)六个维度。另外,由于英语是中国人的外语,所以英语翻译(口译和笔译)也必须作为重要的考察内容。因此,比较理想的英语测试应该包含“听力”“口语”“阅读”“写作”“翻译”五个部分或五个分测验(课标中“看”的内容包含在“阅读”之中)。鉴于量表关于语言知识和语言能力的定义具有更好的逻辑性和操作性,并覆盖了课标所罗列的所有学科素养,因此,英语考试的内容和结构以“语言知识”“理解能力”“表达能力”“语用能力”“翻译能力”“使用策略”六个维度为宜。于是,综合课标和量表可以得到一个新的英语测试研发模式(详见图1)。

图1 基于课标和量表的英语测试研发模式

其中,方框图(听、说、读、写、译)代表观测变量(测验的部分或分测验),椭圆图(知识、理解、表达、语用、翻译和策略)代表英语测试应该覆盖的各种潜在变量(量表中所定义的知识和能力维度),箭头线表示测验各部分或分测验所覆盖的知识和能力维度。此外,“语言知识”包含组构知识(语法知识与语境或篇章知识)和语用知识(功能知识和社会语言学知识)两个部分,表现为“语法”“语音系统和书写形式”“词汇”“句法”“篇章”“修辞或会话”“衔接”“组构”共八个子维度。

根据图1模式,在题目编写时就必须明确所要测查知识和能力的具体要求。

例1: What does the underlined word “stumbles”in paragraph 2 refer to?

A.Improper pauses.

B.Bad manners.

C.Spelling mistakes.

D.Silly jokes.

该题为2019年高考英语全国卷I阅读理解第25题,其正确选项是A,考查的是语法知识(词汇)、语境或篇章知识(根据上下文猜词)、阅读理解能力及言语策略(元认知策略—评估及认知策略—推断)。考生若理解有误,则很有可能会选C。因为短文中Chris是一个非英语母语的人,容易让考生联想到发音错误,进而影响他们根据语境篇章信息猜测生词的水平。

例2: What can we infer about the author from the text?

A.He loves poetry.

B.He’s an editor.

C.He’s very ambitious.

D.He teaches reading.

该题为2020年高考英语全国卷I阅读理解第27题,其正确选项是A,考查的是功能知识(探究)和阅读理解能力(概括分析、演绎归纳、细节辨认等能力)。

例3: 短文改错题(2020年高考英语全国卷I短文改错第一节)。该题文本中共有10处语言错误,每句中最多有两处。每处错误仅涉及一个单词的增加、删除或修改。其中,增加指的是在缺词处加一个漏字符号(∧),并在其下面写出该加的词;删除是把多余的词用斜线()划掉;修改是在错的词下划一横线,并在该词下面写出修改后的词。以下为题目文本及其答案。

本题不仅考查了丰富的英语知识(语法、篇章、功能和社会语言知识),而且考查了多种英语能力(理解能力、表达能力、言语策略和语用能力)。具体地,本文依次考查的语言知识要点为:形容词副词(simply/simple)、分词(frying/fried)、不定式(to多余和错用)、链接词(but和and)、名词(chopstick/chopsticks)、介词(on/off)、链接词(unless与until/till)、冠词(the)、代词(us/me)的用法。该题所覆盖的语言能力主要为遣词造句、篇章结构、逻辑连贯等方面的语言理解和表达能力,以及对话中所体现的符合人物身份、场合的语用能力和言语策略等。

三、新型考试研发模式的作用

显然,基于课标和量表的新型考试研发模式,在改进结果评价、强化过程评价、探索增值评价和健全综合评价等方面具有很大价值,其具体作用简述如下:

第一,它可以通过界定考试内容和结构的方式指导考试蓝图的设计。保障考试质量的根本措施之一是在考试项目研发之前,确定考试内容或结构,细化考试蓝图。根据图1考试研发模式,英语考试的测验蓝图可以设计成如表2所示的模式。

表2 基于英语课标和量表的测验蓝图设计(示例)/分

其中,表内的数字可以为测验的分值或分值比例或题目个数,所有分测验所覆盖的语言知识满分为100分(或100题),其他5种能力维度满分100分(或100题)。

需要说明的是,所有题目都应当与语言知识、语用能力和言语策略有关。因此,在设计考试蓝图时,语言知识部分的分值(或题量)之和应当为满分(或题目总数),而“理解能力、表达能力、语用能力、翻译能力和言语策略”5个能力维度的总分或总题目总数可以小于或等于试卷总分或总题目个数。当然,不同测试可以根据测试目的和条件有不同的题量或分值安排。

第二,它可以通过明确考试结构提供效度研究的方向。根据国际考试行业的标准,任何考试都需要提供有力的效度证据。比如,美国教育考试服务中心(Educational Testing Service,ETS)在其《ETS质量与公平性准则》[20]中,明确要求考试的效度研究可以遵循以下七个步骤:一是明确考试目的和受测总体(describing test purpose and population),包括确定计划测查的知识、技能或其他潜在素质,考试用途,分数的解读计划等;二是阐明效度证据选取的依据(providing rationale for the choice of evidence),包括评估各类效度证据和依据测试做某种决策的恰当性和合理性,比如评估各种推论和决策的合理性,判断错用分数的可能后果,比较类似考试的效度研究报告,考量样本容量的影响,效度证据获取的技术局限性,效标选择的合理性等;三是收集并存档效度证据(obtaining and documenting the evidence);四是警示可能的考试误用(warning of likely misuses);五是预判考试的负面后果(negative consequences);六是再度评价效度(reevaluating validity);七是协助用户研究当地的效度证据(helping users to develop local evidence)。显然,课标和量表关于测试内容和结构的界定,为效度研究尤其是其中的第一步和第二步研究工作,提供了关键性依据。特别地,量表中关于各种能力的行为特征的界定,可以直接用作效度研究过程中的效标。

第三,它可以通过定义知识能力的深度和素材广度拓宽考试命题的思路。课标对各个年级学生所需要掌握的知识和能力给出了具体说明,量表则针对学生的英语能力发展水平提供了详尽的描述。因此,在确定试题所涉及的知识层次和思维加工深度时,课标和量表中相关等级的行为描述具有具体的指导价值。比如,假若需要研发一套初中升高中的英语试卷,各道题目的思维加工水平可以参照量表中各种能力维度的第二和第三等级描述,并在编写题目的过程中具体注明相应题目的知识深度(Depth of Knowledge,DOK)指数为“2”或“3”。假若需要编写一套高考模拟试卷,则题目的知识深度DOK指数应该为“3”或“4”,即相当于量表中的第三级或第四级水平。

此外,由于量表针对每个能力维度都界定了“描述”“叙述”“说明”“指示”“论述”“互动”“言语策略”共七个方面的行为特点,因此,在准备听、说、读、写、译的题目材料时,可以从上述七个方面入手。这不仅拓宽并规范了命题思路,而且要求在编辑考试试卷时,其组卷方案(form planner)应当尽可能兼顾上述七个方面的素材,确保每套试卷都能准确反映考试蓝图的要求。

第四,它可以用其定义的能力等级验证常模质量和规范标准设定步骤,从而提升结果评价的水平。考试研发的核心内容之一是使得测验分数具有明确的含义。国际考试行业解决这类问题的方法主要有两种,即研发测验常模(norming)或实施标准设定(standard setting)。其中,常模研发的基本思路是:首先选择一个恰当的参照总体(population),获得该总体的正常表现数据(如均值和标准差等);然后将个体的分数与总体的一般水平进行比较,以总体得分的标准差或其他指标为单位,把每个个体的卷面原始分数(raw score)都转换成相对于总体的导出分数(derived score)或具有稳定度量系统的量表分数(scale score),目的是可以确定个体在总体中的相对水平。这种分数通常用于选拔性考试。由于这种分数是参照正常群体一般水平转换而来的,所以在考试行业称之为常模参照分数(norm-referenced score)。标准设定主要用于标准参照性考试(criterion-referenced test),其关注点是某些特定的分数线,比如“合格”“良好”“优秀”三条分数线,目的是判断某些学习项目的学习效果,而不在乎个体在群体中的相对水平。无论是常模研发还是标准设定,最为困难的任务是如何确定“合格”“良好”“优秀”等各种分数线。显然,依据课标关于各年级学生的知识能力要求和量表中关于各种能力等级的行为描述,很容易事后验证测验常模的质量(若根据常模所导出的分数与量表中所描述的对应行为表现相符,则说明常模质量好),更能事前为标准设定工作提供专家评判准则,从而规范标准设定的过程和步骤。

第五,它可以通过丰富分数报告内容发挥考试的诊断效用。依据课标和量表,测验成绩的报告可以变得丰富多彩,为学业成绩的诊断提供精准信息,从而改进结果评价,加强过程评价。表3是依据测验蓝图(表2)所设计的某位考生的成绩诊断报告(常模参照分数因缺乏常模没有报告)。

由表3很容易得到该考生的英语听、说、读、写、译的表现水平(图2),以及其英语知识和能力水平(图3),可以为改进教与学提供精准信息。

由表3和图2、图3可知,该考生的英语水平一般,其英语知识的掌握率仅为75%。不过,其英语阅读理解水平较高,掌握分数为92.86%;其次是听力水平,掌握分数为75.00%;最弱是翻译水平,掌握分数仅为58.33%。从英语能力上看,表现最好的指标为阅读和听力理解能力,掌握分数为86.36%;最差的项目是英语使用策略,掌握分数仅为64.00%。显然,若英语考试的成绩报告能够达到表3和图2、图3的设计水平,教师和学生的收获一定会很大,而且能避免因为单纯根据考试总分进行年级或班级排名所造成的负面伤害。

表3 某考生英语测试成绩诊断报告(样例)

图2 某考生英语听、说、读、写、译的测试成绩

图3 某考生英语知识和能力的测试成绩

第六,它可以通过验证试卷结构等方法提供考试评价的框架。在取消考试大纲的条件下,如何评价考试质量会是一个十分现实的问题。依据课标和量表,比较容易明确试卷结构和能力层次,这对于评价考试工作的测量效度很有价值。比如,运用高考评价体系、量表和课标对最近两年高考英语测试内容效度的研究[21]就是一次有益的尝试。

总之,高考评价体系、课标和量表在考试研发等方面作用很大。基于课标和量表的英语测试研发模式,不仅在界定考试内容、结构和层次,指导考试蓝图的设计,指明效度证据的搜集方向,以及定义题目的深度和广度,进而保障考试的有效性和公平性方面很有理论价值,而且在验证常模质量、规范标准设定步骤、丰富成绩报告内容,进而保障考试分数的正确解读和使用,发挥考试的诊断和评价作用,以及改进结果评价,强化过程评价,探索增值评价,健全综合评价等方面具有十分重要的实用价值。

猜你喜欢
课标理解能力量表
小学数学教学中培养学生阅读理解能力的“三部曲”
浅谈如何运用阅读技巧与策略提高小学生英语阅读理解能力
网络服装虚拟体验的概念模型及其量表开发
《公共体育服务政府供给社会期待量表》的编制与修订
认知风格与大班幼儿阅读理解能力的关系研究
依托课标 夯实基础 精准备考
阅读理解差,美国损失大
高中生物新旧课标比较——以实验版课标和2017版课标为例
CSE阅读量表在高中生自我评价中的有效性及影响因素
胸痹气虚证疗效评价量表探讨