马秀谊
(南京大学历史学院,江苏南京210024)
基于普通高中历史学科核心素养的考试研究*
马秀谊
(南京大学历史学院,江苏南京210024)
学科核心素养,测量目标,命题研究
2016年9月,《中国学生发展核心素养》研究成果正式发布,基于学科核心素养的新一轮基础教育课程改革也即将启动,此轮改革重在指向21世纪的国家教育育人的目标体系,将是今后一定时期内基础教育领域面临的重大改革,同时也是教育教学和考试评价机构面临的新课题。新一轮课程改革的顺利实施,很大程度上取决于考试评价能否取得预期效果,迫切需要我们根据课程标准,加强基于学科核心素养的考试研究。在考试设计和开发阶段,应主要关注两个问题:一是怎么才能确保测试目标和学习目标具有一致性?二是如何设计试题才能测评出学生学习的真实情况?这是解决大规模教育考试的核心问题。因此,只有基于课程标准研发考试的测量目标体系,才能确保与课程目标和学习目标取得一致性,教师、学生、教育考试机构才能朝向同一目标努力。
在即将启动的新一轮基础教育课程改革中,高中历史课程标准将培养和提高学生的历史学科核心素养作为目标,并从五个方面界定了学科核心素养:唯物史观、时空观念、史料实证、历史解释和家国情怀。那么,必须明确的问题就是,学科核心素养能否全部由大规模教育考试进行测评?从目前的研究状况来讲,很多研究者和教师在这方面存在认识误区,或者对此还没有清晰的认识。需要界定清晰的是,对于学科核心素养的测评需要量化和质性评价相结合,单纯依靠纸笔化测试无法有效完成。具体从两个层面加以阐述。
1.核心素养的概念和内涵要求实施多元评价。“核心素养是学生在接受相应学段的教育过程中,逐步形成的适应个人终生发展和社会发展需要的必备品格与关键能力。它是关于学生知识、技能、情感、态度、价值观等多方面要求的结合体。”①林崇德:《21世纪学生发展核心素养研究》,北京:北京师范大学出版社,2016年,第29页。根据核心素养概念的定义,可以看出其结构复杂,内涵涉及多个维度。从内容领域来看,它既包括传统的教育领域的知识、能力,又包括学生的情感、态度、价值观。在此基础上,新修订的普通高中历史课程标准提出了学科核心素养,指出学科核心素养是知识与能力、过程与方法、情感态度和价值观的整合与提炼。因此,基于核心素养的测评方式也应包括多个评价维度,“在评估上,核心素养需结合定性与定量的测评指标进行综合评价。核心素养具有可教、可学的外显部分,同时也存在无声、无形但可感、可知的内隐部分。前者能够在特定的情境下通过一定的方式表现出来,因此能够有效地对其进行定量的测评;而后者则偏向于一种潜移默化的隐性渗透过程,需以定性、形成性评价的方式进行评估,强调对核心素养形成过程的高度关注,关注个体在此过程中的感受与体悟”。①林崇德:《21世纪学生发展核心素养研究》,第32页。对于学生核心素养的发展程度尤其是价值观的形成作出判断,主要应运用质性评价的方法,单纯运用大规模教育考试进行终结性评价无法有效完成测试目标。
2.基于现代教育测量理论的考试有其自身的测评领域。“测量(measurement)是按照明确的构想或规则对人、事或物的属性或特征赋值的过程。”②〔美〕吉尔伯特·萨克斯、詹姆斯·W.牛顿:《教育和心理的测量与评价原理》,王昌海等译,南京:江苏教育出版社,2011年,第13页。最为简单易懂的就是人的体重、身高等物理测量,对于学生的智力或学习能力而言,教育测量是一种复杂的测量活动,“在心理或教育测量中,最为常见的方式是根据个体在一系列测验项目上的反应来标定其在某个特定属性上的水平”。③杨向东:《理论驱动的心理与教育测量学》,上海:华东师范大学出版社,2014年,第73页。也就是说,教育测量的工具是由一系列的测验试题组成的,大规模教育考试的测试对象只能是与教育目标相对应的学习成效,只能测量可测的课程目标,并不能测量出全部教育目标。因此,我们要认识到教育考试是有适用范畴的,并不是所有的学科核心素养都是能够通过纸笔化测试来实现。以作为历史学科核心素养之一的“家国情怀”为例,家国情怀更多的是情感态度价值观的表达,几乎无法运用纸笔化考试进行测量。教育考试机构可以从情景素材选择等方面加强情感态度价值观等方面的立意,但是要清楚地认识到这并不能真实判断考生本人价值取向。“至于情感态度与价值观方面的目标几乎完全不能测量。我们不排除能够命制出一些好的考查考生情感态度与价值观的试题,但这种试题测量的结果只能作为判别考生在情感态度与价值观方面的认知能力的依据,不能真实地推断考生本人的情感态度与价值观”。④雷新勇:《大规模教育考试:命题与评价》,上海:华东师范大学出版社,2006年,第3页。因此,我们应该认识到,教育考试只能对与学生学习成果相关的课程目标进行有效测量。尤其是涉及情感态度价值观的课程目标,只能通过其他多元评价的方式进行测量。在构建基于学科核心素养的测试目标中,应重点考虑到这一点,否则无法对考试成绩进行科学解释。
(一)现行大规模教育考试测量目标的缺陷
作为大规模教育考试,无论是高考还是学业水平测试,“考什么、怎么考”一直以来都是人们关注的热点,许多教师比较关心考试考到了哪些知识内容,往往忽视了是否达到了考试测量的目标。实质上,基于学科核心素养的测评体系,不在于在知识考查上有多少程度的覆盖面,更为关键的是在科学的考试测量目标基础上实现有效考查。但是,目前现行的教育考试距离这个目标还有一定距离。
以高考历史学科为例,目前主要就是教育部考试中心统一制定的考核目标和要求,在2016年下半年,教育部考试中心还专门对考试大纲进行了修订和调整,历史学科修订的主要内容之一就是“考核目标与要求”在原有框架基础上进行了微调。具体见表1。
表1
但是上述考核目标体系存在的主要问题就是缺乏学科化特征。该类测量目标体系对应的是文科综合试卷,在历史、地理、思想政治三个学科都是概括成为四项测量目标:“获取和解读信息”“调动和运用知识”“描述和阐释事物”“论证和探索问题”,但实际操作过程中,这种界定过于模糊,尤其学科性、操作性不强。“以文科考试科目为例,考查目标的表述体例不一,详略不一,能力划分标准不一。没有形成逻辑清晰、分工合理、表述清晰的浑然一体、易于操作的高考评价目标体系。”①李雄鹰:《高考评价研究》,武汉:华中师范大学出版社,2014年,第247页。随着基于学科核心素养的课程改革的启动,这种测量目标的界定方法明显不符合历史学科的要求,不能准确地界定出历史学科测量目标,带来的后果就是无法科学指导试题命制,也不利于考试结果的解释和考试的反馈评价。
再以现行的高中学业水平测试为例,在此方面更加不理想,许多省级考试机构制定的考试说明中,明显缺少考试测量目标的界定,或者是通过“了解”“理解”“应用”等动词来界定内容标准的掌握程度,与新课程标准要求的由“知识立意”到“素养立意”的要求距离甚远,这在今后的考试评价改革中要引起我们的重视。总之,随着新的课程标准的正式颁布,今后国家和省级教育考试机构应加强基于学科核心素养的考试测量目标的研发,以此作为设计教育考试的基础工作。
(二)基于学科核心素养的考试测量目标
核心素养的理念和内容落实到考试评价过程中,关键在于构建系统的、具有可测量性的学科测量目标。“测量目标及其行为目标是命题考虑的第一要素。大规模基于标准的教育考试设计阶段需要对学科知识内容的认知技能要求进行总结概括,形成清晰、明确的测量目标及其行为目标,这是考试设计的最重要环节。”②雷新勇:《基于标准的教育考试——命题、标准设置和学业评价》,上海:上海科学技术出版社,2011年,第44页。在即将启动的普通高中课程改革中,高中历史课程标准主要由学科核心素养、课程目标、内容标准和学业质量标准等组成。因为课程标准规定的课程目标比考试的测量目标宽泛,而且部分课程目标无法通过纸笔化测试来实施,所以由课程标准向测量目标进行转化就成为关键问题,“课程标准所罗列的课程目标并不就等于测量目标,两者是不一样的,测量目标有一定的规范,从课程目标到测量目标需要进一步转化”。③汪泽贤:《基于课程标准的学业成就评价的比较研究》,北京:教育科学出版社,2010年,第103页。那么,如何构建考试的测量目标体系?严格来讲,教育考试的测量目标体系要依据课程标准的课程目标来构建,并且应具有两个特征:一是具有可测性,能够通过纸笔化测试进行测量;二是具有教育目标分类学的理论指导,并且有反映行为类型的动词对测试目标进行准确描述。
下面具体以安德森(Anderson)修订后的布卢姆教育目标分类学为指导,探索构建大规模教育考试测量目标的研发方法。布卢姆教育目标分类学被评为20世纪教育领域中影响最为广泛的事件之一,该体系从心理学和认知理论的高度,提出了学生学习成果的水平层次的构想,制定了六个阶梯型递进的水平层次。国内许多研究者更多地把它应用到教育教学领域,实质上,国外许多教育测验的设计和开发都在广泛使用,并据此制定教育测验的测量目标,同时也为大规模的考试评价提供了共同的参照,这主要是由于它为确认学生的学习水平标准建立了一个具有初步理论依据的框架。2001年,布鲁姆的学生安德森(Anderson)专门组建研究团队对布鲁姆的分类体系进行了修订,使得分类体系在结构层次上更为清晰和完善。例如在认知过程维度进一步细化,同时取消了“综合”,增加了最高层次的“创造”。表2(见下页)是安德森修订后的布卢姆教育目标分类学认知过程的六个维度。④〔美〕洛林·W.安德森等:《布卢姆教育目标分类学:分类学视野下的学与教及其测评》,蒋小平等译,北京:外语教学与研究出版社,2016年,第51~52页。
下面具体以安德森修订后的布卢姆教育目标分类学的认知过程分类法为指导,以历史学科核心素养为基础,探索研发普通高中历史学科学业水平测试的测量目标。作为高中历史学科核心素养之一的“史料实证”,是学习和研究历史最基本的方法。了解历史,第一步就是阅读史料,面对来源纷杂、立场不同的浩瀚史料,如何运用就显得尤为重要。“辨伪的目的在于辨认古书或史料的真伪,是对所搜集的史料做初步的外在的鉴别。各种历史文物因其特殊价值,早就真赝相羼杂。据文献记载,中国早在春秋战国时代就出现了造伪之事与疑古思想。”①姜义华、瞿林东、赵吉惠:《史学导论》,上海,复旦大学出版社,2003年,第123页。例如,部分留存于世的史料经过了人为整理,已经不是原始史料。即使是原始史料,如古人的日记,也需要认真辨别,“前人的日记,一部分是记给自己看的,另外相当一部分是记给别人看的,生前就准备公开发表,这是明清以来文人的习气,其真实性就要大打折扣”。②葛剑雄、周筱赟:《历史学是什么》,北京:北京大学出版社,2007年,第267页。所以,相当一部分历史的真相是不可能直接从史书上看到的,需要我们运用“史料实证”这一方法,透过这些文字、数据、图画等看清历史的真相。下面具体对“史料实证”测量目标的建构过程进行简要说明。
表2
示例:
1.1记忆史料的多种类型,比较不同来源、不同观点的史料,运用搜集史料的途径与方法;
1.2辨别史料,解构史料作者的意图,判断史料的真伪和价值;
1.3选择史料中的有效信息作为历史叙述的可靠证据,概述自己的历史认识。
在1.1的表述中,课程目标原有的表述“知道史料是通向历史认识的桥梁”无法转化成测量目标,进行删除处理;“了解史料的多种类型”中的“了解”在认知过程维度中应属于“记忆”,也就是通俗所讲的识记;“掌握搜集史料的途径与方法”应属于方法论的范畴,属于“应用”认知领域,所以“掌握”应转化为“运用”,主要是因为在认知过程维度中,“运用”经常与技术和方法的使用相联系。
在1.2的表述中,课程目标原有的表述是“能够通过对史料的辨析和对史料作者意图的认知”,这个表述包涵了两个测量目标,都属于“分析”认知过程维度,但在具体的测量目标上有较大区别。“辨析”应转化为“辨别”,因为“辨析”实质上包涵“辨别”和“分析”两个不同的测量目标,这个语境下的“辨析”的含义重在“辨别”。“对史料作者意图的认知”应归类于“分析”类别中的“解构”,含义是确定呈现材料背后的观点、倾向、价值或意图。
在1.3的表述中,课程目标中的表述是“能够从史料中提取有效信息”,这里重点要强调“提取”这一行为动词。在布卢姆教育目标分类学的认知过程维度中,“提取”属于“记忆”这一认知领域,含义是从记忆中提取相关知识,如回忆中国古代历史中重要变法改革的日期。这与“能够从史料中提取有效信息”所要表达的含义存在较大差别,课程目标中的“提取”应属于“分析”认知领域中的“选择”,含义是区分呈现材料的相关与无关部分或重要与此要部分,进而做出选择的过程。
在构建教育考试的测量目标过程中,有两个问题要引起注意:一是要根据历史学科的特征准确使用教育目标分类学的行为动词。要使用能够观察到的行为动词加以描述,切忌使用含糊不清的表达方法,“诸如‘学习’‘看到’‘熟悉’之类的模糊而不确定的词语应当避免,因为它们不能清楚指明要考查的最终表现”。①〔美〕诺曼·E.格伦隆德、C.基思·沃:《学业成就评测》,杨涛、边玉芳译,北京:教育科学出版社,2011年,第71页。二是要清晰地界定课程目标中可测量的内容。例如,类似“在此过程中体会实证精神”的表述,由于涉及情感态度价值观的方面,无法转化成考试测量目标,可以进行删除处理。
(一)对测量目标行为动词的理解和应用
需要强调的是,对于学生的学业来讲,主要有两个目的:一是学生能够通过教学过程识记教材的内容,二是能够运用所学知识解决新问题,也就是学习的迁移能力。对于第一个方面容易理解,许多教师常常对第二个问题感到困惑,学习的迁移能力包含哪些内容?在这方面,修订后的布卢姆教育目标分类学帮助我们拓展了教育目标的范围,尤其是对学习迁移的目标进行了重点解读。下面具体以“理解”这一认知目标为例加以说明。“理解”在日常教学和考试评价过程中的应用是最为广泛的,但是常常被笼统的使用,甚至误用,经过安德森等人的修订完善后,“理解”具体分为:解释、举例、分类、总结、推断、比较和说明,层次更加细化,在实践中更具操作性,“更为强调了有意义的学习,使得新的分类体系与建构主义的理论有机结合起来。”②〔美〕罗伯特·J.马扎诺、约翰·S.肯德尔:《教育目标的新分类学》,高凌风等译,北京:教育科学出版社,2014年,第7页。下面结合历史学科核心素养,具体说明对测量目标行为动词的理解和应用。
1.解释。解释是指“学生能够将信息从一种表示形式转变为另一种表示形式,它可能涉及将文字转变为文字(例如释义),将图画转变为文字,将文字转变为图画、将数字转变为文字,将文字转变为数字,将音符转变为声音,等等。”③〔美〕洛林·W.安德森等:《布卢姆教育目标分类学:分类学视野下的学与教及其测评》,蒋小平等译,第54页。解释的同义词是转化、释义、描述和澄清,能够测评“解释”的题型主要有选择题和主观题等题型。以例题1、例题2加以说明。
例题1:下表是1894~1914年英、日等国占中国对外贸易总值的百分比。
年份1894 1900 1905 1910 1914英国69.49 62.99 55.71 50.89 48.31日本6.26 11.20 14.04 16.14 20.39其他国家24.25 25.81 30.25 32.97 31.30
对表中数据解读正确的是
A.《马关条约》签订后日本加强对中国的经济侵略
B.对英贸易比重降低表明英国国际地位的明显下降
C.这一阶段帝国主义列强的经济侵略以商品倾销为主
D.对其他国家贸易比重变化折射出中国国际地位提高
例题2:汉宣帝曾称:“与朕共治天下者,其唯良二千石(郡太守)乎!”后来的帝王反复重申上述观念。这主要体现了
A.地方吏治是国家安定的重要因素
B.中央集权与地方分权之间的矛盾
C.汉代地方行政制度为后代所沿用
D.历代帝王将汉宣帝作为治国榜样
例题1是测试“从表格数字转变为文字”的解释能力,例题2是测试“从文字转变为文字”的解释能力。这两种测试方法在历史学科考试中经常运用,都是历史学科核心素养“史料实证”的一个重要内容。历史学习中面对各种类型的史料,如文字材料、数据表格、图片,等等,最基本的要求就是能够运用所学知识进行史料解释。例如现行历史高考和学业水平测试的选择题中,许多试题的设问都采用了“这表明”“这反映了”的设问方法,都可以归类于对“解释”这一测量目标的具体应用。
2.说明。主要含义是建构一个系统的因果关系,“在社会课中,目标可能是说明18世纪重要历史事件的原因,与之对应的测评题要求学生阅读与讨论关于美国独立战争的课文,然后建构独立战争中事件的一条因果链,从而对独立战争爆发的原因作出最佳的说明”。①〔美〕洛林·W.安德森等:《布卢姆教育目标分类学:分类学视野下的学与教及其测评》,蒋小平等译,第58页。再如,通过了解秦汉时期的社会矛盾,说明秦朝崩溃和两汉衰亡的原因。在历史学习和研究领域,最常见的测评“说明”的设计就是通过对史料的解释,要求说出事件发生的原因。例题3以西汉马匹数量的变化为视角,要求考生说明社会稳定经济迅速发展是西汉前期马匹大量增加的原因。
例题3:西汉初年,皇帝找不到颜色相同的四匹马来驾车,将相大臣甚至只能乘坐牛车;到汉武帝初,普通百姓也拥有马匹,“阡陌之间成群”。马匹大量增加的主要原因是
A.社会稳定经济得到迅速发展
B.西域良马引进与马种改良
C.游牧民族大规模地移居中原
D.长期和平使战马消耗减少
(二)实现学科素养立意的情境化命题模式
我们对情境化命题模式的认识是逐步提升和加深的,一开始很多人只是关注情境材料要新颖,随着课程改革和考试评价的发展,我们认识到,情境化的命题方式不仅应注重材料的新颖,更要注重新材料的有效性。尤其是新课标明确要求以新情境下的问题解决为重心。那么对教育考试而言,如何构建基于学科核心素养的情境化命题模式?
1.注重情境选材的类别化和结构化
以往我们经常强调情境材料的选取要丰富和多样化,这项要求是不是已经足够?基于学科核心素养的课程改革给我们提出了更高的要求,即多维度设计试题情境,也就是要注重情境选材的类别化和结构化。历史学科的试题情境可分为学习情境、生活情境、社会情境、学术情境四个维度。例如,学习情境在现行考试中出现较多,主要是在历史学习中遇到的史料、图表、历史叙述等,但是情境材料的选取不应过于集中在这一类,这一点在考试设计之初就应注意。
2.情境选材的真实性和现实性
伴随认知心理学的发展和建构主义学习观的影响,考试研究也在不断充实和发展。建构主义提出的学习模式化中的一个重要观点就是学习过程中知识表现的多面性,“学生真正掌握某个概念,不是简单地背诵概念标签,而是通过多方面、多层次的表现(链接印象、情节等)来掌握这个概念。对年代、公式的死记硬背,不仅不会发挥概念的作用,而且很快就会忘记。因此,教育评价应结合知识表现的多面性,探索开发能够掌握真实情况的评价方法”。②〔日〕田中耕治:《教育评价》,高峡等译,北京:北京师范大学出版社,2011年,第116页。考试评价领域的“真实性评价”(authentic assessment)就是在这种背景下产生的,这里强调的是构成试题的情境素材的真实性和现实性。即将实施的历史学科课程标准也提出,学生能够应对和解决陌生的、复杂的、开放性的真实问题情境,是检验其核心素养水平的重要方面。反思现行历史学科考试中的不足,就是较少运用生活情境和社会情境,对现实问题和社会问题关注不足,这在今后的考试内容改革中应引起重视。
3.情境材料应服从考试测量目标
前两个问题主要说明的是如何选取情境材料,这里主要讲怎样使用的问题。一是情境材料要将知识内容和行为目标有效结合。许多命题者在实践过程中,往往以具体知识为出发点选取和使用材料,进而忽视了考试的测试目标,因而影响到考试的效度。例如目前在历史学科考试中,“这反映了”“这表明”大量出现在同一份试卷中,过于注重“理解”类别的考查,忽视了“评价”“创造”等其他测量行为目标的考查,这就意味着这份试卷仍然在强调以学科具体知识的测评为主,缺乏对测量目标的整体设计和思考。二是应根据测量行为目标的要求对情境材料进行适度修改。一般来讲,情境材料要有足够的信息量,包涵有效信息以及与考试要求无关的信息,如果不是考查“分析”认知领域中的“选择”,那么在情境材料处理方面就要裁剪那些影响到测试目标的无关信息,防止大量无效信息影响到考生。所以,作为高利害性的大规模考试,只有根据测量目标选取有效材料,才能达到测试目的,从而保证考试的效度和信度。
基于核心素养的考试评价体系是保证新一轮课程改革顺利实施的重要基础和支持系统,没有这一支持系统的有力保证,基于学科核心素养的教学难免会流于形式。这也对构建基于学科核心素养的考试测量提出了更高的挑战,对考试方案的设计、命题技术的研发和考试成绩的解释都意味着改造和升级。以大部分省份的高中历史学业水平测试为例,目前的考试远远未达到这个目标,大部分考试更多地强调考生的通过率和低难度。在命题方案的设计上缺乏规范性,表现在缺少测量目标或者测量目标不具有操作性,导致考试成绩无法进行科学解释,考试结果没有发挥更好的效用。构建基于学科核心素养的大规模教育考试,是考试评价领域的系统工程,除了要构建具有操作性的、系统化的测量目标化,还有许多理论和实践工作迫切需要解决,如测试内容选取与抽样、题型设置和题型功能、评分理念和办法,分数解释和应用等,都需要进行系统的、理论化的研究。
G63
B
0457-6241(2017)05-0020-07
马秀谊,任职于江苏省教育考试院考试命题中心,南京大学历史学院博士研究生,主要从事教育考试命题与评价研究等工作。
【责任编辑:王雅贞】
2017-01-16*本文系作者主持的江苏省教育科学“十二五”规划2015年度考试招生改革专项重点资助课题“关于高考加强能力考查的创新
研究”(课题编号:K-a/2015/10)的研究成果。