徐 奉 先
2020 年,继上海、浙江新高考方案落地后,北京、天津、山东、海南四省市也将实施进入新高考后的首次考试,2021 年还将有河北、辽宁、江苏、福建、湖北、湖南、广东、重庆8 省市作为第三批试点实行新高考。高中学业水平选择性考试是改革新方案中的重要一环,也是改革的重点与难点。《国务院关于深化考试招生制度改革的实施意见》明确指出:“学业水平考试主要检验学生学习程度,是学生毕业和升学的重要依据。考试范围覆盖国家规定的所有学习科目,引导学生认真学习每门课程,避免严重偏科。”①国务院:《国务院关于深化考试招生制度改革的实施意见》,人民出版社,2014 年9 月。在新高考实行“两依据一参考”的招生录取模式下,需要从国家经济社会发展对提高全体国民素质和人才培养质量的新要求出发,广泛借鉴国际基础教育课程改革趋势,避免出现大规模学生反复多考、放弃重要学科盲目追求A 等、大量高水平考生获得过低等级分数等问题。尤其后续的大部分省份都是在新课程标准颁布和新教材推行后实施新高考,更要提前做好专家团队和标准建设,以免对新高考方案、学业水平考试、基础教育以及高等教育带来负面影响。本文拟从四个方面对新高考学业水平考试的技术框架进行商榷。
由于新高考改革与课程改革同步,广大即将加入新高考的省份就不能再基于老课标进行命题和考试;而新课标提供的测量目标主要针对核心素养,还需要从教育测量和考试评价自身的特点和规律出发,制定出具有可操作性的考试标准,使其成为覆盖基础知识、关键能力、学科素养和核心价值的科学考查体系,使学业水平选择性考试在人才选拔区分、评价和育人方面发挥更加积极的作用。
“基于标准的教育体系包括至少四个主要要素:课程标准、教学材料、课堂教学、考试评价,所有这些组成要素需要整合成一个整体,互相配合,指导学生学习课程标准规定的学习内容达到规定的要求。”②雷新勇:《从基于标准的基础教育改革的视角审视课程标准和学业水平考试》,《考试研究》2009 年第1 期。旧课标从严格意义上讲是教学标准,不是考试标准,因为其中没有对于内容标准和表现水平标准的明确描述。像高考这样的常模参照考试,是将考生与考生进行比较,而在基于标准的教育体系中,考试评价是将考生的表现与标准进行比较。要达到这一目的,课程标准必须设置比较的标准,表现水平标准就是这种比较的标准。它不但向学生阐述了学习的分层目标,也向教师阐述了教学应该达到的要求。
表现水平标准的主要作用是向教师和学生传达教学和学习应该达到的程度,旧课标在编订过程中没有设计表现水平描述,仅仅从知识与技能、过程与方法、情感态度价值观三个维度设置了培养目标,但这三维目标无法起到表现水平标准的作用。而此次修订的新课程标准设置了学生学习能够达到的不同目标程度,为不同水平的学生提供了培养目标,也为考试评价的开展提供了参照标准。表现水平标准是标准参照考试命题、等级划分、分数报告和对等级内涵进行描述的重要依据,这就要求作为参照标准的课程标准必须对学生经过基础教育阶段学习后应该达到的水平作出明确的界定。
课程标准的内容标准的作用是规定学生应该学习哪些内容领域或主题,每一领域或主题具体包括哪些学习内容,每一学习内容应达到什么认知要求。内容标准应该可理解、可执行、可完成、可测量。如果某一标准对某种评价手段,如纸笔考试而言不可测,那么就无法用这种手段对其进行评价。旧课标的内容标准对于学生应该学习的内容领域、内容主题以及每一主题下的具体知识内容规定得很明确,但对知识认知要求的规定还停留在相当模糊的阶段。而新课标不仅明确了学生在每一学科需要学习的知识和领域,也规定了学生在每一主题的学习结束后应该达到的认知水平,在一定程度上能够保证教材、教学和考试评价与课程内容标准的一致性。因此,内容标准决定了试题考查的知识点及其绝对难度或认知要求,也决定了整个试卷覆盖的内容领域、内容主题、每个内容主题的比例。如果学业水平选择性考试的内容要求与课程标准的内容标准不一致,那么考试结果就不能反映考生的学习水平。
前文已论及,常模参照考试的本质是将考生与考生进行比较,而标准参照考试是将考生与课程标准的表现水平要求进行比较,无论其他考生如何,衡量考生水平的标准是不变的,因此这个参照标准又称为绝对标准。在标准参照考试的设计中,需要通过一个一般称之为“标准设置(Standard Setting)”或“划界分数(Cut Score)设置”的过程,将考试分数转换为等级,而不是简单地按照考生的百分位分数划分等级。用学业水平考试等级结果来评价学校的办学绩效,诊断学校教学,为教学提供决策指导,甚至选拔学生,已经成为许多教育发达国家普遍的做法,我国实施学业考试制度采用这一做法可以说是顺应国际教育发展趋势,值得称道。然而,学生从等级结果中获得的个人、班级、学校学习水平和优势、弱势等的信息,依赖于考试评价机构对等级的内涵解释,后者参照的标准就是课程标准中的表现水平标准。
新课标规定的知识内容、培养目标、学业质量标准等都较旧课标发生了很大变化,尤其新增的“学科核心素养”和“学业质量”是其重点和亮点,核心素养的提出,明确了各学科的育人目标,即:今后的高中教学应以培养和发展学生的历史学科素养为导向。新课标在颁布和实施后,势必会给基础教育带来一系列影响,教学的理念与方式、课程安排、学习效果检验等环节都需要一一理清,才能适应教育综合改革的要求。新课标的核心素养,落实到学业水平选择性考试,如何确保考试内容与课程标准的一致性,并有效考查学生核心素养的达成程度,在技术上也会衍生出许多需要破解的问题。如学业水平考试制度需要重新设计,要让学生通过每门课程的学习为自身的终身发展奠定基础。具体到不同学习领域与课程,考试方式也需要根据学科课程性质、特点进行设计,不再是基于综合考试(如现行的文科/理科综合模式)的架构进行命题蓝图设计。此外,从实践上看,新课标颁布后做到合理安排课程进度和考试时间殊为不易,更应该提前做好教学-考试的流程设计。
实施学业水平选择性考试,设计初衷一是为了促进学生认真学习每门课程,避免严重偏科;二是推进高中教学准确把握学生的学习状况,改进教学管理;三是促进高校科学选拔适合学校特色和专业要求的学生,促进高中、高校人才培养的有效衔接。这表明学业水平考试在功能上又有了新的拓展,在保留原有鉴定、监测功能的基础上,又添加了选拔的功能,由过去单纯的终结性考试,变为了兼具过程性与终结性二者合一的复合型考试。一般而言,在成绩解释上,毕业功能对应标准参照测验,升学功能对应常模参照测验。不同的测验形式,试卷设计会有所不同。这对学业水平考试提出了新的严峻的挑战,无论是理论层面的顶层设计还是实践层面的具体操作,都需要进行新的界定和规范,最大化地保证选拔功能取向下的学业水平考试能为高考录取提供公正、科学、严肃、权威的参考依据。学业水平选择性考试兼具鉴定和选拔的功能,是在合格考强化基础的前提下,凸显不同高中学生在学业修习上的学科特长,体现学生的选择性。选考成绩计入考生总成绩,是高考统一录取的依据之一。高等学校根据考生总成绩,按照招生章程和计划,德智体美劳全面衡量,择优录取。根据高考评价体系“立德树人、服务选才、引导教学”的核心功能,学业水平选择性考试功能可总结为三个方面。
一是立德树人。学业水平选择性考试全面贯彻落实党的教育方针,加强理想信念、爱国主义、品德修养、知识见识、奋斗精神、综合素质教育,引导学生树立正确的世界观、人生观,践行社会主义核心价值观,实现德智体美劳全面发展。二是服务选才。学业水平等级性考试通过科学的评价,选拔出符合国家和高等教育需要的优秀人才:具有家国情怀、国际视野和核心价值;具有必备知识、关键能力和学科素养;具有求真务实、学以致用的优秀品格和创新意识。通过落实国家人才选拔要求,保证人才选拔质量;通过科学的命题设计和情境构建,以及合理的评分标准,促进考试公平和合理分流。三是引导教学。学业水平选择性考试立足于助力素质教育发展,引导中学教学落实党和国家对基础教育的要求,培养社会主义合格建设者和接班人,坚持正确的政治方向,着力培养和发展学生的必备知识、关键能力和学科素养,促进检视教学效果,改进教学,提高质量,启发学生自主学习和探究性学习,提高学习能力和创新能力,破除“唯分数”“唯升学”的顽瘴痼疾,合理减轻学生负担。
学业水平考试目前尚未建立国家标准或统一的全国性大量表,选择性考试按人数比例划分等级可能产生比较严重的分数差距扭曲,按比例赋分带来的利益博弈导致考生选择理科科目的比例明显下降,既不利于人才选拔,也极易对学生发展形成负面导向。各省市考试标准的建立,宜基于自身实际教情、学情、考情和参照国际通行做法,明确考生在高中阶段所应达到的学习水平,从而保证考试的信度和效度,助力高校人才选拔和确保公平。
尽管不同国家的政治体制、教育制度、教育管理方式、高校人才选拔方式等存在多方面的差异,但在全球化时代,经济社会的发展对人才提出了一些共性的要求,教育领域的人才选拔和培养呈现出一些共同的规律,学业水平考试的内容和标准也体现出一些共同特征。这些特征体现了学业水平考试的设计、研制原则和程序,也反映了国际上学业水平考试改革和探索的一些共同趋势。首先,各个国家和地区学业水平考试标准的设置都非常强调考试的设计和实施必须以相应的教育阶段和课程标准为依据。其次,学业水平考试在内容框架、试题开发和评分标准等方面都必须严格按照相应的课程标准进行,需要明确每门考试课程的内容标准和等级标准。在具体选考科目的设置上,大都采取了必考科目和自选考试科目相结合的模式。通过规定必修课程和必考科目,可以确保学生能够形成基本的知识素养和学科能力,而选修课程和自选考试科目一方面减轻了学生的学习负担,另一方面也可以给学生一定的自由度,充分考虑到学生个性化发展的可能性。再次,课程内容标准除了规定相关课程的学科内容范围之外,还要明确相应内容所涉及到的学生认知水平和能力基础;等级标准要规定学生达到课程相应内容和认知水平不同等级要求的具体特征,做到具体、明确、可操作性强。
基于上述情况,结合我国具体国情和现实情况,我们在普通高中实施学业水平考试时,由于学业水平合格考已经具备了认定学生高中毕业标准达成程度的功能,选择性考试就可以作为高等院校录取学生依据的重要组成部分。学业水平选择性考试应该在合格考试强化基础的前提下,凸显学生在学业修习上的水平和学科特长,“突出个性”和强调区分度,充分体现以人为本、学其所好、考其所长的原则。
学业水平选择性考试的设计要首要考虑的基本问题就是标准的制订。这里的“标准”前文已述及,通常包括两方面的含义:其一是内容标准,其二是表现标准。内容标准侧重于某个年龄/年级的考生需要掌握的知识范围或技能领域,主要关注是“是什么”的问题,通常以课程标准,或考试大纲,或考试说明的形式进行说明。表现标准侧重于某特定等级(如合格、良好、优秀等)的考生对某个知识或技能应该掌握的程度。例如,美国多数州的课程表现标准包括四个水平或等第,即高级(advance)、熟练(proficient)、基本(basic)以及须改进(need improvement)。表现标准是学业水平选择性考试命题、等级划分、分数报告,和对等级内涵进行描述的依据。
其中,内容标准的设定需要在研发标杆试卷时完成,即考试管理部门需要组织学科专家和心理测量学专家,根据国家课程标准或考试大纲,精心编写每个学科的考试标准。考试标准需要对考试的目的、对象、内容、能力、形式、样题样卷、信度效度指标要求、结果解释和使用等作出具体规定,并提前向社会公布。其中,对学科内容的层次化、结构化的操作性定义是工作的重点。以美国共同核心课程标准(Common Core State Standards)为例,其中的高中数学内容标准分三个层级,第一层级包括数与量5、代数、函数、建模、几何、概率与统计6 大类,第二层级是在每个小类下列出一系列要素,并对所有要素进行解释或示例。①The National Governors Association,the Council of Chief State School Officers,Common Core State Standards for Math,2016- 12- 06. http://www.corestandards.org/assets/CCSSI_Math%20Standards.pdf.尤其重要的是,这三个层级的所有要点都必须做编码处理,以方便日后的题库建设与自动组卷工作,同时可为教学提供指南。待内容标准被确定并且编码工作完成以后,命题团队与心理测量学团队需要通力合作,编制考试蓝图(Test Blueprint)。考试蓝图的作用是明确每个知识要点需要考查的题目数量及权重,以及需要考查的能力深度或复杂程度等。考试蓝图类似于工程建设中的施工图纸,施工时的材料(考试题目)和结构(试卷编排)等必须完全符合图纸要求,也就是说,题目是可以变换的,但所要考查的内容和深度是必须稳定的。这是为日后的测验等值打基础。
表现标准的设定则基于内容标准以及考生总体或它的某个代表性样本在标杆试卷上的作答水平。也就是说,对于国家要求的各种水平等级,例如A、B、C、D、E、F 等级,首先必须从任务的重要程度以及题目的难易程度上,由学科专家作出初步判断。然后通过分析总体或它的代表性样本在标杆试卷上的得分再作出调整。这项工作既可以在研制标杆试卷的同时完成,也可以在正式考试实施之后完成。设定学业水平标准的主要作用在于避免出现选科选考过程中的“避难就易”“避强欺弱”等问题。例如,当优、良、合格等标准会因为考生群体的水平太高或太低而发生变动时,学生会选学或选考容易让自己名列前茅的科目,因为浙江、上海的新高考方案中明确建议原始分数最高的15%考生可获得A 等。一旦等级标准不因考生群体的不同而不同,学业水平等级考中的许多乱象便可自动消退。具体来说,表现标准的设定应包括以下10 个步骤。②Hambleton R. K.,Jaeger R. M.,Plake B. S.,Mills C. N.,Handbook for Setting Standards on performance Assessments,Washington,DC:Council of Chief State Officers,2000.第一步,组建专家小组。根据测评目的,组建一个由教育管理者、学科专家和测评专家组成的有代表性的专家委员会或专家小组。第二步,准备专家会议。选定一个标准设定方法,准备培训资料,确定工作会议日程。第三步,编写等级说明。专家组根据自己的学科知识和素养,对表现水平为优、良、合格等各等级的最低表现水平作出操作性的文字描述,形成工作中的指导文件。第四步,实习评定方法。组织专家组学习和掌握标准设定方法。通常需要专家试用推荐的标准设定方法,以便大家使用相同的评定规则。第五步,初步评定等级。专家对标杆试卷中的每一道试题,按照标准设定的方法,初步评定各等级最低水平的学生答对各题的比例。初评结果经过统计处理后形成综合报告反馈给各位专家,以方便专家进行下一轮的独立评定。第六步,综合多方信息。专家根据初评结果综合报告,结合实测所得题目难度、区分度、题目特征曲线、客观题选项分布等信息,再次运用特定的标准设定方法,对每道题重新评定,形成第二次综合报告。第七步,反复多轮讨论。重复第五步和第六步多次,逐步形成稳定的评定结果。第八步,终审评定结果。综合各专家成员多次评定的结果,形成一份对各题的最终评定报告。通过统计处理,确定每个等级在标杆试卷上的最低分数要求。第九步,评估评定过程。在得到专家组的终审评定结果之后,各位专家还需要对自己的评定过程进行一次独立的检查,包括对标准设定全部过程的自评、对评定工作的信心、对掌握和运用评定方法的正确性等工作作出独立评定。第十步,收集效度证据。对专家给出的评定结果,还需要收集其他独立的证据进行效度验证。一旦发现偏差,则需要对评定结果作出必要的微调。在此基础上,才能形成标准设定的最终文件。值得说明的是,标准设定的工作耗时较长,所需要的专家人数也比较多,因此该项工作需要提前做好周详安排。
学业水平考试的研发应该严格按照心理与教育测量理论中的测验编制要求进行,具体开发团队和机构应该提供考试内容框架的确立,试题与考试内容、能力水平的对应性,试题的测量学特征(难度、区分度、试题偏差等)、考试过程、测验分数或等级评定的质量(信度、效度、可推广性、公平性)等方面的相应论证材料。为确保各省市学业水平选择性考试质量、过程和标准上的一致性,需要在教育部门领导和监督下,任命或组建全国高中学业水平选择性考试评估委员会,具体负责(1)制定国家水平的学业水平选择性考试质量标准;(2)审议和监督各地学业水平考试质量;(3)提供各地有关学业水平考试质量问题的咨询和审查等相关事宜。考试委员会应建立起一支稳定、质量可靠、高度专业化的测量与评价队伍,吸纳课程专家、心理与教育测量专业人士参与,以确保考试开发和实施的质量。此外,成立由各相关方面人士如家长、教师专业人员等构成的监督和审议委员会,负责对考试内容、公平性、技术和评分标准等方面与环节进行审查与监督。在具体管理和实施中,可以考虑建立专门的考试协调者,并对考试管理者进行相关的专业培训。明确规定每所学校的主考官的资格,以确保各地考试过程的一致性和考试质量。
新高考背景下,作为学业水平选择性考试的科目组合可达20 种之多,某些省市的考试次数较以往也有所增加,传统的入闱命题将不再适应新情况下的新要求。因此,学业水平选择性考试必须提高适应考试内容改革的能力,充分发挥现代教育测量理论在试卷设计、分数报告上的作用,创造条件为有需要的学生提供两次甚至多次考试的机会。命题的实施应考虑充分发挥题库作用,建立与新课标、新高考相适应的题库运转流程,探索日常命题和广泛征题模式,并建立与学科对应的资料库。
新高考学业水平选择性考试的题库建设应探索广泛征题的工作模式,不仅有利于实施日常化命题,也能够将专家系统与社会系统相结合,最大限度地为国家题库建设服务。题库征题包括两种方式,一种是面向社会,以外部网络为征题平台的征集方式,一种是在定点高校院系以专家组为单位的定向试题征集。征题平台的设计,应该有明确要求,如征题的需求、征题工作的协议、征题人员的身份验证、试题属性、试题提交程序等等。关于题库试题的标准和要求,命题者应以课程标准、考试标准为依据,做到测试目标明确,科学规范。同时每一道试题的信息应当明确,例如:试题的内容,考查的关键能力、考查的核心素养、价值观念等等。试题的各个属性(如:题型、内容、答案、知识点、试题来源)应当完整,且与题库建设各学科的属性一致。关于定点高校征题人员的管理,应组织学科专家、教育测量专家对命题人员进行命题技术的专题培训,命题部门提供征题软件需求、学科考查内容和能力要求、试题范例、征题要求、征题培训内容等信息。
此外,应尽快制定《学业水平选择性考试题库征题工作办法》,在此基础上,起草、制定征题平台的需求、面向社会征题的管理办法、定点院校征题的管理办法、定点征题院校的布点计划、题库征题工作规划等文件。通过一系列文件,把命题经验科学化、规范化、标准化。
新高考实施后,随着考试次数和试题数量的增加,对试题素材的消耗也随之增加。为提高命题的工作效率,应尽快建立起与题库相配套的查重系统和试题素材资料库。查重系统应包括历年试题、教材、社会通行的各种模拟考试题、练习题等;资料库建设应重点完善适合作为学业水平选择性考试试题的素材搜集和整理,尤其是文字形式之外的图画、照片、统计图表等等。以期创新试题情境设计和丰富呈现形式,激发考生的作答兴趣。
针对本文所构建的命题技术框架,笔者从学科评价体系的建设出发,探讨相关流程的具体操作运用,以期为新高考省份提供参考借鉴。
2016 年开始,教育部考试中心探索构建面向新高考的高考评价体系,其中的考查目标包括“核心价值、学科素养、关键能力、必备知识”,回答高考“考什么”的问题。①姜钢:《探索构建高考评价体系,全方位推进高考内容改革》,《中国教育报》2016 年10 月11 日,第3 版。要使学业水平选择性考试真正服务于基础教育和高校招生,首先要基于高考评价体系的理论设计,对高校人才选拔需求和基础教育人才培养进行调研,根据高校各专业的人才需求和基础教育各学科的人才培养目标,确定学生在在完成高中阶段学习后所必须具备的核心价值、学科素养、关键能力、必备知识。然后整合两个层面的调研结果,确定高考各学科关于学生核心价值、学科素养、关键能力与必备知识的整体考查要求。
根据上一步研究所确定的学生核心价值、学科素养、关键能力、必备知识的内涵与操作性定义,需要基于测量理论和考试规律对各主要学科进行调研,提出能够体现各学科核心价值、学科素养、关键能力、必备知识的典型情境与活动原型。尤其情境作为实现学科考查目的和考查要求的载体,应有利于让学生更深刻地体会到现象、事实的意义,以及这些现象、事实与学科知识的内在联系,促进深刻、精准地分析问题和解决问题。
在这一环节,需要设计基于各学科核心价值、学科素养、关键能力与必备知识的“双向细目表”,形成各学科的考试命题方案与题型,并进行取样试测,测试题型的适应性,最终完成学业水平选择性考试测评方案。这个流程包括以下环节:(1)确定各学科核心价值、学科素养、关键能力与必备知识的“双向细目表”,双向细目表中每个知识与能力、素养的结合点,就是学科活动的基本单元。(2)确定各学科考核的具体内容与题目类型,一般应该包括三类题目。第一类是考查学生必备知识与关键能力的题目,主要是单项题目,可以称为“考查学科素养的认知要素的单项题目”,主要体现考查的基础性。第二类是综合考查必备知识、关键能力与情感态度价值观的单项题目,可以称为“考查学科素养的单项题目”,既可以体现基础性与综合性,也可以体现应用性和创新性。第三类是考查学生在本学科典型的问题情境中综合利用所学知识和素养、能力,以核心价值为指导处理复杂任务的学科素养的综合题目。这类题目在解决问题的观点态度上需要体现学生的核心价值观水平,主要是综合性主观题,可以称之为“考查学科素养的综合性题目”,可以体现综合性、应用性与创新性。这类题目与以往的命题有很大的差异,问题情境的生态性(即对实践的仿真性)、知识能力运用的综合性、问题解决的开放性、多样性、核心价值的导向性等方面要融为一体,尤其是作答指向如何体现核心价值的引导,更是全新的要求。(3)进行取样测试,确定各学科考核的具体内容与题目类型的适合性。各学科根据考核的具体内容与题目类型,设计出学业水平选择性考试样卷,大范围取样进行测试,根据测试结果进行项目分析与信效度分析,最后确定考核的内容与题型。
随着基础教育课程改革的全面实施,考试评价制度改革也在逐步推进。要做好学业水平考试,实现国务院提出的深化考试招生制度改革的目标,必须以教育心理学和测量学理论为支撑。所有工作都需要学科专家、测量学专家、教育管理工作者的通力合作,不可局限在普通高校高考招生的范畴之内。应探索建立学业水平选择性考试自身的测量理论体系,使其成为具有全国统一标准、规范的测评体系及权威、严密高效的运作体系,成为一种独立的、具有高效度和高效率的、所认定价值能直接兑现的权威性考试。