张淇 陈忠暖 方城
《国务院关于深化考试招生制度改革的实施意见》提出 “完善高中学业水平考试”,至少在未来一段时间里,学业水平考试将继续作为一项重要的教育考试制度而受到关注。因此,学业水平考试基于标准的实行情况如何是值得深究的问题。
从区域对比的角度,探究广东省与京津湘鲁四省(市)2009—2015年学业水平测试地理试题与课程标准的一致性水平,分析影响一致性水平高低的因素,对学业评价制度自身的完善、基于标准教学的推进和学生学业成就的达成发挥着积极的作用。
一、研究方法
1.研究样本
(1)课程标准。本研究选用《普通高中地理课程标准(实验稿)》(以下简称课程标准)为研究对象,它是研究一致性关系的基础。现行课程标准分为前言、课程目标、内容标准和实施建议四部分。其中,内容标准是对学生学习高中地理课程必须达到的基本要求,以行为目标方式表述。
(2)五省(市)学业水平地理试题。反映和评价一个地区的教育发展水平,可以用教育发展指数作为指标。由于全国不同省(市)高中学业水平测试方案不尽相同,因此在保证样本时间尺度相同、课程标准依据相同的情况下,再根据教育发展水平指数,选择教育发展水平指数处于前列的北京、天津,以及教育发展指数与广东水平相近的湖南和山东五省(市)的试卷作为横向比较样本,以此探究广东与教育发展水平相近的省份的一致性水平情况,以及与教育发展水平较高的省份间的一致性水平是否有差距。本研究累计研究五省(市)七年来水平测试地理试卷35份,完成试题编码1 936个。
2.研究工具
目前学业评价与课程标准的一致性研究模型有韦伯模式(Norman L. Webb)、课程实施的调查(Surveys of enacted curriculum,SEC)模式和成就公司模式(Achieve. Inc)等。综合各省(市)水平测试试题和国家课程标准的现实情况,决定选用适合笔纸测试的韦伯模式进行研究。韦伯模式是众多工具中理解学业评价和课程标准之间最重要、最具有创新性的模式。韦伯分析模式的核心框架包括知识种类、知识深度、知识广度和知识分布的平衡性四大维度。
3.研究步骤
(1)对认识水平的划分。认知水平具有层次性,我国课程标准对认知水平的划分主要依据布卢姆的教育目标分类学。据此,本研究基于布卢姆分类学相关理论,并结合广东省学业水平测试地理试题的具体情况,将认知水平划分为:记忆、理解、运用和分析四个层次,在编码时分别用阿拉伯数字“1、2、3、4”进行标记。
(2)对课程标准的编码。首先,按照《普通高中地理课程标准(实验)》的设置,将课程标准的内容目标分成三级系统,分别是学习领域、主题和具体目标。其次,对课程标准进行重新整理,确定每条具体标准只包含一条学习要求。然后用序号x、y、z对每条具体目标进行编码,其中x、y、z均用阿拉伯数字“1、2、3……”分别表示学习领域、主题和具体目标的序列,并对课程标准所要求达到的认知水平进行编码,如表1所示。
由于韦伯关于学业评价与课程标准一致性的研究,主要涉及知识技能和认知要求两大维度,不涉及过程与方法和价值观方面的内容,因此,对个别考查体验性目标的标准内容和试题均不编码。
(3)对地理试题的编码。试题编码主要包括三个内容:①分析每道试题对应课程标准中哪一条具体目标;②对试题所考查的认知水平进行判定;③把试题所考查的认知水平与对应具体目标的认知水平进行比较,其契合情况划分为“1(低于)”、“2(符合)”和“3(高于)”三种。由于我国课程标准的内容标准中,没有具体对应的技能目标,因此,本研究只对知识目标进行编码,对个别技能目标的试题则不编码。
二、分析过程
按照韦伯模式知识种类、知识深度、知识广度和知识分布平衡性四大维度,对编码数据的统计和整理结果如下。
1.知识种类的一致性分析
知识种类维度探究试题考查的学习领域与课程标准要求的学习领域是否一致,依据韦伯设定的可接受水平,只要该学习领域对应的试题数大于6道则可判定知识种类的一致性水平达到可接受范围。如表2所示,广东省各年份、各领域下试题击中具体目标的题目数均大于6道,一致性达到可接受水平。2009年的天津卷和2014年的山东卷考查地理3领域的题目数不足6道,一致性水平不可接受。地理1考查比重过大、题量过少是造成天津卷和山东卷该维度一致性水平不理想的原因。因此,权衡学习领域比重和充足的题量是保证知识种类一致性达标的重要条件。
2.知识深度的一致性分析
知识深度探究试题考查的认知要求和知识技能是否符合课程标准的要求,只要符合课程标准认知要求的试题数占总数超过50%,则认定为知识深度达到可接受水平,在40%到50%之间为勉强接受水平。如图1所示,五省(市)的知识深度一致性水平均达标,但其中广东卷三个学习领域的知识深度水平在五省(市)中均位最末,山东卷在三领域均位于前列。进一步分析发现,造成知识深度一致性程度处于低水平的原因,是试题所考查的认知水平“低于”课程标准要求的试题比重过大。而“低于”课标要求比重较大的具体目标有“分析地球运动的地理意义”、“运用简易天气图,简要分析锋面、低压、高压等天气系统的特点”、“分析工业区位因素”和“分析农业区位因素”,这些具体目标都要求学生达到“分析”水平。广东教育仍存在区域发展不平衡的问题,政策允许在一定程度上降低学业水平测试试题考查的认知水平层次,以照顾教育落后地区学生。
通过分析,发现还有两个因素影响知识深度一致性水平:一是学业水平测试命题依据——考试大纲。广东省现行学业水平测试的命题依据是《广东省普通高中学业水平考试地理科考试大纲》(以下简称“大纲”),《大纲》对考核目标要求的表述仅呈现知识点,省略了行为动词,使命题者无法判断考核目标的认知水平,影响知识深度一致性水平。二是基于标准的课堂教学未普及。受《大纲》影响,部分教师只教授大纲上的知识点,“节约”课时以备考高考必考科目。
3.知识广度的一致性分析
知识广度探究学生正确回答问题所需要的知识与课程标准所涉及的具体目标是否一致,击中目标的题目数占总题目数比重超过50%则达到可接受水平,超过40%为勉强接受水平。如图2所示,广东卷和北京卷的知识广度一致性水平在五省(市)中处于前列,天津卷除地理1领域较好,其它领域同湖南卷、山东卷均不理想。通过分析试题编码数据,总结出五省(市)试题极少,甚至从未考查过的具体目标有:“说出地球的圈层结构”、“概括各圈层的主要特点”、“了解人地关系思想的历史演变”和“了解数字地球的含义”。据计算,35套试卷的题量与知识广度值的相关系数为0.837,表明二者之间存在高度相关性。广东卷和北京卷平均题量为一套卷70道题,天津卷、湖南卷和山东卷则分别为46道、43道和42道。经典测量理论认为,试卷题目数量越多其信度越高。广东卷题量最大,且题型仅为单项选择和双向选择的客观题,有利于保证每年稳定的题量并维持较高的知识广度一致性水平。题量最少的山东卷和湖南卷七年来累计仅被击中一次的具体目标仅15个,从未被击中的具体目标多达18个,是北京和广东卷的两倍之多,天津卷则居中。
4.平衡性指数的一致性分析
知识分布平衡性探究的是试题考查的学习目标在课程标准中各个具体目标间分布的均匀程度。该维度的判定标准依据韦伯提供的知识分布平衡性指数(B)计算公式,如B=1-式中O代表某领域中试题击中的具体目标数,Ik代表击中某具体目标的试题数,H为击中某领域的所有题目数。
平衡性指数超过0.7达到可接受水平,0.6~0.7则为勉强接受水平。如图3所示,五省(市)试题总体的知识平衡性指数都表现理想,均达到可接受水平。但相比之下,广东卷和北京卷的知识分布平衡性一致性水平在五省(市)中处于中下游位置,天津卷、湖南卷和山东卷则情况较好,说明广东卷和北京卷虽然考查涉及的具体目标范围广,但却出现部分试题扎堆现象。容易出现扎堆的具体目标有“分析地球运动的地理意义”、“说出气压带、风带的分布、移动规律及其对气候的影响”、“分析农业区位因素”和“分析工业区位因素”。出现这些目标扎堆考查的原因,与具体目标的内容较为丰富有关,也与我国基础教育强调基础知识和基本技能,命题时将“双基”列为考查重点有关。
三、结论与建议
如表3所示,广东省2009—2015年高中学业水平测试地理试题与课程标准的一致性总体水平在五省(市)中居前列。广东省一致性水平在五省(市)中表现良好,首先得益于广东作为首批实行新课程改革和高考自主命题的省份,有利于保证广东省基础教育行业对课标的理解和命题技术的掌握。其次,虽然五省(市)在相关的学业水平测试说明中均强调对基础知识的考查,但广东卷题量为五省(市)中最多(70道选择题),有利于更全面地考查学生对各部分知识的学习水平,提高了击中课程标准中具体目标的概率。另外,通过对数据库检索发现,有关广东省学业水平测试的理论研究是五省(市)中最多的,而天津市的研究情况仍属空白。针对各省(市)出现的一致性问题,并基于广东省的先进经验提出以下几点建议。
1.借鉴课程改革经验,深化课程标准意识
建议就学业水平测试实施情况进行现状调查,就其存在问题向新课程改革实验区或自主命题先行省份借鉴经验,改进不足。同时,深化命题者和教师基于课程标准的意识,引导考试和教学回归标准的要求。
2.明确学业水平测试性质,制定试题命制程序
明确学业水平测试的标准参照考试性质,以全面考查学生基本地理知识为目的。可以参照一致性的分析维度,从知识种类、深度、广度和平衡性方面制定相应的试题命制程度,保证试题的科学性和全面性。
3.关注学业水平测试理论研究,注重评价结果反馈
专家、教研员和教师应加强对学业水平测试的理论研究与分析,了解考试的实施情况,从考试制度、组织程序和具体实施手段加以完善。同时,注重评价结果反馈于实际教学中,调整、改进教学和复习策略,从而促进学生获得高质量的学业成就。
4.加强学业水平测试的省际对比,建立一致性数据库
普通高中学业水平考试制度目前还处于试行阶段,各省(市)对于水平考试的性质、科目和功能定位等不尽统一,各科目试题在考试要求和题型设置上也存在差异。在这种情况下应加强省际间对比,及时总结较好经验,取长补短,逐步完善学业水平考试制度。