熊志权,李自立
(1.华南师范大学物理与电信工程学院,广东 广州 510631;2.珠海市香洲区教育局教研室,广东 珠海 519070)
2013年6月教育部颁布了《关于推进中小学教育质量综合评价改革的意见》,要求建立以学生发展为核心、科学多元的中小学教育质量评价制度,切实扭转以单纯测试成绩和升学率评价中小学教育质量的倾向,构建一套体现素质教育要求的“绿色评价”体系。“测试+同步问卷”这一方式除了看传统的测试分数,还通过问卷关注获取分数付出多少成本,能寻找区域学业质量形成途径和付出的代价,这种评价方式便于操作,评价结果的解释通俗易懂,能较好地引导区域学业质量评价进入“绿色GDP”时代。
当前,评价一个区域、一所学校学业质量的好坏,公众的眼光普遍聚焦在测试成绩排名和升学率的评价上,这种以单一纸笔测验分数来衡量学校质量的倾向至今还没有得到根本扭转,也没有因为新课程的实施而得到改观,主要表现在:评价内容上注重知识领域,漠视学生感情态度和个性发展;评价方式注重静态结果而忽视学校的起点和努力程度;评价结果过分强调甄别而轻视诊断和改进。“成绩报告单”简单地取代了评价的结果,测试分数的误用滥用屡见不鲜,这些问题严重遮蔽了教育的丰富内涵,制约了学生社会责任感、创新精神和实践能力的培养,要解决这些突出问题,适应经济社会和教育事业发展的新形势,必须大力推进区域学业质量评价改革。不仅要把学业成绩、学习动力、学习方法和学习生活品质等都作为学业质量的重要组成部分,还要把学生睡眠时间、在校时间、课后作业量和体育锻炼时间等纳入评价的范围。
学生是有差异的,学校间同样存在差异。学生的学习活动并非只有高低之别,还有个性化特点和倾向的不同,也即学习风格的迥异,如果用测试分数粗暴地一刀切去评价学校的学业质量,总会存在一些误判。[1]当测试成绩偏低时,不能武断地认定教师没有教好,依据单一因素不能判别学校学业质量的优劣。有数据显示,家庭背景、性别差异、遗传基因都会影响学生的学业成绩,而这些因素学校却无法去改变。
另一方面,有些考得较差的学校往往都会归咎于生源不好,那么究竟什么样的生源能决定测试成绩?生源在其中起多大的作用?生源的哪些方面起了作用?经济条件、独生子女、家庭文化背景、家长学历水平等这些生源背景到底多大程度上影响学业质量,这些需要我们巧妙地设计问卷,并和测试成绩相结合来分析,以便于进行基于数据证明的理性回应。
知识的获取是需要计算成本的。以测试分数论英雄,不关注学生成长,不看育人过程只看测试结果,不重视分数获取过程中产生的附加教育结果,并且,学生获取学业分数也有不同的途径,有的学校的测试分数是依靠教师加班加点,牺牲学生休息、锻炼和睡眠时间获得的,有些学校压缩非测试科目课时获取测试成绩,有些学科的测试分数是教师诱逼学生在总量一定的课后学习时间多占时间去获取的,这些分数形成途径千差万别,付出的代价也各不相同,考虑成本的分数能改变学校之间过度竞争和不断恶化的教育生态环境。
只看测验分数的评价腐蚀课程实施,导致教师所传授的内容被限制在一个狭小的空间或囿于测试内容,教师不得不把生动的课堂变为单一的应试考堂,剥夺了学生学习比测试内容更重要的东西的机会。
为什么区域内学校间的测试成绩会有显著差异?为什么有些学生测试成绩好,而大多数测试成绩一般?有些学生测试成绩却很差?为什么有些学校测试成绩低分层面会越来越大?这些差异能够用学校文化、家庭背景、学校资源、教学行为的差异来解释吗?仅仅有测验结果的评价就是用分数来解释分数,做分数之间的数学转换游戏,并不能真正分析学校问题的症结所在,也达不到改进教学、促进学校发展的目的。要回答这些问题,我们通过问卷收集证据,便于学校寻找努力方向,也能使政策制定者对教育质量做出科学推断并决策。
刘坚等人认为,从数据挖掘的微观层面来看,学业质量分析的首要功能是了解一所学校、一个区域的整体情况,但除此之外,它还能帮助我们了解不同子群体之间存在的差异,如不同的性别、不同家庭经济情况的学生间的差异,更进一步,它还可以回答造成这些差异的原因,以确定弥补这些差异的政策和办法。[2]单纯的测试成绩并不具有实际的意义,重要的是找出测试成绩与影响因素之间的关系,使人们能够对测试分数做出深度的解读。学业质量是多层次综合、多因素累加的结果,多层次是指成绩是由学生个人、家庭、学校以及教育系统多个层面共同作用的结果,多因素累加是指学生学习参与度、家庭社会背景、教师能力、学校风气和教育政策等因素共同作用的结果,多层次和多因素构成的学业质量均隐含了丰富的教育信息。
学业评价绝非简单的一个测试分数,当前的评价和反馈简单粗糙,大量有用信息没有充分利用。学业质量评价希望通过学业评价本身的规约,无限逼近学业本真的存在。学业有可见部分和不可见部分:学业中可以被观察、测量和评定的是可见部分,如测试分数;不可见部分则是隐含的、通过推算和估量的,需要通过大量问卷引导出来。这两个部分在学业质量评价中同样不可或缺,问卷与测试分数相结合能使学业质量的可见部分与不可见部分相互解释和验证,便于挖掘数据背后的教育价值。
“测试+同步问卷”不仅体现了学业水平,同时还包含学习能力、情感兴趣等因素,引导学校注重内涵发展。区域学业质量评价为全市教学提供诊断和决策,找出妨碍区域学业质量提升的主要因素,做出影响学校成绩差异的因素分析,并提出改进意见与措施,引导学校回归到对人的教育的本源上来。
“测试+同步问卷”能促进学校进行精细化评价与管理,根据双向细目表中的双向要求,对知识掌握水平和能力层次结构进行精细化的评价与分析,通过问卷,对不能测量的认知领域进行精细化评价与反馈。当今,信息技术已经达到研究者要什么数据就有什么数据的水平,学业质量进行精细评价在技术上不存在障碍,精细化评价能发现细微的教学问题并提出针对性的改进措施,把教育导向卓越。
“测试+同步问卷”能提高教育行政部门和业务部门的指导水平。现代教育研究决策不能仅仅靠权威和经验,更不能凭习惯和直觉,教师要学会使用数据来解释教育现象,从数据中发现教育规律,这样才能经得起检验。教研员对数据要有敏锐性,倡导利用数据分析来改善教学,要开展基于证据的教学研究与指导,利用数据进行科学阐述和合理解释。问卷和测试相结合,在教学效益导向中,能计算投入与产出的有效性,促使学校用较低的成本达到同样的结果,这需要教师改进教学方法,把课堂教学效益发挥到最大。
问卷是教育评价中最常用的收集信息的一种方法,所获得的信息能用来进行定量分析,利用问卷了解师生对教学工作的反映。珠海市统一测试中,每一份试卷的最前面设置了同步常规问卷和同步学科问卷,同步的目的是为了使“问卷内容”与“测试内容”相适应,问卷内容要为测试内容服务,不能随意设置,设置问卷之前应该有预先的逻辑假设和教育猜想,每次问卷突出一个主题。问卷均以选择题形式呈现,数据出来后对假设和猜想进行论证和分析,充分地解释分数的意义。表1是同步常规问卷编制的基本内容。
纸笔测验只能对三维目标中的知识与技能进行较好的评价,过程与方法在某些科目中可以体现,情感目标则无法企及。学科同步问卷是学科教研员根据某个学段的教学需要,有针对性地选择问题进行问卷设置,没有统一的格式和内容要求。问卷设置的基本原则是不能用纸笔考试测量的学科领域可以用问卷的形式进行。如2013年7月珠海市七年级英语测试中的学科问卷,采集了学生对英语的兴趣、学习英语的习惯、英语语音方面的主观感受等情况,弥补了纸笔考试的缺陷。也可以根据英语学科的问卷结果,把具有高相关的某些选项的学生进行类聚,结合学生的测试成绩进行相关分析,进一步探究影响英语测试成绩的因素。也可以将各选择项赋值,将选项数据化后判定学校英语教学的实际情况。
每次测试后的评价结果将按两个方面反馈给学校。一是常规的成绩反馈,测试结果反馈给学校不再是单科的某个分数,我们把测试成绩标准化并指数化,提供全市各类常模,便于学校自主诊断与改进。评价结果多元等级呈现,根据学科双向细目表中按知识和能力结构进行反馈,方便学校发现学科教学中的细节问题,更好地反哺教学,可从多维度观察、评价与分析某所学校的优点和弱点,将高利害的分数变成群体大致位置和学校个性化成绩报表,把测试带来的副作用降到最低。
表1 同步常规问卷编制的基本内容
单纯的测试成绩反馈是无法达到对人的全面理解的,我们把问卷结果数据化,形成标准指数和常模,测试成绩不能解释的部分用问卷的形式来表现,问卷结果和测试成绩相结合相互解释与佐证,能大致反映出一所学校的办学行为和育人目标。
如果评价方式简单,只有卷面测试的分数,缺少相关因素分析,那么测试结果就会沦陷为高利害的排序工具。同步问卷与测试成绩相结合能进行大量的相关分析,也只有进行相关分析才能彰显问卷的价值和意义,促进家长和社会对教育的理解。例如,为了获取学生成绩与学业负担之间的关系,我们设置问卷做相关分析,图1是珠海市七年级约3万名学生的测试成绩与学业负担的关系图。
图1 中横坐标是学业负担指数,主要调查学生的客观学习负担和主观学习感受,是通过学生的睡眠时间、家庭作业量、在校学习时间和参加文化课补习情况等因素构成,赋值统计后,综合形成的“学业负担指数”,纵坐标是测试成绩,由语文、数学、英语三科的总分构成。我们发现,成绩并不是随着学业负担加重而增加的,学业负担达到一定程度后成绩上升的趋势会趋缓,如果学业负担过重,成绩会不理想。大数据统计说明一个道理:学生要有一定的学业负担的,但不能过重,所谓减负,是需要减轻学生过重的学业负担。
问卷调查结果的真实性要低于访谈和测验,学业质量评价是对学生学业达到的水平进行以群体为对象的质量评价。[3]区域学业质量评价的目的是要改进教学政策,对教育系统的整体评价,并将评价结果反馈给各学校,方便学校进行自主评价。基于过程的真实性评价是我区评价发展的主要趋势,教研室提供各类数据常模,下移评价重心,激活微观主体,学校根据常模和本学校数据对照,找出自己的差距并做自主诊断,旨在引导学校自主评价。评价要充分地相信校长,依靠校长自主办学,以校为本,教研室在评价过程中的功能定位是为各学校做高端的技术服务,包括命题、问卷设计、统计、分析等测量技术支持,同样,学校对每个教学班和学生也可以开出个性化的“学习处方”。
目前,我们设计的问卷仅仅局限于学生在考场临场回答,为了拓展珠海市学业评价的内容,还要逐步开发校长访谈、教师问卷、家长问卷等来进行补充,通过全方位问卷更加全面准确地采集学业质量的形成途径和测试分数付出的代价。如收集学校特征、校长办学思想、教学环境、招生政策、生源流失、家庭教育、亲子关系、家长教育子女风格等因素,更加完善对学业质量评价结果的科学解释。如在2013年七年级第一学期期末测试时我们设置学生问卷:“本学期,你们班的综合实践活动课,是否被其他教师所占用?”表2是统计结果。
图1 珠海市七年级学生测试成绩与学业负担关系图
结果显示,珠海市属各学校间对综合实践活动课程的开设情况有显著差异,公办和民办学校间也存在显著差异,甚至,我们发现同一所学校班级间的课程开设也有较大的区别。那么要详细地分析结果产生的原因,我们还需要对校长访谈和教师问卷来深入剖析,是校长对课程的执行力不够还是师资配备短缺?是任课教师擅自更改课程内容还是综合实践活动课程资源有限?公办和民办学校之间课程执行力差异是不是由于办学体制原因决定的?如何才能促进学校更好地开足开齐国家课程?这些猜想和假设都有待进一步分析研究,最终提供详实的数据和案例供教育行政决策。
决定学业质量的因素非常多,这些因素相互交叉、互相关联,我们通过同步问卷也只能找出一部分影响学业质量的相关因素,并且这些因素影响学业的程度到底有多大,哪些是主要因素,哪些是次要因素,哪些是无关因素,如何将这些因素一并考虑来综合评价学校的教学质量,这都需要我们长期不懈地研究并及时调整。我们现在只研究了学校测试成绩相当的情况下,控制测试分数这个变量的前提下来分析各学校的问卷结果,并给出相应学校的综合判定。但是,测试成绩相差较大的学校如何控制这些变幻莫测的变量并寻找它们之间的关系,即学业背景和学业负担如何加权处理进行综合评价,这是我们迫切需要解决的问题。
如表3所示,我们以学业负担的某个指标为例,立才学校测试成绩整体偏低,但学生睡眠时间较长,能否说明立才学校的学业质量是绿色的?立才学校的教育经验值不值得推广?同样是公办学校的珠海七中和南屏中学,测试分数差异显著,学生睡眠时间也有较大差异,那么,在测试成绩和学生睡眠时间两个重要指标上,我们怎么综合分析这两个学校的教学结果?睡眠时间对测试分数的影响程度究竟有多大?都是我们面临的艰巨而敏感的任务。况且,学业负担因人、因教学方式而异,同样的任务与内容,对有些人是负担,对另一些人可能就不是;对于同一个人而言,采用一种学习方式和教学方式是负担,采用另一种可能就不是。[4]那么,通过问卷获取的“学生学业负担过重”是不是客观存在的事实?是学生主观感受还是学校的教学行为引起的?这都是我们后续将要努力研究的内容。
我们的研究都是在试题和试卷编制科学的基础上进行的,即测试分数能精确反映学生认知水平和能力等第,如果大前提失去信度,所有的统计和推断都将失去价值,甚至背道而驰。因此,命题教师要努力研究基于课程标准的命题策略。课程标准是国家对基础教育课程的基本规范的质量要求,规范了学业评价的设计理念,提供了评价的维度框架,限定了内容范围和认知要求,基于课程标准的学业质量评价是进行国家层面教育质量监控的客观要求。如果根据与课程标准不一致的评价结果而做出教育推论与决策,这种失去效度的评价对学校和学生都是极大的不公平。
但是,课程标准的文本表述过于粗放和笼统,只提供了内容标准而未清晰地表述学生的预期学习结果,命题教师不能准确界定学生学习结果所涉及的行为动词的确切含义,这不仅影响教师对课程标准的执行,更影响试题编制工作。从课程标准到评价标准是一个艰难而复杂的过程,吸引了很多教师在不曲解课标政策的同时对其进行二次开发,用来满足学业质量评价方面的试题编制与开发的需要。[5]▲
[1]熊志权,李自立.差异化考试的内涵与价值[J].基础教育课程,2013(4):74-76.
[2]刘坚,刘红云,张珊珊.数据能告诉我们什么——兼谈学业质量分析的内涵与要点[J].人民教育,2008(12):36-39.
[3]王蕾.大规模考试和学业质量评价[M].北京:高等教育出版社,2011.
[4]乔锦忠.“减负”新路径[J].人民教育,2013(21):33.
[5]杨向东.课堂评价促进学生的学习和发展[M].上海:华东师范大学出版社,2012.
表2 对课程的执行力情况调查结果统计
表3 不同学校间睡眠时间与测试成绩结果统计