摘要:学业成绩评价是目前教育评价改革的难点,由于诸多先决条件的局限,国际上流行的增值性评价在我国难以普及实施。简约式阶梯型增值性评价采用后进率、T标准分和优秀率三个关键的核心指标组合成指标体系来描述学业质量;将这三个指标变化值划分为3个阶梯等第,分别赋分,定义为指标增值小分;将三个指标增值小分合计成增值分,用来做增值性评价,评估学校学业成绩动态变化及其绩效。案例分析发现,简约式阶梯型增值性评价具有可接受性强、导向性强、促进性强、诊断性强等特点。
关键词:学业成绩评价;学校绩效考核;增值性评价;学业评价模型
中图分类号:G420 文献标志码:A 文章编号:1673-9094(2017)02A-0003-06
教育评价是教育质量管理的重要活动。从行政管理、学校发展和社会需求角度来看,县(市、区)教育行政部门必须对学校的学业成绩做出评估,这是不可回避的行政管理行为。有什么样的评价,就会有什么样的教育;有什么样的指标,就会有什么样的教育行为;强化什么指标,就强化了什么样的教育行为。
把提高教育质量的理念转化为能监测、可衡量、有共识的政策和制度,是当前教育评价改革的最艰巨任务,也是最关键的任务。学业成绩评价,是目前教育评价改革的最大顽疾;探索科学有效的学业成绩评价方式,注重发展性评价,是当前教育质量评价研究的热点。
一、目前学业成绩评价存在四大问题
1.国际上流行的增值性评价在我国难以普及实施
增值性评价方法从统计学上讲是可靠的,但其结果的有效性有赖于满足若干先决条件。增值性评价是指对同一批学生,用不同时期的学业成绩进行差异比较,这需要每学年都要做区域性测试而且量具必须具有等值性;基于教育部和各省(市、区)教育行政部门有关“减负令”,在义务教育阶段除了初中毕业考(中考)和小学毕业考,市县教育行政部门很少对所有年级段采用大规模统考;而且初中学校免试入学,学业成绩增值性评价缺乏入口成绩数据。增值性评价的数据涉及学校的生源、经费、办学条件和学生家庭等外部因素,除了学业成绩,绝大部分县级教育部门没有能力采集和处理这些相关因素数据。增值性评价对于数据采集和统计方法有较高的要求,主要是采用多层线性模型等,最重要的是计算出的数据背后的教育过程因素和相关专业术语不易被一线教育管理者和教师所理解。
2.关注静态水平评价,缺乏动态发展性评价
由于政策、历史和地理位置等现实原因,不同区域教育存在着严重的不均衡性。按照静态水平评价指标,生源优质的学校的学业成绩指标历年居高,薄弱学校学业成绩指标一直低下,而且排序比较稳定。这种评价机制会导致学校把争取优质生源作为提升教育质量的关键行为,可能会导致优质学校和薄弱学校都不思进取的现象。
3.评价指标不够科学,具有误导作用
现在比较常见的现象是用传统的平均分或名次平均值或重点学校升学率等单一指标来描述学业成绩。学业成绩是一个复杂的整体性概念,肯定不能只用一两个指标描述。这种单一指标评价会明显倾向于升学评价,会加重学生的学业负担,容易导致学校过分关注优生的培养,而忽略了后进生的教育,有违义务教育面向全体学生的教育观和质量观,更不利于评价的导向性。
4.评价综合指标过于复杂
通常把平均分、标准差、优秀率、后进率等多个指标通过复杂的公式计算成一个综合指标,用这个指标的数据大小和排名来评估学校的学业成绩。由于只有一个综合指数,就会突出评价的甄别功能,忽略其诊断功能。这个综合指标需要依据软件系统生成,学校无法自行验算结果,许多学校对结果数据持怀疑态度,更无法依据这个指标设置自己的质量追求目标,也无法探寻达标的具体路径。
二、简约式阶梯型增值性评价模型
学业成绩评价既要考虑指标的导向性,也要考虑指标的诊断性,更要考虑其发展性;既要考虑全体学生的整体水平,也要考虑优秀生和后进生的分布情况;既要考虑定量,也要考虑定性;既要考虑指标的综合性,也要考虑指标的可接受性;既要考虑评价模型的科学性,更要考虑实际的可操作性。
鉴于我国目前县级教育行政部门对学校学业质量绩效考核的现状和需求,借用国际上增值性评价的理念和價值取向,笔者提出简约式阶梯型增值性评价模型,期望改良现有的常见的学业成绩评价模型,也为以后施行增值性评价做个过渡。
简约式阶梯型增值性评价模型利用本年毕业考成绩与往年毕业考成绩做动态比较。采用后进率、T标准分和优秀率三个关键的核心指标组合成指标体系来描述学业质量;将这三个指标变化值划分为3个阶梯等第,分别赋分,定义为指标增值小分;将三个指标增值小分合计成增值分,用来做增值性评价,评估学校学业成绩动态变化及其绩效。
简约式阶梯型增值评价模型由指标结构、阈值确定、阶梯赋分、绩效评定四部分构成,详见图1。
1.指标结构
评价模型由后进率、T标准分和优秀率三个关键的核心指标构成,这三个指标基本上能够描述学业质量,而且容易被大家认可。
T标准分的确定。初中学科考试成绩会有一定程度的分化,标准差稍大,通常采用T=70+15z。T标准分可以利用EXCEL或SPSS快捷生成。将原始分转化成T标准分,数据形式类似百分制成绩,而且比百分制成绩更有优势;可以跨学科比较,可以做历年动态比较。实践也证明,这条公式被学校和教师广泛认同。
优秀率和后进率的划定是非常重要的,要按评价对象的实际情况、年级段特点、评价导向而设定。必须借指标引导义务教育阶段教育面向全体学生,关爱后进生。因为在实际教学工作中,划线边缘在哪里,校长和教师就会关注哪里的边缘生。由于市县层面都没有能力做等值处理,笔者结合经验和判断,对不同年级段优秀率和后进率提出了划线建议(如表1)。低年级关注后进生,高年级适当关注优生。
2.阈值确定
阈值大小由评价主体依据数据模拟约定,阈值设置必须科学而有艺术,能让较多的评价对象达成“进步”,发挥评价的激励功能和促进功能。校际学业成绩发展不均衡的县市区,阈值要大一些,校际学业成绩发展较均衡的县市区,阈值要小一些。确定阈值有两种办法。
第一种是基于目标管理理念的“测前确定法”。如,提前一学年规定:T标准分变化在正负0.5以内为稳定,提高0.5及以上为进步,下降0.5及以上为退步;优秀率变化在正负3%以内为稳定,增加3%及以上为进步,下降3%及以上为退步;后进率变化在3%以内为稳定,下降3%及以上为进步,增加3%及以上为退步。这种方法,目标导向性和促进性都非常明确,学校可以依据阈值计算出本校三个指标的目标值,再基于目标值研究针对性策略和实施路径。
第二种是基于绩效管理理念的“测后确定法”。每次测评后,基于测评数据采取聚类分层法或经验判断法,确定各指标的阈值。采用这种办法,不同指标的阈值可能不一样,不同时期的阈值也会不一样。聚类分层法有较强的科学性,特别是从统计学层面把进步退步的阈值确定出来,能判断出有无明显的统计学差异。测后公布阈值,学校也可以自己计算验证自己的增值,体现评价的透明度和公平公正性。
3.阶梯赋分
通常,按增值情况分为进步、稳定和退步三个阶梯,模型如表2。指标数值变化在某一个阈值内,定义为“稳定”;优于等于阈值上限,定义为“进步”;劣于等于阈值下限,定义为“退步”。通常,进步赋分3分,稳定赋分1分,退步赋分0分。各级阶梯赋分值大小和差距体现评价主体的质量价值观和关注点。
例如,初三年级段总分的三个指标都进步可以得9分,都退步则0分,该年级段增值分分布在0—9分范围内;如果初中学校三个年级段都有增值数据,那全校的增值分就分布在0—27分范围内。
4.绩效评定
在义务教育阶段,对学业成绩退步严重的学校必须加以问责和批评,对进步大的学校应加以表彰。仅以中考数据为例:
三个指标都稳定、“一个指标进步、一个指标稳定、一个指标退步”的学校增值分为3分,可以认定该学校本学年学业成绩与往年差不多,不受褒奖。
三个指标都退步的学校增值分为0分,“一个指标稳定、两个指标退步”的学校增值分为1分,“两个指标稳定、一个指标退步”、“”两个指标退步、一个指标进步”的学校的增值分为2分,这些增值分等于或低于2分的学校具有退步的现象,可以评定为问责对象。
“两个指标进步、一个指标退步”、“两个指标稳定、一个指标进步”的学校增值分为4分,表明这些学校成绩有进步现象。如果增值分大于4分,表明学校成绩进步较大。增值分大于等于4分的学校可以列为表彰对象。
表彰和问责对象的评定,既要根据增值分大小,也要根据实际情况和行政需求。建议受表彰的学校数多于30%,问责学校数低于20%。区域整体成绩进步,表彰学校数可以多一些,问责学校可以少一些,反之亦然。
三、简约式阶梯型增值性评价案例分析
下列三个案例,都是基于相同的两年中考数据。T标准分阈值都设为0.5,优秀率和后进率阈值都设为3%。数据发现,评定结果对不同生源层次、不同规模学校都具有一定的区分度,表明了本模型具有实用价值。
案例1:规模较小、成绩优秀、成绩有进步的区域
A区县有10所初中,2337名学生,校际差异明显。当年中考后进率下降1%,T标准分提升0.58,优秀率提高了2.8%,进步较大;而且,各指标在温州市各区县中名列前茅。增值分数据如下页表3。
由表3可知,增值分5分及以上的学校有6所,占60%,可以表彰,分别可以评定为进步显著和进步两个档次;等于低于2分的学校4所,可以问责,也可以问责1分及以下的3所学校。
案例2:规模中等、成绩中等、成绩稳定的区域
B区县有22所初中,4929名学生。后进率15.6%,比往年下降1.4%;T均分为71.4,比往年提高0.35;优秀率19.3%,比往年下降0.6%。区域成绩与全市平均成绩接近,与往年比较基本稳定。增值分数据如表4。
由表4可知:增值分4分及以上有9所,可以表彰,表彰对象可以分为进步显著和进步两个档次;2分及以下有10所,可以问责,也可以只问责1分及以下的7所学校。
案例3:规模较大、成绩较弱、成绩退步的区域
C区县为学生规模较大的县,有41所初中,当年中考学生数9087名。后进率高出市均6.5%,比往年增多了3.1%;T标准分低于市均3.67分,比往年下降1.24分,优秀率低于市均9.0%,比往年下降2.4%。从区域层面看该区县中考成绩在下降,但是教育行政部门也必须每年一度对学校学业成绩做出合理的评价。
按学校规模将学校分为三类,年级段学生数300及以上为较大规模学校,年级段学生数101—299为一般规模学校,年级段100及以下为较小规模学校。按学校成绩划分为三类,T标准分高于或等于县均66.33为成绩较高学校,T标准分低于66.33高于等于60.0为成绩一般学校,T标准分低于60为成绩较低学校。相关数据如表5。
学校数较大的区县要依据“同类可比”原则将学校做个分类分组,通常根据办学水平或学校规模进行分类,根据数据模拟,各类各组学校的增值分都有较好的区分度,能很好地把学校进步成绩分成三个层次,尤其能把优质学校(平均分较高)也分成三等。根据增值分数据分布情况,可以表扬4分及以上学校,问责0—1分的学校;如此获得表彰的学校占24.4%,问责学校占56.1%,数量也合适。
四、简约式阶梯型增值性评价特点分析
1.可接受性强
北京市教育督导与教育质量评价中心研究结果与国际项目研究结论都表明,基于增值性评价的学校增值分与合格率、优秀率、得分率的关系变化一致。本模型的指标由后进率、标准分和优秀率构成,也具有一定的科学性;实践也表明,大家认同这个指标结构。由于绝大部分初中学校基本上采取辖区招生,教育行政部门可以规范招生制度稳定生源情况,也就是说学校生源入口情况基本稳定。小学毕业考是一个低区分度的考试,中考是一个中等区分度的考试,两个考试的科目结构、学科能力结构和性质功能很不等价,不符合增值评价的要求;而前后两次都采用中考數据,具有等价性,而且,用这两次中考数据做比较也是对传统的沿袭。从案例分析来看,不同层次、不同规模学校都有获表彰和问责的可能,而且比例也适当;优质学校获得奖励的机会也不少,薄弱学校获得表彰的机会也不会很多,不会出现“有利于薄弱学校,不利于优质学校”的现象。本模型指标清晰、突出关键,计算简单、操作性强,各校都可以自己做预测和验算。等第划线、阈值确定、阶梯赋分和绩效评定都比较灵活,各县(市、区)可以根据监测数据实际情况和评估需求做微调修正。
2.导向性强
基于大量的数据验证,后进率指标的进步,会明显促进T标准分的提升,也会促进优秀率的提升。很多案例都表明,后进率明显缩小的学校,增值分较大,容易获得表彰;后进率明显变大的学校,增值分较小,容易被问责。评价指标如此设计,会激发学校和教师更加关注后进生的转化工作,会采取“抓后头,促中间,带前头”管理策略;有利学校端正办学方向,优化办学行为。
3.促进性强
由于采用增值性评价,而且进步与稳定分值区分较大,体现了发展性评价,让所有学校都意识到要超越自己,不能安于现状,能激发所有校长和教师的上进心。如果能够结合学业负担评价,就会更完善。目前,县(市、区)完全有能力通过问卷调查或监测学生的学业负担,把学业负担情况作为绩效考核的前置条件,表彰那些“正增值、低负担”的学校,问责“负增值、高负担”的学校。
4.诊断性强
借三个指标的变化值,可以粗略诊断学业成绩的变化成因,有利于反思办学理念和教育教学管理策略。例如,由表6的某校增值分分布可知:从学生角度分析,该校后进生的转化工作很有成效,但是优生培养有问题;从学科角度分析,该校数学英语的进步大、贡献大,社会思品学科退步明显;还可以发现学科存在问题之间的差异。
本评价模型,适合初中和小学,适合不同学段不同年级;适合总分也适合学科,适合县(市、区)层面,也适合学校层面;简约实用,具有一定的公平性和客观性;突出评价的导向性、促进性和诊断性,淡化升学评价,突出发展性评价。能引导学校和教师面向全体、关注每一个学生,不让一个学生掉队。
收稿日期:2016-12-08
作者简介:王旭东,温州市教育评估院(浙江温州,325000)质量评价科科长,中学高级教师,浙江省基础教育课程改革专业指导委员会委员。
责任编辑:杨孝如