孔建美 鲍雯雯 傅建锋
考试命题与测评分析工作具有很强的专业性,教师需要具备教育测量的专业素养。目前,国内中、高考考试命题专家基本为各级教研员及学科骨干;一些相关大学也已开设了“教育测量与评价类”专业,但测评专家依然稀少,远未能达到现实需求。2019年11月,教育部《关于加强初中学业水平考试命题工作的意见》指出,要严格依据义务教育课程标准科学命题,取消初中学业水平考试大纲[1]。依据课程标准命制试题成为极具挑战性的工作[2]。事实上,近几年在中考、高考中涉及试题命制及分数解释的科学性的问题已有发生,曾经造成了一些不良影响。区域层面的考试虽然不具备中、高考这样大规模选拔性考试的高利害性,但是也引发越来越多的家长及社会的关注。试卷背后透视出的教育教学理念、教师的专业水平、学生的发展水平、区域的教育质量管理等都是社会以及家长热议的话题。随着大数据、云计算等概念的引入,数据驱动教育教学改进、基于数据的实证研究已成为越来越多一线教育工作者的研究重点。学校借助阅卷系统开展网上阅卷已积累了很多的数据,如何确保这些数据的公正公平,如何对这些数据进行分析,充分挖掘数据背后的相关因素,通过数据撬动学教方式的转变,有效提升教师专业成长、学生素养发展及学校教育质量,是需要思考的关键问题。
本研究以八年级下册科学学科期末卷为例(见附录),详细阐述以“指向核心素养的学业成就测量和评价的学科试卷命题改革”为手段,深入诊断学科试卷命题的质量以及区域学生学科能力素养的发展现状,为后续区域基于学科能力的命题设计以及学生学业水平分析提供诊断和优化依据。
本研究的质量分析模型借鉴维金斯和麦克泰格的“逆向设计”模式[3]。维金斯指出,最好的设计应该是“以终为始”,“终”是指教师在课程设计时先明确学习要达到的目标,然后采集证据表明学习达到了目标,最后再设计学习体验和教学。“逆向设计”体现了课程标准对教学的指导性[4],及对质量分析的指导性。质量分析应是对课程改革核心要素的检验和评价。质量分析模型包括三个阶段:首先根据课程标准和监测重点确定区域质量分析目标,即指向学科关键能力的学业评价,并通过测试分析、基于评价的结果来发现教与学中存在的问题,以数据驱动教研与教学的诊断改进;其次确定支持预期目标的评估证据,指向学生学科关键能力维度,以数据为实证的区域、学校、年级、班级各能力维度的学业水平可视化;最后确定学科考试命题依据,指向学科关键能力维度的命题设计,试题细目表。以“逆向设计”模式,架构体现学科关键能力的质量分析模型,引导学校开展目标导向的试卷命题及质量分析评估。
1.关键能力命题设计
单一的学科总分并不能有效支持了解学生学科能力素养发展的评估。为了更好地了解学生关键能力的发展情况,需采集更多数据作为诊断区域和学校教学教研的依据。从八年级的科学学科核心素养维度出发,梳理出“依据标准、立足课本”“紧扣核心、重视方法”“强化实验、突出探究”“体现综合、关注素养”四个核心要点。依据这四个核心要点,确定了六个关键能力维度,分别是概念的掌握、基本运算的能力、方法应用、思维能力、实验能力以及综合运用能力。将学生的各题得分与各关键能力进行关联统计分析,区域、学校以及教师能够进一步分析和探究学生学科能力的掌握情况,为后续区域教育制度设计、学校教研诊断与反思、学生学习方式优化提供依据。
2.关键能力小题设计
确定基于关键能力的学科小题知识点细目表,作为命题的关键一步,实现从知识立意到能力立意、素养导向的命题转变。这需要命题教师深谙学科课程标准与学习目标、学习内容,明确学科考试的测评结构,做到研发的试题与课程标准一致,需要具有整合课程标准中多个维度要求的能力。表2梳理了八年级下册科学四大题35小题涉及的知识点及对应的关键能力。各知识点的覆盖、能力维度的划分及分值的分配,符合本次命题设计的要求。该环节的设计过程,能改变教师随意粘贴复制拼凑试卷的现象,进一步帮助教师深入学习课程标准,更深刻把握基于课程标准的命题设计;同时,推动教师进行教学反思,深刻体会课程标准与学习目标是紧密关联的,思考有效教学的改进方法。
表2 八年级下册科学试题关键能力及对应小题知识点细目表
续表2
试题命题评估主要采用项目反应理论(Item Response Theory,简称IRT)[5],该理论是在分析与克服经典测量理论局限性基础上发展起来的一种测量理论。通过项目反应理论可以对学生的能力和试题的参数进行估计,计算出试题的信息量,并建立学生的作答反应结果、试题与学生能力水平之间函数关系的模型。将学生的能力水平与项目的难度进行比较,能估计不同能力水平的学生作答各难度项目时的答对概率。结合项目的难度、区分度与学生能力的指标,可以体现出项目在各能力水平上所能提供的信息量大小和测验的误差大小,更好地指导测验编制。通过利用项目反应理论(IRT),八年级科学试题命题评估结果主要呈现了学生“能力信息量”“易猜度和区分度”“不同性别学生的能力与易猜度”三个维度的统计分析情况。统计图表通过基于区域“教育智慧治理平台”数据实验室的IRT算法得出。
1.学生能力信息量
使用R语言的mirt工具包对整卷进行分析,了解到该试卷所反映出的学生能力信息量为-6到6,呈正态分布(见图2)。根据正态分布的定义,学生能力值在-2到2之间可以覆盖到95%的学生,学生能力值在-3到3之间可以覆盖到99%的学生。该试卷反映出学生能力值范围-2到2所显示出的信息量较高,在0值附近左右到达了峰值,说明本次考试能充分反馈能力值在-2到2之间的学生能力水平,而对于能力值>2和<-2的的学生无法准确反馈其能力。通过进一步分析,可以发现各小题所反映的学生能力信息量情况(见图3)。基于该分析结果,修正个别题目,增加>2难度的题目和<-2难度的题目,能使本试卷起到诊断这两能力区间的学生的作用。
图2 八年级科学卷学生能力及题目信息量统计
2.易猜度和区分度
基于IRT技术的整卷分析还进一步呈现了试题的易猜度和区分度(见图3)。图3呈现的是IRT模型中的项目特征曲线ICC(Item Characteristic Curve),该曲线将学生的能力水平和题目的难度转化到同一尺度上进行衡量和评价,可视化各试题的区分度和易猜度。图中的Y轴代表学生作答的答对概率,X轴代表学生的能力值(也是题目的难度值)。其中,图4中的第二题(X2)、第七题(X7)、第19题(X19)以及第23题(X23)具有较高的易猜度,这意味着学生即使不具备科学学科能力素养也能有40%-50%猜对该题的概率。
图3 各题目的易猜度、区分度以及对应学生能力水平的统计结果情况
3.不同性别学生能力与题目易猜度区分度统计
通过进一步将各题目与不同性别的学生进行分析,发现大部分题目都呈现出了相似的区分度以及不同性别学生能力水平对应相似的得分情况(见图4)。其中第11题(X11)和第20题(X20)呈现出相对于男生而言女生更易猜对这题的情况,结合试卷命题的设计发现,这类题都属于实验能力考查题,说明本次考试从性别维度分析,个别题目并不公平,需要进一步修正。
图4 不同性别学生能力与题目易猜度、区分度统计
“测评也是学习”[6],命题分析能够为后续的试卷优化提供依据,使学科命题更加专业化,并成为学科学业水平检测分项分析以及区、校教育教研诊断的有效工具。该试卷从命题设计分析,能较好反映区域学生的科学能力素养水平,基于测评技术呈现出命题的部分问题,后续还需深入研究并迭代优化。
传统意义上的学生学科成绩基本以小题分相加最终以总分呈现结果,质量分析停留在平均分、优良合格率等统计上,并成为传统考核教师教学水平的重要指标。基于学科关键能力的分项评价,改变了传统的质量分析方法,变笼统抽象的量化评价为量与质并重的具体的学科关键能力评价,反映了课程改革的核心精神,体现了素养导向的诊断功能,能够为教师改进教学提供有力的证据。
1.总分离散比较
离散度指标丰富了传统意义上总体分析质量的内涵,通过离散度分析可以评估各校学科学业水平均衡情况。图5中各个盒子代表每个学校八年级科学成绩的离散分布情况。盒子外最上面横线代表分数的最大值,盒子中间横线是各个学校第50%位数的成绩,盒子上端横线是该校第25%位数的学生成绩,盒子下端横线是第75%学生的成绩。盒子外下方显示的点为异常值,点越多表明该校有更多成绩较低的学生。盒子越狭长、盒子外上下线越长,说明离散度越大,异常值越多说明尾部越重。
图5 各中学八年级科学总分得分离散度情况
2.学校各关键能力与区常模的比较
将概念、基本运算、方法应用、思维能力、实验能力以及综合运用能力等维度对应的得分进行标准化处理,使用可视化软件Tableau得出各个学校(横坐标的一个点对应一所学校)相较于区常模平均分(在图6中显示为0)之间的距离,该距离以标准差为单位计算。若高于区常模平均分则为正值,低于区常模平均分则为负值。从图中可以看出各个学校在分项上的不同表现,了解各分项关键能力的优势与劣势。据此不同主体可以发现自己的问题,进而查找问题的原因,如学科教研员可以研究区域教研整体推进的方向,学校学科组可以明晰问题解决的方向以及校本推进要达到的目标。
图6 区各中学八年级科学各分项得分与区常模之间的距离分布情况
3.多校区/同类学校关键能力比较
通过进一步对同一集团或连锁办学的不同校区的各分项维度平均分进行比较分析,可以深入了解校区间的优势与劣势。如图7所示,A校区的概念和方法应用维度平均分均高于区域常模,但是思维能力和实验能力平均分低于区域常模且与B校区得分分布情况相似。B校区的概念以及综合运用能力平均分相较于A校区得分远低于区域常模且较为显著。该分析为学校完善质量管理内控机制提供了依据,促使学校发挥多校区优势,加强“问题导向”的集团一体化校本教研改进教学提升质量的实效性研究。
图7 集团不同校区/同类学校之间的各分项能力分布对比情况
图8显示了区域处于质量相对薄弱学校的各分项能力得分分布情况,三所学校学生在思维能力和实验能力对应的得分点都比较低,其中B中学学生在基础概念对应的得分点上失分尤为显著,暴露出对学科基础概念的掌握存在较大问题。
图8 同类学校各分项能力对比统计
4.班级各关键能力比较
学科分项能力维度的分析除了能够为区域层面的教育决策提供依据之外,还能够为学校的教研诊断以及教师的教学改进提供依据。以X校为例,学校的各项能力分布较均匀且高于区域常模,但是放大至八年级各班级的各分项能力得分分布情况则可以看出,各班级学生能力分布差异性较大(见图9-1、9-2)。其中,2班学生各项能力得分除了方法应用能力,其他分项维度得分都低于区域常模;在基础概念及基本运算方面,1班、2班和10班表现较弱;在方法应用方面,2班、4班、6班、10班、12班和14班表现较弱,其中6班各分项能力维度得分在年级层面表现都较好,但方法应用维度表现最弱;在思维能力方面,2班、4班和13班表现较弱,尤其2班得分相较于其他班级远低于区域常模水平。各班各分项能力分布的差异性与学生的生源以及教师的教学方法密不可分,为了探究造成差异性的原因,需要结合班级实际情况进一步探究与分析。
图9 X校八年级各班各分项能力相较于区域常模分布情况
图10-1、10-2显示了部分班级男女生的各分项能力差异具有显著性,其中1班、2班、3班、4班、5班、6班、7班、9班、10班和13班的男生在大部分的分项能力维度上的平均分都高于女生,尤其是1班男生平均分均超过区域常模,而女生则低于区域常模,8班、11班和14班的女生则显示在大部分的分项能力维度上的平均分都高于男生。该分析为差异化教学提供了依据。
图1 基于学科关键能力的分析模型
图10 X校八年级男女生科学各分项能力得分情况
5.关键能力指向的小题分析
采用经典测量理论梳理整卷得分情况,从小题得分率显著较低的题目(见表3)开展诊断分析。表3显示,15小题与18小题满分值均为3分,各校得分率分别在0~0.3、0.3~0.5之间。需要通过数据及开展教学调研作进一步归因分析,挖掘数据背后隐含的教与学双方存在的问题。
表3 八年级下册科学小题得分率情况
第15题与18题(见图10)共同指向学科关键能力培养,15题重点考查“方法应用能力”,18题重点考查“思维能力”。通过建构知识点、知识点涉及的内容及运用知识解决实际问题的关联,厘清解决问题所需要具备的知识与能力。同时结合答题情况对师生开展调研,梳理失分原因。通过分析可以发现,两题共同反映出目前课堂教学要进一步把握学科本质,教师要从多方面关注和帮助学生理解科学概念,学会探究,提高学生解决实际问题的能力。如15题反映教师日常教学“防治空气污染物”时,重在“防”忽视“治”,提示课程改革的重心是提高学生的核心素养,教师要立足学科素养重构课堂,要夯实知识基础,更要注重能力培养。18题同样反映出平时的课堂教学中培养学生的分析能力和逆向思维不够,辨别电动机和发电机的工作原理和构造需要提高学生的分析能力,而不仅仅是局限在记忆层面。经过监测数据及调研结果开展归因分析,具体见表4。
表4 八年级科学试题(第15、18题)失分归因分析表
图11 八年级下册科学试题(第15、18题)
1.以终为始到主动建构,以逆向设计的思维推进学科命题与质量分析研究。区域确定指向学科关键能力素养的学业评价目标,确定支持预期评价目标的各维度可视化评估证据,到指向基于学科关键能力维度的命题设计评估,以“逆向设计”的理论顶层架构为学校开展学科质量分析提供了一条新思路,引导学校开展基于能力目标导向的命题设计,学会基于学科关键能力的分项测评,开展基于问题导向的校本学科教学研究。
2.从零碎到系统推进,以关键能力为核心优化学科质量分析与行动模型。基于学科关键能力的命题设计评估,与基于学科关键能力的质量分析,是提升质量的两个关键行动。实践中,区域形成了命题设计评估、关键能力分析、反思归因研究、教研优化改进、教学行动改进的“五环节”质量分析与行动模型。实施该模型,有助于引导学校厘清学业质量分析的操作路径和方法,形成数据驱动改进教学提升质量的闭环;而落实每一环节的行动研究,无疑为教师专业化发展提供了一条“直通道”。如,开展“试卷命题设计与评估”为教师命题技术的提升提供研究依据;开展“学科关键能力分项分析”,为教师诊断学生关键能力水平提供“靶向诊治”的改进依据;开展“反思归因研究”,帮助教师查找“分数”背后的影响因子,引导教师多维度深层次分析学生成绩,改变教师粗暴的“经验式”结论,有助于通过正确归因改变教学决策;开展“教研优化改进”,有助于推进教研从走过场走向实质性学科研究,成为课堂教学改变的“智库”;在此四环节基础上开展“教学行动改进”,真实推进“学教评”一致性的发生。
3.发展教师数据素养,以多路径协同推进数据驱动教育教学改进的落地。质量分析离不开数据的采集与分析,要实现数据驱动改进教育教学的真落地,需要教师具备数据素养,即教师对数据的收集、处理、分析、应用的能力[7]。教师数据素养直接关系到数据驱动教学的效果与质量,培养具有较高数据素养的新型教师,已成为新时代教育高质量发展亟需解决的问题。区域通过三条路径协同推进区域教师数据素养的提升:一是课题引领开展区域教师数据素养现状实证研究,精准把握区域教师数据素养现状,为设计教师数据素养提升策略提供了依据;二是构建三级联动数据素养培养机制,营造以数据驱动教育教学诊断和改进的文化氛围,提高校长教师数据赋能教育的意识;三是设计开发数据素养学习平台,为教师提供便捷的数据使用和分析平台,支持教师数据素养的发展。
附录: