梁文艳,李 涛
(北京师范大学教育学部,北京 100875)
教师课堂教学是学校教育的关键环节,[1]其质量不仅直接影响学生当前的学业产出,[2]而且对学生未来的职业获得和经济收入具有重要影响。[3]不同教师的教学质量差异很大,因此,提升教师教学质量已成为全球学校教育改革的重点。
准确评价教师教学质量是对其进行诊断和提升的信息基础。尽管该问题是学术研究和应用领域的传统问题,但教学工作的复杂性使得准确评价教师教学质量非常困难。[4]学历以及所学专业等直接可测的职前人力资本指标被发现与教学质量关系不大,[5]工作经验、职称等级等职后人力资本指标与教学质量的关系也未得到一致认可。[6]20世纪80年代以来,构建增值性模型(value-added model, VAM)评价教师教学质量的研究,因其在客观性上不可比拟的优势,迅速受到学术界关注。[7]然而,增值性评价同样存在一些局限,*基于VAM评价教师质量的局限包括:强调基于模型获得质量指数,忽视教学过程,难以为教师发展提供实践性参考;个体教师的贡献嵌套于集体中,增值性评价难以分离,可能削弱合作性教学。也面临不少现实约束。*VAM实施的基础是建立“学生-教师-学校”匹配的多期面板数据,缺乏数据制约了可行性。近年来,美国教师教学质量评价改革直指具体教学行为,旨在通过评价以诊断问题、改进教学。[8][9]尽管这类评价主要基于课堂观察,但在框架设计、过程管理以及实证模型构建等方面有别于传统观察评价,又被称为新的课堂观察评价。[10]随着在研究和实践中取得较好效果,截止2015年,全美有38个州明确要求将课堂观察引入教师质量评价系统。[11]
尽管我国《基础教育课程改革纲要(试行)》明确指出:“要建立促进教师不断提高的评价体系,使教师从多种渠道获取信息,不断提高教学水平。”现有教师质量评价仍以传统模式为主。[12]为此,本文将梳理美国基于课堂观察评价教师质量的相关研究和实践经验,并讨论其对中国的启示。
扎根理论和实践经验设计评价框架,既是保证评价效度的基础,又是利用评价结果指导教师改进的前提。本部分将分别针对通用型和特定学科两类评价框架,从设计理念、评价模块、具体维度和应用项目四个方面梳理框架设计。
以表1所列举的最具影响力的FFT框架(Framework for Teaching)和CLASS框架(Classroom Assessment Scoring System)为例,通用型框架旨在从整体归纳出高质量教师在教学行为中的共性要素。
FFT框架由Danielson团队按照美国新教师评价与支持联盟的教师专业发展标准(InTASC),*InTASC涉及教师预备、资格认定和持续专业发展等方面的改革,详见:http://www.ccsso.org/resources/programs/interstate_teacher_assessment_consortium_(intasc).html。扎根建构主义教学理论*建构主义理论强调学习主动性,认为主体须通过利用内部构建的基本认识原则去组织经验,并发展知识。开发而成。[13]该框架包含计划和准备、课堂环境营造、课堂教学技巧和专业职责四个模块。每个模块下设若干评价维度,并包含具体的评价指标。为保证评分可操作性,对各项评价指标给出四个水平(不合格、合格、良好和优秀)的评分标准和参考案例。而CLASS框架由Pianta团队开发。该框架扎根于依恋理论、自我决定理论等心理学理论,认为师生互动直接作用于学生学业提升,因而该框架侧重课堂师生互动的质量。[14]该框架包含教师情感支持、课堂组织以及教学支持三个模块。
也有学者认为,为了更准确评价教师,评价框架必须充分考虑学科异质性。[15][16]为此,数学学科有MQI框架(Mathematical Quality of Instruction)、UTOP框架(UTeach Observation Protocol)以及FFT-Math框架等;英语语言艺术学科有PLATO框架(Protocol for Language Arts Teaching Observation)、FFT-ELA框架等。相比通用型评价框架,特定学科的评价框架强调捕捉以学科知识内容和质量为内核的教学行为,指标更为细致和深入。[17]
表1 通用型课堂观察评价框架设计概览
注:a-这两部分的评价信息不完全来自于课堂观察,还来自于教师的日志记录等,因此这两个维度的评价也被称为档案袋评价。
表2 特定学科课堂观察评价框架设计概览
表2呈现了数学学科MQI框架和英语语言艺术学科PLATO框架的信息概览。其中,MQI框架由Hill团队基于“过程-产出”理论开发并完善。包含教学活动与数学联系、教学形式、数学知识的丰富、和学生一起学习数学、错误和不准确以及意义建构和推理中的学生参与6个模块。每一个模块同样下设若干评价维度,每一个维度下又有相应的教学行为要素指标对其进行具体表征。PLATO框架由Grossman团队以有效教学理论为基础,在全面考虑英语语言艺术教学中教师示范、教学策略和文化背景等因素的重要性后开发,包括4个模块、13个维度,每个维度下设1个课堂教学行为观测指标。[18]
过程管理是课堂观察评价成功实施的关键,评价信度很大程度上也取决于此。本部分从保障施评者资质以及完善评分机制两方面梳理相关经验。
观察者是评价实施的主体,他们既可以进入课堂实施现场评价,也可以观看录像实施视频评价。因此,能否保证观察者的资质是决定评价结果的关键。[19]根据表3可知,所有评价框架的实践均对评价者的资质做出了严格规定:首先,明确规定评价者的初始资质,即要求观察者拥有一定的教学经验;其次,实施培训,不仅详细介绍观察工具的框架、指标构成和评分细则等信息,还给予受训者讨论和反馈的主动学习机会;再次,对培训者进行严格的资格认证和考核,即要求培训者的评价与专家评分保持较高的一致性;最后,在观察者与被观察教师间实行随机匹配或单盲匹配,尽可能避免刻板印象、偏见等主观因素的影响。
表3 课堂观察评价者的培训与资格认证概览
课堂观察评价得分的变异源于教师教学质量、观察者、授课班级、授课内容等多个方面。根据概化理论,为保证评价信度,必须提高教师真实教学质量变异在实际评价得分变异中的占比,即要尽可能降低其它三个方面带来的误差。[20][21]
已有研究发现,一次性观测、单一观测者往往会增加非教师教学质量因素变异在最终评价得分变异中的占比,从而降低信度。[22][23]因此,要提高评价信度,有必要对同一教师进行多次重复观察(不同授课班级、不同评价者、不同时间)。例如,有学者利用有效教学测量项目(MET)中基于FFT、CLASS、UTOP和PLATO框架实施的教师评价结果研究发现,每次观察仅使用一个观察者对老师的一次课堂打分所得到的信度得分不超过0.37,使用两个观察者对同一位老师的同一次课堂打分所得到的信度水平提升到0.53,而使用三名观察者和四名观察者得到的信度水平能达到0.6以上。[24]还有学者根据基于MQI框架实施的数学教师评价结果开展研究后同样发现,评价信度随着观察者数目、观测次数、课程片段长度的增加而提升。[25]
归纳起来,为了尽可能降低非教师教学质量因素带来的评价误差,设计合理的评分机制至关重要。具体涉及的问题包括:需要多少名观察者共同实施观察?每次观察应持续多长时间?每名老师应被重复观察多少次?是否应该在该教师的不同授课班级进行重复观察?重复观察的间隔周期应该多长?等等。
尽管教师课堂教学质量的观察评价框架可在理论上视为高质量教学行为的标准,但必须对指标的有效性提供经验证据支持。[26]不同指标对学生发展的影响效应在不同样本类型、不同发展维度上都存在差异,这是改进和优化评价框架的重要依据。因此,研究者需要开展实证研究揭示各项教师课堂教学行为对学生学业成绩的因果影响。[27][28]这意味着,完整的教师教学质量课堂观察评价系统还包含对教师课堂教学质量指标对学生发展指标因果效应的识别,以改进和优化评价指标体系,这通常需要引入增值性模型和固定效应模型等实证手段(见图1)。接下来,我们从模型设计和经验证据两方面总结实证设计的经验。
图1 教师教学质量课堂观察评价的设计思路与理念
揭示教师课堂教学行为对学生学业成绩影响效应的基准模型如下:
(1)
其中,Scoreijs是第s所样本学校第j名教师授课班级中第i名学生的学业成绩。解释变量Tea_qualityjst是第s所样本学校第j名教师的第t项课堂教学行为指标,Stuijsk、Classjsp以及Schsq分别是学生个体层面、教师/班级层面以及学校层面的控制变量,δijs是误差项,δijs~N(0,σ2)。该模型中,回归系数β1t表示第t项教师教学行为对学生学业成绩的边际影响效应。若β1t显著为正,说明该项教学行为是影响学生学业成绩的关键要素,需要在教师专业发展和改进活动中引起足够重视。然而,需要注意的是,模型(1)在评价教师课堂教学行为对学生学业成绩影响过程中存在两个内生性威胁:教师教学质量和学生特征之间的非随机匹配以及重要变量遗漏。[29]
(2)
(3)
大量学者揭示了各项课堂观察评价指标所对应具体教学行为对学生学业的影响效应,为优化评价框架提供了信息,并可以帮助教师有针对性地选择个性化的教学策略。[35]例如,有学者基于FFT框架的教师教学质量数据构建固定效应-增值性模型发现,教师班级课堂秩序管理水平对学生数学成绩影响最大,而教师提问和讨论的技术对学生阅读成绩的影响最大;[36]有学者基于CLASS框架的评估数据同样发现,教师课堂管理水平对学生数学成绩具有显著正向影响。[37]这说明,在评价教师课堂教学质量时,应重视课堂秩序管理。
尽管如此,现有研究仍待改进。一方面,学生发展是多元的,现有研究主要聚焦测试成绩这项发展指标,有必要采用更丰富的学生发展指标为结果变量开展研究。[38]另一方面,不能完全避免内生性问题,要获得更为准确的结果,有必要开展随机实验。[39][40]
国内现有教师质量评价,要么与学生成绩直接挂钩,违背了以评促改的初衷,甚至有可能加剧教育不公平;[41]要么基于成绩实施增值性评价,尽管增强了客观性和公平性,但不能打开教学过程的“黑箱”,且推广性不高;[42]要么基于学者自身经验和主观判断设计观察工具,缺乏理论支撑和实证检验,可靠性和有效性值得商榷。[43]相对来说,最新的基于课堂观察的教师教学质量评价强调扎根理论和实证研究,更能发挥评价对教学的诊断与改进功能。基于上文的梳理,我们认为,我国的教师教学质量评价可从以下几个方面进行优化:
基于严格设计的课堂观察评价,不但能够获得教师教学质量信息,还能够为教师提供针对性的改进措施,而且评价过程本身也能起到促进教师发展、提升教学质量的作用。有研究发现,在辛辛拉提公立学区,控制其他因素的影响以后,历时一年的教师课堂观察评价显著提升了教师在各项课堂教学质量指标评价中的得分。[44]作者总结其原因在于:第一,正式的打分和反馈程序会给予教师信息,并使被评估个人更好地吸收;第二,评估鼓励教师参照评价框架加强自我反思;第三,评估程序能为和其他教师以及管理人员就有效教学实践进行交流创造更多机会。因此,应重视课堂观察评价在促进教师专业发展中的作用。
课堂观察评价是一项系统性的工作,实施难度非常大。国内传统课堂观察评价的施评者多为校长、年级组长等管理人员,缺乏系统的理论指导,实施过程的科学性不足,难以保证信度和效度。从前沿研究和实践来看,它涉及到扎根理论设计和开发观察评价框架、观察实施过程的质量管理、指向学生产出的效度论证、评价过程的信度保障、观察评价结果的应用及再评估等。只有做到课堂观察评价的“专业性”,才能真正发挥帮助教师改进的作用。此外,评价框架和工具开发以及实施过程管理等各个阶段均须充分考虑我国实际情况,以精细的研究视角来审慎对待课堂观察研究和实践,避免评价指标直接“移植”带来的“水土不服”。
教师教学质量评价本身应是一个动态优化的过程,必须基于学生发展数据、引入实证研究手段为教学行为的有效性提供证据,进而改进评价工具并为教师发展提供有价值的信息。实证研究的基础是有高质量的数据库,特别是“学校-教师-学生-家庭”配套的追踪调查。目前,我国已有了初步尝试,但总体看,本土数据缺乏仍是制约研究开展的重要原因。因此,对样本容量大、代表性好、内容丰富、链接不同系统、跨越不同时期的教育数据进行调查收集,是一项富有价值且十分必要的工作。
[1] Hanushek E A. The Economics of Schooling: Production and Efficiency in Public Schools [J].JournalofEconomicLiterature, 1986, 49(3): 1141-1177.
[2] Aaronson D, Barrow L, Sander W. Teachers and Student Achievement in the Chicago Public High Schools[J].JournalofLaborEconomics, 2007, 25(1): 95-135.
[3] Chetty R, Friedman J N, Rockoff J E. Measuring the Impacts of Teachers II: Teacher Value-Added and Student Outcomes in Adulthood[J].AmericanEconomicReview, 2014, 104(9): 2633-2679.
[4][8][13][26][27][29][31][34][35][36][39] Kane T J, Taylor E S, Tyler J H, et al. Identifying Effective Classroom Practices Using Student Achievement Data[J].JournalofHumanResources, 2011, 46(3): 587-613.
[5] Harris D N, Sass T R. Teacher Training, Teacher Quality and Student Achievement[J].JournalofPublicEconomics, 2011, 95(7-8): 798-812.
[6] Rockoff J E, Staiger D O, Kane T J, et al. Information and Employee Evaluation: Evidence from a Randomized Intervention in Public Schools[J].AmericanEconomicReview, 2012, 102(7): 3184-3213.
[7][42] 梁文艳,杜育红. 基于学生学业成绩的教师质量评价——来自中国西部农村小学的证据[J]. 北京大学教育评论. 2011, 9(3): 105-123.
[9][38] Harris D N, Sass T R. Skills, Productivity and The Evaluation of Teacher Performance[J].EconomicsofEducationReview, 2014, 40: 183-204.
[10][22][24] Kane T J, Staiger D O.GatheringFeedbackforTeachers:CombiningHigh-qualityObservationswithStudentSurveysandAchievementGains[R]. Policy and practice brief prepared for the Bill and Melinda Gates Foundation, 2012:4+34-40.
[11] Doherty K M, Jacobs S. State of the States 2015: Evaluating Teaching, Leading and Learning[J].NationalCouncilonTeacherQuality, 2015:7.
[12][41]胡咏梅,施世珊. 相对评价、增值评价与课堂观察评价的融合——美国教师评价的新趋势[J]. 比较教育研究,2014(8):44-50.
[14][20][23][37] Pianta R C, Hamre B K. Conceptualization, Measurement, and Improvement of Classroom Processes: Standardized Observation Can Leverage Capacity[J].EducationalResearcher, 2009, 38(2): 109-119.
[15][18] Grossman P, Cohen J, Ronfeldt M, et al. The Test Matters: The Relationship Between Classroom Observation Scores and Teacher Value Added on Multiple Types of Assessment[J].EducationalResearcher, 2014, 43(6): 293-303.
[16][17][19] Hill H C, Rowan B, Ball D L. Effects of Te-achers’ Mathematical Knowledge for Teaching on Student Achievement[J].AmericanEducationalResearchJournal, 2005, 42(2): 371-406.
[21][25] Hill H C, Charalambous C Y, Kraft M A. When Rater Reliability Is Not Enough: Teacher Observation Systems and a Case for the Generalizability Study[J].EducationalResearcher, 2012, 41(2): 56-64.
[28][33][40] Cohen J, Goldhaber D. Building a More Complete Understanding of Teacher Evaluation Using Classroom Observations[J].EducationalResearcher, 2016, 45(6): 378-387.
[30][32] Hill H C, Kapitula L, Umland K. A Validity Argument Approach to Evaluating Teacher Value-Added Scores[J].AmericanEducationalResearchJournal, 2011, 48(3): 794-831.
[43] 崔允漷. 论课堂观察LICC范式:一种专业的听评课[J]. 教育研究,2012(5):79-83.
[44] Taylor E S, Tyler J H. The Effect of Evaluation on Teacher Performance[J].AmericanEconomicReview, 2012, 102(7): 3628-3651.