●冯翠典
课堂评价公平性:研究背景与进展*
●冯翠典
课堂评价的公平性问题受到越来越多的关注。其背景主要是在课堂评价促进学生学习的追求下,心理测量学意义下的公平涵义受到质疑。在关于公平性的研究中,虽然理论研究和实证研究的视野不同,但主要讨论了课堂评价的公平性与心理测量学意义上的公平性的本质差异。比如,要求公正而不是平等,要求促进而不是证明学生的学习,要求给予学生适合的展示机会而不是统一的模式,关注评价全程而不是仅仅某一环节的公平性等。这种对课堂评价公平性的诉求在权威的专业标准中也有明确的体现,从中可以清晰呈现课堂评价公平性的基本特质。
课堂评价;公平性;研究进展;专业标准
直到上一世纪七十年代,公平性才得到广泛关注,但很快就成了教育测量中与效度、信度并重的测验标准的核心指标。关于教育测验的公平性,有了很多理论上的阐释,进入了专业标准,并且产生了差异性试题功能(Differential item function,DIF)之类的专门技术。应该说,这些专业标准及相关的技术对于大规模测验的质量保证起到了非常重要的作用,但人们逐渐认识到,教师在日常教学层面实施的评价与大规模评价存在着非常明显的差异,在心理测量学范式下为大规模测验开发的测验质量标准也许并不完全适用于课堂评价,因此许多来自传统教育测量学界内外的学者纷纷尝试探讨课堂评价专属的质量标准,其中一些努力就是寻找传统测验质量标准在课堂评价中的新含义。相对而言,关于课堂评价的效度和信度的讨论比较多,而关于课堂评价公平性的讨论并不太多,但这一主题在近年来开始得到越来越多的关注。本文尝试基于对一些关于课堂评价公平性的重要文献(包括专业标准、学术文献以及教材)的梳理,为更好地理解课堂评价的公平性提供知识基础。
长期以来,课堂评价都不是一个广受关注的领域,课堂评价的公平性自然也未能成为一个研究的焦点。近年来课堂评价的公平性开始受到一些关注,这与社会民主化进程中人们对教育公平的需求不断提高相关,更与课堂评价作为一个专门的研究领域直接相关。
从制度化的考试滥觞之始,公平性就成为了一个核心追求——无人会否定自隋朝开始的科举制度在选人公平上的追求和贡献,尽管这种公平性追求有着其历史局限。及至评价进入“科学测量阶段”,“公平”似乎也成了测量的一个核心追求,尽管科学测量阶段的早期似乎并未直接关注公平性问题,但在其对“硬科学”的追求中就隐含着测量公平的理念。到上一世纪八、九十年代,“公平性”不仅得到高度关注,而且开始进入测验专业规范,甚至成为众多测验专业规范的标签,比如,当今美国最大的商业化考试公司教育考试服务中心(Educational Testing Service, ETS)在上一世纪八十年代中期开发的《质量和公平标准》(Standards for Quality and Fairness),1988年考试实践 联 合 委 员 会(JointCommittee on Testing Practices,JCTP)吸收其他一些专业组织的成员共同开发的《教育中的公平考试实践规范》(Code of Fair Testing Practices in Education),以及1993年加拿大由来自于地方教育部和9个教育组织的代表组成的联合咨询委员会(Joint Advisory Committee,JAC)开发的《加拿大学生教育评价公平实践原则》(Principles For Fair Student Assessment Practices For Education In Canada),都直接以“公平”为主题。当然,并非未以“公平”为题的规范就没有关注公平性问题,实际上,《教育与心理测验标准》(Standards for educational and psychological testing)才是测验公平性规范的集大成者,也正是在该《标准》中,公平性才获得与效度、信度之类的技术标准同等的地位。
可是,几乎上述所有的测验专业规范都秉持心理测量学范式,主要适用于大规模测验(尽管其中有一部分关注到课堂评价,但依然基于心理测量学范式)。近年来,这些植根于心理测量学范式的测验专业规范在课堂评价中的适用性受到了广泛的质疑。事实上,心理测量学范式对于教育评价的适用性早就已经被质疑,格拉瑟(Glaser,R.)对标准参照测验(Criterion-Referenced Test,CRT)和常模参照测验(Norm-Referenced Test,NRT)的区分,就代表着一种将教育评价从经典的心理测量学中分离出来的一个重要尝试。布鲁克哈特(Brookhart,S.M.)则认为,为大规模考试开发的测量理论不适用于课堂评价,因为课堂评价是真实的学习的一个片段,本质上是与教学一体的,需要开发“课堂测量学”(classroometric)的测量理论。[1]而且某些专业组织已经开始尝试着为课堂评价制定专门的质量标准了,如教育评价标准联合委员会(Joint Committee on Standards for Educational Evaluation,JCSEE)在《学生评价标准》(Student Evaluation Standards)之后正在制定《课堂评价标准》(Classroom Assessment Standards:Sound Assessment Practices for PK-12 Teachers,目前正在网络上公开征集意见)。[2]
在建基于心理测量学之上的传统教育评价理论中,公平性是评价的一个非常重要的质量指标。传统测量学界普遍认可的公平性包括了两个方面的内容,即免于偏差,以及在评价过程中的平等对待。从课堂评价角度看,这种公平性观念存在着以下几个方面的问题:首先,这种公平性观念来自于大规模外部评价,建基于心理测量学,秉持的是“对学习的评价”(assessment of learning)范式。在这种评价中,目的在于证明,而不在于改进。心理测量学的一个重要关怀就是避免“分数污染”,无论是为免于偏差而强调测验的客观性,还是为保证平等对待而强调测验的标准化,都是为了避免分数污染,以保证对学生的准确证明,进而保证结果的可比较性。其次,它只考虑到评价的部分环节而没有涉及到评价的全过程。它关注到评价设计和评价实施中的公平问题,但没有涉及评价之前的学习公平和结果运用的公平问题。第三,它强调了不同学生群体之间的公平,但没有给学生个体之间的评价公平以足够的关注。实际上它在讨论公平性时忽略了可能比群体间差异更大的个体间差异。这对于大规模评价是适当的,但对于课堂评价来说就不适当。第四,它将公平性当作一个测验技术指标,就像效度、信度一样,需要借助于统计技术来加以检验。在课堂评价中,教师即使掌握了相应的技术,恐怕也没有时间去加以运用——实际上也没有必要运用。同时,对公平性作为一种技术指标的过度强调导致了对评价中更为宽泛的伦理问题的忽视。正是在这样的背景下,课堂评价的公平性成为评价研究的一个重要领域,不仅有一些理论推演,也出现了一些实证研究,而且还进入了一些评价的专业标准。
在课堂评价的公平性研究中,有两个方面的研究值得关注,一是一些学者关于课堂评价公平性问题的讨论,二是以中小学教师为对象的关于课堂评价公平性的实证研究。
(一)理论探讨
早在1994年,吉普斯(Gipps,C.A.)就认为需要为教育评价寻找一些传统效度、信度之外的品质,其中就包括公平性,在他看来,公平性就是运用多种指标提供多重成功机会。[3]但时至今日,在课堂评价领域中对公平性的再概念化仍在进程之中,关于课堂评价的公平性的内涵的表述还是存在着比较大的差异,在内容范围和关注焦点上各不相同,甚至有些观点是相互冲突的。蒂尔尼(Tierney,R.D.)的博士后论文总结了新世纪以来一些重要文献关于课堂评价公平性内容结构的一些观点(见表1)。
这些观念上的差异表明,课堂评价的公平性的内涵非常复杂,可能在不同的情境中有不同含义。[5]但是,文献中关于课堂评价的公平性也存在不少共识。首先,课堂评价的公平性与测量学意义上的公平性有不同的涵义。比如,在传统测量理论中,免于偏差就是要求对那些与所测结构无关的因素进行控制,公平对待要求施测过程的标准化,测验题目的设计强调区分,这些本质上就是要保证结果的可比较性,而且是学生群体或个体间的横向比较。在课堂评价中,学生的差异性是需要培育和尊重的,蒂尔尼就指出,“不受文化影响的测试是不可能存在的,因为学习本身就和文化背景不可分割”,教育者在设计评价时要有“文化的敏感性”,从而能够意识到并把评价建基于学生的文化背景之上。[6]公平的评价意味着学生被运用最适合于他们的方法和程序来评价。[7]其次,公平性不只是一个关于偏差的技术问题,而是涉及到更为宽泛的社会和伦理关怀。公平性并不简单地是一个技术操作,公平测验的开发是一个涉及到关于所评的结构和试题的效度的社会和政治假定的过程,比如,课程中强调的“谁的知识”以及评价中“何种知识被等同于成就”就不是一个简单的技术问题。[8]布泽里和约翰逊(Buzzelli,C.A.,&Johnson,B.)提出课堂评价是一个道德问题,受到课堂权力的极大影响。[9]坎贝尔(Campbell,E.)也从伦理角度质疑了平等对待的问题,指出教师对学生持有普遍的低期望将对比较有能力的一些学生是不公平的;对学生持有同等的高期望,对能力相对较差的学生来讲也是不公平的。[10]具体到学习机会问题,不考虑学习机会的公平来谈评价的公平性,本身就是不合伦理或不公平的。课堂评价中的机会公平不再是传统测量理论中强调的测验准备机会的公平,而是包括了多方面的内容,如师生之间互动的质量,资源的可获得情况,以及教师对学生多样性背景的理解。[11]第三,公平的课堂评价的目标在于促进学生的发展,真正的公平应当顾及学生的不同,让每个学生都能得到应有的发展,“把公平定义成消除个体差异是不合理的”。[12]如果评价中基本的伦理标准是“不伤害”(Do No Harm),[13]那么更高的伦理标准就该是“尽力做到让学生发挥最好”。[14]这充分表明新的评价范式——“为学习的评价”(assessment for learning)——对课堂评价公平性研究的影响,公平不再是公平地“证明”,而是促进学生充分的发展。第四,关于课堂评价公平性的具体内容也存在一些明显的共识,比如都强调必须清晰陈述学习目标,并与学生分享;强调让学生有学习评价内容的机会,强调给予学生多种机会来展示他们的学习等。
表1 关于公平性内涵结构的不同观点[4]
(二)实证研究
随着课堂评价公平性研究的深入,也开始出现了一些实证研究,如关注教师眼中的评价公平性。评价公平性是教师的一个重要关注点,Yip and Cheung就新的评价体系调查了351位香港中学生物学教师,他们解释说尽管25个问题中只有一个涉及到公平性,但教师们在开放题的回答时经常表达了对公平性的关怀。[15]但是研究也表明,教师眼中的公平性观念存在着不小的差异。一个来自香港的研究考察了校本评价中教师的公平性观念,发现教师中存在着三种不同意义上的公平:公平即在公平的基础上评价学生;公平即不损害学生学习所评的学科内容的机会;公平即不剥夺学生接受通识教育(all-round education)的机会。[16]兰姆(Lam,T.C.M.)的研究表明,关于公平,教师持有两种绝然不同的观点:平等(Equality)还是公正(Equity)。[17]有些教师认为公平就是平等,这意味着同等对待;有些教师则认为公平就是公正,而这意味着恰当。伯莱顿(Brighton,C)的研究反映了类似的情况,对于前者一部分教师来说,公平就是评价准则的一致性应用,因此期望能够控制他们判断中的变异情况;测试题目之间的等价非常重要,要保证学生面对同等难度水平的任务。这部分教师相信“对学生公平意味着所有学生做相同的事”,差异性的教学是“注水行为”,差异性地对待学生会降低对学生的期望,不利于学生,因此非常抵触对学生实施差异性的评价和教学。对于后一部分教师,教师完全可以为了学生利益的最大化对评价进行调整,这是教师的“法定职权”。[18]
总体而言,这些调查表明,教师对评价公平性的理解是比较狭隘的,很多教师对公平性的理解主要指向于评价指标的一致性以及评价过程中的平等对待,甚至都很少关注到评价内容偏差的问题。这是一种非常朴素的公平观,与日常的经验紧密相关。而且,许多教师对公平性的理解也表明,他们对公平评价的强调实际上源于“对学习的评价”范式,很少有教师关注到运用评价来促进学习。
蒂尔尼做了一个研究,让多位教师陈述“对公平评价最为重要的实践”,发现不同的教师在认识上存在差异,但都能够为理解公平性提供一些洞察。蒂尔尼的研究发现,教师关于公平性的“实践智慧”涉及到:明确评价目标以明晰学习期望和评价指标;设计适当的评价任务和指标;运用多重或不同的评价来理解学习和支持决策;在对待不同班级和学生时保持一致;让学生参与评价;与同事一起反思评价等。[19]不同的教师的建议有差异也存在共识,应该说能够为理解公平性提供洞察。不过,就像蒂尔尼本人所发现的,尽管教师的叙事被鼓励关注“为学习的评价”,但参与者们基于自己的实践来说明的问题依然有很多停留在“对学习的评价”之中,这也许证明了“关于公平性证据和原则的信念受到客观性测验在课堂实践中的优势地位的极大影响。”[20]
随着研究的深入,课堂评价与大规模评价的差异被越来越多地认识到。评价领域开始将课堂评价与大规模评价分开来考虑——在制定专业标准时,或明确指出不涵盖课堂评价,如测验实践联合委员会的《教育中的公平测验实践规范》,或专门为课堂评价单列一部分标准,如《加拿大学生教育评价公平实践原则》,或尝试为课堂评价制定专门的标准,如JESEE的《学生评价标准》。下面以两个单独讨论到课堂评价的专业标准为例,梳理其中的课堂评价公平性观念。
《加拿大学生教育评价公平实践原则》也许是第一个将课堂评价与大规模评价分开来讨论的专业标准。该标准没有尝试对公平性进行清晰的界定,而是在“公平评价实践”的主题下,为课堂评价罗列了五条基本原则,这符合其“实践原则”的定位。五条原则分别是:评价方法应当适合于并与评价的目的和情境相符;学生应当得到充分的机会来展示被评价的知识、技能、态度或行为;判断和评价学生表现的程序应当适合于所用的评价方法并得到持续的应用和监控;总结和解释评价结果的程序应当按照报告阶段的教学目标生成学生表现的准确的形成性表征;评价报告应当清晰、准确且对目标群体有实践价值。[21]每一条原则之下都有相应的具体指南,涉及到公平性的各个方面,应该说相当全面地解释了课堂评价公平性的要求。尤其令人印象深刻的是,几乎每一条原则都强调应有“书面的政策”,本质在于保证课堂评价的公开、透明。但是,该《原则》有着明显的时代背景——1990年代“为学习的评价”尚未成为一种主流的评价范式——这些原则是按《教育与心理测验标准》的框架来组织的,传统测量理论的痕迹比较明显,比较适合于“对学习的评价”。
JCSEE的《课堂评价标准》就更好地体现了课堂评价领域的新近发展。其实,在讨论《课堂评价标准》时,首先应当提及的是JCSEE在2003年发布的《学生评价标准》。该标准特别关注课堂环境中“用以指导学生学习和进步的评价实践”,[22]其评价理想是“符合伦理的、公平的、有用的、可行的、准确的”(p.3)。[23]与前一个文件相同,《学生评价标准》也强调评价的公开透明,但更关注评价对学生未来学习的影响,关注到评价后果上的公平性问题,比较清楚地体现了“为学习的评价”的理念。《课堂评价标准》更是凸显了这一理念,第一条就明确“课堂评价应有支持教与学的清晰的目的”,具体涉及到三大类共17条标准。尽管在这17条标准中根本未出现公平以及诸如公正、平等、伦理之类的术语,但其中有多条标准与评价的公平性密切相关,如“基础(Foundations)”部分的“F2学习期望”强调课堂评价实践应当与适当的学习期望和每个学生的教学相匹配;“F3评价设计”强调所用的课堂评价的类型和方法应当清楚地允许学生展示其学习;“F4学生参与评价”强调学生应当有意义地参与评价过程;“F5评价准备”强调学生在资源、实践和学习机会上应有充分的准备;“F6告知学生及家长/监护人”强调与学生及其家长/监护人交流课堂评价的目的和用途。“质量(Quality)”部分的“Ql文化和语言多样性”要求课堂评价实践应答和尊重学生及其社区的文化和语言多样性:“Q2特殊教育”强调课堂评价实践应当适当地差异化以满足所有学生的特定需求;“Q3免于偏差”强调课堂评价实践和后续的决策不应受与评价的意向目的无关的因素的影响;“Q6反思”更是强调监控和调整课堂评价实践以改善其整体质量。纵观这些标准,我们可以清晰地看到课堂评价关于“公平性”的理想:公开、透明、充分的机会、适合于学生的展示方法、差异化对待等。这是对传统测量理论关于公平性理解的超越,更适合作为教学的有机组成部分且旨在促进学习的课堂评价。
在我国,教育公平已经成为“中国梦”的核心内容。教育过程的公平是教育公平的一个重要维度,而在教育过程公平中,课堂评价的公平不可或缺。课程评价的公平性本质是什么,如何实现课堂评价的公平,这些问题应该是教育公平追求中的应有之义。基于已有研究的分析将为实现课堂评价公平性,进而保障教育公平提供必要的知识基础。
[1]Brookhart,S.M., Helena, M.T.Developing Measurement Theory for Classroom Assessment Purposes and Uses[J].Educational Measurement:Issues and Practice,2003,22(4):5-25.
[2]JCSEE.Classroom Assessment Standards:Sound Assessment Practices for K-12 Teachers.(DRAFT#5)[R].http://www.teach.purdue.edu/pcc/DOCS/Minutes/12-15_Handouts/2013-01-16/JCSSE Assessment_Standards.pdf.2013/12/11.
[3]Gipps,C.A.Beyond testing:Towards a theory of educational assessment[M].Washington,D.C.,The Flamer Press,1994:172-174.
[4][19]Tierney,R.D.Insights into Fairness in Classroom Assessment:Experienced English Teachers Share Their Practical Wisdom[D].Canada:University of Ottawa,2010:61-62.143-213.
[5]Tiemey,R.D.Fairness as a multifaceted quality in classroom assessment[J].Studies in Educational Evaluation,2014(1);DOI:http// dx.doi.org/10.1016/j.stueduc.2013.12.003.
[6]Tierney,R.D.Changing practices:Influences on classroom assessment[J].Assessment in Education:Principles,Policy&Practice.2006,13(3),239-264.
[7]Suskie,L..Fair assessment practices:Giving students equitable opportunities to demonstrate learning[J].Adventures in Assessment14.2002.Retrieved from http://www.sabes.org/resources/publications/adventures/vol14/14suskie.htm.
[8]Srobart,G.Fairness in multicultural assessment systems[J].Assessment in Education,2005,12(3):275-287.
[9]Buzzelli,C.A.,&Johnston,B..The moraldimensions of teaching:Language,power,and culture in classroom interaction[M].New York:Routledge Falmer.2002:77.
[10]Campbell,E.The ethical teacher[M].Maidenhead,England:Open University Press,2003:73-74.
[11]DeLain,M.T.Equity and performance-based assessment:An insider’s view[C].In:S.J.Barrentine&S.M.Stokes(Eds.),Reading assessment:Principles and practices for elementary teachers.1995/2005:52-55.Newark,DE:International Reading Association.
[12]Camilli,G.Test fairness[C].In R.L.Brennan(Ed.),Educational Measurement,4thed..2006:221-256.Westport,CT:National Council on Measurement in Education,American Council on Education and Praeger Publishers.
[13]Green,S.K.,Johnson,R.L.,Kim,D.H.et al.Ethics in classroom assessmentpractices:Issuesand attitudes[J].Teaching and Teacher Education,2007(23):999-1011.
[14]Larabee,D.F.The peculiar problems of preparing educational researchers[J].Educational Researchers,2003,32(4):13-22.
[15]Yip,D.Y.,&Cheung,D.Teachers’concerns on schoolbased assessment of practical work.Journal of Biological Education,2005,39(4):156-162.
[16]Benny Hin Wai Yung&Benny Hin Wai Yung.Three views of fairness in a school-based assessment scheme of practical work in biology[J].International Journal of Science Education,2001,23:10.
[17]Lam,T.C.M.Fairness in performance essessment.ERIC Digest(No.ED391982).1995:2.
[18]Brighton,C.Internal factors that influence teacher change:Teachers’beliefs and concepts[D].UMI No.AAT 3003985,2001:129.
[20]Shepard,L.The role of assessment in a learning culture.Educational Researcher,2000,29(7):4-14.
[21]Joint Advisory Committee.Principles for fair student assessment practices for education in Canada[R].Edmonton,Alberta,Canada:University of Alberta.1993:5-12.
[22][23]Joint Committee on Standards for EducationalEvaluation.The student evaluation standards[S].Thousand Oaks,CA:Corwin Press,2003:xix.3.
(责任编辑:张 斌)
*本文为华东师范大学课程与教学研究所教育部人文社会科学重点研究基地重大项目“义务教育阶段促进学习的课堂评价研究”(项目编号:13JJD880014)的成果。
冯翠典/教育学博士,台州学院讲师,主要研究学习评价和教师教育