邱均平,欧玉芳
(武汉大学a.中国科学评价研究中心;b.教育科学研究院,湖北 武汉 430072)
在历经了19 世纪30 年代以拉尔夫·泰勒(Ralph W Tyler)为代表的教育目标达成教育评价论[1],19 世纪60 年代以克龙巴赫(Cronbach)为代表的决策提供教育评价论[2],以及19 世纪70 年代以斯克里文(Scriven M)为代表的价值判断教育评价论[3]后,美国的教育评价由萌芽走向了发展和成熟。在美国教育评价走向成熟的过程中,教育评价标准功不可没。一方面,教育评价标准具有规范、导向、调节、反馈教育评价的作用;另一方面,教育评价标准也具有监控、提高教育评价和教育质量的作用。那么,美国国家级的教育评价标准由谁来制定?制定的程序怎样?制定后有无修订和变化?修订版标准呈现什么特征?其对中国教育评价标准的制定有何启示?这些将是本研究探讨的问题。
美国曾经使用或正在使用的社会和教育评价标准多达十几种[4]。就教育领域而言,影响最大的是1975年由12 个专业组织任命的17 人组成的教育评价标准联合委员会(Joint Committee on Standards for Educational Evaluation,JCSEE)制定的一系列教育评价标准。在美国只有获得美国国家标准学会(American National Standards Institute,ANSI)批准的标准才会上升为美国国家标准,而JCSEE 是经过ANSI 认证的组织,其发布的教育评价标准是唯一获得ANSI 认证的国家级教育评价标准[5]。JCSEE 自成立以来,1981 年研制了《教育项目、工程和材料评价标准》(Standards for evaluations of educational programs,projects and materials);1994 年修订发布第二版更名为《教育项目评价标准》[6](The program evaluation standards,为与第三版区别,以下简称《教育项目评价标准》(1994));2011 年发布第三版,名称仍为《教育项目评价标准》[7](The program evaluation standards,为与第二版区别,以下简称《教育项目评价标准》(2011))。此外,JCSSE 还在《教育项目评价标准》第一版的基础上,于1988 年研制了《人事评价标准》,2008 年发行了其修订版;2003 年研制并发布《学生评价标准》。这两个标准是《教育项目评价标准》(1994)的补充。因此,本研究选取JCSEE 最早研制、发布后又修订的2011 版《项目评价标准》为研究对象。
从2004 年到2011 年,JCSSE 召开多次研究会议,用8 年时间,通过广泛的利益相关者参与和专家讨论,并借鉴了其他国家或组织已实施的教育项目评价标准研究成果,最终确定了2011 版《教育项目评价标准》,并获得ANSI 批准,上升为国家级教育评价标准。JCSSE 制定2011 版《教育项目评价标准》时遵循以下程序:(1)标准评审的正式启动;(2)需求评估;(3)标准草案的研发;(4)外部评审委员会的监测和监督;(5)定期报告,程序监控和JCSEE 批准;(6)国家及国际审查;(7)国家听证会;(8)根据利益相关者和JCSEE 的意见和建议多次修订标准草案;(9)利益相关者实地检验修订的标准草案;(10)ANSI 程序监控和评论阶段;(11)JCSEE 投票表决是否批准标准的终稿;(12)进行标准用途和质量的宣传和研究。此外,2002 年JCSEE规定每一个具体标准的修订过程由标准修订专案组领导。
JCSEE《教育项目评估标准》(2011)包括效用性、可行性、适切性、精确性以及评价问责制(evaluation accountability)5 个母标准、30 个子标准和300 个观测点(限于篇幅,观测点未列),如表1 所示。
表1 JCSEE《教育项目评价标准》(2011)
JCSEE《教育项目评价标准》(2011)的5 个母标准分别代表了教育评价质量的一个属性。其中效用性母标准由8 个子标准构成,它描述了《教育项目评价标准》(2011)的用途、影响和误用情况,例如效用性母标准描述了何时以及如何创造评价价值、评价何时促成利益相关者的学习、通知评价决定、增进理解、促进改善以及为评价问责判断提供信息等;可行性母标准由4 个子标准构成,其呈现了影响评价可行性的因素,讨论了环境、文化、成本、政治、权力、可用资源以及其他因素对评价的影响;适切性母标准由7 个子标准构成,它规定了与评价质量相关的道德、伦理和法律条款,考虑了利益相关者以及其他人的权利,详细规定了所有利益相关者的责任;精确性母标准由8 个子标准构成,它讨论了如何提高评价结论的精确性、评价信度、效度、减少误差和偏差,其解决的是数据收集、分析、逻辑、归纳和交流的质量问题;第五个评价问责制母标准由3个子标准构成,它是一种平衡效用性、可行性、适切性和精确性四大评价质量属性的综合规定,评价问责制母标准大量讨论的内外部元评价为提高和保障评价质量提供了方法论。
1.美国《教育项目评价标准》(2011)的用途
《教育项目评价标准》(2011)对评价质量的5 个维度,即效用性、可行性、适切性、精确性和评价问责制作出了规定,为判断质量评价研究提供了一套综合标准。此标准提供了200 种策略和197 种在评价过程和结果中有可能出现的障碍(hazards)。尽管此标准未定义“障碍”,但是标准给出的案例包括了有可能阻碍或破坏评价进程或损害评价结果的不当信任、不良决策以及危险行动。
《教育项目评价标准》(2011)在评价过程中和评价结束后都可以使用。例如在评价过程中,利益相关者和评价者可以使用此标准来讨论项目评价的价值观、评价规划、过程以及结果[8];对于《教育项目评价标准》(2011)的使用,有几点需要指出:第一,此标准是在双方(即标准制定—JCSEE 和标准使用人—各级各类学校)同意和自愿情况下使用的,并非法律强制性规定;第二,此标准的使用应贯穿整个评价过程,包括规划、设计、实施、报告以及评价结果的使用;第三,此标准是“一般性”标准,因为评价是在特定的环境中产生的,特定评价中有不同的标准应用方法。这些应用应该是“能适应和回应本地环境而非遵循简单的处方,肤浅地应用”[8];第四,JCSEE 旨在为评价者在所有的质量维度融合多条标准,而不是只深入关注一两条标准不顾其他[9]。
2.美国《教育项目评价标准》(2011)的特点
尽管《教育项目评价标准》(2011)与之前1981 年版的《教育项目、工程和材料评价标准》和1994 年版的《教育项目评价标准》在很多方面都很相似,例如《教育项目评价标准》(2011)也从评价质量的4 个相同维度(效益性、可行性、适切性和精确性)对教育项目评价作了一般性规定,它也包含了常见且有用的“标准函数表”、术语表、详尽的文档、有关如何使用标准的信息以及大量的案例应用,但是它有自己的特征,其特征具体包括:(1)单个标准之间联系紧密;(2)单个标准与其他相关标准的综合解释;(3)解释了环境和文化在所有评价质量维度中的作用;(4)新增了一章,即《评价问责制》,它由3 个强调总结性元评价和形成性元评价的子标准构成;(5)每个质量维度均要求全面更新的综合文档目录;(6)更新的术语;(7)包含了前两版标准(1981 版和1994 版)说明的附录,便于学者对新旧标准进行比较研究。此外,作为经过ANSI 认证的评价标准研发组织,JCSEE 要求其制定的规则、原则和操作程序均有广泛的参与和持续的质量控制。毋容置疑,《教育项目评价标准》(2011)的制定也有广泛利益相关者的参与和持续的质量控制。
在《教育项目评价标准》(1994)被各州广泛采用20 余年的基础上,JCSEE 又针对《教育项目评价标准》(1994)在运行过程中出现的问题以及来自各方的反馈,从2003 年开始用8 年时间对其进行了重新修订,并于2011 年发表了《教育项目评价标准》(2011)。《教育项目评价标准》(2011)同《教育项目评价标准》(1994)相比,变化主要体现在母标准及其相应子标准的修订上,具体见图1。
由图1 可知,相比《教育项目评价标准》(1994),《教育项目评价标准》(2011)增加了3 条子标准,即U3协商评价目的、U6 有意义的评价流程和结果以及F1 项目管理。《教育项目评价标准》(2011)相比旧标准有3 大显著变化。其一,2011 版新标准更注重对项目评价标准的管理,因为其在可行性标准的子标准中增加了“项目管理”,规定项目评价应该使用有效的管理战略。其二,2011 版新标准更关注评价质量的提高,例如新标准将“评价问责制”单独列为一个母标准,其子标准“E1 评价文档”规定建立评价文档,记录评价目的、实施的评价设计方案、程序、数据以及评价结果等;“E2 内部元评价”规定评价者应使用可行的标准对评价设计、实施程序、信息采集和评价结果进行问责;“E3 外部元评价”规定项目评价资助人、顾客、评价者和其他利益相关者应使用可行性标准进行外部元评价。其三,新标准在很大程度上将旧标准进行了融合。例如其将旧标准“A8 定量信息分析”和“A9 定性信息分析”融合到了新标准“A6 可靠的设计和分析”中;旧标准“P3 人的权利”和“P4 人际互动”融合到了新标准“P3 被评者的权利”中。
虽然教育评价实践起源于中国古代,中国的教育评价思想和方法也影响过世界,但是这种历史态势在近现代时期却呈倒转趋势[10]。尤其是中国教育项目评价以及教育元评价的研究在近现代时期极大落后于西方的教育评价研究和实践。因此,中国在制定教育评价标准时,要充分借鉴国外已有的实证研究成果。美国自20 世纪30 年代以来,有关教育评价的研究就非常夯实,例如拉尔夫·泰勒对课程评价的8 年研究、斯克里文根据评价对象对不同评价模式的研究以及美国各种教育评价和认证组织对教育评价标准的研究等。美国《教育项目评价标准》从1981 年版到2011 年版的修订正是建立在这些夯实的研究成果基础上的。在制定中国教育评价标准时,除了借鉴国外研究成果之外,还要考虑到当前中国教育评价体制与评价实践的特殊性,对中国社会发展与教育改革的客观要求作出积极回应。因此,中国教育评价标准的制定,应该在充分借鉴与吸收基础上,立足中国教育改革与发展实际,这样才能制定出适合中国教育评价实践的教育评价标准。
图1 《教育项目评价标准》(1994)VS《教育项目评价标准》(2011)
之所以强调制定过程要有广泛的利益相关者参与,而不是简单地局限于广泛的调查分析,是因为“调查”与“参与”两个概念的转换,在实际工作过程中反映的是标准制定主体的不同以及其所代表的利益分布[11]。JCSEE《教育项目评价标准》之所以能成为美国国家级标准,被各州普遍接受与使用,一个重要的原因就是其在每一个标准研发阶段均鼓励标准的利益相关者参与,其制定2011 版《教育项目评价标准》时就包括如下多样化的利益相关者的参与[7]:(1)项目评审员;(2)项目资助人;(3)项目委托人;(4)项目评价人;(5)项目设计人;(6)项目实施人;(7)评价参与人;(8)其他回应者;(9)预期使用者;(10)其他用户;(11)评价教育工作者;(12)元评价者。在一个评价项目中,单个评价利益相关者可有一个或多个角色。在多元利益相关者参与标准制定的过程中,不仅各方的意愿、建议得以充分反映,体现了《教育项目评价标准》(2011)制定的民主性,而且通过各方共同讨论、交流与分析的过程,教育评价系统中所存在的问题和障碍也暴露出来,由此为系统地实施教育评价标准,促进教育评价的发展提供改革的基础。
教育评价标准作为制定与指导教育评价实践的纲领性文件,如何处理其指导性与操作性、统一性与具体性的关系,是中国教育评价标准制定过程中需要认真考虑的问题。美国《教育项目评价标准》的内容框架从1981 年版到2011 年版的变迁,就是对这个问题的一种反映。详细具体的指标项目有利于实践中的具体操作与运用,但容易限制教育评价的灵活性,而且不可能设计出一个全面充分的指标列表,这样就容易导致对教育评价其他指标的忽略。实际上,现实中的教育评价实践是非常复杂、多变的,评价者应根据具体的情境进行及时的适当的处理与应对。
[1]GEORGE F M,DANIEL L S.Educational evaluation:Classic works of ralph W.Tyler[M].Boston:Kluwer Academic Publishers,1989:239-241.
[2]NAFTALY S G,NEVO D.Evaluation in decision making:The case of school administration[M].Boston:Kluwer Academic Publishers,1988:33.
[3]GEORGE F M,MICHAEL S S,DANIEL L S.Evaluation models:Viewpoints on educational and human services evaluation[M].Dordrecht:Kluwer-Njhoff Publishing,1983:105-117.
[4]李少华,李汉邦.美国教育评估的元评估发展与启示[J].中国高教研究,2010(11):54-57.
[5]Joint Committee on Standards for Educational Evaluation.About JCSEE[EB/OL].[2015-4-29].http://www.jcsee.org/.
[6]The program evaluation standards[R].2rd ed.The Joint Committee on Standards for Educational Evaluation.Thousand Oaks,CA:Sage,1994.
[7]The program evaluation standards[R].3rd ed.The Joint Committee on Standards for Educational Evaluation.Thousand Oaks,CA:Sage,2011.
[8]YARBROUGH D B,SHULHA L M,HOPSON R K,et al.The program evaluation standards:A guide for evaluators and evaluation users[M].3rd ed.Thousand Oaks,CA:Sage,2011.
[9]RUHE V J.BOUDREAUR D.The 2011 program evaluation standards:A framework for quality in medical education programme evaluations[J].Journal of Evaluation in Clinical Practice,2013,19(5):925-932.
[10]翟天山.教育评价学[M].武汉:武汉工业大学出版社,2003:26.
[11]王海英.美国《学校领导标准》的制定与启示:从1996 到2008[J].外国教育研究,2009(3):32-38.