教育评价与教育评估辨析*

2022-03-24 06:50:29冯晖

上海教育评估研究 2022年5期

冯晖

（上海市教育评估院，上海 200031）

众所周知，随着世界各国教育发展和教育质量保障运动的兴起，教育评价（教育评估）成为教育质量保障体系的重要组成部分，同时也是政府监管教育质量与办学水平的重要手段、管理决策的依据和学校改进办学实践的重要动力。随着教育作为一项公共事业被纳入公共管理的范畴，教育评价（教育评估）也逐渐成为教育治理体系的重要内容。［1-2］自20 世纪80 年代传入我国以来，教育评价（教育评估）活动蓬勃开展，积极探索并不断健全完善相关制度建设和机构建设，学术研究持续深化并取得了系列成果，逐步形成了具有时代特征和中国特色的教育评价（教育评估）体系。但同时，无论在法律法规、行政文件还是日常工作中，“教育评价”与“教育评估”混同使用甚至并行使用的情况屡见不鲜。随着教育评价（教育评估）专业实践的深入和专业化发展，其逐渐成为具有自身范式、学术共同体、社会建制的专门研究领域和具有自身专业知识体系且不断发展的学科，［3-5］对其中的核心概念进行梳理和界定十分必要，也是使其能够有效指导实践的基本要求。本文试就“教育评价”与“教育评估”的概念进行辨析，以便规范使用。

一、国外相关概念溯源

教育评价（educational evaluation）作为科学概念，是20 世纪40 年代美国教育专家泰勒经过为期八年的新教育课程的改革试验后在总结报告中首次提出的。课程改革运动使人们认识到传统教育测量的局限性，人们不仅需要检测学生的学习成就，同时也需要关注课程内容的质量、学生活动的特征、课程形式的吸引力以及学习的多种结果。教育测量虽揭示了学生的个体差异，但人们不应该仅仅只是关注该结果，而是需要努力寻找造成这个差异的原因，以促进改进和发展。由此，泰勒提出了“教育评价”的概念并阐明了教育评价的指导思想、目的和原理等。他指出，教育评价是衡量实际教育活动达到教育目标的程度的过程，实施教育评价首先必须明确教育应达到的目标，再根据预定目标对教育结果进行客观描述，促进教育活动向目标逼近。［6］至此，现代教育评价正式诞生，其内涵从教育测量扩大到关注课程、教学过程，其作用从选择、认证为主转向强调诊断、反馈，成为考查教育效果和促进教育改革的重要手段。

美国为提升在军事和科技方面的竞争优势，提高教育质量，1958 年国会通过了教育法令《国防教育法》，责成政府增拨教育经费，制定课程改革和教学改革方案，同时也要求对课程改革效果进行评价。由此，极大地推动了教育评价从学术机构的研究范畴拓展成为各级政府的工作职能，促进了教育评价理论与方法技术研究的大发展和专门人才的培养，教育评价的内容也从学生学习、课程与教学效果拓展到教育决策与教育规划等。美国学者斯塔弗尔比姆、斯克瑞文等认为评价的本质是价值判断，评价不只是根据预定目标对结果的描述，预定目标本身也需要进行价值判断；评价过程本身的价值也是评价的有机组成部分，并由此提出了“元评价（meta-evaluation）”的概念。这时学者们还提出了CIPP 模式、目标游离模式等多种教育评价模式，适用于各种不同的场合。［7］

20 世纪70 年代以后，教育评价方法论中实证化倾向占主导地位的同时，人文化倾向开始萌芽。美国学者库巴和林肯认为，评价在本质上是通过“协商”而形成共同的“心理建构”。这种以“共同建构”为基本特征的评价模式克服了传统上教育评价的“管理主义倾向”，主张价值多元和采用质性研究方法进行相互协商和达成共识。在评价中不只是单纯从评价者的需要出发，而是考虑到所有参与者的需要，让被评对象和其他相关人员充分表达各自的意见，突出个体的知识经验和主观认知的重要性，不过分追求客观性，不刻意强调数量特征，而是各方以磋商的形式尽量消除分歧、努力达成一致意见。［8］分别以测量（Measurement）、描述（Description）、判断（Judgment）和协商（Negotiation）为特征的四代教育评价理论，并不是后一代对前一代的否定和替代，而是视评价任务选择使用和相互补充。

20 世纪80 年代以后，欧美国家教育研究与实践领域中教育评价（evaluation）生机盎然之时，另一个关键词“assessment”（评估，评定，考评）井喷式出现并迅速成为热词，该词指的是与学习过程相伴的检测、判断、反思和改进的活动，是广泛收集、综合分析和解释信息的过程。［6］可见，“评估”的概念范畴比“评价”更大，其不但包含了“评价”概念的核心——价值判断，而且更加关注获得判断依据的过程、完成判断之后的反思与改进过程、评估过程中与被评对象的交互作用。

《新版牛津英语字典》中，evaluate 的意思是“form an idea of the amount， number，or value of ”（得出关于…的数、数量、价值的认识），assess的意思是“evaluate or estimate the nature，ability，or quality of ”（评定或估计…的性质、能力或质量）。可见，evaluate 侧重于数、量和价值，assess 着重于性质、能力和质量。英国期刊Assessment &Evaluation in Higher Education（《高等教育评估与评价》）在刊名上同时使用assessment 与evaluation，表明两者既有联系又有区别。国际教育成就评价协会（IEA）原主席胡森指出，evaluation“一般用于教学计划、课程以及组织变量等抽象领域中”，assessment 则“用于对人的分等、考试、证明等”。［9］国际经合组织（OECD）组织开展的PISA（Programme for International Student Assessment）项目，以及近年来发布的多个成员国关于教育评价与教育评估政策与实践情况的报告（OECD Reviews of Evaluation and Assessment in Education）中都包括 The evaluation and assessment framework、Student assessment、Teacher appraisal、 School evaluation、 Education system evaluation 等内容框架，可见 OECD 对 evaluation 与assessment的区分方法与胡森的观点一致。

二、国内相关概念演进

教育评价在我国可谓源远流长，1400多年前隋代创设、存续了1300多年之久的科举制度就是具有鉴定、选拔性质的教育评价活动，但现代教育评价（评估）概念是20 世纪80 年代从国外引进而来的。改革开放以后，我国开始引进和推广国外的教育评价（评估）理论与方法技术，开展相关研究、实践与交流活动。evaluation 和assessment 都有“评价，评估”之意，在《汉语大辞典》中，“评估”是指“评价与估量”，“评价”是指“评定价值高低；评定的价值”。因此，词义上“评估”与“评价”非常接近，均意指衡量评定人或事物的价值；词性上“评估”是动词，“评价”既是动词也是名词，如“民众给予某人很高的评价”。另外，“评估”又具有“估量”的涵义，其价值评定是一种“大概大致如此”的揣测、推测、估计与估量，不是“绝对必然如此”的精确测定、计量。因此，就动词的词义而言，“评估”包含了“评价”的涵义，但在教育领域，由于被评对象（包括教育的参与者、教育设施和活动等）的价值通常是难以物理测量的，一般由同行专家主观“估量”完成，因此“教育评价”实际上也隐含有“估量”的涵义。

我国起初翻译引进educational evaluation 概念时，通常将其翻译为“教育评价”，这也符合evaluation 的词根value（价值）之意，恰好呼应了“评价的核心是价值判断”，体现了“评价”与“价值”密切相关。例如1983 年教育部邀请IEA 时任主席胡森等专家来华讲学，介绍世界教育发展态势及教育评价研究与实践活动的动态；1986年华东师范大学邀请美国学者布卢姆来华举办“教育评价专题学术报告会”等，均使用“评价”一词。我国学者当时翻译和引进国外有关文献时，也通常采用“评价”术语，例如1987年华东师范大学出版社出版的布卢姆等著的《教育评价》，1988年吉林教育出版社出版的日本学者檇田勗一著的《教育评价》等。

在引进借鉴和消化吸收国外先进成果的基础上，我国在高等教育领域开展试点，探索我国教育评价实践和着手建立我国教育评价制度。由于对高等学校办学水平、专业、课程的评判过程中需要基于标准、依赖同行专家的知识和经验作出主观判断，因此一般采用“评估”一词。例如1985 年5 月颁布的《中共中央关于教育体制改革的决定》中第一次提出要“对高等学校的办学水平进行评估”，同年6 月原国家教委在镜泊湖召开具有里程碑意义的“高等工程教育评估问题专题研讨会”，11月原国家教委下发《关于开展高等工程教育评估研究和试点工作的通知》，1990 年11 月原国家教委印发《普通高等学校教育评估暂行规定》等。同时，国内学者开展了本土化研究，对国外研究成果加以改造和创新，开始形成一批学术成果，其中多采用“评估”之说，如1987 年陈玉琨著的《教育评估理论与技术》、北京市高教局等编的《教育评估的理论与实践》等相继问世，对我国教育评估概念、作用、功能、主要类型、标准、模式、基本程序等进行了积极探索。

在基础教育领域开展评价活动时，主要关注的内容是学生的思想品德、学业成绩、身心健康、兴趣特长、综合素质等，除了同行专家通过现场观察、个别访谈、资料查阅等作出评判之外，通过对学生进行测试以及对相关人员开展问卷调查等直接获取量化结果是评价的主要方式，因此普遍采用“评价”一词。例如1990 年中国教育学会成立了全国第一个相关学术团体——全国普通教育评价专业委员会；1999 年国务院批转教育部的《面向21 世纪教育振兴行动计划》中提出“2000 年初步形成现代化基础教育课程框架和课程标准，改革教育内容和教学方法，推行新的评价制度”；1999 年颁布的《中共中央、国务院关于深化教育改革全面推进素质教育的决定》和2004 年国务院批转教育部的《2003-2007年教育振兴行动计划》中均提出要“加快改革招生考试和评价制度”；2013年教育部下发《关于推进中小学教育质量综合评价改革的意见》等。

我国将评估作为教育质量保障的重要手段和政府监管学校办学实践以及管理决策的重要依据，因此在宏观层面通常采用“评估”一词。例如，1993年中共中央、国务院颁布的《中国教育改革和发展纲要》提出“建立各级各类教育的质量标准和评估指标体系”。1995 年颁布的《中华人民共和国教育法》规定“国家实行教育督导制度和学校及其他教育机构教育评估制度”。1996年颁布的《中华人民共和国职业教育法》规定“县级以上地方各级人民政府应当加强对本行政区域内职业教育工作的领导、统筹协调和督导评估”等。专业机构的名称上也是大多使用“评估”，例如，1994年成立的“高等学校与科研院所学位与研究生教育评估所”（2003 年更名为“教育部学位与研究生教育发展中心”），2004 年成立的“教育部高等教育教学评估中心”（2022年更名为“教育部教育质量评估中心”），1996年成立的“上海市高等教育评估事务所”（上海市教育评估院的前身）和1997 年成立的“江苏省教育评估院”等。

“评估”与“评价”的词义十分接近，两者均含有的“评”字的意思为“议论，评论；判出高下”，具有主观推测、判断和认定之意。教育领域中被评事物往往相当复杂且价值多元，“评”的结果不太可能绝对精确且一致，因此国内学术文献和工作实践中经常出现两者通用的情况，并且都将“教育评估”与“教育评价”概念的起源追溯到教育测量和美国著名的“八年研究”及其代表人物，国内大多数教育评估机构的英文名称中都将“评估”翻译为evaluation，使用中也不拘泥于胡森对evaluation 和assessment 的区分。例如1993 年颁布的《中华人民共和国教师法》规定“教师资格认定应当对申请人的思想品德、身体和心理健康状况、国家通用语言文字运用能力等进行评估”“公正评价、平等对待、科学管理学生；学校或者其他教育机构应当建立健全科学的考核评价标准；建立健全师范院校评价制度”。1999 年颁布的《中共中央、国务院关于深化教育改革全面推进素质教育的决定》提出“高中及其以上教育的办学水平评估，建立自上而下的素质教育评估检查体系”“逐步形成对学校办学行为和教育质量的社会监督机制以及评价体系”。1998 年颁布的《中华人民共和国高等教育法》第四十四条规定“高等学校的办学水平、教育质量，接受教育行政部门的监督和由其组织的评估。”2015年将此条文修正为“高等学校应当建立本学校办学水平、教育质量的评价制度，及时公开相关信息，接受社会监督。教育行政部门负责组织专家或者委托第三方专业机构对高等学校的办学水平、效益和教育质量进行评估。评估结果应当向社会公开”等。上述文本中同时使用“评估”与“评价”。

三、相关概念的使用建议

“评估”与“评价”经常通用、甚至两者并行使用，例如《国家中长期教育改革与发展规划纲要（2010-2020 年）》中出现 12 次“评估”和 25 次“评价”，2020 年2 月中共中央办公厅、国务院办公厅印发的《关于深化新时代教育督导体制机制改革的意见》中出现12 次“评估”与4 次“评价”，2020 年10 月中共中央、国务院印发的《深化新时代教育评价改革总体方案》中出现9 次“评估”和83 次“评价”，也反映了“评估”与“评价”既有交叉也各有侧重，已经形成了一定的使用习惯，需要规范使用。

对于体系、制度、政策、理论、方法等宏观层面而言，“评估”与“评价”均可使用，如评估体系/评价体系、评估制度/评价制度等，但目前更趋向于使用“评价”。在评鉴、检查、衡量教育机构的教育质量、办学水平等总体情况时，“评估”与“评价”也均可使用，如教育教学质量评估/教育教学质量评价、学校办学水平评估/学校办学水平评价等，但在基础教育领域通常使用“评价”，高等教育领域往往使用“评估”。

1.从评估（评价）对象上看，如果被评对象比较具体单一，价值判断涉及的因素和过程相对比较简单，侧重于衡量其性质、能力、质量、水平等，则宜用“评价”，如学生评价（如综合素质评价）、教师评价、学术评价（如科研成果评价）、课程教材评价等。如果被评对象比较复杂，价值评判涉及的因素比较多，且难以简单地以数量直接表征，或者尽管是衡量其质量、能力、水平等，但更需要关注的是其成因与改进，则宜用“评估”，如教学评估、学科评估、专业评估、办学绩效评估等。

2.从评估（评价）功能与目的上看，如果是旨在鉴定、选拔，对被评对象的质量、水平、能力等状况进行衡量，则宜用“评价”，如考试评价、学业水平评价、学科建设成效评价、人才评价、绩效评价等。如果是着眼促进发展，通过诊断指出问题及不足，对其未来发展趋势和可能达成的目标进行预测和提供改进建议，则宜用“评估”，如教学评估、学科建设方案评估、教育质量监测评估等。

3.从评估（评价）指标上看，如果多数指标是客观指标，注重数量表现，通过直接采样被评对象的客观数据就能判出高下，则宜用“评价”，如办学经费绩效评价、师资队伍评价、学术评价等。如果多数指标是抽象指标，需要依赖同行专家的知识和经验，在查阅资料、现场观察和交流互动的基础上给出主观评判，则宜用“评估”，如本科教学工作合格评估和审核评估等。

4.从评估（评价）结果上看，如果是以量化形式呈现的，多个被评对象可以直接相互比较其优劣、高低、强弱程度的，则宜用“评价”，如考试评价、教师考核评价以及学校、学科、专业等各类排行评价等。如果是以文字形式进行写实性质性分析与描述的，或者对被评对象进行有限选项的等第评判（如通过/不通过），则宜用“评估”，如本科教学评估（含合格评估和审核评估）、专业达标评估等。

就具体实践项目而言，究竟使用“评估”还是“评价”更为贴切，需要视项目中不同成分占据的比重而定。例如衡量学科水平时，如果指标体系主要是表征科学研究能力和成果的量化指标，通过数学模型进行相对比较得出分数的，则宜称之为“学科评价”；如果多数指标是主观指标，或者科研成果等数量表征是提供给同行专家作参考，侧重于评判学科发展潜力或态势的，则宜称之为“学科评估”。