四种教育评价的教育测量学考量

2020-03-03 11:52杨志明

教育测量与评价 2020年8期

杨志明

（湖南师范大学测评研究中心主任、外国语学院教授，博士生导师）

2020 年6 月30 日，中共中央全面深化改革委员会第十四次会议审议通过了《深化新时代教育评价改革总体方案》（下称《总体方案》），强调要“改进结果评价，强化过程评价，探索增值评价，健全综合评价”。显然，要做好这四种教育评价并不是件容易的事情。因为当前的许多结果评价科学性不强、重结果轻过程的问题比较突出、增值评价少有涉足、综合评价量化不足等问题十分明显。这些问题的解决不仅需要从政策和管理层面做出周密和系统的安排，而且需要从教育测量与评价的理论和技术层面拿出切实可行的实操方案。本文重点讨论这四种教育评价的含义及其目前存在的问题，并从教育测量与评价的视角，为“建立科学的、符合时代要求的教育评价制度和机制”提供一些理论和方法依据。

一、四种教育评价的含义及其存在的问题

教育评价 “是指在一定教育价值观的指导下，依据确立的教育目标，通过使用一定的技术和方法，对所实施的各种教育活动、教育过程和教育结果进行科学判定的过程。 ”广义的教育评价泛指对学校教育和非学校教育各个要素、各个环节的运行质量和效益等方面的测量与评价，包括学生评价、教师评价、校长评价和教育管理者评价，以及对教育、教学、管理的条件、时间、资金、效益等方面进行的评价等。狭义的教育评价主要是指对学生的学业成绩和能力水平、个性特点和身体素质等方面的评价，如，对学生知识结构与层次、能力结构与层次、身体素质、情感态度、思想品德等方面的评价等。本文所讨论的四种教育评价主要是指学生层面的评价。

1.结果评价

结果评价（outcome evaluation）类似于教育测量学中的终结性评价（summative evaluation），其基本含义是指某个学习过程结束之时对学生学习效果的评价。评价的方式可以是绝对评价或者说标准参照性评价，也可以是相对评价或者说常模参照性评价。评价的目的可以是检验学习的效果，也可以是用做人才选拔的依据之一。绝对评价的结果表达通常使用掌握分数或学业水平表现剖析图，相对评价的结果表达通常使用量表分数或标准分数。

结果评价当前存在的主要问题是内容标准（content standards）的界定比较抽象、表现水准（performance standards）的确定比较随意，分数的表达和使用常常违背教育测量学的基本要求。同时，大量信度不高、效度证据不足甚至存在严重偏见的测评被广为使用。特别突出的是，现代考试科学的理论与技术，比如，测验等值技术、标准设定技术、分数表达技术等，较少受到考试评价部门的重视，考试评价科学和技术的普及意识和推广措施非常不足，严重阻碍了测量评价水平的提升。此外，一些以提分为目的的教学和管理措施，违背了青少年的成长规律，不利于学生创新意识的培养和各种能力的发展。

不少人把学业负担过重归罪于考试，提出了“禁止考试”或“规定考试难度为某个固定数字”等想法。这些观点不仅把考试与学业负担之间的“相关关系”混淆成了“因果关系”，而且违背了考试与评价本身的科学规律，导致某些考试的分数出现多峰分布，或最高分数段人数超过总人数40%以上等问题，损害了考试和评价的应有价值。

2.过程评价

过程评价（process evaluation）类似于教育测量学中的形成性评价（formative evaluation）。其基本含义是指在学生的学习过程当中，教师或其他人随时检查学生学习效果的一种评价方式。这种评价的目的是给学生的学习过程、速度、质量等提供诊断，帮助学生及时纠正错误。评价的方式可以是课堂教学当中的随堂小测验，也可以是点名提问，还可以是同学之间互相核查。评价结果的表达不需要“高大上”的测验分数，也就是说一般不需要估计测评的信度、效度、区分度和公平性等等，而是以解决问题为导向。过程评价可以看作教学过程的一个组成部分，或者说是课堂教学的一个重要环节。

过程评价当前存在的主要问题是不被重视和操作不当，表现为评价手段比较单一、评价内容不够丰富、反馈信息不够及时等等。其中最突出的问题是教师很努力地探究所有的问题和方法，然后不断“喂养”学生，而对学生探究和消化的过程却没有认真安排，甚至根本就没有安排。这就好比为了解苹果的滋味，本来可以让学生亲口尝一尝，但为了提高效率，许多教师仅仅自己尝一下，就告诉学生苹果是什么滋味，学生只需要记录在案，或者通过做题目记住苹果的滋味。这种忽视过程的教学模式，不仅让教师越教越累，而且会让学生越学越厌烦，学生探究问题的能力无法得到磨砺。

3.增值评价

增值评价（value-added evaluation）也叫成长性评价（growth evaluation）。其关注点是一个学习过程当中学生最后比最初进步了多少。增值评价的结果最适合用来评价某所学校或某位教师的工作敬业程度、工作质量与效果的改进程度。这种评价对生源质量比较弱的学校，或者说对于“后进班”或者“后进学生”具有非常好的鼓励价值，也是从制度设计上鼓励因材施教的手段之一，属于“一个都不能少”的教学评价。但我们也要看到，对一些示范性高中，目前人们关注的焦点一般是这些学校中被北大、清华以及其他“985”或“211”高校所录取学生的绝对人数，却没有指标衡量这些示范性高中有多少优秀生源被他们培养成了“后进生”。因此，一所高中的“优秀率”和“非优秀率”甚至“后进生比率”，都必须作为增值评价的重要指标。假若教育行政部门每年同时发布每所学校“优秀生”变成“后进生”的比例，以及“后进生”提升为“优秀生”的比例，相信会给所有示范性高中和非示范性高中的教育教学工作带来巨大影响。

增值评价目前存在的主要问题是增值评价的意识不强和评价方法比较粗糙等。比如，许多教师或学校常常直接用期末、期中和开学摸底考试成绩的变化作为增值评价的指标，而这种简单比较测验原始得分的方法明显存在科学性缺陷，因为入学、期中和期末所考试的内容一般差别明显，几次测试的分数也因为试卷难度的不同而不能直接进行比较。事实上，增值评价的方法需要科学合理，多次测评所得分数之间必须通过测验等值技术转换在一个统一的度量系统之上。具体方法需要由专业人士按照行业标准进行操作。

4.综合评价

综合评价（comprehensive evaluation）是多元评价的一种。其关键在于各大评价指标的设计是否符合评价目的和任务，评价结果的表达是否科学合理。在国家指导的学生综合素质评价方案中，其五大指标分别与德智体美劳五个要求一一对应。

综合评价一个常见误区是大家都指望把所有评价指标变成分数，然后计算总分，按总分排序做各种决定。这种把所有指标都换算成分数最后求总分的评价思路并不科学，消解了多元评价的优势。特别是用总分的方式来评价，忽视了个体在知识、能力、素养等方面的结构类型和层次水平等方面的个别差异，是一种把所有人才都做成同一个模型的思想。这种标准化的人才评价思路，显然不符合创新人才的培养要求，更不符合未来社会对人才的需要。

二、做好四种教育评价的测量学建议

要搞好四种评价，不仅需要从管理和政策层面做出周密和系统的安排，而且需要从教育测量与评价的理论和技术层面拿出切实可行的实操方案。我们可以从专业发展、行业标准、政策导向、人才培养和奖惩机制等几个方面入手。

首先，在教育评价的专业和行业发展方面，国家需要建立健全必要的行业运行规则，订立教育评价的学科建设要求和行业标准。要对教育评价工作的科学性、规范性、合法性等各个方面建立准入标准、运行标准和淘汰机制，通过制度创新保障教育评价工作的科学性、专业性和规范性。其中，教育测量学的基本原理和方法是做好教育评价的必备知识和关键能力。比如，在“改进结果评价”和“探索增值评价”方面，经典测验理论（classical testing theory，CTT）和项目反应理论（item response theory，IRT）就是最重要的理论基础。其中，分数表达技术（scaling）、标准设定技术（standard setting）、常模研发技术（norming）、测验等值的理论与方法（equating）、题库建设的原理与方法具有至关重要的作用。在“强化过程评价”和“健全综合评价”方面，不仅需要用到CTT 和IRT 的理论与方法，而且特别需要用到测评的概化理论（generalizability theory,GT）和认知诊断模型（diagnosis modeling）。这些理论和技术，必须是教育评价专业建设的基本内容，其中的理论和方法要求必须作为教育评价行业的实施标准。

其次，在人才培养方面，国家需要大力扶持教育评价学科的建设，在高校相关学位点的建设、学术期刊的布局、科研课题的立项等诸多方面，吸引更多优秀人才专注教育评价学科的发展，并通过理论研究和实践探索相结合的办法，把国际教育评价行业的成熟做法与中国的国情结合起来，培养和锻炼出一批教育评价专家队伍和工作团队，保障教育评价工作的科学性和专业性。其中，在高水平大学增设教育评价的研究生培养项目，确立教育评价学为教育学类的二级学科，在教育评价类学术期刊中确立1～2 种优秀期刊为CSSCI 期刊等（目前全国没有任何一家教育评价类期刊为C 刊），都是促进教育评价专业人才成长的具体办法。

第三，在大众科普和评价机构的建设方面需要加大力度。由于教育评价工作既有科学性要求，又有政策性要求，所以各种措施的制定和实施都需要得到大众的理解和支持。特别是，教育评价中的一些理论涉及复杂的统计学模型和算法（比如，IRT 模型、概化理论的研究设计、参数等值的算法、分数的表达需要抽样理论做支持等），非专业人士，甚至是教育评价机构的部分工作人员在理解方面存在难度，因此，建议在教育部有关部门的指导下建立教育评价国家指导委员会，具体开展行业标准的制定、教育评价理论与方法的宣传科普等工作。

第四，在政策导向方面，教育评价机制需要有利于四种评价的顺利实施。比如，可以大力引进第三方专业性教育评价机构，避免出现政府管理部门既当“运动员”又当“裁判员”的评价方式，避免出现政府“无限责任”管理模式。若这种机制的运行有难度，则需要建设专业性的测量与评价事业单位，这种单位的管理人员都必须是测评方向的专业人员。

最后，需要设立一定的奖惩机制，使得这个行业的团队和人才可以走上优胜劣汰的轨道，保障教育评价工作既专业又公平。其中一个最重要的机制是评价结果与实施评价的机构及个体的工作绩效直接挂钩，而且需要建立3 年或更多年限的追责制度。如果被评价者被认定为“合格”或“优秀”，但事实上却存在弄虚作假，一经抽查核实，则需要追究评审专家或评审机构的经济或法纪责任。这或许在制度上可以杜绝“评价工作不痛不痒走形式”的问题。

总之，“改进结果评价，强化过程评价，探索增值评价，健全综合评价”是一项很有意义而且挑战极大的工作，当前的许多教育评价做法不仅在科学性方面存在很多缺陷，而且在指导管理等方面存在大量偏差，使得“唯分数、唯升学、唯文凭、唯论文、唯帽子”的问题无法得以根治。为了做好四种教育评价，首先必须认清当前结果评价、过程评价、增值评价和综合评价中存在的问题，然后根据国情和现代教育测评的理论和方法，分别制定相应的对策，包括培养大量的教育评价专业人才，科普现代教育测评理论与方法，制定教育评价的行业标准，完善教育评价的实施方案，发挥教育评价的引导功能等。