张勇 姚春艳
从关于教育评价改革的国家政策、规划、制度、意见中明确改革的目标与任务,是理解和把握中国教育评价改革的基础和核心逻辑
在教育评价改革进程中,2002年、2010年、2013年和2014年四个年份,国家相继发布了一系列文件,对教育评价改革提出了越来越清晰,也越来越紧迫的要求和任务。
2002年,教育部发布了《关于积极推进中小学教育评价与考试制度的通知》。通知中给出了中小学评价与考试制度改革的原则,针对学生、教师和学校的三类评价的目的、要求和基本框架体系,提出了中小学升学考试与招生制度改革、普通高中会考制度改革、高考招生录取改革的总体要求,明确了组教育评价改革的意义及对未来影响的再认识
——根本扭转以学生学业考试成绩和学校升学率评价中小学教育质量的第一化、绝对化倾向,在评价内容上重视学生综合素质和个性发展。
——建立一套符合中国国情、能够解决我国实际问题的中小学教育质量评价体系,把教育质量评价作为诊断教育问题、完善教育政策、改进教育教学的重要举措。
——消除“一考定终身”的弊端,减轻学生应试压力,扭转“考什么学什么”、分分计较等应试教育倾向,促进千百万学生健康成长、促进各类高校科学选拔人才、促进社会公平公正。
——形成分类考试、综合评价、多元录取的基本模式,健全考试与招生相对分离、学生考试可多次选择、学校依法自主招生、专业机构组织实施、政府宏观管理、社会参与监督的运行机制,构建衔接沟通各级各类教育、认可多种学习成果的人才成长立交桥。
——促进评价方式的科学化。一是注重全面客观地收集信息,根据数据和事实进行分析判断,将评价建立在大量数据支撑和科学分析的基础上,改变过去主要依靠经验和观察进行评价的做法;二是注重考查学生进步的程度和学校的努力程度,改变过去单纯强调结果不关注发展变化的做法;三是注重促进学校建立质量内控机制,改变过于依赖外部评价而忽视自我诊断、自我改进的做法。
——改进评价结果的呈现和使用,在评价结果的呈现上,对评价内容和关键性指标进行分析诊断,分项给出评价结论,提出改进建议,形成学校教育质量综合评价报告而不是简单笼统地说“好”或“不好”。在评价结果的使用上,着重强调改进和激励功能。评价结果将作为完善教育政策措施、加强教育宏观管理的重要参考,作为考核奖惩学校的主要依据。
——教育评价转向注重引导、诊断、改进、激励转变,教育评价的目的是为了改进(improve)而不是证明(prove)。
——促进学生全面发展、健康成长,以成长为基础、以“幸福+成功”为目标的多元化、个性化、全面综合发展的教育时代已经开启。
织实施的总体思路。
2010年,被称为“中国当代教育改革元年”,《国家中长期教育改革和发展规划纲要(2010-2020年)》正式颁布。中国教育未来十年的总体战略、指导思想和战略目标就此确立。此次教育改革发展的战略主题是坚持以人为本、推进素质教育,核心是解决好培养什么人、怎样培养人的重大问题,重点是面向全体学生、促进学生全面发展,着力提高学生服务国家和人民的社会责任感、勇于探索的创新精神和善于解决问题的实践能力。对教育质量评价的改革,文件强调:第一,要根据培养目标和人才理念,建立科学、多样化的评价标准;第二,需要社会各界参与;第三,要完善学生的综合素质评价;第四,要探索促进学生全面发展的多种评价方式。该文件的出台,再一次把教育质量评价标准多元化,评价方式多元化,完善学生的综合素质评价以及评价结果要取得各利益相关方的认同等要求提到了战略层面。
2013年,被称为“中国教育史上具有里程碑意义的一年”。教育部先后颁布了《关于推进中小学教育质量综合评价改革的意见》及其附件《综合评价指标框架(试行)》【以下简称“《意见》和《指标框架(试行)》”】和《中共中央关于全面深化改革若干重大问题的决定》。前者给出了中小学教育质量综合评价改革的总体要求(指导思想、基本原则、总体目标)、综合评价体系要求(建立综合评价指标体系、健全评价标准、改进评价方式方法、科学运用评价结果)、完善推进评价改革的保障机制要求、组织实施要求;《决定》则明确给出了教育评价、考试改革的时间表和路线图,被称为“我国教育考试招生制度系统性综合性最强的一次改革”。
2014年,被称为中国“全面深化教育改革元年”,标志性事件是教育部启动全国30个中小学教育质量综合评价改革实验区以及中国教育学会管理的实验区的改革试点工作,由此拉开了中国教育史上规模最大、历时最长的教育评价改革实验。当年9月,国务院颁布《关于深化考试招生制度改革的实施意见》,正式提出了以“学生学业水平考试成绩和统一考试成绩为两种依据,以综合素质评价结果为参考的高考招生方案”,并启动在上海和浙江的试点。
上述一系列文件,基本完成了我国教育评价改革的顶层设计,这种设计体现了全球教育评价发展的总体趋势,即教育评价进入了多元化、个性化、全面综合发展评价的时代。将教育评价改革指向建立一种“体现素质教育要求、以学生发展为核心、科学多元的中小学教育质量评价制度,并希望借此制度的建立,能够‘切实扭转单纯以学生学业考试成绩和学校升学率评价中小学教育质量的倾向,促进学生全面发展、健康成长,促进学生社会责任感、创新精神和实践能力的培养’”的改革目标。因此,借鉴国际先进经验,建立一套符合中国国情、能够解决我国实际问题的中小学教育质量评价体系,把教育质量评价作为诊断教育问题、完善教育政策、改进教育教学的重要举措是实现这一目标的途径和手段,也成为确保改革成功而必须要完成的任务。
改革的目的是为了谋求发展,发展则必须要立足当前的现实。任何改革如果脱离了中国当前的实际情况,无论其构思多么精妙、设计多么完善、技术多么先进,都必然会因缺乏应用基础而难以推进。因此,对于发展的认识,必须依托对我国教育评价历史和现实的认识。
研究和把握教育发达国家及中国教育评价发展的历史和现实,是认知理解和把握中国教育评价改革的应用逻辑
迄今为止,全球教育评价发展共经过6个发展时期和5个理论阶段,分别是考试时期(19世纪末的萌芽期)、测验时期(20世纪30年代的测量理论阶段)、描述时期(20世纪30-50年代的目标中心理论阶段)、判断时期(20世纪50-70年代的标准研制理论阶段)、结果认同时期(20世纪70年代以来的建构理论阶段)和综合评价时期(20世纪80-90年代及之后的多元智能理论阶段)。这6个时期和5个理论阶段,在一定程度上也指明了教育评价改革的基本逻辑与方向。与第6个时期基本同步的是,全球新一轮的教育深度改革,标志着以成长为基础、以“幸福+成功”为目标的多元化、个性化、全面综合发展的教育时代的到来。
我国的教育评价发展至今,经历了考试时期(周代至清末)、引入美国教育评价时期(民国时期至1949年前)、引入前苏联教育评价时期(20世纪50-70年代)、“双基测验+课外活动”时期(20世纪80年代至2010年)、2013年启动教育评价改革。
我国尽管从20世纪90年代末就开始了新一轮课程改革,并于2002年对教育评价提出了新的要求,但在实际发展过程中,我国的教育评价基本上还停留在测验时期。历史上这一时期的特点是,用教育测量的结果作为教育评价的结果,即用分数取代评价。评价者在评价中仅扮演测量技术员的角色,评价的中心任务是“用科学的方法,求客观的标准,以矫正主观方法的弊端”。教育测量解决了科学收集教学信息的问题,在一定程度上克服了传统考试的主观性、随机性和随意性,但其最大的问题在于,它企图用数字来表示受教育者的全部特征,而学生的态度、兴趣、创造力、鉴赏力等的评价是十分复杂,且很难全部量化的,因此,以测量结果作为评价结果,难免过于机械化、片面化,缺乏对受教育者完整的和全面的认识。从测验时期发展到综合评价时期,西方国家历经了4个历史时期、近70年的时间,从理论到实践都有非常丰厚的积累。我国本轮的教育评价改革紧跟时代发展的步伐,力图反映全球教育评价发展的趋势,倡导多元化、个性化和全面综合发展的综合教育评价模式,客观上是要用10年左右的时间来达到西方国家70多年积累所达到的水平。改革难度之大、任务之艰巨,我们要有清晰的认识。从测量阶段跨入到综合评价阶段,意味着要解决以下几个方面的问题:
——构建教育质量综合评价的模型,以解决教育质量综合评价到底应该评什么以及各部分之间的结构关系问题。
——构建教育质量综合评价的理论体系,以解决教育质量综合评价的理论依据问题。
——健全和完善教育质量综合评价的评价标准及内容,以解决教育质量综合评价的评价标准及内容结构问题。
——健全和完善教育质量综合评价的测量标准,以解决教育质量综合评价的测量标准问题。
——开发测量和评价工具,以解决教育质量综合评价技术及方法问题。
——建立评价结果解释及应用系统,以解决教育质量综合评价结果如何解读以及如何应用问题。
——建立教育质量综合评价的标准化实施流程,以解决教育质量综合评价长效运行问题。
或许,我国的教育评价改革只有解决上述问题,及其实验验证、科学鉴定以及相关配套制度、机制、资源等问题,当前的困境才能实现真正的突破,教育评价也才能取得真正的发展。
但是,我国在教育评价领域缺乏相应的积累,要解决上述问题,唯有开放,即学习和参照发达国家的经验和做法,这可能是解决上述教育评价改革问题的最佳途径。
研究和理解教育发达国家的教育评价历史与发展,是认知理解和正确把握中国教育评价改革与发展的理念和技术逻辑
如前所述,以美国为代表的教育发达国家的教育评价历史与发展共经历了6个时期、5个理论阶段,从测试时期到综合评价时期历时近一个世纪,期间积累了丰富的理论和实践经验。经历过了以单纯的标准化考试(实质就是智力测验、认知测验)为评价标准的“应试”评价模式所带来的各种弊端后,自20世纪60年代起,以评估学生的综合素质为主的“表现性评价”(performance assessment)、“真实性评价”(authentic assessment)或“情境性评价”在美国开始兴起,并成为标准化考试的重要补充。如今,美国在评价学生和学校上已经形成了“GPA(学业成就)+综合素质评价+标准化考试(学习竞争能力考试,或应用、研究潜力测试)”的综合评价模式,而其对综合评价目标结构的界定则是:综合评价目标=学习(成就、能力、素养)评价目标+成长(程度、个性、素养)评价目标+应用、研究潜力(或学习竞争能力)测试目标。因此,美国是以“GPA+综合素质+标准化考试”为基础,辅助于全国教育进步评估(学业抽测+综合调查问卷)等,来构建和实施教育质量综合评价。
一个国家对教育质量综合评价的基础框架(图式)架构的设计,是以该国教育理念、意图、目标与标准为基础和基准的。美国“GPA+综合素质评价+标准化考试(学习竞争能力考试,或应用、研究潜力测试)”的综合评价模式所隐含的教育理念认为,教育评价的对象是具有不同特质和倾向的人,学生能力和素养由多方面构成,任何一种评价方式都有其局限性,不能仅依靠一种评价方式得出的结论来评价学生,评价应该根据学生能力和素养的不同方面选取恰当的评价方式和手段。因此,我国教育质量综合评价的基础结构,也应该从我国对教育理念、意图、目标与标准的相关规定中寻找依据。
1999年,《中共中央国务院关于深化教育改革全面推进素质教育的决定》,2001年颁布的《基础教育课程改革纲要(试行)》和2002年《教育部关于积极推进中小学评价与考试制度改革的通知》以及2013年的《意见》和《指标框架(试行)》,陆续给出了关于教育目标的基础的、系统的划分和结构要求——在国家教育宗旨和总目标之下,基本划分为:学科教育(三维)目标、基础性发展目标、人才培养教育目标,提出了“学业评价、综合素质评价、标准化考试”基本结构和要求。基于这些目标,从2001年到2012年,教育部陆续出台了学科课程标准、综合实践活动等综合素质课程标准、人才培养规划。十八届三中全会后教育部发布的相关文件及提出的中高考改革制度,明确了:综合评价=学业评价+综合素质评价+统一考试(学习能力考试,或应用、研究潜力测试)的结构和模式。
综合我国相关政策及文件的要求,以及国外先进国家的实践经验,我国教育评价改革实验的基础框架,应采用:以“学业(素质能力)评价+综合素质评价+统一考试(或标准化考试)”为基础,辅助以教育质量监测(或全国教育进步评估)的结构和模式。
教育质量综合评价结构和模式的确立,仅是解决基础问题之一,依据2013年的《意见》和《指标框架(试行)》的要求,本次中小学教育质量综合评价应建设的评价指标、标准体系等,除教育质量监测之外,主要涉及到学业评价、综合素质评价以及标准化考试三个领域。这三个领域都有其要解决的理论、技术与方法难题。
一是中小学生学业评价的理论、方法和技术需要突破。就学业评价而言,评价理论、标准、技术和方法的设计要满足三个前提条件:首先要符合国家提出的关于教育评价与考试改革的新要求,即评价要在“引导、诊断、改进和激励”功能上取得实质性的突破,其中最为重要,也最困难的是诊断功能的实现;其次,要符合新课程改革的课程目标和课程标准要求,即符合“知识与技能,过程与方法,情感态度和价值观”的三维目标,以及据此形成和完善的新课程标准要求;最后,评价结果要能与国外、国际学业成绩评估接轨。以这三者为前提条件的学业评价技术,需要思考在以下几个方面实现突破:
理论突破。有机整合国际知名教育理论以及教育学、心理学等学科的最新研究成果,建立多元、多维的评价技术模型,使学业诊断和甄别有据可依。
技术突破。在试题赋分、计分和统计分析上,依据认知与思维等发生过程,设计新的多元、多维的分数结构,为学业诊断和甄别提供丰富的信息,也为不同测试之间的等值转换提供重要参考。
应用突破。在成绩报告方面,应学习和借鉴国际大型标准化测试的报告系统,不仅能提供数据多元、多维、多重比较结果,而且能提供面向不同群体的数据报告,从而能为教育咨询提供可靠、可信、有效的科学工具,也能为教研、教学、教育教学管理等提供可靠有效的科学平台和工具,并为教师专业发展提供科学的操作平台。
二是中小学生综合素质评价的理论、方法和技术需要突破。此前,在学生综合素质评价方面的探索已经积累了一定的经验,然而依旧还存在以下问题尚未解决:中小学生综合素质评价概念界定不清;评价的标准和指标体系不够完善;评价方法、技术不科学,存在一定主观性、随意性和随机性;结果不够全面,缺少可比性;评价过程不规范,不透明,公信力较差等等。
但是,在这个方面,美国有相当丰富的经验值得我们借鉴。比如以“档案袋评价法”为代表的表现性评价,如今已成为美国教育评价和人才选拔中一种不可或缺的评价方法,全美采用“档案袋评价法”的学校已经跨越从幼儿园到大学,群体从学生到行政人员,应用范围覆盖学生的毕业、教育问责、教师的聘用、评价以及教师职业发展、行政人员的选拔与评价等等。
美国多年的教育评价实践已经证明,和标准化考试提供的评价结果相比,档案袋在促进学生自我认识能力的提升和良好素养的培养、教师更好地理解学生及教学效果、为家长、招生单位提供更全面的信息方面,都有着不可替代的优势。尤其是借助信息化手段和网络而制作的电子档案袋,不仅具有指导学生成长的作用,其存储量大和便于获取的优势还有助于在需要时提供给各个机构,包括有关招生单位。然而,档案袋评价也有其需要解决的一些技术问题,例如需要根据评价的目的精心设计档案袋内容,需要有科学的评分标准和评分量表,需要对评价结果加以解释并对应用做出指导,同时还需要对评分者进行培训,规范评分过程以保证评分信度,而这些在美国都已经有非常丰富的可借鉴的经验。
通过对比分析我国当前学生综合素质评价领域中存在的问题,以及美国在此方面已经取得的成就和经验,本次教育质量综合评价改革中,就学生综合素质评价而言,要考虑解决以下难题:如何界定中小学生综合素质及其评价的概念;构建中小学生综合素质评价的理论体系及模型;健全和完善中小学生综合素质评价标准;健全和完善中小学生综合素质评价的测量标准;健全和完善中小学生综合素质评价的指标体系;开发中小学生综合素质评价的评价工具;制定中小学生综合素质评价的工具操作标准;改进中小学生综合素质评价的结果呈现方式;建立中小学生综合素质评价的结果解释及应用系统;设计中小学生综合素质评价实验推广模式;设计中小学生综合素质评价公信力保障系统。
三是标准化考试的理论、方法和技术需要突破。首先,我们要解决的难题是,如何界定学科人才、学业人才、学术型人才和应用型人才的概念问题。
梳理我国古代、近代、现代及当代人才学中有关人才界定的理论成果后会发现,已有的人才理论和人才评价基本是以成年人为主要研究对象和评价主体,创造性劳动与为社会和人类进步做出贡献成为了人才定义的主要内容之一,不同学者又从各自关注的角度入手,将某一领域、某一行业、某一工作岗位上,具有一定的专门知识、技能和能力,以及良好的内在素质,作为特定领域内人才界定的标准。随着我国教育改革与人才战略改革合拢,国家素质教育纲要、新课程标准与国家人才纲要及人才标准开始紧密衔接并逐渐成型。这意味着,学业人才评估与选拔已经成为了一个不可忽视和回避的课题。而学业人才评估与选拔首先解决的问题就是学科、学业人才概念界定的问题。
2014年9月出台的《国务院关于深化考试招生制度改革的实施意见》中明确提出“加快推进高职院校分类考试。高职院校考试招生与普通高校相对分开,实行‘文化素质+职业技能’评价方式”。由此学业人才评估与选拔又多了一个新的任务,即如何通过分类考试,实现学术型人才与应用型人才的评估与选拔。要解决这个问题,同样需要先对学术型人才与应用型人才进行清晰的界定。
其次,要解决学业人才评估与选拔的理论和评价模型构建的难题。教育评价与人才评估发展到今天,已经积累了大量丰富的理论可供我们借鉴和使用。多元智能理论、各种人才理论、教育目标分类理论、认知诊断理论、非智力因素理论、脑科学理论等已经在西方国家的教育评价与人才评估领域中得到了广泛应用。这些理论都表现出一个共同的特点,即对人的评价越来越趋向于一个综合、复杂的过程。
多元智能理论,突破了智力理论,革命性的为人类提出了一个多元多维多层的智能结构体系,认为人的成长、传承、成才等主要取决于这个基本结构。它提出了全新的人类智能结构:本体智能(听觉-节奏,视觉-空间,动觉-操作)、工具智能(言语-语言,数学-逻辑)、对象智能(交流-交际,自知-自省,感知-探知)、存在智能。这4类8种智能,与文明、文化、社会紧密相关,共同构成了一个复杂的立体智能结构系统。依据多元智能理论来评价人的成长、传承、成才等,必然是一个高度复合了人的认知、行为、文化、非智力因素(情感、兴趣、效能感、动机、风格等)等因素的综合性评价体系。
起源于二战前后的各种人才评估与选拔理论,也逐步发展为复合了智能、认知、行为、文化、非智力因素等的综合评估。
教育目标分类理论,把人类教育的目标划分为三个基本领域:认知领域、心智运动领域、情意领域。其与多元智能理论、人才理论存在高度的同构性,并容纳和结构化了智能理论、非智力因素理论、认知建构理论等,由此奠定了教育评价的综合评价基本结构和目标模式。
脑科学理论在一定程度上证实了多元智能理论、人才理论、教育目标分类理论及以其为基础和基本结构的综合评价的科学性、有效性等。欧美国家于上个世纪80年代以来逐步实施综合评价,也取得了巨大的成功和历史性的进步。
但在国内,到目前为止,肩负着学业人才评估与选拔重要任务的中考和高考,都缺乏明确的学业人才评估与选拔理论及相应的模型。没有理论和模型,人才评估与选拔的效度就无法得到有效保证。美国教育研究协会、美国心理学会以及全美教育测量学会于2003年3月颁布的《教育与心理测试标准》在规定考试效度标准时明确指出:对每个测验分数的推荐性诠释和用途都应该有理论根据,并附有效度凭证及解释预期用途的理论综述(注解:理论根据应指明研究推荐性诠释需要什么样的前提条件。标准1.1)。测验研制人员应清楚说明测验分数应该怎样诠释和使用。测验适用的全体对象应清楚界定,测验所想测量的架构也应该清楚描述(标准1.2)。根据上述标准我们知道,考试要获得效度方面的有力支持,理论根据、测试对象的界定以及测量的架构都是非常重要的凭据。学业人才评估与选拔考试,作为高利害性的考试,其效度凭据更为重要。因此,学业人才评估与选拔的理论及模型的构建是标准化考试改革需要解决的另外一个难题。
第三,解决学业人才评估与选拔指标体系构建的难题。根据人才成长分类标准,人才大致可分为:学业人才、职业人才、专业人才、事业人才。与人才属性分类标准相对照,职业人才对应操作(技能)型人才,专业人才对应研究(能力)型人才,事业人才对应复合型人才(高度复合了多种知识、技能、能力)。在人才的成长阶梯中,学业人才是职业人才、专业人才、事业人才的基础,同时职业(技能)、专业(能力)、事业(复合)也是学业人才分化成长的三大方向。
如何依据上述人才分类方向和标准,形成学业人才的成长与发展的分类标准及其具体标准,并在人才理论模型及学业理论模型整合的基础上,构建出学业人才基础模型及测量评估基础模型,进一步发展出对应的学业人才基础标准体系,以及测量评估内容与指标体系,是标准化考试改革需要解决的又一重大难题。
上述关于标准化考试改革需要解决的难题仅仅是一些最基础的难题,是标准化考试改革取得成功的最根本的保障,但绝非全部。事实上,除了这些根本性的难题之外,标准化考试改革还有其他一系列需要克服和解决的难题。如何解决多次考试之间的等值问题,从而确保学生从多次考试中所选择的高分是能力的体现而非考试差异所导致;如何改革高考成绩报告的呈现形式,使成绩报告能够容纳“两个依据,一个参考”的全部信息,为招生单位提供更丰富,更有效的信息,从而实现高校特色、专业特点与考生特质之间最大程度的匹配问题等等。这些都是我们需要面对和解决的难题。