朱 颖 褚慧玲
美国著名学者吉尔伯特·萨克斯(Gilbert Sax)在其所著《教育的心理测量与评价原理》一书中指出,评价是根据各种观察或评价者自身背景及所受训练,做出有价值的判断或决策的过程。由此可知,评价是一种价值判断和决策过程。教育评价是评价在教育领域的体现与应用。何谓教育评价?各国学者进行了种种解释,但至今尚未形成一个公认的科学定义。比较有代表性的观点认为,教育评价是指根据一定的教育价值观或教育目标,运用可操作的科学手段,通过系统地搜集信息、资料并进行分析、整理,对教育活动、教育过程和教育结果进行价值判断,从而为不断完善自我和教育决策提供可靠信息的过程。[1]
美国评价专家古巴和林肯(E.G.Guba&Y.S.Lincoln)把教育评价的发展分为四个时期,分别称之为测验和测量时期、描述时期、判断时期、建构时期。[2]测量时期盛行于19 世纪末至20 世纪30年代,基本观点认为评价就是测量,评价者的工作就是测量技术员的工作,即选择测量工具、组织测量、提供测量数据。描述时期(20 世纪30年代至50年代)主流理论认为,评价是“描述”——描述教育结果与教育目标相一致的程度。判断时期萌生于1957年后美国因苏联卫星上天而发动的教育改革。在这一时期,评价人员开始关心那些已经确定的目标是否需要评价和价值判断,他们认为评价在本质上是“判断”。20 世纪70年代至今,伴随着质性评价方法的应用而产生的建构时期评价的中心思想认为,评价是一种通过“协商”而形成的“心理建构”。因此,评价应坚持“价值多元性”的信念,反对“管理主义倾向”。建构时期评价的基本特点是:把评价视为评价者和被评价者“协商”进行的共同心理建构过程;评价受多元主义价值观支配;被评价者也是评价的参与者和评价的主体;评价的基本方法是质性研究方法。
随着我国新一轮考试招生制度改革的推进,教育评价从传统的单一性评价转向多元性评价。高考作为连接高等教育和基础教育的桥梁,一方面要优化高校人才选拔标准和评价方式,科学选拔合适的人才;另一方面,要引导基础教育深化改革,促进学生全面发展。新高考上海试点平稳落地后,2017年,立足国际视野互鉴互通理念及其经验,以“教育考试评价的改革与发展”为主题,首届考试评价国际研讨会顺利举行。2018年,高考改革深入推进,对焦考试制度实施的重点、难点,聚焦学业水平考试的制度设计和标准建立,以“学业水平考试的改革与发展”为主题,面向全国的学业水平考试专题研讨会召开。2019年,高考综合改革的实践深入推动了基层教育教学改革,对接新时代育人方式的变革需求,上海市教育考试院围绕“测评也是学习”的主题,以考试机构专业化发展为指向,再一次组织国际研讨会,国内外专家再度携手,共同进行交流合作。
研讨会为期两天,大小报告40 场,围绕测评技术运用、学习能力测评、高校选拔标准、测评方案设计、在线考试探索、测评素养研究、K-12 科学素养测评等专题展开。会议特别邀请美国教育考试服务中心、美国大学入学考试中心、英国剑桥大学考评院、英国文化教育协会,以及爱尔兰、澳大利亚等国际专业教育考试评价机构和高等教育招生中心的专家学者参会发言。来自国内外的专家,以及各省市考试机构、高校和中学、科研部门的200 余位专业人士参加会议,研讨交流最新的评价理论与实践成果。
深化考试命题改革是新时代推进育人方式改革的重点任务,也是世界关注的教育关键环节和重点研究的领域,通过测评来优化学习方式、完善考试评价体系,是发展素质教育、切实引导各级各类学校转变育人方式的重要途径。
隋朝产生的科举制度打破了世袭关系和世族的垄断,实现了普通老百姓通过读书进入社会上层的阶层流动,正所谓“朝为田舍郎,暮登天子堂”。随着时代的发展,现代教育实践不断推动教育考试的改革发展,然而约定俗成的观念是“考试就是测评”。测评极高的竞争性结果产生的成功者和失败者,其结果诚如上海市教育考试院院长郑方贤总结的那样,“实际只有一部分人甚至是极小部分人才能展示优秀的能力、突出的表现,并由此获得奖励和自信,大多数人却很难实现优秀和获得自尊”。虽然不断进步的技术为测评的科学性和客观性提供了技术保证,但是,终结性评价的方式“反映被测学生过去的积累,而不是全部能力,也无益于学生在学习上的自我完善与能力提升,反而会引起更大的考试焦虑,扭曲学习动机,并形成强烈的‘应试’学习模式”。回溯改革开放40年,我国不断改革高考制度、回应社会关切,针对“应试教育”的顽瘴痼疾,为破解一考定终身的难解之题进行了艰辛探索。郑方贤院长回顾了新高考推动下,上海聚焦考试评价这一核心关键进行的富有成效的探索,结合上海市高中学业水平考试学生成绩报告单、中学及区域分析报告的统计数据,解读了上海市教育考试院为加强测评与教、学的融合,发挥基础教育的反拨和促进作用所开展的具体工作。
如何使测评有效促进学习,美国教育考试服务中心测评专家Randy 博士从最新的研究成果切入主题,围绕形成性评价的概念、测评的基本原理及影响因素指出,形成性评价是一个连环活动,教师在课堂教学中要具备识别知识、过程、策略和思维方式等方面的能力,基于认知的理论来规划和调整课堂教学的方式、内容和进度,通过观察学生的表现,立足于证据的推理,进而更好地因材施教、因人施教。如何提高形成性评价的质量和影响,Randy 博士认为,教师和学生之间要有互动,教师要能够设置不同的情境让学生展示出能力,然后收集证据,基于证据采取行动促进学生的学习。形成性评价中,教师要不断强化形成性实践,把形成性评价和基于证据的推理联系起来,运用反向推理的原则,把学生的能力表征出来,并将观察到的学生具备的能力强化。在形成性评价中,教师的不断自我反思和形成性实践的质量非常重要,理想的情况是,教师还应该不断培养学生同样的自我反思和自我调节的能力,进而达到在授课过程中开发学生能力的目标。
考试、教学和考试结果的使用,三者构成一个系统,要发挥系统的作用,三者必须协调,并且各司其职、各尽其责,只有处理好各自的关系,才能够做到有效测试、有效教学和有效使用,取得整个系统的最佳效果。杨惠中教授认为,考试不可能解决教育中存在的一切问题,因此,考试的作用是有限的。考试是一种教育服务,要使考试成为有效测试,必须提高服务质量。效度是有效测试的核心问题,信度是检验考试质量的另一个重要指标。从教育考试与心理测量学的专业角度出发,人们在不断探索改革的方向和方法。针对一考定终身的顽疾,杨教授探讨了校内的形成性测试——校本评核的开发工作,从价值理念、实施细节、应用途径、技术支持等方面分享了已经开展的实验研究与培训工作。他指出,考试产生的反拨作用极其复杂,同一个考试,可能产生不同的结果,而决定课堂教学面貌、影响学生学习成就的因素也非常复杂。校本评核要发挥有效测评的作用需要很多先决条件,例如,满足心理测量学的专业要求,明确考试的性质和目的,将统一的标准化考试与校本评核相结合,建立科学的等级量表,对教师进行全面的语言测试培训,等等。杨教授指出,考试是国家的教育主权,必须建立有自己特色的、科学的、符合国际教育测量学专业标准的、能够与国际接轨的教育考试体系。
聚焦考试开发以及不同考试划界的标准,来自英国剑桥大学考评院的Nicholas Raikes 结合英国考试的背景、考试标准的设定因素,以及将不同考试形成可比性的运作方式,指出:标准与内容相关,包含知识、技能及其他相关的能力;标准包含不同的难度和水平表现;行为表现的标准能否测定需要看学生的行为表现。基于标准参考的考试,能够反映出学生在考试中的表现和在一个群体中的位置。设定标准要把学生的能力、素质相衔接,体现不同级别的变化,不同的级别表现出不同的能力,与相应的素质相关。同时,保持标准还需要确保考试标准随着时间推移具有可比性。以英国普通中学教育证书考试(GCSE)为例,这是一项针对16 岁以上学生的资质考试,涉及9门学科,每门学科成绩都根据分数进行等级划分,学生成绩通过等级反映出来。证书考试一方面提供学生学业情况掌握程度的证据,为后续的学业、职业学习和就业奠定基础;另一方面,为学校及大学提供所有学生表现的基本依据,在学生中进行选拔,并判断学生未来能否成功,因此,这也是一个选拔的标准。GCSE 在英国有不同的资质认定机构,学生可以自行选择考试科目以及认证机构。为了确保不同机构分数等级以及不同年份考生成绩可比,就需要进行结果的可比性认证。Nicholas 介绍了成绩可比的基本做法:参照学生以前的成绩,选择参照年份以沿用当年的标准,计算出参照年份的学习成绩与GCSE 成绩之间的关系,通过这个关系来预测当前GCSE 成绩等级的划分,最后设置GCSE 等级分界分,从而实现预测的等级分布。在总结发言中他指出,成绩可比是维持结果标准的一种技能,保持相对稳定的前提是相对稳定的内容标准和需求标准,同时还需使用能力的标准,并结合专家的意见,只有这样,才能使结果更加合理。
新高考改革中实施学业水平考试是制度设计的重点,选考赋分是方案实施的难点,来自不同国度的专业人士以不同国情的案例分析和方案设计,激荡思维,拓展思路,激发与会者的共鸣。
澳大利亚的Stephen 博士,分享了维多利亚十二年级学生科目的权重调整方案,交流了学生的学术能力因学科而表现不同、不同学科之间因难度不同而分数不同的可比性问题的研究实践工作。通过案例分析,他指出,权重调整的意义在于能够显示学生在群体中的真实能力,鼓励学生敢于挑战更具有竞争力的学科,可以跨越不同的州和不同的年度。华南师范大学心理学院的张敏强教授从我国高考改革的大背景出发,从考生规模、考试命题模式、试卷使用情况、录取模式、考试招生管理机构等方面进行分析,探讨了大规模、多套卷、量级考生的测评大数据(高考)分析模式,以解决目前遇到的高考试题不可重复使用、社会难以接受调整分、考试分数“分分计较”、不同年度测试结果等值困难等难题。他提出创新测量理论方法的应用,选择若干层面对教育考试大数据做出分析,如通过分层分析对试题评价、试卷与考生水平匹配分析对试卷与考生评价、不同省份同学科的比较分析对各省学科的测试情况及不同省份试卷质量评价、以线性Logistic 测验模型的测验等值分析对“一年两考”或不同年度测试结果的评价等方式。山东省教育招生考试院的王希常博士根据新高考改革中选考科目等级赋分的情况,分析高考改革三个批次省市等级分数转换方案,比较不同等级分数模型特点,深入探讨了适应所有分数转换方法的统一标准的公式表示形式,为进一步研究和解释新高考等级分数提供了一种创新的视角。上海复旦大学黄达博士认为,选拔性考试需要对考生的能力进行度量和排序,以此作为招生录取的依据。当前大规模考试多以总分为考生的能力度量,当出现重分时会出现考生能力难以区分的问题,如果考试结果分数分布不均匀,区分度随之降低的情况则更加严重,为此,他以增加信息量、降低重分现象、提高区分度的d 系数模型为基础,提出了基于试题难度的分数重构方案,供与会者探讨。
深入推进新高考的考试评价改革,满足学生成长和人才培养的需求,需要多方合力,设计并实施好测评方案。上海市教育考试院贾林芝博士分享了基于问题解决的跨学科案例分析测评工作。根据测评开发工作的前期调研和抽样数据,结合试题案例分析,她指出:以核心概念形式组织的学科知识有助于提升学生逻辑推理与解决问题的能力,并将在未来深入研究“学生和专家不同的问题解决模式”背后的原因。华东师范大学朱广天教授基于实证数据分析过往物理试题中学科核心素养的体现情况,分享了课题项目组针对性对部分物理学科核心素养的题目试测与结果评估开展的工作,提出了物理学科学业水平考试评价维度与指标体系。上海市曹杨中学杨琳校长介绍了学校通过环境素养培育,开展的普通高中特色教育工作,结合工作实践的思考,她认为后续工作要将环境素养评价与综合素质评价有机结合,更好地发挥评价的激励和导向作用。随着考试数据不断增长和积累,如何管理、优化、挖掘和利用这些题库中的海量数据,国家题库建设也面临着诸多革新,教育部考试中心佟威老师提出,要加强用户管理,构建丰富的用户管理模型;强化素材管理,为命制丰富多样的试题打基础;优化试题查重,借助大数据和人工智能技术,利用多种算法提高试题查重的准确性,探索以数据驱动的题库开发建设模式。
高考改革承载着国家建设的育人目标,也坚守着教育发展的内在价值,对高校而言,应加强与中学人才培养的互动衔接,结合学校定位和专业培养目标科学选才,发挥对基础教育的育人导向作用。爱尔兰都柏林圣三一学院的Dominique女士,从宏观视角介绍了爱尔兰教育体系,以及爱尔兰资格框架作为教育质量评估系统,与国家所有教育体系相对应,用以帮助学生对标学业和自我管理的情况。根据圣三一学院入学标准,她介绍了学校对于本科生及研究生的入选标准设置工作,并探讨了不同来源国际生的学业标准对标工作。复旦大学朱晓超老师分享了高校与高中教育衔接的探索工作。为顺应新高考的变化,复旦大学和上海中学携手开展文科基地班、理科基地班合作培养模式,以高中作为培养主体,把大学教学方式、理念与高中衔接,将大学的培养理念前置到高中,重在拓展学生的视野和思路,发展学生的思维能力和核心素养,以过程性评价为大学综合素质评价奠定基础,推动学生在学习方式和思维方式上的转变。南京工业大学的季青春老师从科学科目、等级赋分制、综合素质评价的视角开展研究,采用实证分析的方法进行探索,建议高校根据高考科目与各自专业的相关性加强政策引导,并结合创新技术提高综合素质评价的科学性,以构建新的遴选录取路径。承接学生升学路径这一议题,上海市教育考试院李立峰博士以2019 届上海考生为例,结合上海高中生近三年20 种选考组合年度录取情况比对分析,提出加强高中生涯规划指导、加强高中选科指导、加强高校招生标准研究、优化等级考方案等政策建议。
如何从学生认知的视角培养学生的跨学科能力素养?上海市教育考试院与美国教育考试服务中心合作开展了K-12 科学素养测评项目,并以此为载体,进行科学测评能力模型建构和命题编制的研究,以实践探索回应了这个问题。
K-12 测评项目组结合具体教学内容,将理论融入实践探索。以科学中“力与运动”为例,总结学习进阶层级编制的具体研究,通过对学生的访谈和试测等反复修正进阶设定的过程,项目组更深刻地理解了知晓学生在学习中的位置及其实际能力的重要意义。以试题样例为切入点,项目组介绍了从试题设计、认知实验和试题修改,到学习进阶文本修改,最终形成试测试题的工作流程,体会构建学习进阶的优化、迭代过程。此外,项目组开展了建构科学学科测试能力模型的科学实践与核心概念的确立过程研究,教师们从认识变化到行动跟进,联系教学实际不断调整能力评价方式,并基于评价结果调整教学策略,促进了学生思维能力的培养。
课程改革的重点是提高学生的核心素养,K-12 项目研究中,教师们从知识立意向能力立意、素养立意不断努力,在试题模型设计中通过测试分析、基于评价的结果来发现教与学中存在的问题,提高教学的有效性,为提高学生分析问题和解决问题的能力奠定了基础。结合课程改革,项目组代表从学校的视角分享了以课题为抓手将科学课程等国家课程校本化的实施过程;以科学论证为例,教师们交流了初中科学课堂中对学生进行论证能力培养的实践研究;立足课堂教学,基地学校从学生发展的视角,以学科评价体系和学生学习行为分析为抓手,分享了项目组开展的探索实践。
借助科学高效的在线考试系统,提升考试管理的成效,是推进考试改革、实现考试现代化的重要表征。美国教育考试服务中心的技术专家Peter 和Mankit 合作分享了在线考试系统的设计和开发技术,并结合拓展性、可用性和便捷性的特点说明了在线考试平台的运行情况。John Peng介绍了美国教育考试服务中心的题库设计开发工作,介绍了用数字方式呈现命题内容、结构和特点的方法,并提示题库系统建设中需要考虑命题可重复使用、原数据可记录、流程可追溯等因素。科大讯飞研究院副院长竺博通过视频展示,详细介绍了人工智能在英语听说评测中的技术应用。上海市教育考试院王彬宇老师介绍了以安全设施为考虑,创新开展的基于双因素认证的网上收发卷探索实践,以及由此提升考务管理成效的工作与思考。吉林省教育考试院的孙刚老师通过对试题属性进行分析,提出试题部件的概念。以填空题为例,他提出从试题测评的特征入手,设计测评规则,提高阅卷和评卷效率,加强后续测评的针对性,进而有效提升教学和命题质量的思考和实践。对应机考模式,试题命制需要进行大量的创新和研究,上海市教育考试院李子明老师通过机考与纸笔考试案例对比,分析了机考测试在试题形态和能力考查上的优势所在,梳理了上海市合格考机考试测的工作流程,并结合学科实例进行实施要点分析。深圳市海云天科技股份有限公司王湘波博士总结了与上海市教育考试院合作开展的计算机与纸笔考试可比性研究的成果。
国务院《关于新时代推进普通高中育人方式改革的指导意见》,要求全面贯彻党的教育方针,落实立德树人根本任务,发展素质教育,深化育人关键环节和重点领域改革,并提出要建立科学的教育评价和考试招生制度的改革目标,构建全面培养体系。为统筹推进新时代育人目标的实现,回归测量服务于教育教学与学生成长的本真,真正实现“测量也是学习”的目标,教育招考战线的工作者肩负着时代赋予的重大责任和使命。
美国大学入学考试中心的Changhua Sun Rich 博士分享了ACT 研制开发的人才全面发展理论框架以及投入实施的学习测评系统:ACT 以实证研究支持系统开发,将考试大纲与心理测量方法相结合,用数据建立完整的量尺,提供教育教学的终结性测评,提供师生家长教与学的过程信息。关联系统的解析数据,考试机构可以研究预判学生的学术能力;对标系统的能力指标,教师可以调整教学进度,学生可以进行学习的自我监测。系统通过将测评和教学有机融合,有效促进了学生的成长。胡惠雅博士分享了美国大学入学考试中心开发的ACTNext 项目,结合案例介绍了该项目的设计理念以及运作方式。以促进学生个性化学习为目标,这个用于学习测评且基于人工智能的推荐及诊断的引擎系统,通过收集最初级的技能以了解学生的水平,进而进行跟踪,推荐分享学习资源,支持学生的学习过程,学生可以了解自己的学习进展,并根据引擎的导航功能进行生涯规划。
借鉴国际经验,化为本土实践,广西师范大学吴柳燕老师分享了以PISA 科学情境框架为主要依据,构建本土化情境分类框架的研究工作。通过试题举例,分类展示了生活情境、自然情境、环境情境、科学实践情境以及技术与工程情境试题,基于不同类型情境试题的学生得分统计结果,她建议以研究帮助命题者更加准确地理解情境,提高试题情境设置的有效性和科学性,鼓励教师更多地开展情境教学,在教学过程中加强与生活、自然、环境、科学实践和技术与工程等方面应用的联系,创设生动的学习情境,以有效提升学生的学科素养。如何考查学生的科学推理能力?广州市增城中学谢洁纯老师以化学图表题为研究对象,从学科知识、推理任务、推理依据、推理机制、图表解读和问题解决等六个维度构建了基于图表考查的科学推进能力构成模型,并运用SOLO 分类理论,建构评价标准,编制试题,采用样本测试,通过数据分析解读了学生在图和表专题不同维度上的差异表现。
测评素养是实施测评的重要基础,来自不同国度的测评专家从不同的视角围绕测评素养主题开展交流。英国剑桥大学英语考评部Hanan 女士,以测评改善教学的研究案例指出,不应将测评与教师的表现挂钩去考评教学效果,通过测评结果去发现学生学习过程中的优势和劣势,进而提供学习的帮助,才是极为重要的目标。测评不是绝对因素,通过测评改善教学,通过测评发现学习需求,都是测评需要关注的重要之处。以测评影响学生、教师、家长,增强学生的学习动机,提升教师的自尊自信,吸引家长的合作参与,这些都是测评取得成功的重要条件。通过跨国案例的分析,她指出,项目设计是测试成功的一个条件,然而一个国家的文化背景也是需要考虑的重要因素。英国文化教育协会Johnathan 介绍了欧洲语言共同参考框架,这是针对欧洲所有语言所做的指导性、纲领性文件,该框架一方面对语言课程的标准、考试以及教材编写具有重要的指导意义;另一方面,可以完成国家之间的互证,以不同语言层级精准的描述为基础,从而促进终身学习,实现测试和教学的有效联系。他分享了欧洲语言共同参考框架对接中国英语能力量表的研究工作,提出基于社会和认知理论建立的中国英语能力量表,和欧洲语言共同参考框架一样,也需要考虑课程、教学以及评价标准这些基本要素,同时,标准的衔接需要考虑本土化的需求,把国际标准本土化,使教师、学生和测试者从中受益。上海外国语大学邹申教授以个人工作经历为线索,回顾了个人在语言测评方面从参加考纲制定、开展国家合作项目研究、设计大规模考试,到研发项目深入语言测试全流程的工作实践。从专业成长的角度,她建议教师提高语言测评素养除了要具备基本的语言能力,更重要的是能够多维度参与研究和工作实践,增强知识储备,加强学习和反思,以提升素养。潘鸣威教授回顾上海市高考改革历程,分享了其在考试内容以及考试形式的改革中参与的实践探索,以及在英语一年两考等值和试卷公平性等方面开展的重点研究工作。上海市教育考试院徐雯老师认为,基于高考改革理念的推广、命题教师队伍的建设、科学测评对教学的正面反拨作用,英语教师急需提升测评素养。通过对上海高中英语教师测评素养现状及需求进行调查分析,她认为,测评素养要结合教师群体的实际情况,针对大多数教师有培训的需求,且更关注试题命制的具体方法,今后要开展针对性培训,并普及除试题命制外确保测评科学性的其他相关内容。
“为考试的学习”“为评价的学习”“为学习的评价”“测评也是学习”,反映了时代变迁中教育评价理念的变化,更深刻透视出的是教育评价在内容、形式、方向和理念上的明晰与端正。习近平总书记在全国教育大会上指出,要深化教育体制改革,健全立德树人落实机制,扭转不科学的教育评价导向,坚决克服唯分数、唯升学、唯文凭、唯论文、唯帽子的顽瘴痼疾,从根本上解决教育评价指挥棒问题。围绕考试评价与学生学习的关系,不同国家的教育、考试机构的专家,面对深入发展的考试改革的共同主题,结合实践,追溯历史,研讨议题涵盖国内外前沿研究成果,既有理论的分享和方案的介绍,也有实践的运用和技术的分析。会议基于中国高考综合改革的大背景,汇聚了不同研究工作背景和不同发展阶段的国内外专家,把测评的发展与改革的历程,同上海高考改革实践、全国高考综合改革形势、国际教育发展趋势等命题融合梳理,并考量分析,集前瞻性、思想性和建设性为一体,对焦问题提供方案,激荡思维引发共鸣,必将对于未来更好地提升我国高考综合改革的深入思考和广泛交流产生深远的影响。