采访_姚曦 编辑_杨军
杨念鲁:评价本质是改进教育
采访_姚曦 编辑_杨军
在2013年开始推行的教育质量综合评价改革中,中国教育学会一直是为各实验区提供专业指导的机构之一。“教育智库深度参与,行政和专业双向互动”的工作机制也是成都市推行评价改革的重要保障。为此,本刊专程采访了中国教育学会秘书长杨念鲁博士,通过他来解读目前评价改革的意义和问题。杨念鲁博士曾在教育部长期担任基础教育领域的工作,早在上世纪90年代就曾负责国家教育规划重点课题《义务教育阶段教育质量研究》,并出版专著《义务教育质量研究》。
本刊记者专访中国教育学会秘书长杨念鲁博士
两份典型的教育质量监测结果。监测一般只起标定作用,而不作具体分析
本刊记者:您好,杨先生。中国整体推动教育质量评价改革至今已有3年,从30个实验区确立到10月份在成都召开第一次全国性的现场会,可以说取得了阶段性成果。我们该如何理解当前评价改革的迫切性、复杂性、长期性?
杨念鲁:先说复杂性,复杂性主
要体现在两方面。一是长期以来社会各方面,包括教育行政部门、校长、老师、家长等对评价都存在很大误区。教育质量评价是非常复杂、严谨、科学的诊断和甄别过程,但迫于各种现实,过去我们往往简单理解为考试分数。有多少孩子考上清华、北大,考了多少分。这是社会上一般的对评价的理解。现在来谈新的评价理念,首先在观念上阻力非常大。
分数只是评价中最基础的链条。考试成绩就好比生病了需要先测体温,只是评价依据的一方面。医生也不可能仅凭体温就诊病。还需要进一步体检,比如验血、做透视等,最后诊断出病人的整体健康状况。
教育质量评价也一样,其本质是改进教育,而不是给学习者一个标定。
您刚问到监测和评价的区别。监测从某种意义上就是起标定作用,了解学习者在整个群体中的某一方面达到什么状态。并不是评价。当然可以根据标定深入研究和解析,从而进行诊断,但其主要目的是标定:测验学生是否达到国家标准,至于达到多少一般不做具体分析。
如此,我们说,教育质量评价更主要是通过测量学生学习状况并深入分析:达到标准是因为什么?(特别是)没有达到标准的问题出在哪里?这才是评价最根本的目的。是为了提高质量、改进教学、优化决策。
本刊记者:据了解,一些地区把监测和评价等同或混淆起来,这样是否存在一些问题?
杨念鲁:这肯定是不够准确的。监测和评价二者本身并行不悖,各有其用。但特别要说明一点,评价结果是不能跟教师奖惩、绩效工资挂钩的。监测应该与区域政绩挂钩,比如监测某区域的义务教育质量,是否达到国家课程大纲标准。没达到要对官员问责。
但我们坚决反对把评价结果跟教师绩效工资挂钩。因为评价目的不是为了惩罚谁,不是标定作用,而是找原因、找病根。找原因的过程中凭什么去追究教师责任?假如一个孩子数学总考40多分,一般来说很多老师、家长都会觉得这孩子“不是学数学的料”。但评价可以帮他分析,数学教育涉及记忆、计算、推理、空间思维等各种能力。这孩子虽然总体看是不及格,但分析结果可能是他计算能力不差,数学思维没建立。也可能是空间思维能力、推理能力很强,计算能力不行。同样是不及格,在精细诊断后,就会发现不同的问题,对症下药。
现在很多校外辅导机构就在应用这种方法。有孩子来咨询就做测评,分析短板,有针对性的辅导,效率很高。他们称为“靶向治疗”。当然他们使用的评价方法还是很简单的,但做法很有效。
我们说评价方法很重要。复杂性的第二方面就表现在:它不是对一个工业产品进行标定、分析。产品的标定、分析可以精确到厘米、毫米甚至更小的单位。但教育质量评价的对象是人,是活生生的个体。从科学角度说,对两个不同的人同一项学习内容的表现不太可能进行严格比较。但评价必须做比较,通过比较才有鉴别和分析,才能发现问题。
如何在技术和方法上把科学性和人的个性表现有机结合,这也是评价改革的困难所在。
本刊记者:我可不可以这么理解,既需要借助先进的技术,又不能迷信技术。
杨念鲁:对。做小范围分析时,现有技术大致是可以达到要求的。但大范围分析就有难度了,不可能花这么长时间、精力、人力对整个区域的学业情况做细致的分析和鉴别。复杂性的第三方面就是我们对那些相对比较好测量的,比如成绩,甚至某种学习能力。但有一些,比如人的情感、价值观等等──我们统称为综合素质。这次教育部发的《意见》就非常强调两点:学业成绩和综合素质;所以叫教育质量综合评价改革。综合素质要用什么方法才能准确判断,据我所知,目前国内还没有特别完善的方法。
本刊记者:有位一线老师问我,孩子诚信的程度要怎么来评价呢?
杨念鲁:不仅是诚信。道德上的问题学生可以回答得非常漂亮,道德认知测试题可以得满分,但他的道德情感是否“真的”认可这些答案?不一定。
本刊记者:知行不合一。
杨念鲁:对,就是知行不合一,言行不合一。这种问题是比较难用简单方法进行测量和分析的。尤其大范围测量时更难。国外较通行的方法是档案袋,记录学生参加的活动的表现和反馈。一两次行为可以伪装,但时间长了次数多了就不行,因此积累的数据可以进行分析。这样就能对学生的道德、情感、态度、价值观等做出判断。但这种方法不可能毕其功于一役,是一个长期、复杂的过程。档案袋在跟踪期间是否灵敏、真确,都是需要考虑的问题……
以上三方面就构成了基础教育质量综合评价的复杂性。评价和医生看病不一样,医生通过CT可以看到肿瘤位置、大小,但教育的评价达不到这种(物理性的)精细程度。
杨念鲁:再说改革的迫切性。为什么教育部特别抓学生的评价,就是因为我们过去总体上对基础教育的质量评价出了问题。
一是以分数作为评价唯一手段;二是用一次性结果进行评价。这都是不全面的。其实一个人是在不断成长变化的,他有多种潜能、智能。从不知到知,从不行到行,从不会到会的过程。不能因为他一次成绩就扣一顶差生或优生的帽子,太简单粗暴了。我总讲一个例子:在同一场考试中,一个孩子从95分提高到98分,另一个孩子从40分提高到59分。都是进步,都要鼓励。但方式方法不一样。问题在于,对后者老师往往还认为他是差生,因为他没及格。老师会更关注98分的孩子。这是我们过去教育质量评价的问题。
第三是一把尺子量所有孩子。国家有课程标准、基本的教学要求,学生接受完相关教育需要达到标准。但不能因此拿一把尺子量所有孩子,每个人都有个性。
第四,我们过去只注重语文、数学、英语等所谓主学科成绩,对其它学科,或有的不能用学科知识反映的能力往往忽略。如音体美。社会实践能力、动手能力、团队精神等等。这种评价是瘸腿的、不完整的。
这都和我们现在的人才选拔机制有关系。高考是一种特定的选拔机制,严格说它不是面向全体学生的。它只是把那些适合进入高校深造的孩子选拔出来,还有很多不适合进入高校的孩子怎么办?过去我们只用高考一把尺子来衡量,考上大学是好样的,没考上就被淘汰,这是我们整个社会的价值判断……
如果这个问题不解决,整个教育就走偏了。它还催生了题海战术、填鸭式教育。这一来教育的意义何在?培养的只是考试机器。我说得比较绝对,在教育过程中肯定也是要培养能力、教授方法。但导向不对,把整个教育导偏了,所以改革很迫切。
正是因为这种复杂性和迫切性决定了改革不可能毕其功于一役。国家有关部门充分理解基层的苦衷,意识到抓评价就是抓牛鼻子,如果能用正确的理念、方法去看待评价并正确运用评价结果,那教育质量就会有大的提升。但还有很多客观条件限制,包括我刚刚说的:领导是否支持?老师是否拥护?方法是否科学?工具是否便捷可行?这些问题不可能在短期内解决。改革一定是长期的、螺旋式的提升,最终达到理想状态的过程。
本刊记者:您刚才提到,评价出问题很大程度是我们的选拔机制有问题。现在各地也在进行高考改革。您如何看待高考改革和教育质量评价改革的关系?
杨念鲁:高考也是一种评价,是一种比较简单的、一次性、终结性的评价,跟我刚刚笼统讲的教育质量评价有些不同。如果说基础教育阶段,特别是高中阶段的评价相对科学了,对高考改革就会更加有利,更符合教育初衷。可以说是相互促进关系。
本刊记者:第二个问题,教育质量评价改革与“管、办、评”分离改革也该是配套的,如何看待评价改革在其中扮演的角色?这实际也牵涉到专业机构和行政部门合作的问题。
杨念鲁:我以为,在“管、办、评”这三者中,牛鼻子是“评”。如果“评”做不到科学、准确,“办”
就不知道朝哪个方向办,缺乏有效工具来提供改进意见。“管”也一样,我在政府工作过二十多年。有很大的体会,政府很好心,想把事情办好、管好,但是往往管不到点子上,结果反而是缺位了。很大部分原因是信息缺乏,缺少对管理对象分析的信息。这就是抓“评”的作用。如果“评”能把“办”的情况客观、准确、及时地反馈给“管”,“管”就会到位,三方形成合力。
目前的高考改革也正在改变过去“一考定终身”的评价方式
本刊记者:正如您刚才谈到信息问题。随着网络时代发展,现代教育质量评价技术也开始利用大数据分析了。能否谈谈相关的研究?
杨念鲁:近几年国外非常注重大数据分析,这是我国目前比较短缺的。我们支持公众教育研究院每年搞一个大赛(本来不想用“赛”字,但没办法,不比赛就没人来)。其实比赛的目的不是为了看成绩,主要想搜集数据。参与者达到一定数量就可做大数据分析,分析目的是为了建模。当所有评价在某一环节、某一点都能有比较科学的、可参考的常模,评价结果就准确了。未来在同一领域、同一学科将有若干个常模,需要我们组织出面把这些有参考意义、有科学性的模加以整合,提炼出一个新的模。
本刊记者:我可以把最后提炼出来的模理解成未来的行业标准吗?
杨念鲁:可以。现在因为大家的测量方法不同,提供工具的机构水平也良莠不齐。教育主管部门和学校也不知道谁的准,谁的不准,该不该用。今年我们的研讨会初步筛选了7家专门提供评价机构,让他们“打擂台”,展示各自的理念、结构、优势。说完以后专家点评,用户判断。
教育学会作为国家级学术机构不会专门和一个机构合作,将来我们会吸纳各个机构的成果加以整合。最重要是形成行业的标准、给教育改革做参考,让更多的孩子受益。
本刊记者:我见证了中国教育学会和成都市教育局签订《合作框架协议》那次会议,你们跟成都市教育局合作是如何展开的?
杨念鲁:2013年,当时教育部课程教材中心、基础教育质量监测中心和教育学会受教育部委托给30个实验区提供专业支持。在跟实验区联系过程中,我到成都出差,跟两个青羊区教研员有接触,他们告诉我青羊区以区域为单位在做教育质量评价的尝试。一开始大家不理解,不太积极,但后来惊奇地发现,通过改革,把他们包括老师们的教研的热情都充分调动起来了。我觉得这是一个非常积极的现象,是我们求之不得的。于是继续了解,才得知公众教育研究院在帮他们做评价工具。这个评价就和我前面说的理念非常吻合,后来学会就跟公众教育研究院反复接触、讨论,决定用他们的工具为30个实验区里愿意和我们合作的区域进行服务。成都市教育局正在招标,可以说一拍即合。
本刊记者:这个过程很有趣,从基层教研员了解到线索,然后找到他们背后的技术支撑,恰好公众教育研究院的理念和你们高度契合,然后中国教育学会和公众教育研究院就成了合作伙伴。
杨念鲁:就像你说的,我们的理念非常契合。他们做的评价不是简单给学生标定,也不是一次性报告,而是做学科分析。分析教学过程,从结果反推教学过程的优势和短板,进而给出改进建议。公众教育研究院和其他类似研究机构不同的一点,他们很注重让老师们参与。这也是青羊区当时做评价改革的要求。其实纯粹从技术而言,很多机构做得也不错。但关键是老师有没有参与进来。评测机构给出报告就走了,老师们拿到报告是似是而非的,不知下一步该怎么办。评价结果怎么分析,怎么反思教学过程,这实际是老师专业成长最好的途径。