【摘要】表现性评价,作为一种评价方法,适用于评价表现性技能和复杂的表现性任务,近年来颇受语文教师重视。但在教学实践中,较为普通地存在着百分制偏好、维度厘定随意、工具通用性差、表现特征描述笼统、规则封闭僵化、过多使用表现清单、使用频率过高、缺乏样例支撑、忽视学生参与等误区。本文对这些误区进行分析,并提出了纠正建议。
【关键词】表现性评价,运用误区
“表现性评价”(performance assessment)的概念是舶来品,于世纪之交引入我国。《普通高中语文课程标准(2017 年版)》中關于“表现性评价”的要求为:“有条件的地方,可以运用信息技术,丰富学生的表现性评价,形成多样化的学生成长记录,全面而科学地衡量学生的发展。”[1]而语文教学中的表现性评价,是指在阅读与鉴赏、表达与交流、梳理与探究等语文实践活动或问题解决、任务完成中,运用核查表、表现清单、评分规则等评价工具观察学生言语活动的过程及产生的成果,以此评价学生语文素养发展状况的方法。作为一种评价方法,它适用于评价表现性技能(如朗读、复述等)和复杂的表现性任务(如写作、演讲等),远超乎2017 年版课程标准所要求的“成长记录”之用。在指向核心素养的课程与教学视域下,语文表现性评价广泛运用于大单元教学设计、微专题教学设计中。这自然是令人高兴的。可是有的使用者照猫画虎,以致出现了诸多问题,极大地影响了表现性评价功能的发挥。本文归纳了表现性评价在实际运用中的若干误区,举例分析并提出避免落入这些误区的建议,以期有益于同行。
误区一:百分制偏好
传统的纸笔测试常采用百分制,60 分为及格。受此影响,有教师在制作评价量表时,不考虑评价内容(表现性技能或表现性成果)的规模和复杂程度,以及该项评价在单元或学期评价中的权重,一律赋以100 分(详见表1)。
这是一份表现清单,用以评价统编高中语文教材必修上册第一单元的“朗诵”。这个单元由五首现代诗歌和两篇小说构成,单元学习任务为“任选一首诗,有感情地朗读,把你对诗作的理解通过朗读表达出来”。
“朗诵”作为一种表现性技能,用表现性评价是合适的,因而该量表运用的适切性没有问题。但是,设计者将这一单元的“评点”“对话文章”“诗文朗诵”“诗歌写作要领”“诗歌写作”都设成百分制,忽视了任务之间的权重差异,极大地影响了信度(不同评价者评分的一致性),使得评分失去了“数”的意义。
其实,表现性评价通常会使用比纸笔测试规模小一些的量表。教育评价专家格兰特·威金斯提出:“提供有效适当的区分来保障足够公正的评价,但在量表上不宜使用太多的分值(通常不超过6分),以免破坏信度。”[2]如美国大学入学考试SAT(Scholastic Assessment Test)的写作,从写作观点或论点、事例或论据的组织、句式、词汇水平、语法和用法五项进行评价,由两个人同时打分,每一项从最低分1 分到最高分6 分,将得出的总成绩除以6 作为最终得分,这个最终得分的范围在2 分到12 分之间。[3]这一做法值得借鉴。
误区二:维度厘定随意
高质量的表现性评价离不开对表现对象的专业分析,以及回答好“该表现最关键的组成要素有哪些”这个问题。表现“要素”(或称维度、项目、指标),关涉表现性评价的效度。
综合中外学者的研究和实践经验,这些要素包括如下几点:(1)完整而确切的,包括学生表现或成果的重要方面;(2)要素之间的关系合乎逻辑,它们彼此区别,又共同指向描述的对象;(3)对表现的各方面有适当的侧重——对重要的内容强调得多;(4)要素的数量最好不超过五个;(5)排序合乎逻辑,便于用户理解与实际操作(详见表2)。
表2 用于评价必修上册第三单元的“朗诵”。该单元由《短歌行》等八首古诗词组成,主题是“生命的诗意”。“单元学习任务二”设计的“朗诵”活动包括“设计朗诵脚本”“组织诗歌朗诵会”等,表2 针对的是“组织诗歌朗诵会”。
由表2 可知,维度的数量在上述建议表现要素的范围内。但这四个维度是否足以覆盖“朗诵”的重要方面,维度的切分是否合乎逻辑、有主次之分,各维度的计分方式是否一致,其术语运用、排序是否有助于用户(学生)理解,这些方面都有待商榷。比如计分方式杂糅,前两个维度整体计分,后两个维度分项计分,使得量表的实用性、可行性大打折扣。
对于这个量表的改进,可从“内容呈现”(即背诵的正确率、流畅性)、“声音处理”(包括节奏、轻重、缓急、音准)、“辅助行为”(包括表情、动作、目光接触以及身外材料辅助)拟写“具体要求”,下调总分值,并根据学习内容和学情区别不同的权重。
误区三:工具通用性差
按其适用范围,表现性评价工具指向特定任务与通用两类。前者只为评价某一特定的任务开发;后者在相似的任务中是通用的,即可以使用同一个评分工具评定所有的作文、演讲。例如,美国著名的“写作分析6+1 要素评分规则”是典型的通用类评价工具。通用类评价工具,一次开发,多次运用,既能降低开发成本,也便于学生的能力迁移。
从笔者所了解的情况来看,当前语文教师对于表现性评价工具的开发表现为“一多一少”:多的是指向特定任务的评价工具,局限于课时或单元的某一任务评价;少的是指向相似任务、通用于不同单元的评价工具。评价工具开发随意,缺乏学段内表现或能力进阶的整体考量。相似任务的评价工具很难见出其一致性,从而造成所开发的评价工具通用性差,上文所列的表1、表2 就是如此。表1、表2出自同一种教学设计资料,都指向“朗诵”表现,却使用了不同的维度框架。如此安排,孤立地看没有大问题,但连贯起来,从学生角度思考,不一致的评价量表影响了学生对技能的理解和迁移。
“对于学生来说,反复使用这一通用评分规则有助于他们理解合格的标准,理解标准的内涵,有助于他们发展迁移能力”[4]。制定通用的评分规则,对教师的专业素养是一个考验。比如“朗诵/朗读”,该表现性技能既可评价阅读理解的程度,又可评价口头表达的水平。以评价口头表达的水平为例,与此相邻的语文技能表现还有口头复述、口头报告、讨论、演讲、辩论等。如能按照洛伊斯·兰宁“过程的结构”理论[5]提炼口头表达共同的技能要素,那么就可以制定出通用的评分规则。经过笔者的实践证明,上述提及的“内容呈现”“声音处理”“辅助行为”三维框架,可通用于各种“口头表达”类型。如此,表现性评价才不会囿于琐碎的知识和技能。当然,“通用”是有限度的,要与学情相应,可采用教育评价专家格兰特·威金斯提出的“折中做法”:先使用通用标准,然后使用具体指标来细化某些准则。[6]误区四:特征描述笼统格兰特·威金斯提出:“评分规则不是单凭想象和讨论就能设计出来的。评分规则来源于标准,来源于已有的不同质量的表现样本的分析。”[7]其一语道出评价工具开发的两条基本路径:一种是演绎的,即自上而下,由课程标准(内容标准、表现标准)、目标、任务或经验等推导而得;一种是归纳的,即自下而上,由分析学生代表作业开始。当然还有二者综合的。
表现性评价工具的开发,从我国语文课程的现状看,使用较多的是演绎法。其中以依据目标与任务的推导为多,依据经验推导的次之,依据课程标准、语文能力专业表现推导的最少。由此造成对各维度、各水平/等级的特征描述显得抽象笼统,如表3。“文艺短评”即篇幅短小的文艺评论,同与之相邻的时事评论、文学评论、文学鉴赏等皆属评论型的文本。评论型的文本,与感论型(如杂感、读后感)、研究型(如学术小论文)、论辩型(如辩论词)、建议型的文本同属论述类文本[8],与实用类、文学类文本区别开来。
表3 的评价标准,用论述类文本(属概念/上位概念)替代了“文艺短评”(二级种概念/下位概念),造成与误区三相反的问题,即太过“通用”了。这样一来,文艺短评特有的要求,诸如准确把握作品的情感、形象、思想内涵、艺术特点,从中选点聚焦评论,精要复述、介绍或引用作品内容,叙议结合等,都不见了。
对此,笔者开发的文学评论整体评分规则[9]可供参考:
1 分=评论点不聚焦,未能就作品提出自己的观点,只是对作品的浅层阐释,结构布局不清楚或详略失当,语言苍白无力。
2 分=有比较明确合宜的评论点,能就评论点提出较为明确的观点,有对作品的浅层分析,结构布局不够清楚或详略不够适当,语言有一定的思辨性。
3分=有明确合宜的评论点,能就评论点提出明确的观点,分析阐述较为深入理性,结构布局比较清楚,详略比较适当,语言有一定的思辨性和文学性。
4 分=有明確合宜的评论点,能就评论点提出鲜明的观点,分析阐述深入理性且有一定的辩证,结构布局清楚,详略适当,语言有一定的思辨性和文学性。
5 分=有明确而独特的评论点,能就评论点提出鲜明而独特的观点,分析阐述深入、理性而辩证,结构布局清晰灵活,语言体现思辨性与文学性的结合。
这是整体评分规则,其中包括评论点选择、观点表达、分析阐述、结构布局、语言五个维度,尽力描述各水平的特征(尽管还不太具体),便于学生理解和使用。整体评分规则适用于简单的成果或表现,须要进行快速、整体评价的状况。教学中最好转换为分项评分规则,以便于学生理解标准,或给学生作出详尽的反馈。
误区五:规则封闭僵化
相对于前述四个误区,这一误区隐蔽性较强,不易被发现。运用表现性评价的各种评分工具,是为了诊断任务理解和完成情况,给出有用的、完好的推论,从而更好地促进学生学习。如果评分工具知识陈旧(错误就更不应该了)、因袭套路(如表3 所用的议论文三要素),就很可能抑制学生的表现,妨碍学生的学习和发展。且看表4:这是一个表现清单,用于“实用性阅读与交流”任务群之“校园阅读节策划”。对于高中学生来说,“策划书”的创意及创意的可行性最为重要。试想,一份行文规范但创意单薄的策划书,一份行文有瑕疵、格式不走寻常路但充满思想和创造性的策划书,哪份更可取呢?表4 的评分工具,固然给理解力较弱的学生提供了支架,但也给那些思维灵动的学生戴上了“紧箍咒”。这就是所谓的“规则封闭僵化”。
为此,格兰特·威金斯郑重告诫:“我们千万不要制定那些一味因袭成规或传统套路的评分规则……评分规则并不天生地压抑革新,只有坏的评分规则才压抑革新。如果我们忘记或避免评价影响和目的,就会产生坏的评分规则。”[10]如果理念落后、知识陈旧、思维固化,开发的评分规则很可能限制学生的创造性表现,对此我们一定要加以警惕。
误区六:过多使用表现清单
表现性评价有三种工具类型——核查表、表现清单和评分规则。核查表只回答是否具备要素(维度、指标),不能区分有不同层次或水平的表现。表现清单比核查表稍微精细一些,它列出要评价的各个要素和评分量表。前述表1、表2、表3 与表4 都是表现清单,除表3 是三点量表(优秀、良好、一般)外,其余都是百分制量表。
表现清单的好处是开发成本低,使用者可以灵活地权衡不同要素的重要性。但它有一个主要的不足,就是缺乏对不同表现性水平的详细说明。比如表1,“语调、节奏的把握是否正确”(这种表述类似核查表,也是不恰当的,可改为“正确把握语调、节奏”)这一条,即使将分值从20 分缩减到5 分,也无法判断该得几分。如朱迪思·阿特所说的:“因为缺乏对不同表现水平的详尽说明,教师不同的期望值和表现性标准会降低评价的可信度。”[11]
鉴于核查表、表现清单的局限,表现性评价更多采用的工具是评分规则,中外有关表现性评价的专著都将评分规则视为主流。笔者翻阅近年来多种语文教育书刊中的表现性评价工具,出现最多的却是表现清单。有所谓“新教学设计”,一整套采用的都是表现清单,这大大窄化了表现性评价,显得单调而乏味。也有期刊处理得比较好,以《语文建设》为例,该刊2021 年第1 期关注的“写作评价”、第5 期关注的“阅读评价”,多采用了评分规则,如表5。[12]
表5 是分项评分规则,由维度、等级/水平、描述和表现样例(略)等组成。顶行显示维度,是文本普适三维度(内容、结构、语言)的具体化;最左列显示三个水平等级。巧妙的是,无论是维度还是水平等级都用了百分比,如此便可根据论辩稿在不同单元中的评价权重灵活赋分,比如满分10 分或6 分等。表现性评价的运用,除以上六个误区外,还有其他一些误区。
一是使用过频。一个单元中充斥大量的表现性评价,势必干扰学生的沉静学习。表现性评价“是一种很耗费人力的评价方法”,因而“只有时间允许时,才能考虑使用表现性评价”[13]。单元表现性评价要让渡给核心的表现性任务,非核心任务可用交流式或选择性反应评价。
二是缺乏样例的支撑。学生无法理解什么是“优秀”的,或者因只展示一个样例,“他们很可能会片面地模仿样例或者完全照搬”[14]。比如制作“文学短评”评分工具时,就可借助唐圭璋《唐宋词鉴赏词典》、傅庚生《中国文学欣赏举隅》等书籍中的文本作为样例。有具体样例的评分规则,能够为目标用户(如学生、教师等)理解和运用评分规则提供支持。
三是忽视学生的参与,学生机械运用表现性评价。其实,从开发表现性评价工具开始,就可让学生参与。如必修上册第二单元“小组合作,从新闻价值、报道角度、结构层次、语言表达等方面草拟一份优秀新闻评选标准”,即是学生参与评分规则的制定。其前一任务“选择一份报纸或一个新闻网站,浏览一周的内容,从中挑选出三四篇你认为比较优秀的新闻作品”,可以理解为样例搜集与分析,整个开发过程可以理解为自下而上的归纳式开发路径。
出现以上误区的主要原因是,教师缺乏系统的表现性评价知识,以及评价实践经验、实证研究不足。笔者撰写此文旨在唤起语文同人对该问题的重视。
參考文献
[1]中华人民共和国教育部. 普通高中语文课程标准(2017年版2020年修订)[S]. 北京:人民教育出版社,2020:46.
[2][6][7][10]格兰特·威金斯. 教育性评价[M].“促进教师发展与学生成长的评价研究”项目组,译. 北京:中国轻工业出版社,2005:163,155,161,159.
[3]江南梦忆. 美国作文试卷如何进行标准评分[EB/OL].[2012-01-07].[2021-07-28]. http://blog.sina.com.cn/s/blog_48ee7201010124i2.html.
[4]周文叶. 中小学表现性评价的理论与技术[M].上海:华东师范大学出版社,2014:122.
[5]林恩·埃里克森,洛伊斯·兰宁. 以概念为本的课程与教学:培养核心素养的绝佳实践[M]. 鲁效孔,译. 上海:华东师范大学出版社,2018:19.
[8][9]林荣凑. 论述文写作16 课[M]. 杭州:浙江工商大学出版社,2018:4,147.
[11]朱迪思·阿特,杰伊·麦克塔尔. 课堂教学评分规则:用表现性评价准则提高学生成绩[M].“促进教师发展与学生成长的评价研究”项目组,译. 北京:中国轻工业出版社,2005:8.
[12]郭家海. 表现性评价:情境写作背景下的评价转向[J]. 语文建设,2021(1上).
[13]理查德·J·斯蒂金斯. 促进学习的学生参与式课堂评价(第4 版)[M].“促进教师发展与学生成长的评价研究”项目组,译. 北京:中国轻工业出版社,2005:158.
[14]格兰特·威金斯,杰伊·麦克泰格. 追求理解的教学设计(第2 版)[M]. 闫寒冰,等译. 上海:华东师范大学出版社,2017:203.