刘笛月 杨向东 罗 浩
在当前国际与国内强调基于素养的测评研究中,传统的纸笔测验因无法满足测量复杂情境下的素养水平的要求、缺乏生态效度而被诟病。因而,使用表现性评价方法测评素养逐渐成为当前测量与评价领域的新趋势。表现性评价是在真实情境中,基于被试的表现性证据而作出评判的测评方法。[1]当前教育领域的表现性评价方法的主要形式是收集被试在真实情境中与素养有关的行为表现载体,并从载体中锚定与素养有关的行为表现,从而根据评价标准进行判断,故而表现性评价的过程即为依据证据进行论证的过程。在这一过程中,证据载体往往是基于真实的复杂情境,从而弥补了传统的素养测评中生态效度不足的问题。然而正因其所呈现内容的复杂性,以往的测评往往具有较低的信度和效度。
造成表现性评价出现上述较低质量的因素可能有三种。一是评分者的主观因素。评分者在对表现性评价中呈现的表现性证据作出判断时,往往会受到自身价值观、意识形态、对建构的理解、严格程度和评判难度等因素的影响,也可能基于不同的解释框架对相同的证据作出不同的推断,[2]这些都会降低评分者内在一致性信度和评分者间的一致性信度。二是传统的背对背评分方式。评分者之间依照评价标准背对背评分,适用于客观的标准化测试,而用于表现性评价这种体现多种复杂的过程性证据的评分,则可能掺进评分者更多主观成分;同时,独立评分增加了评分者无法关注到所有载体中证据内容的可能性。因此对复杂的、基于真实情境的表现证据评分,评分结果的效度在某种程度上需取决于评分者之间的共识。第三,固定、客观的评价标准的局限。固定、客观的评价标准无法适用于多证据的、基于复杂的问题情境的评估,因为表现性评价中呈现的素养证据往往是混杂的,甚至是矛盾的,固定的评价标准不能较好地反映所有水平表现,且由于证据的复杂属性,评价标准无法做到绝对客观。
可见,表现性评价的评分过程具有一定的特殊性。它需要评分者反复验证证据和解释之间的关系,将不同来源的证据进行整合,从每个分离的证据中推导出教师评价素养的系统连贯的解释。[3]因此,在评分者进行评分的过程中,应增加评分的解释性和互动性,使评分者的解释与证据载体反复地被验证和修订,即在评分过程中强调评分者与评分者之间的举证,促使评分者与证据、评分者与评分规则、评分者与评分者之间的互动,从而提高评估质量。
鉴于此,本研究尝试依据这一假设,开发一种能够提高评分质量的评分过程,在所建评分标准的基础之上,增加有助于评分者进行更客观地评分的表现性证据范例和指导性问题,建构评分者之间的互动模式,以达到提高表现性评价的效度和信度的目的。
据此,本研究以测评“教师评价素养”为例展开表现性评价的评分过程研究。教师评价素养是教师在特定的教学评价场域和专业实践工作中所表现出的内隐的评价知识和一系列外化的有关学习评价的表现性技能的综合。[4]本研究重点测评教师评价素养表现在不同学科中的共同特征,因而评分规则也是针对教师在普遍的日常教学实践中的通用的评价表现。对教师评价素养的测评过程是首先通过教案、课堂录像、教师反思、学生作业等收集教师评价素养表现性证据,然后再依据评分规则对教师的表现性证据进行评分。本研究着重从量化分析和质性分析两个方面验证互动的、解释性的评分过程的质量,量化分析旨在验证工具和评分者的信效度,质性分析的目的是进一步挖掘评分的科学性达成的过程。
研究采取方便抽样的方法,在被试自愿、校长和教研员推荐的条件下进行取样。考虑到语文和数学学科教师在实践中能够更多地实施和参与学生评价,因此本研究将基础教育阶段的语文和数学学科教师作为主要的研究对象。最终,本研究招募了中部某省会城市的5名语文教师和5名数学教师参与本次研究。这10名教师的基本信息如表1所示。
表1 被试基本信息
1. 教师评价素养问卷
本研究采用了郑东辉[5]在2010年汉化并改编的《教师评价素养问卷》(Teacher Assessment Literacy Questionnaire,简称TALQ)进行问卷调查。之所以选择这一问卷是因为该问卷的各维度与本研究的指标体系较为一致。该问卷共21题,每题答对计1分,答错计0分。本研究使用的问卷各维度与题目之间的对应关系为:1—3题考察“选择评价方法”;4—6题对应的维度是“开发评价方法”;7—9题对应的维度是“管理、评分和解释评价结果”;10—12题对应的维度是“使用评价结果进行教育决策”;13—15题对应的维度是“使用评价划分等级”;16—18题对应的维度是“交流评价结果”;19—21题考察评价中“识别不合伦理的评价实践”的素养。
2. 教师表现性证据载体
本研究将教师评价素养分为五个维度进行测评,分别是“确定评价目标”“设计与预测”“实施与评判”“反馈与指导”“反思与改进”,并细分为11个指标。通过文献梳理、领域分析和专家访谈等方法,研究者确定了各指标的具体表现与其表现性证据载体。教师评价实践过程的表现性证据载体包含了教师所有有关评价实践的材料,其中教案、学生作业样例、课堂录像、课堂反思和作业反思为必需材料,其他材料(例如PPT、学习单等)为教师的补充性材料。教师提交的证据载体的具体信息如表2所示。
表2 教师所提交的证据载体内容清单
3. 评分规则
本研究招募两名评分者,依据已制定的教师评价素养的评分规则对教师评价素养的证据载体进行评分。为便于评分者操作,评分规则主要由评价标准、指导性问题、评估报告、评估报告示例四部分组成,其中指导性问题指向描述、判断、举证、分析、反例等五个层面的评估报告内容,评分者依据问题提示撰写简要的评估报告,避免遗漏重要内容。评分规则示例如表3所示。
表3 评分规则示例
本研究招募两名评分者,对所收集的证据载体进行评分。其中,评分者A是具有超过15年教学和评价经验的小学数学教师,评分者B为具备多年语文教学经历和教师评价经验的小学校长。评分流程遵循了以下几个步骤。
1. 评分者培训
培训目的是使评分者清楚了解评价素养指标体系中各维度的评价表现,和评分规则内容及其使用规范。培训采取线上形式,持续时间为3小时左右。为了达到培训目的,培训过程分为三个阶段。
第一阶段,介绍。研究者首先向评分者系统讲解评价素养、表现性评价等概念内涵。其次是针对评分流程的说明,研究者向评分者介绍评分规则以及评分方法,提供评分示例,并向其说明如何检索载体中的表现性证据,如何基于证据进行评分,如何根据指导性问题和示例撰写评估报告等。
第二阶段,示范。为进一步帮助评分者理解评分规则中的各项标准及评分流程,研究者选定某一个维度,从预研究采集的10份证据载体中随机抽取一位被试的证据载体,包括文本片段和视频片段,示范并指导两名评分者根据评分规则进行判断。首先要求评分者判断在该片段中被试在该维度上的评价实践规范性,然后再判断被试在该维度表现上的质量,最后指导两名评分者依据规则评判该被试在每个片段中的表现如何,并且回答每个维度上的指导性问题。在这个过程中,两位评分者出现意见不一致的情况,要求他们辅以证据说明各自评分的合理性,直到达成一致意见。
第三阶段,试评。从预研究中选择一份完整的证据载体内容,要求两位评分者按照评价手册独立评分。两名评分者首先查阅证据载体中的所有材料,并进行记录,标注与评价标准相关的证据;其次,依据证据载体内容进行评分,并完成评分报告的撰写,每项评分报告包含初步分析、证据和反例,以及针对指导性问题的分析总结。在评分完毕之后,评分者向研究者展示、汇报评分结果,研究者对评分者偏离评分规则的内容进行额外的指导。
2. 正式评分
由于客观条件限制,两名评分者对证据载体的评估采取远程视频会议的方式同时进行,研究者对整个评分过程进行全程视频并录像录音。正式评分分为三步进行。
(1) 独立评分。参照培训中的第三阶段,两位评分者进行独立评分。最终10份被试材料得到两份评分记录,即评分者A评定的结果ai,评分者B评定的结果bi。
(2) 重新评分。评分结束后,研究者检查所有评分,要求两名评分者对评分中被评定为0分的指标,以及研究者认为评分者所撰写的报告中证据不足的评分,重新进行独立评估。
(3) 合作评分。研究者检查每个维度上两位评分者的评分,若两个分数差异超过该维度总分的1/2,则被认为是具有显著差异的评分,需要两名评分者对存有显著差异的维度进行共同商议评分。商议评分的过程为:评分者首先分别总结陈述,然后根据各自论点相互举证和举出反例,直至对该维度的评分达成共识,最后共同撰写具有共识的评分表,并形成最终的合作评分结果ci。
数据分析主要从量化分析和质性分析两个层面进行。量化分析包括了信效度分析和多面Rasch建模分析,而质性分析为评分过程案例分析。
1. 信效度分析
本研究首先计算了校标关联效度,使用SPSS 23.0计算评分结果ai、bi和ci分别与问卷得分的皮尔逊积差相关,并比较何种方法所得分数具有较高的校标关联效度,则说明使用该方法更能预测教师真实的评价素养水平。
其次,本研究使用SPSS 23.0计算两名评分者评分之间的皮尔逊积差相关系数,从而得出评分者间一致性信度。相关系数大于0.80,说明评分者间一致性信度较高。
最后,在计算评分者内部一致性信度时使用SPSS 23.0计算得分ai、 bi和ci的克隆巴赫α系数,从而得出评分者内部一致性信度。一般而言,α>0.70则被认为具有较高信度[6],系数介于0.60与0.70之间处于可接受的范围内。
2. 多面Rasch建模分析
当存在多个评分者对被试进行评分时,通常会采用多面Rasch模型(Many Facet Rasch Model,简称MFRM)进行建模分析。该模型将被试能力、评分者宽严程度、题目难度、评分等级等变量纳入影响最终评分的因素之中。具体来说,本研究采用Linacre编制的MFRM分析程序FACETS 3.80.4[7]进行数据分析,在同一尺度上对被试能力、评分者宽严程度以及题目难度进行分析。
3. 评分过程的案例分析
除以上量化分析外,本研究为论证评分过程的合理性还进行了案例分析。研究者选择某一典型的评分点,采用半结构化的回溯性访谈方式,挖掘评分者的评分过程,从而确定评分者证据提取、证据解释的内在逻辑,并将证据与评分表进行对应,从而建构评分过程模型。具体的分析过程为:(1)在所有评分结束后,研究者收集两名评分者的所有评分表。(2)结合评分过程中的视频录像,选择在两名评分者独立评分时,存在显著差异评分的案例进行分析。(3)研究者对两名评分者进行半结构化的回溯性访谈,并进行全程录音。
评分过程分析分为两个部分,一是分析评分者是如何提取证据、解释证据,以及如何评判的;二是分析评分者是如何与另一名评分者根据评分差异,相互列举证据进行论证,从而达成共识的。
研究采用基于证据的论证和图尔敏(Toulmin)的论证模型为分析思路,即强调理由、推理与合理性,阐明证据—论点—主张之间的动态关系。证据是评分者基于可观察的、以通用术语进行描述的数据;论点依据证据建立,在实际评估中,评分者需要通过教师在表现性评价中的语言、行为、文字等数据,寻找能够代表教师评价素养的多种证据从而形成推断;而主张是由不同论点汇集而成的判断,应与评估目的紧密相关,是评分者期望能够根据被试在表现性评价中的表现而作出的整合性的、概括性的陈述。
1. 信效度分析
(1) 校标关联效度
本研究计算了每个被试在表现性评价的总分与问卷测试分数之间的积差相关,结果如表4所示。结果表明,评分者共同协商的得分ci较之独立评分ai和bi具有更高的校标关联效度。
表4 各分数间的相关性检验
(2) 评分者间一致性信度检验
本研究计算了两名评分者A和B评分的皮尔逊积差相关,r=0.85(p<0.01),结果表明评分者间一致性信度较高。
(3) 评分者内部一致性信度检验
研究计算了得分ai、bi和ci的克隆巴赫α系数,分别为αai=0.66、αbi=0.67和αci=0.70。由结果可得,本次评估的评分者内部一致性在可以接受的范围内。
2. 多面Rasch建模分析
图1为同一尺度下评分者宽严程度、被试能力以及题目难度的分布图,这些题目的难度范围为-0.49至0.58logit,较好地覆盖了10名被试的能力水平,并且这些题目的分布趋近于正态分布,说明评价工具的质量较好。
Measr-raters+examinees-items1+|||||||||0∗|||||||||-1+ Rater_B Rater_A+|||||||||∗|||||||||+Teacher_9Teacher_10 Teacher_7Teacher_3Teacher_1Teacher_8Teacher_6Teacher_5Teacher_4Teacher_2+|||||||||∗|||||||||+Item_4Item_9Item_3 Item_7Item_11Item_12Item_13 Item_16 Item_8Item_4Item_10 Item_19 Item_5Item_15 Item_17 Item_18Item_2 Item_6Item_1
被试MFRM的分析结果见表5。首先,这10名教师的能力范围为-0.74至0.46logit,其中教师T9的评价素养水平最高,教师T2的评价素养水平最低。其次,所有被试的Infit值都在可接受的取值范围0.5—1.5内[8],说明实际观察值和模型预测值之间的拟合程度较好。被试能力估计值标准误均方的平方根(RMSE)为0.15,说明对被试的测评误差较低。最后,表明每个面的个体之间的差异是否大于测量误差的分隔系数(Separation)和信度(Reliability)分别为2.50和0.86。分隔系数大于2,一般认为存在明显差异;信度达到0.86,说明此结果的可信度较高。此外,本研究未发现这10名教师的评价素养能力在学科背景(语文和数学)上存在显著差异(t=0.284,p=0.78)。
表5 被试MFRM能力估计表
最后,由表6可知,在评分宽严程度上,评分者B要比评分者A更严。此外,表示评分者内部一致性程度的Infit值都在可接受的0.5—1.5范围内,这说明两位评分者不太存在主观评分的偏差。Reliability值为0.60,虽然不高,但Separation的值(1.21)远小于2,说明评分者之间不存在明显差异。此外,卡方检验的显著性p值为0.12,进一步说明评分者之间差异不显著,评分者之间评分较为一致。
表6 评分者MFRM估计表
在质性分析部分,本研究关注的是在评分过程中证据、论点和主张是如何互动的,也就是说评分者是如何使用证据和评分表进行评分的,以及评分者之间是如何互动并形成最终评分的。围绕这两个研究问题,本研究通过从访谈实录中提取评分者在评分过程中的关键行为进行分析和论证。案例分析选取了T8被试的证据载体,以“SO维度—反馈”中“SO-1使用高级反馈技术”这条标准为例,进行评分过程的案例分析。评分结果显示,在T8被试的该项评分上,两位评分者差异较大,评分者A认为被试具有较高的反馈技术,该项评分应为1分;评分者B认为被试反馈水平较低,在该项上的得分应为0分。基于此,本研究采用回溯性访谈的方法对两位评分者进行了深入访谈,分析他们的评分流程与论证过程,提取共性的评分模式。研究结果如下。
1. 独立评分过程
(1) 将评分规则与教学经验相联系,从而建构教师表现特征
评分者首先通过评分前培训和正式评分时再次阅读评分表内容,知晓评分规则中的各项评分条目;然后抓取评分规则中的关键词,理解这些关键词所指代的教学实践中教师的行为表现。例如,在本案例中,评分者A在访谈中解释道:“评分表是一个平面的、二维的文字,但是我会在理解它的时候,将它想象为具象的、在我教学场景中会出现的画面。”
(2) 对照证据载体中的多种内容并进行教师表现锚定
在对证据载体内容的首次评估中,评分者根据评分要求,先在各项证据载体中,寻找与自己建构的理解匹配的相关行为,并记录下来。评分者B提到:“在我从事的教师课堂表现的听评课中,我自己总结了一些关于教师使用追问、引申、探问、请求解释、诱导答案、引导自我修正等一系列的反馈技术的表现。在我看教师课堂录像时,我就会重点捕捉教师的这些行为,记录下发生的时间点和大概的教学任务描述。”
(3) 对教师在该评价素养维度上的表现进行整合性判断
评分者在标注证据的过程中,形成一个支持—反对的论点比对,最终形成对教师评价素养的整体性判断,即主张。例如,在本研究选择的案例中,评分者A认为被试教师在大多数情况下都能表现出较高的反馈技术,例如,在学生进行小组汇报后,教师没有立刻给出“对”“错”判断,而是通过反问“是这样吗?”引发学生思考,并成功激发多名学生举手发言,最后通过展示小组的结果进行反驳,这是反馈技术较高的体现。但是课堂中也有一些反例,如在课堂实录中教学结束时的总结复习环节,被试教师要求学生课堂小结,询问学生“这节课学到了什么”,两个发言学生的总结基本都为“以后玩游戏的时候能够用到这堂课的知识”,也就是说都没有贴合教学目标,但是被试教师给出的反馈仅仅是“好的”,这明显不是高水平的反馈。
访谈发现,在给出一个整合性的判断上,难度是比较高的,且是在被新的证据和论点不断修正的。评分者一般通过以下两种方式作出整合性判断,给出被试表现的主张。第一,针对主要目标或任务的表现行为。一堂课中一般都有教学重难点,相应的也都有突破重难点的主要的评价任务。在判断上,评分者查看教案和教学录相,首先确定的是核心的、指向重要教学目标的学习任务中教师的证据表现,并给予这些证据以较高的权重,从而得出推论。例如,在这一案例中,评分者A对被试教师在活动二的反馈表现赋以更高的权重,认为其是突破重难点达成主要教学目标的主要任务,最后比较支持该评分的证据和反对证据的加权总分,从而对被试形成一个整合性的评判。第二,重新审查、比较每种证据,根据不同载体中呈现的不同证据,比较支持和反对该维度得分的证据数量,从而进行整体性评判。例如,在这一案例中,评分者B就是在审查、比较各种证据数量的基础上给出的判断,认为在教案、作业等反馈上,被试教师做出了更多较低水平的表现。
2. 合作评分过程
当两位评分者对同一被试得出相差较大的整体性判断后,本研究要求他们进行讨论并得出一个协商得分。这一过程是一个使用附带证据的不同论点相互论证的过程,呈现出典型的“主张—论点—证据”的论证逻辑。
(1) 评分者描述双方不一致的主张和论点
评分者在合作评分时,首先比对评分表中撰写的评估报告,分别对其撰写的整体性判断进行描述,并附以论点作为支撑。例如,评分者B在本案例中主张“该教师没有达到使用高级反馈技术的标准”,因为“该教师的反馈技术一般,更多是一种低级的、不连贯的反馈”。而评分者A认为,“该教师在总体上达到使用高级反馈技术的标准”,因为“该教师反复使用‘然后呢?’‘是吗?’‘如果……那么……会怎样?’的句式进行反问和设问,这是典型的高级反馈的表现。”
(2) 评分者根据双方推论依次给予支持或反对的证据
评分者根据两方的论点,提出证据进行支持或反驳。例如评分者A在对评分者B的论点进行反驳时指出:“在课堂录像的13分至23分这一片段中,教师要求学生进行小组合作,并上台分享小组结果,其中一位学生在发言之后,教师反问‘是这样吗?谁有不同答案?’讲台上的学生沉默,表示正在思考,台下有学生举手发言,教师邀请他起立回答,在该学生给出了正确答案之后,台上学生呈现恍然大悟的表情并说了一句‘哦’,表明知晓了正确答案。从这一教学片段中得出,教师的反馈虽然简短,但是引发了学生的思考,并通过同伴的纠正,帮助学生理解正确答案。”
(3) 两名评分者根据证据再次锚定论点并形成新的共识性的主张
双方不断根据所持论点,给出不同的证据,并重新根据论点的重要性作出判断,直到其中一方认可另一方论点,并达成一致的主张为止。比如,在这一案例中,在评分者A举证并分析之后,评分者B说:“我在评判视频中教师表现上,原来是角度有问题,更多关注了教师反馈后学生的表现,而有意无意忽略了教师的反馈技术。应该重点关注反馈技术,这是评分标准,从这一点讲,教师确实在课堂中表现出了较高的反馈技术,比如在课堂录像的13分至29分这一片段中,教师针对‘如何以弱胜强’这一问题,不断追问‘还有什么条件’,来引发学生的深入思考,最终达成了目标。”
访谈发现,评分者协商的关键在于双方对不同类型证据权重的把握上,也就是双方需掌握某一指标的所有证据,包括正例与反倒,然后对这些证据的数量及证据对主要目标达成所起的作用等多方面进行考量,从而达成某种共识。这看似是评分者之间的协商,其实仍然是评分者与证据、证据与评价标准、证据与证据之间的互动与解释。
本研究旨在使用一个解释性的、互动的评分过程,验证和提高表现性评价的质量。研究招募了10名被试进行了基于真实教学评价实践的证据载体收集工作,并招募两名评分者依据评分规则对证据载体进行评分。评分者在经过严格的评分培训之后,首先进行独立评分,撰写评估报告,之后对有显著差异的评分点进行合作评定,最终达成一致的评分结果。通过数据分析,本研究检验了使用表现性评价工具测评教师评价素养的测验质量,结果显示,该表现性评价具有较高的评分者间一致性信度、评分者内部一致性信度,以及校标关联效度。其中,本研究设计的合作评分方式较之独立评分,具有更高的校标关联效度,说明这种互动的、解释性的评分过程能够更好地测评载体中的证据,从而能够更准确地预测教师在真实教学场域中的评价素养水平。另外,本研究通过回溯性访谈,采用案例分析的方式挖掘出评分者基于证据的评分过程和合作评分时的论证过程,总结出具体的、合理的评估过程模式,即解释性与互动性评价。
表现性评价的实质是一个根据证据进行推理论证的过程,即从观察到的、在某些特定情况下所说或所做的论证,到对他们所知、所能做或所取得的成就的推断。[9]因此基于证据的论证过程不仅适用于整个表现性评价的实施,而且适用于评价中的评分过程,即评分者寻找证据,建立论点,从而形成主张。在传统的背对背评分中,评分者仅仅依据评价标准、证据及证据载体,参照评分规则对证据进行解释,从而形成评分主张。而合作评分强调的是证据—论点—主张之间的动态关系,即评分者通过评分者与证据、证据与评价标准、证据与证据之间的充分互动,参照评分规则对证据的意义进行再解释,从而形成共同的评分主张。因此,在表现性评价时,本研究所采用的合作评分能够有效提高评价质量,从而更准确地预测被试的真实素养水平。