武荷岚 丁瑞君
(同济大学物理科学与工程学院,上海 200092)
随着国内外教育的不断发展,学习评价方式也越来越趋于多元化。尤其是在以协作学习为主的教学模式中,之前的由教师全权负责对学生进行评价的方式便不能全面快速地反映学生在整个学习过程中的具体表现,由此,可引入同伴互评的评价方法。
同伴互评(peer assess ment)的概念,是由Topping(1998)提出,又叫同侪互评、同伴反馈等,是由学习者扮演评分者的角色,针对同伴作品给予评分与建议[1]。国内外有不少研究者曾论述了同伴互评的优点:(1)同伴互评可以鼓励学习者的学习动机[2];(2)同伴互评可以提升学习者的思考能力[3];(3)同伴互评能促进学习者的自我反思并提升其交流能力[4];(4)绝大多数学生喜欢获得同伴反馈,认为对自己是有帮助的[5];(5)学习者可以从同伴互评的结果中获得很多灵感[6];(6)同伴互评可以提高学习者的学习成绩、学习动机及解决问题能力[7]。
虽说同伴互评有上述诸多优势,但是任何事物都是有两面性的。同伴互评存在的问题主要表现在以下几个方面:(1)反馈的多变性;(2)缺少对同伴互评的反馈;(3)匿名同伴互评时,对反馈结果无法要求明确或澄清;(4)缺乏学习社区意识或归属感[8];(5)学生动机的缺乏[9]。
为了解决同伴互评在实施过程中出现的一系列问题,国内外有不少研究者基于不同算法或角度设计了一系列同伴互评模型,以期能提升同伴互评的信度与效度。在国内研究中,孙力等(2014)构建了3种关联复杂度不同的同伴互评过程模型。最终结果认为评分者偏差对模型实际效果的提高非常有效,而评分者可靠度对模型的实际效果影响甚微[10]。许云红(2014)等建立了基于推荐机制的同伴互评模型,以期为学生作业匹配较为合适的评阅人,从而达到优化互评过程并提高学习者满意度的目的[11]。许涛(2015)从教学法和教育技术应用的角度提出了慕课学习环境下5种不同的同伴互评模型,并指出慕课环境下进行同伴互评模型设计应关注的设计原则、标准和未来研究方向[8]。何升等(2016)为了达到为作业推荐合适评阅人的目的,构建了作业评阅人推荐模型。结果表明,算法在评阅人的工作量均衡和作业评阅人的准确推荐等方面均取得较好的效果,优化提高了同伴互评系统的准确性和可靠性[12]。在国外研究中,Tenório等(2016)使用游戏元素提出游戏化的同伴互评模型,并将其运用于教学实践,结果证实学生给出的平均成绩与专家给出的大致相同,且大大降低了完成评价所需的时间与成本。在此基础之上,使用游戏化模型后,学生提交论文的数量及评价的质量与数量皆得到了一定程度的提升[9]。除此之外,还有不少研究者提出了基于贝叶斯网络的同伴互评优化模型[13]。
曾有研究指出,欧洲学生比亚裔学生更容易接受同伴互评,他们在互评中表现得比亚裔学生更自信[14]。吕林海等(2015)认为,因为教育形式的不同,中国学生的批判性思维发展显著地滞后于西方学生[15]。且同伴互评的概念起源于国外,在国内相当于是“舶来之品”,因为受到传统文化、价值观及教学方式等因素的影响,在国内的应用效果亦有可能异于国外的应用效果。基于这样的猜想,本文收集了中美两所高校中学习大学物理课程的班的同伴互评数据(为保证数据的可比性,二者分别使用的是同一同伴互评系统的中文版和英文版),并对其进行比较分析,以期能对两国学生互评效果的异同点有一个清晰明确的认识。最后,根据数据分析结果,对我国同伴互评系统的设计提供了一些参考建议。
本文用来研究的数据来自中美两所高校中学生的一次同伴互评,为了体现对比的合理性,二者分别使用的是同一同伴互评系统的中文版和英文版,且皆是参与学习大学物理课程的学生。
本文使用同伴互评系统中的评价主要分为两部分,一是评价量表,二是相对贡献。评价量表包含6个等级评价题和两个开放题,具体评价内容如表1所示。
表1 同伴互评评价量表
续表
相对贡献主要是对各个小组成员在协作过程中的整体表现进行评价,从-3至+3,共分为7个等级。各组员可对其他成员及自己的行为表现做出整体评价,且相对贡献的得分会影响学生最终的互评得分。但需要说明的是,每个成员的评分之和都必须为零,且需尽量保证不出现全为零的情况。即有人得高分的同时,就必须有人得低分,以此来减少一些“情感分”“面子分”的情况出现。
Schunn等(2006)曾指出,如果每份作业让至少4人评价,同伴互评的成绩与教师的评价则具有非常高的一致性,是可靠的[16]。刘玲(2014)也认为,设定每个学生评4~5份作业比较合适[17]。所以本研究中将学生学习小组的人数定为4~5人,学生自愿组成学习小组,进行讨论或完成任务。一次学习活动结束之后,各小组成员需要对组内成员及自己进行公平合理的评价。在具体的评价过程中,各成员需先根据评价量表对各个组员的具体表现进行评价,只有完成这一步之后,才能对他人及自己的相对贡献进行打分。且对于同一组的成员来说,只有所有人都完成评价且保证评价有效之后,各成员才能在系统中查看自己最终的评价报告。评价结束之后,研究人员通过同伴互评系统的后台数据库,对可用数据进行提取。
在收集的数据中,参与评价的中国学生为116人,分为25组,获得的可用评价为548条,美国学生为87人,分为18组,获得的可用评价为420条。数据的统计分析软件为SPSS 12.0和Excel 2003。
首先,根据后台数据库所得数据,笔者对两国学生各等级评价题得分的有效率进行统计。有效性界定:若一条评价中所有等级评价题的得分皆相同,则视为无效。具体统计情况如图1所示。
图1 等级评价题得分有效率统计
由图1可以看出,在等级评价题得分有效率的统计中,中国学生的有效得分只占所有评价的34.5%,而美国学生的有效得分则占86.4%。相比之下,中国学生评分的有效率还不到美国学生评分有效率的50%,可以说是非常低的。究其原因,笔者认为很有可能是因为两国学生对待评价的态度不同,从而产生了不同的结果。
为进一步了解两国学生的评价态度,笔者对后面两个开放题中的评价数据进行了统计分析。统计的数据主要包括3个层级,即有内容的评价、有效的评价及有针对性的评价。有内容的评价是最低要求,即评价内容不为空;有效的评价则有进一步的要求,即学生的评价内容是与小组协作有关,且能表达明确的观点,而不是其他无关内容;有针对性的评价则是能够达到互评要求的评价,即在保证该评价有效的基础上,有针对性的评价各个小组成员,而不是对整体小组成员做出统一的评价。基于这样的界定,笔者分别对开放题1和开放题2的评价数据进行统计分析,具体结果如图2、图3所示。
图2 开放题1(表现好的地方)
图3 开放题2(需改进的地方)
由图2和图3可以看出,不管是开放题1(表现好的地方)还是开放题2(需改进的地方)中的评价,3个层级的评价所占总评价的比例皆是美国学生高于中国学生。在开放题1的评价中,两国学生有内容或有效评价的占比之差都在20%以上,且有针对性评价的占比之差超过了45%,即中国学生有针对性评价的占比只比美国学生有针对性评价占比的一半多一点。在开放题2的统计数据中,除中国学生有效评价的占比降低15%左右之外,其他情况与开放题1中的相差不大。
且在上面两图中可以发现,美国学生的评价中,3个层级评价的占比相差并不是很大,基本在2%以内,且都在94%以上,即总体占比较高。反观中国学生的评价,则差距较大,有内容评价的占比与有针对性评价的占比之差皆高于20%,且总体占比皆在80%以下,有针对性评价的占比只有50%左右。
由此可见,不管是等级评价题,还是开放题,中国学生的评价质量皆是低于美国学生的评价质量。究其原因,一方面可能是因为两国传统文化及教学方式等因素的不同,中国学生暂时还没有完全适应这样的评价方式;另一方面,也有可能是因为两国学生对同伴评价所持的态度有所不同,即中国学生需转变现有的评价态度。
为使学生的最终得分(与相对贡献得分有关)有所差异,本研究中所使用的同伴互评系统中,将同小组内相对贡献的得分之和设置为零,即零分为所有成员得分的平均分。且为保证评价的公平合理性,原则上不能使各成员的得分都为零,即相对贡献得分全为零或得分之和不为零的评价视为无效,鉴于此,笔者首先对评价数据中相对贡献的有效率进行统计,具体情况如图4所示:
图4 相对贡献有效率统计
由图4可以看出,就相对贡献的有效率来说,中国学生有效评价的占比要高于美国学生,二者之差为8%左右。由此可见,在评价分数影响最终得分的情况下,中国学生的评价态度相对较好。
因为二者的有效率皆在80%以上,因此可进行进一步的对比分析。首先,笔者对两国学生相对贡献各分数段的得分情况进行统计,具体情况如图5所示。
由图5可以看出,在相对贡献得分之和有明确限制的情况下,无论是中国学生还是美国学生,互评时都更倾向于给出接近平均分0的得分。但有所不同的是,美国学生的得分中,得分为平均分0的人数占比较多,紧接着则是得分为1的人数较多,而得分为3的人数则为零;而中国学生的得分中,则是得分为-1分的人数占比较多,接下来人数较多的得分为0分和1分,亦有个别人得分为3分。若按得分人数最多的一项进行比较,则美国学生的为0分,中国学生的为-1分,除这两项之外,其他各项的得分比例相差不是很大。
接着,笔者又对相对贡献的自评得分进行了统计与分析,具体情况如图6所示。
由图6可以看出,在自评得分中,两国学生仍是倾向于给出接近于平均分的分数,且都是0分和1分的占比较多,但可以明确的是,0分以上的占比明显多于0分以下的占比。进一步比较可发现,美国学生的自评得分中,仍然是得分为0的人数占比最多,而中国学生的则是得分为1分的占比最多,稍微多于得分为0的人数,且有接近于20%的人给自己的分数是2分或3分,相较而言,美国学生自评时的高得分则较少。
为了进一步了解两国学生的自他评得分情况,笔者分别统计了两国学生自他评中各分数的得分率,具体情况如图7、图8所示。
由图7和图8可以看出,在两国学生的自评与他评得分中,除美国学生得分为2分的是他评占比多于自评外,皆是得分为0分及以上的,自评占比多于他评占比,而0分以下的,则都是他评占比较多。由此可发现,不论是美国学生还是中国学生,在参与互评时,皆倾向于给出较高的自评分数。罗恒等(2017)也指出,学生倾向给自己的作业更高分数[18]。即学生很容易高估自己对小组的相对贡献,故很难对自己的作业或表现给出一个相对公正合理的评价。
图5 相对贡献整体得分情况对比
图6 相对贡献自评得分情况对比
图7 美国学生相对贡献自他评得分情况对比
图8 中国学生相对贡献自他评得分情况对比
最后,为了进一步明确两国学生自他评得分之间的差异,笔者在SPSS中对两国学生的自他评分数进行了配对样本T检验,具体分析结果如表2所示。
表2 自他评分数配对样本t检验结果
由表2可以看出,两组数据的分析结果皆是sig<0.05,即可再次证明,两国学生的自他评分数之间皆是存在显著性差异的。
从理论上来说,同伴互评有较多优势,但是在实施的过程中,总会因为各种人为因素的影响,使其优势无法得到很好的体现。总体来说,本文在一定程度上明确分析了同一同伴互评系统在中美两国学生中应用的异同点,具体表现在以下几个方面:首先,在得分没有明确限制且不影响最终成绩的情况下,中国学生评价的有效性相对较低,即评价量表的作用没有得到很好的体现;其次,在明确告知相对贡献影响最终成绩的情况下,中国学生评价的有效性要高于美国学生;最后,在相对贡献得分的统计中,不论是中国学生还是美国学生,皆是自评得分要明显高于他评得分,从这一点来说,两国学生的表现是较为相似的。
鉴于此,笔者认为在设计适用于我国学生的同伴互评系统时,应注意以下几个方面:首先,评价量表中的得分应该纳入到最终成绩的计算体系中,可在一定程度上提升评价的有效性;其次,若有设置开放题,可将其设置为必填,以此来提升定性评价的完成率;再次,可适当考虑对评价的评价,因为在我国学生的评价中,即使是有内容的评价,其有效性和针对性仍需进一步提高,所以有必要对其进行合理的反馈;最后,可设计一定的算法,来降低自评成绩过高所带来的影响,即自评过高时,可以在系统中设置减分这样的惩戒措施,自评与他评吻合时,设置加分奖励措施,以此来提升学生自评与同伴互评的一致性。