训练对同伴互评评分准确性的影响

2018-08-07 10:45李菲茗李晓菲黄亚平叶艳伟
中国远程教育 2018年5期

李菲茗 李晓菲 黄亚平 叶艳伟

【摘 要】 同伴互评在现今的网络学习中不仅仅是一种评价策略,也成为学习活动的重要组成部分。互评的准确性能够反映评价者的高阶思维能力,即评价能力,同时有利于激发被评者对评价结果的认同和积极反应,如反思和修改。通过对以往研究进行梳理,将影响互评准确性的因素分为人际因素、评价者自身因素、作品因素和外在干预因素,并提出训练作为外在干预因素是有助于提高评分准确性的积极因素。以浙江工业大学学生在“三维动画设计与建模”课上开展网络互评为例,进行对比实验,着重研究互评中的训练方式,同时考虑被评作品质量、评价维度及学习者自身因素等对评价者评分准确性的影响。研究发现:①练习加反馈的训练方式在提高评分者评分准确性上优于通常的范例式学习; ②作品质量、评价者的能力和学习风格对评分准确性也有显著影响,但这些因素与训练方式之间没有交互作用。

【关键词】 同伴互评;评分准确性;互评影响因素;培训方式;评价能力

【中图分类号】 G423 【文献标识码】 A 【文章编号】 1009-458x(2018)5-0063-6

一、引言

由于MOOC等大规模在线开放课程的兴起,原有网络评价方式、评价标准受到挑战(童小素, 2017),同伴互评逐渐成为这类学习形式中的一种有效评价方式,同时也成为学习活动的重要组成部分。同伴互评是指具有相同年级背景的学生在同一学习环境下以教师的角色对同一学习环境中同伴的学习成果或学习作品在作品水平、质量等方面进行评价(Topping, 1998)。在布鲁姆的教学目标分类理论中,把学习者的评价能力归结为教学目标认知领域的高阶能力目标。同伴互评的评价方式以学习者为主,学习者积极参与,对于学习者提高评价能力、学习成绩、学习动机(Hwang, 2014)、课堂参与度等具有非常有效的作用。

目前,关于同伴互评的研究主要集中在概念界定、互评活动开展平台(Law, et al., 2009)、互评活动开展流程模型(许涛, 2015; 孙力, 等, 2014)以及对其应用效果的研究(Liang & Tsai, 2010)。其中,在互评应用效果方面,现有研究皆以教学目标分类理论中学习者前四个方面(记忆、理解、应用、分析)教学目标的达成程度作为互评开展效果的最终考核标准,反而忽略了对更为高阶的评价能力的衡量。目前鲜有研究表明,学习者通过同伴互评其评价能力也会有提高。仅仅以学习者成绩提高与否作为研究的最终标准,不足以考量学习者评价能力的变化。评分准确性,一方面是反映评价者评价能力的一个重要指标,有助于学习者的自我评价(郭学品, 2011),另一方面有助于激发被评者的认同和积极的反应(如反思和修改),以及促进互评活动的良性循环。因此,本研究以反映学习者评价能力的评分准确性为考核指标,探究影响和提高评分准确性的相关因素。

有关学习者评分准确性影响因素的研究,可分为以下几类:人际因素(如署名方式、互评者之间的利益关系)(舒存叶, 等, 2015; 殷宝媛, 等, 2012)、评价者个人因素(如专业能力、性别、学习风格、认知风格)(陈茂庆, 等, 2013)、外在干预(如训练)。在这些因素中,多数因素是稳定且不易改变的(如认知、学习风格),而培训因素可以人为干预,且对准确性的提高起着关键和积极的作用。在以往的培训研究中,培训的方式分为以下几类:①只提供评价标准和互评意义的讲解(白丽茹, 2013);②范例式学习(马志强, 等, 2014; Ferry, 2009),即提供有专家打分的范例供学习者学习;③试评练习(Guardado & Shi, 2007),用样例进行练习和讨论。在这些研究中我们发现:①范例式学习在研究中出现最多,而试评练习只有同伴间讨论没有专家反馈;②研究大多是在有培训(某一种培训方式)和无培训之间进行对照比较,或者是培训前后比较,无对照组。本研究将比较两种培训方式:“范例式学习”与“先试评练习再提供专家反馈”间的差异,培训开始时对两组同学均提供评价标准和互评意义的讲解。除此之外,我们还将探究以往研究中不太被关注的作品因素(作品质量和作品的不同评价维度)以及评价者个人因素等对互评准确性的影响以及这些因素与培训效果的交互作用。因此,文章的研究問题包括两个层面:①哪种训练方式、什么样的作品及作品的哪些维度、什么样的人评分准确性高?②什么样的作品、作品的哪些维度、什么样的人在哪种训练方式上效果好,即这些因素与训练方式之间有无交互作用?

由于互评中的人际因素比较复杂,而匿名互评可以有效避免人际因素对互评准确性的干扰。本研究通过匿名互评的方式控制人际因素,署名方式不作为研究的内容。同时,本研究聚焦于同伴互评中评价的准确性,所以以客观评分为研究对象,主观评价不纳入本研究的范畴。

二、研究设计

(一)研究对象

本研究以浙江工业大学教育科学学院计算机师范专业“三维动画设计与建模”课程中的64位本科三年级学生作为研究对象。专家由4位拥有丰富三维动画建模经验的研究人员和1位10年以上教学经验的任课教师组成。

(二)研究流程

实验共持续6周,分为三个阶段。第一阶段主要是获取评分者个人因素变量进行匹配分组。第二阶段在对实验组和对照组进行统一的评分标准培训后,给予不同的评价训练。用于训练的样例作品由任课教师从上一学年同一课程中选出好、中、差三个学生作品:实验组同学依据教师讲解过的评分规则对这三个作品进行试评活动,而后收到专家评分反馈并与自己的打分进行对照;对照组同学直接收到带有专家打分的三个相同作品,不参与试评活动。第三阶段两组同学对其他同学的期末作品进行互评。在超星网络教学平台上,采用匿名评价,通过它的“作业”功能随机给每位同学分配两份其他同学的作品,同时学生在平台完成打分直接上传。整个研究时间选在课程的最后6周,以便获取足够的平时作业成绩。由于平时作业本身非常简单,因此用作反映学习态度的指标,而非专业能力的指标。如图1所示。

(三)研究变量和工具

1. 研究变量

本研究以学生的评分偏误为因变量,评分偏误越低,评分准确性越高。假设专家打分为真实分数,学生评分偏误= 学生评分-专家评分 /专家打分,用专家打分作为权重,防止分数越高偏误越大的可能,调整分数高低对偏误估计的影响。主要自变量及控制变量如图2所示。

2. 研究工具

(1)认知、学习风格测定工具:认知风格测量使用镶嵌图形检验方法。学习风格的测量使用Hwang等(2012)改编的《学习风格测定量表》。

(2)评价量表:主要借鉴了马炅(2011)研究中的评价量表和浙江省大学生多媒体作品设计大赛相关评价标准,以及武汉市制定的《城市三维建模技术规范》(2008)中制作建筑模型的一些技术指标。最后,研究者根据教学大纲进行指标的再整理和审核,确定最终各维度的评价标准。通过4位专家对3个训练作品打分的数据分析,所制定的量表各维度评分者间信度都在0.85以上。

(3)实验数据使用SPSS 20.0软件进行分析。

(四)研究分组

表1是根据性别、认知风格、学习风格等将参与实验的64位学习者均匀地匹配到实验组和对照组中,以确保两组学生保持组间一致。在反映学习态度的平时成绩上两组之间也无显著差异。

三、数据分析

(一)评价者自身因素的影响

通过独立样本T检验考察学习者的性别、认知风格以及学习风格在总分上对评分偏误的影响,结果见表2。从性别上看,男生与专家间的评分差异低于女生;从认知风格上看,场独立和场依存风格的评分者的评分偏误无明显差别;从学习风格上看,积极主动型和深思熟虑型之间无太大差异,感觉型低于直觉型,视觉型低于语言表达型,循序渐进型低于总体统觉型。但T检验显示所有这些差异都不显著。

相关分析表明,评分偏误与评分者学习态度(平时作业得分)之间相关非常低,相关系数接近于0;而评分偏误与评分者能力水平(期末作品成绩)之间存在显著的中等相关,相关系数为-.452(p<0.01),即代表评分者能力的自身作品成绩越高,评分者评价他人作品的评分偏误越低。当把所有上述因素作为自变量纳入协方差模型(ANCOVA)中时,发现评分者能力水平(F=8.48, p=0.005)和评分者是循序渐进型还是总体统揽型的学习风格(F=5.35, p=0.024)对评分偏误有显著影响。评分者能力水平越高,评分偏误越小,循序渐进型评分者的评分偏误小于总体统揽型的评分者。另外,性别效应接近显著(F=3.78, p=0.057),表现为男生优于女生。

(二)互评作品因素的影响

期末作品总分上的评分偏误为0.20,在各维度上评分偏误差别不大。其中,在科学性维度上评分偏误最低,为0.19;在创造性维度上评分偏误最高,为0.21。在总分及各个维度上评分偏误与被评作品的质量呈显著的中等强度的负相关(-.42~-.64),也就是作品质量越高,评分偏误越低。直接用学生评分减去专家评分,不取绝对值和不用专家评分做权重,通过图3a和3b观察在不同水平的作品上评分偏差的方向和分布。无论在训练阶段还是在最后的期末评分阶段,高水平的作品其偏差在0分上下均匀分布,而中、低水平的作品评分偏差都在0分以上分布,也就是存在明显的高估趋势。其中,低水平作品评分偏差的分布范围跨度最大。

(三)训练效应及其与评分者个人因素和作品因素共同的影响

训练因素对评分准确性的影响是本研究的核心问题。结果表明实验组(练习+反馈)比对照组(范例学习:有反馈无练习)在总分和各维度上评分偏误低0.05~0.09。独立样本T检验表明,在总分、科学性和技术性上实验组的评分偏误显著低于对照组,其他方面两组之间无显著差异,说明训练在科学性和技术性这两个维度上对学生评价能力的提高效果最佳(见表3)。

将基于作品总分的评分者偏误作为因变量,培训效应作为主要自变量,将其他个人因素和作品質量作为控制变量同时纳入协方差(ANCOVA)模型,结果表明,代表个人因素的循序渐进型vs.总体统揽型和评价者能力水平、代表作品因素的作品质量对评分偏误有显著影响。在控制以上变量的前提下,训练方式的影响仍然显著,并且训练方式与以上变量之间不存在显著的交互作用,因此交互项没有列入最后的模型中(见表4)。具体来说,在评分准确性上,练习加反馈的训练方式优于范例学习;循序渐进型的学习风格优于总体统揽型;评价者能力越高,评分准确性越高;被评作品质量越高,评分准确性越高。对于各种类型的评分者而言,专家反馈式的评分训练效果都好于范例学习式的评分训练。

四、讨论

(一)评分者自身因素

本研究中的课程是“三维动画设计与建模”,评分者的专业能力越强,对于什么样的作品才是优秀作品的评价标准就越有深刻的认识和具体的理解,产生的评分偏误就越少,表现出的评价能力就越强。另外一个影响因素来自于学习风格:学习风格为循序渐进型的评分者评分偏误低于总体统揽型的评分者。学习风格理论认为:序列型学习风格的学习者习惯按线性步骤理解问题,每一步都合乎逻辑紧跟前一步(姚孝军, 等, 2010)。互评工作就是要根据一条条的评分规则和大纲,在每个维度上给每个项目打分,因此能够一步步根据评分规则打分的评价者能做到评分更细致,因而更精准。

除此之外,其他三个学习风格类型、认知风格、性别和学习态度对评分的偏误都无显著影响。但其中呈现一定趋势的是:男生的评分准确性优于女生,视觉型学习风格优于语言表达型。以往研究发现,男性在图形或空间发散思维方面优势明显,女性在言语发散思维方面占优。本研究中的课程为设计类课程,视觉型学习者对作品的敏感性可能优于语言表达型学习者,因此男生在评分准确性上更占优势。

(二)被评作品因素

从被评作品因素看,作品质量越低时评分偏误越高,准确性越低。从偏误的方向和分布来看,学生更倾向于对较差的作品给出高于实际水平的分数。虽然本研究是匿名评价,但学生评的都是本年级朝夕相处的同学,倾向于较宽松地打分,不给极端低的分值。在不同维度上的偏误差别不明显,相对来说,创新性维度偏误最大,科学性维度偏误最小。在而后与学生的访谈中,他们也提到创新性是比较难以把控的维度。这部分结果带来的启示是:在评分培训中应该强调客观公正评分(哪怕是低分)的意义,并鼓励大家及时反映评分标准中不清晰和有难度的地方。

(三)训练因素

与以往研究不同,本研究不是比较有无培训的差异,而是比较“练习+反馈”和常用的范例学习这两种培训在效果上的差异。结果表明,实验组(练习+反馈)确实比对照组(范例学习)在总分、科学性和技术性上评分偏误更低,准确性更高。虽然在很多情景下(比如英语作文的互评),范例学习(直接提供专家评分的样例供学生学习)有一定的效果且简便易操作,但通过实际练习亲身体验并获得反馈是更为深入的训练,对于提高评分准确性更有效。同时,本研究在控制所有其他因素的情况下,通过协方差分析发现培训效应显著,且培训效应跟其他显著影响评分偏误的变量(评分者能力水平、作品质量、循序渐进型vs.总体统揽型的学习风格)之间无显著的交互作用。这表明这些因素虽然影响评分偏误,但并不影响培训的效果。

五、不足和后续研究展望

本研究着眼于同伴互评中训练及其他因素对评分偏误,即评分准确性的影响进行实证研究,为同伴互评实践中如何控制评分偏误、提高评分准确性提供了研究依据。研究也存在一些局限:尽管我们非常期望了解被评者收到同伴互评结果对作品进行改进后,作品质量的提升状况和质量提升的程度与评分准确性之间的关系,但由于本研究中的互评是针对期末作品,学生收到互评反馈后没有动机去改进作品,因此我们未能对这一问题进一步跟踪。同时,由于本研究着眼于评分的准确性,所以整个研究只采用了客观评分。而要跟踪被评者对同伴互评结果的反应,特别是对于创作性的作品,除了客观评分,给予开放式的点评和建议对于被评者改进作品的促进作用更大。因此,在后续研究中我们会增加开放式评语和互评反馈对被评者提高作品质量的作用的跟踪研究,同时增加互评训练和互评活动的次数,使其贯穿于整个课程中。

[参考文献]

白丽茹. 2013. 基础英语写作同伴互评反馈模式的可行性及有效性检验[J]. 解放军外国语学院学报,36(01):51-56.

陈茂庆,李宏鸿,高惠蓉. 2013. 名著阅读与同伴互评[J]. 外语教学理论与实践,(01):71-78.

郭学品,陈洪清,李翠白,等. 2011. 网络学习自我评价探究[J]. 中国远程教育(05):70-72.

马炅. 2011. 基于过程性评价的多媒体作品评价量规的设计与实践[J]. 电化教育研究(02):79-81,86.

马志强,王雪娇,龙琴琴. 2014. 基于同侪互评的在线学习评价研究综述[J]. 远程教育杂志,32(04):86-92.

孙力,钟斯陶. 2014. MOOC评价系统中同伴互评概率模型研究[J]. 开放教育研究,20(05):83-90.

舒存叶,张海萍. 2015. 网络环境下同伴评价影响因素的实证研究[J]. 电化教育研究,36(02):89-93.

童小素,贾小军. 2017. MOOC质量评价体系的构建探究[J]. 中国远程教育(05):63-71,80.

许涛. 2015. 慕课同伴互评模型设计研究[J]. 开放教育研究,21(02):70-77.

姚孝军,陈静,杨亚敏. 2010. 英语学习者学习风格的实证研究[J]. 外语界(03):43-50.

殷宝媛,刘俊强,于纪明. 2012. 同伴互评电子作品的影响因素分析[J]. 电化教育研究,33(12):58-62.

武汉市国土资源和规划局. 2008. 城市三维建模技术规范[Z]. 武汉:住房和城乡建设部:6-7.

Law N. W.Y., Lee Y., van Aalst J. C. W., Chan, C.K.K., Kwan A.C.M., Lu, J., et al. (2009). Using Web 2.0 technology to support learning, teaching and assessment in the NSS Liberal Studies subject. Hong Kong Teachers' Centre Journal, (8):43-51.

Ferry C. (2009). Online peer review to promote reader-writer interaction. TESOL Working Paper Series, 7(1): 2-13.

Guardado M., Shi L. (2007). ESL students experiences of online peer feedback. Computers and Composition, 24(4): 443-461.

Hwang, G. J., Sung, H. Y., Hung, C. M., Huang, I., Tsai, C. C. (2012). Development of a personalized educational computer game based on students learning styles. Educational Technology Research and Development, 60(4), 623-638.

Hwang, G. J., Hung, C. M., Chen, N. S. (2014). Improving learning achievements, motivations and problem-solving skills through a peer assessment-based game development approach. Educational Technology Research and Development, 62(2), 129-145.

Liang, J. C., Tsai, C. C. (2010). Learning through science writing via online peer assessment in a college biology course. The Internet and Higher Education, 13(4), 242-247.

Topping, K. (1998). Peer assessment between students in colleges and universities. Review of educational Research, 68(3), 249-276.

作者簡介:李菲茗,博士,副教授,硕士生导师;李晓菲,硕士研究生;黄亚平,硕士,副教授;叶艳伟,硕士研究生。浙江工业大学教育科学与技术学院(310023)。

责任编辑 单 玲