“句酷网”和“冰果”自动评分效度的对比实证研究

2017-04-08 06:32殷小娟贾永华林庆英
关键词:人工自动作文

殷小娟,贾永华,林庆英

(闽江学院 外语系,福建 福州 350121)

“句酷网”和“冰果”自动评分效度的对比实证研究

殷小娟,贾永华,林庆英

(闽江学院 外语系,福建 福州 350121)

国内研究者还未对“句酷网”和“冰果”这两个平台的评分效度差异进行实证研究。对大学非英语专业3种题型作文文本的分析结果表明:“句酷网”和“冰果”的自动评定成绩和人工评定成绩之间存在显著的正相关关系,相关程度存在差异,两个平台对不同类型作文的评定成绩效度之间也有差异。

句酷网;冰果;自动评分;效度;作文题型

网络出版时间:2017-02-28 14:50

大数据时代为英语写作的教学提供了大量辅助系统与工具,其中最受关注的是英语作文的在线自动评分系统。在国外,美国Noodletools公司开发的在线写作辅助系统可以提供记笔记、写大纲、生成参考文献清单以及独立或与同伴合作写作等功能。在中国,北京词网科技公司开发的批改网以及浙江大学外语学院和外研社与浙江增慧网络有限公司合作开发的“冰果”软件,是目前英语写作教学中使用最多的两个平台,都可以为学生的作文及时评分并提供词汇、语法和篇章等方面的实时在线反馈信息。这两个平台在帮助学生通过“多写多练”提高英语写作能力和减轻教师批改作文等工作量的同时,也储存了大量和英语写作教学相关的数据。

“大数据”分析是最近几年的新兴事物,将它应用在外语教育研究中更是鲜见。中国学者的探索性研究在这个领域起到了前驱作用。王海啸率先指出,“大数据时代,大学英语写作应以语言应用为教学目的,多角度认识作者﹑文本与读者之间的关系,多维度地设计教学方案”[1]。钱文娟以“句酷网”为例探讨了大数据时代高职英语写作自动评分的新模式[2]。从研究成果看,将大数据时代和外语教学结合的研究成果屈指可数,更不用说大数据时代下对英语写作教学改革的研究。正因为如此,大数据时代英语写作在线自动评分系统的应用和评价亟待深入研究且意义深远。

一、作文自动评分研究综述

日常教学中的作文批改任务对老师来说是非常繁重的,反馈不及时也是英语写作教学中的常见问题。如何借助最新的科技成果提高英语作文的阅卷效率,从而减轻教师的工作负担,同时提高学生的写作热情成为国内外研究者的重要课题。

相比而言,国外的作文自动评分系统开发和研究比中国起步较早。美国杜克大学1966年开发出第一套作文自动评分系统PEG(project essay grader),Valenti发现“PEG最新实验结果与评卷人的评分在多元回归相关性上达到0.87”[3],但Kukich指出,“由于PEG采用对写作质量的间接测量而很容易被写作者欺骗,比如写出更长的文章”[4]。除此之外,国外较为成熟的自动评分系统还有IEA(intelligent essay assessor)、E-rater(electronic essay rater)以及Intelli Metric TM等。中国的相关研究相对滞后,虽然梁茂成主持开发的“大规模考试英语作文自动评分系统”已于2005年申请了国家专利,但葛诗利和陈潇潇等却认为“由于该系统以浅层特征的统计分析为主,以及样本数量、范围的局限性,其评分模型与实用系统尚有一定的距离”[5]。最近几年,中国一些企业和高校也合作开发了一些英语作文自动批改系统,其中影响较大的要属“冰果”和“句酷网”。据有关统计,中国有超过1 000所大学和中学正在试用“句酷”作文批改系统,典型的学校有清华大学﹑复旦大学和南京大学等名校;“冰果”系统的用户稍少,也达到450多所院校[6]104。

虽然这两个系统的试用范围较广,相关的实证研究却很有限。笔者通过“中国知网”数据库反复检索了1990-2014年“句酷网”相关文献,梳理后发现共有19篇期刊论文,其中12篇是2012年以后的最新研究成果。相关研究成果分为两类:一类是纯粹对句酷网功能的简单介绍和优缺点探讨,如毛世花和陈晓丽对比了中美两国的英语教学及大规模考试中最为流行与常用的作文自动评分系统E-rater和句酷的基本工作原理,并探讨了其优缺点,为中国大学生英语写作水平的提高提供参考[7]。另一类是实证研究,又分为3类:一是研究者试图用实验数据验证“句酷网”自动评分和人工评分的相关性和差异性,从而证明“句酷网”评分的效度和信度,但发现的结果并不太一致。何旭良从中国学习者语料库里抽出样本,对比“句酷网”作文评分语料库里的原始分数后发现,两者的克隆巴赫系数在0.6以上,但“句酷网”的评分和人工评分之间有显著差异,批改网的分数显著高于人工评分[8]66。第二类实证研究主要探讨“句酷网”的使用对受试英语写作水平提高的作用。研究者证明,实验组在使用“句酷网”1学年后写作成绩明显好于没使用“句酷网”的控制组[9]。最后一类实证研究主要是以问卷或问卷结合访谈的方式调查学生和教师对句酷网的满意度或具体使用意见。譬如,石晓玲的问卷调查结果表明,“虽然只有近一半(48%)的学生对使用‘句酷网’持特别喜欢和比较喜欢的态度,但大多数学生(86.8%)很希望并有信心(78.3%)能通过‘句酷网’提高自己的英语写作水平”[10]。此外,也有研究发现,“句酷网”在对学生作文是否离题的判断上有一些偏差[11]。

相比之下,针对“冰果”系统的实证研究似乎更少,笔者同样在“中国知网”中检索了1990-2014年的有关研究记录,整理后发现仅有12篇期刊论文。研究者从不同角度探讨“冰果”系统的评分信度及对受试英语写作能力的作用。一方面,有关“冰果”系统评分效度的研究结果不太一致。曾剑基于1学期的实验,对255份学生作文样本进行等方差检验方法和皮尔森相关性检验后发现,“在设定同样得分均值的情况下,冰果系统的评分和人工评分有很强的正相关,但冰果系统的评分更加集中,而人工评分更能准确反映学生的个体差异”[9]108。但也有研究者发现“冰果”自动评分系统的内在不一致性,如杨婷婷对比了同一批作文在“冰果”系统的“新评”成绩(作文提交后立即生成的评分)和“冰评”成绩(作文提交后48小时内的再次评分),发现“两者有统计意义上的显著差异”[12];另一方面,有关“冰果”系统的使用对受试英语写作学习的作用研究结果比较一致,如鲁艳辉研究还发现,“‘冰果’作文智能评分系统的使用除能提高学生的写作文本质量外,对改变学习者的学习策略有一定的促进作用”[13]。

虽然分别针对“句酷网”和“冰果”系统的研究呈增多和加深之势,却鲜有研究者同时研究这两个系统。有关“冰果”和“句酷”的对比研究,笔者在“中国知网”中迄今只查到1篇期刊论文,陈长进只是简单地对比了两种系统的功能差异和各自的优势,却没有任何的实证数据[14]。所以,研究将用数据统计方法对比两个系统的评分效度,从而丰富中国有关“句酷”和“冰果”自动评分系统的实证研究。

二、研究设计

整个研究过程,从研究问题的设计、研究方法的采用以及数据的收集与分析3个层次进行。

(一)研究问题

为了对“句酷网”和“冰果”两个系统以及两个系统与人工评定之间的关系分别考察,设计如下3个问题。

1.在对同一批受试完成的同一篇命题作文进行系统自动评分前提下,“句酷网”﹑“冰果”和人工评定成绩3者中两两之间有没有呈正相关关系?

2.对同一批受试完成的同一篇命题作文的评分,“句酷网”﹑“冰果”和人工评定成绩3者中两两之间有没有显著差异?

3.“句酷网”和“冰果”系统对不同类型的命题作文的评分信度有何差异?

(二)研究方法

本实验的52名受试均来自研究者授课的同一自然班——闽江学院2013级财务管理班,他们一周上两次大学英语课,但是没有单独的写作课。

1.研究对象

受试的年龄介于18~20周岁之间,他们在入学时经过统一的英语水平考试,英语处于同一水平线上。所有受试的母语为汉语,英语为外语。参加本实验时受试是刚入校的大一新生。

2.写作任务

研究者在分析历年大学英语四﹑六级考试作文真题的同时,结合受试大一期间所用英语课本的话题内容和类型特点,选择了观点论证型﹑问题解决型和对比型3种作文类型作为大学一年级的写作训练重点。但由于学生在一学年完成作文次数较多,本实验只选择了其中3次作文任务的成绩作为分析数据。这3次写作任务描述和受试具体完成情况见表1。

表1 写作任务描述及完成情况

3.实验过程

研究者(即笔者)在受试大一第一节英语课上介绍了“句酷网”的功能和使用方法,没有告知受试本次实验目的,但为了引起学生的注意和测出学生的真实水平,笔者告知受试每次写作任务都会计入平时成绩,而且特别强调“句酷网”有检测抄袭功能。第一学期,笔者按每两周一次作文的频率①布置作文任务,将作文题目和要求输入到“句酷网”后得到一个作文序列号,再将作文序号告知受试。然后,受试按要求在规定时间(7~10天不等)写好作文并提交至“句酷网”,受试可及时查到自己提交的作文成绩和评语,也可以在规定写作时间内根据系统提示的错误修改作文后再次提交。作文提交截止时间结束后,研究者通过“句酷网”下载受试的作文成绩和文本。随后,为本实验数据分析需要,笔者选取了受试第一学年完成的比较有代表性的3次目标作文任务(见表1),通过教师端口在“冰果”系统布置同一命题作文任务,再注册学生用户在“冰果”系统里分别提交受试的4次作文文本,从而得到系统的评分成绩和评语等。之后,笔者下载了受试的同一命题作文在“冰果”的评定成绩。最后,笔者将受试的两次作文文本分别打印两份,由笔者(教师1)和另外一位教龄相当的同事(教师2)分别对所有受试的3次作文文本进行人工评分。为保证数据的科学性,人工评分期间,两位老师都不能查看作文的系统自动评定成绩。

(三)数据收集与分析

研究者先后收集了受试3次作文的“句酷网”自动评分成绩﹑“冰果”的自动评分成绩以及教师1的人工评定成绩和教师2的人工评定成绩。研究员使用SPSS 19.0软件对收集的数据进行了统计分析。但因为受试在3次作文任务中的完成情况不完全一样,经笔者筛查后每组样本的数量分别为:作文1组46人,作文2组51人,作文3组48人。为了检验“句酷网”和“冰果”的在线自动评分的效度,先对每次作文任务中两种在线评阅成绩和两次人工成绩两两之间分别进行斯皮尔曼(Spearman)相关性检验,然后,对每次作文的4种成绩进行了单因素方差分析(One-way Anova Analysis)。

三、研究结果

为了最直接地描述4组成绩的差异和效度,研究者从多个角度对4组成绩进行研究。

(一)4组成绩的描述性统计结果

研究者用SPSS 19.0对每次作文的4组成绩的均值﹑标准差﹑最小值和最大值进行了统计,结果如表2所示。

从表2看出,3次作文的两次任务中(作文3除外),两次人工评分结果平均都高于两次机器评分结果,这说明“句酷网”和“冰果”采用的计算机评分标准比人工评分标准更加严格。值得注意的是,每次任务中“冰果”成绩都是最低的,这说明“冰果”系统比“句酷网”的评分标准更加严格。而且“冰果”成绩的标准方差也最大,说明“冰果”评定成绩分布范围更大,个体差别最大。从每组任务的最高分来看,人工成绩和机器评定成绩差别不是很大,但每组的最低分差别很大。这种结果其实也不难解释:机器评分是“不留颜面”的,系统设置的最低分只要大于0,它就可以打出1分的最低分;但是人工评分是“讲情面”的,只要不是空白卷或者完全脱题,老师很难给学生打出很低分。所以,本实验中机器评分的最低分都在60分的及格线以下,而人工评分的最低分都在及格分以上。

表2 四组成绩的描述性数据

(二)4组成绩的皮尔曼相关性检验结果

为检测每次作文中的4组成绩的效度,研究者对两两之间进行了斯皮尔曼(Spearman)相关性检验。结果如表3所示:

表3 3次作文的4种成绩两两之间的相关性检验结果

注:**在0.01水平(双侧)上显著相关。

检验结果显示:3次作文中4组成绩两两之间都呈正相关关系(P在0.01水平双侧上显著相关)。作文1中,“句酷网”和“冰果”两者评定成绩之间的斯皮尔曼相关系数为0.689**(P=0.000<0.010,“句酷网”与人工1和人工2成绩之间的相关系数分别为0.345*(P=0.019>0.010)和0.559**(P=0.000<0.010;而“冰果”成绩与人工1和人工2成绩之间的斯皮尔曼相关系数则分别为0.416**(P=0.004<0.010和0.455**(P=0.001<0.010。有意思的是,人工1和人工2的两次成绩之间的相关系数最高,达到0.781**(P=0.000<0.010。这一结果已经很接近Kroll[15]认定的“语言写作测试中满意的标准,即相关系数达到0.8”。在作文2任务中,“句酷网”和“冰果”成绩之间的斯皮尔曼相关系数为0.580**(P=0.000<0.010),“句酷网”与人工1和人工2成绩之间的相关系数分别为0.554**(P=0.000<0.010)和0.391**(P=0.005<0.010);而“冰果”成绩与人工1与人工2成绩之间的斯皮尔曼相关系数则分别为0.506**(P=0.000<0.010)和0.356*(P=0.010),两次人工评定成绩之间的相关系数是0.519**(P=0.000<0.010)。作文3中,“句酷网”和“冰果”成绩之间的斯皮尔曼相关系数为0.667**(P=0.000<0.010);

“句酷网”与人工1和人工2成绩之间的相关系数分别为0.351*(P=0.014>0.010)和0.443**(P=0.002<0.010)。“冰果”成绩与人工1和人工2成绩之间的斯皮尔曼相关系数则分别为0.401**(P=0.000<0.010)和0.510**(P=0.000<0.010),而两次人工评定成绩之间的相关系数是0.685**(P=0.000<0.010)。

(三)结果讨论

研究主要有4个发现:1. 3次作文任务中,两次(作文3除外)人工评定成绩在平均分上都明显高于“句酷网”和“冰果”的自动评定成绩,而且“冰果”的评定成绩标准方差最大。2.同一任务中,两种系统自动评分间的相关系数以及两次人工评定成绩之间的相关系数都明显高于机器评分和人工评分的组间相关系数。3. 3种作文题型任务中,“句酷网”和“冰果”的在线自动评分和两次人工评定分别都呈正相关关系,“句酷网”和“冰果”的自动评分结果在一定程度上是有效的和可信的。4.同一任务中,虽然“句酷网”和人工评定成绩之间的相关系数与“冰果”的自动评定成绩和人工评定成绩之间的相关系数相差很小,但3次作文任务中有两次(任务1和任务3)“冰果”的自动评定成绩和人工评定成绩相关系数更高。

上述的前两个结果表明,“句酷网”和“冰果”系统对同一作文的评分标准比人工评分更为严格,因为两个系统都采用的是计算机自动评分技术,对作文中的词汇、句长和结构等维度判断更加灵敏,分值精确度较高,“句酷网”精确到了0.5,而“冰果”甚至精确到了0.1。所以,“句酷网”和“冰果”系统自动评分得出的分值范围比较大,最高分和最低分相差较大。相比而言,人工评分更显得主观化一些。因为人工评分一般习惯精确到1分(满分100分的情况下),少数情况下最多精确到0.5分,根本不可能精确到0.1分;人工评分时更多的是对作文的内容和结构好坏的整体印象分,对其中的词汇、句长和结构等具体维度判断就不如机器灵敏。值得注意的是,3次作文中人工评分的最低分都明显高于机器的评分,这正是人工评分多会因为“面子问题”或者出于“鼓励学生写作”的原因,不会将没有跑题的作文评分太低。所以,该实验中,两个教师对3次作文中的最低评分都在及格分以上。也许还有一个重要原因:人工评分时教师更多地关注学生作文的内容和思想等,而机器只能关注到作文中词汇使用难度、句长和句式结构等硬件,却不能像教师一样“欣赏”作文,机器评分可能对思想内容较好而词汇使用一般的学生作文评分偏低,评分成绩大多情况下平均分低于人工评分结果。该研究在一定程度上证明了“句酷网”和“冰果”系统在线评分系统的科学性和有效性,它们比人工评分精确度和稳定性都更高,这对把这两个平台应用到英语写作教学中具有积极的启示意义。

更重要的是,该研究结果还揭示了同一任务中,“句酷网”和“冰果”成绩之间、人工1和人工2成绩之间的相关系数都比较高。这意味着,“句酷网”和“冰果”的机器自动评分标准比较一致,结果相似度较高。但相比而言,“冰果”的评分更为严格,平均分明显比“句酷网”的评定结果低。同时,两次人工评分的相关性显著较高,这也说明人对美好事物的评判标准基本也是一样的,实验中两位教师在教龄相仿和教学经验相似的情况下对同一批学生作文质量的好坏判断,结果整体上也是一致的。然而,3次作文中,人工评分都平均明显高于“冰果”评分,3次中有两次(作文1和作文2)人工评定成绩高于“句酷网”评分,这与之前有些研究结果不一样,因为何旭良发现“句酷”批改网的分数显著高于人工评分[8]67。这也许能部分解释之前的研究发现大部分学生仍然比较信任老师的人工评分,并不太欢迎智能作文评分系统。严格的机器评分结果也许更能真实地体现学生的写作水平,但在日常写作训练中却不能像人工评分一样起到很好的鼓励作用。认识到这一点对今后的英语写作教学是非常有帮助的。

该研究的后两个发现表明:“句酷网”和“冰果”的自动评分结果和人工评定成绩都显著相关,这说明两个在线作文评分系统的自动评分结果是有效的和可信的。这种结果也正好印证了前人的研究结果——“句酷网”或“冰果”的评定成绩和人工评定成绩相关[6]108。该研究也首次实证发现了“句酷网”和“冰果”对同一批作文的自动评分结果的差异:3次作文中有两次(作文2除外),“冰果”的自动评分成绩和两个人工“评定”成绩相关系数稍高于“句酷网”与人工评定成绩的相关系数。3种作文题材中,“句酷网”对作文1和作文2(观点论证型和对比型)的自动评分成绩和两次人工评定成绩之间的相关系数比“冰果”与人工的相关系数平均较高(0.452>0.436;0.473>0.431);“冰果”对作文3(问题解决型)的自动评分和两次人工评定成绩之间的相关系数比“句酷网”与两者的相关系数值平均较高(0.543>0.397)。这种结果揭示了两个在线作文写作系统对不同题型的英语作文的评分信度是有一些差异的,在日常教学中可以有效结合各自的优势使用这两个写作平台。

实验结果表明:“句酷网”和“冰果”在线作文写作系统评定成绩和人工评定成绩之间相关程度有一些差异,对不同类型作文的评定成绩信度之间也有差异。同时研究还发现,“句酷网”结果并不一定高于人工评定成绩,而且还首次发现“冰果”自动评定的平均成绩每次都显著低于“句酷网”和人工评定成绩。这种结果恰恰说明将两个平台应用于英语写作教学中应该要注意的地方,在结合“句酷网”和“冰果”系统各自优势的前提下,重点突出学生通过两个平台“多写、多练和多修改”的重要性和紧迫性。

注 释:

① 该频率的设置是为了和本校英语写作教学要求保持一致,但由于研究者精力有限和本实验数据分析所需,本实验只选取了受试一学年中完成的15次作文中的3次作文成绩作为分析数据。

[1] 王海啸.大数据时代的大学英语写作教学改革[J].现代远程教育研究,2014,(3):66-72.

[2] 钱文娟.大数据时代高职英语写作自动评分新模式实践[J].开封教育学院学报,2014,(10):175-177.

[3] Valenti S,Neff F,Cucchilarelli A.An overview of current research on automated essay grading[J].Journal of Information Technology Education,2003,(2):321-323.

[4] Kukich K.The Debate on automated essay grading[J].IEEE Intelligent systems,2000,(5):22-27.

[5] 葛诗利,陈潇潇.国外自动作文评分技术研究[J].外语电化教学,2007,(5):25-29.

[6] 曾剑.冰果英语智能作文评阅系统在大学英语写作教学中的应用探讨[J].梧州学院学报,2014,(1):104-108.

[7] 毛世花,陈晓丽.E-rater和句酷的对比研究及对提高大学生英语作文水平的启示[J].高等函授学报:哲学社会科学版,2012,(5):20-21.

[8] 何旭良.句酷批改网英语作文评分的信度和效度研究[J].现代教育技术,2013,(5):64-67.

[9] 顾成华,王丽.基于句酷批改网的大学英语写作教学实证研究[J].扬州大学学报:高教研究版,2012,(4):92-96.

[10] 石晓玲.在线写作自动评改系统在大学英语写作教学中的应用研究——以句酷批改网为例[J].现代技术教育,2012,(10):67-71.

[11] 殷小娟,贾永华.国内在线作文自动评分系统的效度研究——以句酷作文网为例[J].闽江学院学报,2015,(6):72-78.

[12] 杨婷婷.英语写作自动评分系统的不一致性研究[J].社科纵横,2012,(9):297-298.

[13] 鲁艳辉,谭福民,彭舜.智能写作评分系统在大学英语写作中的实证研究[J].现代教育技术,2012,(6):56-58.

[14] 陈长进.作文自动批改系统比较研究[J].科技视界,2013,(28):144-186.

[15] Kroll B.Second Language Writing[M].Cambridge:Cambridge University Press,1994.

(责任编辑 薛志清)

A Comparative Empirical Study on the Reliability of“Juku”and“Bingo”Online Autonomous Grading Systems

YIN Xiao-juan,JIA Yong-hua,LIN Qing-ying

(Department of Foreign Languages,Minjiang University,Fuzhou,Fujian 350121,China)

No empirical studies have been found to compare the reliability of“Juku”and“Bingo”online autonomous grading systems.To explore the effectiveness of the two systems,an empirical study has been conducted and three different types of English writing of non-English majors have been analyzed.The result shows that the autonomous grading results of both“Juku”and“Bingo”and the teachers’grading are significantly positively correlated.However,the positive correlation is slightly different between the two systems.Moreover,there are also differences in the reliability of grading different types of writing between the two autonomous grading systems.

“Juku”;“Bingo”;autonomous grading;reliability;type of English writing

2016-05-16

福建省中青年教师教育科研项目(JAS151317);福建省中青年教师教育科研A类项目(JAS14254);闽江学院教学实践改革项目(MJUB2013026)

殷小娟(1981-),女,湖南省新宁县人,闽江学院外语系讲师,文学硕士,主要研究方向为第二语言习得和英语教学。

H 315

A

2095-462X(2017)01-0091-06

http://kns.cnki.net/kcms/detail/13.1415.C.20170228.1450.052.html

猜你喜欢
人工自动作文
人工3D脊髓能帮助瘫痪者重新行走?
人工,天然,合成
人工“美颜”
自动捕盗机
让小鸭子自动转身
自动摇摆的“跷跷板”
新型多孔钽人工种植牙
关于自动驾驶