任瑞娟 高莉
摘 要:文章从评分员角度出发,运用实证法,从分布、均值、多元线性回归三方面比较人、机对61份某大学期末考试英语作文的评分,发现机评结果分散,能更大程度地区分作文水平;人、机评分的总分无显著差异;机评关注词汇、句子,人评在注重内容的同时,也综合考虑词汇、句子、结构。相较而言,人评总分更能全面反映学生的英语书面写作能力。为了评分的经济、高效、公正,在类似的期末考试评分中,应将两种评分方式相结合。
关键词:英语;作文;评分
中图分类号:G640 文献标识码:A 文章编号:1002-4107(2018)01-0028-04
作文能测量学生综合运用语言的能力,是外语考试的必考题[1]。但作文评分有两大难题:一方面评分要耗费大量人力、物力等资源,另一方面评分主观性强、信效度不高。随着计算机软件性能的提高,作文自动评分系统(Automated Essay Scoring,以下简称为“系统”)应运而生。系统是使用计算机程序模拟人工评分,对作文进行快速、自动评分的计算机技术[2]。世界上第一个系统是Ellis Batten Page在1966年研制的PEG(Project Essay Grader)[3]。上世纪90年代后,国外出现了IEA(Intelligent Essay Assessor)、E-rater(Electronic Essay Rater)等主流系统。其中,美国教育考试服务中心研制的E-rater影响最广泛,于1999年应用于GMAT考试,随后一直被用于TOEFL、GRE考试中。相对而言,中国的系统研究起步晚,北京邮电大学在2004年研制出第一个系统。此外,梁茂成[4]、葛诗利等[5]、杨永林等[6]为代表的学者们也致力于研发适合中国英语学习者的系统。有些系统已开发成功并投入使用,促进了中国的英语写作教学和研究。系统实现了机器为作文评分,但机器评分结果的可信度也引起了测试界的关注。
一、文献综述
作文评分人、机比较研究始于Page,他在1968年比较了PEG与人工的作文评分,认为二者高度相关(r=0.78)[7]。沿用这个验证方法,不断有研究比较人、机评分,验证系统的适用性。国内的人、机评分比较研究开始较晚。第一个是万鹏杰的研究,他发现人、机评分的皮尔逊相关系数为0.324,认为二者的评分结果显著相关[8]。但鉴于他将皮尔逊相关系数与0.01相比,所以结论有待考证。何旭良分析了某系统评分的信度,比较了人、机评分的克隆巴赫系数,该值为0.694,他认为两组数据一致性高。但在后文中,他又通过T检验发现两组数据差异显著,p=0.008,t=-2.8,因此认为该系统评分有局限性[9]。吴俪旻以79份学生作文为样本,比较了学生自评、同伴互评、教师与某系统的评分结果,通过斯皮尔曼的相关比较。认为系统与学生自评、同伴互评、教师的评分结果有显著差异,建议教师慎用系统的评分[10]。殷小娟等人以145份大学生的写作训练文本为例,用斯皮尔曼相关和单因素方差分析,分别对比了两个系统与人工评分的相关性、差异性,证明两个系统与人工评分结果有显著差异[11]。王建分析了某系统的评分效度,通过相邻吻合一致性、皮尔逊相关系数、最大分数差的比较,提出该系统的评分误差较大[12]。
鉴于上述研究的统计方法简单、样本选取的代表性不强,对一线教师的实用意义及指导作用有限。为研究系统的评分效果,指导教师在评分实践中恰当使用系统,正确引导学生进行英语写作,增强期末考试中作文评分的经济性、高效性、公平性。本文以评分员为研究对象,从分布、均值、多元线性回归三个方面比较研究人、机作文评分。
二、研究方法
本文运用定量研究法。在某大学的已评期末试卷中,随机选取由同一教师评分的61份试卷,试卷的作文题目为Using Smart Phones in the Classroom,满分16分,30分钟内完成,至少120个词。
首先记录61份作文的得分,评分教师采用了分项评分法。标出作文在词汇、句子、结构、内容这四个维度的评分,四个分值相加即总分。其中,每个维度的满分都是4分。然后输入61份作文到某系统,多次核对以确保原貌呈现。设置系统的满分为16分,并将词汇、句子、结构、内容四个维度的占比都改为25%,由其自动评分。系统的结果中标出了总分,并显示词汇、句子、结构、内容四个维度的評分比例。将四个比例都与4相乘,即为四个维度的评分。最后运用SPSS 20.0对两种评分结果进行统计分析。
三、研究结果
本文从分布、均值、多元线性回归三方面比较人、机作文评分。
(一)分布差异
教师评分中,总分有十三个值,介于8.0分—14.0分间;词汇评分有七个值,介于0.5分—3.5分间;句子评分有七个值,介于1.0分—4.0分间;结构评分有五个值,介于1.5分—4.0分间;内容评分有九个值,介于0.0分—4.0分间。系统评分中,总分有十二个值,介于6.0分—13.0分间;词汇评分有十六个值,介于1.3分—3.3分间;句子评分有十三个值,介于2.4分—3.6分间;结构评分有十三个值,介于2.0分—3.2分间;内容评分有十七个值,介于0.7分—3.5分间。限于篇幅,本文将比率排在前四的人、机在总分、词汇、句子、结构、内容五部分的评分一一说明。
表1显示了教师评分的分布:总分中,10.0分的最多,其次是10.5分、11.0分、9.0分,一半多是这四个分数。词汇评分中,1.5分的最多,其次是1.0分、2.0分、2.5分,大多数是这四个分数。句子评分中,3.0分的最多,其次是2.5分、4.0分、1.5分,大多数是这四个分数。结构评分中,3.0分的最多、其次是4.0分、2.5分、2.0分,绝大多数是这四个分数。内容评分中,4.0分的最多,其次是3.0分、2.0分、2.5分,大多数是这四个分数。
表2显示了系统评分的分布:总分中,10.5分的最多,其次是11.5分、10.0分、12.0分,多数是这四个分数。词汇评分中,2.4分的最多,其次是2.6分、2.8分、3.0分,一半多是这四个分数。句子评分中,3.2分和3.4分的最多,其次是3.1分、3.0分,一半多是这四个分数。结构评分中,2.8分的最多、其次是3.0分、2.9分、2.6分,一半多是这四个分数。内容评分中,2.6分的最多,其次是2.5分、2.4分、2.8分,多数是这四个分数。
表3显示了人、机评分差值比率的分布。完全一致率指人、机评分相同;相邻吻合率指人、机评分差值在0.0分—0.5分之间(词汇、句子、结构、内容评分)、0.0分—1.0分之间(总分)[13]。由表可知,在总分、句子、结构三部分,人、机评分的相邻吻合一致率(包含完全一致率、相邻吻合率)都超过一半;而在词汇、内容两部分,人、机评分的相邻吻合一致率都较低。人、机评分总分差值的最大值较小;而在词汇、句子、结构、内容四部分,人、机评分差值的最大值都较大。在总分、句子、结构、内容四部分,人、机有相同评分;而在词汇部分,人、机无相同评分。人、机评分总分差值的均值较小;而在词汇、句子、结构、内容四部分,人、机评分差值的均值都较大。人、机评分总分差值的最频值较小;而在词汇、句子、结构、内容四部分,人、机评分差值的最频值都较大。
(二)均值差异
本文对人、机在总分、词汇、句子、结构、内容五部分的评分做了配对样本T检验。检验结果如表4所示,该表显示:总分中,人、机评分无显著差异(t=-0.283,df=60,p>0.05),但机评略低于人评(MD=-0.57);词汇评分中,人、机评分有显著差异(t=6.364,df=60,p<0.05),机评显著高于人评(MD=0.73);句子评分中,人、机评分有显著差异(t=2.871,df=60,p<0.05),机评显著高于人评(MD=0.30);结构评分中,人、机评分有显著差异(t=-5.063,df=60,p<0.05),机评显著低于人评(MD=-0.47);内容评分中,人、机评分无显著差异(t=-1.629,df=60,p>0.05),机评略低于人评(MD=-0.28)[14]。
(三)回归分析差异
本文还分别对人、机在总分、词汇、句子、结构、内容五部分的评分做了多元线性回归分析,结果如下。对教师评分的多元线性回归分析满足误差成正态分布以及误差和预测变量不相关的前提假定;预测变量与因变量显著相关(表5);强制回归结果显示,四个变量对总分具有良好的预测作用(表6),R2为1,即“词汇评分”、“句子评分”、“结构评分”和“内容评分”构成的组合能解释总分所有的变异;四个预测变量中,“内容评分”(Beta=0.815)、“词汇评分”(Beta=0.567)的标准化回归系数分列第一、第二,说明内容、词汇评分越高,总分越高;标准化回归方程为:总分=0.567×词汇评分+0.548×句子评
分+0.473×结构评分+0.815×内容评分[15]。
R指复相关系数;R2指拟合度;F指方差检验量;Beta指标准化回归系数;t指统计量;VIF指方差膨胀因子(下同)。
对系统评分的多元线性回归分析满足误差成正态分布以及误差和预测变量不相关的前提假定;预测变量中除“内容评分”这一变量外,其余三个变量与因变量显著相关(表7);强制回归结果显示,四个变量对总分具有良好的预测作用(表8),R2为0.919,即“词汇评分”、“句子评分”、“结构评分”、“内容评分”构成的组合能解释总评分91.9%的变异;四个预测变量中,“词汇评分”(Beta=0.712)、“句子评分”(Beta=0.278)的标准化回归系数分列第一、第二,说明词汇、句子评分越高,总分越高;标准化回归方程为:总分=0.712×词汇评分+0.278×句子评分+0.155×结构评分+0.073×内容评分[16]。
分布差异表明,人评比机评分布集中,说明机评能明确区分水平类似的作文,有利于提高考试的公正性。就集中分数段而言,人、机评分高低不一,说明人、机评分的总体严厉度不一致,且二者的自身一致性不稳定。在极值上,人评最高分高、最低分低,说明人评对水平高的作文较宽松,而对水平低的作文评分较严厉。人、机评分总分的较高相邻吻合一致率则说明,机评在很大程度上能模拟人评,而且能弥补人评的集中、严厉度差异大的缺点,因此机器可作为第二评分员参与类似期末考试的评分。
均值分析表明,就总分、内容两部分而言,人、机评分无显著差异。而就词汇、句子、结构三部分而言,人、机评分均存在显著差异。回归分析表明,人、机对各部分独立评分,某部分的评分不受其余部分评分的影响。系统的不同评分大致由词汇、句子两部分的评分决定;而教師的不同评分由内容决定。这说明对不同的作文,人、机评分的关注点不同。值得注意的是,系统的不同评分与内容评分的变化无关,这说明系统无法识别作文的内容水平。而人、机对内容的评分无显著差异,这说明人评对内容的评分存在随意性,因而二者的内容评分皆无法反映作文的内容水平。但相较而言,人评更能全面反映学生全方位的能力。
系统通过对大规模人工评分语料库的学习,利用自然语言处理技术和统计技术为词汇、句子、结构、内容这四部分赋予很多特征项,然后运用信息检索技术,计算被评作文和这些特征项的距离,据此进行评分[17]。它的评分受限于计算机技术和特征项的挖掘。教师对英语作文评分时,在使用分项评分法的情况下,通常依照相应的评分规则,依据自身对作文词汇、句子、结构、内容的印象进行评分,最后将各部分的评分相加得到总分。这个过程不可避免地会掺杂主观因素。
根据前人本文结果,总体来说,尽管人、机评分的总分无显著差异,但机评注重作文的词汇、句子两部分,而对结构部分有所忽视,无法识别内容部分;人评注重作文的内容,对其他三部分也都有所考量。因而,人评总分更能全面反映学生的英语书面写作能力。但考虑到人评对时间、精力、经验的要求,机评的效率,及期末作文只显示总分的特点,在类似的期末考试评分中,应将这两种评分方式相结合。这样一来,可减小评分误差,提高考试的公正性。在平时的英语写作练习中,可让学生通过机评了解自己的总体水平,帮助学生认识差异、快速进步。本文选取样本容量有限,因此得出的结论适切性差强人意,后续研究可进一步扩大研究范围,同时可将多款自动评分软件作为研究对象,以期对英语写作测试的评分提供更大的帮助。
参考文献:
[1]武尊民.英语测试的理论与实践[M].北京:外语教学与
研究出版社,2002:180.
[2]Dikli Shermis.An Overview of Automated Scoring of Essays
[J].Journal of Technology,Learning,and Assessment,2006,(8).
[3]梁茂成,文秋芳.國外作文自动评分系统评述及启示
[J].外语电化教学,2007,(10).
[4]梁茂成.大规模考试英语作文自动评分系统的研制[M].
北京:高等教育出版社,2012:87.
[5]葛诗利,陈潇潇.中国EFL学习者自动作文评分探索
[J].外语界,2007,(5).
[6]杨永林,全冬.认知的理念,实用的视角——信息技术在
外语教学中的应用[J].外语电化教学,2011,(6).
[7]Wang Jin Hao.Automated Essay Scoring Versus Human
Scoring:A Comparative Study[J].Journal of Technology,
Learning,and Assessment,2007,(6).
[8]万鹏杰.电子软件评估系统测试大学英语写作的研究报
告[J].外语电化教学,2005,(3).
[9]何旭良.句酷批改网英语作文评分的信度和效度研究
[J].现代教育技术,2013,(5).
[10]吴俪旻.英语写作测试中多种评测效果对比研究[D].
兰州:兰州大学,2015.
[11]殷小娟,贾永华,林庆英.“句酷网”和“冰果”自动评分效
度的对比实证研究[J].河北北方学院学报:社会科学版,
2017,(1).
[12]王建.作文自动评分系统效度研究——以批改网为例
[D].海口:海南大学,2015.
[13]李萌涛,杨晓果,冯国栋等.大规模大学英语口语测试
朗读题型机器阅卷可行性研究与实践[J].外语界,
2008,(4).
[14][15][16]许宏晨.第二语言研究中的统计案例分析
[M].北京:外语教学与研究出版社,2013:29,86,86.
[17]葛诗利,陈潇潇.大学英语作文自动评分研究中的问题
及对策[J].山东外语教学,2009,(3).