句酷网、爱写作系统评分效果的比较研究

2017-07-12 22:08任瑞娟高莉

读与写·教育教学版 2017年6期

关键词：比较

任瑞娟+高莉

摘要：本文从分布差异，差值、均值差异，多元线性回归差异三方面，比较句酷网、爱写作系统对210份机辅英语写作比赛文本的内容、结构、总分评分。发现句酷网评分分散，更能区分作文水平；两系统的总分都具备一定的参考性；两系统在总分、内容、结构三部分的评分都差异显著；句酷网的评分注重结构，无法识别内容；爱写作系统的评分内容、结构并重。总体而言，爱写作系统的评分效果优于句酷网。建议学生在写作训练中，使用爱写作系统的评分，有效提高写作能力。

关键词：英语作文评分比较句酷网爱写作系统作文自动评分系统

中图分类号：H319 文献标识码：A 文章编号：1672-1578（2017）06-0003-02

1 引言

“走出去”战略的深化，对英语学习者的写作能力提出了更高的要求。因能检验学习者的书面表达能力，作文是各类英语测试的必考题。一般要求学生围绕特定话题，运用所学语言知识、组织安排语言材料。作文评分由教师进行，该过程的主观性无法避免，所以保证评分的信、效度尤为关键。作文自动评分系统（Automated Essay Scoring，以下简称“系统”）为提高评分的信、效度而研发，其前提是计算机软、硬件性能的提升。系统是使用计算机程序模拟人工评分，对作文进行快速、自动评分的计算机技术。1966年，Ellis Batten Page成功研制了世界上第一个系统PEG（Project Essay Grader）。中国的系统研究始于本世纪初，以梁茂成、葛诗利、杨永林等为代表的学者研制了爱写作系统、易格软件、冰果系统、新视野系统、句酷网等系统。

2 文献综述

学界对系统的比较研究分为两类。第一类是对系统的研制原理、评分效果的理论研究。韩宁介绍了美国几个系统的基本原理，指出了这些系统的局限性，并说明了系统的恰当使用方式。毛世花、陈晓丽阐述了E-rater和句酷网的评分原理，并讨论了E-rater和句酷网的优缺点。陈长进分析了句酷网和冰果系统的评分机制，并简单比较了句酷网和冰果系统的评分效果。第二类是有关系统评分效度的实证研究，以探求系统在评分实践中的差异。杨婷婷以37份大学生的英语四级考试作文为样本，通过皮尔逊相关分析和配对样本T检验，比较了冰果系统和新视野系统的评分，证明冰果系统和新视野系统的评分不一致。殷小娟等以145份大学生的写作训练文本为例，用斯皮尔曼相关和单因素方差分析，分别对比了句酷网和冰果系统与人工评分间的相关性、差异性，证明句酷网和冰果系统的评分存在显著差异。上述实证研究都运用总体评分法，只涉及系统评分的总分比较，实用性有待进一步完善。通过比较句酷网、爱写作系统的评分效果，本文旨在帮助学生在写作训练中选择合适的系统，有效提高寫作能力。

3 研究过程

本文用定量研究法。样本是某大学机辅英语写作比赛的真实文本210份，数据是句酷网（http：//www.pigai.org/）、爱写作系统（http：//iwrite.unipus.cn）的评分结果，数据收集有三步。第一步：分别登录两系统，按比赛要求布置作文。第二步：分别将两系统的设置改为——总分100分，内容、结构各占比40%、25%。第三步：分别输入文本到两系统，由其自动评分，并记录结果。句酷网、爱写作系统的评分都标明了总分，并显示内容、结构两维度的评分比例。将两个比例分别与40、25相乘，即为两维度的评分。最后用SPSS 20.0对句酷网、爱写作系统的评分结果进行统计分析。本文从分布差异，差值、均值差异，多元线性回归差异三方面比较两系统的英语作文评分。

3.1 分布差异

句酷网的评分中，总分含60个值，介于15.5——87.0之间；内容评分含36个值，介于12.8——39.2之间；结构评分含24个值，介于13.25——23.75之间。爱写作系统的评分中，总分含37个值，介于31——82之间；内容评分含18个值，介于13.2——34.0之间；结构评分含8个值，介于18——25之间。表1是比率排在前六的两系统在总分、内容、结构三部分的评分。句酷网的评分分布为：总分中，74.0的最多，随之是65.0、70.5、77.5、78.5、79.0，有25.72%的是这六个分值；内容评分中，31.2的最多，随之是28.8、29.2、29.6、33.2、30.8，有34.27%的是这六个分值；结构评分中，21.75的最多，随之是20.75、20.50、21.00、21.25、22.00，有50.48%的是这六个分值。爱写作系统的评分分布为：总分中，56的最多，随之是55、70、54、60、63，有33.32%的是这六个分值；内容评分中，23.2的最多，随之是20.0、18.0、21.2、22.0、25.2，有64.75%的是这六个分值；结构评分中，25的最多，随之是23、21、22、20、19，有97.14%的是这六个分值。

3.2 差值、均值差异

表2是两系统评分差值的比率分布。完全一致率指两系统评分相同；相邻吻合率指两系统评分差值在0.0—10.0间（总分）、0.0—4.0间（内容评分）、0.0—2.5间（结构评分）（梁茂成，2012）。由表可知，两系统评分的相邻吻合一致率（包含完全一致率、相邻吻合率）方面，结构最高、总分居中、内容最低。两系统评分差值的最大值方面，内容最大、结构居中、总分最小。两系统评分差值的最小值方面，总分、内容、结构都有相同评分。两系统评分差值的均值方面，内容最大、总分居中、结构最小。两系统评分差值的最频值方面，内容最大、总分居中、结构最小。

本文对两系统在总分、内容、结构三部分的评分做了配对样本T检验。检验结果如表3，该表显示：总分中，两系统评分差异显著（t=16.714，df=209，p<0.05），句酷网评分显著比爱写作系统评分高（MD = 11.74）；内容评分中，两系统评分差异显著（t=16.890，df=209，p<0.05），句酷网评分显著比爱写作系统评分高（MD=8.16）；结构评分中，两系统评分差异显著（t=-9.580，df=209，p<0.05），句酷网评分显著比爱写作系统评分低（MD=-2.12）。

3.3 多元线性回归差异

本文还分别对两系统在总分、内容、结构三部分的评分做了多元线性回归分析，结果如下。对句酷网评分的多元线性回归分析满足误差成正态分布及误差和预测变量不相关的前提假定；两个预测变量中，“结构评分”这一变量与因变量显著相关（表4）；强制回归结果显示，两个变量对总分有良好的预测作用（表5），R2为0.364，即“内容评分”、“结构评分”构成的组合可解释总分36.4%的变异；两个预测变量中，“结构评分”（Beta=0.632）的标准化回归系数较高，说明结构评分越高，总分越高；标准化回归方程为：总分=0.632×结构评分+0.241×内容评分。对爱写作系统评分的多元线性回归分析满足误差成正态分布及误差和预测变量不相关的前提假定；两个预测变量都与因变量显著相关（表4）；强制回归结果显示，两个变量对总分有良好的预测作用（表5），R2为0.406，即“内容评分”、“结构评分”构成的组合可解释总分40.6%的变异；两个预测变量中，“内容评分”（Beta=0.503）的标准化回归系数较高，说明内容评分越高，总分越高；标准化回归方程为：总分=0.503×内容评分+0.361×结构评分。

4 结论

基于上文的数据分析，本文有以下结论。两系统对各部分独立评分、互不影响，但评分差异明显。句酷网评分较分散，说明句酷网能明确区分水平相近的作文。两系统对各部分的评分高低不一，说明两系统的内部一致性不稳定。句酷网评分的最高分高、最低分低，说明句酷網对好作文宽松、差作文严厉，总体严厉度变化较大。相对内容评分、结构评分而言，两系统总分差值的误差最小，说明两系统的总分都有一定的参考性。句酷网的不同评分与结构最相关，爱写作系统的不同评分与内容最相关；说明两系统评分的侧重点不同。此外，句酷网的不同评分与内容评分的变化无关，说明句酷网无法识别作文的内容。两系统评分差异显著，句酷网评分注重结构，无法识别内容；爱写作系统评分内容、结构并重。总体而言，爱写作系统评分效度优于爱写作系统。建议学生在写作训练中，使用爱写作系统的评分，明确了解作文的内容、结构，有效提高写作能力。

参考文献：

[1] 陈长进.作文自动批改系统比较研究[J].科技视界，2013（30）：144-145.

[2] 葛诗利，陈潇潇.中国EFL学习者自动作文评分探索[J].外语界，2007（5）：43-50.

[3] 韩宁.几个英语作文自动评分系统的原理与评述[J].中国考试，2009（3）：38-44.

[4] 梁茂成.中国学生英语作文自动评分模型的构建[M].北京：外语教学与研究出版社，2011.

[5] 梁茂成.大规模考试英语作文自动评分系统的研制[M].北京：高等教育出版社，2012.

[6] 梁茂成，文秋芳.国外作文自动评分系统评述及启示[J].外语电化教学，2007（10）：18-24.

[7] 毛世花，陈晓丽.E-rater和句酷的对比研究及对提高大学生英语作文水平的启示[J].高等函授学报，2012（5）：20-21.

[8] 武尊民.英语测试的理论与实践[M].北京：外语教学与研究出版社，2003.

[9] 许宏晨.第二语言研究中的统计案例分析[M].北京：外语教学与研究出版社，2013.

[10] 杨婷婷.英语写作自动评分系统的不一致性研究[J].社科纵横，2012（3）：297-298.

[11] 杨永林，全冬.认知的理念，实用的视角——信息技术在外语教学中的应用[J].外语电化教学，2011（11）：47-51.

[12] 殷小娟，贾永华，林庆英.“句酷网”和“冰果”自动评分效度的对比实证研究[J]. 河北北方学院学报，2017（1）：1-11.

[13] Dikli， S. An Overview of Automated Scoring of Essays[J]. Journal of Technology， Learning， and Assessment， 2006（8）：4-30.

作者简介：任瑞娟（1992-），山西吕梁人，西北农林科技大学外语系硕士在读，研究方向：二语习得。

高莉（1976-），陕西宝鸡人，西北农林科技大学外语系副教授，研究方向：认知语言学、二语习得。