写作测评工具在大学英语中的应用研究综述

2013-04-29 11:34陈周云迟秀湘牛洁珍
考试周刊 2013年52期
关键词:信息技术

陈周云 迟秀湘 牛洁珍

摘 要: 现代教育信息技术应用于语言测试和教学领域是大势所趋,本文介绍了目前国外比较流行的八种写作测评工具。相比较而言,国内对于写作在线测评工具的研究尚处于初始阶段,主要体现在三个方面:理论介绍、模型构建和实证研究。虽然这项技术具备很大优势,但是在技术革新和实际应用方面仍然面临诸多挑战,急需更多的实证研究达到最佳应用效果。

关键词: 写作在线测评工具 信息技术 语言测试

一、引言

现代教育技术的发展与普及为语言教学和语言测试的发展带来了契机,写作在线测评工具不断研制、开发和应用就是一个极好的例子。写作在线测评工具就是利用现代教育技术对语言学生的作文进行在线判断、评分并且给出及时反馈的计算机软件系统。它以反馈、调控和改进为目的,具有改善教学活动、监控写作过程的功能,能够达到及时反馈、改进、调控学生学习进程的效果。作为衡量语言输出能力的重要指标——写的能力,无论是检测还是平时训练,都需要客观、公正的评阅者,给予及时、中肯的反馈,同时为学生提供不断修正、改进的机会,敏锐地捕捉他们的点滴进步,调动他们的写作积极性。计算机技术和信息系统的日新月异为解决这一亘古难题带来了希望,国内外各个领域的专家学者们纷纷研制开发写作在线评阅工具。这种写作在线评阅工具主要应用于语言测试和语言教学领域,针对已经输入计算机内部的学生作文文本进行评阅,主要用在高风险考试中,作为人工评分的补充进行实际评分;还可以用在语言教学中,对学生的写作能力进行诊断、提供修改建议等。

二、国外写作测评工具综述

该项技术的研究始于20世纪60年代的美国,目前国外较为成熟的写作自动测评工具主要包括:Project Essay Grade(PEG),Intelligent Essay Assessor(IEA),Electronic Essay Rater(E-rater),Criterion,IntelliMetric,Bayesian Essay Test Scoring System(BETSY),My Access!,以及Writing Roadmap2.0(WRM)系统等。

1.PEG

作为最早被开发出来的写作自动测评工具,PEG主要针对所输入文本的一些容易量化的特征,如:长度(包括文章、句子、甚至单词的长度)、标点符号、语法等因素,利用统计中的多元回归分析,给文章评分。尽管PEG在实际应用中与人工评分有着很高的相关性,准确率也很高,但是由于PEG的评分标准只是表层特征,忽视或者说没有办法量化文章的本质特征,如:内容的相关性、组织体裁、作者的观点态度、篇章结构等,而且不能提出反馈,因此没有得到教育界的认可和接受。不管怎样,PEG是利用计算机代替人工阅卷的首次尝试,为后来的技术改进奠定了基础。

2.IEA

IEA的基本原理是潜在语义分析——LSA(latent semantic analysis)技术。潜在语义分析用于作文评分时有三个步骤:首先,要挑选出有代表性的作文范文样本;其次,这些样本被表示为潜在语义分析中使用的变量;最后,待评分作文在内容和概念的相关性上与这些样本进行比较,从而取最类似范文的平均分数(韩宁,2009)。与PEG只关注文本的表面语言特征相比,IEA关注文本的整体内容,同时包含对文本的写作技巧,如语法、标点等的反馈,与人工评分的相关性也很高,具有更大的教育价值,是作文自动评分系统的重大突破。由于该方法只能对作文内容进行评价,而不顾作文的语言质量,因此评分效度很难保证。而且其设计初衷是为评价本族语作文所用,如果用于评测外语学习者的作文,其信度和效度就很难取得令人满意的效果。

3.E-rater

E-rater利用了多种技术,如统计技术、矢量空间模型技术和人工智能中的自然语言处理技术,因此,E-rater既能够像PEG那样评判作文的语言表层特征,又能够像IEA那样评判作文的内容质量。此外,E-rater还能够对作文的篇章结构进行分析。E-rater兼顾作文的内容和语言形式,是一种混合的自动评分系统,与人工评分之间的一致性达到了最高点。然而,E-rater并非十全十美。其旨在分析语言质量的句法多样性分析模块不能全面衡量语言质量的其他方面,如词法、语言的准确性等,从而影响了评分信度。另外,其旨在分析内容质量的主题内容,分析模块所使用的信息检索技术,与IEA所使用的潜在语义分析相比,有点落伍,不能有效排除由于词汇同义和歧义所产生的干扰信息。其带有创新意义的篇章结构分析模块主要靠在文本中搜索话语标记语,像in conclusion、first of all等容易产生不良的反拨作用,致使考生认为,只要多使用这些话语标记语就可以得高分。(梁茂成,文秋芳,2007)

4.Criterion

作为一个基于互联网的作文评分和评价服务系统,Criterion不仅可以用于考试评分,还可以给出作文个性化的诊断性反馈。其技术核心是综合了E-rater和另一个软件系统Critique,前者提供评分,后者可以对作者写作能力提供诊断信息,包括语法、用词及写作机制(比如大小写、标点符号)等多方面。Criterion的改进主要体现在三个方面:能评判与分析事先训练过的作文题目、能够给出所有题目(包括新提供的题目)的诊断反馈信息、可以适用于母语非英语的写作。虽然其反馈的类型比较有限,但是Criterion在提供形成性反馈信息方面毕竟迈出了一大步,开创了写作评价工具服务于教学的先河。

5.IntelliMetric

IntelliMetric是第一套基于人工智能技术开发出的作文评分系统,取代E-rater用来给GMAT作文评分。它能够模仿人工评卷,对作文的内容、形式、组织和写作习惯进行评分,集中了人工智能、自然语言处理和统计技术的长处,是一种能够内化专家级评卷员集体智慧的学习机。它开发了能够分析词性和句法关系的自然语言处理技术,依据英语标准书面语的主要特征,内化作文中与某些特征相关的每一个得分点评判作文。IntelliMetric能够评估作文中语义、句法、篇章3个层次的300多项特征。据称在性能方面能够跟专家级评卷员给出的分数一样准确。另外,IntelliMetric能够评阅除了英语以外的其他多种语言的作文。

6.BETSY

BETSY以概率论为指导,其核心原理是贝叶斯分析方法,基于训练语料对文本进行分类的程序。该系统使用了包括内容与形式方面的一个大型特征集,根据优、良、合格、不合格四个类型尺度,把一篇作文划分到一个最合适的集合中。其开发者声称这个程序集合了PEG、LSA、E-rater的优点并且具有自己的特色。例如,能够用于短文评测,产生诊断性结果,可以非常方便地应用于不同的学科专业范围,并且其结果对非统计人员来说通俗易懂,可免费下载使用。

7.My Access!

My Access!主要为学生提供一个写作环境,能够迅速形成结构化的形成性反馈和诊断报告,学生可以根据这些结果修改自己的作文,改进写作技巧。同时也为教师提供了一个基于网络的辅导环境,可以选择多种的报告格式,浏览学生的历史记录,分析学生的错误,把学生按水平分组,等等。My Access!还被大规模地应用于课堂教学。大部分研究表明教师和学生对My Access!的使用持积极肯定态度,使用后学生成绩也有明显提高。教师对系统的积极态度和正确使用及对学生的正面引导,系统评价、教师评价、同行互评等相结合是最佳使用方法。

8.WRM2.0

WRM2.0是美国McGraw-Hill公司设计的写作在线形成性评价工具。该系统可以针对作文的语言形式(如拼写、词汇、语法结构等)和语篇的内容及组织结构等提供多种形式的电子评语反馈信息,同时还具备教师调整评分功能,便于教师提供更加准确、客观、全面的评语和修改建议。该系统除了提供一个综合评分以外,还可以根据六个维度(思想和内容、组织机构、体裁、词汇运用、流畅度、拼写及语法正确率等)给出分项分值,并且根据这六个维度和作文的篇章结构给予评语反馈与修改建议。关于WRM的实证研究主要集中于美国的弗吉尼亚州,研究结果表明,使用WRM2.0的学生在州统考中成绩明显高于没有使用的学生。WRM2.0已经被国内引进,一些关于该工具的应用文献,将在下文进一步阐述。

三、国内研究现状

国内的一些专家和学者比较关注现代信息技术在语言教学中的应用。然而,关于写作在线测评工具在语言教学和测试中的研究尚属于初始阶段,主要集中于三个方面:理论介绍、模型构建和实证研究。

1.理论介绍

国内对写作在线评价工具的兴趣主要始于本世纪初,集中在对国外写作自动评价系统的原理和特点的介绍。梁茂成、文秋芳(2007)评价和比较了国外具有代表性的三种作文自动评分系统:PEG、IEA、E-rater,指出这些评分系统在训练及作文的人工评分方法和机器评分效度等方面存在的问题,并分析了这些作文自动评分系统为我国自主开发作文自动评分系统所提供的借鉴作用。葛诗利、陈潇潇(2007)讨论了国外的写作自动评价工具在二语写作评分方面的表现,分析了自动作文评分技术在英语作为外语写作领域的发展及针对中国英语学习者作文自动评分的研究,并且提出适合中国国情的研究方向及可能应用的方法。陈潇潇、葛诗利(2008)介绍了国外比较有影响力的六种写作自动评价工具,分析了国内市场对写作自动评价工具的需求,介绍了国内对写作自动评价工具的开发研究,指出了英语作为外语的作文自动评价工具研究的发展与不足之处。韩宁(2009)具体介绍了目前美国较流行的用于大规模考试评分和英语教学中的七个写作自动评分系统,详细地阐明了各自的工作原理和特点,同时也指出了今后的主要研究方向,尤其是在国内引入这些评价系统时需要改进的地方。

2.模型构建

国内最早设计符合中国学生英语作文自动评价工具模型构建的应该是梁茂成(2005)。他的建模方法兼顾了PEG和IEA的长处,设立训练集和验证集,在训练集的基础上得到评分模型,用验证集交叉验证模型的可信度,进而采用双重交叉验证。他的模型是在训练集中提取大量的作文浅层文本特征,连同作文的内容作为自变量,人工评分作为因变量一起用于多元回归计算,得到作文评分的回归方程。提取待评分作文的相关特征值,代入回归方程即可得到该作文的得分。其模型的评分准确率很高,但是由于样本数量过小,作为自变量的浅层文本特征,还需要进一步研究。在此基础上,梁茂成(2011)研制了大规模英语考试作文评分系统,基于人工评判的大量中国大学生作文语料库建立模型,从语言、内容和组织结构三方面对作文进行评价,为开发适合中国学生练习和评价的写作自评系统做出了很大的努力。

3.实证研究

国内的实证研究主要集中使用技术相对比较成熟的WRM2.0。王淑雯(2011)结合教学实例,强调WRM2.0系统所能够提供的及时、全面的多元化反馈有助于提高学生的语言正确率和写作水平。该项实验为期三个月,对系统使用情况采用问卷调查、访谈和总结,结果显示,所有教师对系统采取积极态度,绝大部分学生认为系统有助于提高他们的写作水平。由于该研究主要采用定性形式,缺乏定量数据,没有客观的前测、后测成绩比对及实验组和对照组成绩比对,而且使用周期太短,因此,其有效性还有待于进一步考查。周颖(2011)的实验对象为某高校英语专业二年级学生,使用周期为一年,收集了以纸质调查问卷、访谈及实验组和对照组期末考试成绩作为前测和后测成绩等数据,运用SPSS 16.0对回收问卷进行常规数理统计。研究结果显示:学生对在线形成性评价工具持肯定态度,实验组成绩比对照组有显著提高。文章还具体分析在线形成性评价工具在学生英语写作应用过程中遇到的情况,进而提出相应的对策,为利用写作在线测评工具进行教学提供新思路。蒋学清、蔡静等(2011)以某高校非英语专业的二年级学生为研究对象,研究方法包括问卷调查、访谈和实验前、后英语写作成绩的统计学分析,研究时间是一学期。研究结果发现,实验组和对照组的英语写作水平都有了明显的进步,但实验组的进步幅度更大。这说明写作在线测评工具所提供的形成性评价方式和自动反馈功能对非母语英语学习者的写作能力可以发挥积极的作用。该研究还发现,与对照组相比,实验组在作文结构、语法、单词拼写和标点运用方面有显著提高,但在思想内容、语体、选词和句式变化方面的优势则并不显著,并且分析了原因,包括学生方面和系统本身的不完善。迟秀湘(2013)的实验对象为某高校非英语专业二年级学生,使用周期为十周,收集的定性和定量数据包括实验组和对照组的前测、后测成绩以及调查问卷和访谈结果等。实验结果表明:参与实验的老师和学生普遍采取积极态度,学生成绩显著提高。但是也有个别学生持保留态度,影响他们态度和成绩的因素有待进一步研究。

四、关于写作在线测评工具应用问题反思

写作在线测评工具在国内有着很大的潜在市场。在语言测试方面,除了汉语作文以外,作为主要外语的英语作文(这是本文及本项目主要关注的方向)出现在各种级别的语言测试中,包括中考、高考、大学生英语四、六级考试、专业英语四、八级、PETS、研究生入学考试等,阅卷工作量繁重,阅卷人员的信度也颇有争议,急需客观、公正、信度和效度较高的写作测评工具。在语言教学方面,良好的自动阅卷工具会对教学产生积极正面的反拨效应。而且,如果在线测评工具能够根据作文的不同维度,提供形成性及时反馈诊断报告,则有助于学生对写作产生积极的态度,提高写作水平,而且能够减少教师作文批改量,减轻教师负担,为教、学双方带来切实的好处。具体的优势体现在以下几个方面。

1.反馈的多元性

系统能够及时地提供电子反馈和教师可以参与的人工反馈;分数反馈与诊断性评语反馈相结合;针对作文语言形式和语篇内容结构的反馈相结合;形成性反馈和终结性反馈相结合等多元反馈形式。

2.学生自主性和个性化

系统体现了“以学生为中心”的素质教育理念,学生可以自主安排写作时间和地点,自主选择符合其水平和认知风格的写作任务;可以无限次地提交作文—获得反馈—再修改—再提交,形成良性循环,完成写作任务。

3.形成性

系统能够自动记录学生的历次写作情况,对写作过程中的思维、行为、策略等进行全面反馈并记录,创建个人写作档案,有助于教师随时了解、监控学生全体或个体的写作进展,也有助于学生了解自己的学习情况及和同学之间的差距,反思写作中存在的问题。

4.交互性

系统不仅可以实现学生、教师与机器的互动,还可以实现学生之间的同行互评、教师与学生的多方位互动。教师不仅可以通过系统给学生布置写作任务,还可以通过系统对电子分数和反馈进行人工干预和修改。

5.激发学习动机

系统所提供的及时评分能够有效弥补人工评分的滞后性,大大激发学生的学习动机。同时诊断性反馈评语为学生及时修改作文给予提示,修改过后在分数上立竿见影的体现,会给学生带来欣喜与成就感,大大调动学生写作的积极性和主动性。

然而,写作在线测评工具毕竟是信息技术的产物,其开发、研制和改进需要最先进的技术为支撑,需要既了解信息技术,又懂得语言教学、测试规律的复合型人才,不断更新的信息技术是提高系统的效度和信度的关键。另外,写作在线测评工具在语言教学过程中的使用离不开教师和学生,他们对系统的态度、对系统的掌握熟练程度、对系统的使用方法都会在很大程度上影响系统的实际应用效果。因此,只有当教师创造性地把软件技术有机地融入教学中,引导学生合理有效地利用系统,才能取得最佳效果。

现代信息技术进入外语教学与测试领域是今后的发展方向,大势所趋。虽然目前尚有需要完善的地方,但是我们要接受并且掌握它,在使用过程中探索它的潜能和局限性,为以后的完善改进提出建议。站在这项改革浪潮上的外语教学一线教师应该顺势而为、勇挑重担,掌握应用最新的系统技术,开展全方位的实证研究,让技术真正地服务于教学。

参考文献:

[1]陈潇潇,葛诗利.自动作文评分研究综述[J].解放军外国语学院学报,2008,31(5):79-83.

[2]葛诗利,陈潇潇.中国学习者自动作文评分探索[J].外语界,2007,122(5):43-50.

[3]韩宁.几个英语作文自动评分系统的原理与评述[J].中国考试,2009,203(3):38-44.

[4]梁茂成,文秋芳.国外作文自动评分系统评述及启示[J].外语电化教学,2007,217(5):18-24.

[5]梁茂成.大规模考试英语作文自动评分系统的研制[M].北京:高等教育出版社,2011.

[6]周颖.在线形成性评价工具在英语写作中的应用——困难及对策探究[J].现代教育技术,2011,21(9):88-93.

[7]梁茂成.中国学生英语作文自动评分模型的构建[D].南京:南京大学博士论文,2005.

[8]王淑雯.如何利用Writing Roadmap 2.0进行在线英语写作反馈[J].现代教育技术,2011,21(3):76-81.

[9]蒋学清,蔡静,唐锦兰.探析自动作文评价系统对大学生英语写作能力发展的影响[J].山东外语教学,2011,145(6):36-43.

[10]迟秀湘.探究在线形成性评价工具对学生英语写作能力的影响[J].海外英语,2013,228(5):10-12.

基金项目:本研究得到北京市教育科学“十二五”规划课题“在线形成性评价工具在英语写作中的应用研究”(项目编号:DDB12703)的资助。

猜你喜欢
信息技术
新一代信息技术征稿启示
新一代信息技术征稿启示
新一代信息技术征稿启示
新一代信息技术征稿启示
新一代信息技术征稿启示
新一代信息技术征稿启示
新一代信息技术征稿启示
新一代信息技术征稿启示
新一代信息技术征稿启示
新一代信息技术征稿启示