西南交通大学 王 建
随着自然语言处理技术的蓬勃发展,自动作文评分(Automated Writing Evaluation, AWE)系统应运而生,这些在线评估工具可以大规模地、即时地评分并提供写作反馈,在一定程度上缓解了英语教师的作文批改压力。大部分AWE系统首先利用自然语言处理等技术统计作文在词汇、句法和语篇等层面的量化特征值,然后建立回归模型计算文章得分。国内自主研发的AWE系统,如批改网、iWrite和冰果作文智能评阅系统等,已广泛应用于高校英语写作教学中。然而鲜有国内AWE系统开发者对系统打分模型的建立及量化指标的选取进行详细的阐述,机器打分是否“考虑”语篇衔接不得而知。因此,本文将利用语料库研究工具计算中国英语学习者作文在语篇衔接方面的量化特征值,探究其对机器分数的预测能力。
为探究语篇衔接量化特征值与机器评分间的关系,本节对语篇衔接概念、相关研究及AWE系统研究的现状进行概括性的梳理。
(一)语篇衔接与语篇连贯
语篇是一个完整的语义单位,是由显性的或隐性的衔接手段连接而成,自然的衔接是形成语篇的重要手段。(王志文 1994)Halliday & Hasan(1976)认为,语篇衔接指文本中某些语言线索的显现或缺失,是使读者对语篇中的观点建立连接的浅层语言特征。相比,语篇连贯指读者对文本的理解,是读者大脑中对文本的心理表征,取决于衔接线索等语言因素及已有知识、阅读技能等非语言因素。(O’reilly & McNamara 2007;Kim & Crossley 2018)王彩丽(2003:20)将连贯比喻为一种“无形的网络”,存在于语篇的底层,通过逻辑推理达到语篇中语义的连接,而衔接是一种“有形的网络”,通过语篇的表层结构来体现,并通过一定的语法词汇手段实现结构上和语义上的衔接。语篇中有效的衔接可以更好地帮助读者建立更连贯的心理表征。
Halliday & Hasan(1976)将语篇衔接定义为句子层面以上的非结构关系,包括所指、替换、省略、连接词和词汇衔接(包括词汇重述、同义、上下义及搭配)5大类。Crossleyetal.(2016)提出了3类衔接手段:句子层面的局部衔接(local cohesion)、段落层面的整体衔接(global cohesion)及整个语篇层面的衔接(text cohesion)。局部衔接包括句子间词汇和概念的重合以及because、therefore或consequently等显性的连接词;整体衔接包括语篇中段落间词汇语义的重叠,即某个段落中的词汇或概念在其他段落中复现;此外,读者还可以通过计算某些词汇在整个语篇层面的复现及指称情况等来判断文本的衔接程度。总体而言,整体及语篇层面的衔接更为隐性。
(二)语篇衔接与写作质量的关系
哪些文本内部特征可以区分高质量与低质量的作文?为回答此问题,写作实证研究多采取量化文本错误和句法特征的方法,表明高质量作文错误往往更少,句法结构更为复杂。然而大多数研究忽略了衔接性等句法以外的重要文本特征。写作是篇章的建构过程,是一个复杂的语言心理学概念,写作研究领域对英语母语(L1)及二语(L2)写作者在建构文本过程中利用何种词汇语义特征产出衔接的篇章关注已久,但语篇衔接手段与作文质量间的关系仍扑朔迷离,研究结果各异,甚至大相径庭。(Crossleyetal. 2016)
早期的研究主要针对L1写作者,发现局部的衔接手段对文章质量的预测力不强(Evolaetal. 1980),高水平者比低水平者使用更多的指称衔接词与连接词。(Witte & Faigley 1981) 尽管特定的衔接手段(如同义词和上义词)与作文质量相关,段落衔接可以区分高、低分作文,但衔接手段总数无法判别作文的质量好坏。(McCulley 1985;Neuner 1987)近年来,随着语料库语言学、计算语言学及自然语言处理等技术的发展,许多自动文本分析工具用于该领域的研究中,表明L1写作者局部语篇衔接手段的运用与写作质量不相关或负相关(McNamaraetal. 2010),整体衔接与写作质量呈正相关。(Crossleyetal. 2011)
早期针对L2写作者的研究表明,局部与语篇层面的衔接与作文质量呈正相关。Jafarpur(1991)发现意大利本科英语学习者的作文分数与语篇衔接手段数量相关。Liu & Braine(2005)研究了局部衔接手段,表明中国本科阶段L2学习者的作文分数与衔接手段数量中等相关,词汇衔接手段数量与写作质量高度相关。Yang & Sun(2012)亦发现中国英语学习者议论文中正确使用的衔接手段与作文质量高度相关。后期利用计算工具的研究表明局部衔接(相邻句子实词重叠、肯定逻辑连词及相邻句子语义相似度等)和语篇层面衔接(如体重复,aspect repetition)与作文质量呈负相关(Crossley & McNamara 2012;Guoetal. 2013),与整体衔接呈正相关。(Crossley & McNamara 2014;Jungetal. 2005)另一方面,Guoetal.(2013)发现局部衔接(如相邻句子语义相似度)与基于阅读材料(source-based)的写作任务作文分数呈正相关,因为阅读材料的融入可能对局部衔接要求更高;Crossleyetal.(2016)也发现局部衔接与L2说明文质量呈正相关。
国内发表的此类研究较少,而且结果也不一致。如徐玉臣(2000)分析了50篇英语专业学生作文的各类词汇衔接手段与写作质量的关系。研究表明,词汇衔接尤其是同义词、反义词和同现关系词与写作质量有本质联系,对写作质量贡献显著,有50.28%的预测能力。赵芝英(2004)基于Halliday & Hasan(1976)的语篇衔接理论,比较了41名非英语专业学生优劣作文的语篇衔接特点,并探讨了衔接手段与写作质量间的关系。结果显示: 5大类衔接手段并未对作文质量产生足够的影响,并发现词汇的简单重复是导致作文质量差异的主要因素。梁茂成(2006)发现5项测量局部衔接性和4项测量整体衔接性的Coh-Metrix指标与EFL作文成绩显著相关,且高分作文整体衔接手段运用较好,而低分作文更多地依赖局部衔接性手段。该研究还发现,由于学生过多地使用人称代词与连接词等衔接手段,影响了连贯文本的建构。杜慧颖、蔡金亭(2013)利用Coh-Metrix文本分析器探究了影响中国英语专业大学生议论文写作质量的语言特征,回归分析显示相邻句子词干重叠能解释17%的分数差异。
自动作文评分系统的研究可追溯到20世纪60年代,最初旨在解决大规模考试作文评分,因此被称为AES(Automated Essay Scoring)系统,后来发展为AWE系统被应用到写作课堂,不仅能提供及时评分,也可形成自动反馈,作为课堂教学的补充。到目前为止国外相关的研究主要涉及以下几个方面:1)介绍及述评系统的原理;2)打分模型的建立过程说明;3)机器评分的效度研究及影响评分的因素;4)使用者对机器评分的认知研究;5)自动反馈研究,包括反馈的质量、反馈对写作结果的影响、对写作过程的影响及使用者的看法。(白丽芳、王建 2018,2019)国内此领域的研究仍处于起步阶段,各方面研究都有所涉及,但受到的关注不够,AWE系统在国内方兴未艾并大量运用到英语课堂教学中,一线教师甚至直接将机器分数纳入期末成绩,未来也有应用到大规模外语测试的趋势,但国内鲜有研究者或开发者详尽报道系统建立所选取的语言特征,机器评分的“神秘面纱”还未完全揭开。
目前,语篇衔接与机器评分的关系目前还未受到广泛关注。白丽芳、王建(2018)进行了有益探索,该研究利用Coh-Metrix分析了300篇“中国学习者英语语料库”中大学英语四、六级考试作文在词汇、句法、语篇和错误等4类语言类定量特征对人工和机器评分的影响。结果显示,相邻句子词干重叠、相邻段落潜在语义重叠、相邻句子论元重叠及代词总数能够预测四、六级人工分数,相邻句子词干及论元重叠、相邻段落潜在语义重叠、连词及代词总数能预测四、六级机器分数。但该研究仅涉及5项语篇衔接量化指标,并不全面,研究的可推广性有待商榷。为此,本研究将纳入更多的语篇衔接量化指标,以进一步探讨语篇衔接量化特征与作文机器分数的关系。
本研究的研究语料来自西南某应用型大学本科二年级3个教学班于国内某自动评分系统提交的一次作业,所有作文均为不限时作文,共计121篇。系统以100分制公式进行打分。
本研究基于Coh-Metrix分析器计算的语篇衔接资源考察衔接性量化特征与机器评分的关系。Coh-Metrix是由美国孟菲斯大学McNamara等人研发的基于网络的文本分析工具,该工具以心理语言学、计算语言学、语料库语言学、自然语言处理及语篇分析等方面的长足发展为基础,可对文本的浅层及深层特征进行量化分析,能够分析上百种包括词汇、句法和语篇衔接的语言量化特征。该工具使用潜势语义分析(Latent Semantic Analysis)技术,有效地分析文本的衔接性,主要包括3个维度及27项指标:指称衔接、连接词及潜势语义分析。为避免Coh-Metrix误判拼写错误的单词,影响研究结果,笔者对词汇拼写错误进行人工核对并一一纠正,然后将利用Coh-Metrix分析无单词拼写错误的作文,详细的衔接指标见表1。
表1 语篇衔接量化指标
本研究以121篇作文语篇衔接3个维度的所有量化特征值为自变量,机器分数为因变量,采用SPSS 18.0进行多元逐步回归分析,p值设为<.05水平。逐步回归统计分析共得到两个回归模型(见表2),进入回归模型的自变量与作文机器分数的相关性见表3。模型1仅引入一个自变量:相邻段落语义相似度平均数,可以解释10.2%的分数差异(调整R2=.102,F<1,119>=21.725,p=.000),机器打分模型为:机器分数=70.258+45.831×相邻段落语义相似度平均数(LSAPP1)。模型2在模型1的基础上增加一个自变量:转折连词比(CNCADC),两个自变量不存在共线性问题,对机器分数有14.5%的预测力(调整R2=.145,F<1,118>=14.444,p=.009),新进入模型的预测变量有4.3%的贡献,打分模型为:机器评分=67.541+45.097×相邻段落语义相似度平均数+0.266×转折连词比。相关分析显示,机器分数与两项指标呈显著弱相关,皮尔逊相关系数分别为.331(p=.000)和.231(p=.011)。其他25项语篇衔接量化指标对机器分数不具有预测力,因此未能进入回归方程。
表2 作文机器分数预测模型汇总
表3 作文机器分数与自变量相关分析
为分析语篇衔接量化特征对机器高、低分作文是否存在不同的预测力,本研究以所有作文机器分数的中位数(74.5分)为分界线,将121篇作文分为59篇高分档(High-quality Group,简称H组)和62篇低分档作文(Low-quality Group,简称L组)。T检验显示,两组作文分数存在显著差异(t=21.293,p<.001)见表4。
表4 高分作文与低分作文均值比较
然后分别以高、低分组作文分数为因变量,语篇衔接量化特征为自变量进行多元线性回归分析。统计分析得到一个高分组机器分数的预测模型(见表5),并且只有一个自变量进入回归方程:相邻句子语义相似度平均数(LSASS1),下页表6显示该自变量与机器分数呈负相关(r=-0.124),能解释5%的方差(调整R2=0.050,F<1,57>=4.037,p=.049)。回归方程为:H组机器分数=84.775-9.784×相邻句子语义相似度平均数。但该指标与作文分数未达到统计学上的显著性(p=.350>.005)
表5 H组机器分数预测模型汇总
表6 H组机器分数与自变量相关分析
表7显示,回归分析共得到两个L组机器分数预测模型。只有附加连词比进入第一个模型,共解释8.7%的分数差异(调整R2=8.7%,F<1,60>=6.823,p=.011),自变量与机器分数的相关系数较低(r=.320,p=.011,见表8),回归方程为:L组机器分数=58.277+0.142×附加连接词比(CNCAdd)。第二个回归模型包含两个自变量:相邻段落语义相似度平均数和转折连接词比,共能解释14.9%的分数差异(调整R2=.149,F<2,59>=6.332,p=.024),两个自变量与机器分数的相关系数分别为.304(p=.016)和.245(p=.009),回归方程为:L组机器分=55.001+0.123×转折连词比+12.517×相邻段落语义相似度平均数。
表7 L组机器分数预测模型汇总
表8 作文机器分数与自变量相关分析
本研究发现只有相邻段落语义相似度平均数及转折连词比能够预测整体作文的机器分数,进入回归方程的自变量能解释14.9%的方差。总体而言,机器在打分时,如果发现相邻段落语义越相似,转折连词越多,作文的质量越高。概念相似度是深层的衔接手段,利用LSA技术可以很好地反映文本的语义连贯性,(杜慧颖、蔡金亭 2013)可以判断作文的中心思想是否连续、语义是否连贯,通过文本中相邻段落的用词重叠统计来计算相邻段落之间的语义距离,从而得出文章是否紧扣主题。(胡珀 2005)转折连词的使用可以起到承上启下的作用,使文章尤其是议论文的层次更加分明。根据笔者参加近几年全国大学生英语四级作文阅卷的经验,中国EFL学习者在行文中偏爱使用诸如but、yet、while等转折连词来暗示前后文的关系,使逻辑层次一目了然。但值得一提的是,转折连词用得多有时并不能使文章层次更清晰,反而会让文章逻辑混乱,使文章意思不连贯,造成读者的理解困难。不过,本研究发现,相邻段落语义相似度及转折连词比两个自变量与机器分数的相关系数虽然有统计学上的显著性,但相关程度并不高,因此对分数的预测力十分有限。
本研究与白丽芳、王建(2018)的结果存在差异,后者发现相邻段落潜在语义重叠(即语义相似度)、相邻句子词干及论元重叠、连词及代词总数方面对大学英语四、六级作文机器分数具有解释力,高分作文需要具备更深层的语言特征如并非词汇的简单重复、上下文语义层次鲜明、利用代词指称避免概念的重复等。但该研究并未报道语篇衔接手段与机器分数的相关性程度。两项研究结果的差异可能是因为二者研究语料为中国EFL学习者在不同写作环境中产出的文本,本研究语料为非限时、低风险课后练习作业,而白丽芳、王建(2018)选取的是“中国学习者英语语料库”中限时、高风险的现场作文。此外,两项研究所采用的衔接性量化指标亦存在差异,本研究选取了Coh-Metrix中指称衔接、连接词及潜势语义分析3大维度的所有指标,而后者仅选取了5项指标。
本研究还发现,语篇衔接量化特征对AWE系统判断的高、低分作文的解释力存在差异,语篇衔接主要预测机器判断的低分作文。机器高分作文评分模型中仅包含相邻句子语义相似度平均数这一项衔接指标,该指标与机器分数呈负相关但并未达到统计学意义上的显著性,对分数的机器分数的解释力十分有限;附加连词比、相邻段落语义相似度平均数及转折连词比分别进入低分档机器分数的两个回归方程中,最高能解释14.9%的分数差异。除相邻段落语义相似度及转折连词比,附加连接词对低分作文有预测力,因为这些衔接词可以表达递进作用。低水平写作者限于词汇及句法知识的欠缺,往往利用较为机械的连接词如and、moreover、besides等串联文章,使文章的层次分明。同转折连词的情况类似,并非附加或递进的衔接词用得越多,文章的衔接性就越好、语篇越连贯。有些作者过多地使用and和but等连接性词汇,其文章意思仍然不连贯,从一个观点到另一个观点跳跃太大,过渡太突然。(王彩丽 2003)同样,进入低分组作文机器评分模型的3大预测变量与机器分数间的相关系数仍然较低,预测力不大。
总之,本研究发现大部分预测变量未进入回归方程,语篇衔接量化特征对机器分数预测力很小。这可能是因为一篇文章之所以优秀可能是因其词汇准确、复杂多样,或是句法准确、复杂多变,或是结构清晰,或是衔接连贯,或是观点新颖,或是论证充分,或是所有特征的组合。(白丽芳、戴春燕 2013)而语篇衔接只是反映文章质量的一小部分,是表征语篇连贯性的一个手段,因此优秀作文甚至可能跟语篇衔接量化特征并不存在显著关系。
有研究表明,人、机评分过程存在巨大的差异,机器评分更多地依赖浅层的量化值,对于复杂的语义、结构等无能为力,自动评分关注的只是细节,如连词数量、复杂词比例、主题词数量、句子平均长度等,并且将所有的指标量化,再根据权重计算文章得分。(白丽芳、王建 2018)然而本研究27项量化特征值多数无法预测机器分数,由此可以推断,国内该AWE系统在建立评分模型时较少考虑语篇衔接作为衡量写作质量的一大维度。为解释语篇衔接指标对机器分数预测力较小这一现象,本研究对该AWE系统的质性反馈和写作文本进行了仔细研究,结果发现该系统总体反馈均比较机械(如例<1>和例<2>);如例(1)和例(2)相对应的高、低分作文中主要使用了eventually、but和so等浅层连接词,甚至高分作文的主体部分中出现additionally一词3次,然而具体的按句子进行的点评中并未涉及任何有关语篇衔接的反馈,由此可以推断系统不注重语篇衔接手段使用的恰当性。本研究还发现机器反馈中主要包括文章的写作规范(如大小写、拼写及标点等)、词汇和简单句法的错误使用,以及词汇的辨析,很少涉及语篇的衔接及连贯方面的指导。
(1)文章用词灵活多样,高级词汇使用也比较准确;采用了适当的衔接手法,层次清晰;作者在句法层面做得很棒。(90分作文)
(2)作者词汇表达较多样灵活,也能较准确地使用高级词汇;增加一些从句的使用,文章会更不错;衔接词较不错,但文章结构不严谨。(66.5分作文)
语篇衔接是实现语篇连贯的重要手段,但自动反馈并未体现,AWE系统只会从浅层的语言特征来进行反馈,深层次反馈如语义的衔接等方面的指导较为欠缺。因此,本研究结果对AWE系统未来的开发与完善有一定的启示。随着自然语言处理等技术的不断发展,未来的系统开发者应注重针对衔接等语篇层面的深层次特征进行评分及提供更详尽的、更深层次的反馈,包括语篇衔接、词汇搭配、内容完善等各个方面,以更有效地提高学生的写作能力。
此外,本研究对写作教学也有一定的启示。首先,机器评分的效度目前仍然不高(白丽芳、王建 2018),因此一线教师应谨慎将机器分数融入形成性考核中。因为与写作质量不相关的概念也可能会影响机器评分,如有研究表明写作长度与机器分数相关度较高(Deane 2013),即文章越长,机器分数越高。为了迎合AWE系统,学生可能会故意将文章写长,而不注重文章的词汇、句法及篇章衔接的质量。其次,写作教学中教师不应完全依赖AWE系统,因为机器无法像人工评阅者那样读懂文章,无法更加全面地指导学生写作。有研究曾指出一篇作文在机器面前就是一包文字的简单堆积,作文和机器之间的关系是简单的刺激-反应的关系,机器只能对程序中已经设定的刺激做出反应。(Ericsson & Haswell 2006;白丽芳、王建 2018)AWE系统主要依赖浅层的量化特征,因此教师在教学过程中可以结合系统进行教学,文章的浅层错误如写作规范和词汇辨析等可以交由机器来处理,但深层次的语义、篇章的衔接与连贯、内容的展开等还需任课教师悉心指导。
本研究以非英语专业学生的一次非限时写作文本为研究语料,探究了语篇衔接相关的量化特征与机器评分的关系。研究表明,这些指标很少进入回归模型,对机器高、低分作文的解释力存在差异。总之,衔接性指标对作文的机器分数预测力较小,这也可以从AWE反馈的内容中得到印证。
本研究对未来AWE系统的开发与完善以及中国EFL写作教学有一定的启示作用。但值得一提的是,本研究仅利用Coh-Metrix中词汇衔接、连接词及潜势语义分析3个维度的27项语篇衔接指标作为自变量,并未考虑其他文本分析工具(如TAACO,The Tool for the Automatic Analysis of Text Cohesion)计算的其他衔接性指标;其次,本研究仅关注了语篇衔接的量化特征,并未探讨这些特征的质性特征(如语篇衔接手段使用的恰当性)能否预测机器分数,这也是语篇衔接研究领域中的一大空白。此外,本研究选取的作文样本为非英语专业学生产出的非限时议论文,未来研究者可针对不同学生群体在不同写作环境中(限时及非限时)产出的不同体裁的作文展开进一步的广泛研究。