裘白莲
(华东交通大学 外国语学院,南昌 330013)
近年来,随着神经机器翻译(Neural Machine Translation,NMT)性能极大提升,机器翻译从相对边缘的地位逐渐成为翻译研究中的热点。为了解机器翻译系统的性能,评估机器翻译在多大程度上可用,需要对机器翻译译文质量进行评估。机器翻译质量评价主要有人工评价和自动评价两种方法。人工评价一般采用打分和排序的方法。自动评价是使用自动评价指标对机器译文进行评价,一般需要有参考译文。也有不需要参考译文的自动评价方法,即机器翻译质量估计,近年来有不少研究。常用的自动评价指标包括基于n元文法准确率的BLEU、基于一元文法准确率召回率和额外语言知识的METEOR、基于编辑距离的TER等。人工评价的优点是准确性好,但人力和时间成本较高,周期较长,不易获得,不利于研究人员快速了解机器翻译系统修改后质量变化情况;此外,人工评价还存在评价者一致性不高的问题。自动评价的优点是速度快、成本低,但其准确性依赖于参考译文的质量。
人工评价和自动评价都很重要,都为机器翻译系统提供了有用的信息,帮助系统持续改善,但其都只是对机器翻译系统的整体表现做整体评价,无法反映机器翻译系统存在的具体问题,无法提供机器译文中不同错误类型和错误性质等的具体信息。而这些信息对于了解和改善机器翻译系统大有裨益。要了解这些信息,就需要进行机器翻译错误分析。错误分析可以找到机器翻译系统存在的具体问题,了解其不足与短板,为其改进找准方向。近十几年来,机器翻译错误分析在国外机器翻译研究领域受到重视,出现很多相关研究。本文通过搜集和梳理自然语言处理、机器翻译等相关领域的期刊和会议论文,介绍错误分析相关研究的进展情况。机器翻译研究成果往往在相关国际会议上发表,主要包括ACL、EMNLP、WMT、EAMT、AMTA、LREC等。本文搜集的文献主要来源于这些会议以及其他相关期刊。本文拟从以下三方面介绍错误分析相关研究:错误分类框架、自动错误标注、错误分析应用。
错误分析起源于20世纪60年代中介语相关研究,主要应用于分析学习者语言,研究内容包括错误的分类、错误的描述和解释、错误产生的原因等。在机器翻译研究领域中,错误分析指的是识别机器译文中的错误并对错误进行分类。
错误分析的过程一般包括定义错误类型,识别错误并进行错误标注,依据错误标注结果进行分析。定义错误类型并不容易,原因在于:错误类型需要反映机器翻译系统的优缺点;需要考虑语言对,不同语言对机器翻译的错误类型有很大不同;错误分类的粒度问题也很重要,粒度越细,提供的信息越多,但细粒度错误类型也更难区分;最后,错误类型既要覆盖语言层面的问题,又要覆盖翻译层面的问题。在错误分类方面,研究者做了很多尝试,定义了不同的错误类型。以往的研究中,错误分类主要基于三种方法:基于词级别对比的分类、基于语言学知识的分类和基于译后编辑操作的分类。
基于词级别对比的错误分类建立在机器译文与参考译文在词级别对比的基础上。Vilar等首次专门进行错误分析研究,提出一个人工错误分类的框架,如表1。[1]该错误分类影响广泛,后来很多研究者或直接使用,或在此基础上修改和扩展。
表1 Vilar等提出的错误类型[1]
基于语言学知识的错误分类方法从语言学角度出发,按照不同语言层次对错误进行分类。Farrús等提出语言学错误分类,包括正字法、屈折、词汇、语义和句法错误,考察语言学质量评价是否与感知质量评价相一致。[2]Costa等按照错误所在的语言层次将错误分为五个级别:正字法、词汇、语法、语义和语篇,提出一个基于语言学的细粒度错误分类,如表2。[3]
表2 Costa等提出的错误类型[3]
国内错误分类通常采用基于语言学的方法,关注语言学层面的错误,包括词汇、句法等。[4]罗季美、李梅通过华建英汉翻译系统获得汽车技术文献的机器译文,从近10万个句对的机器译文和人工译文中,抽样1000句,进行错误分类,分为词汇、句法、符号三个一级错误,下面细分二级错误。[5]罗季美专门针对机器译文中的句法错误进行标注和统计,包括名词短语、动词短语、介词短语等。[6]
译后编辑和错误分析是高度相关的工作,错误分析是识别错误,译后编辑是纠正错误。每个译后编辑操作实际上都是在纠正错误,因此可以把译后编辑操作标注为一种错误类型或编辑类型。Blain等从译后编辑实际操作的角度,将译后编辑过程中所进行的一套最小的逻辑编辑单位定义为译后编辑行为(PEA),其错误分类见表3,其研究发现大部分编辑操作产生于名词意义。[7]
表3 Blain等提出的错误(编辑)类型[7]
还有一些研究使用综合的错误分类,如崔启亮、李闻等。[8]由于研究目的、分类基础和应用场景等不同,错误分类也有很大的不同。目前还没有统一的、可以适用于各种语言对和各种应用场景的分类框架。
和机器翻译人工评价一样,人工错误标注也耗时耗力,且存在标注者一致性不高的问题。因此不少研究者研究以自动的方法对错误进行分类和标注。自动错误标注是按照一定的错误分类,自动识别和标注错误类型。已有的自动错误分类工具主要基于两种方法,一种是基于单词错误率(WER)和位置无关单词错误率(PER)的自动错误分类,另一种是基于机器译文和参考译文对比的自动错误分类。
Popović等通过WER和PER的差异获得名词、形容词和动词的词序和屈折错误信息。[9]Popović&Ney 提出基于WER和PER的完全自动的错误分析框架,自动识别屈折错误、词序错误、漏词、增词、不正确选词等五种错误类型。[10]Popović开发自动错误分类和标注工具Hjerson,可以自动标注五种错误类型,屈折错误、词序错误、漏词、增词和错词。[11]
将机器译文和参考译文在词级别上对齐,将两者做比较,可以自动获得机器译文错误的信息。Zemen等开发自动错误识别和标注工具Addicter,将机器译文和参考译文词对词对齐,发现其不同之处。[12]该工具可以自动检测和标注六种错误类型,包括增词、漏词、形式错误、词汇错误、标点符号错误、词序错误。
还有一些从不同角度进行的自动错误标注的研究。Kirchhoff等提出半自动错误分析的方法,通过自动或人工的方法提取源文特征,如来源、体裁、风格、方言等,在篇章层面计算源文特征与HTER之间的互信息,研究哪些源文特征更容易引起翻译问题。[13]Stymne开发工具BLAST,提供方便使用的图形界面,辅助人工进行错误标注。[14]其他用于错误标注的工具包括PET、Appraise、COSTA、MT-EQuAl等。
早期的自动错误分类只能对一个词给予一个错误标签,但实际上有时很难判定一个词到底属于什么错误类型,而且有时一个词存在不止一种错误,比如错词可能同时也是词序错误。鉴于此,Popović等扩展自动错误分类方法,对一个单词标注多个错误类型标签,提高自动错误分类的准确率。[15]
自动错误标注工具目前还不能识别细粒度的错误类型,而且容易混淆错词、漏词和增词错误。尽管有这些缺点,自动标注工具仍然很有用,使在短时间内大规模地进行错误分析成为可能。可见,自动错误标注工具的研究具有很好的实用价值,在识别错误类型的粒度、精度等方面,还有很大的进步空间。
除了对错误的词进行分类和标注,错误分析还可以以其他方式进行,如分析与参考译文不匹配的词、词性或其他序列,对机器翻译的时态、体和情态错误进行错误分析,定义语言学范畴并专门针对这些语言学范畴进行错误分析等。
错误分析产生于机器翻译质量评价,同时也被应用于其他研究,如错误类型与人工评价相关性研究,译后编辑相关研究等。
错误分析最初就是用于诊断目的,在不同语言对和不同领域,对机器译文进行错误标注,根据错误数量和错误分布情况,评价机器翻译系统的翻译质量。错误分析可以用来评价某一个机器翻译系统,也可以对几个不同的机器翻译系统进行对比和评价。
2016 年NMT 出现使机器翻译性能极大提升,相比传统的RBMT 和SMT 在哪些方面有提升,NMT 在哪些方面存在不足,这些问题引起了研究者的兴趣。Bentivogli 等发现,与PBMT 相比,NMT 整体上需要的译后编辑努力更少,在词汇、形态和词序错误方面有了极大改进,但是其翻译质量随着句长增加而快速下降。[16]Toral&Sanchez-Cartagena 使用WMT2016 的数据,对NMT 和PBMT 进行多方面的对比和评价,包括六个语言对的九个翻译方向。[17]他们在形态屈折和词序方面得到类似的结论,发现随着句长增加,NMT 性能急剧下降。Burchardt等通过人工构建的、反映多种语言现象的测试集,对RBMT、PBMT和NMT进行比较和评估,发现NMT 相比于PBMT 有显著改进。[18]Klubicka 等发现,NMT 比表现最差的PBMT 系统错误减少54%。[19]Calixto&Liu对基于图像的多模态神经机器翻译进行错误分析,发现多模态神经机器翻译相比纯文本神经机器翻译,各种类型的错误都有减少。[20]Ye&Toral 针对英中翻译方向,对基于Transformer 和RNN 两种不同方法的NMT进行比较,对WMT2019新闻测试集进行细粒度错误分析。其研究表明,基于Transformer的NMT比基于RNN的NMT错误总数减少31%。[21]
在错误分析语料库的建设方面也有不少进展,出现了一些可公开获得的错误分析语料库。例如,TRACE语料库包含法英、英法译后编辑译文,其中有基本编辑距离错误类型的标注。还有Terra语料库、TARAXü语料库等。这些错误分析语料库为相关研究提供了数据基础。
错误分析比人工评价和自动评价提供更多细节的信息,能更直观、准确地评价机器翻译质量,对于深入了解机器翻译系统的性能和不同机器翻译系统的差异有重要作用。
错误分析丰富了传统的机器翻译质量评价框架,也产生了一些有趣的研究问题,包括错误类型与人工评价的关系,错误类型与自动评价指标敏感性的关系。人工评价和自动评价在很大程度上是“黑盒子”过程,人们对其评价的机制还不是很了解。比如,人工评价和自动评价主要受什么因素的影响,错误的频率和错误的类型哪个对其影响更大,不同错误类型或各种错误组合对其产生什么影响等。
Farrús等将语言学质量评价与传统人工评价即感知质量评价相比较,考察哪些语言错误类型对感知质量评价有更多影响。[2]Popović&Ney分析了单个或所有错误频率与自动评价分数之间的相关性。[10]这两项研究使用两种不同的错误分类,两者都表明错误的总数与BLEU和TER值的相关性高。Kirchhoff等使用联合分析法,将错误类型及其频率作为特征,研究使用者对机器翻译不同类型错误的直觉或情感偏好问题,研究结果发现词序错误是最不受喜欢的错误类型,其次是词义、形态和功能词错误。[22]
Lommel 等(2014)从描述的角度探索了不同错误类型、频率与人工质量判断之间的关系。[23]这两项研究都基于一个假设,即出现频率最高的错误类型对人的质量感知的影响最大,但是这种假设未经证实。Federico等使用线性混合效应模型,考察错误类型与人工质量判断的相关性。[24]其研究发现,某种特定错误类型的频率与人的偏好不相关,漏词对感知质量评价的影响最大,每种自动评价指标对不同错误类型的敏感性具有显著差异。
随着机器翻译的发展,机器翻译得到普遍应用,对机器译文进行译后编辑(MTPE)越来越成为人机合作翻译的普遍形式。机器翻译的质量与译后编辑努力直接相关,一些研究试图探究不同错误类型与译后编辑努力不同层面的关系。Krings将译后编辑努力(post-editing effort)分为三个层面:(1)时间努力;(2)认知努力;(3)技术努力。[25]时间是指译后编辑所需的总时间。认知努力包括识别机器译文中的错误、计划如何改正错误的必要步骤。技术努力即实际编辑操作,指产生译后编辑译文所需的击键操作和复制粘贴操作。译后编辑时间是认知努力和技术努力的总和。这三者之间并不一定是一致的。有的错误容易识别,需要的认知努力少,但是需要较多技术努力才能改正。有的错误需要极大的认知努力,但需要的技术努力可能很少。Koponen使用编辑操作分类,考察各种错误类型所需译后编辑技术努力和认知努力不一致的情况,研究发现句长影响认知努力,词序错误更难修改,屈折错误容易修改。[26]
Popović等考察五种编辑操作类型(修改词形错误、修改词序错误、增加漏词、删除增词、修改选词错误)与认知努力和译后编辑时间的关系。[27]研究发现,修改错词和词序错误的编辑操作需要的认知努力最多,修改错词所需要的译后编辑时间最多,删除增词对译后编辑认知努力和时间影响都很少。Zaretskaya等研究哪些错误类型更难进行译后编辑,带给译后编辑者更多挑战。[28]Daems 等使用基于产品的译后编辑工作量指标HTER和基于过程的指标如注视时长、注视点数、(平均)停顿率、译后编辑时长、产出单元,识别对译后编辑努力影响最大的机器翻译错误类型,发现不同错误类型影响不同的译后编辑努力指标。[29]
还有一些研究关注到译后编辑教学方面。Koponen&Salmi 分析翻译专业学生在没有源文情况下,对英芬机器翻译进行译后编辑的译文,就PE译文意思的正确性和语言的正确性进行分析。[30]Koponen&Salmi使用五位翻译专业学生对英芬机器翻译译后编辑的译文,分析译后编辑操作的正确性和必要性,研究发现,大部分编辑操作是正确的,但是34%的编辑操作是不必要的。[31]Koponen 等分析翻译专业学生对NMT、SMT、RBMT 三种机器翻译系统的机器译文进行译后编辑的译文,考察不同机器翻译系统所需的编辑操作的差异。[32]Yamada研究谷歌神经机器翻译对学生译员译后编辑的影响。[33]这些研究有助于了解学生译员进行译后编辑时面临的问题和困难,提高译后编辑教学的针对性。目前这方面的研究还不多,有必要进行更多、更深入的探讨。
通过综述近十几年来国外机器翻译错误分析相关研究成果,相关研究已经初步形成了基本的分析框架,并在这些框架下对相关问题有了一定程度的研究。整体来看,相关研究角度多样,研究内容丰富,研究方法新颖,有诸多可借鉴之处,为进一步研究提供了很好的参考。但就错误分析的复杂性和多样性而言,当前的相关研究整体上仍然处于探索阶段,仍然存在一些不足之处:错误分析的数据有限导致其结论无法一般化,自动错误标注还无法识别细粒度错误类别,错误分析结合译后编辑研究还不够,对于翻译教学的关注还远远不够。通过比较思考,并联系当下问题的特点,笔者认为,我们可以从以下四个方面做出新的探索和突破。
由于不同语言之间差异大小不同、双语资源不均衡,不同语言对机器翻译系统发展程度不同,导致不同语言对机器翻译错误情况存在很大的差异,因此某一个语言对的错误分析结果不一定适用于其他语言对。此外,错误分析的数据通常比较有限,可能无法代表普遍性的问题。因此,后续研究需要在更丰富的语言对、更大数据上进行多方验证。机器翻译研究发展迅速,翻译模型、翻译技术更新很快,错误分析需要紧跟机器翻译研究的发展,以提供及时、有效的反馈。
错误分析要及时为机器翻译提供诊断和反馈,就需要提高效率,因此,自动错误识别和标注的研究很有必要。自动错误标注工具可以代替或辅助人工来进行错误标注,极大提高错误分析的效率。目前自动错误分析的研究还较少,自动识别和标注的错误类型比较有限,而且局限于对少数语言对机器翻译的错误分析。未来在自动错误标注的粒度、语言对等方面的研究仍然有很大的发展空间。
错误分析和译后编辑是高度相关的工作,译后编辑所需的工作量与MT系统所产生的翻译错误之间有明显关联。不同的MT错误类型对译后编辑努力产生什么影响,其对译后编辑时间、认知努力、技术努力的影响是否存在差异,不同错误类型对译后编辑认知资源分配产生什么影响,哪些错误类型更难进行译后编辑,MT错误对译后编辑努力具有多大预测能力,等等。目前对于这些问题还没有很充分的研究。
错误分析能找出机器译文存在的问题,发现错误类型的数量和分布情况,有助于译后编辑人员熟悉和了解机器翻译系统,总结错误模式,总结改正错误的技巧和方法,提高译后编辑工作的效率。其同样可以为译后编辑教学提供参考,培养更了解机器翻译的翻译人员。目前的错误分析研究很少结合翻译教学,很少关注译后编辑人员的培养,而高校也鲜有专门的译后编辑课程,造成译后编辑人才培养与市场需求脱节。将错误分析研究的成果应用于教学意义重大,对于培养译后编辑人员具有很好的指导性,未来需要加强这方面的研究。
本文旨在通过对机器翻译错误分析研究现状的总结和发展趋势的展望,为相关研究提供新视角新方法。与国外机器翻译错误分析研究相比,国内的错误分析研究的范围和内容相对较窄,具有以下几个特点:通常采用基于语言学的错误分类方法;独立于机器翻译系统;以实例分析、纠错方法探讨为主要内容;数据量较小,观察的样本有限。错误分析是一种重要的机器翻译质量评价方法,为机器翻译系统开发提供反馈,推动机器翻译研究的发展,并在其他相关研究中具有很好的应用价值。由于其复杂性和多样性,错误分析研究存在多种发展和创新的可能,在机器翻译研究和应用中仍将发挥重要作用。