谷歌神经翻译器英译汉过程中的词义排歧问题

2019-04-29 06:29:18
福建质量管理 2019年9期
关键词:信函歧义词义

(四川大学 四川 成都 610207)

一、背景介绍

机器翻译这个话题在翻译界备受关注,人工智能的应用使得机器翻译输出的译文质量大有提升。因此译者应该充分认识到机器翻译的重要性,了解机器翻译并让其为我们所用。提升机器翻译译文质量面临的一大挑战便是词义排歧,一个机器翻译软件译文质量的好坏基本取决于其词义排歧的能力。许多学者们也着眼于此,期望提升翻译器的词义排歧能力。

功夫不负有心人,机器翻译在某些领域的排歧能力已可媲美人工翻译,例如实时天气预报、金融新闻报道以及软件本地化手册。于2016年发布的谷歌神经翻译器也在词义排歧问题上有了重大突破。据谷歌发表的论文称,比起之前基于短语的翻译器,谷歌神经翻译器在很多语言对翻译中平均减少了60%的错误率,与人工翻译结果越来越接近。虽然它还是会出现一些人工翻译不会出现的问题,在排歧方面也还不尽完美,但考虑到语篇的组成成分,歧义在一定程度总是伴随着语篇存在的。而且开发机器翻译的初衷是为了辅助译者更高效地进行翻译工作,而不是为了取而代之。多数翻译工作者仍将会是机器翻译词义排歧能力提升的受益者。

二、研究目的及方法介绍

本文选取了数个文本来探索谷歌神经翻译器在排歧方面的表现及错误规律,通过对比分析推论出其所擅长翻译的文本类型,并提出一些可行的方法来提升其词义排歧的表现。基于在该领域应用机器翻译的可行性和实用性的现实考量,本文所选取文本为商务信函和商务合同。商务文本专业,严谨,凝练和实用的特点奠定了运用机器翻译的基础。既然要分析译文质量,便要有一套可量化的分析标准,学界提出了多种用于分析译文质量的标准,例如豪斯的翻译质量评估模式。但考虑到此处是用于分析机器翻译译文质量,简单的分析标准便足够。因此本文融合了严复所提出的“信达雅”以及奈达所提出的“功能对等”理论。由于商务文本的目的是准确专业地传达译文信息,因此结合其翻译目的,本文用于分析谷歌神经翻译器英文质量的标准为“信”,“达”,以及“术语对等”。

三、歧义与词义排歧

歧义是自然语言中存在的普遍现象。对机器翻译来讲,如果处理不好词义排歧问题,那么输出译文的质量肯定是堪忧的。在英译汉过程中,我们面对的歧义主要分为两大块:语义歧义和句法歧义(杨良生,1994)。语义歧义主要来源于词义选择问题,可进一步分为词汇歧义和语法歧义。而机器翻译主要处理的是词汇层面的歧义。

机器翻译技术已现世60多年。而词义排歧问题仍是制约其发展的瓶颈。词义排歧这一概念是由Weaver在一场机器翻译大会上首次提出的。他指出,若要使机器习得人类辨别词语歧义的能力,那么机器必须要会如何在特定语境下选择某一词汇的正确含义。语境是影响机器词义排歧性能的最主要因素。国内外学者提出了多种模型来解决词义排歧问题。有的模型在进化过程中被淘汰了,例如最大频率法(most frequency approach)和选择限制法(selectional restriction approach),有的模型经历了时间的考验留存了下来,例如基于语料库法(corpus-based approach)以及统计法(statistic methods)(冯志伟,2004)。

谷歌神经翻译器的词义排歧模型为监督式学习法,通过引入人工智能技术,将文本标记并经过一系列试错过程来提升其译文质量。这便是所谓的深度学习。机器将通过反刍被标记的文本,达到修正输出译文质量的目的。

四、结果及分析

(一)商务信函排歧错误规律分析

商务信函是与商业伙伴建立联系的一种方式。它比日常收发的电子邮件更为正式。但是,它的正式度又次于商业合同。商务信函特点是简洁凝练,较为专业,使用商业术语,但应注意其礼貌用法。

笔者选择了3封商务信函,一封用于建立业务关系,一封用于询盘,一封用于报价。对比译本为人工翻译的正确版本和谷歌神经翻译器处理的译本。收集数据阶段,本文作者对所选文本按句子数量进行了标注,以便追溯出错之处。但由于本论文篇幅有限,具体的数据结果无法一一列举。文章将直接呈现总体的错误数量及其类别。错误类别按照英文词性以及商务文件术语划分为名词排歧错误、动词排歧错误、形容词排歧错误、术语排歧错误、代词排歧错误、介词排歧错误以及短语排歧错误。

在商务信函中选出了57个单词和短语,谷歌神经翻译正确的为8个,错误分别为12个名词,9个动词,8个形容词,7个术语,5个代词,4个介词,4个短语。

名词排歧错误与单词的一词多义密不可分,谷歌在特定语境中没有选择出正确的单词含义;动词排歧错误主要与文本本身的流畅性和全面性有关,谷歌翻译的版本让人很费解;形容词排歧错误是由于语境疏忽而造成的;介词排歧错误是谷歌无法确定介词在句中的成分;谷歌由于缺乏商业知识背景而造成了商业领域常见的代词,术语和短语的排歧错误。

(二)商务合同排歧错误规律分析

商业合同具有法律约束力,专业度和严谨度高,结构复杂,夹杂各种长难句和复合句。语言特点正式,使用商业术语,古英语,如“hereby,hereunder,and thereafter”。因此,合同翻译需要大量商务领域的知识。出于同样的原因,如果机器可以习得商业方面的知识,它将有可能比人工翻译更加高效。

本文节选了一些商务合同片段,对比译本为人工翻译的正确版本和谷歌神经翻译器处理的译本。收集数据阶段,本文作者对所选文本按句子数量进行了标注,以便追溯出错之处。但由于篇幅有限,本文将直接呈现总体的错误数量及其类别。

在商务合同中选择了82个单词和短语,其中谷歌神经翻译正确的为17个。排歧错误分别为16个名词,9个动词,8个术语,6个短语,7个形容词,5个副词,4个数字表达,4个古英语,2个介词,2个连词和2个代词。

名词排歧错误主要与词语本身一词多义的特点及其在商业合同中的恰当含义有关,其中谷歌翻译的版本未能识别词语在特定的语境下的正确含义,并且达不到商业合同所要求的正式度;动词排歧错误主要与单词本身含义不定和文本本身的全面性有关,谷歌翻译的版本完全错误,或与商业合同的背景不符;形容词排歧错误也是对合同背景知识的缺乏造成的;介词排歧错误在于谷歌无法确定介词在句中的作用,它便直接略译了此类介词;商业合同领域的代词,术语,古英语的排歧错误主要在于谷歌商业知识的缺乏。

(三)分析对比结果

为了便于更直接的对比两类文本的排歧错误,笔者制作了以下图表:每个排歧错误率的计算方法为该类排歧错误数除以词语及短语总量。

排歧错误率(%)名词 动词 术语形容词代词副词数字连词介词古英语正确短语商务信函21.015.812.314.08.80007.0014.07.0商务合同19.510.89.89.82.46.14.92.42.44.920.77.3总计20.112.910.810.85.03.62.91.44.32.918.07.2

通过对比分析发现,两种文本类型的排歧错误存在相似之处:

商业信函和合同中名词和动词排歧错误率都属最高;排歧错误主要出现在实义词中:名词,动词,形容词和代词,因为实义词是文本用于传达信息的主要手段。由于缺乏术语消歧能力,信函和合同的术语排歧错误率都相对较高。例如,商业信函中的“quote,enquiries 和 By L/C at sight”应翻译成“报价,询价,即期信用证”,而在商业合同中,“documents,negotiation / collection”应该翻译成“单据,议付/托收”。

两种类型的排歧错误也存在差异:

不同类型的文本中收集的排歧错误词表现出不同的特征。商务信函中的排歧错误较为简短,商务合同出现的排歧错误较为冗长复杂,这是两者现实句子结构差异造成的,商务信函用于业务往来,清晰和简洁是关键;商业合同用于名列法律陈述,需要注重形式和细节,复杂的长难句是常态,使得谷歌难以识别语句序列,从而影响谷歌翻译在两类文本中的排歧表现。

分析上表可知,商业合同的词语排歧准确率为20.7%略高于商业信函的14.0%,这是因为谷歌擅长具有一定规律性的文本的词义排歧,尽管合同句子结构复杂,但有规律可循,所以谷歌神经翻译器能够在其数据库中找到匹配的语义;与商业合同相比,商务信函正式度大大降低,因此谷歌数据库中可能无法查找出完全匹配的语义。

就术语排歧而言,谷歌在商业合同语境中的排歧正确率较高,因为商业合同创造了更加商业化的语境,相比之下,商业信函的语境更难确定,使谷歌对术语的排歧能力降低。因此可以推论,谷歌更擅长专业性较强文本的语义排歧。

代词排歧错误与商务信函的礼貌原则有关。因此,信函中使用的代词,例如“you,your”应该翻译成“贵公司,贵方”,而不是“您,您的”。相较而言,商业合同中的代词错误没有这样的特征。

就副词和形容词排歧错误而言,多数错误是由于谷歌未能识别单词在特定语境中的正确含义。这其中仍然有一些规律可循,例如,单词“any”的排歧错误中出现了4次,而形容词总共的排歧错误为7个,同一句子中出现的相同错误不予考虑。多数情况下,谷歌都无法进行有效正确的排歧。

就介词排歧错误而言,谷歌的漏译便是错误的根源。在商务信函中的4个介词排歧错误中,有3个是由漏译引起的,而合同中的2个介词排歧错误都是由于漏译造成的。此外,在排歧错误中还出现了文本特定的错误,例如商业合同特有的古英语词和数字错误。

五、结论

根据上述论证、比较和分析,本文得出一个明确的结论:谷歌神经翻译器更擅长专业性强的文本语境下的词义排歧。谷歌在不同词性词义排歧中表现出不同的规律。因此研究者可以通过加强谷歌对边缘语境的识别能力以及增加对介词用法训练的语料库,来提升谷歌神经翻译的词义排歧性能。

这项研究仍有其局限性。由于时间和空间不足,本文的分析样本受到限制。因此,论文可能不足以用来推翻当前的机器翻译系统。但是,笔者希望学界能够对此进行深入研究,改善商务文本英译中的译本质量问题。

猜你喜欢
信函歧义词义
西夏语“头项”词义考
西夏研究(2020年1期)2020-04-01 11:54:26
eUCP条款歧义剖析
中国外汇(2019年12期)2019-10-10 07:26:58
词义辨别小妙招——看图辨词
朱自清致逯钦立信函之五(1942.10.28)影印件
朱自清致逯钦立信函之四(1945.6.25)
English Jokes: Homonyms
现代英文商务信函的个性化写作风格初探
“那么大”的语义模糊与歧义分析
字意与词义
语言与翻译(2014年3期)2014-07-12 10:31:59
1935年4月4日梅贻琦致剑桥大学研究生处的信函