【摘要】使用YiCAT翻译平台中的机器翻译引擎将《神经机器翻译》第一章的第一部分译成汉语,以此翻译结果为研究对象,总结出现频率较高的机器翻译错误类型,如在词汇层面的术语翻译错误、多义词误译、词性错译,句法层面的语序错误、从句错译、欠译,篇章层面的缺少衔接和逻辑混乱问题,并在此基础上提出改进方法,对机器翻译错误提出解决对策,以期为今后学术文本机器翻译譯后编辑研究提供借鉴。
【关键词】学术文本;机器翻译;错误探析;译后编辑
【中图分类号】H315 【文献标识码】A 【文章编号】2096-8264(2023)15-0113-03
【DOI】10.20024/j.cnki.CN42-1911/I.2023.15.036
近年来,随着大数据、人工智能等技术的发展,机器翻译逐渐成为关注的焦点。机器翻译是“使用计算机系统将文本或语音从一种自然语言自动翻译为另一种语言”[1]。但机器翻译的质量无法让人满意,且在垂直领域仅依靠机器翻译难以产出高质量译文,因而译后编辑环节必不可少[2]。本文选取的原文本属于学术文本,学术著作属于科学语言,它的功能是记录科学活动和学术思想,科学活动和学术思想的显著特点是概括性和抽象性,因此,相对于其他文本来说,学术著作的翻译在学术性方面提出了很高的要求[3]。近几年机器翻译越来越多地参与到学术文本的翻译过程中,相关研究也逐渐增多。因此运用计算机辅助翻译是翻译学术文本的一大趋势。笔者借助YiCAT翻译平台,采用Tencent TranSmart交互式机器翻译,以学术文本的机器翻译译文为例,总结学术文本机器翻译结果的高频错误,分析译文存在的问题并提出解决办法。
一、文献综述
国外对机器翻译质量研究已经有60多年的历史,例如:Garcia的Translating by post-editing:is it the way forward?Fiederer R和OBrien S的Quality and machine translation: A realistic objective。国外学者对译后编辑的研究有近20多年的历史,主要针对英德、英法互译等。
国内对该领域的研究也取得了一定的进展,例如:崔启亮、冯全功的《译后编辑研究:焦点透析与发展趋势》总结了译后编辑的研究现状,预测其趋势,为学界提供参考,但是,译后编辑在具体领域的应用研究鲜有谈及[4],且机器翻译系统对不同文本给出的译文质量也存在差异。比较典型的研究有罗季美和李梅的《机器翻译译文错误分析》,李梅和朱锡明的《英汉机译错误分类及数据统计分析》对汽车技术文献的英汉机器翻译错误进行归类分析。
从上述研究分析可以看出,目前对机器翻译学术文本的错误研究相对较少,本文将在对相关错误类型进行分析的基础上,提出相应的解决办法,以期提高学术文本译后编辑的质量。
二、理论基础:译后编辑
译后编辑是“检查和修正机器翻译的输出”[1],是指根据特定的目的对机器翻译的原始产出进行加工与修改的过程,包括更改翻译(语言)错误、提高机译产出的准确性与可读性等[5]。就目前机器翻译技术来说,自动翻译生成的译文质量对于参照原文进行理解一般还可以做到,但是还难以达到直接输出译文稿而无需人工润色的质量,所以后编辑处理在很多情况下必须使用[6]。
三、机器翻译错误类型及分析
本章着重分析使用YiCAT翻译工具过程中遇到的机器翻译错误,主要从词汇、句法、语篇这三个层面阐述。
(一)词汇层面
1. 术语翻译错误
例1原文:Fluency also involves picking the right content words when there are several possible synonyms available.
机器译文:流利还包括在有几个可能的同义词可用时选择正确的内容词。
译后编辑:流畅性还包括在有很多同义词的情况下选择正确的实词。
分析:学术文本中的术语较多,语义丰富,涉及的领域专业性较强,某些词汇既可以作为一般词汇又可以作为术语,而机器翻译系统有时难以辨别一般词汇和专业词汇。“content words”这个术语翻译错误,机器翻译没有采用通用译法,机器译文不符合英文表达习惯,通过查询术语在线网(http://www.termonline.cn),确定将该术语译为“实词”,符合学术文本中术语翻译的准确性。
2. 多义词误译
例2原文:Four score and seven years is not just any way to say 87 years.
机器译文:四分七年不是随便说的87年。
译后编辑:八十七年不是随便说的87年。
分析:同一个单词或短语经常有多种理解,多义词识别是自然语言处理中一个较难解决的问题。这里score不表示“分数”,而是“二十”的意思。译员在处理一词多义的问题时会根据上下文或具体语境选择恰当的含义,而机器翻译系统目前虽然具备一定的语境处理能力,但此例的语境有些难处理,原因在于score作为“分数”义与years都是名词,且前面都有数词,很容易理解为两个并列的名词结构,score作为分数义,前面也多跟数词,对于机器翻译来说很难辨认,如此机器处理起来困难很大。由于计算机自身存在局限性,不能像人脑一样灵活思考,在结合具体语境对文章进行分析的能力上还不足,往往会选用出现次数最多的那个单词意思,不能选择恰当的表达,容易出错。
3. 词性错译
例3原文:There is an extensive proliferation of tool kits available for research, development,and deployment of neural machine translation systems.
机器译文:可用于神经机器翻译系统的研究、开发和部署的工具包广泛扩散。
译后编辑:有大量的工具包可用于神经机器翻译系统的研究、开发和部署。
分析:在英译汉的过程中,我们一般会遵循汉语动词优势,将英语中的名词或名词词组译为汉语中的动词,但这要视情况而定,在翻译某些词汇时须保留其本来的词性。此例中,proliferation作为名词有“扩散、激增、大量的事物”等含义,在短语a proliferation of中意为“大量的”,而机器在处理该情况时无法辨别,从而错译。此处仍需将proliferation看作名词短语中的一部分,不改变词性来翻译。
(二)句法层面
1. 语序错误
例4原文:The data- driven methods that I discuss in this book are not able to match this performance.Yet.
机器译文:我在本书中讨论的数据驱动方法无法达到这种性能。还没有。
译后编辑:但是,我在本书中讨论的数据驱动方法无法达到这种性能。
分析:可以看出机器译文在语序安排上出了问题,不能使上下文合理衔接。Yet单独成句放在句尾,表转折,意为“但是”,然而英语和汉语的表达方式不同,汉语主要通过词序反映词义,根据汉语的逻辑思维和表达习惯,“但是”往往位于小句句首,此处需根据句子结构和内容,在形式上调整语序,作出变通,将Yet置于前面翻译,从而体现本句的逻辑层次,以符合汉语的行文表达习惯。
2. 从句错译
例5原文:Anybody who can read this book will be able to build a machine translation system that is comparable to the state of the art.
機器译文:任何人谁可以阅读这本书将能够创建一个机器翻译系统,可以与现有技术相媲美。
译后编辑:任何读过这本书的人都将能够建立一个机器翻译系统,可以与现有技术相媲美。
分析:机器译文的前半部分有误,机器翻译系统没有结合从句中的成分对应分析,只是按照原文顺序,逐个将单词的含义翻译出来,没有考虑到这是定语从句,未注意到定语从句和所修饰词“anybody”的关系密切,导致译文松散。此处应该将“who”作为定语从句的引导词,修饰前面的“anybody”,不必译出具体含义。虽然机器翻译系统多数情况下可以识别定语从句进行转换,但有时还会出错,说明机器翻译系统存在不稳定性仍需改进。
3. 欠译
例6原文:But there is more going on here.
机器译文:但这里还有更多的事情。
译后编辑:但对于这个问题还有很多需要阐述的内容。
分析:由于英汉语言表达的差异,翻译时容易出现语义空缺,机器翻译系统没有摆脱原文的句法结构,仅逐字一对一地翻译,使得译文表达不通顺,脱离语境。另外原文属于学术文本,语言凝练,但机器译文不符合学术文本的规范,不切合学术文本的语体,没有传达出原文的基本信息,未表达出作者要继续解释说明的意思。通过联系上下文,可以发现本句有承上启下的作用,是要对上文内容作补充,因此不能只翻译字面意思,而应将语义具体化,将作者想要说明的关键内容表达出来,使译文具有可读性,让读者清楚地理解原文含义。
(三)语篇层面
1. 缺少衔接
例7原文:The biggest obstacle to data-driven methods is sparsity.And it is worse than you may think.
机器译文:数据驱动方法最大的障碍是稀疏性。比你想象的还要糟糕。
译后编辑:数据驱动方法最大的障碍是稀疏性,这比你想象的还要糟糕。
分析:原文中And表示递进关系,是表达逻辑关系的手段,机器译文漏译and和it,使译文中前后两句的衔接显得生硬,译后编辑运用指示的方法,用“这”表示前面提及的事情,使语篇连贯。
2. 逻辑混乱
例8原文:So,a professional translator may decide to render this as the popular German news weekly Der Spiegel reported.
机器译文:因此,一个专业的翻译可能会决定翻译这一点,因为受欢迎的德国新闻周刊《明镜周刊》报道。
译后编辑:因此,一个专业译员可能会决定按照德国著名新闻周刊《明镜周刊》报道的那样,将其译为《纽约时报》,而非美国报纸《纽约时报》。
分析:语言的逻辑缺层是指不符合常规逻辑推理的语言表达,即在行文中没有形成完整的逻辑链[7]。此处机器翻译系统没有正确理解as的含义,扰乱逻辑层次,从而造成整句逻辑关系混乱,难以理解。这里as意为“按照……的方式”。机器译文具有模糊性,读者可能不清楚是按照《明镜周刊》报道的要求来翻译还是按照报道风格来翻译,具有歧义,结合上文提到的“据《明镜周刊》报道,直译可能会使美国读者对原文的可靠性产生怀疑”,为避免歧义,笔者做出修改,采用释义的方式来翻译。
四、未来建议
(一)优化机器翻译系统
在未来,机器翻译系统应努力朝向结合语境分析原文的方向发展,逐步解决机器翻译中的文化干扰问题,尽量扩大机器翻译系统所用的双语数据资源,小牛翻译创始人朱靖波表示要从少量数据中提高机器学习的泛化能力,解决数据稀缺的问题;从数据驱动扩展到知识驱动。
(二)实现人机结合
虽然机器翻译技术已经向各个领域逐步深入,节省了人力和时间,但是其译文质量仍有待提高,机器翻译并不能完全替代人工翻译,理想的做法是实现人机结合。首先,译前编辑不可忽视,对提高译文质量发挥着重要的作用。译前编辑是对句式、标点、词汇等作出适当调整,旨在尽可能降低机译的错误译文,提高机器译文准确度,其主要手段是:拆分长句、调整语序、代词替换、消除歧义、增删句子成分、同义词替换等[8],使机器翻译系统更好地识别和理解源语的含义。
再使用机器系统处理基本的工作,使译员对原文本的大意有基本的了解,再译后编辑,修改错误,逐步分析,进行译文的完善工作,提高译文质量和工作效率。另外,建立并不断扩充术语库及语料库,丰富语料资源,以提高匹配度。如此,将译前和译后的工作相结合,发挥机器翻译和人工翻译各自的优势,取长补短,减轻工作量,提高译文质量。
(三)提高译员素养,重视语言学研究
译員要有准确、快速发现机器翻译错误的能力,并能有针对性地提出修改建议。充分掌握源语和目标语,具备双语能力和转换文本的能力,实现英汉双语熟练转换。除了具备外语能力,对其他领域的专业知识也要有所涉猎。要重视对计算机语言学领域的研究,只依靠技术完善并不能从根本上解决机器翻译错误的问题,但在实际的研究过程中,人们的关注点往往在计算机性能创新和优化方面,从而忽视了计算机语言学方面的相关问题[9]。加大对语言学和翻译学方面的研究,培育语言学方面的人才,通过各方面人才的努力,推进翻译工作。
五、结语
综上所述,本文对学术文本的机器翻译英译汉文本进行分析,总结错误类型,并认识到随着市场需求的增加,翻译技术的进步,机器翻译的译后编辑在语言服务实践中发挥着越发重要的作用,为了发挥机器翻译的高效率,人工翻译的高质量,应该将机器翻译、人工译后编辑结合起来,而这将会是未来翻译发展的一大趋势。为此,我们需要不断总结机器翻译错误,加强译后编辑领域的研究和应用,合理选择译后编辑策略,不断改进译后编辑工作。相信日后机器翻译技术会继续发展完善,译文准确度会日益提高。
参考文献:
[1]崔启亮.论机器翻译的译后编辑[J].中国翻译,
2014,35(06):68-73.
[2]郭望皓,胡富茂.神经机器翻译译文评测及译后编辑研究[J].北京第二外国语学院学报,2021,(05).
[3]刘英.英语学术著作的汉译策略[J].中国科技翻译,2014,(02):8-11.
[4]冯全功,崔启亮.译后编辑研究:焦点透析与发展趋势[J].上海翻译,2016,(06):67-74.
[5]吴萍.外宣翻译的译后编辑[J].海外英语,2018,(13):133-134.
[6]赵铁军等.机器翻译原理[M].哈尔滨:哈尔滨工业大学出版社,2000:9-10.
[7]吴迪龙.科技英语文章中的逻辑偏移及其汉译处理[J].中国科技翻译,2015,(4):1-4.
[8]冯全功,李嘉伟.新闻翻译的译后编辑模式研究[J].外语电化教学,2016,(06):74-79.
[9]安帅飞,邵桢贻.汉英小说体机器翻译评测分析[J].文学教育(上),2019,(07):136-137.
作者简介:
谢晓璐,女,山东烟台人,青岛大学外语学院在读硕士研究生,研究方向:英语笔译。