三款机器翻译译后编辑工具对比研究*

2023-11-23 07:50刘微微谢雅竹
中国科技纵横 2023年19期
关键词:引擎术语页面

刘微微 谢雅竹

(中国民用航空飞行学院,四川广汉 618307)

0 引言

神经网络翻译的出现和快速发展为语言服务行业带来了挑战和机遇。近年来,随着机器翻译质量的稳步提升,市场对机器翻译+译后编辑(MTPE)的应用频率和接受度越来越高,据中国翻译协会发布的《2022 中国翻译及语言服务行业发展报告》[1]显示,“机器翻译+译后编辑”服务模式得到市场普遍认同,超九成企业表示,该模式能提高翻译效率、改善翻译质量和降低翻译成本。与此同时,国内外学者们对MTPE 的关注度也不断提升,从多个角度对译后编辑进行了研究。当前,关于译后编辑的研究主要集中在译后编辑概述[2-6]、机器翻译错误类型[7]、译后编辑模式探索[8]、译后编辑能力模型构建[9]、译后编辑效率影响因素探析[10-11]、译后编辑过程[12-13]、译后编辑人才培养[14-17]、影响译后编辑难度的因素及测量方法[18]等。

不过,截至目前,除周兴华、李懿洋[19]考察了4 款主流CAT 工具的译后编辑功能,提出译后编辑研究和教学应更多探索翻译软件环境外,涉及机器翻译译后编辑工具环境或平台的相关研究并不多。但实际进行译后编辑时,使用什么样的平台工具常常是译员首先需要决定的,工具是否与当前任务要求匹配,如任务内容是否有保密需求、是否需要多人实时共享、调用什么样的机器翻译、能否同时参考已有的语料库等,合适的工具平台有助于提升译后编辑的质量和效率,反之亦然。

随着技术的不断发展,能提供机器翻译译后编辑环境的不仅是MemoQ、Trados Studio、MateCat、YiCAT 等桌面或云翻译CAT 软件,其他集成多个机器翻译引擎的工具,如LanguageX、GT4T,由于轻量级、使用便捷的特点正受到更多译者的青睐。“工欲善其事必先利其器”,一款合适的MTPE 工具能大大有助提升效率和保证译文质量,起到事半功倍的作用。因此,针对特定的翻译任务,应选择最合适的工具平台,以帮助用户最大化利用MTPE在翻译效率和输出质量上的优势。基于此,以参与的民航《风险管理手册》翻译实践为例,选择3 款使用稳定、同时集合多个翻译引擎的工具,即YiCAT、LanguageX 和GT4T,从初始项目创建、译后编辑过程、语料资产管理3 个阶段对比分析不同平台的异同和优劣,以期为在该领域的应用发展和研究提供一定参考和借鉴。

1 工具介绍

选择对比的3 款工具的共同特点是,均由国内公司开发,使用界面语言友好且稳定快捷。3 款工具本身聚合多款主流机器翻译引擎,能最大程度适用于MTPE 模式工作。

1.1 YiCAT

YiCAT 在线翻译管理平台(https://www.yicat.vip/)是由上海一者信息科技有限公司自主研发、基于语料大数据的在线翻译管理平台,也是目前国内知名度较高的一款云端CAT 工具,平台使用稳定、操作界面用户友好。除提供桌面CAT 工具的基本功能外,还具备实时协同、译审同步等在线平台的独特优势,在MTPE 方面也是特色明显,曾提供CAT 插件供习惯使用Trados、MemoQ 等桌面CAT 工具的用户调用机翻,可以不用申请API 接入不同机翻结果。现在插件功能已经下线,但该公司自身平台足以满足在CAT 中使用MTPE 的需求,近来还推出了根据每个句段自动优选机翻结果、机翻对比工具箱以及为每个句段的机翻质量自动打分等功能,通过人工智能算法的加持,在MTPE 方面愈发友好。

1.2 LanguageX

LanguageX(https://languagex.com/)由甲骨易(北京)语言科技股份有限公司开发,在2022 年9 月落下帷幕的 “WMT2022 国际机器翻译大赛”上,LanguageX 机翻引擎由于一举斩获英中翻译方向冠军、中译英第3 名、英译日第3 名的成绩而受到关注。LanguageX 推出的AI 辅助翻译工具平台,不仅提供自主研发的LanguageX 引擎,也有包括微软、DeepL、百度等多款通用和垂直领域引擎,以及允许译者快速上传语料和训练自己的翻译引擎。这款云端工具支持在网页直接快速创建项目、调用机翻进行译后编辑,是一个基于AI,将辅助翻译、机翻引擎管理、AI 工具箱合而为一的新一代译者工具。

1.3 GT4T

GT4T(https://gt4t.cn/)由自由译者曹首光最初于2009 年开发,长期以来在国外市场拥有大量用户,近两年在国内逐渐为不少职业译员认识。国外用户评价其为“这是我很久以来买的最好的软件”“如果没有GT4T,将再次回到石器时代”。总体而言,GT4T 是一款运行于本地电脑上的应用软件工具,聚合了30 余种主流机器翻译引擎,可以处理包括Office 或桌面出版文档在内的20 种文件类型,也可以用于翻译Trados 或其他CAT 项目。该工具轻便小巧、功能多样,主要通过拖拽、上传、快捷键组合等方式使用,由于其不受文档限制、可随时在本地调用,被一些译员誉为效率“神器”。

2 三款工具在译后编辑各流程阶段的对比

2.1 项目创建

YiCAT 作为一款国内知名度较高、发展成熟的云端CAT 软件,项目创建符合CAT 软件的常见流程,聚焦机器翻译译后编辑,重点介绍机翻引擎选择部分。YiCAT 项目创建时,“机器翻译引擎”版块可选启用与否,共18 个选择,价格从0.00 元/千字符至2.00 元/千字符不等,既包括谷歌、百度、小牛等主流通用引擎,也包括同花顺翻译(金融)、阿里翻译(电商)等5 个垂直领域,还包括YiCAT 优选。YiCAT 优选非独立机器引擎,而是该公司自主开发的技术,基于AI 智能算法,为各句段自动优选来自不同引擎的最佳译文。此外,企业版的工具箱提供机器翻译对比功能,用户可输入原文(单次最多5000 字符),在同一页面查看多至11 个机翻结果,译文根据平台的智能优选算法排序,供译者自主判断挑选项目所需引擎。选定机翻引擎后,在“预翻译”版块,可选择“翻译记忆库”“机器翻译”“术语干预”等,此处如果选择,待翻译文档上传以后,平台将自动翻译填充译文;如果不选,可后期在编辑器页面右侧查看机翻结果,根据需要调用。项目创建完成后即可上传文件,YiCAT 企业版支持51 种文件格式(团队免费版7 种、加强版8 种)、46 种语言,最大上传文件大小200M(团队版20M)、最大上传文件字数20 万字(团队版5 万字)。

LanguageX 页面更加简洁,无任何CAT 经验的用户也能无障碍使用。登录网页后,左侧的版块包括“翻译引擎”“翻译项目”“翻译记忆”和“帮助中心”。首页即“翻译引擎”,用户可输入一段文字(最多2000 字)测试不同翻译引擎效果,可选引擎包括13 个通用引擎、7个个性引擎和7 个垂直领域引擎。点击左侧“翻译项目”可进入页面新建项目,直接上传需要翻译的文档,支持9 种文件格式,PRO 版支持最多上传20 个文件,单文件最大50MB。文件上传后跳转至与首页相同的翻译引擎选择页面,选择语对和翻译引擎后,点击“下一步”转至“项目设置”,对记忆库、术语库和文档进行快速设置,LanguageX PRO 版本支持术语干预,设置完成后点击“开始翻译”,上传文件即开始机器翻译流程。完成后可进入文件页面,在机器翻译的结果上进行译后编辑。LanguageX 页面设置简单,目前PRO 版本每月提供100万字符流量,费用为29 元/月或299 元/年。

GT4T 是一款集合多个机器翻译引擎的本地工具,用户在官网下载最新版本后安装在本地即可使用,也就是说,安装注册完成后,在电脑的任何程序和窗口,如office 文档、网页、Trados 等CAT 工具,可随时调用GT4T 提供的机器翻译参考。与其他提供插件的机翻引擎不同,GT4T 本身不是机器翻译引擎,而是汇集了30 余种机翻引擎的集合式工具或超级插件,用户可调用其中一个或多个机翻结果,且无需将任何文件上传至云端。 GT4T 支持导入文件翻译器和在电脑任何窗口调用机翻结果两种方式。使用文件翻译器时,确认语对方向后,可选中文件后点击右键,选择GT4T 翻译器或直接将文档拖放至窗口,待自动翻译处理完成后,本地电脑将生成未翻译(原文)和已翻译(译文或双语)两个新的文件夹,打开已翻译的文件即可以译后编辑。在任何窗口,也可通过选中需翻译的部分,通过快捷键组合调用已选机翻引擎结果,机翻结果以小窗悬浮出现在当前页面,并能在任何位置移动,供用户参考或进行译后编辑。因此,GT4T 不需要项目创建流程。当前GT4T有按时间或按字符计算的多个套餐,按时间计算无字符限制,月费用从43.83 元至58.90 元不等,按字符计算价格从0.127 元/千字符至0.367 元/千字符不等,使用时根据所选的机翻引擎计算系数扣除字符(多个引擎则叠加费用)。

由此可见,3 款工具的使用都十分友好,工具本身集成多个机翻引擎,用户调用机翻结果时,也无需单独在每个机翻中单独注册设置API,难度大大降低。3 款工具都属于付费服务,虽价格有一定差异,但都属于普通译员能承受的范围。3 款工具在新建项目阶段的主要差异见表1。

表1 YiCAT、LanguageX、GT4T总体差异对比(资料数据截至2022年10月)

2.2 编辑页面

YiCAT 的编辑页面(见图1)分为上排功能区,中间主体部分的左侧原文栏和右侧编辑栏,最右侧提供记忆库、机器翻译、术语库参考以及备注等附加功能。主编辑区可以选择显示QA 结果、历史记录、原文预览和译文预览,最下方显示当前翻译或审校、校对进度。各区页面大小可拉动调整。YiCAT 在译后编辑时结合记忆库和术语库,以记忆库优先,且术语库可干预机翻结果,由此保证机翻引擎提供的结果也能实现术语的准确性和一致性。

图1 YiCAT译后编辑页面

如图1 所示,平台系统会对机翻质量自动评级,等级为S、A、B 和C 四挡,按质量高低,S 级为质量超优,最低的C 级则是提醒译员需要多加注意。在本次翻译任务中,提示以B 级居多。虽然机器的质量打分和实际人工评估质量的吻合度尚需更多测试检验,但该功能的出现也是MTPE 的发展趋势之一。

如果待译文稿本身有记忆库和术语库,且译员熟悉类似CAT 平台的操作,该多功能平台能有助于提升译后编辑的效率和保证质量。

LanguageX 的译后编辑页面(见图2)则更为简洁,分为顶部的项目名称、选用的机翻引擎、翻译进度等,中间编辑页面左侧为篇章实时显示,可选译文、双语和原文,与右边编辑栏实时同步显示,最右边的栏目主要包括在记忆库和术语库搜索、术语库和翻译记忆显示。除普通CAT 平台的功能外,左侧实时显示与右侧编辑同步。区域更大,便于译者在译后编辑时兼顾语篇连贯,而很多传统CAT 平台由于句段切分的原因,译者难以关注语篇这一影响译文质量的重要因素,几个传统CAT 工具虽然有原文或译文语篇展示,但区域过小、反应较慢或需要额外点击才能显示。同时,LanguageX 平台在QA 质量保证方面更加友好,以英中语对为例,以“标点有误”“数字不符”“多余空格”等文字明示QA 问题,较“译文无标记”“译文中缺少原文总的标记”等提示语更加清晰明了,便于译者快速纠正。右侧的“在记忆库和术语库搜索”能使译者能够快速搜索,而不用跳转至专门的记忆库页面,总体操作更加便捷。在英中对照的格式方面,LanguageX能智能将原文的斜体转换为中文的非斜体,导出后的文章更加符合目的语格式要求。

图2 LanguageX译后编辑页面

使用GT4T 进行译后编辑时,不需要在特定窗口或页面编辑。这款工具可应用于任何文档,以Word 为例(见图3),译者根据自己的需要,选中需要调用机译的内容,通过“Win + Ctrl + J”快捷键组合,即可以调出事先配置好的翻译引擎译文, GT4T 也支持术语干预,此处的“proficiency”一词用于描述飞行训练水平时,通常为“熟练度”的意思,由于译者已提前将该术语加入,机翻结果也因此使用该术语。译者从出现的多个译文中可以粘贴复制其中的一个译文在页面开始译后编辑,也可以综合选择,根据质量高低,不同的部分选择来自不同引擎的译文。

图3 GT4T翻译器在Word中的使用

此处为展示目的,选择了谷歌、阿里、DeepL 和彩云小译共同作为参考。比如原文中的“events”,3 个机翻处理为“事件”,一个的结果为“活动”,根据原文语境,飞行评估、仪表熟练度检查用“活动”概括更准确,由此可见,同一语段参考多个机翻能为译者提供更丰富的参考,辅助其更好进行译后编辑。但提供多个参考意味着译者需要查看和判断的时间延长,同时扣除字符的费用增加。通常情况下,熟练译者选择最匹配当前文档的某个或两个翻译引擎即可。此外,通过“Ctrl+D”的快捷键组合也可快速调用来自多个词典的结果供译者参考。

2.3 语料管理

通常而言,完整的翻译流程包括译后语料和术语管理。在YiCAT 和LanguageX 平台(Pro 版及以上),译者可以在译后编辑过程快捷添加术语,需要时导出术语库和tmx 格式的记忆库,可以在完成项目的同时,不断丰富语言资产。而GT4T 由于本身只是集成多个机翻引擎的工具,不提供编辑功能,译后编辑在原来的各个文档中进行,GT4T 本身无法提供tmx 格式的记忆库,虽然通过结合其他CAT 的文件,如Trados、MemoQ,也可以实现此功能,但操作难度增加。

3 结语

以译后编辑的软件环境为研究对象,选择了聚合多个机翻引擎的3 款工具进行比较,包括以YiCAT 为代表的云端CAT 软件,以译后编辑、训练个人引擎为导向的极简化平台LanguageX,以及适合本地各应用程序的翻译超级插件GT4T,这3 款工具均聚合多个机翻引擎,在使用上各有优劣。对译者而言,这3 款工具及类似平台上手都较为容易,译后编辑时具体选择何种工具需要根据自己的目的和相关要求,如文档格式和大小、是否保密、能否上传互联网、是否有可参考的记忆库、是否需要团队协同、有无必要同时参考多个机翻引擎、译后是否需要整理记忆库等需求合适选择或组合使用。同时,通过对比3 款工具,也发现了平台开发企业在机翻质量评判和译后编辑环境改进中做出的努力,包括设计界面更为用户友好、基于人工智能开发算法对机翻质量进行打分,以及支持用户上传语料训练个性化引擎等,使机助人译、人助机译朝着更优化方向发展。

猜你喜欢
引擎术语页面
刷新生活的页面
无形的引擎
基于Cocos2d引擎的PuzzleGame开发
有感于几个术语的定名与应用
从术语学基本模型的演变看术语学的发展趋势
网站结构在SEO中的研究与应用
浅析ASP.NET页面导航技术
One Engine Left只剩下一个引擎