基于融合多语言交互的在线翻译辅助系统

2020-12-23 06:57胡晓榕
微型电脑应用 2020年11期
关键词:机器学习

胡晓榕

摘 要:随着机器学习技术的发展,目前翻译行业也逐渐引入该技术用来提升翻译效果。文章以实现在线学习为目标,为了学习人员能够在不断纠正过程中进行学习,设计了一套端到端平台,该平台将机器翻译服务器集成到专业翻译人员最常用的用户界面中,实现在机器不断从人的选择中学习并根据特定领域或用户风格调整模型的同时,节省学习人员后期的编辑工作,提升了在线翻译过程中的辅助效果。

关键词:机器学习;翻译行业;端到端平台;翻译模型

中图分类号:TP393

文献标志码:A

文章编号:1007-757X(2020)11-0080-02

Abstract:With the development of machine learning technology, the translation industry has gradually introduced this technology to improve translation results. This article aims at online learning. In order that the learner can get progress in the process of continuous correction, an end-to-end platform is designed. This platform integrates the machine translation server into the user interface which is commonly used by professional translators. By continuously learning from human choices and adjusting models according to specific fields or user styles, it saves the editing work of the learners in the later stages and improves the auxiliary effect in the online translation process.

Key words:machine learning;translation industry;end-to-end platform;translation model

0 引言

在翻译行业中,翻译的效果至关重要,直接关系着业务人员的工作效率。如今,翻译行业的高效性需求必须满足快速的商业需求,为此,需要在较短的时间内为用户提供准备高质量的翻译结果。随着机器学习技术的发展,文献[1]中提出使用支持向量机(一种监督学习模型)获得了安德森杂质模型的格林函数,用来实现自学习提升。

机器学习技术的快速发展,为翻译行业提供了可高效、快捷翻译结果的途径,即“人性化”翻译,称为后期编辑(PE),该模式目前在翻译行业中被证明是有效的[2],被称为是机器翻译(Machine Translation,MT),随着MT功能的不断完善,此工作流程已成为翻译行业的重要内容。

PE过程本身就在不断生成新的双语数据,此数据通常用于创建特定于域的语料库,可用于将系统从更广泛的域改编为特定的域客户端或样式。在线学习(Online Learning,OL)范式指在PE过程中执行这种调整[3]:每次用户验证后期编辑的翻译时,系统都会在考虑到此数据的情况下进行更新。因此,当产生下一个翻译时,系统将考虑先前的版本,从而将产生更好的翻译(或更切近于人类语言用于规范)。

OL范式已迅速引起研究人员和行业的关注,基于短语的统计MT系统从用户后期编辑中逐步改编而成,最近,OL技术也被应用于神经机器翻译(NMT)系统[4],本文介绍了内部OL框架的演示系统,在该系统中,将翻译服务器与翻译程序的用户友好界面SDL Trados Studio集成在一起,从而提升了多语言交互翻译过程中的效率。

1 系统设计

从用户在PE流程中生成的后期编辑中提升翻译效果,为此,通过即時更新系统,即,一旦发布者确认了句子,便会立即进行更新,在用户确认编辑之后,立即使用源语句和后编辑作为培训来更新NMT(Neural Machine Translation)系统的模型。 这种适应可以在梯度下降之后进行,梯度下降是神经网络的常规训练方法。

本文设计的OL框架体系结构由三个主要模块组成:MT引擎、用户界面和链接两者的翻译服务器。此外,还添加了一个日志记录选项,以使用户能够跟踪击键、时间和鼠标移动等信息,该系统的体系架构,如图1所示。

翻译过程包括将机器翻译传递到用户界面,培训过程使用用户提供的反馈对MT引擎进行再培训。这两个过程都是通过客户端-服务器通信执行的,接下来,详细描述各个模块的具体功能。

(1) 机器翻译引擎

MT引擎的核心由生成翻译的模型组成,可以在需要时进行重新训练。每个翻译项目都有其自己的模型,其模型是根据项目的需要设置的,所有模型都是基于神经网络的,并使用OpenNMT-py进行了训练[5]。

每个MT模型都有其自己的配置文件,其中包含个性化的翻译和OL选项,例如标记化、子词分段和学习率等。

(2) 翻译服务器

翻译服务器与MT模型进行通信,以生成翻译并根据用户的发布版本来修改系统。该服务器基于OpenNMT-py的REST服务器,并使用HTTP协议定义消息以服务于用户的请求。翻译服务器的代码已公开且可用,在OpenNMT-py中创建了一个分支,该分支具有此服务器并与其所有不同模型兼容。

用户界面和MT引擎之间的通信是通过GET和POST请求执行的。服务器等待翻译请求,收到请求后,这些请求将以JSON格式发送到机器翻译引擎,当用户对机器翻译片段进行更正时,将更正发送到翻译引擎。

(3) 用户界面

在翻译行业中,翻译人员最常用的用户界面是SDL Trados Studio。系统用户界面,如图2所示。

用户在如下情况自动获得机器翻译输出:单击界面中线段的目标部分,然后,用户对片段进行后期编辑,并在纠正翻译后对其进行确认。

SDL允许开发Trados Studio插件来增强和扩展该工具。此外,SDL拥有庞大的开发人员社区[5],可通过附加软件和应用程序来更快的学习该框架。本文将自适应框架整合为Trados Studio插件,该插件将用户界面、Trados Studio与翻译服务器互联。当用户确认后期编辑时,已审核的细分将发送回MT引擎,以使用此新信息进行重新训练。

(4) 日志记录

为了衡量PE过程中OL的翻译效率和有效性,系统集成了工具来记录在后期编辑给定文件中涉及的时间、击键和鼠标移动等动作。为此,Trados合并了Qualitivity[6]插件。该插件生成一个XML日志文件,其中包含每个段的所有按键时间信息,如图3所示。

利用这些日志信息,可以衡量将MT与OL一起用于后期编辑文件所需的工作量。使用专业翻译人员在模拟和真实环境中进行的初步实验[6]报告称,MT系统生成的翻译质量有了显着提高。

2 实验分析

本章节分析了在用户试用中获得的结果,如表1所示。

表1显示了与使用参考样本进行更新的非NMT系统相比,NMT系统的翻译质量的结果[7-9]。通过这种综合设置获得的结果支持通过在线学习进行智能化翻译的有用性。

在所有情况下,NMT系统都比非NMT系统获得更好的TER和BLEU(机器翻译的评价指标)。我们从TER的角度获得的结果表明后期编辑这些样本所需的人力更少。

接下来进行人工后期编辑实验,三名专业翻译参与了实验。对于NMT系统测试,所有后期编辑人员都使用相同的系统启动任务,该系统使用每个人自己的后期编辑工具进行调整。因此,在在线学习过程结束时,每个后期编辑都获得了相关的翻译服务。对于静态实验,最初的NMT系统在整个过程中均保持不变,为了避免多次翻译相同文本的影响,每个参与者在每种情况下后编辑了一个不同的测试集,如表2所示。

该实验的测试结果如表3所示。

这些数字是不同后期编辑所获得结果的平均值,对于集合T1,每个句子的后期编辑时间的大幅减少尤其重要(每个句子平均7.5秒)。在测试集T2中,NMT系统的后期编辑时间也比非NMT系统的稍短一些,为0.7秒。

3 总结

本文介绍了一个在线翻译框架,该框架结合了通过在线学习对系统进行即时调整的功能。这种模式允许翻译人员/后期编辑人员产生更多具有人类品质的文本,即提升翻译效率,因为系统不断从用户的后期编辑中学习,从而避免了重复错误。本文已将MT服务器集成到SDL Trados Studio用户界面中,实验结果证明该系统在翻译过程中有较高的效率。

参考文献

[1] Arsenault, Louis-Franois, Lopez-Bezanilla A, Von Lilienfeld O A, et al. Machine learning for many-body physics:The case of the Anderson impurity model[J]. Physical Review B, 2014, 90(15):136-155.

[2] Cadwell, Patrick, Castilho, et al. Human factors in machine translation and post-editing among institutional translators[J]. Translation Spaces, 2016, 5(2):222-243.

[3] Subakan Y C, Samragdis P. Diagonal RNNs in Symbolic Music Modeling[C]. 2017 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics(WASPAA), 2017:23-29.

[4] Klein G, Kim Y, Deng Y, et al. OpenNMT:Open-Source Toolkit for Neural Machine Translation[C]. Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics-System Demonstrations,2017:67-72.

[5] PosEdion: Post-Editing Assessment in Python. https://community.sdl.com2015.06.13/2019.11.28.

[6] Voice or Machine? Translation? https://community.sdl.com/product-groups/translationproductivity/w/customer-experience/2251.qualitivity,2019,08.18/2019.12.12.

[7] 林寒.基于多語言交互的英语翻译在线辅助系统设计[J].现代电子技术,2019,42(6):22-25.

[8] 夏吾吉,华却才让.基于有限状态自动机阿拉伯数字与藏文数词自动翻译[J].计算机工程与科学,2018,40(3):550-554.

[9] 余倩.基于特征提取算法的交互式英汉翻译系统设计[J].现代电子技术,2018,41(4):161-163.

(收稿日期:2020.03.12)

猜你喜欢
机器学习
基于词典与机器学习的中文微博情感分析
基于网络搜索数据的平遥旅游客流量预测分析
前缀字母为特征在维吾尔语文本情感分类中的研究
下一代广播电视网中“人工智能”的应用
基于支持向量机的金融数据分析研究
基于Spark的大数据计算模型
基于朴素贝叶斯算法的垃圾短信智能识别系统
基于图的半监督学习方法综述
机器学习理论在高中自主学习中的应用
极限学习机在图像分割中的应用