融入分类词典的汉越混合网络神经机器翻译集外词处理方法

2019-12-30 02:36车万金余正涛郭军军文永华于志强

中文信息学报 2019年12期

车万金,余正涛，郭军军，文永华，于志强

(1. 昆明理工大学信息工程与自动化学院，云南昆明 650500;2. 昆明理工大学云南省人工智能重点实验室，云南昆明 650500)

0 引言

伴随着我国“一带一路”倡议的提出，面向东南亚国家的汉语-越南语等资源稀缺型语言的翻译需求不断增加。但因为资源受限，目前汉语—越南语的机器翻译模型效果不理想，因此提升汉语—越南语机器翻译系统性能，不仅对于推动两国之间的交流具有十分重要的作用，而且对于资源稀缺型语言的机器翻译研究也具有一定的启发作用。神经机器翻译是近年来提出的基于深度神经网络的机器翻译方法，在英—法、英—德等资源丰富语言上取得了很好的翻译效果[1-4]。但其依赖于大规模的平行句对语料，而汉语—越南语属于资源稀缺型语言，没有大规模的双语平行句对资源，因此研究如何在神经机器翻译框架下，提升汉语—越南语神经机器翻译性能是一项具有挑战性的工作。

受到Tang等人[5]和Zhang等人[6]将双语词典引入到神经机器翻译的启发，本文提出一种在RNNSearch模型基础上融入外部分类词典来缓解集外词的混合翻译模型。分类词典包括双语稀有词词典、实体词典和规则词典，分别通过词对齐、维基百科抽取和规则方法生成。在编码端通过查询分类词典，将输入序列标记为词或短语标签，同时在解码端加入选择门控，构造词、短语混合解码结构，结合分类词典得到目标语言翻译结果。本方法通过融入分类词典，一方面通过短语模式可以很好地翻译短语集外词，另一方面还可以通过词级模式翻译词表外的集外词，可以很好地利用词表，从而提升翻译系统的性能和效果。本文首先在汉越神经机器翻译上进行实验，后期又扩展到英越神经机器翻译和蒙汉神经机器翻译，均取得了较好的翻译效果，系统性能有所提升。

1 相关工作

在神经机器翻译中，如何有效地处理集外词问题是近年来的研究热点，但是在资源稀缺型语言的神经机器翻译中，开展集外词问题的研究还相对较少。具体来讲，目前针对集外词问题有以下几类处理方法：

第一类方法是通过指针网络或拷贝机制从源序列中拷贝单词进行翻译。Caglar Gulcehre等人[7]提出Pointer Softmax (PS)使用两个softmax层，预测原输入语句中某个词的位置和预测在预定词表中的单词。Gulcehre等人[7]在神经机器翻译模型上嵌入一种拷贝模式，解码器自动选择是从词表中选择词语进行生成还是从源语言句子中选择词语进行拷贝。

第二类方法将输入序列切分为更小粒度的子词序列来缩小词表规模。Sennrich等人[8]提出使用BPE算法对子词建模。Costa-jussa等人[9]提出将基于字符来产生词嵌入的方法应用于机器翻译。Ling等人[10]的工作中使用双向RNN来编码字符序列。Wu等人[11]提出一种混合字符—词语模型，使用字符序列替代集外词。Chung等人[12]提出了一种新的RNN结构，可以对字符和词进行处理，输出字符序列不需要进行分词。虽然这些方法能够较好地处理罕见/未知单词问题，但因为序列长度的增加而导致训练变得更加困难。

第三类方法为构建大规模词典集和替换技术。Li等人[13]提出集外词“替换-翻译-恢复”的方法。Luong等人[14]提出了在目标语言句子中插入定位符号，以后备词典的方式处理UNK。Jean 等人[15]使用大字典并在softmax时进行采样，提出了一种基于重要性抽样的近似训练算法，可以训练一个具有更大目标词汇的NMT模型。所提出的算法在仅使用全部词汇的小子集的水平上可有效地保持训练期间的计算复杂度。

虽然以上工作在处理集外词上有一定的作用，但是均未涉及双语词典等外部知识的融入。最近Arthur等人[16]提出了一种利用NMT模型的注意力向量来选择该模型应该关注的源词词法概率计算候选译文中下一个词的词法概率的方法。Zhang等人[17]提出了新颖的模型，将双语词典转换成足够的句子对，利用混合词/字符模型和合成平行句子保证大量翻译词汇的出现。Tang等人[5]提出了一种存储词组对的翻译器确定候选短语对标记信息，采用设计的策略一次性生成多个单词序列。但这些方法所使用的都是通用词典，没有研究集外词本身的特点，且多集中在资源丰富语言，没有涉及资源稀缺型语言。本文在RNNSearch模型基础上提出一种融合分类词典的混合网络模型结构，在预处理阶段融入分类词典标签标记，在解码端通过不同模式查找词表和分类词典，进而缓解集外词问题。

2 研究背景

在解码时刻t，解码器分别产生该时刻的目标语言隐式状态和目标语言单词。t时刻目标语言隐式状态st-1由t-1时刻目标语言隐式状态st-1，t-1时刻解码器所生成的目标语言单词yt-1和t时刻上下文向量ct所决定，如式(1)所示。

其中t时刻上下文向量ct-1由源语言隐式状态序列h和注意力模型所产生的权重加权所得，如式(2)所示。

f(·)为GRU[18-19]。其中注意力模型的权重αt,j由t-1时刻目标语言隐式状态st-1与源语言隐式状态序列h产生，如式(3)～式(4)所示。

其中σ为非线性函数。权重a(t,j)可以解释为源语言词语xj与t时刻解码器所产生词语的相关程度。

在生成目标语言隐式状态st后，为了预测目标词，解码器结合st，ct和yt-1通过softmax函数估计t时刻目标语言单词的概率分布，如式(5)所示。

p(yt=y

(5)

其中，B、C和D是权重矩阵。

3 模型

3.1 模型总体概述

本文通过在端到端的神经机器翻译模型中引入分类词典来解决集外词问题，结构模型如图1所示。在预处理时，对切分后的源语言句子进行处理，找到类似于切分成“山本”和“五十六”这样的词，通过扫描查找分类词典进行合并恢复为短语，使用RNN编码器将该语句编码为短语表示形式，在编码的时候进行标签化标记。解码端分为短语模式和词级模式，通过混合RNN解码器网络生成单词和短语。短语模式为通过分类词典进行翻译的短语，这类短语大多为前面提到的三类集外词，因为在预处理阶段对短语进行标签化标记，解码时模型可以区分这些集外词，然后通过双语分类词典整体进行翻译。词级模式主要分为两种情况：一种情况是翻译的词本身在模型的词表中，对于这类集内词可以直接通过模型的词表翻译生成；另一种情况是这些词不在词表中，即为集外词，对于这样的词，我们同样通过查找分类词典进行翻译。

图1 模型结构

3.2 分类词典

如表1所示，分类词典主要包括稀有词双语词典、实体词典和规则词典。稀有词双语词典的构建包括两个方面。一方面，使用GIZA++词对齐工具对语料进行对齐处理，得到对齐结果，排除词表内的词来构建双语词典，对于一对多的情况，我们只保留对齐概率最大的记录。另一方面，我们在词典中还加入了部分人工整理添加的双语词典。最终本文构建了规模为8 735对的稀有词双语词典。实体词典的构建主要基于维基百科进行词条抽取。页面的词条多为人名、地名等实体词，在左下角会有对应的“Languages”可以链接到越南语的翻译，该链接的HTML信息中包括了翻译后词汇。最终通过维基百科抽取构建的实体词典，包括人名实体6 418对、地名实体2 934对、组织机构名实体5 026对、专有名词实体4 363对，共计18 741对，如表1所示。规则词典的构建采用基于规则方法，对语料进行正则化处理，构建时间、数字、日期等特定标记的词典。

与基于短语的统计机器翻译(SMT)中的规则不同，在SMT中，一个短语可以有多个翻译，并且有一个概率分布。我们分类词典的列表仅仅为一对一的关系，这样可以简化模型设计和训练。同时对于分类词典(Θ)中存在的翻译规则(P，Q)，其中P存在于待翻译的源句子中，Q为P翻译后的词。解码器保持P和Q之间的对应关系，如图2所示。

表1 分类词典的类型和内容

图2 源语言和目标语言句子中的短语对应关系

3.3 编码

分类词典Θ用于在编码之前对句子对进行预处理。为了标记一个源句x=(x1,x2,...,xTx)，我们需要找到它包含的短语。

我们找出源句x里存在Θ中的规则短语，并将这些规则表示为Px。同时需要找到Px在目标句子y中对应词记作Qx。Px和Qx将源句和目标句的单词分成组，如图2所示。源句x中的单词分为两组：短语和单词，而目标句y中的单词分为两组：短语和单词。

我们通过将切分后的词进行处理，查找分类词典对源语言句子中错切的短语进行合并处理。这样的词主要在我们的分类词典Θ中，我们使用RNNSearch中的编码器对短语进行标签标记，标签用于帮助模型定位和区分短语和单词。如图3所示，在句子x中我们将合并后的短语标记为1，其余单词标记为0，在解码过程中通过识别1或者0，从而选择短语模式还是单词模式。

3.4 解码

在RNNSearch解码器中仅包含单词模式，本文为解码器增加短语模式。对于有两个或两个以上的词构成的目标短语pt=(yt,yt+1)，按照短语模式(整体)生成。在本文的模型中，对于短语的翻译，我们可以通过分类词典进行翻译；对于单词的翻译，如果这个词在模型的词表中，则可直接进行翻译，如果不在词表中则为集外词，可通过查找分类词典进行翻译。

图3 编码器结构(包括标签)

模型的解码器结构如图4所示。模型中通过门控单元来决定在t时刻使用哪个模式，其中门控单元是二进制指示符变量(ξ∈{0,1})，0代表词级模式，1代表短语模式。

图4 解码器结构

对于模型，我们简单分为三种情况：

① 当通过门控单元确定为1时，则通过短语模式进行翻译。此时需要查找分类词典Θ进行翻译，结合图2可知，在翻译“cng”后面的词时，源语言中为“珍珠港”，通过标记后由查找分类词典Θ翻译得到。

② 当通过门控单元确定为0时，则通过词级模式进行翻译，对应翻译的词不在模型的词表V中的情况，为集外词，则通过查找分类词典Θ进行翻译。由于正常翻译的时候下一个词为“珍珠”，这个词在词表V中，所以通过Ⅲ进行翻译。

4 实验

4.1 实验数据及设置

本文构建20万汉越双语平行语料库，为了验证模型在不同语料规模，特别是低资源情况下的性能，将其分为10万、20万两组训练集分别进行实验。另外，构建测试集和验证集，规模均为5 000对。在融入本文方法之前对语料做了清洗和Tokenize处理。实验中使用的词表为32 000，句子最大长度为50，dropout设置为 0.2，词嵌入维数为620维，训练步数为300 000，hidden_size为1 000。实验中使用BLEU值作为评测指标。

4.2 实验结果

实验设计包括五个部分，分别是Moses、RNNSearch(语料规模为10万)、RNNSearch(语料规模为20万)、本文方法(语料规模为10万)和本文方法(语料规模为20万)。每部分中都包含汉语-越南语、越南语-汉语双向翻译，共计10组实验结果。为了直观地观察和对比，保证实验结果的可靠性，每组的实验结果的BLEU值都采用相同的测试集。表2中列举了汉语-越南语和越南语-汉语两个翻译方向的实验结果。

表2 汉语-越南语和越南语-汉语两个翻译方向的实验结果

4.3 实验对比与分析

从实验结果对比看，本文方法通过混合网络融入分类词典后BLEU值有所提升。对于相同规模的10万训练语料，在汉语-越南语翻译方向下，本文方法比RNNSearch有1.68个BLEU值提升；在越南语-汉语翻译方向下，本文方法比RNNSearch有2.42个BLEU值提升。对于相同规模的20万训练语料，在汉语-越南语翻译方向下，本文方法比RNNSearch有1.57个BLEU值提升；在越南语—汉语翻译方向下，本文方法比RNNSearch有1.82个BLEU值提升。

表3 不同模型生成摘要的比对结果

2. 源语言句子几天后,我们去了富茨克雷的一座佛教寺庙,坐在她的灵柩旁。译文RNNSearch本文方法3. 源语言句子人民日报是中共中央机关报,被联合国教科文组织评为世界十大报纸之一。译文RNNSearch本文方法

4.4 实验扩展

对于提出的改善集外词方法，本文进一步扩展到其他语种上进行实验，验证其他资源稀缺型语言上的翻译效果。我们选取了英越和蒙汉进行实验，语料规模为英越20万语料和蒙汉26万语料(CWMT 2018蒙汉语料)。分类词典的构建和处理方式及方法与汉越翻译基本相同。关于双语词典，英越双语字典构建的规模为7 642对，蒙汉双语字典构建的规模为10 231对。关于实体词典，英越同样通过维基百科进行抽取。英越实体词典中人名实体数量为6 416对，地名实体数量为2 873对，组织机构名实体数量为5 012对，专有名词实体数量为4 351对，共计18 652对。对于蒙汉翻译，相关的工具还不够完善，我们通过人工方式对汉语语料中的实体进行查找，通过NiuTrans[20]中的蒙汉翻译系统来找到对应的蒙文实体翻译结果，再对蒙文训练语料进行实体词识别。蒙汉实体词典中人名实体数量为 2 857对，地名实体数量为2 513对，组织机构名实体数量为1 754对，专有名词实体数量为2 013对，共计9 137对。关于规则词典则与汉越规则词典构建方式及方法相同。

在融入本文方法之前，对英语和越南语语料做了Tokenize处理。实验同样包括双向翻译，分为英语—越南语、越南语—英语、蒙语—汉语和汉语—蒙语，总共20组实验数据，结果如表4所示。

表4 英越和蒙汉实验结果

从实验结果对比看，本文方法通过混合网络融入分类词典后BLEU值有所提升。对于相同规模的10万训练语料，在英语—越南语翻译方向下，本文方法比RNNSearch有2.81个BLEU值提升；在越南语—英语翻译方向下，本文方法比RNNSearch有2.95个BLEU值提升。对于相同规模的20万训练语料，在英语—越南语翻译方向下，本文方法比RNNSearch有2.01个BLEU值提升；在越南语—英语翻译方向下，本文方法比RNNSearch有2.21个BLEU值提升。对于相同规模的13万训练语料，在蒙语—汉语翻译方向下，本文方法比RNNSearch有2.54个BLEU值提升；在汉语-蒙语翻译方向下，本文方法比RNNSearch有1.44个BLEU值提升。对于相同规模的26万训练语料，在蒙语-汉语翻译方向下，本文方法比RNNSearch有1.90个BLEU值提升；在汉语-蒙语翻译方向下，本文方法比RNNSearch有1.65个BLEU值提升。对于蒙汉的翻译结果，BLEU值整体比较低，我们进行了分析。在蒙语里，尽管有些词是通过空格进行分割的，但有很大一部分词语和句子存在整体性，彼此之间是相连的。对于这样的少数民族语言，没有对应的分词工具，一定程度上会导致BLEU值偏低。

通过以上实验结果可以看出，本文方法不仅在汉越神经机器翻译上表现出优势，在其他资源稀缺型语言上(如英越)和少数民族语言(如蒙汉)上同样提高了神经机器翻译的准确率，对于资源稀缺型语言的神经机器翻译集外词问题的处理具有可行性。

5 结论

本文对RNNSearch模型进行改进，提出一种融入分类词典的汉越混合网络神经机器翻译模型，很好地处理了集外词问题。对于给定的源语言句子，扫描分类词典以确定候选短语句对，并对其标签做标记，解码器端利用单词组件和短语组件混合网络，生成单个集外词和短语集外词，从而改善汉越神经机器翻译的性能。通过对汉越、英越和蒙汉实验结果分析，证明了该方法的有效性。下一步研究中，拟继续探索利用本体库、知识图谱等外部资源来改善低资源神经机器翻译性能的方法。