陈玺文,余正涛,高盛祥**,王振晗
(1.昆明理工大学 信息工程与自动化学院,云南 昆明 650500;2.昆明理工大学 云南省人工智能重点实验室,云南 昆明 650500)
近年来,基于深度学习的自然语言处理研究发展迅速,神经机器翻译(Neural Machine Translation,NMT)模型的性能有了显著提升,同时人们对机器翻译的需求也倾向于新闻文本翻译、网页翻译等比句子级别更广泛的篇章级机器翻译.因此,研究篇章级神经机器翻译有重要的实际应用价值.
目前大多数NMT 模型只是翻译独立的句子,忽略了在翻译过程中上下文线索中隐含的与当前句子的联系.篇章级神经机器翻译是在翻译独立句子的基础上,加入额外的上下文信息,以此解决篇章翻译过程中出现的连贯性、一致性、词汇歧义等问题.
目前的神经机器翻译通常采用端到端的编码器-解码器架构方式进行句子翻译,例如Sutskever等[1]采用长短期记忆网络(Long Short-Term Memory,LSTM)的编码器-解码器架构进行句子到句子的翻译;之后Gehring 等[2]采用卷积神经网络(Convolutional Neural Networks, CNN)和门控机制进行句子的编码和解码,并在解码阶段引入了注意力机制;Vaswani 等[3]采用基于Attention 架构的Transformer,在编码器和解码器中加入Attention 机制和前馈神经网络,翻译效果较之前的翻译模型有了明显提升;Platanios 等[4]针对当前神经机器翻译模型耗时且开销大的问题,在NMT 系统中引入课程学习以减少训练时间.这些方法在各种句子级翻译任务上都取得了很好的翻译效果,然而它们依旧只能关注独立的句子,忽略了篇章级别的上下文信息.因此,一些篇章翻译方法采用编码后的篇章上下文句子表征提高篇章翻译的效果,例如:在输入的句子开头加入篇章标记[5],或引入额外的编码器表示上下文句子[6-14],或引入缓存网络存取翻译的历史信息[15].尽管现有的编码上下文句子的模型能从上下文句子中学习到上下文信息,但还是无法准确翻译两个词或者两个词以上组成的词组.例如翻译英文 句 子“I want to bank fishing.”,其 中 的“bank fishing”被错误翻译为“银行钓鱼”,而准确的翻译应该是“河岸钓鱼”,“bank”被错误翻译成了“银行”,造成了词汇歧义.
针对篇章翻译存在的词汇歧义,引入主题信息能够有效改善这一现象.目前融合主题信息的篇章翻译方法研究可以分为基于动态主题建模和基于静态主题建模.基于动态主题建模方面,Chen 等[16]采用CNN 生成源语言句子的主题词向量,再采用注意力机制整合生成最终的主题表征,引入基于Transformer 的NMT 模型中;Chang 等[17]采用隐主题 马 尔 可 夫 模 型(Hidden Topic Markov Model,HTMM),利用训练集篇章中每个句子的主题,篇章表示为一系列句子主题的连贯链,选择多个概率最高的短语组成句子,以提高翻译的上下文相关性.基于静态主题建模方面;Zhang 等[18]利用隐含狄利克雷分布(Latent Dirichlet Allocation, LDA)[19]主题模型学习训练集的主题分布,并将训练好的词分布设置为固定大小的向量,与双向RNN 的编码器和解码器输出的隐状态相拼接进行模型训练;Kuang 等[20]分别缓存目标语言词和与源语言篇章语义相关的目标语言的主题词,并结合缓存的目标词以及NMT 模型的评分生成译文,进一步提高了译文的质量;Wang 等[21]利用词嵌入主题模型(Embedding Topic Model,ETM)[22]对源语言句子进行学习获得主题词嵌入,最后将主题表征分别与源语言词嵌入、编码器输出的隐状态以及目标语言词嵌入相加,以提高模型翻译的准确性.
针对篇章翻译中存在的词汇歧义问题,目前基于多编码器的篇章翻译模型在解码时仅通过注意力机制考虑有限的源语言上下文词汇,使得模型翻译时忽略了更广的上下文词汇之间的联系,导致翻译出现词汇歧义.为了解决以上问题,考虑到主题特征能让模型选择相同主题下相关的词汇,本文基于多编码器篇章翻译模型[23],提出基于Bi-GRU和CNN[15]的主题表征编码器,用该编码器映射源语言句子的主题表征,并加入主题表征指导译文的生成,在考虑上下文句子的同时融合主题表征,进一步改善词汇歧义的问题.该方法采用Bi-GRU 以及自注意力机制捕获句子表征,通过CNN 捕获词汇的主题表征,并与NMT 模型共同训练;训练时将上下文句子嵌入以及源语言句子嵌入分别输入到上下文编码器和源语言句子编码器中,将两个编码器的输出采用注意力机制得到最终的上下文表征,并与源语言句子的编码器输出通过门控机制输入到解码器中,然后将主题表征和融合后的上下文表征分别采用两个串行的注意力机制参与解码.本文以机器翻译测评(Bilingual Evaluation Understanding,BLEU)值衡量机器翻译结果与人工参考翻译之间的相似度.实验结果表明,本文提出的方法相比基线模型以及其他机器翻译方法BLEU 值都有明显的提高.
为了充分利用上下文信息,改进上下文词汇翻译之间不一致的问题,本文采用基于上下文编码器的篇章神经机器翻译方法融合主题信息,即主题上下文感知Transformer(Topic-Context-Aware-Transformer),以下简称Topic-CA.模型结构如图1 所示,该模型基于Context-Aware-Transformer,由一个单层上下文编码器、一个6 层编码器、一个上下文注意力网络层、一个门控机制、一个主题编码器以及一个6 层解码器组成.两个编码器分别编码源语言的上下文句子和源语言当前句子,编码器和解码器分别采用Transformer 的编码器和解码器.在源语言端,采用源语言句子编码器和词嵌入,而上下文句子编码器、上下文注意力网络层、主题表征模块以及门控的参数会随着训练不断更新;目标语言端采用目标语言句子、编码端的输出以及主题表征模块提取的主题表征作为解码器的输入.模型主要分为以下3 个部分.
图1 融合主题信息的篇章翻译模型的流程图Fig.1 The flow chart of document translation model fused with topic information
1.1 双编码器篇章机器翻译模型对于给定的源语言篇章的k个句子序列X=x(1),x(2),···,x(k),x(k)=代表源语言的第k句话包含I个词,对应的目标语言篇章的k个句子序列为Y=y(1),代表目标语言的第k句话包含J个词,因此篇章翻译的概率表示为:
式中:M为句子数,为 已翻译出的前m-1个词,X<k为第k句的上下文句子.篇章神经机器翻译模型采用Transformer 相同的词嵌入方式,6 层编码器和6 层解码器.
本文的篇章机器翻译模型引入一个1 层的上下文编码器和上下文注意力层,将上下文句子的表征和当前句子的表征通过一个上下文注意力层输出得到新的表征.
为了平衡混合了上下文表征后的新的句子表征与当前句子表征的权重,在计算混合上下文表征时加入了一个上下文门控,如下所示:
式中:gj为上下文门控的输出,sj为当前句子编码器的输出,cj是 上下文注意力层的输出, σ为Sigmoid 函数,Wg为权重参数,bg为偏置参数.
在解码时采用多头注意力机制再结合从编码器中得到混合的上下文表征,得到解码端的隐状态输出,之后将隐状态输出与解码器前一次的输入通过注意力机制层以及正则化和 Softmax后输出,直到输出结束标志.
模型的训练阶段采用两步训练法:
首先训练一个标准的Transformer 模型的参数,计算最大对数似然值为:
然后训练上下文编码器模块参数,计算最大对数似然值如:
式中: θs、 θd为 初始化的Transformer 模型参数、初始化的上下文编码器参数,为训练后的Transformer 参数和上下文编码器参数,Ds、Dd分别为句子级别语料和篇章级别语料.
1.2 主题表征由于多编码器的篇章翻译模型仅局限于关注局部上下文句子信息,导致解码时预测的词汇出现上下文不一致的情况.因此,本文引入更广的主题表征改善这一问题.为了获得源语言句子中词汇的主题表征,本文采用基于Bi-GRU 和CNN 的主题表征编码器(Topic Encoder)学习源语言句子的主题表征,从句子中捕获主题信息,如图2 所示.
图2 主题表征流程图Fig.2 The flow chart of topic representation
1.2.1 Bi-GRU 模型 为了获得句子表征,首先采用Bi-GRU 模型将句子嵌入序列映射为句子表征,再采用自注意力机制对得到的表征序列进行关注,得到句内的相关信息.GRU 模型包括重置门和更新门,令 (x1,x2,···,xI)表示输入的句子嵌入序列,计算重置门以及更新门的信号,接着计算候选隐状态,如:
式中:xt为t时刻的输入,为模型t-1时刻的输出, F 为 正 向 传 播,Wxr、Whr、Wxz、Whz、Whx、Whz为 权重,br、bz、bh为偏置.
再更新t时刻前向传播的隐状态:
B 表示反向传播,将反向传播得到的隐状态与前向传播的输出进行相加得到最终的隐状态:
最后将该隐状态向量通过自注意力机制输出后作为CNN 模型的输入.
1.2.2 CNN 模型 为了将句子表征映射为主题表征,采用CNN 学习主题表征,如图3 所示.基于CNN 的主题表征模块包括4 层,分别为输入层、卷积层、多类池化层以及输出层.
图3 卷积神经网络学习主题表征的过程Fig.3 The process of CNN learning topic representation
(1) 输入层(Input Layer) 令xi∈RK表示在一个句子中的第i个K维的向量,因此长度为I的句子可表示为K×I的矩阵向量,之后设置一个最大长度L,对小于最大长度的部分进行补0,令K×I矩阵向量表示为U作为输入层的输出.
(2) 卷积层(Convolution Layer) 用卷积层学习每个特征值时考虑所有单词的部分信息,让最终的主题表征依赖于句子级别的上下文而不是局部的词级别上下文.卷积层包含 2R个卷积核,每个卷积核的权重为Wr∈RtK(1 ≤r≤2R),窗口大小为t,每个卷积核计算t个连续的矩阵向量U的行的特征Ukr:
式中:br为偏置,Uk:k+t-1为句子中所有词矩阵的第k维到第k+t-1维.将每个卷积核应用于矩阵向量U的所有窗口,生成特征向量Ur={U1r,U2r,···,Ukr}∈RK, 2R个 卷积核遍历U后生成特征映射 C,如:
卷积层的每个卷积核都在所有词向量的行上计算,从所有词的特定向量空间学习特征值.
(3) 多类池化层(Multi-Type-Pooling Layer) 为 了更好地编码句子中的词以及主题信息,采用2 种池化方式分别为Max-Pooling 和Average-Pooling.
Max-Pooling:在输入的特征矩阵的2 个连续行上取最大值:
Average-Pooling:对特征矩阵每列取平均值进行平均池化:
将两者进行拼接,该层的输出表示为:
(4) 输出层(Output Layer) 将G通 过tanh函数计算后得到最终的主题表征T,如:
式中:Ts表示一个主题.
1.3 主题信息融入为了将主题信息与解码器融合,与NMT 模型联合训练,学习主题表征以及翻译.首先将CNN 作为额外的编码器从源语言句子中捕获主题表征.其次是采用一个额外的多头注意力层学习基于前一层解码器的目标端语言查询的主题上下文表示:
式中:Attention 为注意力机制,Qt为前一层解码器的输出,由主题表征模块从源句子中学习的主题特征T作为K、V,WiQ、WiK、WiV为模型权重参数.然后将该注意力层的输出作为下一个串行的注意力层的Q,编码器的输出作为K、V,如图4 所示.
图4 串联注意力层的流程图Fig.4 The flow chart of attention mechanism layers
模型参数的更新公式可变为:
式中: θt为初始化的注意力机制以及主题表征编码器参数,为训练后的注意力机制和主题表征编码器参数.
2.1 数据集本文实验的汉-英数据采用IWLST的TED2017 演讲数据集,其中包含2 549 个篇章,大约23 万句对作为训练集,以及879 和1 557 个平行句对分别作为验证集和测试集;英-法数据采用IWLST 的TED2017 演讲数据集,其中包含2 557个篇章,大约25 万句对作为训练集,以及890 和1 210 个平行句对分别作为验证集和测试集;英-德数据采用IWLST 的TED2017 演讲数据集,其中包含2 539 个篇章,大约20 万句对作为训练集,以及888 和993 个平行句对分别作为验证集和测试集;与其他融合主题模型的对比实验采用WMT14 数据集的英-德数据,其中包含16 730 个篇章,大约4.5 M(M 表示百万)个句对作为训练集,验证集和测试集分别由3 003 和3 000 个平行句对组成.实验数据如表1 所示.在实验数据预处理中,首先利用JIEBA(https://github.com/jieba)中文分词工具对汉语进行分词,同时去除特殊符号,然后使用MOSES 对全部训练数据进行tokenization(标记化).
表1 融合主题信息的篇章神经机器翻译数据表Tab.1 Dataset of document neural machine translation fusion topic
另外,针对篇章语料存在不对齐的问题,本文使用文本对齐算法Vecalign[22]对篇章可比语料进行对齐.该算法利用基于归一化余弦距离的多语言句子嵌入评分函数对一对一、一对多或多对多的双语句对进行打分,然后用动态规划近似方法根据评分生成对齐的句对.
2.2 实验设置本文采用单张Teasla 4 GPU 进行实验.实验使用基于Fairseq 深度学习框架实现的Transformer 和Context-Aware-Transformer 模 型 为基准系统,基准系统采用BPE 词表,词表为32 KB.预训练的Transformer 模型和Context-Aware-Transformer 模型参数使用Adam 优化器进行优化,优化器参数 β1为 0.9, β2为0.997,max token 为8 192,学习率为0.000 1;源语言端和目标语言端的词嵌入维度设为512,编码器层数为6,dropout 率为0.3.CNN、LSTM 和GRU 模型参数使用Adam 优化器进行优化,优化器参数 β1为 0.9, β2为0.997,批次为8 192,学习率为0.007;源语言和目标语言词嵌入设为1 024,dropout 率为0.3.Topic-Context-Aware-Transformer 模型参数使用Adam 优化器进行优化,优化器参数 β1为 0.9, β2为0.997,max token 为8 192,学习率为0.000 1;源语言和目标语言词嵌入维度设为512,编码器层数为6,dropout 率为0.3.测试时使用集束搜索(Beam Search)进行解码,beam size设为5.
实验所使用的主题编码器的卷积核的in_channel 设置为512 和out_channel 设置为1 024,句子长度固定为50,窗口为4.本文训练的主题数目设置为70~80 个.
实验使用multi-bleu.perl(https://github.com/mos es-smt/mosesdecoder)脚本计算BLEU 值作为评价指标,同时将准确率(Accuracy)作为主题模型文本分类的评价指标.
本章采用的评价指标BLEU 值具体计算过程如下:
式中:pn表示文本块的修正后的准确分数,si,j为第i句翻译译文对应的第j句参考译文,K为翻译译文的词组个数,M为参考句子数,E为翻译句子数,nk(ci)为第k个词组在翻译译文cj中出现的次数,nk(si,j)为第k个词组在第i句翻译译文对应的第j句参考译文中同时出现的次数,min 函数为求最小次数,B为BLEU 值,BLEU 值在最后的评分结果中引入了长度惩罚因子(P),c是机器翻译语句长度,r是参考翻译语句长度,wn=1/N,N表示最大语法阶数,文中取4.
2.3 基线系统本文采用10 个基线系统进行对比实验.
(1) LSTM[1]该模型采用一个多层的长短期记忆网络对输入句子进行编码,再使用另一个多层的长短期记忆网络进行解码.
(2) ConvS2S[2]该模型基于CNN 并引入Attention 机制进行编码和解码,可并行处理大量文本序列.
(3) Transformer[3]该模型使用基于Attention的编码器堆以及解码器堆来编码和解码孤立的句子.
(4) Outside-Context-Aware-Transformer(Outside-CA)[23]该模型改进Transformer 编码层,使用一个额外的上下文编码器对当前句子的前一句话进行编码获得上下文表征,并采用一个门控机制将上下文表征与当前句子编码后的表征进行融合.
(5) Inside-Context-Aware-Transformer(Inside-CA)[23]该模型改进Transformer 的解码层,首先采用编码器编码当前句子的前一句话进行编码得到上下文表征;之后在解码层分别将上下文表征和当前句子表征通过注意力层与当前解码的句子进行结合,得到混合后的表征;最后通过一个门控机制将上下文表征与当前句子的表征进行融合并输出.
(6) TiNMT[18]该模型首先使用LDA 学习单词的主题分布;然后将这些主题分布视为一个向量,以扩展相应的词向量或隐藏状态;最后将该方法应用于基于RNN 的NMT 的编码器和解码器中.
(7) BLT-NMT[24]该模型在基于GRU 的编码器和解码器以及注意力机制中使用双语主题模型,以便在翻译过程中生成准确的目标词.
(8) Transformer+BLT[24]该模型将每个源语言或目标语言单词的词嵌入和基于双语LDA 的主题嵌入连接起来,然后将词嵌入输入标准Transformer 模型.
(9) Transformer+ETR[16]采用词频逆篇章频率(Term Frequency-Inverse Document Frequency,TF-IDF)将源语言句子表示为主题表征,之后输入到Transformer 解码层约束解码.
(10) Transformer+LTR[16]基于Transformer模型,将CNN 作为额外的编码器,从输入的源语言句子中学习主题表征,之后在解码层采用一个额外的多头注意层来关注主题表征,再将输出的损失与原先解码器的输出进行加权.
本文采用的对比主题模型为:
(1) LDA[19]一种广泛使用的主题模型,采用隐含狄利克雷分布,它可以将文档集中每篇文档的主题按照概率分布的形式给出.
(2) GPU-DMM[25]基于词嵌入以及狄利克雷多项式混合模型的语义强化主题模型.
(3) NTM[26]基于神经网络的主题模型Ngram 进行文本表示,本文中采用Bi-gram 形式表示篇章主题.
2.4 实验结果及分析为了验证本文方法的有效性,设计了5 组实验,并通过计算生成译文的BLEU 值进行评价.
2.4.1 实验1:不同方法融合主题的机器翻译实验 实验使用表1 的WMT14 英-德的平行语料数据集,以及IWLST 的TED2017 演讲数据集的中-英和英-法平行语料.基线系统选择TiNMT、BLTNMT、Transformer(base)、Transformer+BTL、Transformer+ETR、Transformer+LTR.
实验结果如表2 所示,Topic-CA 模型比表现最好的Transformer+LTR 模型在英-德,汉-英数据集上的BLEU 值分别提高了0.44、0.54 个百分点,主要原因是基于Transformer 融合主题信息的模型只翻译独立的句子,未能关注到当前句子以前的上下文信息,而基于上下文编码器Transformer 的Topic-CA 能够用额外的编码器将主题信息和当前句子之前的上下文信息有效融合到模型训练过程,让模型获得更多有用的上下文信息,从而提高模型翻译质量.
表2 不同方法融合主题的机器翻译实验结果对比Tab.2 Comparison of machine translation experiments results for fusing topic with different methods
2.4.2 实验2:不同方法的机器翻译实验 在汉-英,英-法,英-德3 对平行语料上进行汉-英,英-汉,英-法,法-英,英-德以及德-英6 项翻译任务.不同方法的机器翻译实验结果如表3 所示.Topic-CA 模型比表现最好的基线模型在汉-英翻译任务上BLEU 值提高了0.55 个百分点,在英-汉翻译任务上BLEU 值提高了0.49 个百分点,在英-法翻译任务上BLEU 值提高了0.54 个百分点,在法-英翻译任务上BLEU 值提高了0.47 个百分点,在英-德翻译任务上BLEU 值提高了0.47 个百分点,在德-英翻译任务上BLEU 值提高了0.46 个百分点.实验结果说明主题编码器学习的主题信息对篇章翻译模型的翻译效果提高有明显作用.
表3 不同方法的机器翻译实验结果对比Tab.3 Comparison of machine translation experiments results with different methods
由于LSTM、ConvS2S 和Transformer 模型均是翻译独立的句子,没有关注到句子的上下文信息,而本文方法融合上下文句子表征以及主题表征,有丰富的上下文信息指导模型翻译,所以BLEU 值提升很高.对于CA 模型,本文方法在有上下文句子编码器的基础上加入主题表征,因为主题表征中包含更多主题相近词汇之间的信息,融合更广范围的上下文信息,使得解码器生成的译文更符合上下文语境和篇章主题,提高了模型性能,所以相较于只有上下文句子编码器的CA 模型,本文的BLEU 值更高.
2.4.3 实验3:不同主题数目对BLEU 值的影响 将测试集的主题数目设置为{3,5,10,15,20,25,30,40,60,80,100},对比主题数目提高后的生成的主题表征对本文模型翻译的BLEU 值的影响,使用IWLST 汉-英数据集进行实验.如图5 所示,随着主题数目的提高,BLEU 值也在逐渐提高,主题数目为5 时,BLEU 值为14.79%,为最高值.但是在主题数目超过5 之后,BLEU 值总体趋势是先下降然后回升,最后趋于14.61%,说明在设置合适的主题词数目时,模型训练得到的主题表征包含更多相近主题词的信息,有助于上下文编码器编码更有效的上下文信息,对模型的翻译质量有一定的改善作用.同时也表明过度增加主题数目会使主题模型学习的主题表征缺少联系,模型的翻译质量没有明显提升.
图5 不同主题数目BLEU 值的变化Fig.5 The results in BLEU values for different topic numbers
2.4.4 实验4:主题表征模块的机器翻译实验 分别选择Bi-GRU、CNN、Bi-GRU-Attention、CNNAttention、Bi-GRU-CNN 以及本文方法Bi-GRUAttention-CNN 进行主题表征,对比其对机器翻译BLEU 值的影响.实验使用汉-英数据集进行模型的训练和测试,主题数目设置为70 个,测试主题数目设置为5.如表4 所示,其中“+”表示在CA 基础上增加其他方法,可以看出CNN 生成的主题表征对机器翻译模型的BLEU 值提升高于Bi-GRU,说明CNN 的主题表征能力优于Bi-GRU;同时加入额外的Attention 机制后,BLEU 值均有所改善,说明Attention 能捕捉到主题词汇之间的信息,进一步提高模型的翻译效果.本文提出的主题表征方法在BLEU 值上的提升最高,说明GRU、Attention 以及CNN 串行时所生成的主题表征对模型翻译的帮助最大.
表4 主题表征的性能结果对比Tab.4 Performance comparison for topic representation results
2.4.5 实验5:不同主题表征方法的对比实验 使用文本分类任务准确率(Accuracy)代表抽取主题信息性能的优劣,实验采用IWLST 的TED2017 演讲数据集中的汉语数据集进行实验,实验将测试集的主题数目K设置为{40,60,80,100}.
如表5 所示,本文方法在主题数目为80 时的文本分类的准确率为82.84%,此时的准确率最高,并且比基线方法中最高的GPU-DMM 方法高4.94个百分点.由此可以看出,在文本分类任务上,本文方法能够在文本主题的识别和归类的准确度上取得更好的效果,从而生成更准确的主题表征.
表5 不同主题表征方法的文本分类结果Tab.5 Document classification accuracy of different topic representation methods
2.5 译文示例分析以汉-英方向的翻译模型翻译结果为例,分析融合源语言端的主题信息对模型生成译文的影响,生成译文如表6 所示.在汉-英、英-德的示例中,Outside-CA 模型翻译成“stock trade”,而本文方法能够正确翻译该词组,可能是因为主题表征关注到的源语言的潜在主题例如“做交易”、“股票”等,因此能够正确翻译.在例句2 中,Outside-CA 模 型 将“international”翻 译 成 了“internationalen”,而本文的方法翻译成了internationaler,可以看出其意思与译文的“internationational”更加相似,它们的潜在主题可能与对应的{internation,outside}相关.因此可以看出本文采用主题表征的方式,能够使翻译模型学习到主题相关的词的信息,对生成译文的名词词汇有一定约束作用,有助于翻译模型预测目标词.本文方法虽然在翻译上较译文有所不足,但是在翻译质量上相较于基线模型有较大的提升.
本文针对篇章神经机器翻译的词汇消歧问题,提出了融合主题知识信息的篇章神经机器翻译方法.该方法在基于上下文句子编码器的NMT 模型中使用基于Bi-GRU 和CNN 的主题模型对源语言句子动态建模句子的主题表征,同时将上下文编码器的输出和源语言句子编码器的输出通过注意力机制得到上下文句子的表征,采用门控机制将上下文表征与源编码器输出进行加权,得到融合上下文信息的编码端的输出,将上下文编码器的输出以及主题表征输入解码器参与模型解码.本文在汉-英、英-法、英-德等6 对平行语料上进行了实验,同时又对比了不同主题数目对实验结果的影响.结果表明,融入源语言篇章主题信息能有效提高篇章级神经机器翻译模型的性能,但仅仅局限于在编码端融入主题信息.在未来的工作中,可以探索在解码端融入主题信息,进一步提高篇章神经机器翻译模型的性能以及改善翻译的词汇歧义问题.