文化风格区分的无监督领域适应的电商产品翻译

2021-10-29 14:21史小静宁秋怡段湘煜
关键词:区分语料平行

史小静,宁秋怡,段湘煜

(苏州大学计算机科学与技术学院,江苏 苏州 215006)

经济全球化促进了世界多边贸易体制的形成,跨境贸易显得日趋重要,出口产品信息翻译需求也日益突显,仅依靠人工来实现翻译花费较大且不易实现.机器翻译(machine translation, MT)的发展使得这一问题得到了缓解.近年来神经机器翻译[1-3](neural machine translation,NMT)的提出极大地改善了MT模型的性能,并且在某些领域已经达到了较高的水准[4-7],但是MT系统的性能很大程度上依赖于平行语料的规模和质量,然而在跨语言的信息处理任务中,平行语料是非常稀有的,因此基于领域适应的MT引起了广泛的关注,其中大部分工作集中在少量内领域平行数据可用的情况[8-9].

现有的无监督领域适应的NMT主要通过生成内领域伪平行数据或对模型结构进行修改.Freitag等[10]提出使用外领域的平行语料预训练一个翻译系统,基于外领域翻译模型,利用内领域的数据继续进行调参训练,以达到领域适应的目的,同时保证了外领域系统的性能仅有稍微的减弱.Sennrich等[11]提出将内领域目标语言文本通过反向翻译的方法翻译为源端语言数据,再将翻译得到的源端数据和真实的目标端数据构建内领域的伪平行数据.Currey等[12]提出将内领域的目标语言文本复制到源语言端来创建内领域的伪平行语料数据.Zeng等[13]提出分别使用外领域和内领域的数据进行预训练,然后基于知识蒸馏迭代地执行双向知识转移帮助模型的训练.Chu等[14]提出把多语言翻译和领域自适应结合起来,改善资源缺乏的内领域的翻译模型的性能.Dou等[15]提出将领域特征嵌入到神经网络中编码端的无监督领域适应方法,并通过多任务学习来联合训练整个神经网络.Yang等[16]提出通过引入两个分类器,其中一个用于判断模型生成的句子是否属于目标端领域,另一个用于判断译文句子是否属于源端句子领域,这两个分类器构成了一个对抗训练的网络.Su等[17]提出采用多任务学习的方式,将翻译任务和领域分类任务进行联合建模:通过在编码端引入领域分类器和对抗领域分类器对输入句子进行领域分类,从而分离出领域专有信息和领域共享信息;解码端使用基于注意力机制的领域分类器,从而使分类器导出的注意力权重具有领域特征,可用来调整训练过程中反馈的误差.Zeng[18]提出将NMT模型和单语领域分类任务联合,使用两个门控向量构建领域区分和领域共享的注释,利用目标端领域分类器得到的注意力信息调整目标词的权重,使得领域相关的词获得更大的权重.Shoetsu等[19]提出词表自适应方法,在微调之前将词嵌入映射到内领域的词嵌入空间,缓解领域差异较大的预训练导致的领域不匹配问题.Gordonm等[20]提出将知识蒸馏和领域适应相结合,提升多语言对模型的效果.

NMT模型的性能很大程度上依赖于训练数据的数量和质量,然而据本文调研,目前电商领域还没有公开可利用的平行语料,这是训练电商领域产品翻译系统的主要挑战之一.此外,由于不同地区的文化风格和语言特点的差异,即使对于同一种产品也会有不同风格的描述信息,这是电商领域产品信息翻译的另一难点.为了解决电商领域语料稀少这一问题,本文分别从不同的电商平台获取了不同语言的产品数据信息,主要包括中文和英文电商领域产品的数据信息,中文电商领域的语料数据取自淘宝官方网站,英文电商领域的数据语料取自亚马逊官方网站.针对产品信息文化风格差异这一问题,本文提出了基于无监督领域适应的混合训练方法和文化风格区分方法.利用资源丰富的新闻领域的平行语料训练源语言到目标语言以及目标语言到源语言的两个翻译系统,然后对电商领域的单语数据进行翻译得到伪的平行数据,使用伪平行数据进行混合训练和文化风格区分的方法进行模型训练.

1 混合训练和文化风格区分的方法

本文提出的混合训练和文化风格区分的无监督领域适应电商产品信息的翻译方法,使得基于资源丰富的外领域的平行语料库训练的翻译模型能够适应于没有平行语料的电商领域单语数据的翻译任务,提升电商领域的MT译文质量.本文基于目前效果最好的Transformer进行混合训练和文化风格区分实验,将电商领域的单语数据视为内领域的数据,将新闻领域的数据视为外领域的数据.

1.1 混合训练方法

1.2 文化风格区分的电商产品翻译方法

电商领域中,不同语言的不同电子商务平台的产品信息描述表现出显著的风格差异,例如给出的同一类产品,不同语言的电子商务平台的相应特性描述如下:

淘宝平台:阿迪达斯adidas 男鞋 女鞋2021 春季 中底 运动鞋 减震 跑步鞋

亚马逊平台:These adidas running shoes are designed to turbo charge your daily miles.A soft, comfortable elastane heel allows for natural movement of the Achilles.

从上述样例中可以看出:中文淘宝平台的产品描述信息主要是以词汇的无序堆叠方式呈现,包含较少的语义信息;与之相比,亚马逊平台的英文产品描述信息更加流畅自然并且语义信息较为丰富.为了区分不同语言数据的不同文化风格,缓解电商产品翻译过程中的文化风格差异问题,本文给不同语言的电商数据添加了对应的文化风格区分标记(如图1所示).在训练过程中告诉模型当前数据的所属类别,根据类别信息获取相应的文化风格区分特征向量.在编码端,网络的输入信息添加源语言端的文化风格特征向量,而在解码端添加目标端语言的风格特征向量θculture,使得模型在解码过程中能够学习到特定的目标语言的文化风格,在忠于源端数据的前提下使得到的译文风格更趋于目标端的风格.文化风格特征向量在模型训练过程中与其他参数共同训练,通过与1.1节的混合训练方法相结合,使得模型不仅能够学习到同一产品的相关联的描述信息,同时也能够捕获到同一产品的不同文化风格的描述信息,共同提升产品翻译的译文质量.

图1 文化风格区分的网络结构Fig.1 The network structure of cultural-style aware

当编码端的数据为淘宝平台的数据时,则在编码端添加淘宝数据的文化风格特征向量.相应地,希望目标端的译文在忠于原文的前提下具有亚马逊文化风格的特征,则在解码端添加亚马逊数据的文化风格特征向量.具体如式(1)和(2)所示.

(1)

(2)

相应地,混合训练时当编码端的数据为亚马逊平台的数据时,则在编码端添加亚马逊数据的文化风格特征向量.此时,希望目标端译文在忠于原文数据的前提下具有淘宝文化风格的特征,则在解码端添加淘宝数据的文化风格特征向量.特别地,文化风格区分的特征向量分别在编码器端和解码器端的每一层均添加,为了方便拼接,特征向量的维度和隐藏层的状态向量维度保持一致.

2 对比训练模型和策略

本文选择标准的Transformer[7]模型结合混合训练和文化风格区分的方法进行训练,并将本文提出的方法与如下几种训练策略进行对比:

a) 反向翻译 Sennrich等[11]提出利用外领域已有的平行语料,训练一个目标端到源端的翻译系统,再通过训练好的系统将目标端单语语料翻译成源端对应的语料,将得到的源端语料和真实的目标端语料构成伪平行语料.将外领域的平行语料和合成的内领域的伪平行语料连接实现对内领域数据的扩充,使用扩充的语料训练源端到目标端的NMT系统.

b) 基于外领域模型微调的反向翻译 Freitag等[10]提出使用外领域的平行语料预训练一个Transformer翻译系统,基于外领域数据训练得到的翻译模型利用内领域的数据继续进行调参训练,以达到领域适应的目标,同时保证了外领域系统的翻译性能仅有稍微的减弱.

c) 目标端复制 Currey等[12]提出将目标端内领域的单语语料复制一份作为源端数据,与其构成伪平行数据,将得到的伪平行数据与外领域的平行语料进行连接,共同训练一个领域适应的Transformer系统,并且证明了通过复制目标端文本到源端得到的伪平行语料不会消减外领域数据训练的模型性能.

d) 基于领域感知特征嵌入的无监督领域适应(domain aware feature embedding,DAFE) Dou等[15]通过将特定领域的特征嵌入添加到NMT编码端的每一层网络中,并且结合语言模型进行多任务学习来训练特定的领域特征.这种在多任务学习网络框架中的训练模型,既有领域外的平行语料,也有通过反向翻译生成的内领域的伪平行语料.本文提出的文化风格区分的方法不仅在编码端添加源语言端的文化风格区分标记,同时在解码端添加目标端语言的文化风格区分标记.本文的文化风格区分标记的特征参数不是通过单独的语言模型进行训练,而是与网络中其他参数一起训练,降低了网络训练的复杂度,提升了模型在电商领域数据的翻译性能.

3 实 验

3.1 实验数据集

从语言数据联盟(LDC)中抽取新闻领域的中英平行语句对训练中英和英中基准系统,训练数据包含125 万平行语句对,该训练数据集为外领域平行语料.测试集为美国国家标准与技术研究院2002年的数据NIST02、NIST03、NIST04、NIST05 和NIST08,共5个测试数据集.验证集为NIST06.中文词表大小为4万,英文词表大小为5万,其余低频词用替换.

电商数据集中,因为淘宝和亚马逊网站的电商产品资源非常丰富,并且获取的数据比较具有权威性,所以中文电商领域的产品信息语料取自淘宝官方网站,英文电商领域的产品信息语料取自亚马逊官方网站.中英文数据均主要包括女士服装、男士服装、玩具和食物四大类别,具体的数据统计信息如表1所示.

表1 电商领域的数据统计Tab.1 Data statistics of e-commerce

3.2 实验参数

本文中所有实验均基于开源代码Fairseq[23],将模型设置为Transformer,模型的失活率设置为0.3,编码器和解码器层数均为6层,其他基本的超参数设置为Fairseq中的默认参数选项,最大保存模型数目设置为5.解码时,采用集束搜索,其中束大小设置为5,其余参数采用默认设置.训练和测试均在NVIDIA TITAN XP GPU硬件上实现.

3.3 评测标准

双语互译评估[24](bilingual evaluation understudy,BLEU)是一种MT的自动评估指标,用来评估MT的译文质量,计算公式为:

(3)

其中:VBP表示过短惩罚系数,当译文的句子过短时,会给其一定的惩罚;pn为n元语法的精度,表示译文句子的词出现在参考答案中的概率;wn为每个pn的权重.

3.4 不同字节对编码(BPE)实验

由于电商数据多为基于名词实体或短语的堆叠,比如:品牌名和产品的形状等,固定的词表大小产生的未登录词较多.在将数据用于相关实验之前,本文中使用BPE[25]技术处理了所有数据.并且分别设置了不同的BPE进行实验,以探索合适的BPE.实验结果如表2所示,当编码方式为中英单独编码、BPE为64 000 时,翻译性能最佳,故以下实验均采用中英单独编码,BPE大小选为64 000.

表2 不同BPE的实验结果对比Tab.2 Experimental results comparison of different BPE

3.5 混合训练实验

本文中分别尝试不同比例的电商内领域的伪数据和外领域的平行语料进行实验,得到的实验结果如表3所示.对比添加不同比例的外领域平行语料时Tranformer的翻译性能可知,当电商数据与外领域平行语料的数据比例为1∶1时,翻译效果最好,这与Sennrich等[11]得到的结论一致.

表3 不同比例数据的实验结果Tab.3 Experimental results of different scale data

采用本文提出的混合训练方法得到的实验结果记录在表3中最后两行.与以1∶1的比例添加外领域平行数据的翻译性能相比,本文提出的混合训练方法仅用电商领域的单语数据及其解码得到的伪数据在英中和中英翻译中平均BLEU值分别提升2.64和1.54个百分点.虽然未使用质量较高的外领域的平行语料,本文的混合训练方法相比于其他已有的方法依旧得到了较大的提升.这与Edunov等[21]和Bogoychev等[22]的研究结果一致,本文提出的混合训练方法结合了两者的思想,通过混合训练的方法使得模型能够学习到亚马逊和淘宝电商平台产品数据的共同特点,特别是对于同类别产品的数据信息,使得模型能够捕获到不同平台数据的相关信息,从而进一步提升了电商领域的产品信息的翻译效果.

3.6 混合训练+文化风格区分实验

基于混合训练方法添加文化风格特征嵌入的实验结果和相关方法基准系统的实验结果如表4所示.

表4中,基准系统为仅使用外领域平行语料训练得到的Transformer模型.对比已有的主流方法反向翻译、基于外领域模型微调的反向翻译、目标端复制和DAFE方法的翻译性能,可以看出以上实验方法均能有效地提升电商领域产品信息翻译的效果.其中,对于英中翻译方向,目标端复制方法相对于基准系统的平均BLEU值提升最高,为3.63个百分点;对于中英翻译方向,基于外领域模型微调的反向翻译方法的性能提升最明显,平均BLEU值提升6.90个百分点.本文提出的混合训练方法在英中翻译方向上BLEU平均得分为16.74%,高出基准系统3.99个百分点,中英翻译方向上平均BLEU得分为16.79%,高出基准系统7.03个百分点,同时相较于已经存在的相关主流方法均有进一步的提升.

表4 不同方法的实验结果Tab.4 Experimental results of different methods

从表4中最后2行的结果来看,在混合训练的基础上增加文化风格特征区分后,在英中翻译方向上的平均BLEU得分为17.07%,高出反向翻译方法2.97个百分点,高出目标端复制单语数据的方法0.69个百分点,并且相较于混合训练方法,模型效果有进一步地提升;在中英翻译方向上,混合训练+文化风格特征区分在四大类测试集数据上的平均BLEU得分为17.33%,高出反向翻译方法1.58个百分点,高出目标端复制单语数据的方法0.78个百分点.实验结果表明,文化风格特征嵌入和混合训练的方法相结合使得模型不仅能够学习到同一产品的相关描述,同时也能够捕获到同一产品的不同风格特征的描述,使得模型的翻译效果得到进一步的提升.

4 结 论

针对电商产品翻译系统的训练存在两个主要的问题:电商领域训练数据稀缺和电商产品描述文化风格差异较大,本文将获取的大量产品信息预处理后作为训练语料,并且提出了基于无监督领域适应的混合训练添加文化风格特征区分的方法.实验结果表明,本文提出的方法提高了基于单语语料的电商产品翻译的准确度.目前仅对于中文淘宝官方网站的电商产品和英文亚马逊官方网站的电商产品数据信息进行了相关实验,未来工作中,将获取更多平台和更多语种的电商领域产品数据信息进行相关研究,使得电商产品信息翻译模型性能够得到进一步的提升.

猜你喜欢
区分语料平行
向量的平行与垂直
平行
基于归一化点向互信息的低资源平行语料过滤方法*
逃离平行世界
怎么区分天空中的“彩虹”
教你区分功和功率
怎祥区分天空中的“彩虹”(一)
再顶平行进口
罪数区分的实践判定
《苗防备览》中的湘西语料