基于双向GRU神经机器模型的乡土小说翻译方法

2021-04-23 12:54孙李丽张文诺
计算机与现代化 2021年4期
关键词:源语言语料语句

孙李丽,郭 琳,文 旭,张文诺

(1.商洛学院人文学院,陕西 商洛 726000; 2.商洛学院电子信息与电气工程学院,陕西 商洛 726000;3.西南大学外国语学院,重庆 400715)

0 引 言

机器翻译随着人工智能和深度学习技术应运而生,当前主要分为统计机器翻译SMT和神经机器翻译NMT这2种,前者利用语料库抽取跨语言词汇片段单元,依赖于平行语料库及大小,发展了基于词、短语和句法3种类型[1-2];后者利用神经网络建立端到端翻译模型,建立源语言和目标语言的直接映射,缓解了语料库数据缺乏问题[3-4]。特别是近几年融入注意力机制、门逻辑单元和长短时记忆单元之后[5],使得翻译质量显著提升,成为翻译研究与应用的主流。机器翻译软件陆续问世,例如百度2015年率先发布基于SMT的NMT神经网络机器翻译系统;谷歌作为翻译领域龙头,2016年发布系统之后开始致力于单模型多语言翻译系统开发。有道拥有词典搜索引擎和巨大用户数据,在新闻、英语学习和人机结合领域,具备强大竞争力;搜狗与清华大学建立天工智能计算研究院,依托搜索和输入法语料库,专注于中英翻译领域[6-8]。关于文学作品的机器翻译也开始出现,但是由于文化、政治、创造性等语言特色[9]和语言高维度诉求,很难同时达到“信、达、雅”的目标要求,所以需要结合作品语言特点改进机器模型,帮助人们进行自动化翻译工作。本文提出一种融合语义概念增强源端语言信息的方法,利用门控逻辑单元融合注意力机制,提高文学作品翻译质量。

1 有限语料下神经机器翻译方法概述

1.1 翻译需求分析

本文以贾平凹的乡土小说《高兴》[10]为源语文本,以2017年英国翻译家Nicky Harman的译本HappyDreams为目标语文本[11]。贾平凹被我国读者和媒体称为顶级流量明星,作品翻译的外文已有30多语种,已经成为世界文学一部分。描写农村人进城的作品《高兴》,有着复杂交织的人物感情和差异性地域特色。Nicky Harman认为,不仅要流畅地阅读理解,还要吃透作品方言和充满影射、隐晦的口语,最难的是贾平凹先生创造性的地方特色语言,包括人物对话、俚语、可信度和言外之意,需要协商折中找到精妙的翻译方案。机器翻译和人工翻译类似,是对小说解码和重新编码的过程,并非机械化般无情,而是中西方语言文化的一次融合和训练,真正找到小说的词义、语义和语境。针对小说作品汉译英任务,在有限语料或者零语料的情况下,如何提高机器翻译性能质量问题,现阶段研究基于端到端的神经机器翻译方法,已有几种可供参考的典型神经网络模型。

1.2 RNN-NMT基础模型

基本语言模型主要分为基于离散空间的统计学模型和连续空间的神经网络模型2大类[12],前者使用估计概率得分和数据平滑技术;后者使用文本向量输入获取词特性和语义特征,捕捉字词级、句子级和语料库级的上下文信息。循环神经网络机器翻译模型RNN-NMT,利用编码器和解码器网络架构以及分布式词向量方法,组建目标语言向量集和源语言向量集,通过循环神经元连接上下文信息、输入层语句W={D1,D2,…,Dn}、输出层语句Y={y1,y2,…,yn}和翻译词汇表中具有相同维度的隐含层与输出层的权重矩阵V,组成相互叠加的RNN网络结构。

1.3 WordNet语义相似度模型

(1)

其中,P为概率分布。用公式(2)定义词对(y′i,yi)的相似程度得分为:

(2)

用公式(3)求词对(y′i,yi)在待选词集S中与同义词语义相似度最高的待选替换词:

(3)

1.4 GRU-LM单向门控相似度模型

GRU门控循环单元作为LSTM长短期记忆网络的简明结构,包含重置门和更新门2个控制门限[15],可以自主选择有用数据向下一时刻传递,用以控制历史隐含层数据对下一时刻的影响。如图1所示,如果在t时刻有一个样本数为n、维度为x的文本特征向量x通过GRU时,隐含层长度为h,类似于长短期记忆,重置门和更新门可以用rt和zt表示,隐含层输出用ht表示:

rt=σ(Wx,rxt+Wh,rht-1+br)

(4)

zt=σ(Wx,zxt+Wh,zht-1+bz)

(5)

ht=(1-zt)⊙ht-1+zt⊙tanh(Wx,hxt+rt⊙Wh,hht-1+bh)

(6)

式中,Wx,r和Wx,z分别为重置门和更新门的隐含层权重系数;br和bz分别为重置门和更新门的隐含层偏置向量;Wh,r和Wh,z分别为重置门和更新门新引入的学习权重系数;σ为隐含层的Sigmoid激活函数;Wx,h和Wh,h为可学习权重系数;bh为可学习偏置向量。

图1 GRU-LM门控结构图

1.5 BiGRU-LM双向门控相似度模型

上述GRU-LM模型对输入序列扫描并存储,得到的文本向量仅包含单方向的前后文信息,所以有必要引入双向BiGRU-LM模型,利用双向循环神经网络[16],向左右方向扫描输入的文本序列向量,同时得到2组隐含层向量序列,然后通过拼接得到一个文本向量序列。通过双向网络结构组成一种新型交互结构系统,如图2所示,包括1个向左解码器、1个向右解码器和1个共享编码器,类似于多任务学习,模型需要建立目标函数进行训练,其中{x,y}为交互前的向量序列,{x,y′}为交互后的翻译序列,模型经翻译序列训练学习重新生成语句{…,y′j-2,y′j-1,y′j,y′j+1,y′j+2,…},其中训练目标函数L为:

L=LL+LR

(7)

式中,LL和LR为左右过程函数,y′j表示当y的下标大于j时,选择向语句序列右边拼接;|y|为语句y的长度,j为y和y′的词的个数。

图2 双向循环神经网络交互式系统示意图

2 BiGRU-LM-Attention新模型

文学作品中语句长度是不固定的,很复杂的语句需拆分成若干短句,拆分后的短句采用相同维度向量进行编码,关注程度无差别,所以拆分时的语义识别非常重要,前面所列模型无法完全识别源语言序列。另外,在特定文学作品语料极少的情况下,翻译的替换词很难同时保证源语言文本的词义和句义质量[17-18]。为了更好模仿人工翻译小说,提高机器翻译性能,本文在介绍的几种模型的基础上创建BiGRU-LM-Attention新模型,融合WordNet语义概念集外词处理方法和注意力机制模型,利用双向循环神经网络捕捉源语句语义信息,建立翻译作品与已有翻译作品集在语言文化、人物对话和专用俚语等方面的相似性联系(语义相似度和匹配程度),计算语句级别奖励值更新预训练NMT模型参数,提高此类乡土小说的翻译质量。

模型结构如图3所示,主要由编码器、解码器和融合注意力机制组成。模型编码时由多向量替代源语言的固定向量,生成目标序列时可以随机选择更加关注的背景向量,解码时关注目标序列相关性最大的源语言向量,更好地解决复杂长句的语义翻译问题。目标语序列的词文本能找到一个模型背景向量Cj:

(8)

式中,hi为时刻i的隐含层状态,αij表示目标序列中第j个词对源序列中第i个词的注意力大小。αij值大小反映了源语言序列与目标序列的隐含层状态之间的相关或者匹配程度,需要相关模型训练学习。

图3 BiGRU-LM-Attention模型结构

本文选取LDA主题模型[19]生成小说段落、主题和词的3层贝叶斯网络结构,获取代表作品文本主题注意力最高的概率信息,构成注意力机制特征向量。假设一组n个特征词组成的文本集W={d1,d2,…,dn},统计有K个注意力主题,记作zi(i=1,2,…,K),由LDA主题模型生成注意力主题概率分布:

(9)

式中,P(di|z=k)为词di属于第k个主题的概率,P(z=k|W)为第k个主题在文本W中的概率,由主题概率值构成的向量序列就可以作为文学作品注意力机制特征向量,代入BiGRU-LM-Attention模型使用。选取乡土小说《高兴》中的n段原文输入到模型中,初始时设定注意力主题个数K的范围为0~50,输出作品文档主题概率分布向量矩阵如表1所示,行为文本Wi,列为文本Wj对应主题下的概率值。使用LSTM模型作为分类器开始训练,当翻译评价指标最高时对应的主题数作为最优分类结果。

表1 注意力机制模型的主题矩阵

3 模型BLEU评价

针对已有的4类机器翻译模型和本文新建模型,进行机器翻译BLEU值评价。神经机器翻译系统的基线系统选择RNN-NMT,解码采用柱搜索算法,工作参数设置如下:编码器和解码器隐藏神经元为512个,词向量维度为512,最大句长为80个词,每批次训练语句为128条,过拟合Dropout率设置为0.5,词频率阈值为400,解码器Beam size设置为10。选择乡土小说《高兴》汉语本作为测试集语料(1~60章),选择Nicky Harman人工英译本(1~60章)作为训练集语料,选择BLEU-4作为译文自动评价方法[20],进行N-gram片段统计,然后量化为BLEU值得分。如表2所示,把小说文本分为4部分进行测试,本文建立的BiGRU-LM-Attention比基线系统高10.87个BLEU值,比其他模型分别高出8.71个、7.59个和5.41个BLEU值。

表2 机器翻译模型的BLEU值评价

表3 机器翻译结果示例

4 翻译质量评估分析

为了测试新建机器模型的翻译性能,使用我国常用的4种在线翻译工具(百度、谷歌、有道和搜狗)[21],与之做翻译性能比较和质量评估分析。摘选《高兴》5段原文进行测试,机器翻译结果的示例如表3所示,如专用名词“浆水菜瓮”,唯有新模型正确译为“crock of vegetable pickles”;如“豆腐干”的翻译,新模型和搜狗用“dried bean curd”,百度和谷歌用“dried tofu”,都是正确译法,而有道错译为“dried milk”;如“熏肉”皆正确译为“bacon”;如方言“嘴吊起来”,4种在线工具用“the mouth hang up”,而新模型翻译为“mouth might be tied up”,形象表达了人物五富的语义“第二天即便没钱吃饭了,宁愿把嘴绑起来”。

根据机器模型常见错误类型[22-23],建立翻译质量评估指标体系,包括3个类别和10个评估指标,每个指标最高赋值为10分,总计100分。将机器译文与Nicky Harman的人工译文一起做质量评估,结果如表4所示,人工译文的翻译质量评估得分为90,百度、谷歌、有道、搜狗和新建模型的评估得分为43、47、34、48和57,新模型翻译质量相对较好,模型在专用名词识别、被动语态灵活识别和俚语识别等方面性能突出。如果把人工译文作为翻译质量基准,4种在线翻译工具和新建的模型正确率分别占47.8%、52.2%、37.8%、53.3%和63.3%。

表4 机器翻译质量结果比较

5 结束语

通过对神经机器翻译模型的研究,找出了不同翻译模型的优缺点,基于端到端的RNN神经网络框架,创建了新模型BiGRU-LM-Attention,以乡土小说《高兴》为训练语料,进行了翻译和质量评估分析。提出的双向门控循环加注意力机制模型,具有双向扫描前后文本向量能力,编码时可随机选择关注主题的背景向量,解码时能关注相关性最大的源语言向量,更好地解决小说复杂长句的语义翻译问题;通过BLEU值的评价结果,发现新建模型翻译性能明显高于其他4类模型;通过机器翻译质量评估对比,新模型优于4种常用在线翻译工具,在语义识别、方言、专用名词、俚语和被动语态灵活识别方面性能突出。后续将继续研究注意力机制中主题的优化筛选方法,更好地获取源语言的背景向量,同时还要建立小说作品的集外词、歧义词和专用名词语料库,提高乡土小说的机器翻译性能。

猜你喜欢
源语言语料语句
重点:语句衔接
林巍《知识与智慧》英译分析
浅析日语口译译员素质
基于语料调查的“连……都(也)……”出现的语义背景分析
华语电影作为真实语料在翻译教学中的应用
以口译实例谈双语知识的必要性
《苗防备览》中的湘西语料
国内外语用学实证研究比较:语料类型与收集方法
如何搞定语句衔接题
Expression of Ezrin, HGF, C-met in pancreatic cancer and non-cancerous pancreatic tissues of rats