基于短语统计模型的藏汉在线翻译系统实现

2019-07-20 13:24臧景才陈建新李永虎

电子技术与软件工程 2019年10期

臧景才　陈建新　李永虎

摘要：本文主要介绍了基于短语统计方法的藏汉机器翻译系统的实现，其中对开源工具包Moses（翻译模型的训练工具）、IRSTLM（语言模型训练工具）、GIZA++（双语对齐工具）及XMLRPC（在线翻译工具）等的相关理论使用做了分析和说明，并对藏汉双语语料、藏汉双语语料预处理、训练语言模型、训练翻译模型、构建解码器和搭建藏汉在线翻译系统几个模块的做了阐述，从而实现整个藏汉在线机器翻译系统的搭建。

[关键词]短语统计模型藏汉在线翻译

1 引言

目前，基于语料库的统计机器翻译方法成为了研究的主流，统计机器翻译（Statistical Machine Translation，简称SMT）系统首要任务是为语言的产生统计模型，并在此统计模型基础上自动从双语语料中获取需要的各种参数，需要的人工干预较少，因此基于统计的机器翻译比其他机器翻译方法有着比较明显的优势。本文利用MOSES、IRSTLM、GIZA++、Mteval、XMLRPC等开源的工具包和一些公共资源搭建基于短语的藏汉在线翻译系统，通过实践和应用进一步探讨和研究藏汉机器翻译系统的工作原理，提高应用水平和翻译效果。

2 开源工具的选取

2.1 翻译模型训练工具Moses

Moses是一个基于短语的统计机器翻译系统，它的开发领导者是Philipp Koehn。整个Moses系统都是开放源代码的，可在多个系统平台上运行。运用处理好的双语对齐语料库进行翻译模型的训练，最终得到从源语言到目标语言的翻译概率表。本系统就是利用Moses进行藏汉机器翻译模型的训练。

2.2 语言模型训练工具IRSTLM

Moses目前支持三个语言模型工具包SRILM（The SRI language modeling toolkit），IRSTLM（IRST language modeling toolkit）和RandLM（the Rand LM language modeling toolkit）。IRSTLM是意大利TrentoFBK-IRST实验室开发的语言模型训练工具包，主要目的是处理较大规模的训练数据，在大规模语言模型的训练和使用上IRSTLM较SRILM有较大的优势，其内存消耗仅是SRILM的一半。IRSTLM训练的基本思想是把总的词汇表分割成若干个子词汇表，然后把每一个子词汇表独立地进行训练，得出相应的子语言模型，最后把这些得到的子语言模型进行快速融合，得到最终的语言模型。另外，划分的这些子词汇表的大小可以是任意的，也就是说训练子语言模型的内存空间是可以控制的。所以，在本系统中选择使用IRSTLM工具来训练语言模型。

2.3 词语对齐工具GIZA++

统计机器翻译（简称SMT）系统能够自动从双语语料中获取模型系统需要的各种参数，其中很重要的一个环节就是词语、短语的对齐。GIZA工具是约翰.霍普金斯大学中的语言与语音处理中中心在1999年统计机器翻译研发的，用于从双语语料库中抽取双语对齐语料，进行从源语言到目标语言和从目标语言到源语言两个方向的参数训练，建立翻译模型。GIZA++是GIZA的升级版本，是开放源代码的免费工具包。本系统用该工具进行汉语到藏语以及藏语到汉语的两个方向的对齐训练。

2.4 藏汉机器翻译自动评测工具Mteval

Mteval是由NIST（美国国家标准与技术局）提供的机器翻译自动测评工具，该工具是用Perl语言编写而成的。现在普遍的采用BLUE作为机器翻译的评测指标，它将翻译结果的文件与参考答案进行n-gram匹配，從而给出评分，得出评测结果。

2.5 搭建的藏汉在线翻译系统工具XMLRPC

XMLRPC是一种基于Internet的远程函数调用协议，利用控制传输协议来传输XML格式的文件，并通过该协议获得远程调用。XMLRPC是RPC机制的实现方式之一，采用XML语言作为服务器与客户端的数据交互格式。搭建的藏汉在线翻译系统是能够通过Server的形式启动，能够通过网页的形式来访问本文所搭建的这个藏汉机器翻译系统，使得系统具备了在线翻译的功能。

3 搭建藏汉在线翻译系统

统计机器翻译的基本思想是通过对大量的平行语料库进行统计分析，构建统计翻译模型，进而使用此模型进行翻译，选取统计中出现概率最高的词条作为翻译对象，如图1。概率算法依据贝叶斯定理：假设要把一个藏语句子A翻译成汉语，所有汉语句子B，都是A的可能或是非可能的潜在翻译。Pr（A）是类似A表达出现的概率，Pr（B|A）是A翻译成B出现的概率。找到两个参数的最大值，就能缩小句子及其对应翻译检索的范围，从而找出最合适的翻译。

具体搭建Mosesserver需要安装必要的工具，如Perl、PHP、netcat以及XMLRPC等。安装完这些工具以后，需要对文件进行配置，即可完成。

3.1 准备藏汉双语对齐语料库

基于短语的藏汉在线翻译系统是运用统计方法的机器翻译系统来搭建，这就需要依赖庞大的双语语料库为基础，语料库的健全与否将会对系统的翻译效果产生很大的影响。在构建语料库时尽量不要使得语料库中单词出现次数过低，从而引起数据稀疏的现象;尽量找到以藏语为原创的藏汉对照语料，忠实于藏语语言特点;限制藏汉双语语料中单词的长度，这样会使得统计学习更加的容易。训练语料库包括藏语语料和汉语语料库。

3.2 藏汉双语语料预处理

藏文的编码方式较多，首先对输入的藏文文本进行编码判别，把不同的编码转换成系统能够识别的统一编码格式。系统的源语言句子为藏语，为了后期的词抽取和短语对抽取，需要进行断句和分词的预处理操作。预处理是将文本统一为相同的数据格式，然后进行分析计算。预处理包分类和括编码归一，由于藏文字符为宽字符，因此语料以utf-8的编码格式储存，为了便于语料库的维护，特别是构建大型的藏汉双语平行语料库实行分类储存;编码归一化是将文本转换为相同的编码格式。

3.3 训练藏汉短语翻译模型

对藏汉双语语料预处理，需要去掉空行、去掉多余的空格、短语切分、时间和数字的归一化处理、根据词典信息和长度信息（这里要求短语的长度在1到80之间），过滤掉过长的对齐短语，经过以上，上步骤就可以得到相对比较干净的双语平行对齐句对。运用IRSTLM工具包训练汉语语言模型，首先需要对汉语语料进行分词等预处理工作。训练后的输出结果文件，采用的是ARPA标准格式。

3.4 GIZA++进行双语对齐

通过GIZA++进行双语对齐。对齐是双向的对齐，也就是说分别进行从藏语到汉语和从汉语到藏语的对齐。GIZA++利用的IBM模型，它只能够将一个目标语言映射到多个源语言单词上去，如果想要得到多对多的映射，就需要对双语对齐句对进行优化对齐（AlignWords），优化的方法主要有intersect、Grow-Diag-Final、union等方法。Grow-Diag-Final优化算法的基本思想是：获得从藏语到汉语以及从汉语到藏语的对齐结果，并取得并集和交集。在此基础之，上，以从藏语到汉语以及从汉语到藏语对齐结果的交集为中心点，依次检查它的上下左右（grow）、对角（ding）以及相邻的8个节点，如果在双向对齐结果的并集中，则将其作为扩展的对齐节点，并加入到对齐序列中。其中，取交集是为了获得较高的准确率，取并集是为了获得较高的召回率。根据得到的对齐矩阵，利用最大似然估计方法（Maximum Likelihood Estimate，MLE）获得到翻译概率表，经过短语对抽取、短语评分计算出短语翻译概率和短语词翻译概率，在完成上步骤以后，经过重排模型，生成藏汉翻译模型（Generate Model）。

3.5 构建藏汉解码器

统计机器翻译可以看做对原文通过模型转换为译文的解码过程，解码器是一个基于短语的柱搜索解码器，该解码器运用柱状搜索算法，从汉语源语言模型和藏汉短语翻译模型中读取到有用的信息来进行解码。在解码器的配置过程中，需要告诉解码器汉语语言模型以及藏汉翻译模型的路径和名字。

3.6 GIZA++性能测试分析

短语对齐是统计翻译的基石，随着语料的不断加大，对系统资源的占用会增大，需进行测试和分析。此测试是在pc机上进行，训练语料为100000和600000，句长限制均为30的情况下内存消耗量与时间的走势图。从测试可以发现两种情况下所耗费的时间不相同，训练语料为100000句时程序要运行34分钟，而600000句时需运行104分钟。在训练语料为100000句的时候，其峰值出现在程序运行的第16分钟，大小约为343650KB，600000句的时候，其峰值大约出现在程序运行的第46分钟，大小约为678481KB。可以看出，整个过程所用时间和内存消耗量随所处理训练语料的增大而变大。

通过测试，对于预估计整个过程的运行具有很大帮助，从而避免在运行中由于资源不足而导致程序崩溃的情况。

3.7 构建藏汉解码器

解码器是一个基于短语的柱搜索解码器，该解码器运用柱状搜索算法，从源语言模型和藏汉短语翻译模型中读取到有用的信息来进行解码。在解码器的配置过程中，需要告诉解码器汉语语言模型以及藏汉翻译模型的路径和名字。构建解码器的具体命令行如下所示：

Moses-fmoses.iniout.txt其中-f表示的是后面为配置文件moses.ini，尖括号中的in.txt表示的是要翻译的源语言文本，而out.txt是要存放翻譯结果的文本。

因为藏汉双语短语表是通过平行语料库自动抽取得到，同一个汉语的短语可能映射多个不同的藏语短语。要想快速高效地找到翻译结果，就需要对藏汉双语短语进行匹配优化。就是一个藏语短语只取理论上最好的N个汉语短语。这里所谓的最好就是用短语翻译概率表来衡量的，翻译的概率越高它就越好。

4 系统的特点和优势

基于短语的藏汉在线翻译系统，翻译质量的高低主要取决于概率模型的好坏和语料库的覆盖能力，基于短语的翻译模型与基于句法的翻译模型相比，模型较简单、训练速度较快、解码效率较高;用基于短语的翻译方法能够包含局部上下文信息，比基于词的翻译方法能取得更好的翻译效果;基于短语的翻译语料更容易获取，依赖爬虫技术有互联网中大量的文本资料，基于这些文本资料可以获取大量的语料来源，从而为自己的翻译提供大量的依据数据，不足之处是语料库的选择和处理工程量巨大。

5 结束语

本文利用MOSES、IRSTLM、GIZA++、Mteval、XMLRPC等开源的工具包搭建基于短语的藏汉在线翻译系统。首先，利用IRSTLM完成了对汉语语言模型的训练，利用Moses、GIZA++词对齐工具完成了对藏汉翻译模型的训练，通过Moses完成了整个藏汉机器翻译系统的搭建;再次利用开源工具XMLRPC实现了藏汉在线翻译的功能。最后利用BLEU自动评测技术，对融入扩展词典前后的藏汉在线翻译系统进行自动评测。所搭建的藏汉在线翻译系统能够以Server的形式，使得系统具备了在线翻译的功能。

参考文献

[1]张步峰，孙越恒，赵青.对齐模板在标准

短语统计机器翻译模型中的应用[J].电子测量技术，2007，30（07）：146-150.

[2]苏翔，李玉锺.GIZA++计算性能分析[J].计算机工程与科学，2010，32（05）.

[3]华却才让，基于树到串藏语机器翻译若干关键技术研究[D].陕西师范大学，2014.

[4]位索东.基于短语的藏化在线翻译系统研究[D].西北民族大学（硕士论文），2015.

[5]巴桑卓玛.藏汉双语平行语料库构建方法及关键技术研究[D].西藏大学，2018.