米莉万·雪合来提,刘 凯,吐尔根·依布拉音
(1. 新疆大学 信息科学与工程学院,新疆 乌鲁木齐 830046;2. 中国科学院大学,北京 100190;3. 乌鲁木齐市工商局,新疆 乌鲁木齐 830002)
基于维吾尔语词干词缀粒度的汉维机器翻译
米莉万·雪合来提1,2,3,刘 凯2,吐尔根·依布拉音1
(1. 新疆大学 信息科学与工程学院,新疆 乌鲁木齐 830046;2. 中国科学院大学,北京 100190;3. 乌鲁木齐市工商局,新疆 乌鲁木齐 830002)
汉语到维吾尔语的自动机器翻译有着重要的现实意义。目前对于汉维统计机器翻译方法的研究相对空白。该文提出了一种以维吾尔语为词干词缀粒度的汉维机器翻译方法。该方法利用维吾尔语形态分析后的词干词缀作为翻译的基本单位,并且根据其黏着语特性提出了一种基于有向图的维吾尔语“词干-词缀”语言模型。基于开放语料的实验证明我们的词干词缀翻译模型以及语言模型显著优于之前的基于词粒度的模型。
维吾尔语;机器翻译;汉维翻译;词干;词缀;形态分析
汉语和维吾尔语之间的翻译从语言学本质上可以看作是孤立语和黏着语之间的翻译。目前国内已经有部分孤立语到黏着语翻译的研究。针对维吾尔语到汉语机器翻译的研究工作有: Batuer AISHAN[1]在翻译过程中引入词干词缀信息辅助维汉翻译;在CWMT2011评测中,参加单位中国科学院计算技术研究所直接利用维文端多种不同的粒度来进行的维汉翻译[2-3]。到目前为止,大部分相关工作均是基于黏着语到非黏着语翻译的,例如,一些基于土耳其语和韩语的工作[4-5]。也有部分工作是基于非黏着语到黏着语翻译的工作[6]。但是目前基本上没有直接针对汉语到维吾尔语统计机器翻译的研究。并且由于汉维翻译为非黏着语到黏着语的翻译,其翻译目标端为黏着语,面临着与维汉翻译不一样的挑战: 缺少以目标端为黏着语的翻译工作研究;维汉平行语料资源稀缺;维语语料不如汉语资源丰富,所以训练语言模型的语料相对较少。
本文提出了一种利用维吾尔语端词干词缀粒度进行翻译建模的汉语到维吾尔语的机器翻译方法。在该方法中我们利用维吾尔语端的词干词缀作为翻译的基本单位,并对维吾尔语中“词干-词干”,“词干-词缀”结构进行建模,设计了一种针对维吾尔语的黏着语有向图语言模型。我们的模型直接改进了现有的翻译模型,并最终提升了翻译质量。实验结果证明我们设计的基于词干词缀翻译方法和语言模型能够显著提高翻译质量。
本文将在第2节介绍相关的机器翻译的技术背景及维吾尔语的特点;在第3节介绍我们利用词干词缀作为翻译基本单位的翻译方法,以及基于有向图的词干词缀的维吾尔语语言模型;第4节中的实验结果证明了我们这种翻译方法的有效性;最后我们对本文中工作进行了总结,并提出了进一步改进工作的方向。
2.1 统计机器翻译
随着统计机器翻译的发展,多种不同的翻译方法相继被提出: 基于词的翻译模型[7],基于短语的翻译模型[8],基于形式句法的翻译模型[9-10],基于句法的翻译模型[11]等。本文中采用目前工业界和学术界中广泛使用的层次短语模型(基于形式句法),来对机器翻译进行简要的说明。
统计机器翻译流程中,以下几点为机器翻译的关键。
• 词语对齐
利用大量双语平行句对,依靠无监督的统计信息,自动对双语平行句对进行词对齐。常用的工具为根据IBM model[4]实现的GIZA++。对齐效果如图1中所示。
• 规则抽取
本文中以层次短语为例,在图1中给出了部分根据对齐信息抽取的翻译规则。同样地,在规则抽取过程中需要统计相应翻译规则的各种概率及权重。
图1 统计机器翻译的关键步骤
• 语言模型
语言模型是根据单语语料库统计得出的一个语言的生成式的概率模型。在翻译中,语言模型用来对不同的翻译候选结果给出相应的语言模型概率等分,对最终翻译结果的流利度影响很大。
• 翻译解码
翻译解码的过程就是利用之前抽取的各种翻译规则和语言模型,对目标端进行解码,同时计算各种概率和得分,最终获得模型相对得分最高的翻译的过程。
从以上可以看出,统计机器翻译中各关键流程均非常依赖统计信息。但在汉维翻译中,上述关键流程由于维吾尔语的黏着语特点(2.2节)均会遇到相应的统计问题。
2.2 维吾尔语特点
维吾尔语属于阿尔泰语系的东突厥语族。按形态分类,它属于黏着语,与汉语之间的差异很大。维吾尔语作为黏着语,具有丰富的词汇形态[12],这些形态是通过词干缀接不同构形词缀来呈现的。同一个词的不同形态表示以词干意义为主的不同的语法功能,构形词缀还可以多层缀接。如表1所示可以看出: 一个维吾尔语词汇是由一个词干缀接多个词缀(字符串前带“+”)来表达丰富的语义;一个维吾尔语单词往往能表达汉语中一个短语甚至是短句的意义;并且汉语中对应的重要的实词在维吾尔语中也可能由词缀形式来表达(例如,表1中的“你们”)。
因此,由不同词干词缀组合而成的维吾尔语词汇的数量非常庞大,在统计方法中将会导致非常严重的数据稀疏问题。我们在五万句对的汉维政府平行语料上分别统计了单词种类个数、单词总数以及所有单词出现的频数,在表2和表3中给出。可以看出,维吾尔语单词相比汉语数据稀疏问题更为突出。但是如果将所有维吾尔语单词拆分成词干、词缀的形式, 以词干、 词缀单独作为单词再次统计,如表2所示。可以看出,如果维吾尔语以词干、词缀作为单词,单词数目显著减少,平均单词频度相应升高。其中表3给出了汉语和维吾尔语使用频度最高的五个单词及其使用频数。根据以上观察,我们认为将维吾尔语端分解成词干、词缀形式可以显著减小数据稀疏对机器翻译的影响。
表1 一个维吾尔语词干缀接多个词缀表达丰富的语义
表2 维吾尔语汉语单词种类、使用总数及平均单词使用频数
表3 维汉双语频数排名前5的单词及它们在语料中使用的频数
常用维吾尔词频数常用词缀频数常用汉语频数we21542+i141507的52610bilen9626+ni66877和17064bir6487+ning50976在11360qilish6350+si34062了7849kërek6132+d27066是5944
从句法角度看,维吾尔语和汉语也有显著区别: 汉语的句法是SVO(主谓宾)结构,而维吾尔语是SOV(主宾谓)结构。例如,汉语中的“我读了一本书”,对应的维吾尔语为: “man(我) birkitap(一本书) oqudum(读了)”。这种结构的不一致将更容易导致翻译中的长距离调序问题。
本节中我们将介绍我们基于词干、词缀的汉维翻译方法。首先,我们将维吾尔语端分解成词干、词缀形式,并以此为机器翻译的基本单位,缓解了统计机器翻译中数据稀疏问题。然后,我们根据维吾尔语特点设计了一种基于“词干-词干”、“词干-词缀”的有向图语言模型,并将其作为翻译特征融入到翻译解码流程中。
3.1 词干、词缀拆分翻译
在本节中我们介绍将维吾尔语端拆分成词干、词缀的翻译方法。基本关键流程同图1所示,不同的是我们将双语语料中的维吾尔语端切分成词干、词缀形式,并以词干、词缀为基本单位进行双语对齐、规则抽取、并最终根据词干词缀的源端输入进行翻译。
由于词干词缀切分,显著地减小了词语的数据稀疏问题,显著改善了双语无监督的词语对齐质量。并且由于对齐粒度减小,使得自动对齐更加细致和准确。例如图2(a)中,在词级对齐中汉语端单词“对”并没有被对上,而在词干词缀级对齐中“对”被准确的对齐到了“+ge”这个词缀。
更加极端的情况如图2(b)中所示,在词粒度下对我们之前表1中举的例子进行对齐后,汉语端所有词均对应到维吾尔语端的一个词。在翻译抽取规则的过程中只能获得一个大片段的翻译对: “你们不能进行标准化吗,Ölchemleshtürelmemsiler”。在翻译过程中这种规则很难被使用上,因为只要待翻译短语与该抽取的短语有一点不同,例如,“你们不能进行标准化”,就会导致该规则不能匹配,最终导致整个短语无法翻译。如图2(b)中的词干词缀对齐例子,如果利用词干词缀进行对齐,我们可以根据对齐获得粒度更小、更准确的翻译片段,同时能够很好地解决上述翻译问题。
3.2 有向图词干词缀语言模型
在本节中介绍我们为词干词缀粒度的翻译模型设计的语言模型。与维汉翻译不同的是以维吾尔语为目标端的翻译需要一个维吾尔语的语言模型,并且维吾尔语作为黏着语本身具有一定的特点: 词缀的选择主要依靠所依附的词干信息和之前的词缀信息,并且一个词内部词缀之间的排列组合也依据一定的规则;一句之中所有词干表达了整个句子的结构信息,词干的选择和之间的顺序决定了整个句子结构表达的正确性。根据上述特点,我们设计了一种基于“词干-词干”和“词干-词缀”的有向图结构的语言模型。如图3所示,我们将一般的基于词序列的语言模型拆分成“词干-词干”和“词干-词缀”两部分,计算语言模型的路径将所有词干词缀组织成一个有向图。
图2 词级对齐与词干词缀级对齐的效果
图3 不同结构的词语言模型和词干词缀语言模型
在一般的词序列语言模型中,一个词wi在当前串中的概率计算为P(wi|...wi-2wi-1),其中wi-1和wi-2分别为位置在i-1和i-2的词。我们的词干词尾语言模型与词序列语言模型不同的是,我们将词干词尾分开计算语言模型。其中词干si的概率只由上下文的词干决定: P(si|...si-2si-1),si-2和si-1为si之前的两个词干;词尾am的概率只由所依附的词干和前面的词尾决定: P(am|si...sm-1),其中si为am所依附的词干,am-1为am之前的一个词尾。
由此,我们定义了一个具有黏着语特色的以词干、词缀为单位的有向图结构的语言模型。其中,黏着语的有向图建模已在黏着语词法分析中证明能够很好地描述黏着语[13]。由于该语言模型根据黏着语的特点设计,可以更好地描述作为黏着语的维吾尔语。
3.3 词干词缀训练及翻译流程
词干、词缀翻译模型的训练流程如图4中实线所示。我们分别利用经过分词的汉语句子和词法分析后词干、词缀粒度的维吾尔语句子进行词汇对齐;利用该对齐结果进行规则抽取,获得维吾尔语端为词干、词缀粒度的规则表;同时使用维吾尔语词干、词缀粒度的训练语料,根据上一节描述的方法训练“词干-词干”“词干-词缀”的有向图语言模型;利用最小错误率训练(MERT)(图中省略了调参流程)得到模型参数,得到最后的翻译模型。
图4 翻译训练及解码流程图
利用获得的模型进行翻译的流程如图4中虚线所示。我们将待翻译语料分词后直接利用翻译模型进行翻译解码获得最终的翻译结果。
我们在本节中对我们提出词干词缀粒度翻译模型以及词干、词缀语言模型进行了验证。我们分别使用词和词干、词缀级别进行汉维翻译,并在翻译过程中利用我们提出的词干、词缀语言模型。
4.1 实验设置
我们在实验中利用12万句对的语料,其中包括CWMT2011[2]公开评测所提供的5万句对的维汉双语训练语料作为翻译训练集,其中开放的700句开发集也被作为我们翻译训练的开发集。另外我们自己组织了1 000句作为实验的测试集。
我们利用中国科学院计算技术研究所开发的维吾尔语形态分析工具[14](分析的F值为91.4%)对需要进行形态分析的维吾尔语进行形态分析。中文端使用中国科学院计算技术研究所开发的分词工具进行分词。训练双语语料利用GIZA++进行无监督词汇对齐对齐结果如图1所示。我们分别利用词级别和词干词缀级别的维吾尔语语料(双语语料维吾尔语端)训练不同元数的词序列语言模型和“词干-词干”、“词干-词缀”语言模型。
我们使用开源的moses翻译解码器中的层次短语解码器进行翻译实验。其中短语规则抽取长度为7。我们利用BLEU评价指标对不同翻译结果进行评价(以词干词缀为粒度)。我们以重排序的方法将词干词缀语言模型嵌入到moses解码器中,我们利用词干词缀语言模型在解码器生成的nbest译文上进行语言模型打分,并根据开发集调参重排序得到最后的译文。如图5所示,我们对翻译的nbest译文根据词干词缀语言模型进行重新打分,依据新打的分数及之前翻译模型的特征分数将模型认为较好的译文排到前面作为最终译文。
图5 nbest译文重排序
4.2 实验结果
我们利用上一节的工具和资源分别训练词和词干词缀级别的汉维翻译模型。翻译结果如表4所示: 其中前五行为词粒度翻译模型利用不同语言模型的翻译结果;词粒度翻译系统中的词干、词缀语言模型是在形态分析后翻译结果的基础上计算的; 六到九行为我们词干、词缀翻译模型利用不同语言模型的翻译结果;最后一行为我们利用词干词缀抽取长度为4规则长度的测试结果。
表4 词和词干词缀粒度的翻译对比实验(*是以词干词缀作为词序列的语言模型)
翻译粒度语言模型BLEU%词词级别5元51.19词级别5元+词干级别3元53.10(+1.91)词级别5元+词干级别5元53.18(+1.99)词干词缀3元53.18(+1.99)词干词缀5元53.44(+2.25)词干词缀词级别5元∗54.26(+3.07)词干词缀3元54.91(+3.72)词干词缀5元55.26(+4.07)词级别5元∗+词干词缀5元55.32(+4.13)词干词缀词级别5元∗+词干词缀5元+规则长度454.45(+2.26)
从结果可以看出我们提出的词干、词缀翻译模型显著优于比词粒度的翻译方法。同时,我们提出的词干、词缀语言模型在两种粒度的翻译中均能起到显著的作用,效果在词级别的翻译中尤其显著,证明了我们图结构的“词干-词干”、“词干-词缀”语言模型确实能够更准确地描绘维吾尔语的黏着语特点。
本文提出了一种基于词干词缀的汉维翻译模型及维吾尔语有向图语言模型。我们将维吾尔语词分析为词干词缀粒度,很好地解决了汉维翻译过程中的数据稀疏问题,同时图结构的词干词缀语言模型能够较好地描述作为黏着语的维吾尔语。该方法具有良好的适应性,可以用在所有非黏着语到维吾尔语翻译的场合,而不是仅仅限定在汉维翻译中。实验结果证明我们提出的翻译方法和图结构语言模型均能够显著地提升翻译效果,对比基线系统有4.13 BLEU的提升。下一步我们将完全地利用词干词缀的有向图结构对维吾尔语进行翻译建模,以期能够从模型上直接描绘维吾尔语的黏着语特性。
[1] Batuer AISHAN, Maosong SUN. Uyghur-Chinese Statistical Machine Translation by Incorporating Morphological Information[J].Journal of Computational System, 2010,6(10):3137-3145.
[2] 赵红梅,吕雅娟,贲国生,等. 第七届全国机器翻译研讨会(CWMT2011)评测报告[C]//第七届全国机器翻译研讨会论文集,2011:3-31.
[3] 刘凯,王志洋,于惠,等.2011全国机器翻译研讨会计算所系统描述[C]//第七届全国机器翻译研讨会论文集,2011: 46-58.
[4] Brown P F, Pietra V J D, Pietra S A D,et al. The mathematics of statistical machine translation: Parameter estimation [J]. Computational linguistics, 1993, 19:263-311.
[5] Koehn P, Och F J, Marcu D. Statistical phrase-based translation [C]//Proceedings of the 2003 Conference of the North American Chapter of the ACL on Human Language Technology-Volume 1, 2003:48-54.
[6] Chiang D. Hierarchical phrase-based translation [J]. Computational Linguistics, 2007, 33:201-228.
[7] Xiong D, Liu Q, Lin S. Maximum entropy based phrase reordering model for statistical machine translation [C]//Proceedings of the Association for Computational Linguistics, 2006:521-528.
[8] Liu Y, Liu Q, Lin S. Tree-to-string alignment template for statistical machine translation [C]//Proceedings of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the ACL, 2006:609-616.
[9] 阿依克孜·卡德尔,开沙尔·卡德尔,吐尔根·依不拉音.面向自然语言信息处理的维吾尔语名词形态分析研究[J].中文信息学报,2006,20(3):43-48.
[10] 姜文斌,吴金星,长青,等。蒙古语词法分析的有向图模型[J].中文信息学报,2011,25(5):94-100.
[11] 麦热哈巴·艾力,姜文斌,王志洋,等.维吾尔语词法分析的有限图模型[J];软件学报;2012,(23)12: 3115-3129.
[12] 麦热哈巴·艾力,姜文斌,吐尔根·伊布拉音.维吾尔语词法中音变现象的自动还原模型[J].中文信息学报,2012,26(1):91-96.
[13] Arianna Bisazza, Marcello Federico. Morphological pre-processing for Turkish to English statistical machine translation[C]//Proceedings of IWSLT,2009:1-135.
[14] Young-Suk Lee. Morphological analysis for statistical machine translation[C]//Proceedings of HLT-NAACL, Short Papers, 2004: 57-60.
[15] Minh-ThangLuong, PreslavNakov, Min-Yen Kan. A hybrid morpheme-word representation for machine translation of morphologically rich languages[C]//Proceedings of EMNLP,2010: 148-157.
[16] ReyyanYeniterzi, Kemal Oflazer. Syntaxto-morphology mapping in factored phrase-based statistical machine translation from English to Turkish[C]//Proceedings of ACL, 2010: 454-464.
Chinese-Uyghur Machine Translation based on smallest Translation Units of Stems and Suffixes
Miliwan xuehelaiti1,2,3, LIU Kai2, Turgun Ibrahim1
(1. Information Science and Technology Institute, Xinjiang University, Urumqi, Xinjiang 830046,China; 2. University of Chinese Academy of Sciences, Beijing 100190, China; 3. Urumqi Administration of Industry and Commerce, Urumqi, Xinjiang 830046, China)
Machine translation from Chinese to Uyghur has substantial real applications. Focusing on the insufficiently addressed issue, this paper, proposes a novel Chinese-Uyghur translation method employing stems and suffixes in Uyghur are used as the basic translation unit. Based on the directed graph, this “stem-suffix” language model is proved to be significant better than previous word based models.
Uyghur; machine translation; stem; suffix; morphologicalanalysis
米莉万·雪合来提(1984—),博士研究生,主要研究领域为自然语言处理、机器翻译。E⁃mail:mihreban@126.com刘凯(1987—),博士,主要研究领域为自然语言处理、机器翻译。E⁃mail:liukai@ict.ac.cn吐尔根·依布拉音(1958—),通讯作者,教授,博士生导师,主要研究领域为自然语言处理、软件工程。E⁃mail:turgun@xju.edu.cn
1003-0077(2015)03-0201-06
2013-03-27 定稿日期: 2013-08-14
国家自然科学基金(61063026,61032008);国家社会科学基金(10AYY006);新疆多语种信息技术重点实验室开放课题。
TP391
A