王斯日古楞,王春荣,斯琴图,阿 荣,玉 霞
(1. 内蒙古师范大学 计算机与信息工程学院,内蒙古 呼和浩特 010022;2. 内蒙古师范大学 网络中心,内蒙古 呼和浩特 010022)
汉蒙机器翻译中译文动词后处理研究
王斯日古楞1,王春荣1,斯琴图2,阿 荣1,玉 霞1
(1. 内蒙古师范大学 计算机与信息工程学院,内蒙古 呼和浩特 010022;2. 内蒙古师范大学 网络中心,内蒙古 呼和浩特 010022)
蒙古文的形态变化非常丰富,在动词词类上该特点更为明显。我们对蒙古文的动词自动生成方法进行了系统的研究。该文利用生成的蒙古语动词库,给出了对基于层次短语的汉蒙统计机器翻译译文中句尾错误词形动词进行纠正处理的方法。实验表明,该方法可以提高汉蒙机器翻译的性能和流利度。
蒙古文动词;汉蒙机器翻译;后处理;错误词形
蒙古语是黏着型语言,其形态变化非常丰富。这一特点在蒙古文动词上更为明显。我们在研究汉蒙统计机器翻译过程中发现,在机器翻译译文中,蒙古文动词在句尾以句中形式出现的情况很多。
蒙古文动词的形态变化非常丰富,原语言当中的一个汉语动词对应很多不同词形的蒙古语动词,这严重影响了统计机器翻译效果。研究人员在蒙古文的形态变化上做过一些研究,文献[1]在基于规则的汉蒙机器翻译研究中指出:蒙古文中的一个动词可以有850个确定的变化形式,如果只考虑理论上的“词”, 一个蒙古文动词至少可以有1 710个不同选择项,在机器翻译中如何正确地选择和生成这些形式,是蒙古文机器翻译的关键所在。在统计机器翻译研究中,研究人员[2-3]对蒙古文训练语料进行词法分析,在汉蒙统计机器翻译中引入蒙古文形态信息,提高了汉蒙统计机器翻译的性能。但是,目前还没有研究在汉蒙统计机器翻译中如何正确选择蒙古文动词词形,使得生成的句子符合蒙古文的词法句法规则,进一步提高汉蒙统计机器翻译的译文质量。
我们对汉蒙机器翻译译文分析发现,在400条句子的测试集当中,句尾出现的动词比例约占10%,其中,汉蒙机器翻译译文中以错误形式出现的动词约有20%。所以我们尝试处理了蒙古文译文中由于形态变化而出现的错误动词。本文针对蒙古文译文中句尾以句中形式出现的动词,利用蒙古文动词库,将译文中句尾以句中形式出现的动词进行了纠正处理。
蒙古文的构词、构形都是通过在词干后缀接不同的词尾而实现,而且可以层层缀接,层层派生。文献[4]中给出了297个蒙古文构形附加成分。其中我们选择了142个动词构形附加成分。 蒙古语动词构形附加成分分为三类,分别为:第一类:祈使式、陈述式、副动词和形动词附加成分,共113条;第二类:态附加成分,共20条;第三类:体附加成分,共9条。我们在蒙古文动词词干库基础上,按缀接规则,在词干后面缀接动词构形附加成分,生成了蒙古文动词库。
针对句尾出现的错误词形动词,我们设计了动词后处理算法。具体步骤如下。
(1) 利用自己开发的蒙古文动词自动生成程序,生成蒙古文动词库,从中抽取出句尾形式动词,得到句尾形式动词库;
(2) 利用蒙古文单语语料库,统计出句尾形式动词库中每个词在句尾出现的词频;
(3) 从机器翻译译文中找出句尾出现的错误词形动词,构成错误形式动词表;
(4) 切分错误形式动词表中的每个词,得到最小动词词干;
(5) 以频率最高的句尾形式动词,替换错误形式词表中有共同最小动词词干的词。下面介绍每一步的具体实现方法。
3.1 构建句尾形式动词库
本文中使用的机器翻译语料都是日常用语语料。我们选取了内蒙古大学蒙古学学院研发的“蒙古语语法信息词典动词分库”中的13 871条蒙古文动词词干构成了基本动词词干库,其包含了所有现代蒙古文动词词干。对译文进行错误动词后处理时,我们使用自己开发的基于规则的蒙古文动词自动生成程序,在该动词库基础上连接构型附加成分生成了蒙古文动词库。从翻译译文中对句尾以句中形式出现的动词纠正处理角度来看,我们需要从蒙古文动词库中抽取句尾形式动词。
本文在13 871条蒙古文动词词干基础上,生成了580MB规模的蒙古文动词库。从该动词库中抽取的蒙古文句尾词形动词库的规模为39.2MB。
3.2 计算句尾形式动词频率
得到句尾形式动词库之后,需要计算其在蒙古语语料库中句尾出现的频率,生成句尾形式动词频率库,以便为译文中每个句尾错误词形动词找到与其对应的频率最高的动词。
3.3 找出句尾以句中形式出现的错误词形动词
对蒙古文译文中句尾错误词形动词后处理时,需要从译文中找出动词,本文中即找出句尾以句中形式出现的动词。查找错误词形动词流程如图1所示。
根据蒙古文构形附加成分库中的动词构形附加成分,判断一个蒙古文词是否为动词的方法,有时候可能将非动词词类也识别为动词。为了减少错误识别情况,本文利用蒙古文词性标注语料库,统计识别错误词形动词的不同词类标注情况。如果有多个词类,则看是否按动词类标注的情况最多;如果识别出的动词在蒙古文词性标注语料库中仅标注成动词或者标注成动词的频率比其他词类标注频率高,就可以确定该词为动词。
图1 查找句尾以句中形式出现的错误词形动词的流程
3.4 获取句尾错误词形动词的最小动词词干
从汉蒙机器翻译译文中找到句尾错误词形动词之后,对这些动词进行切分,得到最小动词词干。最小动词词干指的是把一个蒙古文动词的构形附加成分切割后剩下的词干。例如,“UILEDBURILEHU”,该词的最小动词词干是“UILEDBURILE”,而不是“UILE”或“UILEDBURI”等。在该模块中,利用动词构形附加成分及构形附加成分缀接规则、重叠规则及还原规则,对动词进行切分。匹配切分基本过程如图2所示。
图2 获取错误词形动词的最小动词词干的流程
3.5 错误词形动词的替换
利用句尾形式动词频率库,对每个句尾错误词形动词找到与之有相同最小动词词干的句尾形式动词;然后,使用搜索到的频率最高的句尾形式动词,将译文中对应的错误词形动词进行替换。
我们进行了两组实验,分别为基准实验和句尾错误词形动词后处理实验。
基准实验进行了基于层次短语的汉蒙统计机器翻译,其训练数据为CWMT2009提供的语料,语言模型设置成4-gram,语言模型训练语料库使用100万词的蒙古文语料及训练语料中67 288条句子的蒙古文语料组成的单语语料。两组实验的译文评测结果如表1所示。
表1 评测结果
本文机器翻译译文中出现了五个句尾错误动词,利用蒙古文动词库对基准实验的译文结果进行错误动词后处理后,其评测结果在NIST值上提高了0.42%。在BLEU值上提高了0.02%。 我们从实验结果看到BLEU值提高不多,主要原因是蒙古文动词的词形变化非常丰富,即使句尾词形,对于同一个语义也有不同词形可以对应,我们选取的词形与参考答案不同的话对BLEU值提高不会有贡献。我们对译文进行错误动词后处理之后,五个句尾错误动词中,有一个错误动词的处理与参考答案一致,其余错误动词处理之后,虽然与四个参考答案不一致,但是我们看到对于译文句末动词校正后会明显提高译文句子的流利度。因此,从提高译文可读性角度来说,在汉蒙统计机器翻译中译文动词的这种后处理是非常有意义的。
本文只对句尾以句中形式出现的错误词形动词进行了纠正处理,而没有对句中错误词形动词进行处理。我们下一步将对汉蒙机器翻译系统译文中的句中错误词形动词进行后处理研究。
[1] 那顺乌日图,刘群,巴达玛放德斯尔.面向机器翻译的蒙古语生成,自然语言理解与机器翻译[M].清华大学出版社,2001.
[2] 杨攀,张建,李淼等.汉蒙统计机器翻译中的形态学方法研究[J].中文信息学报,2009,23(1):50-57.
[3] 宝美荣.融入形态学分析的汉蒙统计机器翻译研究[D].内蒙古师范大学,2012.
[4] 淑琴.《蒙古语语法信息词典构形附加成分库》的设计与实现[D].内蒙古大学,2005.
[5] 内蒙古大学蒙古学学院蒙古语文研究所.现代蒙古语[M].内蒙古人民出版社,1964.
[6] 内蒙古大学蒙古学研究院蒙古语文研究所.蒙汉词典(增订版)[M].内蒙古大学出版社,2011.
[7] 淑琴,艳花.蒙古语构形附加成分重叠使用特征及其模型[C]//第十届全国少数民族语言文字信息处理学术研讨会论文集,2005.
Post-processing for Verbs in Chinese-Mongolian Machine Translation
Wangsiriguleng1,Wang Chunrong1,Siqintu2,Arong1,Yuxia1
(1. Computer and Information Engineering College, Inner Mongolia Normal University, Hohhot, Inner Mongolia 010022, China; 2. Network Center of Inner Mongolia Normal University, Hohhot,Inner Mongolia 010022, China)
Mongolian is rich in morphological variation, especially for the verb. Based on a given Mongolian verb dictionary, we corrected the wrong verb form appeared in the end of hierarchical phrase based Chinese-Mongolian machine translation sentence. The experiments show that this method can improve the translation quality.
Mongolian verbs; Chinese-Mongolian Machine Translation; post-processing; word’s wrong form
王斯日古楞(1970—),博士,教授,主要研究领域为蒙古文信息处理和机器翻译。E⁃mail:siriguleng@imnu.edu.cn王春荣(1989—),硕士,助教,主要研究领域为自然语言信息处理。E⁃mail:wangchunrong.zmd@163.com斯琴图(1972—),硕士,高级工程师,主要研究领域为蒙古文信息处理和计算机网络。E⁃mail:siqintu@imnu.edu.cn
1003-0077(2016)02-0213-04
2013-11-14 定稿日期: 2014-05-15
国家自然科学基金(61063014);内蒙古自治区自然科学基金(2012MS0918);内蒙古师范大学计算机与信息工程学院科技创新团队资助项目
TP391
A