面向机器翻译的汉维词语对齐规范研究

2015-10-19 15:27王亚娟
电脑知识与技术 2015年20期

王亚娟

摘要:在汉维双语的语料库中,因为词不能对齐引起了各类翻译问题,所以,需要建立一个高质量的汉维双语的语料库,实现词的对齐。本文通过对汉语和维吾尔语的双语语料库的对齐问题进行了研究。建立大规模的双语的对齐语料库是很有必要的,而且双语对齐能够促进汉语语料库的建立。

关键词:及其翻译;汉维词汇;对齐规范

中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2015)20-0199-03

机器翻译是人们借助计算机技术实现不同语言之间的转换,运用软件将一种语言转换成另一种语言。在对自然语言的处理上需要对机器翻译进行实验。机器翻译能够对各类语言加以转换,同时也对语言的研究有推动的作用。现在,人们进入了全球一体化的时代,机器翻译为人们提供了很多的方便,机器翻译的前景也是比较好的。但是,随着社会的发展,不同语言的资料也越来越多,如果仅仅采用人工翻译,需要耗费大量的时间,采用机器翻译能够节省时间,而且也符合现代化社会发展的要求。

1 汉语和维吾尔语词的对比分析

1.1单纯词的对比

在汉语中,单纯词是由单独的语素构成的,这个语素可以是实词,也可以是虚词。在维吾尔语中,单纯词是没有明确的定义的,其语言的形态变化是非常得丰富的,语法的遍体也是由不同的词干和词尾构成的。通过对汉语和维吾尔语的词对比分析,可以分析出汉语的单纯词是由单个的语素构成的,而维吾尔语的单纯词可以由不同的语素构成。

1.2 派生词的对比

派生词是合成词的主要分支,在汉语和维吾尔语这两种语言中,派生词一般都是通过添加后缀的形式实现的,维吾尔语中的派生词一般都不会采用前缀。在汉语中,派生词运用前缀的形式要多一些,但是也不如后缀多。在维吾尔语中,派生词的主要构词法是添加后缀,其在构词中发挥着关键的作用,比在汉语中发挥的作用要大的多。

1.3 复合词的对比

汉语中的复合词是由不同的语素构成的,其主要有偏正关系、支配关系等。在维吾尔语中,复合词的构成方法类似于汉语中句子的构成方法,要通过对句型的分析才能够构成复合词。

2 面向机器翻译的汉维双语词对齐规范和主要方法

机器翻译是人们运用计算机实现语言之间的转换,面向机器翻译的汉维词语对齐规范符合现在化发展的需要,所以,应该对汉语和维吾尔语研究的基础上,分析两种词汇的结构,分析其在词法和句法方面的不同,才能够实现两种语言的准确地转换。

2.1 词的对齐规范的定义

在汉语和维吾尔语两种语言的转换中,实现句子的对齐,句子中的词汇和词汇之间形成连接,词语的对齐是在两个句子之间能够寻找到词汇的子集,从而能够实现句子互译关系的衔接。

1) 一对一对齐

在原有的语言的基础上,其相应的位置或者在更加得范围中,所有的专业术语可以完全地对等,两种语言能够互译,这样就能够实现所有词汇的对应,这样的对齐叫做一对一对齐。

2) 一对多对齐

这种对齐方式实现了词汇的整体化对齐,是单个词能够对应不同语言的多个词汇,此于此的对应不是一对一对齐,而且也不是没有对齐的方式。

3) 多对多对齐

这种对齐方式指的是在维吾尔语里面有几个词汇能够与汉语中的一个词汇对应,实现词汇的全面地表达,这种对齐方式还是比较少见的。

4) 空对齐

这种对齐方式指的是在汉语里面没有词汇能够与维吾尔语中的词汇对应。

2.2 词对齐规划的方法

1) 语义的对等

将一种语言转化成另一种语言的过程中,原有的语言可以翻译成不同的语言,有很多种翻译方法,这些译文尽管使用的词汇不同,但是都可以表达相同的意思,所以他们在语义上能够实现对齐,只是选择的词汇不同。在翻译的过程中,使用不同的词汇对句子翻译,都可以实现两种语言的对齐。

2) 位置的对应原则

汉语和维吾尔语在翻译的过程中除了要实现语义的对齐之外,而且还要实现为止的对弈,根据上下文的语境来翻译,在翻译的过程中是不能离开语境的,所以应该遵循位置对齐的原则,当不能运用准确的词翻译时,在机器翻译时要运用空对齐。

3) 最小的匹配原则

在这项原则中,应该准确地用词,将那些最准确的词汇实现优先对齐,首先要实现虚词的对齐,然后将两种语言的词组对齐,实现专有名词的对齐,尽量实现一对一的对齐方式。

4) 最大的匹配原则

在汉语和维吾尔语双向翻译的时候,尽量实现双向的对齐,在对词汇连接的过程中,需要对齐的词汇有多少,那么,另一种语言也应该选择多少词汇。为了能够形成一个系统的语义单元,所以,在词汇选取的过程中,可以选择一些连接词,这些词汇具有固定的表达方法,而且还能够形成习惯用语,这些词汇的结构是非常得紧密的,一般都是以复合词或者合成词的形式出现,当两个语素拆开后,单个的语素就不能构成完整的意义,这类词一般是由动词短语或者带有前缀或者后缀的词汇构成的,这种词汇一般是采用一对多的对齐方式,实现最大化的匹配。

5) 减少对齐到空

在汉语和维吾尔语的翻译中,如果在一种语言中不能找到与之对应的语言,尽量不采用空对齐的方法,可以将这些句子采用对齐到空的方式,但是这种方法要谨慎使用。

6) 相关的注意事项

在汉语和维吾尔语相互翻译的过程中,如果发现了句子翻译有错误,或者出现单个词汇拼写错误的问题,这两种情况下,一般可以采用空对齐的方式来处理,否则如果原文出现了拼写的错误,在采用机器翻译的时候,机器是不能自动的识别错误的,给机器的翻译工作带来错误,而且会出现一些不能理解的信息,导致机器翻译的正确率下降,所以,为了防止上述问题的出现,就必须采用空对齐的方法,在选择对齐方式的时候要反复地检查。

2.3 汉语平行语料库加工处理系统的词对齐

2.3.1 词对齐模块的分析

1)进入词的对齐模块

如图1所示,进入机器翻译界面后,点击对齐管理项目,进入词语对齐,就能够实现进入词的对齐模块,如果存在词对齐的任务,那么,这个界面就会将任务显示出来,一般会以第一个句子来安排。

图1 进入词的对齐模块

2) 词组对齐界面分析

词组的对齐是针对汉语和维吾尔语的句子中各个词汇的对齐方式,实现句子中每个词汇的对应关系,右边是汉语的句子,左边是维吾尔语的句子。

3)建立对齐

在汉语和维吾尔语中,选择两个词语对齐,这时可以采用一对一对齐和一对多对齐的方式,然后点击鼠标的右键,选择“对齐”方式,实现两种不同语言中词汇的对齐。

4) 取消对齐

取消对齐只能是在不同的语言的词组中实现,在句子中是不能实现的,在取消对齐之前,应该先选中要取消对齐的两个词组,然后实现对齐的取消。

5) 空对齐和取消空对齐

空对齐指的是在一个句子中有某个词汇是不能够与其他语言的词汇对应的,在建立空对齐时直接点击鼠标的右键选择空对齐就可以。取消空对齐也是点击鼠标右键,然后选择取消空对齐就可以了。

2.3.2句子的编辑

1) 词语的拆分:将要拆分的词语选中,然后找到菜单中的“分词”就能够实现词语的拆分。

2) 词语的合并:将拆分的词语选中,然后选择菜单中的合并。

2.3.3 词对齐的分析

1) 一对一对词齐

一对一词对齐是将原有的语言与位置相同的语言实现较大范围的对齐,使大范围中的词汇或者句子中的语义保持一致,实现二者的互译,其能够实现对普通字典或者专业字典的此条使用,这样的对齐方式被称为一对一词对齐。一对一词对齐的方式是针对词汇或者词组的,不包括句子,在汉语和维吾尔语中,在语义完全相同的词汇或者词组中能够建立这种对齐方式,而且对齐的词汇能够在一个较大的领域中实现互译,在互译的过程中是具有普遍性特点的,一般双向的翻译词典就是通过这种方式来实现的。

2) 一对多词对齐

这种对齐方式实现了词组的整体对齐,是词组与单个词的对齐方式,在表示对齐词组的过程中,这样的两个词既不是一对一的对齐,但是为了能够实现词汇和词组的对齐,采用一对多词的对齐方式。

3) 多对多词的对齐

这种对齐方式一般是使用在词组和词组之间的对齐,不同的词组之间能够实现互译,一般是采用这种对齐方式。

4)空对齐

这种对齐方式一般是对虚词的对齐,在维吾尔语中,没有词汇能够与汉语中的虚词对应,所以,像汉语中“了”“之”“过”等词汇都是采用空对齐的方式。

2.4 存在的问题和解决方法

由于汉语和维吾尔语所属的语言体系是不同的,汉语属于汉藏体系,而维吾尔语属于阿尔泰语系,这两种语言要实现完全意义上的对齐,不能运用任何的比较语言学进行分析。历史比较语言学是将两种同语系的语言进行对比,分析两种语言中的共有部分,从而能够分析两种语言的亲属关系,通过比较和重建的方法分析对比两种语言。但是,在对汉语和维吾尔语进行对比时,要对两种不同语系的语言进行对比,从而在机器翻译的过程中能够实现对齐。

首先要实现的是词量的对齐,在汉语中,词量指的是对人或者事物的数量的表达,如“一个人”,运用词量的表示方法从而能够对不同人或者事物的数量表达清楚。在汉语和维吾尔语中都存在表示数量的词汇,在汉语中有大量的量词,但是在维吾尔语中的量词是比较少的,两种语言的属性是不同的,汉语是能够以孤立的形式存在的,但是维吾尔语却是一种粘合的语言,所以,在机器翻译的过程中要花大量的时间实现两种语言量词的统一。其次是实现介词的对齐,如果二者的介词存在对齐的部分,那么就可以直接使用,如果在维吾尔语中存在着不同的后缀词,那么,可以将词汇进行粘合,然后实现汉语和维吾尔语中介词的对齐。

3 结语

由于汉语和维吾尔语属于不同的语言体系,所以其语言的构成也是不同的,在机器翻译的过程中首先要实现的是词汇和词组的对应,这样才能够提高机器翻译的准确率。

参考文献:

[1] 吴小川,吐尔根·依布拉音,艾山·吾买尔,等. 汉维哈柯双语平行语料库加工处理系统的设计与实现[J].电脑知识与技术,2011(27):6680-6681.

[2] 艾山·毛力尼亚孜,谭勋,吐尔根·依布拉音,等.汉维哈柯双语语料库加工系统词对齐技术的研究[J].电脑知识与技术,2011(28):6895-6896.

[3] 吐尔根·依布拉音,袁保社.新疆少数民族语言文字信息处理研究与应用[J].中文信息学报,2011,06:149-156.

[4] 才让加.面向自然语言处理的大规模汉藏(藏汉)双语语料库构建技术研究[J].中文信息学报,2011,06:157-161.

[5] 徐春,杨勇,董兴华.汉维/维汉统计机器翻译中若干问题研究[J].计算机工程与应用,2011(35):150-154+167.