基于统计的蒙汉短语结构分析

2016-12-26 09:47内蒙古电子信息职业技术学院张跟兄富木仁
电子世界 2016年21期
关键词:蒙汉源语言目标语言

内蒙古电子信息职业技术学院 张跟兄 富木仁

基于统计的蒙汉短语结构分析

内蒙古电子信息职业技术学院 张跟兄 富木仁

双语短语对齐是当今双语信息检索和辅助机器翻译研究的热点和难点问题。词汇是语言的建筑材料,计算机在处理自然语言时一般都是以词为单位进行处理的。所谓的双语对齐是源语言查找对应的目标语言的一项工作。蒙汉双语短语结构对齐工作在机器翻译、蒙汉语言之间的检索、蒙汉词典的构造等方面有着广泛的应用。本文对蒙汉词汇标注和蒙汉短语对齐难点问题分析等方面进行了重点阐述。

蒙汉短语;标注;难点

1.引言

在自然语言的研究处理中,凡涉及到句子、语法、语义等的研究项目,都以词为单位进行研究处理。在句法研究中词语组成句子,没有词语就没有词组词成句,因而也就没有句法。还有,在众多的研究课题中词汇研究是一项庞大的语言工程,需要我们去投入大批量的人力和物力。

要检索蒙汉双语词语我们须设置对齐词汇,这需要备好蒙汉双语词典。在拆分完词、标注完相应的词性后,要对齐蒙文词语和汉文词语。检索对齐词语往往还会涉及到检索速度的快与慢的问题,因此我们要设计好数据库。

2.现状

20世纪80年代以来,语料库研究受到了各国研究者的重视。 LOB语料库的研究者利用统计方法设计了一个标注系统。在此标注系统中应用了130个标记,其中标注的700多个词典词条是从Brown语料库中摘取的。LOB语料库中还建立了700多个词缀的词缀表。在此标注系统中首先对部分语料进行了人工标注,其次对标注过的语料进行了统计分析,为得出标记与标记同现的频率,从而产生一个标记同现的频率矩阵。标注系统(CLAWS)中还采用了对短语进行标注的方法来修正词性标注结果。对整个LOB语料库的标注正确率在96%左右,算法的时间复杂度和空间复杂度是指数级的。

DeRose等人对统计方法作了一些改进,设计了一个标注系统(VOLSUNGA),在此系统中利用了动态规划算法。此算法主要考虑了语料库中词和词性之间存在的统计关系。VOLSUNGA中即使没有使用任何规则正确率也达到了96%以上。DeRose等人主要对二元语法模型下应用了词性自动标注的动态规划算法,其时间复杂度和空间复杂度是线性的。迄今为止,统计方法主要采用词性与词性之间的同现概率和马尔可夫语言模型来消除歧义。相比之下统计方法可以避免规则方法的许多缺陷。例如,统计方法主要应用数据统计,统计数据可以应用有指导或无指导的学习方法从语料库中得到,从而避免那些人工获取规则的繁琐过程。同时,统计方法获取的知识具有以下优点:客观性好、一致性强,比起规则的方法对生词和不规范的句子的处理能力有较大的提高。

3.标注蒙汉对齐短语

词汇是语言的建筑材料,计算机在处理自然语言时一般都是以词为单位进行处理的。所谓的双语对齐是源语言查找对应的目标语言的一项工作。我们所研究的对齐是在句子、短语和词级别的对齐。词汇对齐是源语言词汇和目标语言词汇之间的最高语义相似度的查找。到目前为止我们主要应用的对齐方法有:基于统计的词汇对齐方法,其主要思想是:对大规模的双语语料库进行统计,获得对译词的翻译概率。基于词典的词汇对齐方法,应用这种方法是因为:双语词典中拥有两种语言的翻译信息,是获取双语对齐词汇的重要资源库。但应用这种方法的主要缺点是词典中所覆盖的方方面面的内容较少。

源语言-蒙古文词与词之间是有空格的,但我们所研究的目标语言-汉语,词与词之间并没有分词分界标志,所以我们需要分词软件对目标语言进行分词。分完词的源语言和目标语言需标注词性。

分完词、标上词性后的蒙汉双语词汇举例如下:

2007年/t10月/t15日/t,/wp中国/ns共产党/nz第十七/m次/q全国/ ng代表/ng大会/ng在/p北京/ns人民大会堂/nz隆重/aq开幕/vi。/wp

4.蒙汉对齐短语的提出及难点问题

(1)提出问题

所谓蒙汉语言词对齐是在源语言和目标语言中找到词汇级别的翻译对。词汇对齐在机器翻译、蒙汉语言之间的检索、蒙汉词典的构造等方面有着广泛的应用。如下面例题所示。

(2)难点问题

与此同时,词语对齐方面的研究课题是公众认可的难点研究项目。主要存在的问题如下:

①蒙汉双语词语之间的对齐不满足前后顺序,经常出现交叉现象,比如:{,电视}和{,看}这两个词的前后位置就颠倒了。

②蒙汉双语词语之间的对齐模式非常复杂,有一对一、一对多、多对一和多对多等多种复杂的对应关系,如下面例题中我列举出了一对一和一对多的情况:{,他}属于一对一的情况;{,买了}属于一对多情况。

③相同的词语在同一个句子中出现多次,但是这些词语在目标语言里的位置是不知道的。

④蒙汉双语词语之间的对齐匹配关系很难确定,在人工翻译的过程中遣词、造句过于灵便,从而给机器翻译带来了很大的不便。例如:把""翻译成"一钱不值",这种翻译现象表现出了人工翻译的典型特色。

⑤蒙古语言的特点以及蒙汉语言之间的固有差异,比如惯用搭配、成语、谚语等。

⑥在蒙汉语言的翻译过程中有添加词语、减掉词语、省略词语、指代关系不明等多种现象。

[1]王晓龙,关毅。计算机自然语言处理[M]。北京:清华大学出版社,2005:85-95.

[2]刘冬明。汉英双语平行语料库中对齐方法的研究[D]。山西大学出版社,2004,4:4-9.

[3]刘冬明,杨尔弘,方莹。汉英双语平行语料库的词义标注[J]。中文信息学报,2004,19(6):50-51.

[4]嘎日迪,斯日古楞。蒙古文信息处理技术及自然语言理解[M]。呼和浩特:内蒙古大学出版社,2006:121-122.

张跟兄(1980-),讲师,研究方向:计算机软件开发领域。

富木仁(1980-),助理研究员,研究方向:计算机开发领域。

猜你喜欢
蒙汉源语言目标语言
中国大学生对越南语虚词的误用
林巍《知识与智慧》英译分析
《内蒙古艺术》(蒙汉刊)首届作者培训班掠影
蒙古族民间游戏在幼儿“蒙汉双语”教育活动中的运用
浅析日语口译译员素质
教材插图在英语课堂阅读教学中的运用及实例探讨
清代归化城土默特地区的草厂纠纷与蒙汉关系
以口译实例谈双语知识的必要性
从目的论角度看《红高粱》中文化负载词的翻译
多媒体英语学习法