基于Systran的翻译本地化难点概述

2014-03-05 05:43:55焦育玲
考试周刊 2014年6期

焦育玲

摘 要: 由于汉语与英语有不同的特点,导致机器翻译时把汉语当做源语言要比把英语当做源语言要困难得多。本文试图从汉英机器翻译的角度探讨汉语自动分析的难点,包括词法分析、句法分析和汉英转换中的难点。

关键词: 计算机翻译 Systran 词语切分 未登录词

在我国,外汉机器翻译系统,特别是英汉机器翻译系统的研制已经取得较大的成功,达到初步实用的水平,并且推出不少实用系统,如“译星”、“汉神”、“通译”等。但汉外机器翻译,特别是汉英机器翻译的研究却进展缓慢,离实用化还有一定的距离。例如要把英文句子“We should do our utmost to achieve our goalin life.”翻译为中文,机器一般可以翻译得较为准确,但是要把汉语句子“他踢坏了三双鞋。”翻译为英文,机器有的翻译为“He plays three pairs of evil shoes.”,有的翻译为“He kicked three pairs of shoes bad.”,还有的翻译为“Him kick spoil 3 pairs of shoes.”。这些软件翻译的问题主要存在于词法、句法和语法几个方面。

1.词法分析的难点

1.1词语切分

汉语的书面形式是字与字之间的连续书写,词与词之间没有自然的界限,因此,汉语的自然语言理解首先要解决词的自动切分问题,而词的自动切分中,交集型歧义和组合型歧义是不可避免的。即使把交集型歧义和组合型歧义解决得比较好,要把汉语的自动切词正确率提高到99%也是一个相当困难的事情。而且汉语的自动切词正确率即使达到99%,对于机器翻译来说也是不够的。因为机器翻译系统不是以词为单位的,一般是以句子为单位进行处理的,这样一个句子只要有一处切词错误,整个句子就很有可能面目全非。

1.2未登录词

未登录词指没有被分词词表收录的词语,包括人名、地名、机构名等专有名词和新出现的词语。未登录词是不可穷尽登录的,如人名、地名,几乎可以看成是无限的,新词也是不断产生的。未登录词包括专名和非专名两大类,专名包括人名、地名等,非专名包括新词、简称、行业用语、部分习语、俗语,等等。未登录词不仅在汉语中存在,英语中也存在未登录词,不过,英语中的未登录专名名词有形式标志,其首字母是大写的,但汉语中的未登录词不仅没有形式标注,而且组成汉语未登录词的汉字可能本身又是汉语词,也就是说,汉语的未登录词容易与普通词语混淆。

1.3词表

英语中的词是基本确定的,汉语中的词却很难确定,或者说汉语中的词没有一个统一的标准。词是最小的能够独立运用的语法单位,语素是最小的语音语义结合体,短语是词与词按照一定语法规则构成的语法单位。词和语素、短语是不同层次和不同性质的语法单位,但由于汉语中的词和自由语素、短语都能单说或单用,因此要分清词、语素和短语比较麻烦。举一个例子,“肉”是一个词,“猪肉”、“鸡肉”、“狗肉”倾向于是一个词,“海豹肉”、“海豚肉”倾向于是一个短语,“果子狸肉”、“猫头鹰肉”就更倾向于是一个短语。可以看出,汉语的词的确认是一个比较困难的事情,这是迄今为止国内还没有一个统一的供机器使用的词表的原因,而词表是自然语言处理的基础,机器翻译中绝大多数知识和规则都依赖于词表而建立,这样就加大了汉语自动分析的难度。

2.句法分析的难点

2.1核心动词的分析

对于句法分析而言,抓住谓语中心词就意味着这个句子有可能分析准确,如果连谓语中心词都找错了,就意味着这个句子不可能分析准确。例如“王先生邀请她一起开车出去玩。”,对这个句子进行分词、词性标注等预处理后得到:王/n先生/n邀请/v她/r一起/d开21.720.9车/v出去/v玩/v。然而,其中有可能充当谓语中心词的有:“邀请”、“开车”、“出去”、“玩”。由于汉语属于分析语言,缺乏明显的形态标记,在这些词中选出一个正确的谓语中心词,是一个非常复杂的问题。

2.2特殊结构的处理

汉语中的某些特殊结构是汉译英系统较为棘手的问题,包括连动式、兼语式、受事主语句、主谓谓语句、名词谓语句、动补式等。连动式由若干个动词或动词短语相互连接,没有明显的形式标志,机器往往难于确定其中的主要动词,如果主要动词的判定有误,整个结构的分析必定失败。

2.3标点符号的影响

现有的机器翻译系统一般都是以句子为单位进行翻译的,但是要确认汉语的句子却不是一件简单的事情。汉语“句子”的随意性太大,短的可以只有一个词(独词句)或一个短语,长的句子可以是一个复句,甚至可以是一个段落。这样,当遇到一个特别长的汉语句子时,如果作为一个整体处理,往往会带来巨大的时空开销,而且这样做增加了分析的难度;而分成几个小句来处理,又难以准确地断句。也就是说,汉语由于没有形态变化,导致从句和分句没有明显的差异。

3.转换过程中的难点

由于汉语是一种缺乏严格意义上形态变化的语言,而英语却有形态变化,因此汉英机器翻译中,汉语转换为英语的过程存在多种“从无到有”的选择。以下是在汉英机器翻译中遇到的最常见的几种比较难解决的转换问题。

3.1冠词问题

汉语没有冠词,英语的名词或名词短语往往要加上冠词,冠词又分为零冠词、定冠词和不定冠词三种情况。这样从汉语的“无”冠词到英语的“有”冠词,翻译时需要确认究竟是零冠词,还是定冠词或不定冠词。

3.2单复数问题

汉语的名词或名词短语没有单复数形式,只有“们”等后缀可以勉强充当形式标志,但英语的名词或名词短语却存在单复数。这样从汉语的“无”单复数到英语的“有”单复数,翻译时需要确认究竟把汉语中的名词或名词短语翻译为英语中的单数还是复数。

3.3时态问题

汉语没有时态,只有一些可以有助于显示时态的助词(如“着”、“了”、“过”)、副词(如“将要”、“马上”、“正在”)和时间名词(如“现在”、“从前”、“目前”)等,不过,这些标志词语并不是严格意义上的时态标记,如“了”有时翻译为过去时,有时翻译为完成时、过去完成时,有时甚至不表示任何时态;英语动词却有时态,这样从汉语的“无”明显时态到英语的“有”时态,翻译时要确认究竟把汉语中的动词或动词短语翻译为英语中的现在时、过去时还是将来时。

2.4.4语式问题

语式是表示句子的语气或情态的语法范畴,一般通过动词的形态变化区分陈述式、命令式、虚拟式、愿望式等。汉语没有语式,英语中表示与事实相反的假设或个人主观愿望时,要使用虚拟式。这样从汉语的“无”明显语式到英语的“有”语式,翻译时需要确认究竟把汉语翻译为英语中的陈述式还是虚拟式。

4.结语

从上面的分析可以看出,不管是词法分析、句法分析,还是源语言向目标语言的转换,把汉语译为英语都存在“从无到有”的困难。正是因为在汉英机器翻译中,除了一般机器翻译(如英汉机器翻译)都存在的一些困难(如一词多义、结构歧义、语义歧义、语境因素等)之外,还存在这些“从无到有”的困难,这些特殊的困难几乎分布于翻译的各个阶段,导致机器翻译中把汉语当做源语言要比把英语当做源语言要困难得多。

参考文献:

[1]刘群,俞士汶.汉英机器翻译的难点分析.载黄昌宁主编.1998中文信息处理国际会议论文集.清华大学出版社,1998.

[2]常宝宝,刘颖,刘群.汉英机器翻译中的冠词处理研究.中文信息学报,1998(3).

本文为安康学院AYQDRW201216项目成果。