机器翻译系统发展与研究

2011-12-31 16:41计丽丽
中国新技术新产品 2011年13期
关键词:源语言目标语言原语

计丽丽

(安徽理工大学计算机科学与工程学院,安徽 淮南 232001)

机器翻译研究是一项艰巨的研究课题。自1954年美国乔治顿大学进行第一次试验以来,机器翻译已经发展了五十余年,经历了几起几落的曲折历程。人们对它的评价毁誉兼有。但不容忽视的是,经过机器翻译工作者的执着研究和反复探索,机器翻译无论从理论技术还是从实际应用方面都取得了长足的进步。

一、机器翻译概况

机器翻译(machine translation),又称为自动翻译,是利用计算机把一种自然源语言转变为另一种自然目标语言的过程,一般指自然语言之间句子和全文的翻译。它是自然语言处理(Natural Language Processing)的一个分支,与计算语言学(Computational Linguistics)、自然语言理解(Natural Language Understanding)之间存在着密不可分的关系。

整个机器翻译的过程可以分为原文分析、原文译文转换和译文生成3个阶段。在具体的机器翻译系统中,根据不同方案的目的和要求,可以将原文译文转换阶段与原文分析阶段结合在一起,而把译文生成阶段独立起来,建立相关分析独立生成系统。在这样的系统中,原语分析时要考虑译语的特点,而在译语生成时则不考虑原语的特点。在搞多种语言对一种语言的翻译时,宜于采用这样的相关分析独立生成系统。也可以把原文分析阶段独立起来,把原文译文转换阶段同译文生成阶段结合起来,建立独立分析相关生成系统。在这样的系统中,原语分析时不考虑译语的特点,而在译语生成时要考虑原语的特点,在搞一种语言对多种语言的翻译时,宜于采用这样的独立分析相关生成系统。还可以把原文分析、原文译文转换与译文生成分别独立开来,建立独立分析独立生成系统。在这样的系统中,分析原语时不考虑译语的特点,生成译语时也不考虑原语的特点,原语译语的差异通过原文译文转换来解决。在搞多种语言对多种语言的翻译时,宜于采用这样的独立分析独立生成系统。

二、国外机器翻译发展

1954年,由Georgetown大学和IBM公司合作,实现了第一个真正的机器翻译系统,并且在IBM纽约总部进行了俄译英公开演示。他们用IBM-701计算机,把几个简单的俄语句子翻译成英语。尽管这个系统很小,只有250条俄语词汇,6条语法规则以及精心挑选的翻译例句,但是第一次向公众和科学界展示了机器翻译的可行性。

20世纪50年代中期,在美国掀起了机器翻译研究的高潮。这一时期的机器翻译系统主要采用直接翻译(Direct Translation)方法,一般都没有进行很好的源语言据法结构分析,而是主要以词典为驱动,利用词典中的语法和语义特征来实现翻译。直接翻译方法的特点是在源语言分析阶段和目标语言综合(即生成)之间没有明确的区分,这样的系统被称为第一代机器翻译系统。

20世纪70年代,西欧和加拿大开始出现以追求可读性和忠实性为目标的第二代机器翻译系统。这些系统以基于转换的方法为代表,普遍采用以句法分析为主、辅以语义的基于规则的方法,采用有抽象的转换表示的分层次实现策略,综合了多种技术:知识与算法分离,模块化设计,多种句法分析策略以及语义分析等等,并且大多引入了人工智能技术,其中许多方法和技术直到今天仍被沿用。期间比较著名的系统有:SYSTRAN多语言翻译系统、Weinder系统、EURPOTRA多国语翻译系统、TAUM-METEO系统等。

20世纪90年代至今,随着 Internet的普遍应用,世界经济一体化进程的加速以及国际社会交流的日渐频繁,传统的人工作业的方式已经远远不能满足迅猛增长的翻译需求,人们对于机器翻译的需求空前增长,机器翻译迎来了一个新的发展机遇。国际性的关于机器翻译研究的会议频繁召开,中国也取得了前所未有的成就,相继推出了一系列机器翻译软件,例如“译星”、“雅信”、“通译”、“华建”等。在市场需求的推动下,商用机器翻译系统迈入了实用化阶段,走进了市场,来到了用户面前。

三、我国机器翻译发展

中国机器翻译研究起步于1957年,是世界上第4个开始搞机器翻译的国家,60年代中期以后一度中断,70年代中期以来有了进一步的发展。现在,中国社会科学院语言研究所、中国科学技术情报研究所、中国科学院计算技术研究所、黑龙江大学、哈尔滨工业大学等单位都在进行机器翻译的研究;上机进行过实验的机器翻译系统已有十多个,翻译的语种和类型有英汉、俄汉、法汉、日汉、德汉等一对一的系统,也有汉译英、法、日、俄、德的一对多系统(FAJRA系统)。此外,还建立了一个汉语语料库和一个科技英语语料库。中国机器翻译系统的规模正在不断地扩大,内容正在不断地完善。比较有代表性的系统有:高立英汉翻译系统,IMT/EC英汉翻译系统,Matrix英汉机器翻译系统,SinoTrans汉外机器翻译系统等等。

鉴于机器翻译仍具相当市场,中国涉足这一领域的厂商也不一而足。目前,国内市场上的翻译软件产品可以划分为四大类:全文翻译(专业翻译)、在线翻译、汉化软件和电子词典。全文翻译软件以中软“译星”以及“雅信CAT2.5”为代表;在线翻译软件主要以“金山快译.net2001”、华建的“翻译网上通”为代表;汉化类翻译软件主要以“东方快车3000”为代表;词典工具以“金山词霸.net2001”为主要代表。

由于机器翻译在今后需要满足人们在浩瀚的互联网上方便地进行信息搜集的需求,于是很多翻译开发者在翻译准确度上下工夫的同时,开始注重结合用户的使用领域并进行方向性的开发。根据目前的市场发展看来,在新一轮的竞赛中,在线翻译前景十分看好。目前,中国的网民已超4亿,并继续以极快速度增长。

四、机器翻译系统的类型

根据实现机器翻译系统的技术将机器翻译系统划分为直接式,基于规则式,基于语料库式(基于统计式和基于实例式),以及采用混合策略引擎的系统。

直接式机译系统也称直译式机译系统,一般把原句中的词或句子直接替换成相应的译语的词或句子,必要时对词序进行简单的调整。这种系统一般难以取得较高的翻译质量,但是实现技术相当简单,容易开发。

基于规则(rule-based)的系统主要由词典和规则库构成知识源,世界上绝大多数的机译系统都采用以规则为基础的策略,一般分为语法型,语义型、知识型和智能型。

基于语料库(corpus-based)的系统是90年代以来发展起来的新技术,其特点是采用大规模的双语语料库作为机器翻译系统的开发基础。根据所采用的具体技术可以分为基于统计(statistic-based)系统和基于实例(example-based)系统。

基于统计的机器翻译方法把机器翻译看成是一个信息传输的过程,用一种信道模型对机器翻译进行解释。这种思想认为,源语言句子到目标语言句子的翻译是一个概率问题,任何一个目标语言句子都有可能是任何一个源语言句子的译文,只是概率不同,机器翻译的任务就是找到概率最大的句子。具体方法是将翻译看做对原文通过模型转换为译文的解码过程。因此统计机器翻译又可以分为以下几个问题:模型问题、训练问题、解码问题。所谓模型问题,就是为机器翻译建立概率模型,也就是要定义源语言句子到目标语言句子的翻译概率的计算方法。而训练问题,是要利用语料库来得到这个模型的所有参数。所谓解码问题,则是在已知模型和参数的基础上,对于任何一个输入的源语言句子,去查找概率最大的译文。

与统计方法相同,基于实例的机器翻译方法也是一种基于语料库的方法,其基本思想由日本著名的机器翻译专家长尾真提出,他研究了外语初学者的基本模式,发现初学外语的人总是先记住最基本的英语句子和对应的日语句子,而后做替换练习。参照这个学习过程,他提出了基于实例的机器翻译思想,即不经过深层分析,仅仅通过已有的经验知识,通过类比原理进行翻译。其翻译过程是首先将源语言正确分解为句子,再分解为短语碎片,接着通过类比的方法把这些短语碎片译成目标语言短语,最后把这些短语合并成长句。对于实例方法的系统而言,其主要知识源就是双语对照的实例库,不需要什么字典、语法规则库之类的东西,核心的问题就是通过最大限度的统计,得出双语对照实例库。 基于实例的机器翻译对于相同或相似文本的翻译有非常显著的效果,随着例句库规模的增加,其作用也越来越显著。对于实例库中的已有文本,可以直接获得高质量的翻译结果。对与实例库中存在的实例十分相似的文本,可以通过类比推理,并对翻译结果进行少量的修改,构造出近似的翻译结果。

[1]P.Brown,S.Della Pietra,V.Della Pietra,and R.Mercer(1993).The mathematics of statistical machine translation:parameter estimation.Computational Linguistics,19(2),263-311.

[2]周海中.“机器翻译50年”.《语文研究群言集》.中山大学出版社,1997年.

[3]李志升,于浩.机器翻译系统.哈尔滨工业大学出版社.

[4]机器翻译.百度文库.

猜你喜欢
源语言目标语言原语
测试原语:存储器故障最小检测序列的统一特征
密码消息原语通信协议介绍及安全分析
教材插图在英语课堂阅读教学中的运用及实例探讨
以口译实例谈双语知识的必要性
基于原语自动生成的安全协议组合设计策略及应用研究
概念任务下中英双语者非目标语言的词汇通达
多媒体英语学习法
“原语效应”在汉英口译中的运用及局限性研究