孙 爽,陈晓曦
(东北林业大学,黑龙江 哈尔滨 150080)
21世纪中俄机器翻译现状对比研究
孙 爽,陈晓曦
(东北林业大学,黑龙江 哈尔滨 150080)
在回顾机器翻译产生历史及发展历程的基础上,对21世纪中国和俄罗斯机器翻译发展现状进行了深入分析,主要包括代表性机器翻译系统、特点及设计原理,目的在于探讨如何加强我国对俄汉/汉俄机器翻译系统的研究。
机器翻译;俄汉/汉俄;翻译系统
机器翻译 (machine translation)是使用电子计算机把一种语言 (源语言)翻译成另外一种语言 (目标语言)的一门新学科。这同时也是一种新技术,一种多边缘的交叉学科,它涉及语言学、计算机科学、数学等许多学科。机器翻译即属于语言学中计算语言学的研究对象,也属于计算机科学中人工智能的研究范围,还属于数学中数理逻辑和形式化方法的研究领域。机器翻译要把不同学科相互结合来进行综合研究,同时也要求不同学科专家通力合作,相得益彰。
在全球信息化的今天,语言是信息交流的主要工具,如何有效地利用现代化手段突破人们之间的语言障碍成了全人类面临的重要问题,而机器翻译正是采用电子计算机来进行不同语言之间自动翻译的有力手段之一。但是,由于自然语言的极端复杂性,机器翻译也因其复杂性而成为当代科学技术的十大难题之一。本文将通过对21世纪中国和俄罗斯机器翻译发展现状的深入分析,探讨如何加强我国对俄汉/汉俄机器翻译系统的研究。
从19 世纪巴贝奇 (Ч.Бэббидж)在设计数字分析机时提出的机器翻译的设想到1933年发明家特罗扬斯基用机械方法设计出把一种语言翻译为另一种语言的机器;从1949年美国洛克菲勒基金会副总裁韦弗 (W/Weaver)发表的以《翻译》为题的备忘录到1954年美国乔治敦大学与国际商用机器公司 (IBM)合作进行的标志机器翻译历史真正开端的MT系统公开演示。人们的头脑中逐渐形成了机器翻译的概念,利用语法规则转换和字典来实现翻译的方法也被人们所接受,从此便出现了世界范围内的机器翻译热潮。
1954之后,由于各国对机器翻译项目的大力支持,使人们乐观地认为机器翻译可以达到一个完美的程度。但早期的机器翻译受韦弗思想的影响而把机器翻译的过程类比为解读密码的过程,或借助于查询词典的形式来实现,译文的可读性很差。因此1964年,美国科学院成立语言自动处理咨询委员会 (简称ALPAC)公布了一个ALPAC报告,报告宣称“机器翻译研究遇到了难以克服的语义障碍”,表示不再给予机器翻译支持。在这个报告的影响下,机器翻译出现了空前萧条的局面。
从70年代开始,随着计算机的迅猛发展,机器翻译进入了复苏期,这一时期对语法和语义的研究开始深入,同时也加强了电子词典的建设,同时研究者也注意到:源语和译语两种语言的差异不仅仅表现在词汇的不同,还表现在句法结构的不同,要使译文的可读性加强,必须要将注意力转移到句法分析上。经过学者们的通力研究,这时期一个完整的机器翻译过程我们可以概括为以下六个步骤:1)源语词法分析;2)源语句法分析;3)源语译语词汇转换;4)源语译语结构转换;5)译语句法生成;6)译语句法生成。[1](P18)经过这几个步骤,译文质量较高。
自20世纪90年代以来,互联网的发展将机器翻译带入了新的繁荣期,翻译的需求量加大使机器翻译成为世界语言处理的热门。此时主要发展基于实例和基于统计方法的机器翻译研究,注重大规模语料库的建设以及真实文本的处理,网上的翻译系统也进入了实用阶段,这期间我国也加大了对机器翻译研究的力度。
从世界范围内来说,比较常见的机器翻译类型有两种:基于规则的机器翻译系统和基于语料库的机器翻译系统。基于规则的机器翻译系统大致又可以分为以下三种类型[1]:
1.直接翻译系统
该翻译系统是根据双语之间的词汇单元的对应关系设计的。从原文句子的表层出发,将词,短语甚至句子直接转换成目标语言的对应成分,便生成了译文的句子。这种方法显然没有考虑到源语言和目标语言的差异性,对翻译过程的认识也过于简单。
2.转换系统
与直接翻译系统不同,转换系统的运行需要建立双语的对比,还需要一套复杂的映射规则。源语和目标语的分析是独立的,一般都要进行词汇层面和句法层面的分析,转换时需要一部双语对应词典,还要考虑到源语和目标语的结构差别,进行结构转换。
3.中间语言系统
该类型系统中的源语与目标语是不直接相关的,要先把源语的文本用人工设计出来的没有歧义的中间语言表示出来,之后再把中间语言所表示的意义用目标语言的词汇以及句法结构表示出来。由于源语的分析于译语的生成完全独立,它克服了转换法缺乏深层语义分析的弊端。
而基于语料库的方法可以分为基于统计的机器翻译方法和基于实例的机器翻译方法,这两种都是以语料库作为翻译知识的来源。但是它们之间也有明显的区别:基于统计的机器翻译方法是采用数据统计的结果来表示,而不是语料库本身,即翻译的过程不再需要语料库;在基于实例的翻译方法中,双语语料库本身就是翻译知识的一种形式,在翻译的过程中也要利用语料库查询。
虽然机器翻译方法多种多样,但笔者认为,可以将以上五种方法归纳为三代机器翻译系统。首先,直接翻译法为第一代机器翻译系统,但因为上文提到的弊端,现已很少用。而基于转换和中间语言的方法可以归结为第二代机器翻译系统,这两种方法与语言学有着密不可分的联系,尤其是随着语义学的发展,语言学与计算机技术的结合,使翻译可以达到“语义转换”的层次,因此也是比较完善的机译系统。而产生于20世纪80年代的基于统计和实例的方法则可归为第三代机器翻译系统。笔者认为新一代系统的产生源于两点变化:第一,人们意识到基于规则的方法有其不足之处:由于自然语言现象复杂多样,语法规则的数量庞大,制定规则时难免有主观性,亦或是无法处理规则描述外的语句翻译。第二,统计方法以及语料库方法的再度兴起,大规模的真实语料成为了研究对象,处理真实文本也成为了一种明显的趋势。第三,大规模的语言资料和测试平台投入使用,其中包括电子词典、语料库、知识库等,这些都给机器翻译和自然语言处理的研究提供了便利条件。
当然,虽按照出现时间以及特性将机译系统分为以上三代,但并非表明第三代一定是最完美的。通过对各种机译方法的介绍我们也可以看到,诸多方法各有利弊,我们在使用中也应该将各种方法结合起来。比如将基于规则的方法和基于语料库的方法结合,或是在基于规则的方法中加入统计方法以便消除歧义等,都将是以后研发的主要方向。
俄罗斯的机器翻译研究起步较早,并有自己独特的研究方法。进入21世纪,俄罗斯机器翻译研究不仅将注意力放在具体系统的特殊语言处理上,更注重探讨系统设计的一般理论原则。俄罗斯现行的机器翻译系统大多采用转换法,比较有影响力的有以下几个。
ЭТАП-3系统的几个主要模块特征可以概括如下[2](P260):
(1)将规则用作算法的基本单位;
(2)层级构造法;
(3)通过转换实现翻译;
(4)采用依存关系句法树;
(5)词汇主义方法;
(6)尽可能多地获取各种翻译方案;
(7)最近限度地利用语言学资源。
ЭТАП区别于其他基于转换的机器翻译系统的地方在于,它已经进入到了“语义转换”层次,而并非简单的“句法转换”层次。
在新世纪俄罗斯机器翻译发展的历程中,一些大型公司也作出了很大贡献,比如 АВВYY,ПРОМТ,Rambler等[3]。
АВВYY公司于1989年创立,该公司最著名的产品:АВВYY FineReader(扫描、文字识别及文档转换的 OCR软件),АВВYY Lingvo(电子词典),АВВYY PDF(pdf文件加工和变换软件),АВВYY FlexiCapture(智能的、准确的和可扩展的数据捕捉软件)等等。
ПРОМТ公司创立于1991年,现在在机器翻译加工和欧语词典领域中处于世界领军地位。ПРОМТ的机器翻译程序可以处理25种语言。该公司的程序既包括针对家庭使用的普通翻译程序,也有以上领域专家所使用的复杂高级的翻译程序,还有针对小部分客户以及因特网使用的专业翻译方案。
而我国的机器翻译研究是继美国、苏联、英国之后的世界上第四个国家。目前中国社会科学院语言研究所、中国科学技术情报研究所、中国科学院计算技术研究所、黑龙江大学、哈尔滨工业大学等单位都在进行机器翻译的研究,翻译的语种有英汉、俄汉、法汉、日汉、德汉等一对一的系统,以及汉译英、法、日、俄、德的一对多系统。目前中国的研究机器翻译系统的公司日益增多,最著名的公司有中软国际、华建、雅信、金山等。
中软国际公司是国家大型高科技企业,从事计算机软件程序,IT信息服务和外包产品一体化体系的开发和研制。译星是最著名的机器翻译产品之一。现在译星可以实现以下语言翻译:英—汉、汉—英、汉—日、日—汉。中软国际公司还研发了新一代笔译和其他产品的翻译记忆技术(Transtion Memory),并投入使用。该技术也是基于统计的方法,是近年来中俄机器翻译研究的一个新趋势,在翻译的过程中它和常规的机器翻译取长补短,共同协作,成为最有效的翻译手段。两种技术的使用可以保证高质量的翻译结果。如果在翻译时系统在“翻译记忆”中找不到相似的句子,那么“翻译系统”及其相关的分析和规则就会起作用。与基于规则的“翻译系统”相比,“翻译记忆”的结果更为通顺和易于接受,这源于规则本身的不完善性。目前俄罗斯的公司和中国的中软国际都对这项新技术投入了大量的精力并取得了一些成效。
华建集团是从事计算机及相关产品研发的高科技企业,现今该集团创建了60多种软件程序和产品,支持以下几种语言的翻译:英—汉、汉—英、俄—汉、日—汉、汉—日、中—法等语言的互译。
金山公司成立于1989年,是中国最著名的公司之一,旗下产品是引进现今外国技术并创新的结果。公司的主要精力集中在程序设计和网络服务上。PowerWoed可以实现英汉之间的互译,从它1997年面世的时候起,就成为了翻译领域的领先者,并占有着超过90%的中国市场。
中国最早的机器翻译系统就是俄汉机器翻译系统,但近年来我国的机器翻译研究还是大量的集中在英汉互译领域,进行俄汉机器翻译研究的单位主要集中在黑龙江大学和哈尔滨工业大学,且很多的专业人员都是精通计算机专业而对语言学并不精通。在俄汉机器翻译中我国很多学者也借鉴了俄罗斯的研究成果。
1.消除歧义问题。在编纂词典时,词义是简单罗列出来的,一个词通常有很多含义,机器自动翻译的时候不会进行词义筛选就会造成词不达意的情况。消除歧义的一种方法是通过在词典中进行标注,不仅标注出词形 (名词、动词、形容词等)和词汇使用范围 (口语或书面语等),还要标注出该词通常情况下的搭配范围。这一点恰恰是莫斯科语义学派倡导的“词汇函数”和“详解词典”理论。我国的学者也应用了该理论,如张家骅[5]。傅兴尚也对“词汇函数”在俄汉机器翻译中的应用前景进行了探讨。
2.俄语单词词尾识别问题。迄今为止俄语单词的词尾仍是俄汉机器翻译要解决的一个难题,因为俄语属于屈折语,靠词形变化来体现逻辑语义关系。因此,应该按照语法变化的规则制定词典,有特殊变化的词需制定出专门的词典来进行解决。
另外,翻译中的文化问题在俄汉互译中也是不可忽视的,正如苏联学者 Швейцер А. Д. 所说,“翻译不但是两种语言体系的接触,而且也是不同程度文明的接触。翻译过程不仅仅由语言因素决定,而且还由社会因素和心理因素决定的”。虽然我们可以将机器翻译比拟人类思维方式进行的翻译,但是如何令机器翻译克服文化干扰仍然是个难题。
纵观21世纪我国和俄罗斯的机器翻译研究现状,虽然中俄在机器翻译领域都取得了巨大的成就,但是仍存在众多亟待解决的问题。对于语言学家,如何让计算机更好地理解句子的结构和意义仍是我们研究的核心问题,是我们肩负的重要任务。
[1]冯志伟.机器翻译研究[M].北京:中国对外翻译出版公司,2004.
[2]易绵竹.工程语言学[M].上海:上海外语教育出版社,2006.
[4]杨杨.俄汉机器翻译与人工翻译结合的必要性[J].安徽文学,2009,(6).
[5]张家骅.俄罗斯当代语义学[M].北京:商务印书馆,2003.
[6]傅兴尚.基于事格语法的俄语词汇知识库[M].哈尔滨:黑龙江人民出版社,2002.
The Comparative Study of Chinese and Russian Machine Translation States inTwenty-first century
SUN Shuang,CHEN Xiao-xi
(Northeast Forestry University,Harbin 150040,China)
Basing on reviewed of generations history and development process of machine translation,the state of machine translation developing in China and Russia by twenty-first century has been deeply analyzed in this article,including the introduction of typical machine translation system,its main characters and designing principle.This paper raises a proposal for discussing on how to enhance the research level of Russian-Chinese/Chinese-Russian machine translation system.
machine translation;Russian-Chinese/Chinese-Russian;translation system
H085
A
2095-0292(2012)02-0074-04
2011-12-17
国家社科基金项目 (11CYY063);国家社科基金项目 (11CYY064);教育部留学人员科技活动择优资助项目 (41311401);中央高校基本科研业务费资助项目 (DL11CC13)
孙爽,东北林业大学副教授,博士,主要研究方向为计算语言学、语义学、机器翻译;陈晓曦,东北林业大学硕士研究生,主要研究方向为计算语言学、语义学、机器翻译。
[责任编辑 张 峰]