米彦军,张琳婧
(山西大学 外国语学院,山西 太原 030006)
自从20世纪40年代出现计算机以来,就开始研发对世界经济具有划时代意义的机器翻译的技术,这堪称是与计算相媲美的一次产业革命。而今在全球化日趋加深,特别是日本社会少子老龄化问题越来越严重这一社会背景下,由于人口减少导致日本产业对国外的依赖程度越来越大。为了应对这一严峻形势,人们对通过机器翻译这一新型生产力,提高跨过商务效率的期待越来越高。但是,迄今为止,由于受到种种限制,机器翻译没有得到广泛应用。而最近围绕机器翻译的环境及以做翻译为生的人们对机器翻译的看法也发生了变化。在这一过程中,日本的机器翻译产业不断发展壮大,走到了世界前列。另方面,随着中国加入WTO、全球经济一体化的不断加深,“一带一路”战略构想逐步实施,对外政治、外交、经济、文化等领域的交流不断深入,对作为与外国交流的桥梁的翻译的需求越来越大。然而,翻译服务产业在我国起步晚,改革开放初期人工翻译才开始走上正轨,20世纪90年代,随着IT业的发展机器翻译才开始萌芽,时至今日发展很不成熟。他山之石可以攻玉,同属儒家文化圈的日本机器翻译产业的发展模式对我国有着重要的借鉴意义。
早在计算机诞生之初,人们就开始着手研究机器翻译问题了。就当时的翻译技术而言,主要采取了直接翻译单词方式,亦即将翻译对象语言的单词切换为目的语言的单词,进而重新排列为符合目的语言的词序。之后,随着乔姆斯基等对语法理论研究的加深,语法转换方式成为机器翻译产业的主流,亦即根据语法从句式角度解析作为翻译对象的语言,依据对译词典、翻译规则将其转换为目的语言的句式结构,之后形成目的语言的句子。但是,如果使用这一方式,每一对翻译语言都需要对译词典、翻译规则,要做到多语言翻译,需要准备与语言对的组合数量相应的海量知识。为了解决这一问题,需要采取中间语言方式,亦即设定虚构的中间语言,通过句式结构将中间语言内容翻译成目的语言。这样一来,需要与语言对组合相应数量的词典、翻译规则。只要准备好翻译对象语言→中间语言的词典、规则及中间语言→目的语言的词典、规则足矣。
就最初的翻译方式而言,基本上采用了由能够理解多种语言的翻译人员、熟悉语言结构的专家来人工编纂词典、制定翻译规则的规则基准翻译方式,故需要花费大量的人力、时间。另外,因翻译对象领域和文体不同,如果不修改部分词典、翻译规则,很难充分提高翻译性能,因此增加了成本。到了20世纪80年代后半期,发明了灵活应用过去翻译的对译数据的翻译技术。开展国际业务的企业已经积累了大量对译数据,内容是过去翻译过的专利申请、操作手册等,因此,出现了再利用这些资源的倾向。其代表性的方法是统计翻译技术。在统计翻译中,准备了大量的翻译对象语言目的语的句对。通过这一对译数据库,将单词翻译成哪个单词、语序怎样变化,共振的单词是哪个等作为统计信息来计算,输出概率最高的翻译结果。当初,以单词为单位的翻译是主流,而今向运用结构性特征的以短语、句式结构为单位的统计翻译转变。另外,最近也有人提倡使用深度神经网络翻译方法的。
如上所述,近年来,在机械翻译技术上发生了模式转换,但是统计翻译方式并非在任何语言对中都占优势。如在词序、词源等相近的英语和法语语言对中,统计翻译方式实现了优于规则基准翻译方式的性能,成为主流。而在词序、词源等相近的日语和英语语言对中,在翻译过程中,词序和结构会发生大幅变更,因此如果使用仅能在计算量上进行有限的词序操作的传统的统计翻译方法就不能体现充分的翻译性能,因此,主流是规则基准翻译方式。
但是,近年来发明了针对日语和英语等词序迥异的语言对也能实现高性能的统计翻译方法。比如,有人提出了在将英语翻译成日语之际,在把英语替换为日语词序之后将日语词序的英语逐个词式地译成日语的方法。按照这一方法,在专利领域的英日翻译中 ,在历史上首次实现了优于规则基准翻译方式的翻译质量。
机器翻译的技术进步使得最有希望使用机器翻译直译的翻译产业及以翻译为生计者的意识发生了变化。近几年,随着将翻译工具引进翻译过程,翻译产业发生了巨变。具体来讲,就是对过去翻译过的大量的数据的有效利用。在翻译与过去翻译过的领域类似的句子时,过去翻译的资料就可以作为参考。通过翻译工具计算今后要翻译的句子和过去翻译过的句子的类似性,如果发现了类似程度在某个阈值以上的翻译句,就通过一面借用、参照该翻译句对的一部分,一面翻译新的句子来实现翻译的效率化和表述的统一,将这一过去的翻译经历称作翻译记忆功能。就向这样的翻译进程过渡而言,如跨国企业的操作手册等,假如过去已经拥有大量的翻译资料的话,要求订购翻译业务的企业方提供这一对译数据,通过翻译记忆功能进行翻译,这一方式频繁进行,给翻译产业的业务订购形态带来了巨大变化。因此,得到订单的翻译公司及译员不管情愿与否都要使用具有翻译记忆功能的翻译工具。众所周知,应用翻译记忆功能比全部从头开始翻译效率更高。这导致订购翻译服务一方和翻页公司积极引进翻译记忆功能。
但是,如果通过上述翻译记忆功能不能发现一定程度以上的对译数据,需要从头翻译。因此,针对这些句子以翻译的效率化为目的灵活运用机器翻译技术受到瞩目。在翻译功能已经具备的情况下,通过将过去的翻译履历应用到统计翻译上就能得到反映了过去的翻译数据的翻译倾向的翻译结果。再有,最近统计翻译技术质量不断改善也对此进一步起到了促进作用。
在对将机器翻译技术引进翻译过程的期待高涨的情况下,翻译产业通过就机器翻译技术进行演讲、小组讨论,大幅度增加了提供信息的机会。比如日本最大的翻译产业团体日本翻译联盟在每年召开一次的翻译大会上,召开了数个有关机器翻译的会议,会场听众爆满。另外,在该联盟的讲座上,选机器翻译作主题,吸引了诸多听众。另外,负责产品及服务说明的专家团体翻译技术交流协会在其主办的TC学术研讨会上举办了数个有关机器翻译应用方法的分会。在与机器翻译产业相关的团体亚太机器翻译协会主办的机器翻译节上,召开了日本翻译联盟、翻译技术交流协会及机器翻译协会分别参加的小组讨论会。在日本国外,设立了会员制组织TAUS,目的是共享提高机器翻译的应用方法、应用工具和翻译数据,主要的跨国企业享受会员待遇。可见,日本社会对机器翻译产业的关注远远高于以前。
在日本,作为专利文书的翻译需求而言,大致分为两类:
这类翻译的主要目的是掌握专利的申请内容,因此,只要能够明白内容,多多少少有些翻译失误也是可以忍受的。在这个意义上讲,就确认申请的专利内容的翻译的用途而言,可以说机器翻译已经达到了灵活应用的水准。
与上述第一种翻译相比,在日本人向外国申请专利而进行的翻译中,因为所翻译的文章原封不动就成为专利的审查对象,因此在翻译内容的准确性、作为专利文书的表述是否合适等方面要求的翻译质量要高得多。因此,就使用机器翻译而言,考虑到现在的技术水准,在实施机器翻译前后,需要人工编辑作业(包括前期编辑及后期编辑)。
从机器翻译这一观点来看专利文章的翻译,既有利也有弊。有利之处在于存在着大量的多语言数据。如上所述,如果是最近广泛使用的统计翻译技术的话,因事前能够收集多少想翻译的领域的对译数据的数量的多寡,对这一领域的文本翻译的翻译质量也有所不同。在这一点上,就专利文书而言,如果将同一专利向多数国家提交的话,用母语写的专利明细应该进行翻译,进而其提交的专利在一定时期以后需要公开。向其他国家提交的同一专利可以通过专利网站信息进行检索。因此,通过检索向其他国家提交的大量的专利,使之成为用于学习的对译数据,很容易建立面向专利文书的统计翻译体系。另外,有关专利的文章其目的是实现成功申请,因此其文章结构以及表述相对明确,并有所限定。考虑到如果存在表述的多样性,保证翻译质量会很困难这一机器翻译的特点,可以说这是有利之处。另外,不仅仅限于专利文章,从其他观点来看还有译词的统一问题。因为,在专利文章中,有必要明确记录提案方法,如果句子中出现的术语是指同样内容的话,完全用同样的表述方式翻译是最理想的。就这一点而言,在机器翻译中,对同一个词使用相同翻译的倾向很明显。因此,其优势在于容易做到术语的统一。
另一方面,就专利中的句子而言,一般来讲长句居多。其典型例子就是请求项的句式。句子过长的话,原封不动使用机器翻译一个句子的话很难得到高质量的翻译结果。因此,通常来讲,要分割句子等,采取各种各样的事前处理、事后处理措施。再有,如日英翻译等,在词序、句子结构迥异的语言间进行翻译的话,如句子长,次序变换操作就变得困难,翻译质量就会下降。就这一问题而言,如上所述,有人提议使用将词序作为翻译的事前处理来重新排列的统计翻译技术,结果质量逐步改善。另外,基于专利的性质,主要是关于新技术的内容,新词频繁出现。因此,有必要进行事先发现生词,登记其译词的处理。不过,如上所述,专利是对译数据的宝库,通过采用针对大量的对译数据发现对译单词对的办法,在某种程度上可以事前登记译词。向多数国家提交的专利因为相同内容的文书要用多种语言进行翻译,使用统计翻译的话具有作为学习数据来灵活使用的优势。但是,按照现在的统计翻译技术水平,有必要作为学习数据赋予其句子对应关系。实际上,以多种语言提交的专利并未赋予其句子对应信息,因此,有必要事先让句子对应。另外,在很多情况下,所提交申请的专利的结构因申请国而有所不同,有必要认定适应申请国的结构性对应关系。对此,提出了几个以专利文为对象的对译句对的自动抽出方法。
由上述可知,随着翻译技术的主流由规则基准翻译方式逐渐向统计翻译方式以及二者的混合模式变化,可以说能够收集、灵活应用大量的对译数据的专利翻译包括其实用性在内,对机器翻译来说是个极为有希望的领域。另外,能够灵活运用过去的翻译数据意味着和灵活应用翻译记忆功能的翻译支持工具合作的可能性很高。在欧美各国,因为所要翻译的语言间的结构相近,与英日翻译那样结构较远的语言间的机器翻译相比,质量要高得多。因此,广泛地将机器翻译引进了翻译过程中。在英日翻译上,随着最近翻译性能迅速提高,机器翻译开始灵活应用到翻译过程当中。然而,因为英日翻译远未达到充分的翻译性能,因此要将其引进实务性翻译过程需要进一步的技术革新。另外,即便译文质量不够充分,为了充分利用机器翻译结果,现阶段有必要研究业务流的最佳化。
2008年和2010年,中国成功举办奥运会和世博会,2020年又将举办冬奥会。近两年作为国策,提出了“一带一路”战略,中国“走出去”的步伐更加坚定,这些给翻译服务产业带来了前所未有的重大机遇,同时倒逼翻译服务产业经历大的变革,增加机器翻译的比例。但是,我国国内机器翻译产业无论是在制度上、管理上还是在人才培养等方面,仍存在不少亟待解决的问题。以下在对中国的机器翻译产业现状、成绩与不足进行概述的基础上,谈一下如何扬长避短,借鉴日本机器翻译产业发展模式。
据研究中国翻译产业的权威数据讲,截止2010年1月,全国共有从事翻译的企业一万五千多家,企业注册数量和注册资金与以前相比大幅增加。这些数据都说明翻译服务外包产业正在快速成长。为了应对日益增加的翻译业务,不断开发机器翻译下相关产品。现阶段,市场上盛行的翻译服务产品有谷歌翻译等,此外,中国国内企业也不断研发出一系列新的翻译软件系统,努力将翻译记忆功能和机器翻译技术进行融合,以达到高效率和高质量翻译的目的。机器翻译技术虽然还不成熟,但是正在成为翻译产业的新的发展方向。
不断增加的翻译服务需求使得我国高等院校的专业翻译教学成为一门独立的学科,从外语教学中分离出来。而且,为了培养高层次、应用型、专业化的翻译人才。为数众多的专门从事翻译教学的院校已经开始寻找实践基地和翻译项目。具体来讲,近年来,广东外语外贸大学和天津外国语大学开始摸索产学研相结合的发展模式,如广外、天津外国语大学分别与中国多语工程技术研究中心共同创建的广外多语港、天外多语港项目就是其典型案例。
不仅如此,中国正逐步完善翻译人才培养及评价体系。比如全国翻译资格证已经列入国家职业资格证书名单,英、法、日、俄、德、西、阿等7个语种的二、三级口译和笔译共29种58个科目考试已在全国范围内开展起来。针对从事翻译教学的教师的正高、副高职称考评办法也已经制定出来,必定会促进翻译教学更上一层楼。翻译资格考试在社会上的影响力越来越大,考生人数逐年增加。这一翻译证书考试为科学、客观、公正地评价翻译专业人才能力和水平,规范翻译产业的发展,加强行业管理起着重要作用。
通过对中日两国机器翻译产业的对比可以发现,日本在翻译人才培养、产学研联合、翻译资格证书考试及人才培养方面不如中国做得到位。究其原因,中国在翻译服务产业方面的强势源于中国人口众多,工资水平低,机器翻译产业的技术水平尚未达到令人满意的程度,因此,非常重视人工翻译,而在机器翻译方面投入的人力物力就不如人工翻译。而日本的情况则有所不同,日本是高度发达的资本主义国家,工资水平很高,加之老龄少子化现象严重更进一步推高了人工翻译成本,因此,日本不断加大机器翻译的研发力度,在日语与英文、中文等世界各大语种之间的互译上精益求精,翻译结果已经相当令人满意,在这方面我国需要向日本学习。另外,日本从事机器翻译产业的公司众多,还成立了相关协会,广泛应用在专利翻译等领域,促进了经济发展和科学技术进步,在世界上处于先进水平,其发展模式对中国的机器翻译产业有着重要的借鉴意义。
以上通过对日本机器翻译产业的历史进行回顾可以发现,在技术层面、翻译产业的意识层面以及国外对机器翻译的利用状况、围绕日本机器翻译产业的环境发生了重大变化。近年来,由于少子老龄化导致的人工费用高涨,日本社会对机器翻译产业的期望越来越大,提供机器翻译技术一方和使用机器翻译一方进一步合作,一面参考国外案例一面提供解决方案,取得了良好的效果。中国逐渐步入中等收入国家,老龄化日趋加剧,人工翻译费用高涨,发展机器翻译产业已经是大势所趋,结合中国的国情,在技术上、企业管理模式上借鉴同样使用汉字的日本的机器翻译产业发展模式是一条捷径。