潘正芹,罗华珍,易永忠
(桂林电子科技大学外国语学院,广西 桂林541004)
机器翻译的困境、前景和出路
潘正芹,罗华珍,易永忠
(桂林电子科技大学外国语学院,广西 桂林541004)
文章总结机器翻译的发展现状,阐述机器翻译目前遇到的难于突破的瓶颈,揭示传统的机器翻译的局限性和遇到的困境,最后指出机器翻译的前景和出路在于:(1)加强语言研究成果的计算机语言转换,更好服务机器翻译;(2)语料库的应用。应用翻译平行语料库,结合大数据,云计算,实现云翻译,在云翻译平台上资源共享,探讨交流,达到翻译效率倍增的效果。
机器翻译;困境;数据库;云计算;云翻译
机器翻译通过应用计算机技术,将书写形式或声音形式的自然语言,翻译成另一种书写形式或声音形式的自然语言,是一项集计算机科学、人工智能、数理逻辑和语言科学于一身的应用工程,它的定位是交叉学科或边缘学科。机器翻译大概始于上世纪50年代的美国,如今机器翻译的应用已经遍布全球所有具备计算机和互联网条件的国家。随着计算机技术进一步发展和普及,机器翻译软件的处理能力也随之增强。在发达国家和地区,机器翻译不仅用于文字处理系统,分担很大一部分以前由翻译工作者承担的日常工作,而且正在朝着智能声控翻译通信技术的方向发展,例如,现在很多款智能手机具有语音识别能力,可以执行简单的声控翻译了,不懂外语的人只要选择手机上的相应功能按钮,就可以通过有声语言输入,转换成所需要的外语,不过这个翻译技术还处于简单的语言处理阶段。 由于机器翻译速度快,成本低,已经成为翻译界最受青睐的翻译工具。在我国,机器翻译进入百姓生活应该是始于上世纪90年代的,金山词霸就是最初的词对词的翻译软件,如今机器翻译已经可以在几分钟内处理大篇幅的文章,成了最重要的翻译手段。机器翻译的开发呈现多元化和多种模式,包括翻译软件、在线翻译网络平台(如百度在线翻译、谷歌在线翻译和有道在线翻译)等等,开发规模也不断壮大,开发机构和软件不再限于著名的大公司和企业 (如天津大通通译计算机软件研究所的“通译”、中软总公司的“译星智能翻译平台”、北京交大铭泰信息技术有限公司的雅信CAT计辅翻译系统),全国各大城市都有机器翻译的软件开发公司,越来越多的电脑公司也已经把目光和精力投向了机器翻译的开发市场,目前,基于语料库的翻译英汉互译实例正成为未来发展的方向,少数民族语言的翻译也开始初露端倪。
问题是:当翻译工具或软件普遍流行之后,很多人会认为有了这些东西,不懂外语也能做翻译了,事实真的如此吗?
我们先借用罗季美、李梅(2012、2014)以“汽车技术文献翻译语料库”为基础,对机器译文和人工译文进行的平行对比研究所得出的数据来说明问题。他们通过1000句的抽象对比,发现机器翻译获得的标准译文只占10.3%,而错误译文达89.7%,把译文错误划分成一级错误和二级错误,一级错误包括词汇错误,句法错误,符号错误,分别占84.13%,42.45和4.95的比率。词汇错误包括:术语错译、连词错译、词性错译、词汇缩写错译、词汇漏译、词汇替代错译、词汇不译;句法错误包括:词序错译、名词短语错译、动词短语错译、介词短语错译、被动语态错译、动词不定式错译、分词错译。至于二级错误在这里就不再详细说明。对于真正懂外语的人来说,机器翻译和人工翻译很容易区分,机器翻译得译文第一眼就能让人看出问题:表达僵硬、结构混乱、逻辑不严、意义不清。这样描述岂不是全面否定了当今社会机器翻译的成果和否定机器翻译的发展大趋势?当然不是,首先要树立两个观点:第一、机器翻译在批量上确实解决了很多词汇问题,在译文方面完成了粗加工,形成了半成品,这个过程的工作量非常之大,占据了人工翻译的大部分时间和精力,有了机器翻译,节省人力和大量时间,提高翻译的速度,从质的角度来说,它可能没发挥太大作用,只有10.3%的标准,但从量的角度说,它发挥了关键性作用;第二、机器翻译的译后编辑是机器翻译不可缺少的组成部分,从质的角度说,它是关键的阶段,操作和使用翻译软件很容易,译后编辑才是翻译人员专业素质的体现。
机器翻译至今存在的问题依然是结构歧义和语义歧义,这些问题的出现是随着机器翻译的发展带来的。机器翻译经历了三个阶段:第一代的机器翻译,只能做词对词的简单翻译,只起到查词典的作用,并不能进行真正的语言翻译;第二代机器翻译开始重视语法,尤其是句法的分析。正是语言学理论的突破,导致了机器翻译的发展;第三代机器翻译具有较强的语义分析手段,较多地采用了语义学和语用学信息,能较好地解决句子歧义问题。这些发展阶段放在中国的历史背景下,我们今天才进入第二、第三阶段。张政(2005)把出现的问题归因为:1)翻译本身的复杂性;2)自然语言的复杂性和3)机器自身的局限性。翻译的复杂性表现在翻译涉及到各种因素和各个学科的综合运用,包括译者的目的、读者对象、语体、跨文化、宗教、美学、语境等多因素的考量和词汇学、语法学、语义学、语用学等多学科的综合应用,加上翻译技巧的多样性和翻译策略的多元化;自然语言的复杂性主要表现在(a)句法的复杂性,句法成为专门的学科,句法的差异直接影响到意义的表达效果,(b)语义的复杂性,语言词汇丰富,一词多义,一义多词,近义词,反义词,褒义词,贬义词,中性词,相互交织,错综复杂,(c)语篇的复杂性,包括语篇结构、思想、逻辑、主题和构建语篇的语言技巧和策略。目前的机器翻译尚未能够有效地纳入这些因素,翻译效果远未达到人工水平。结构歧义表现在句子凌乱、语法错误,句与句之间意义不连贯,语义歧义表现在措辞不当,词义错误,甚至导致前后矛盾、不知所云。
机器翻译最早只能是词对词的翻译,只起到词典的功能和作用,句法的应用使得句子的翻译得以进行,使用直接翻译法可以解决,以英汉为例,用百度在线翻译做实验,当原文和译语(目的语)有高度的相似性时,可以直接对应翻译,如原文“他是个老师。”目的语就是“He is a teacher.”,随着原文结构复杂程度的增加,我们看看机器翻译是否还能保持正确的目的语。
1)【原文】 他是个老师。 【机译】He is a teacher.(百度)
2)【原文】他是一个对学生很严格的老师。
【机译】He is a teacher who is very strict with his students.(百度)
3)【原文】他是一个对学生很严格,但又很有爱心的老师。
【机译】He is a very strict to the students,but also very loving teacher.(百度)
【人译】He is a loving teacher who is very strict with his students.
4)【原文】这本实用书是为那些已经掌握英语基本知识,而现在想用已学到的语言知识来阅读自己相关科目的书籍的外国工程人员和工程专业学生而编写的。
【机译】This book is for those who have mastered the basic knowledge of English,and now want to use the knowledge of the language to read their own books related to the subject of foreign engineers and engineering students and the preparation of.(百度)
【人译】。 This practice book is intended for foreign engineer or students of engineering who have already mastered the elements of English,and who now want to use their knowledge of the language to read books on their own subjects.
从第三步开始,我们发现原文和目的语开始出现偏差了,当我们反过来把目的语当原文时,看看原来的原文是否成了目的语。
5)【原文】 He is a teacher.【机译】他是一位老师。(百度)
6)【原文】 He is a teacher who is very strict with his students.
【机译】他是一个对他的学生很严格的老师。(百度)
7)【原文】 He is a very strict to the students,but also very loving teacher.
【机译】他是一个很严格的学生,也是很爱老师的老师。(百度)
我们再用第三步的参考答案作为原文,看是什么结果:
【原文】He is a loving teacher who is very strict with his students.
【机译】他是一个爱的老师,他对学生要求很严格。(百度)
8)【原文]This book is for those who have mastered the basic knowledge of English,and now want to use the knowledge of the language to read their own books related to the subject of foreign engineers and engineering students and the preparation of.
【机译】这本书是为那些掌握了英语的基础知识,现在想用语言的知识来阅读自己的书籍,有关外国工程师和工程专业的学生和准备的。(百度)
现在把人译部分变成原文,看看是什么结果:
9)【原文】 This practice book is intended for foreign engineer or students of engineering who have already mastered the elements of English,and who now want to use their knowledge of the language to read books on their own subjects.
【机译】这本练习本是专为那些已经掌握了英语的元素的外国工程师或学生,谁现在想用他们的知识的语言来阅读自己的科目的书籍。(百度)
即使我们用参考答案作为原文,我们也得不到预想的效果,说明句法复杂后,英汉开始出现偏差,机器翻译的效果开始打折扣,如果原文是一段话,机器翻译的规则要求会更严,如果机器翻译在规则上不成熟,翻译结果会是怎样呢?
10)【原文】学院校园面积880多亩,环境优美宜人。学院面向全国招生,并招收港澳台学生和外国留学生,现在校学生13000人。
【机译】College campus area of more than and 880 acres,the environment is beautiful and pleasant.Institute for the national enrollment,and to recruit students and students from Hong Kong,Macao and Taiwan,and now school students 13000.(百度)
【人译】The university campus occupies an area of 145.2 acres with pleasing environment for 13000 in-school students who are enrolled from all over China including Hong Kong,Macao,Taiwan and evenabroad.
11)【原文】There is nothing more disappointing to a hostess who has gone to a lot of trouble or expense than to have her guest so interested in talking politics or business with her husband that he fails to notice the flavor of the coffee,the lightness of the cake,or the attractiveness of the house,which may be her chief interest and pride.
【机译】没有什么更令人失望的一个女主人谁去了很多麻烦或费用比有她的客人如此感兴趣,与她的丈夫谈论政治或业务,他没有注意到咖啡的味道,蛋糕的亮度,或房子的吸引力,这可能是她的主要兴趣和自豪。(百度)
【机译】没有什么更令人失望的谁去了很多麻烦和费用,比有她的客人让兴趣谈论政治或商业与她的丈夫,他没有注意到咖啡的味道女主人,蛋糕的亮度,或房子的吸引力,这可能是她最感兴趣和骄傲。(谷歌)
【人译】令女主人失望的是,她花了很多心神和费用来招待客人,可是这位客人只顾津津有味地与她丈夫谈政治,谈生意,却没有注意到香喷喷的咖啡,松软的蛋糕,或房间内讲究的陈设,因为这些却可能是她最感兴趣并最引以为荣的东西。
从以上的例子我们看到,进入语段翻译环节,机器翻译效果更加大打折扣,所以在句法层面上说,机器翻译依然停留在结构比较简单的句子上,同时我们发现,原文和机译译文并不能对等互换操作,说明英汉互译随机性比较强,自由空间很大,还没有足够的严谨和科学。
其实从上面的例子我们就已经看出,英汉句法上的差异已经影响到语义了,机器翻译倾向于对等处理,而实际上不对等现象导致了机译的错误,人工翻译能超越不对等,从深层意义去处理表层的差异,但总的来说,句法上的问题导致的翻译错误主要是逻辑混乱,无法在句与句之间形成意义链,而语义上的问题,主要体现的概念上,即词义选择上。语义部分问题需要运用到语义学的语素分析和翻译中的语素选择问题,对于多义词(字)要考虑语境的制约。语义歧义主要根源在于一词多义,机器翻译首先选择高频词义,但词义要依赖具体语境需要,以字为基本单位的汉语,在汉译英中更容易出现语义上的错误。例如:
【原文】语言语际转换研究所创建于2013年3月,为了配合我院2013年翻译硕点的申报和作为今后翻译硕点建设的一个重要依托,研究所的成立将更好地整合学院翻译研究的资源,建立翻译学科研团队,加强我院的翻译研究科研力量,构建年龄、职称、学历和学缘结构的合理配置,注重理论与实践相结合,推动学科学术梯队的持续发展和翻译专业课程建设。
【机译】Language Translation Research Institute was founded in 2013 March,in order to cope with an important support of our hospital in 2013.At the declaration and translation as the future construction of translation",the establishment of the Institute will be better integrated school of translation studies resources,the establishment of translatology research team,strengthen our translation of scientific research strength,reasonable allocation construction of age,title,education and education related structure,pay attention to the combination of theory and practice,to promote the construction of the sustainable development of academic echelon discipline and professional translation course.(百度)
【机译】Language translation conversion Institute,founded in March 2013,in line with our hospital in 2013 and translated Shuo point declaration as a translation for the future construction of an important support point-seok,the establishment of the Institute will be better integration of resources Institute of Translation Studies the establishment of translation studies research team,strengthen our hospital translation studies research efforts,build a reasonable configuration age,title,qualificationsand academic structure,focusing on the theory and practice,to promote sustainable development and translation of the Curriculum for the academic teams.(谷歌)
以百度为例分析,这里把“院”翻译成“hospital”是明显的错误,“翻译硕点的申报和作为今后翻译硕点建设的一个重要依托”翻译成了:“At the declaration and translation as the future construction of translation”,不仅错误,还出现信息丢失。
机器翻译段落,句法和语义问题都全部暴露,我们无法看到具有语篇特征,句与句之间有逻辑和语义连贯的译文,而很大程度上像是一堆文字。……像这样的情况,我们需要制定更加宏观的,能够驾驭段落,甚至篇章的翻译规则。
语用因素也是翻译中不可忽略的部分,由于语境的制约和文化差异,有些材料需要做出归化或异化的处理,语用规则的介入将解决语境和文化制约的翻译过程。例如成语或习语的翻译,就非常需要考虑文化差异的制约作用,不过现有的成语(习语)词典可以解决了这个问题,也可以通过语料库来解决,最棘手的问题还是上下文语境问题,目前在机器翻译领域,语用问题还没有真正得到解决。我们对百度、谷歌、有道、金山、必应等多家在线机器翻译做了大量的实验,发现句法问题和语义问题依然是个机器翻译中最大的问题。
除了句法和语义,人工翻译遇到的其他问题机器翻译也同样遇到,甚至还多,而且人工能做到的机器不一定能做到。人工翻译可以在宏观上为语篇上进行布局,也可以在微观上斟酌词句,机器翻译往往做不到。人工很难翻译的地方,机器同样也很难处理,这些方面包括:(1)人名、地名;(2)歇后语 ;(3)双关语;(4)成语;(5)俚语;(6)格言;(7)名言隽语;(8)习惯用法 等等。 “She is a cat” 无论如何机器翻译都很难翻译成“她阴险狡诈”,因为这要跨越文化范畴和视角来进行翻译。人工翻译能统筹各种因素,包括语言、语境、语法、语用、跨文化、美学、以及读者对象、翻译目的和各种翻译技巧和策略的综合应用,机器目前做不到。从以上句法、语义和其他各个层面的观察,我们发现机器翻译效果与标准要求依然很远,必须加强句法学、语义学向计算机语言的转换的研究和实践,目前这方面似乎遇到了瓶颈,机器翻译后编辑工作依然是一个繁重而且关键的工作。
语料库语言学的诞生和应用,为机器翻译提供了新的思路。谈到机器翻译的发展前景和出路,离不开三个关键词:语料库、大数据和云计算。以英汉为例,汉英互译平行语料库的诞生,是计算机辅助翻译的里程碑意义的大事,单纯依赖后台编程来实现规则的应用的机器翻译,已经遇到了难于突破的瓶颈,至于原因上面已经提到:翻译自身的复杂性、自然语言的复杂性和机器自身的局限性,复杂到什么程度上面也已经提到了。语料库的开发和应用,开创了机器翻译一个全新的思路,语料库可以用于查询,也可以对语料进行分类和分析,对翻译实践和翻译研究都非常有帮助。翻译平行语料库的原理是呈现原文和译文进行对比,我们可以通过输入所需要翻译的原文,计算机在语料库中查询与此相同或相近的表达,语料库不一定给提供直接的译文,但是能够提供大量可供选择的参考资料,语料越丰富,与对比的原文就有更多更高的相似度,语料库的发展使得原文与语料的相似度无限接近。由于翻译的复杂性,影响翻译的因素很多,现在很多翻译软件都已经考虑到这一点,在语料库的操作上加入了很多参数标签,缩小搜寻的范围,这些标签包括各种语境标签、文化标签、文体标签、行业术语标签、技巧策略标签等等,往往是标签越详细,得到的结果越精确。应用语料库的优势在于翻译会更加统一,讨论和借鉴的空间会更大,不再存在句法语义的错乱问题。
目前语料库尚不成熟的地方是不容易找到与原文一摸一样的平行对比语料,通过不断扩大平行语料库的规模,原文区与语料库的相似度才能不断地接近,这就需要更多的数据,所以跟随语料库而来的是大数据问题,我们所处的大数据时代含义很宽泛,但与翻译相关的是平行语料库的应用。语料库越来越大,说明数据越来越大,数据的运行速度和运行安全成为必须解决的问题了,云计算就成为计算机网络技术新的发展趋势了。
“云”(李莉等人2010)指的是系统中的计算机群,其规模和能力理论上不受限制,而且可以在网络中的任意地方,如谷歌的网络服务(包括搜索引擎 谷歌地球等)架构在由多达200多万台计算机构成的云计算平台之上,Amazon、微软、IBM等的云计算平台也都达到了几十万台计算机的规模。云计算(董洪学等 2016)是一种新型的网络服务计算模型,可以将存储在任何联网设备上的海量信息和处理器资源集中在一起迁移到“云”上,用户借助任何终端设备(电脑、PDA、智能手机等)通过网络就可以在任何时间、任何地点最大限度地使用这些资源,轻松完成协作任务。借助云计算,网络服务提供者可以在瞬息之间,处理数以千万计甚至亿计的信息,实现和超级计算机同样强大的效能。传统的数据存放和处理都在本地电脑或某个固定的网络服务器上,云计算则把这一切都放在互联网上,只有通过账户和特别的加密和安全系统保护的账户信息,除拥有权限的人以为,其他人都无法接触,这是非常安全的。所以,语料库规模越来越庞大,云翻译将是我们未来机器翻译的发展方向。云翻译可以对海量的语料库信息进行采集、传输、存储和利用。在云翻译平台上,翻译公司可以将人才储备达到数万人,还有庞大的专家队伍,涵盖各行各业,方便交流,翻译的速度和效率会倍增。
通过大量的实验观察,我们发现阻碍机器翻译发展的瓶颈问题依然是结构歧义和语义歧义,原因归结为三大点:翻译的复杂性、自然语言本身的复杂性和机器翻译的局限性,我们认为更重要的是句法学、语义学、甚至语用学和其他各个语言学科的研究成果,没有及时转换成计算机语言,服务于机器翻译,要实现这一目标,语言研究专家与计算机专家共同合作才行;另一个发展趋势是翻译平行语料库的诞生、应用和发展,需要大数据的推动和计算机云计算的应用,以保证数据的安全和高效采集、传输、存储和利用。所以归纳起来,机器翻译未来的发展有两条路,第一、加强语言学研究成果向计算机语言转化,以突破目前的结构歧义和语义歧义瓶颈;第二、利用翻译平行语料库,通过大数据驱动和云计算技术,实现翻译的安全和高效,第二条路正迎合当前的大数据和云计算时代需要,前途似乎更加广阔。
[1]董洪学、张坤媛.云计算学习平台下MTI翻译工作坊教学模式研究.《外语电话教学》2016年第2期.
[2]李 莉、廖剑伟、欧灵.云计算初探,《计算机应用研究》2010年12月.
[3]罗季美、李梅.机器翻译译文错误分析,《中国翻译》2012第5期.
[4]罗季美.机器翻译句法错误分析,《同济大学学报》(社科版)2014第2期.
[5]张政.机器翻译难点所在[J].外语研究.2005年第5期.
编辑:董刚
The Predicament,Prospect and Solution of Machine Translation
PAN Zhengqin,LUO Huazhen,YI Yongzhong
(College of Foreign Studies,Guilin University of Electronic,Guilin Guangxi 541004)
This paper summarizes the development of machine translation,illustrates the difficult bottleneck encountered in machine translation and reveals the limitations and difficulties of traditional machine translation.Finally,it concludes that the prospects and the solutions of machine translation lie in two aspects:(1)the enhancement of findings in language research of computer language conversion so as to better serve the machine translation;(2)the application of corpus.Cloud translation will be achieved by utilizing translation parallel corpus,coupled with big data and cloud computing.In this way,it’s convenience for people to share information and make exchanges,and thus increase the efficiency of translation.
machine translation;predicament;database,cloud computing;cloud translation
H059
A
2095-7327(2017)-09-0044-06
潘正芹,桂林电子科技大学外国语学院副教授,研究方向:翻译和第二语言习得。罗华珍,桂林电子科技大学外国语学院副教授,研究方向:英语教学。易永忠,桂林电子科技大学外国语学院教授,研究反向:翻译,英语教学法。
广西教育厅“英汉机器翻译与语言学接口研究:问题与出路”,编号:KY2015YB115。