国内外机器翻译比较研究—基于百度和谷歌在线翻译调查

2018-06-05 10:18施雪琴吴兰香鲁明易
卷宗 2018年8期
关键词:机器翻译

施雪琴?吴兰香?鲁明易

摘 要:国内外人工智能飞速发展,机器翻译质量近几年有了明显提升。通过短语,句子和段落三个层面分析对比谷歌和百度在线翻译,分析国内机器翻译的不足之处,在此基础上提出建议,以期为国内的机器翻译发展提供些许启发。

关键词:机器翻译;百度翻译;谷歌翻译;机器翻译比较

基金项目:中央高校基本科研业务费专项资金资助和江苏省研究生科研与实践创新计划项目(SJCX17_0080)

一、前沿

机器翻译是利用计算机把一种自然语言转化成另一种自然语言的过程。机器翻译研究有着重大的社会,经济和科学价值。近年来,随着科学技术的迅猛发展,各国交流频繁,克服语言障碍,实现跨语言的自由沟通的需求逐渐增强。机器翻译涉及到人类对自身翻译的认知,也涉及到人工智能和软件工程等众多其他学科。

据戴新宇(2004)所言,机器翻译是上世纪40年代英美工程师提出的用计算机进行翻译的方法。随着国际性的关于机器翻译研究会议的频繁召开,很多外国互联网企业都对机器翻译进行投资。常宝宝(1998)在《机器翻译研究的现状和发展趋势》提到我国对计算机研究开始于1956年,1987年军事科学院成功研制出“科译1号”,这一切标志着我国在机器翻译上的极大进步。对于机器翻译的研究中国在近几年也是投入了大量人力和物力。刘洋(2017)谈到早在2015年百度就已经发布了基于深度神经网络的端到端翻译系统,微软的必应翻译也同样使用神经网络技术来改善自身的翻译质量。杨森(2011)形容当时的谷歌在线翻译质量虽然无法达到令人满意的程度,但前景极其乐观。庞斌(2016)则提到谷歌公司于2016年最新发布的神经机器翻译系统使用了当前最先进的训练技术,能够实现当下机器翻译质量上最大的提升。与传统的基于短语的翻译相比,基于神经网络的翻译系统对输入的整个句子进行编码,能够更充分的利用上下文信息,生成较高质量的译文。目前所采用的神经机器系统的翻译确实好于以前的短语翻译,但就翻译的准确度来说,还是与人工翻译存在差距。张周(2013)曾就谷歌和百度汉译英的翻译文本进行比较,更加全面的指出并分析了国内外机器翻译的水平和现状。杜金华(2013)认为,机器翻译技术只有真正实用化才能体现其价值。要更多地从用户角度去开发和应用机器翻译系统,才能更好地争取用户,服务社会。胡宇涵(2013)认为目前的机器翻译仍然无法达到全自动高质量的目标。冯静(2009)提出虽然国内的机器翻译能够提供一定质量的译文,但其准确性和可读性仍然不强。邹玥俐(2016)指出随着人工智能技术的不断进步,国内外的机器翻译研究都会有更大的发展。

本研究通过查找相关的文献和资料,对比谷歌和百度在线翻译的文本。同时进行访问调查、对比研究谷歌和百度翻译软件。从短语、句子和段落三个层面对这两类在线翻译软件的精确度进行比较,分析对比谷歌和百度在线翻译。在此基础上,分析当前国内机器翻译存在的局限性,同时针对这些问题提出解决方案,为中国机器翻译的发展提供一些可行性建议。

二、国内外机器翻译现状

最早的机器翻译就是基于词和语法规则,随后出现统计机器翻译方法,通过统计分析大量的平行语料库,发现词组规则,进行精准翻译。虽然词语翻译基本可以做到准确,但是句子和段落翻译还是存在很多误译的地方。直到近几年神经网络翻译的推出,机器翻译可以模拟人脑神经的层级结构,对信息进行抽象分析,自动识别语言规则和模式,做到精准翻译。谷歌和百度在线翻译是目前国内用户首选的两类翻译软件。谷歌翻译是谷歌公司推出的针对文本、语音和图像等多语种的翻译。谷歌翻译的工作本质是基于多种语言的平行语料库,结合统计和数学的方法,构建大数据分析模型挖掘各种语言间的内在规律。谷歌翻译不受原文字数的限制,具有超强的检索功能,可以从事几乎所有行业的翻译。在2016年,谷歌公司将全产品线的翻译算法换成了基于神经网络的机器翻译系统,使用最先进的训练技术,翻译质量有了较大提升。深度神经网络提倡的是用深层的网络结构去直接学习拟合源语言到目标语言的概率。百度在线翻译曾在2015年获国家科技进步奖。就目前而言,百度翻译突破了机器翻译领域内的四大世界难题:提出基于大数据的互联网机器翻译模型,快速响应高负荷翻译需求;基于大数据的翻译知识获取,克服语言数据噪声问题;通过深度语义分析和翻译技术,减少语义歧义;提出枢轴语言机器翻译技术,实现了稀缺语种的多语言翻译。百度和谷歌先后推出神经网络翻译系统,相比之前短语翻译的优势,现在的神经网络翻译更加擅长处理句子翻译。基于深度学习的神经网络,可以更好的学习人类的语序模式,长句翻译更加流畅。无论是谷歌还是百度翻译,其前景都是一片光明。

三、谷歌和百度翻译文本比较

这次文本选择是中译英和英译中的通用类文本,句子结构不复杂,逻辑清楚,无生僻的词语。从短语、句子和段落三个层面来进行分析。

在短语方面,笔者采用了通用的专有词语,进行翻译比较。中译英翻译“跑龙套”,百度翻译为“play a bit role”,谷歌的翻译则为“play a small role”。在这里,百度和谷歌翻译其实相差不大,基本上把词语的意思已经解释出来。“一马当先”,百度和百度的解释都为“take the lead”,两个翻译软件的四字成语的解释英译中的词语翻译,笔者首先选择了英文常见的习语,而非简单的生活用语。“Like father like son”百度和谷歌翻译的解释都为“有其父必有其子”,接着笔者继续测试其他英语通用类的词语短语,谷歌和百度翻译的输出结果都不错。就常用词语层面来说,百度和谷歌翻译已经做到准确无误的进行翻译。考虑到谷歌十年前发布的谷歌翻译,核心算法就是基于短语的机器翻译,到目前为止,谷歌和百度在短语方面的中译英和英译中翻译,都能够做到准确无误。

在句子方面,笔者采用一些常用的中英文句子进行翻译比较。中译英 “对于未来,我有很多期待”,百度解释为“I have a lot of expectations for the future”,谷歌的解释为“For the future, I have many expectations”,谷歌和百度對这一句话的解释,可以说是基本一致。当然句子本身难度不大,不存在专业词汇和文化内涵。而中译英“创业能成功,就是既要能吃猪肉,也要能跟猪跑”,百度的翻译为“The success of a business is not only to eat pork but also to run with the pig.”而谷歌的翻译则为“Entrepreneurship can be successful, it is necessary to eat pork, but also with the pig run”。对于这句话的翻译百度明显好于谷歌。谷歌这句翻译存在语法错误,过于紧贴原文,虽然将意思表达出来了,但语法错误明显。百度兼顾语意和语法,准确地将这个句子翻译出来。英译中的句子“this is by far the largest cake in the world” 的百度翻译为“这是目前世界上最大的蛋糕了”,而谷歌的翻译为“这是迄今为止世界上最大的蛋糕”。两个翻译软件在这里都能够准确翻译,当然此句无复杂的从句和单词,句子比较简单。英译中的句子“The people who get on in this world are the people who get up and look for circumstances they want, and if they cannot find them, make them.” 百度翻译为“人的谁得到在在这世界是的人谁得到了和看为情况他们想,和如果他们不能找到他们,使他们”。谷歌的翻译为“谁在这个世界上取得成功的人是谁起床去寻找他们想要的机会,如果他们无法找到他们,让他们”。就原句翻译来说,谷歌和百度的翻译都没有准确将意思表达出来,但谷歌已经将句子大意翻译出来,百度存在明显语病,整句翻译无任何逻辑性,属于误译。虽然谷歌的翻译与人工翻译存在一定差距,但已基本遵从原句翻译出来。翻译的原则是忠实原文,其次才可以根据原文翻译进行修饰。显然,谷歌英译中做得比百度好一些。

中译英段落翻译,笔者选取了一篇介绍新疆风土人情的报道。用词简单,无长难句。“新疆和田地区是维吾尔族群众聚居地,人均耕地面积不足1亩。地处边远,交通不便,远离国际、国内市场,严酷的气候条件,频繁的风沙灾害,恶劣的生态环境,是造成和田贫困的客观因素之一。”百度翻译的解释为“Xinjiang Hetian area is a habitation of Uygur people, and the per capita arable land is less than 1 mu. Remote location, inconvenient transportation, far away from international and domestic market, severe climate conditions, frequent wind and sand disasters, and harsh ecological environment are one of the objective factors causing poverty in Hotan.”谷歌翻譯的解释为“The Hetian area in Xinjiang is a Uighur populace, with arable land per capita of less than 1 mu. It is one of the objective factors causing Wada poverty because of its remoteness and inaccessibility. It is far away from international and domestic markets, harsh climatic conditions, frequent sandstorms and harsh ecological environment.”百度和谷歌对此句的解释都准确,只不过采用不同的语法。百度是两个并列句,谷歌则是用了主语加状语从句。而且百度翻译将大量名词短语前置,造成头重脚轻之感,而谷歌则将原文句子,直接断开,存在理解偏差,在这里,百度的解释好于谷歌。

英译中 “Slowing economic growth, an anti-corruption campaign that greatly reduced liquor ads, and tightened advertising regulations for pharmaceutical products all contributed to a drop in advertising revenue this year.”百度翻译为“经济增长放缓,一场大大减少了酒类广告的反腐败运动,以及对药品广告的严格监管,都促成了今年广告收入的下降。”谷歌的翻译为“经济增长放缓,大幅度减少酒类广告的反腐运动以及收紧药品广告法规等都促成了今年广告收入的下滑。”无论是谷歌翻译还是百度翻译,都能够做到忠实原文,准确翻译。两个翻译软件的区别就在于中文语言层面的表达,对第一个名词短语,两个翻译软件译文相同,第二个名词短语翻译,而谷歌对第三个名词的短语的翻译,紧贴原文,采用收紧法规,并非地道的中文表达。英译中段落翻译“With Chinas economy slowing, net advertising revenue growth slowed from 16 percent in 2014 to 7 percent in 2015. Reaching just 375.2 billion Chinese yuan ($64.1 billion), the industry fell to single-digit growth for the first time since 2010”,百度的翻译为“随着中国经济的放缓,网络广告收入增长从16%下降到2014 7% 2015。仅3752亿元人民币(641亿美元),该行业自2010以来首次跌至单位数增长”,谷歌的翻译为“随着中国经济增长放缓,广告收入净增长率从2014年的16%下降到2015年的7%。仅达到3752亿元人民币(合641亿美元),2010年以来首次出现了单位数增长”。这段包含数字的英译中翻译里,谷歌的翻译版本明显比百度的版本通畅,整段话无任何生僻词汇以及复杂句型。

笔者除测试了以上所举例子外,也测试大量的词语,句子和段落在百度和谷歌的翻译解释,同时参考部分文献,最后得出结论:虽然机器翻译的整体质量还需要进一步提高,但是谷歌翻译的综合质量好于百度翻译。谷歌的翻译系统是基于神经网络,并且不断采取优化措施解决神经网络的弱点,例如:使用了低精度的算法;加入了长度规范化和奖励惩罚,对翻译过程中产生的长度不同的句子处理更高效,并且减少了模型的漏翻。

四、国内机器翻译的局限性

(一)、翻译质量

基于上述分析,国内机器翻译质量仍存在以下两个问题。第一,存在歧义的语句,即相同的句子可能存在几种解释。句子歧义可能由断词,句法和语意造成。例如,句法完全相同的句子翻译,需要依靠常识选择最准确的翻译,而非文字的字面意思。此外,有些歧义句的翻译,需要结合上下文语境进行分析,人工翻译以篇章为单位,可以兼顾原文的主旨和意境。而且,机器翻译一般都是遵从逐句翻译,缺少意译。第二,不符合正常的语法。在日常交流中,除了一些用词严谨要求甚高的专业文章,有些文章会选择术语行话。此外,一些文章也会存在单词拼写错误,或者选用最新的专有名词。人工译员在具备该学科背景的条件下,可以减少这一类的翻译错误。当机器翻译面对含有不明词汇的短语,或存在拼写错误的单词,或不符合文法的语句时,其翻译结果经常是直接跳过该词语翻译,或者翻译出的语句存在明显的语法错误。

(二)、翻译算法

百度和谷歌翻译先后推出了神经网络算法,可以对整个句子的信息解码编码,生成出最后的结果。谷歌翻译基于神经网络的翻译算法,可以较好的学习到语序模式,长句翻译可以做到更流畅。百度的神经网络算法生成整句内容。这是因为算法把句子当做单独的序列,所以无论短语和单词是否正确,都必须生成句子。并且,語位关系与动词的翻译经常出错。百度翻译很难判断这一类的常识问题,而对于句子的理解,很多时候是依靠常识,而神经网络算法则是依照语法规则进行翻译,翻译结果会存在歧义。神经网络算法很难辨别不同的文体,这也是机器翻译最难学习的一部分。

四、建议

(一)、强化数据库

百度和谷歌的竞争存在差异化,谷歌由于覆盖全球市场,因此不可能在各个国家都实现最优,而百度则更注重国内市场。国内机器翻译需结合自身优势,利用好中英语料库,更好地为中英翻译者服务。例如,强化机器学习使用的用户数据库,激发互动。在机器学习的原理当中,最好的学习途径是对错误样本进行纠错。调动用户主动纠错翻译结果,并据此建立数据库,或许是非常便捷的办法。并且国内机器翻译公司应该加大投资,进一步建立垂直领域数据库,提高自身的硬实力。

(二)、引进其他人工智能技术

近阶段,关于机器翻译的技术突破往往来自其他人工智能领域。比如注意力模型,是来自Deepmind在机器视觉领域的技术构想。国内机器翻译公司应主动引入其他领域的算法和模型,并应用在翻译领域,可能会有意想不到的效果。

(三)、尝试弱监督学习:目前,国内的神经网络算法,归根结底是个有监督的学习过程。国内机器翻译公司可以尝试一些深度学习架构,让翻译系统自我优化,提高翻译文本的质量。

五、总结

虽然机器翻译前景一片光明,有着很好的发展潜力,但是国内的机器翻译相比国外的机器翻译,翻译的文本之间仍有一定的差距。国内机器翻译应强化自身优势,发现不足,提高翻译质量和算法。本文在实践调查的基础之上提出一系列建议,以期为国内的机器翻译发展提供些许启发。

参考文献

[1]常宝宝, 张伟.机器翻译研究的现状和发展趋势[J].产品安全与召回, 1998(2):32-35.

[2]戴新宇, 尹存燕, 陈家骏,等.机器翻译研究现状与展望[J].计算机科学, 2004, 31(11):176-179.

[3]冯静.谈我国几种机器翻译软件[J].商业文化月刊, 2009(4):289.

[4]胡宇涵.机器翻译的现状及面临的问题[J].商丘职业技术学院学报, 2013, 12(1):81-82.

[5]黎斌, 唐跃勤.谈我国机器翻译软件[J].成都师范学院学报, 2004, 20(3):52-53.

[6]刘洋.神经机器翻译前沿进展[J].计算机研究与发展, 2017.

[7]庞斌.机器翻译——从统计学方法到神经网络[J].数字通信世界, 2016(12).

[8]杨森.谈机器翻译系统的使用心得——以谷歌在线翻译为例[J].济宁学院学报, 2011, 32(6):122-125.

[9]张周.百度翻译和谷歌翻译的较量——以汉译英翻译为例[J].科海故事博览·智慧教育, 2013.

[10]邹玥俐. 机器翻译不可盲取[J]. 科教导刊:电子版, 2016(23):100-101.

猜你喜欢
机器翻译
海量数据机器单词中关键语义筛选方法研究
机器翻译不可盲取
信息时代下机器翻译的“可译”与“不可译”
互联网+新时代下人机翻译模式研究
“语联网+行业” 助力中国伟大复兴
机器翻译句法错误分析