机器翻译与基于大数据语言服务技术的创新

2013-04-29 13:03邹启立
西江月·中旬 2013年8期
关键词:译文文本语言

邹启立

【摘 要】技术可以让语言服务变得更加轻松,简单。同时技术也改变了人类传统的沟通形式,促进了人类的交流,特别跨语言文化的沟通。基于大数据的机器翻译将是未来语言服务的主要形式和语言服务。

【关键词】机器翻译;语言服务创新

一、机器翻译的历史与现状

机器翻译(Machine Translation)就是利用计算机程序把一种语言的文本(可称为源语言文本)翻译成另外一种语言的文本(可称为目标语言文本)(常宝宝,张伟1998.)。按照冯志伟(1994 , 1996)的说法,到 1980 年代,机器翻译研究经历了草创期 、萧条期 、复苏期 、繁荣期等几个阶段。草创期以 1954 年在美国乔治敦大学用 IBM 计算机进行的首次机器翻译实验为标志,这时的机器翻译方法还比较简单 , 基本上采用的是单纯的查词典和词频统计等方法,笔者这里称之为朴素的统计方法。而 1964 年的 AL PAC报告将全世界的机器翻译热潮打入了冷宫。在 1970 年代,随着乔姆斯基语言学的兴起和人工智能研究的发展,人们普遍认为要实现机器翻译必须对语言进行理解,在这种背景下,基于规则的机器翻译方法开始发展起来 。进入 1980 年代以后,机器翻译进入繁荣期,基于规则的机器翻译方法逐步成熟,市场上出现了很多机器翻译系统。但这种繁荣并没有持续下去。1980年代末期到 1990 年代,人们发现基于规则的机器翻译系统性能很难进一步提高 , 面向社会生活中使用的真实语言的时候,机器翻译系统几乎无法给 出有用的译文 。笔者把这个阶段称为平台期。也正是这个阶段 ,基于语料库的机器翻译方法 开始被提出来并取得了一些进展,这包括基于实例的方法和基于统计的方法 。

自1954年起,世界各国许多大学已经展开了对机器翻译的研究,但机器翻译仍然没有在商业领域大规模应用。然而,上世纪八十年代开始,一些翻译服务公司开始使用一种非常原始的翻译辅助工具,通常称为翻译记忆库(TM)。TM工具将句子译文存入数据库,这样一旦需要翻译的文件重复出现同样的句子,译者就可以直接使用它们。基于此技术而形成的计算机辅助翻译(CAT)便应用而生。相较TM而言,机器翻译则指完全自动化。理论上机器翻译能够让译者失业。然而,机器翻译技术输出的译文质量无法达到出版及终端用户使用的要求。因此,专业的翻译服务行业还将会继续存在多年,一边为机器翻译改进技术,一边对机器翻译的译文进行后编辑。

二、语言服务的创新

信息技术的发展促进了人类社会和文明的发展,使得世界变得越来越小,沟通越来越频繁,翻译量也越来越大,速度要求越来越快,甚至要即时翻译的需求,这就为创新者提供了大量机会。这给传统的翻译行业带来了巨大的挑战。

基于大数据的移动互联网以更大的规模,更广泛的覆盖,正在取代其他网络。而和服务密切相关的技术有三种,通讯和媒体技术,互联网和云计算技术,自然语言处理技术。云计算是互联网技术发展的必然成果,在语言服务领域,整合呼叫中心,视频会议等记录,就形成了云语言服务中心。自然语言处理技术,解决人听说读译的问题。

大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯(引自百度百科)。大数据对翻译行业的重要性不可低估。大数据将推动自动翻译向前发展。大数据将能够应对包括机器翻译在内的自然语言处理的不同领域的挑战。计算机将能够自动运行语义聚类和类型识别处理,这就意味着计算机可以识别行业领域(如医学和放射学)和内容类型(如说明书或专利申请)。

大数据对机器翻译技术的持续改进和定制化至关重要。由于现代机器翻译系统需要越来越多的平行数据,而这样大量的数据最终要达到使用传统数据管理技术无法处理的极限,因此大数据技术已经成为决定因素。如果计算机获得更多数据,也能够更好地进行术语挖掘。大数据可以识别同义词、相关术语、新词、行业用语,并运用平行处理工具自动生成句法分类。简单的统计翻译模型发展成为包含(基于句法或对齐的)层次树结构的混合模型,使得机器翻译引擎能够进行远距离调序,产生更流畅、准确的译文,这对于结构差异大的语言对更是如此。

在这个融合时代,需要翻译的内容正进一步从文档和软件版本转变成零散的文本、在多个屏幕上发布的音频和视频。终端用户、大众或病人会比现在拥有更大的控制权,他们将推动持续的翻译流应用。这个翻译流包含有公务类(公司、公众、立法)、社会类、共享类、增值类以及私人类信息。

翻译记忆软件非常适合出版商提供的静态文件的更新,但在翻译用户提交的动态内容时会显得力不从心。机器翻译技术将更快地走向成熟,并成为翻译服务业采用的首选工具。机器翻译平台将增加新功能,使专业用户能够添加数据(针对特定客户或特定产品的翻译记忆库、词汇表和目标语文本),这些数据几乎可以实时训练和定制化翻译引擎。

三、结语

信息技术对大型国际活动中语言服务的作用及创新,随着改革开放,国际化的不断深入,中国经济各个领域都向世界敞开了大门,中国将成为全球下一个经济中心。各种国际交流活动,在我国各大中心城市举办,如何让全球各个国家,各种语言的世界组织和人民进行充分的交流和沟通,语言成为关键。机器翻译可用于每一项工作,与我们过去进行的成本高、耗时长的针对通用语言对的机器翻译开发对比而言,今后机器翻译的个性化开发可谓是巨大的进步。它将推动翻译记忆库数据的不断扩大。对于每一个新的作业,译者将寻找匹配的数据。因此,对于数据的需求将是永远无法满足的。

【参考文献】

[1]常宝宝,张伟.机器翻译研究的现状与发展趋势[J].术语标准化与信息技术,1998(2). [2]冯志伟.机器翻译研究[M].中国对外翻译出版公司,2004.

[3]百度百科,http://baike.baidu.com/view/6954399.htm

[4]张政.计算语言学与机器翻译导论[M].北京:外语教学与研究出版社,2010.

猜你喜欢
译文文本语言
Stem cell-based 3D brain organoids for mimicking,investigating,and challenging Alzheimer’s diseases
语言是刀
译文摘要
在808DA上文本显示的改善
基于doc2vec和TF-IDF的相似文本识别
让语言描写摇曳多姿
I Like Thinking
累积动态分析下的同声传译语言压缩
文本之中·文本之外·文本之上——童话故事《坐井观天》的教学隐喻
我有我语言