计算机辅助翻译核心技术现状简析

2016-12-31 19:07廉勇
数码世界 2016年11期
关键词:语料语言学检索

廉勇

承德石油高等专科学校

计算机辅助翻译核心技术现状简析

廉勇

承德石油高等专科学校

本文通过对翻译记忆技术实质和现状分析得出了阻碍其发展的三种矛盾和缓解方式,指出了计算机辅助翻译未来发展的方向。

翻译记忆 数据库模型 引用模型 三种矛盾 缓解方式

计算机辅助翻译系统的核心是“翻译记忆”技术,它的发展及重大突破无疑会引领计算机辅助翻译技术的革命,使其跨入新的时代。

1 当今翻译记忆技术的实质

“翻译记忆”技术,是将已翻译过的源语与目标语对照的文本存入记忆库中,可再利用于翻译新的源语文本。然而现实中的翻译活动种类繁多,层次多样,变化多端,重复性较少,只有在某些专门的领域中,才有一定的文本重复率,翻译记忆功能才能有效发挥。由于语言有无限生成能力,即便是翻译记忆库的内容再多,模糊搜索的能力再强,仍然无法保证在进行新的翻译工作时总能从翻译记忆库中调取语料供译者参考。

2 翻译记忆技术无实质性突破

通过对可获得的计算机辅助翻译系统软件进行历时与共时的研究,不难发现,虽然现在的计算机辅助翻译系统软件对翻译的辅助功能不断增强,让翻译的分工越来越细,越来越精,团队协作性也越来越强,较过去增加了诸如对齐、项目流程管理、质量保证和术语提取等多种强大的功能组件与工具,CAT评价标准、翻译项目科学化管理、校对系统等也有长足进步,但是其核心的翻译记忆技术却尚未取得突破性的进展,其检索能力并没有实现质的飞跃,从而阻止了计算机辅助翻译技术实现革命性的突破。以下笔者结合苏明阳的观点和翻译记忆技术发展的现状对这方面进行了简析(苏明阳:2007)。

3 翻译记忆数据存储的两种模型

“引用模型”和“数据库模型”的翻译记忆研究没有实质性进展。现代研究表明,两种模型各有优势和不足。它们各自的不足中,有的拥有一定的互补性,如原文和译文的完整性在数据库模型下被打破并拆散,而在引用模型下文本的完整性却可以得到留存;而有的缺憾则是两种模型都无法解决的。如在对语块或亚句段单位的检索中,数据库模型下的翻译记忆系统是以句段为检索单位的,检索无法深入到句段以下的层次如亚句段单位,尤其是在汉英互译中,由于英语和汉语隶属于截然不同的语系(英语属于印欧语系,汉语属于汉藏语系),英语注重形合,汉语注重意合,在译文中往往英语的一句话会被译成多句汉语,而汉语的一个短语或成语也会被译成一句或多句英语。而引用翻译记忆数据存储方式下检索虽不受翻译单元的局限,产生的无用信息却相对较多(Gow 2003:38),从而大大降低了翻译的效率。两者都没有在深层检索上实现实质性突破。

4 以语言学为突破口的尝试

虽然研究人员试图以语言学为突破口,通过增强语言检索技术来发展第二代翻译记忆技术,从而实现计算机辅助翻译技术的实质性突破,但是因为以下两个原因,翻译记忆数据在数据库中仍然僵硬死板,未得到充分而有效的利用,从而限制了对翻译记忆从广度和深度的多角度灵活应用:其一,以语言学为突破口的检索技术提升极其依赖特定语言的语言学知识与资源,从而建库难度极大;其二,当前的翻译记忆语料绝大部分没有语言学上的标记,TMX作为翻译记忆数据储存交换标准,虽是以数据库模型为基础,但它也未针对此方面的问题进行扩展或规定。

5 翻译记忆技术发展面临的三种矛盾与缓解方式

通过以上的分析不难得出翻译记忆的发展因语言的重复而奏效与语言无限生成之间的矛盾,两种翻译记忆数据存储模型虽然功能互补但却无法完全兼容的矛盾以及记忆数据的僵硬死板与语言灵活多变之间的矛盾,这三种矛盾未能有效解决是构成计算机辅助翻译技术未取得突破性、革命性进展的的主因。所以,计算机辅助翻译技术的发展必然要尽可能克服这三种矛盾且另辟蹊径:

(1)翻译记忆语料资源的“中央”化趋势与分布式云端翻译记忆库和术语库的产生密切相关,这两种趋势的形成与中央服务器的超大型数据库的建立,知识产权的保护,分布式技术以及云计算技术的发展息息相关,在一定程度上会缓解第一个矛盾,使得个人应用翻译记忆库时不再为“无限生成的语言”发愁,因为中央数据库已经最大限度的通过“大数据”涵盖了“无限生成的语言”并且通过“云端”与用户互动共享(通过协议,用户的优质语言素材也可随时通过“云端”被中央数据库吸纳以供其他用户参考使用)。

(2)随着人工智能和云计算技术的突飞猛进,深层检索分析技术、语音智能识别技术等,自然使得翻译记忆向开发翻译记忆的语料深层检索和翻译记忆库从笔译服务走向口译服务发展,使得计算机辅助翻译系统向着智能化与自适应方向发展,在一定程度上会缓解第二个矛盾,使研究人员将翻译记忆技术研究的突破口从语言学转向人工智能,让人工智能技术的深入和普及带动两种翻译记忆数据存储模型的自我完善和突破,从而推动新模型的产生和CAT软件的全方面智能化提升。

(3)MT与CAT历时与共时的承前启后、相互独立、相辅相成的关系自然也决定了机器翻译与翻译记忆的共时性发展趋势,高质量的并可作为语料库的翻译记忆系统自然也可以应用于基于统计与实例的机器翻译系统,所以第三个矛盾也会在一定程度上得到缓解,因为机器翻译相对僵硬死板,而计算机辅助翻译因为以人为主体所以灵活多变,再加上人工智能和云计算技术的突飞猛进趋势更使缓解这一矛盾如虎添翼。

[1]象群网论坛 http://www.xiangqun.net/forum

[2]苏明阳. 2007.翻译记忆系统的现状及其启示. 外语研究

[3]Gow, Francie. 2003. Metrics for Evaluating Translation Memory Software[D]. University of Ottawa, 34-38

本文系2015年承德市科学技术研究与发展计划项目《基于Trados翻译平台的承德市旅游文化翻译项目集约增效管理研究》的部分研究成果,项目编号:20153020。

廉勇(1980-),承德石油高等专科学校英语教师,中国科学技术大学硕士研究生,从事英语翻译、教学与研究工作。

猜你喜欢
语料语言学检索
面向低资源神经机器翻译的回译方法
体认社会语言学刍议
《复制性研究在应用语言学中的实践》评介
瑞典专利数据库的检索技巧
在IEEE 数据库中检索的一点经验
一种基于Python的音乐检索方法的研究
濒危语言与汉语平行语料库动态构建技术研究
书讯《百年中国语言学思想史》出版
国内外语用学实证研究比较:语料类型与收集方法
社会语言学名词