基于句子与基于字符串的两种翻译记忆模式的分析

2018-03-27 12:34罗煦四川传媒学院
传播力研究 2018年13期
关键词:记忆系统字符串段落

罗煦 四川传媒学院

1966年,自动语言处理咨询委员会(ALPAC)发布的一份报告初步定义了欧洲煤钢铁协会(CECA)所使用的早期的翻译记忆系统为:“包含上下文的自动字典查询。[...]翻译者用下划线表示他想要的帮助。然后将整个句子按键打开并送入计算机。计算机通过搜索程序并打印出与问题句子最明显匹配(在词汇项目中)的一个句子或多个句子。译者然后检索打印出来的所需项目的上下文以及它们在源文件中出现的顺序。”(ALPAC 1966,27)这个系统的出现,为了为现代翻译记忆系统的发展铺平道路,一些关键特征如文本对齐,自动匹配和检索被创造了出来。

一、翻译记忆

翻译记忆(TM)是一个存储“段”的数据库,它存储着之前翻译过的句子,段落或类似句子的单位(列表中的标题,标题或元素),借以此帮助翻译人员。翻译记忆通常与专用计算机辅助翻译(CAT)工具,文字处理程序,术语管理系统,多语言字典或甚至原始机器翻译输出结合使用。虽然翻译人员可用的技术范围包括从电子词典和词汇提取工具到高度复杂的翻译环境等各个领域,但翻译及一系统存储和检索能力以非凡的速度发展,因而对翻译这个行业带来了变革。因此,就像在翻译和翻译之间架起了一座桥梁。当翻译人员使用翻译记忆库工具翻译新文本时,该工具会识别新文本片段和存储的源文本之间的相似性。在此过程中,搜索和检索功能是所有翻译记忆工具的基本功能。

现如今,翻译行业正在为今后几年的需求大幅增长做好准备。根据Common Sense Advisory的调查,语言服务市场2015年的增长率为6.46%。虽然语言技术只占整个语言服务市场的2.8%,但它确实表明了语言技术发展的巨大潜力。Common Sense Advisory将名为翻译自动化软件的三家大型公司列为混合语言服务提供商,向所有市场利益相关者销售服务,包括SDL,STAR和TransPerfect。他们的套装包括翻译记忆库,术语管理和TMS。

而翻译记忆最新发展是“文本记忆”,这一概念与翻译记忆相反。这也是LISA OSCAR(前本地化产业标准协会出台的标准)的基础。在xml:tm中的文本内存包含“译者内存”和“翻译记忆”。译者记忆用于记录译者编辑当中出现的改动。翻译记忆则使用译者记忆中的信息来实现翻译记忆匹配。虽然主要针对XML文档,但可以将XML:tm用于任何可以转换为XLIFF格式的文档。

翻译记忆模式是指翻译记忆存储的方式。根据国内研究人员(王华伟,崔启良2005,107)的分类,目前有两种翻译记忆模式。一种是基于句子的模式(SB),其中翻译记忆以翻译单元的形式存储。另一种是双语语料库内的字符串(CSB)模式。目前,SB模式被应用于大多数翻译记忆工具。因此,本文在比较两种模型时将更重视前者。

二、基于句子的翻译记忆模式(SB)

就该模式而言,翻译记忆系统是一种特殊类型的支持工具,它维护源语言和目标语言对的数据库,并自动检索数据库中出现的新文本中的这些句子的翻译。换句话说,每个源语句与目标语句中的语句完全匹配。在这一模式中,翻译记忆系统将根据句子级别搜索和检索数据。

(一)基于句子模式的优势

为什么句子是大多数翻译记忆工具选择的首选翻译单元?语料库对在不同层面都差异甚大,比如文本、段落、句子、短语和词语层面。一些像黄俊红这样的学者(2007,21)认为,对齐单位越小,它传达的语言信息就越多。然而,Bowker(2002,56)认为,词汇层次上的对齐非常困难,容易被误解,因为大多数自然语言可以找到它们之间的确切等价关系,而段落对太宽而无法搜索和检索。因此,词汇对齐应该是构建双语平行语料库最合适的方法。

此外,通常来讲,这样的匹配也是高度精确的。尽管能够访问比句子更小的片段的工具可能会产生更多的匹配,但使用该句子作为基本单元的显著益处在于,出现的匹配更有可能是相关的。这被认为是高精度,低召回的搜素形式。

这种基于句子的模型的另一个优点是它基于容易识别的单位(句子)进行操作;系统可以根据形式标准(例如开头的大写字母,最后的标点符号)快速且比较容易地确定每个句子的开始和结束。但是,当文本中出现含有句点的缩写词时就会出现问题,但这可以在一定程度上用停用列表来帮助程序识别和忽略这些缩写(Bowker 2002,95)。

任何以句对形式存在的翻译记忆数据库都促进了翻译记忆系统在不同系统和用户之间的可交换性,因为市场上大多数翻译记忆系统使用该模式,而另一方面得归功于本地化行业标准协会(LISA),因为它开发了TMX(翻译记忆交换),这是一种标准格式,允许翻译单元从一个翻译记忆程序中导出并在另一个中重新打开,而不会丢失附加到这些单元的信息。

(二)基于句子模式的劣势

最明显的缺点在于源文本和目标文本之间由于句子结构不同而导致的对齐问题。有时需要将两个源语言句子合并成一个目标语言句子,或者将一个源语言句子分解成两个目标语言句子,特别是在由很多分句组成的长句中(Bedard 1998,25)。

第二个明显的缺点是匹配算法。匹配是通过字符匹配过程实现的,通过计算两个段或子段中相同和相同顺序的字符串数量。此计算以匹配值的形式表示,通常为百分比。这种匹配方式只考虑了语言因素,而不是语句所表达的意思。一些研究人员用以下三句话进行了测试:

(1) The wild child is destroying his new toy.

(2) The wild chief is destroying his new tool.

(3) The wild children are destroying their new toy.

事实证明,(2)和(1)比(3)和(1)匹配得更好,而我们都知道(1)和(3)在意义上更接近的事实,因为考虑到两个句子只有单数 和复数形式。由于TM系统仅考虑共同字的数量,所以这个结果出来了。这种结果算法甚至会产生无用匹配的更大风险,这被称为“噪声”。

三、双语语料库内的字符串翻译记忆模式

双语语料库内的字符串模式允许用户看到更广泛的匹配上下文(即整个段落或文本而不仅仅是一个单独的段)。此外,用户可以利用更大块的重复或相似的文本,如段落或页面,而不仅仅是在句子层面上运作。

(一)双语语料库内的字符串模式的优势

在双语语料库中搜索字符串,而非在单独的句对中查找匹配,这一模式的优点在于能够完整保存句子层面之外的上下文。用户可以看到更广泛的上下文匹配内容,即整个段落或文本,而不仅仅是一个单独的片段。

此外,用户可以利用更大块的重复或相似的文本,如段落或页面,而不是在句子层面进行操作。例如,如果要翻译的文本中有大量重复的材料集中在大块中(可能是更新或修订的情况),双语语料库内的字符串模式的翻译记忆系统具有能够立刻识别和处理多个连续的相同句子。

在基于句子模式的翻译记忆系统中,精确对准非常重要。这意味着创建和维护数据库必须花费更多的时间。相反,当在双语语料库内的字符串模式中保留上下文时,可以在翻译过程中用很少额外的努力来纠正错误对齐。

(二)双语语料库内的字符串模式的劣势

尽管拥有能够拾取短字符串的优点,但该模式可能以子段块的形式产生更多的“噪音”,因为该系统可能识别许多两个三字的字符串。

此外,当前文本的翻译通常不会被添加到翻译记忆中或者在翻译过程完成之后才被验证,从而使用户难以地利用内部重复。这意味着,对于基于句子的模型,一旦翻译完成,新的句对就可以很容易地从同一个数据库中检索出来。而在基于双语语料库内的字符串模式中,直到整个翻译完成并添加到数据库之前,新文本的内容才能以双语语料的格式进行搜索。即使在翻译过程中将术语和表达方式添加到术语银行,除非用户在每次添加后重复每个过程,否则这些术语和表达方式不会被识别为内部重复。

最后,双语语料库内的字符串模式不太可能在系统和用户之间转移,因为TMX标准格式是基于句子模式发明的。

本文的主要目的是分析两种翻译记忆模型:基于句子的模式和双语语料库内的字符串模式。但是,目前双语语料库内的字符串模式的翻译记忆系统几乎已经在市场上消失了。本文仍详细分析了双语语料库内的字符串模式,旨在为翻译记忆系统的新功能的研究和开发提供参考,因为它具有其独特的优势。

[1]ALPAC,Language and Machines:Computers in Translation and Linguistics.A report by the Automatic Language Processing Advisory Committee,Division of Behavioral Sciences,National Academy of Sciences,National Research Council,Washington,DC.1996.

[2]王华伟,崔启亮.软件本地化[M].北京:电子工业出版社,2005.

[3]Bedard,Claude.“Jamais plus vous ne traduirez,ou les memoires des traduction,deuxieme partie”,Circuit,vol.61,1998:23.

[4]Bowker,Lynne.Computer-Aided Translation Technology:A Practical Introduction,University of Ottawa Press,2002.

[5]黄俊红,范云,黄萍.双语平行语料库对齐技术述评[J].外语电化教学,2007(118):21-25.

猜你喜欢
记忆系统字符串段落
基于文本挖掘的语词典研究
【短文篇】
心理小测试
元征LAUNCH X-431实测篇2015年比亚迪秦座椅记忆系统初始化
夏天,爱情的第四段落
神经学家阐释语言学习的大脑作用机理
弄清段落关系 按图索骥读文
事务型心理资本、交互记忆系统对创新绩效的影响
一种新的基于对称性的字符串相似性处理算法
高效的top-k相似字符串查询算法