基于语料库的网页机器翻译

2014-02-22 05:18陆正海
安徽文学·下半月 2014年12期
关键词:源语言语料库网页

陆正海

(南京信息工程大学语言文化学院)

基于语料库的网页机器翻译

陆正海

(南京信息工程大学语言文化学院)

本文讨论的是在利用机器翻译处理网络上的各种文本时会出现的问题,同时提出一种模型来进行网页文本的中英翻译。这里会涉及文本两部分的处理,即标记部分和纯文本部分。同时会首先进行标记管理,再利用大型语料库的比对进行纯文本的翻译。

机器翻译 标记 纯文本 域 语料库

一、引言

当进行WWW网页文本的翻译时,翻译系统会遇到两大类型的问题:如何在翻译文本中插入HTML标记并如何正确翻译翻译文本。第一个问题需要系统来正确处理所有的HTML标记,否则可能会导致无法阅读的翻译文本。而第二个问题则需要一个大型的语料库来分析文本的意义并避免歧义。如果成功地处理这个问题,系统可能会译错,这将是我们以后处理的重点。

本文中将设计一个机器翻译系统来进行网页的中英互译,首先处理有标记文本然后再进行非标记部分的翻译。

二、网页标记文本的翻译方法

对于HTML文本,显然不能将标记(tag)与文本分开,先翻译文本然后再插入相应的标记,因为中英文语言不总是一一对应。如果这样处理,图一将会变成(〈p>约翰是一个〈u>李老师的学生〈/u>)。这显然是不可接受的。因此需要换一种方式来处理这个问题。需要首先标记HTML和文本块,然后再分别翻译纯文本和标记。然后系统会将其与目标语言的文本相比较。如果目标文本与源本完全吻合,就不存在问题。我们只需要将目标文本部分相应的地方做标记。如果目标文本与源文本不完全一致,系统必须找到相互需要标记的标记文本,然后再加入需要的tag。

图一

(一)tag的分类

HTML中有不同的tag,而在机器翻译中可以简单地把它们分成两类:

第一类:void tags(VT:无类型标记)。VT是指HTML标记中不影响文本块,也不需要结束标记。这种标记的例子是图片(IMG),图二里就包括一个IMG标记。

图二

第二类:Real tags(RT:真实标记)。RT是指HTML标记中会影响文本块并需要一个结束标记(当然某些特定类型也不是必需的)。这种标记也分成几大类:

(1)总体HTML网页结构标记:这些标记对于定义HTML网页的整体结构是必需的。这类标记如:HTML,HEAD,TITLE和BODY。

(2)影响HTML页面独立的标记:这些标记会影响到HTML页面的完整与独立,换句话说这些标记不能被用来影响单个词和句子,这类标记如FORM,UL,OL,SELECT。

(3)字符强调标记:这类标记用来强调词、部分句子甚至整个段落,如EM,B,I和U。

(4)超文本和超链接:这类标记是将当前文本转向其他页面。

WWW上的大多数文本都是用HTML写的,RL主要用来描述多媒体信息的链接,比如图片。用户不仅需要阅读文本的字符串,还需要通过图片信息与强调部分来理解其内容。所有这些信息在机器翻译时都需要保留。

(二)HTML标记管理器

网页文本同其他普通文本不一样,是通过将信息编码到HTML文本类型定义(DTD)中,这是SGML(一般语言组成标准)的应用。HTML标记本身不需要通过机器翻译系统来翻译,但是他们必须在翻译后保留在合适的地方。在系统里有一个标记管理器(TM),它会将句子看成是一个整体而不会将其分开,因此在翻译网页时有两种方法来处理这些标记。

第一步:标记分离。在标记分离阶段会用到HTML文本的信息框架和标点符号。下面是TM如何处理这些标记分离。

(1)起始与结束标记必须保留(如〈A>,〈/A>,〈TITLE>,〈/TITLE>)。

(2)如果一对标记中有好几个句子,必须通过标点符号来分离。

(3)一个表格块中的每一项都被当成是一个句子。

(4)空行后的复合名词或短语被认为是一个标题。

HTML标记会被筛选出来并存储到一个外部文件中,里面包括句子数、词数、词、起始标记、结束标记以及FI(标记信息)。完成这些操作后,系统就能正确理解不同标记并将其当成句子而不是短语来处理,以免出现误解。

第二步:标记恢复。如果目标词与源语言的词一一对应,就不需要恢复。但是情况并非总是如此。更一般的情况是,会碰到1对N或者N对1又或N对M的情况。这种情况下,翻译时,译者不会处理完整的标记,只需要处理词串信息。TM保留所有的标记,文本翻译后,TM通过以下的方法将标记恢复到目标语信息中。

(1)1对N:源语言的词的起始和结束标记直接复制到目标语中。

(2)N对1:TM分析源语言的起始和结束标记,然后根据序列信息确定需要保留的标记 (如〈A>,〈/A>,〈TITLE>,〈/TITLE>)。在此过程中,内部标记如大小和颜色标记会被忽略。

(3)N对M:通常这种情况会发生在成语中。正如N对1的情况,TM分析源语言词的标记。然后TM会决定起始和结束标记。在此过程中,某些颜色和大小的标记可以被排除。

(三)标记文本的翻译

图三表明标记文本的不同情况。句子1和2是标记文本在源语言和目标语中都会出现的例子。句子3是标记文本在目标语中会出现在不同的地方,而句子4则是标记文本不会出现的例子。

图三

这些句子表明必须要选择一个模型能够使电脑决定目标语文本的哪个部分需要标记。有不同的方法来完成这个模型。在我们的模型中,可以分4步来处理这个问题。首先我们通过机器翻译系统来翻译整个文本,然后再使用同一个系统翻译各个标记文本,之后再将全文本和标记文本相比较,因此我们可以决定哪些文本块需要标记。这样做的话,我们可能还需要将标记词分开,然后再单独翻译,这对于源语言标记文本可能会产生好几个目标语文本模块时特别必要。更有甚者,有些英语词当它是句子一部分时可能会有不同的翻译方法。

有时,一个句子的一个名词可能会出现好几次,翻译时,这些名词出现的次数很可能会颠倒,如:The teacher of the teacher comes(老师的老师来了).因此,为了使系统能正确处理这样的句子,必须首先处理源语言的句子为:The teacher’s teacher came。这样,标记就不会出问题了。

三、纯文本的翻译方法

至于翻译没有标记的网页纯文本,一般我们只需要利用现有的机器翻译系统。在我们的系统里使用的是基于语料库的翻译系统。首先需要一个大型的双语语料库,这一点目前已经不是问题,还需要一个域识别器(domain identifier)。我们首先需要考虑域然后再考虑翻译系统。

(一)域的识别

当处理特定域的文本时,机器翻译准备度会非常高并异常高效。因此首先需要识别文本的域以提高翻译的准确性。在我们的系统里我们收集一些平衡的网页文本来确定域。因为没有可靠的标准域范畴统计数据,我们必须收集这类文本,以下是收集标准。

(1)收集来的统计数据必须能反映整个WWW的内容。

(2)有很多共同词的两个域能通过一个高级域融合在一起。

当翻译网页文本时,域识别器分配top-one和top-two两个范畴,然后确定相应的域相关词典,机器翻译系统能够很好翻译特定域的文本,通过使用合适的词典,翻译时的歧义可以大量解决,并且提高翻译的质量。

例如,“doctor”一词有很多意思,一旦确定翻译的域是关于学术领域,很容易就确定目标语的意思。

(二)基于语料库的纯文本的翻译

本系统的基本理念很简单:通过比对先前类似句子来翻译句子。这种理念最先由Nagao(1984)提出。这种观点和我们常说的“一个好的翻译者是一个懒惰的翻译者”有共通之处。在我们的系统中,需要用到大量先前的翻译成果。这样做不仅能节约时间,还能提高术语和风格的一致性。

因为是基于语料库的机器翻译,我们首先需要一个平行的语料库。这种意义上的机器可识别的平行语料库是很容易实现的:联合国提供了一个很好的多语文本资源。当然很多WWW网页也提供了大量的双语或多语言文本,这同时说明了语料库可以随时进行扩展。

这种机器翻译系统包括以下主要部分:

(1)包含源语言和目标语的平行语料库。

(2)一个匹配法则。

(3)一个组合法则。

(4)一个转换与合成法则。

如要翻译这句话:Alice bought a book on computer.当然如果在语料库里有相同的句子就简单多了。当然这种情况不多,更常见的例子是句子只有部分是匹配的,画线部分完全包含了相应的内容。在这种情况下,我们很容易就能组合成译文“爱丽丝买了一本关于电脑的书”。

猜你喜欢
源语言语料库网页
《语料库翻译文体学》评介
林巍《知识与智慧》英译分析
浅析日语口译译员素质
基于CSS的网页导航栏的设计
基于URL和网页类型的网页信息采集研究
网页制作在英语教学中的应用
以口译实例谈双语知识的必要性
基于JAVAEE的维吾尔中介语语料库开发与实现
10个必知的网页设计术语
Expression of Ezrin, HGF, C-met in pancreatic cancer and non-cancerous pancreatic tissues of rats