WordNet在统计机器翻译中的应用
——以英语单词“Crack”为例*

2012-09-13 07:19潘登湖北科技学院外国语学院湖北咸宁437100
湖北科技学院学报 2012年4期
关键词:词义语料库译文

潘登(湖北科技学院外国语学院,湖北咸宁437100)

WordNet在统计机器翻译中的应用
——以英语单词“Crack”为例*

潘登
(湖北科技学院外国语学院,湖北咸宁437100)

本文通过对比基于规则和基于语料库的机器翻译的利弊,首先介绍利用WordNet3.0的同义词库对“crack”的词性和主要词义使用频率进行分析,同时使用Google的网络翻译工具调查该词语在词汇、结构以及整体可读性和忠实性的翻译层面是否地道常用。最后揭示“crack”的真实用法和使用规律并提出一定的可行措施来提高基于语料库的英汉翻译的质量。进而证明了基于语料库翻译方法在英汉翻译上的可行性。

统计机器翻译;WordNet3.0;应用

一、引言

目前国内的机器翻译主要有两种模式,一种是基于规则的机器翻译。即语言学家将语法规则和字典输入计算机,计算机在根据语法规则进行翻译;另一种是基于语料库的机器翻译,就是自然语言处理技术为基础,以知识本体作为支撑利用语义搜索进行机器翻译。随着谷歌,百度,网易进军在线翻译服务,市场布局呈现三足鼎立,但其网络翻译质量却差强人意,可懂性和忠实性较低。基于语料库的机器翻译能否可以使机器翻译的质量达到一个新的高度,如果可以,那么怎样才能更好地改善其翻译质量等,这些问题都是本研究所探讨的问题。

本研究首先从词汇、结构方面对Systran和Google的英汉机翻译本进行了比较,并根据WordNet3.0的同义词库对“crack”的词性和主要词义使用频率的数据,同时使用Google的网络翻译工具调查该词语在词汇、结构上的特征从而确定了基于语料库机器翻译的“可行性”。

二、研究背景回顾及基本概念

语言是人类最重要的交际工具,人们交际信息的基本单位是概念,在语言中表现为词汇部分。人们能够顺利地进行交际是因为充分利用了词汇意义。随着语言的发展,词汇的丰富,与一个词搭配而成的意义越来越多。词义搭配,又称词汇模式,是指词素之间的横向组合,上升到词与词之间的横向组合,词与词横向组合搭配而成短语或分句,了解词义搭配对学习英语起着重要的作用。词义搭配是确定多义词正确意义的重要手段,多义词表明同一词语可以表达多种概念,它具有两个或两个以上相互有联系的固定意义,在不同的词组语境中表达不同的概念。如何理解某一个词在句中乃至全篇文章的意义,必须要注意词义的搭配,通过上下文获得某一个词在句中的确切含义[1]。同一个词与不同的词语搭配形成不同的搭配意义。

语义的重要性正如王寅所说:“语义是思维的体现者——是语言交际过程的中心”。但是对于“意义,目前尚没有一个全面的,被人们普遍接受的定义。迄今为止最为广泛接受的语义分类是英国语言学家杰弗里·利奇(G.Leech)在他的《语义学》(Semantics)一书中对“意义”所做的分类(Leech,1974)。他将最广义的“意义”划分为七种不同的类型:概念意义、内涵意义、社会意义、情感意义、反映意义、搭配意义和主题意义。学习一种语言,只理解词汇的概念意义,而对其联想意义一无所知或者一知半解,不能说真正掌握了语言,更不能说是对语言的正确运用了。

(一)WordNet介绍

20世纪以来,语言学家和心理学家们开始从一个崭新的角度来探索现代语言学知识结构以及特定的词典结构。Miller和Johnson-Laird 1976提出,与语言的词法元素有关的研究应该称做心理词汇学。随着近十几年来语言学和心理学理论的发展,按照上述设想,Princeton大学的一组心理词汇学家和语言学家于1985年开始承担起开发一部词典数据库的任务,这就是WordNet。可以说,WordNet是一部基于心理语言学原理的词典。

此外,WordNet是一部能够表达概念关系的语义词典,它是依据词义来组织词汇信息,利用同义词集合(Synaet)代表概念(Concept),语义关系在概念之间体现。它将英语词汇组织为一个同义词集合(Synaet),每个集合标明一个词汇概念,同时力图在概念间建立不同的指针,表达不同的语义关系。如:WordNet中名词的组织依照上下位关系构造名词概念树,并且通过继承系统,构成一种层次关系(hierarchies)。例如:橡树--->树--->植物--->生物。下位概念继承了它们上位概念的所有的属性。这样原本抽象的概念就构成了概念树,可以通过词汇意义来进行概念的推理和计算。

WordNet是一部基于心理语言学原理的词典,因为它是按词汇的语义关系组织的,而这些语义关系已被证明在心理语言学层面上是真实可靠的。WordNet提供了关于英语动词、名词、形容词、副词等主要词类的信息。其操作十分简便,使用者只需打开WordNet窗口后,键入所要查找的词语,就可立即阅读到对该词语的各个义项的释义、一些来自真实语料的例证,点击下拉菜单中的链接可查阅到该词语的同义反义词、上下位词以及该词语的使用频率情况(familiarity)。WordNet数据库可全免费使用,其下载快捷,操作和使用速度快、简单易懂,其内容十分丰富,是二语教学的理想辅助工具。

(二)机器翻译和统计机器翻译简介

机器翻译(machine translation,MT)是利用计算机把一种自然语言(源语言)翻译成另一种自然语言(目标语言)的过程[5]。用以完成这一过程的软件叫做机器翻译系统(machine translation system,MTS)。根据翻译过程的自动化程度,机器翻译系统可分成全自动机器翻译(fully automatic machine translation,FAMT)系统和机器辅助翻译(machine assisted translation,MAT)系统。计算机的应用技术的不断发展让人们期待着能利用计算机辅助语言翻译,其中很重要的一种方法就是互联网引擎辅助翻译。计算机辅助翻译的基本原理是利用翻译记忆自动重复使用翻译过的语句或语句成分,使译者免于重复翻译信息,从而提高翻译的效率和译文的质量。计算机辅助翻译经过多年的发展,包含有语料库辅助翻译、电子词典辅助翻译、网络辅助翻译、软件辅助翻译等多种形式。[2]。互联网搜索引擎辅助翻译是计算机辅助翻译的一种形式,通过利用搜索引擎为译者在海量的网络资源中快速寻找到适用的语句或语句成分,从而提高翻译的效率和准确性。译者应具有强的语言能力,从而能更有效地利用搜索引擎的辅助功能[6]。

统计机器翻译的思想最早来源于香农(Claude Shannon)和韦弗(Warren Weaver)的信息论。他认为可以通过统计方法来找出语言共性,发现共同语(universal language),从而为语言之间的互译提供了简便的途径,当然,他也承认需要巨大的工作量,但随着技术的发展,计算机在速度和容量上都有了大幅提高,大量的联机语料可供使用,因此在20世纪90年代,基于统计的机器翻译又兴盛起来。[3]1991年,IBM的Brown等人提出了基于信源信道思想的统计。机器翻译模型Candide,应用于英法双语的互译,并且在实验中获得了初步的成功。此后从事统计机器翻译的有美国的Language Weaver,Loto等,而Google公司后来居上,通过上乘的翻译质量,为统计机器翻译赢得了荣誉和认可,也引起了科学家和公众对机器翻译的广泛关注。目前,统计机器翻译可以大致分为基于信源信道思想的统计机器翻译方法、基于句法结构的统计翻译模型。

三、案例分析

笔者主要借助WordNet3.0对“crack”一词的词性,词义分类,和使用频率等方面进行了深入的分析揭示“crack”的真实用法和使用规律,同时利用Google调查词组搭配是否地道常用,以便选择“crack”在特定文本中的意义,排除歧义,提高自己的译文质量。其重点在于通过WordNet 3. 0和Google公司的200亿词级的联合国多语种官方文档语料对“crack”一词的分析,揭示运用大型在线词典WordNet对翻译教学和实践的作用。

(一)对“crack”的词性和语义检索

我们借助WordNet3.0来检索得到英语单词“crack”的主要词性、语义和使用频率。WordNet的语料库文本可划分为两大部分,即普通文本和科技文本。

Noun

Sense 1*….(3)S:(n)crack,cleft,crevice,fissure,scissure(a long narrow opening)

Sense 2…..(2)S:(n)gap,crack(a narrow opening) e.g."he opened the window a crack"

Sense 3…..(1)S:(n)crevice,cranny,crack,fissure,chap(a long narrow depression in a surface)

Sense 4…..(1)S:(n)crack,cracking,snap(a sudden sharp noise)e.g."the crack of a whip";

Sense 5…..S:(n)shot,crack(a chance to do something)e.g."he wanted a shot at the champion"

Sense 6…..S:(n)wisecrack,crack,sally,quip(witty remark)

Sense 7…..S:(n)crack(a blemish resulting from a break without complete separation of the parts)

e.g."there was a crack in themirror"

Sense 8…..S:(n)crack,crack cocaine,tornado

Sense 9…..S:(n)crack,fling,go,pass,whirl,offer (a usually brief attempt)e.g."he took a crack at it";

Sense 10…..S:(n)fracture,crack,cracking(the act of cracking something)

Verb

Sense 1*…..(6)S:(v)crack,check,break(become fractured;break or crack on the surface only)

e.g."The glass cracked when itwas heated"

Sense 2…..(4)S:(v)crack(make a very sharp explosive sound)e.g."His gun cracked"

Sense 3…..(2)S:(v)snap,crack(make a sharp sound)

Sense 4…..(2)S:(v)crack(hit forcefully;deal a hard blow,making a cracking noise)

e.g."The teacher cracked him across the face with a ruler"

Sense 5…..(2)S:(v)break through,crack(pass through(a barrier))

e.g."Registrations cracked through the 30,000 mark in the county"

Sense 6…..(1)S:(v)crack(break partially but keep its integrity)

e.g."The glass cracked"

Sense 7…..(1)S:(v)snap,crack(break suddenly and abruptly,as under tension)e.g."The pipe snapped"

Sense 8…..S:(v)crack(gain unauthorized access computers with malicious intentions)

e.g."she cracked my password";"crack a safe"

Sense 9…..S:(v)crack up,crack,crock up,breakup,collapse(suffer a nervous breakdown)

Sense 10…..S:(v)crack(tell spontaneously)e.g." crack a joke"

Sense 11…..S:(v)crack(cause to become cracked)

e.g."heat and light cracked the back of the leather chair"

Sense 12…..S:(v)crack(reduce(petroleum)e.g.to a simpler compound by cracking)

Sense13…..S:(v)crack(break into simplermolecules bymeans of heat)e.g."The petroleum cracked"

Adjective

Sense1…..(2)S:(adj)ace,A-one,crack,firstrate,super,tiptop,topnotch,e.g."a crack shot"

3.1.1 The word class distribution

(1.Noun:41.7%(10次);2.Verb:54.2%(12次);3:Adjective:4.1%(1次)

Table:3.1.1

3.1.2 The key senses distribution

(Sense 1:42.8%;Sense 2:28.6%;Sense 4:14.3% Sense 5:14.3%)

Table:3.1.2

3.1.3 The key senses distribution of“crack”(verb)

(Sense1:33.3%Sense2:22.2%Sense3,4,5:11.1% Sense6,7:5.6%)

Table: 3.1.3

(二)利用“Crack”的词性分布改进译文

WordNet3.0共为我们粗略地提供了36条与“Crack”相关的索引行,并剔除其中有错误(语句不完整或内容重复)的记录后,我们得到24条有效索引行。为了描述和研究这些语料,首先我们对“Crack”的词性进行排行得到图表3.1.1。从此图我们得到“Crack”一共有24条语义。其中,做动词使用占41.7%是其最主要的语义。做名词位居第二,共有10条记录。但“crack”作为形容词使用只有1条记录。语义是“第一流的,顶呱呱的”。例:原文:He is a crack baseball player.译文:他是个呱呱叫的棒球运动员。运用机器翻译短语准确度不高的主要原因是计算机不容易辨认短语中核心词的词性。即使词性判断正确在语义的选择中也会出现纰漏。因此,借助WordNet提供的“Crack”语义搭配频率很好地解决这一问题。

(三)利用“Crack”语义搭配频率评价网络译文的质量

例1:“Crack baby is a term for a child born to a mother who used crack cocaine during her pregnancy.

Google译文:对一个在她的怀孕期间使用纯可卡因的母亲生的小孩。

Yahoo译文:“高明的婴孩”是孩子的一个期限对在她怀孕期间用可卡因的母亲。

金桥译文:对一个在她怀孕期间使用纯可卡因的母亲生的小孩。

例2:Crack up a boat

Google译文:打击了船

Yahoo译文:使小船发笑

金桥译文:吹捧一只小船

通过对比以上统计机器翻译译文,并借助WordNet对“crack”一词的词性,词义分类,使用频率的统计可以分析出Google开发的统计机器翻译在汉语—英语的互译的可懂性和忠实性上居领先地位。例1中的“Crack”在英译汉中主要有两种语义:“高明”和“纯的”。究竟哪一种更符合原文的语境。,这个问题可以通过WordNet对“crack”一词在不同语域的词义搭配判读最为恰当的语义。从WordNet中“Crack”作名词的语义分析得出当在医药学的语境中,“Crack”最佳的语义是Sense 8“crack cocaine,tornado”即“纯可卡因”。而且从词性的分析也可以判断“高明的”这一词义是“Crack”作形容词的唯一语义。在文中的crack cocaine名词+名词的短语,因此Yahoo机器译文是无意义的,错误的。

对比例2中的三种译文我们发现“Crack up”有三种不同的语义。利用WordNet对”Crack”作动词的语义分析,依照以上的分析方法也可以很容易地到处正确的译文。首先我们分析原文Crack up a boat是动宾短语,Boat作为受动对象,Crack up的执行者一定是有生命的主语。搭配语义符合逻辑意义的只有Google的译文。而且借助Wordnet的语境分析crack作动词最主要的语义是Sense 1:(v) crack,check,break(become fractured;break or crack on the surface only)所以意译为“击沉了船”是较为恰当的。从而避免“吹捧一只小船”此类错译的发生。

四、讨论

衡量翻译好坏的二大标准,一是意义相符,二是风格类似。翻译工作者应该找出在他们之间的最和谐的关系。词语是翻译的基本单位,词语翻译的优劣是衡量译文质量的重要因素。每个词语一般有三种类型的意义:字面意义、指示意义和语用意义。通过对比图解的分析,我们能得到一个观点:在科技文本中主要强调“Crack”的语用意义,而在普通文本中重点放在指示意义上。也就是说,不同类型文本提供不同的意义。当我们在翻译过程中选择“Crack”在篇章中的最恰当的语义时,应该完成下面一系列工作:第一,判断该词所处的语境和语域;第二,了解源语言信息的主要语义功能;第三,利用基于WordNet和Google统计翻译提供的语义使用频率选出最佳的语义。

英语和汉语的词汇都是丰富多彩的,每一个词都有各种不同的意义。借助WordNet和在线统计翻译机器我们可以尽量减少在翻译过程产生歧义的可能性。我们应该重视利用语料库丰富的语料文本、语义信息去层层解析句中的歧义。考虑其在翻译学中,尤其在机器翻译领域的重要性,我们相信它极具价值,并且在研究源语言和目的语言的语境意义上起着不可忽略的作用。在未来的网络翻译教学的环境下,教师不再是课堂教学的中心,而如何在网络翻译教学中使学生有效地得到翻译技巧的辅导是一个难题。统计机器翻译模式以其高质量的翻译译文为这一问题提供了新的思路。

五、结语

庄智象教授指出,在翻译学科建设中,教师应使用现代教育技术,丰富翻译教学手段,并指出机器翻译、自动编辑与校对软件的使用、信息传送等也应当容纳在教学框架中[8]。目前,越来越多的教师和研究者将目光投向了网络教学,在西安外国语大学、北京外国语大学等高校的一些教师都开始了网络翻译教学的尝试。统计机器翻译对网络翻译课程提供了优秀的资源支持,使得在线翻译学习成为可能,并促进了学生的自主学习能力。在当前网络教学的背景下,有效运用网上的语义数据库的确能增强学生进行翻译学习的自主性,达到培养较高的语言能力的目的。

由于文章篇幅有限,本文仅从狭窄的角度和有限的范围对WorNet3.0的应用进行分析,其意义仅在于说明利用WordNet3.0在揭示“crack”的真实用法和使用规律。同时由于本文使用的翻译评价标准本身的不成熟性,个人评价的主观性以及时间的有限性,本研究存在着诸多的不足之处。但作者希望此研究能从实践角度出发对语料库机器翻译的发展做出一些贡献。

[1]杰弗里.N.T利奇,语义学[M].上海:上海外语教育出版,1987

[2]马俊波,计算机辅助翻译刍议[J].武汉职业技术学院学报,2005,(3):81~84

[3]冯志伟,机器翻译研究[M].北京:中国对外翻译出版公司,2004:45.

[4]王寅,语义理论与语言教学[M].上海:上海外语教育出版社,2001

[5]魏长宏,机器翻译的译前处理[J].科协论坛,2008,(9)

[6]周杰,互联网搜索引擎辅助翻译研究[J].外语网络教育理论与实践2007,(117).

[7]朱凌,词义搭配在英语学习中的作用[J].宿州师专学报.2003(1).

[8]庄智,我国翻译专业建设:问题与对策[M].上海:上海外语教育出版社,2007.

H059

A

1006-5342(2012)04-0046-04

2011-12-27

湖北省教育厅2012年人文社科青年项目《地方高校英语专业学生词汇能力发展途径研究》(2012Q813);2011年咸宁学院科研青年立项“地方高校英语专学生词汇能力发展途径研究”。

猜你喜欢
词义语料库译文
Stem cell-based 3D brain organoids for mimicking,investigating,and challenging Alzheimer’s diseases
西夏语“头项”词义考
《语料库翻译文体学》评介
译文摘要
词义辨别小妙招——看图辨词
I Like Thinking
基于JAVAEE的维吾尔中介语语料库开发与实现
字意与词义
《诗经》词义考辨二则
语料库语言学未来发展趋势