国内外翻译语料库漫谈

2012-08-15 00:45:05
长春教育学院学报 2012年4期
关键词:汉英语料平行

熊 杰

国内外翻译语料库漫谈

熊 杰

语料库翻译研究兴起于20世纪90年代,并在随后的十年迅猛发展。经过十几年的发展,国内外学者已开发和建立起了多种类型和用途的翻译语料库,并且有很多已被运用到了翻译的研究中,成为翻译研究中的一种新范式。通过检索CNKI和万方数据库,对零星地分散在学术期刊论文中的国内外所建立的各种翻译语料库进行了梳理和总结,旨在为使用语料库来研究翻译的学者在语料库的选择上提供便利,同时对今后翻译语料库的建立和开发提出自己的建议和构想。

语料库;翻译研究;语言学

语料库语言学经过30多年的发展,已成为了现代语言学的一个重要分支。语料库作为语言学的实证研究手段,几乎可以应用于语言研究的所有领域,如词汇、语法、语篇、语言变异、文体学、历史语言学等。“语料库几乎在语言学所有的领域引发了一场革命”。[1]语料库翻译研究兴起于20世纪90年代。1993年,英国学者Mona Baker发表了《语料库语言学与翻译研究:启示与应用》一文,她在文中提出:利用大型的原文加译文的语料库,加上语料库研究方法的探讨,将使翻译研究者得以揭示翻译文本作为沟通媒介的本质[2]。翻译语料库的诞生拓宽了翻译研究的新视野,现已成为当今描述翻译研究领域的一种新的研究范式。随着研究范围的发展和扩大,国内外学者已开发和建立起了多种类型和用途的翻译语料库,并且许多已被广泛应用于实际的翻译研究中。Baker(1995)把为不同研究目的设计的翻译语料库分为三类:第一类是平行语料库(parallel corpus)。它是收集某种语言的原创文本和相应翻译成另一种文字的文本。第二类是多语语料库(multilingual corpus)。它按照类似设计标准建立两个或多个不同语言单语种语料文本组成的复合语料库。它完全是原文文本,没有翻译文本。第三类是可比语料库(comparable corpus)。它收集某种语言如英语的原文文本,同时也收集从其它语言翻译成英语的文本。

一、研究目的

本研究选取中国知网(cnki)的《中国期刊全文数据库》和万方数据的《数字化期刊全文库》作为调查范围,对分散在各学术期刊论文中的国内外所建立的各种翻译语料库进行梳理和详尽介绍,旨在为使用语料库来研究翻译的学者在语料库的选择上提供便利,同时对今后翻译语料库的建立和开发提出可资借鉴的建议和构想。

二、国外翻译语料库

语料库翻译研究的范式最早是在西方发展起来的。它的发展与描述性翻译研究有着密不可分的关系,可为描述性的翻译研究提供大规模真实的描述性语料,从而促进描述翻译研究的理论发展。因此,它已成为了描述性翻译研究强有力的武器。目前,国外建立的比较有影响的翻译语料库主要有以下几种。

1.英国翻译英语语料库(Translational English Corpus)。这是世界上第一个可比语料库。它是1995年以贝克(Baker)为首的英国曼彻斯特大学科技学院语言工程系的翻译研究中心(Centre for Translation Studies,Department of Langua Engineering,UMIST)创建起来的。截至目前,它的库容为1000万词次。语料来源于英美翻译家从德语、法语、西班牙语(包括西班牙的国语、南美洲和中美洲的西班牙语)、葡萄牙语(包括葡萄牙本国和巴西的葡萄牙语)、意大利语、希伯来语、威尔士语等翻译过来的英语文本。这些英语来源于传记、小说、报纸和飞机上的休闲杂志(in-flight magazines)等。其中小说占了文本的80%以上,它同飞机上的休闲杂志总占95%。TEC文本译者都是以英语为母语的人,译者中男女都有,而且多数文本都是1983年以后翻译的,代表了当代英语译文的一般特征。另外,这些翻译文本还负载了许多超语言特征,包括原文作者、译者以及译本本身的一些相关信息等,如,姓名、性别、国籍、地点和年代,文本的类型和字数、译文的源语和出版社/商名等。

2.加拿大议会会议录英法平行语料库(Hansard Canadian English-French Parallel Corpus)。该库是世界上第一个,也是最有名气的平行语料库。它主要由几个子库组成:会议录树库(Hansard Tree bank),会议录LDC平行语料库(Hansard LDC Parallel Corpus)和翻译搜索会议录语料库(TransSearch Hansard)。它的语料主要来源于1973-1986年加拿大议会会议的官方记录,库容为5000万字。它的主题并不仅限于法律方面,还包括即兴讨论、书面材料和预备讲演稿等多种文体。

3.ECI/MCI语料库(European Corpus Initiative Multilingual Corpus)。该库容量大,语言丰富,标注完备。它的容量为9800万字,涵盖了27种语言(如西班牙语、挪威语、葡萄牙语、俄语、汉语、日语等),由46个子语料库组成,并用SGML语言标注。

除去以上的翻译语料库之外,国外还开发建立了其它一些翻译语料库,如Lancaster大学开发的MILLE项目、日本建成的英日翻译语料库(English-Japanese Translation Corpus)、英语-意大利语双语语料库、伯明翰大学建立的汉英平行语料库、Maryland大学的圣经平行语料库(Bible of University of Maryland Paralle-l Corpus)、奥斯陆大学的英语/挪威语平行语料库(ENPC:English-Norwegian Parallel Corpus)等。

三、国内翻译语料库

国内的翻译语料库虽然发展较晚,却取得了巨大的可喜的成绩。迄今为止,国内建立的并被广泛运用的翻译语料库有如下一些。

1.面向新闻领域的汉英翻译语料库。该库是由北京大学计算机语言研究所、清华大学智能技术国家重点实验室和中国科学计算技术研究所共同开发建立的,包括中文语料约2000万字,英文语料约1000万单词,涵盖了新闻、科技文献、政府公文、学术论文等内容。

2.当代汉语翻译小说语料库(CCTFC)。该库是一个单一语种语料库。它库容量为130万词,收入54部长篇翻译小说和2部短篇小说集。这些小说主要是由1980年至2000年间正规出版的长短篇小说集中挑选出来的,译自英、美、法、俄、德、日等11个国家8种语言。

3.汉英和汉日平行语料库。本语料库是由北京外国语大学中国外语教育中心建设的,包括3000万字/词的汉英平行语料库和2000万字汉日平行语料库。汉日平行语料库收录范围包括中日近现代各时期的小说、诗歌、散文、传记、政论、法律法规、政府工作报告等,译文主要来自国家图书馆及日本学研究中心图书馆等藏有的日译本和汉译本。为兼顾多种研究目的,收录中日名作共80种。原文和译本全文收录,部分名著收录了多个译本。全部语料原文与译文实现了段落层面的对齐。本语料库具备字符串检索、句型检索、特定组合词语检索、正则表达式检索等适应各种语言研究和翻译研究要求的检索功能,能够对中日文进行双向检索,并能提取检索结果对应的译文语料,实现同平台中日文的同屏显示。

4.汉英双语语料库。该库由香港科技大学开发和建立,收集和加工了香港立法委员会1997年以来的汉英双语法庭判决。这是最早的包含汉语的大型平行语料库之一。该语料库文本经过了预处理、切分、双语对齐和标注。

除了上述所提及的语料库之外,国内还有Sinorama汉英平行文本语料库(Sinorama Chinese-English Parallel Text Corpus):较早的平行语料库,由高照明收集台湾Sinorama(光华)杂志双语文章所建立的;兰开斯特汉英平行语料库(Chinese-English Parallel Corpus:CEPLC);Babel英汉平行语料库(The Babel English-Chinese Parallel Corpus);汉外多语翻译库(Multiple-Translation Chinese Corpus);香港新闻平行文本语料库(Hong Kong NewsParallel Text Corpus);汉英会议口译平行语料库(Chinese-English conference interpreting corpus)等。

从以上所搜集到的语料库来看,目前全世界的翻译语料库以平行语料库居多,单一语种语料库较少。然而,他们大多为印欧语系的语料库,并且他们中可以真正用于研究的并不多。当前,我们缺乏大规模的印欧语系与其它语系(特别是亚洲语系之间)以及亚洲语系之间的平行语料库。这是因为语系不同,开发和构建平行语料库所使用的工具及对齐技术也各异,且每种对齐技术各有优缺点,这就使大型平行语料库的建设变得相当困难。就中国国内目前的翻译语料库来看,英汉的双语平行语料库居多,汉语与其他外语以及国内少数民族语言的翻译语料库都还处于初创阶段。另外,专门用途的翻译语料库所涉及的学科门类还有待拓展。因此,在未来翻译语料库的建设上还有极大的发展空间,我们应当将注意力集中放在汉语与其他外语以及国内少数民族语言的翻译语料库的开发和建设上,同时加大对专门用途翻译语料库的开发。

[1]McEnery,T.Xiao,R.and Tono,Y.Corpus-Based Language Studies——An advanced Resource Book,Routledge,2006,4.

[2]黄俊红,黄萍,范云.专门用途语类翻译平行语料库研究述评[J].重庆大学学报(社会科学版),2004,(6).

责任编辑:郭一鹤

H313

A

1671-6531(2012)04-0028-02

猜你喜欢
汉英语料平行
向量的平行与垂直
平行
逃离平行世界
基于语料调查的“连……都(也)……”出现的语义背景分析
话题链在汉英篇章翻译中的统摄作用
从目的论看环保公示语的汉英翻译
再顶平行进口
汽车观察(2016年3期)2016-02-28 13:16:36
华语电影作为真实语料在翻译教学中的应用
《苗防备览》中的湘西语料
汉英文字的幽默修辞功能浅探
语言与翻译(2014年1期)2014-07-10 13:06:14