汽车专业双语平行语料库之建设

2011-08-15 00:43:07李毅鹏
淮北职业技术学院学报 2011年6期
关键词:语料平行语料库

李毅鹏

(东莞职业技术学院 应用外语系,广东 东莞 523808)

汽车专业双语平行语料库之建设

李毅鹏

(东莞职业技术学院 应用外语系,广东 东莞 523808)

建立汽车专业双语平行语料库有利于促进国内外汽车技术的交流,有助于提高汽车行业从业人员的素质,为汽车专业英语教学提供许多便利条件。对汽车专业双语平行语料库的建设过程进行重点讨论,望能为专业平行语料库的建设人员和使用者提供一些启发。

双语平行语料库;汽车专业英语;翻译实践

1 国内外语料库发展概况

语料库是按照一定的语言规则,运用随机抽样方法,收集自然出现的连续语言,运用文本或话语片断建成的具有一定容量的大型电子文本库。[1]53依据 Mona Baker的理论,语料库可分为三类:可比语料库、多语语料库和平行语料库。可比语料库收集某种语言,如法语的原文文本,同时也收集从其他语言翻译成该语的文本;多语语料库是根据类似设计标准建立起来的两个或多个不同语言的单语种语料文本组成的复合语料库;平行语料库收集某种语言的原创文本和其被翻译成另一种文字的对应文本。[2]230-236自语料库语言学和语料库翻译学兴起以来,国内外许多科研机构和个人都根据科研和实践的需要,积极建立各种语料库。

2 汽车专业中平行语料库建立的意义

目前,国内建成的语料库主要集中于文商领域,关于理工科的语料库数量很少,而双语平行的理工类语料库就更为稀少。据调查,国内尚未建成初具规模和实用性的汽车双语平行语料库,而许多汽车行业翻译人员和汽车专业英语教师都在努力寻找此类语料库。我国汽车行业起步晚,仍未掌握关键部件的核心技术,许多技术都需向国外学习。需要培养大量既懂汽车行业又精通英语的专业人士,同时需要精确翻译大量的英语技术文件。

3 语料库建设

建设双语平行语料库要比建设一般的单语语料库困难得多。需要对其规模、内容、语料样本的选择进行更加细致、严谨、精确的分析和规划。实践表明50万到100万词次的语料库即可满足。[3]187因此,根据实际翻译和研究需要,此语料库设计规模为100余万词次,并合理分配词次、库文本数量、样本数量和层次样本数量四个层次的比例。

3.1 确定所需软件

建立平行语料库所需的技术和软件有别于一般语料库。除了一般的文本处理、格式转换、内码转换、语料标注、检索软件外,还需要语料对齐软件。基于对软件操作的熟练程度和对建库成本的考虑,我们选取Office Word 2007作为文本处理软件。在衡量了适用性和实用性后,笔者选用了Paraconc作为此语料库的检索软件。当前计算机辅助翻译软件Trados中附带的Winalign语料对齐软件中英文对齐功能全面,准确性高,为了节约语料对齐中人工参与的工作量,同时考虑到建库后对已对齐语料的二次利用,此语料库将运用Winalign完成语料对齐工作。

3.2 收集语料

汽车专业双语平行语料库的语料一律保存为“纯文本”格式,并以适应性,代表性,时效性为原则,通过人工录入,网络下载,网络机器人搜索,文本扫描等途径进行收集。库中的文本主要按汽车设计、部件、制造工艺、驾驶技术归类,对各类别所占比例进行精确计算和规划。收集的文本以汽车专业英语教程、中英汽车制造技术文件、双语汽车介绍和有关汽车的论文为主。

在规划语料收集过程中,笔者重点考虑了代表性问题和概率抽样问题。[4]33充分接纳了Biber等人提出的“比例取样”概念。在通用语料库领域,Brown语料库和LOB语料库的代表性较好,但与Biber的要求仍相差甚远。按照Biber概念的要求,通用语料库研究人员需要时刻关注库中的语料变化,在必要时候需往库中加入大量语料,以解决语料库出现的不平衡问题,或直接建立专门用途语料库解决此问题。汽车专业双语平行语料库采用的就是后者。

3.3 语料处理

所有采集的文本均通过文档处理软件保存为“纯文本”格式,这是为了使全库语料和对齐后的语料有更强通用性。由于扫描软件精度不高和被扫描文本清晰度不足、格式转换出现的错码、人工录入中的人为疏忽,格式转换后和录入后的文本常常会出现的信息缺失或冗余,如错别字、错别符号、多余空格、多余隔行、多余项目符号等,都必须予以纠正,否则将影响到对齐和标注的准确性。在预处理阶段,笔者对每个文档进行归类,添加文本头标记和结构标记。其中文本头包括六项:语言,主题,类别,长度,来源,采集时间;结构标记采用<s></s>标记完整句子和<p></p>标记完整段落,以方便检索和对齐。

语料对齐是此语料库建设的重点和难点。语料对齐是指通过软件或人工手段,将源语文本中的每个段落或每个句子与译语文本中其对应的段落或句子进行配对。段段对齐的难度较低,对齐正确率较高,对齐速度快,但其不利于检索后的双语对比和翻译实践及教学应用。句句对齐是目前大多双语平行语料库所采用的语料对齐方式,其在翻译实践中应用十分广泛。现在,语料库建设者可直接使用专门的句句对齐软件,如Trados中的 Winalign,对语料进行句句对齐。由于中英之间语法、句法、标点和语篇等存在明显差异,软件对齐不可能100%准确,目前,句句对齐软件的自动对齐准确率大概为75%左右,因此,对齐结果必须经过人工检查纠正才能入库。

在对齐过程中,通过将Winalign中的对齐标记显著属性、数字显著属性、特殊字符显著属性和格式显著属性调至最高,以提高自动对齐的准确度,但部分对齐结果仍需人工纠正。对于大部分的错误,可通过软件自带的拆分和合并功能解决;对于出现信息缺失、冗余或错译的句子,则只能通过人工重译给予修正;而对于少数出现对齐严重混乱的文档,则需在软件中解除所有句子配对,重新检查源语文本和译语文本中段落标记符和句子标记符是否出错。由于中英文差异,英文的长句子要比中文的多很多,某些英文长句会出现过长现象,而句子过长不利于检索,因此对于一些特殊的句子需采用特殊处理手段,如将过长的英语句子适当地拆分为若干分句,在不影响原句意思情况下,对原句进行重组处理。

建立语料库的一个重要环节是对语料进行标注。未经标注的语料库都属于生语料库,难以发挥语料库在语言研究领域的潜能。目前,世界流行的标注有两种:词性标注和句法标注,其中前者已可使用软件完成,精确率达95%以上,但尚没有软件能对句法做出具实用性的标注,要对语料进行有实用价值的句法标注,必须采取人机协作的办法。为了使此双语平行语料库更具研究价值和实用价值,同时,考虑到汽车专业英语的特性——语言规范、词汇问题突出,笔者决定重点对其进行词性标注。通过调查、比较和综合考虑,决定采用英国兰开斯特大学研发的基于概率统计的标注系统(CLAWS),其标注速度快,准确率高,经其标注过的语料库可直接用于词性研究。完成标注后,经抽样统计计算,语料库词性准确率达到了98%以上,对于个别词性标注有误的词语,需对照权威字典对其进行校正。

3.4 语料库的更新

考虑到上述的代表性问题和汽车专业的特点,此语料库设计为一个没有词次上限的开放式语料库。汽车技术日新月异,每项技术出现都会带来许多新词汇,同时,随着新技术发展,许多落后技术会被淘汰,其伴随的词汇也会渐渐消失。为了使语料库更加贴近迅猛发展的汽车科技,保持其活力和时效性,必须定时为其进行更新和升级,添加新语料,删除过时的文本。语料库的更新需要大量人力物力,从实际出发,其更新频率不能过于频繁,汽车技术有自身发展的周期和步伐,参考了国外与汽车技术相关语料库的更新经验和语料库相关软件的发展速度,笔者将此语料库的更新和升级周期定为1.5年。

[1]杨惠中.语料库语言学导论[M].上海:上海外语教育出版社,2002.

[2]Mona Baker.Corpora in Translation Studies:An O-verview and Some Suggestions for Future Research[J].Target,1995(2).

[3]Kennedy,Graeme.An Introduction to Corpus Linguistics[M].New York:Longman,1998.

[4]Meyer C F.English Corpus Linguistics An introduction[M].Cambridge University Press,2002.

Construction of an Automotive Bilingual Parallel Corpus

LI Yi-peng

The establishment of an automotive bilingual parallel corpus will accelerate the technical exchanges between domestic and foreign automobile industries.It will also help improve the quality of employees working in automobile industries and offer a great numbers of benefits and conveniences to the teaching of automotive English.The paper concentrates on the whole construction process of the corpus so as to provide some inspiration and new knowledge to professionals and the users of the corpus.

bilingual parallel corpus;automotive English;translation practice

H059

A

1671-8275(2011)06-0117-02

2011-10-15

李毅鹏(1985-),男,广东东莞人,东莞职业技术学院讲师,硕士。研究方向:语料库翻译学、计算机辅助翻译。

责任编辑:文 月

猜你喜欢
语料平行语料库
向量的平行与垂直
平行
逃离平行世界
《语料库翻译文体学》评介
把课文的优美表达存进语料库
基于语料调查的“连……都(也)……”出现的语义背景分析
再顶平行进口
汽车观察(2016年3期)2016-02-28 13:16:36
华语电影作为真实语料在翻译教学中的应用
基于JAVAEE的维吾尔中介语语料库开发与实现
语言与翻译(2015年4期)2015-07-18 11:07:45
《苗防备览》中的湘西语料