基于双语平行语料库的专业词典编纂方式探索

2015-03-10 01:13张玉双管新潮
当代外语研究 2015年12期

张玉双 管新潮

(上海商学院,上海,200235;上海交通大学,上海,200240)



基于双语平行语料库的专业词典编纂方式探索

张玉双管新潮

(上海商学院,上海,200235;上海交通大学,上海,200240)

摘要:本文对基于双语平行语料库的专业词典编纂方式进行了描述,旨在说明不管词典的收词规模大小,以此方式均可以提高词典的系统性与规范性,以及与传统词典相比的优势所在。在此方式中,如何合理地选用语料文本、进行词频统计等是编纂工作的关键。通用词汇在专业词典中的义项描述可以增强此类词典的学习功能,有助于对专业学科的理解。纯粹的专业词条的确定则取决于专业词典的编纂目的、使用对象等因素。既然是借助于语料库,那么就必须以语料库词典的形式为专业词典提供链接式服务。当然,以这种方式进行词典编纂也可能有其不足之处,需要认真加以对待。

关键词:双语平行语料库,词典编纂,语料文本,词频统计,语料库词典

[doi编码] 10.3969/j.issn.1674-8921.2015.12.015

1.引言

语料库与词典编纂相结合已经结出了丰硕的成果,如著名的COBUILD系列词典,它的成功标志着语料库词典学的日臻成熟。但与英语词典的编纂成果相比,基于语料库的汉英双语词典的研编在理论研究和编纂的技术手段上都较为落后(李德俊2008:7)。其实,近年来我国已有不少的教学和出版机构在语料库词典编纂方面进行着开拓性的尝试,也取得了可喜的成果。作为一种补充,本文将在语料库专业词典编纂方面进行一些探索性描述。

多数情况下,但凡涉及双语词典编纂事宜时,人们所指的一般均为通用语文词典,很少会涉及专业词典编纂方面。本文试图做一尝试,说明专业词典的编纂并非仅仅是一定规模的专业词汇的汇集。专业词典同样具备非常重要的学习功能,尤其是基于双语平行语料库的编纂将为专业词典提供更多的学习功能。专业词典编纂的着眼点为专业的选择。例如,金融、商贸、会计、法律、体育、机电、建筑、管理、医学、汽车、船舶等等均可作为专业词典的编纂方向。编纂工作的实际展开主要视编纂者的专业知识和出版意向而定。本文将以医学方向作为描述内容。

管新潮,上海交通大学外国语学院副教授。主要研究方向为语料库翻译学、计算机辅助翻译。电子邮箱:guanxc1966@163.com

*本文系上海市科委科研计划项目(编号09dz1501900)的阶段性成果。

2.专业词典的内容构成

根据对各类专业词典的内容构成的分析,可将专业词典分为两大类:一是纯术语类专业词典;二是除了专业术语外,词典还包含有通用词汇,旨在使专业词典兼备通用语文词典的功能。

在此,又可将第二类专业词典所包含的通用词汇分为两类:一是所包含的通用词汇其释义是通用语文词典所具备的释义,多数与专业词典所涉专业无明显关联性;二是与前者情况正好相反。显然,属于后一类的词汇更符合专业词典的编纂要求。

以normal一词为例,据英汉医学双语平行语料库的初步统计,涉及“生命体征”一词的有下列表述:Vital signs were normal生命体征平稳/未及异常/正常/无异常。选取《英汉大词典》(陆谷孙1993:1231-2)所列的相关义项进行对比:【医】【心】精神(或身体、智力等)正常的。显而易见,从语料库中检索出的normal一词的义项更为丰富。

本文的目的之一在于对诸如normal一类的通用词汇进行更符合专业词典编纂要求的选取与分析,以使语料库专业词典具备名副其实的专业外语学习功能。

3.双语语料的选取范围和选用标准

专业词典编纂既然是基于双语平行语料库的,那么双语语料的选取即可视为词典编纂工作的开始。这是最为关键的一步,因为语料的质量决定了今后双语词典的质量。在严格遵守选取范围和选用标准的情况下,可以明显提高词典的系统性与规范性,这是传统编纂方式所无法企及的效果。

3.1 语料选取范围

其实,就医学本身而言,这是一个非常宽广的概念。根据我国的“医学学科分类与代码”所列的学科内容,医学可分为基础医学、临床医学、预防医学与卫生学、军事医学与特种医学、药学。而这五个方向可继续细分,其中的基础医学可分为:医学生物化学、人体解剖学、医学细胞生物学、人体生理学、人体组织胚胎学、医学遗传学、放射医学、人体免疫学、医学寄生虫学、医学微生物学、病理学、药理学、医学实验动物学、医学心理学、医学统计学、生物医学工程、基础医学其他学科。临床医学细分为:临床诊断学、保健医学、理疗学、麻醉学、内科学、外科学、妇产科学、儿科学、眼科学、耳鼻咽喉科学、口腔医学、皮肤病学、性医学、神经病学、精神病学、急诊医学、核医学、肿瘤学、护理学、临床医学其他学科。

因此,可根据医学双语语料库的研究与应用目的,并按照上述学科内容来确定语料的选取范围。一般来说,以临床医学所属的各个方向作为语料选取范围较为合适。

3.2 语料文本的选用标准

考虑到语料加工的便捷性以及语料库质量要求,将选用标准设定如下:

•原文与译文呈一一对应关系:这是语料对齐加工的基础。

•原文与译文均具备一定的文笔表现力:尤其是译文应符合所在国的阅读习惯和表述要求,而且是经过认可的。

•按专题模块汇集语料文本,使语料文本具有同质性:同时选用汉语和汉译英语料文本、英语和英译汉语料文本,这样的语料库更能克服因文化差异所产生的翻译上的困难。

•选用具有代表性的语料文本。

•所选用的每一篇语料文本均为一个完整的意义表达单元。

在选取语料时,更应考虑到译文的质量,即专业表述质量和语言表述质量两方面。前者保证了专业理解的准确无误,而后者则提升了译文的品味。

4.编纂方式

在选取一定量的语料之后,以下列顺序展开专业词典的编纂工作。

4.1 语料对齐

语料对齐分为三个层级的对齐,即语篇、段落、句子。语篇对齐在选取语料时对原文译文稍加注意即可完成,这是三个层级对齐加工中最易实现的一个。在医学语料库建设中,段落对齐以手动方式进行,对齐实现比较容易,这主要是因为选用语料时已严格遵从语料选用标准。至于李德俊(2008:212-213)所述现象,关键在于专业类语料与文学类语料的明显差异性。专业类语料自身讲求的就是准确,即译文对原文的准确性。故无需以自动方式进行。

句子对齐才是双语平行语料库建设的关键,也是语料库的主体。在实践中,因项目的不同,对齐操作所采用的工具也各不相同,例如MMAX(刘泽权等2008:329-39)、ParaConc、Trados、WORD等。采用MMAX或ParaConc进行对齐时,需要对中文进行附码或切分处理,否则因属意符文字的中文而无法识别。而后两种工具则无需进行附码或切分处理,直接对齐即可。一个有趣的现象是,对文学类语料进行对齐加工时,一般选用MMAX或ParaConc,如《红楼梦》和《莎士比亚戏剧》研究;而对专业类语料进行对齐时,却不同于此,更多采用Trados或WORD等工具。更有甚者,有的研究机构在语料对齐中跳过句子对齐这一环节,直接在语篇中进行语块对齐(配有专门的软件工具),从而反过来实现句子对齐。

在医学双语平行语料库建设中,采用了Trados中的WinAlign功能。句子对齐操作简捷便利,对齐结果以通用的形式保存。对齐实例如下:

Efficacy of antibiotic prophylaxis for infective endocarditis has never been shown in a randomized trial.

抗生素预防感染性心内膜炎的有效性还从未在随机试验中得到检验。

4.2 术语及句式的提取

在实现句子层级对齐之后,采用本版软件PhrasExt提取术语和句式。所提取的术语和句式分属两个不同的数据库。

4.2.1术语

术语词汇一般由一个或多个英文词组成,最多不超过八个。作为词典的词条使用时,复合词一般以二到五个词为妥。若以在线方式进行术语检索,八个词的术语其长度亦属正常。提取时,对较长的词汇可行二次或三次提取,直至无法分词为止,如下列实例所示:

acuteandchroniceosinophilicpneumonia急性抑或慢性的嗜酸细胞性肺炎acutedyspnea突发呼吸困难acutemyocardialinfarction急性心肌梗死acuteonsetofdyspnea突发呼吸困难acuterespiratoryfailure急性呼吸衰竭adenopathy肿大淋巴结adenosinediphosphatestimulation二磷酸腺苷刺激adequatestatisticalpower足够的统计效能

(续表)

从理论上说,借助于在线方式,词典的选词规模不会受到限制,可以持续扩容。一般情况下,只要语料来源充足,皆可纳入其中。但若以纸质形式出版词典,上述实例中的有些词条明显过长,而且纸质词典有收词量的限制,尤其是小型的专业学习词典限制更多,故须对上述实例术语词条进行取舍或二次分词。一般的词条长度以一到三个词为宜,具体处理实例如下:

acuteandchroniceosinophilicpneumonia急性抑或慢性的嗜酸细胞性肺炎

可处理为:

eosinophilicpneumonia嗜酸细胞性肺炎

pneumonia肺炎

对于小型的专业学习词典,可借助于Wordsmith工具,对术语先行词频统计。得出词频高低排序后,按照词典收词量的要求,确定需要收入哪些词条。以此方式来确保此类学习词典在术语收词方面的系统性和规范性。

4.2.2句式

相对于术语而言,句式较为复杂,且长短不一,提取时难度相对较大。故为句式的提取设定了标准,即句式不再包含有术语,一个句式就是一个完整的意义单位,且尽量包含句子中非术语成分。按此标准,所提取的句式将包含有尽可能多的通用词成分。具体实例如下:

accountedfor被认为是accumulateon聚集于

(续表)

上述句式的提取目的有二:一是为通用词汇的选用做好准备;二是为翻译实践提供句式储备。从上表所列的句式可以看出,相对较长的句式明显有益于翻译实践中译者能力的发挥,尤其是在汉译英实践中。这一点已经得到了实践的证明。相对较短的句式虽然作用相对较弱,但其关键词的提示功能相当强大。这是词典的学习功能得以增强的基础。

4.3 通用词汇的选用

4.3.1处理方法

借助于Wordsmith工具,对所获取的句式进行词频统计。正如其他研究所得出的结果一样,属于高频词的多数为the、of、in、to、where、a、is等,它们无需在专业词典中进行处理。

从先期的约10万词语料中提取了有效句式623个,这些句式所包含的词汇为1171个。删除无需处理的词汇之后,得965个有效词汇。专业词典的学习功能主要由这些词汇来实现,如administration、evidence、management、normal、patient等词汇。

4.3.2词条示例

在此选取若干词汇,以作示例使用,并与《英汉大词典》做义项比较。例如administration一词,《英汉大词典》中与医学相关的义项为:(药的)配给;服法,用法。从本语料库中检索出的义项为:给药,治疗,服用,给予,应用,使用,投入,补充,输(入)等。相应的例句如下:

when the intravenous route of ~ is chosen当选择静脉给药时

~ of nitrous oxide and oxygen给予一氧化氮和氧气吸入

~ of ergotamine tartrate酒石酸麦角胺的治疗

systemic ~ of isoniazid and streptomycin有计划地应用异烟肼和链霉素

self-~ of a drug without dependence自行应用一种没有依赖性的药物

~ of estrogens to postmenopausal women绝经期后的妇女服用雌激素

fail to rise in response to ~ of TRH不会对投入TRH产生反应升高

usually responds favorably to thyroid hormone ~对补充甲状腺激素有良好的反应

to guide fluid and electrolyte ~以指导水和电解质输人

rapid ~ of blood快速输血

~ of preoperative medication术前药物的使用

又以management一词为例,《英汉大词典》中与医学相关的义项为:【医】(疾病等的)处理(法)。从本语料库中检索出的义项为:处理,治疗,予以,疗法,管理。相应的例句如下:

~ of such infections这种传染的处理

proper ~ of patients with cerebral infarction对脑梗死患者的适当治疗

well-controlled long-term ~ with antihypertensive medications用抗高血压的药物予以良好的长期控制

goal of expectant ~期待疗法的目的

~ of anesthesia during operation手术期间麻醉的管理

上述两例均为名词,其检索结果表明,通用词在专业领域中的表述有别于通用语文类词典,义项选择明显增多。若希望达到一目了然的结果,建议在义项后列举相应的例句或短语,以使词典的学习功能得到增强,有助于对专业学科的理解。

那么,动词呢?以consider一词为例,检索结果是:认为,视为,认定为,考虑,注意,评价。这与《英汉大词典》的相关义项相比,无明显区别。其他的动词如show,suggest等情况也是如此。因此,建议无需将此类动词纳入专业词典内。这也吻合了一般的专业词典以名词居多的现象。

4.4 词典的呈现

专业词典的呈现分两种情形:一是在线方式,二是纸质词典。

前者不受规模限制,扩容实时,检索方便,且已经为实践所印证。在线检索方式可能会成为问题的就是有些词条的例句过多,此时不妨设置多重条件过滤,以使例句经检索后完全符合需要。另外,大型的专业词典将来可能完全会被在线方式所取代,这是一个需要面对的现实问题。

小型的专业词典倾向于采用纸质形式,其词条编排可提供更多的专业学习功能,包括有义项、典型例句或短语等。以下为若干实例:

individual患者;个体;多种,各种;个别,单个:diagnosis of an ~对患者的诊断/dark-skinned ~深色皮肤者/~ patients各个病人/normal ~正常人/many ~ carbohydrates多种碳水化物/an ~ organism个体生物/~ proteins个别(各种)蛋白质/~ elementary unit单个的基本单位/The melanosomes are ~ly dispersed within the cytoplasm黑素体呈单个分散在胞浆中

normal正常,无异常,平稳:management of ~ labour正常分娩的处理/Vital signs were ~生命体征未及异常/The first stage of labour is proceeding ~ly第一产程乃正常进行

5.可能的不足之处

词典编纂所涉及的方式方法都会因各种原因而需要有改进之处,当然,基于双语平行语料库的方法也不能例外。其原因在于语料的选取范围、新词新语、句对过多、语料规模等。

5.1 选取范围

因实际原因而无法寻找到某些学科的双语对应语料或者相关学科的语料不充分时,术语库中会缺少该学科的相关术语或使得术语涵盖面不充分。由于交叉学科之故,语料的选取范围是否可以无限扩大,还有待商榷。

5.2 新词新语

随着社会的进步和科技的发展,新词新语层出不穷,它们既有出自英语的,也有出自汉语的。然而,由于新词新语的超前性,相应的双语对应语料极其欠缺。为了使专业词典及时跟进,就需要收集相应的语料。对出自汉语的新词新语,可以采集能够反映汉语新词新语翻译实际状况的英语语料(曾东京2003:197-201);反之亦然。专业词典的新词新语完全可以根据相关专业的期刊进行取舍。

5.3 句对过多

在语料库中,某些词会以极高的频率出现,这对句对的检索提出了挑战。若检索得当,就有事半功倍之效。但若过滤条件设置不当,可能无法实现高效检索,有时甚至无从检索。当句对过多时,评判其优劣的标准就会显得模糊起来。以最快的速度检索出最佳句对,还需要依靠技术的支撑。

5.4 语料规模

原则上说,语料库的规模越大越好,这样有利于充分查找例句、术语等。但实际上,建设一个上规模的语料库需要投入大量的人力和财物。从经济角度来看,过大的双语语料库也是不现实的。语料库的建设是一个逐渐增量的过程。从所提取的通用词汇数量上看,专业类语料库可能会有一个合理的上限,即当语料库规模达此限度时,该语料库就可提供各种服务功能。因此,有待进一步实践,以获取有关此限度的知识。

6.总结

本文对基于双语平行语料库的专业词典编纂方式进行了探索性描述,指出双语语料的选取范围和选用标准决定了双语词典的质量。该编纂方式包含三个步骤,即语料对齐、术语与句式的提取、通用词汇的选用。后者对专业词典的学习功能产生直接影响。同时,我们需要在语料的选取范围、新词新语、句对过多、语料规模四方面对该编纂方法进行改进。

参考文献

李德俊.2008.平行语料库与积极型汉英词典的研编[M].上海:上海译文出版社.

刘泽权、田璐、刘超朋.2008.《红楼梦》中英文平行语料库的创建[J].当代语言学10(4):329-39.

陆谷孙.1993.英汉大词典(第1版)[Z].上海:上海译文出版社.

曾东京.2003.双语词典研究:基于语料库的汉语新词英译词典的编纂[M].上海:上海外语教育出版社.

(责任编辑玄琰)

作者简介:张玉双,上海商学院外国语学院教授。主要研究方向为应用语言学、翻译学。电子邮箱:1365722937@qq.com

[中图分类号]H315.9

[文献标识码]A

[文章编号]1674-8921-(2015)12-0069-05