管新潮 胡开宝 张冠男
(上海交通大学,上海,200030)
自20世纪90年代中期起,无论国内还是国外,与语料库相关的翻译研究与应用得到了迅猛的发展。已建成的各种语料库如翻译语料库、平行语料库和可比语料库为数众多,这使得在语料库支持下的翻译研究收获颇丰(胡开宝、陶庆2010:49)。然而,在各类已建成的语料库中,只有若干通用类语料库包含有科技类语料内容,专门的科技语料库则更少,其中最著名的就是建成于上世纪80年代的上海交通大学科技英语语料库(JDEST)(杨惠中2002:35)。大多数语料库均以翻译研究或教学作为目标,而将语料库应用于翻译实践的还不多见。
另一方面,随着中国图书推广计划和“中国文化走向世界”国家战略的实施,汉译外人才奇缺的现象更为严重(庄智象2007:120)。有鉴于此,我们于2009年7月起在上海市科委立项并开始创建英汉医学平行语料库(English-Chinese Medical Parallel Corpus,简称为ECMPC)。总体目标是创建一个1000万字(词)库容的英汉医学平行语料库,开发出基于该语料库的翻译教学与机助翻译软件,以应用于教学和翻译实践,尤其是汉译英实践。同时,借助于语料库做一些探索性的翻译研究。
本项目旨在建设一个示范型的临床医学科技文献双语语料库,并基于该语料库,实现以汉译英为主的在线机助翻译和翻译教学,为医学英语教学与医学文献翻译实践服务。因此ECMPC的设计将专注于语料的使用便捷性及语料匹配效果。
根据我国“医学学科分类与代码”所列的学科内容,医学可分为基础医学、临床医学、预防医学与卫生学、军事医学与特种医学、药学。这五个方向可分别继续细分,仅基础医学就有17个学科,临床医学有20个学科。就这一点而言,医学是一个非常宽泛的概念,涵盖的内容相当丰富。为了符合ECMPC的研究与应用要求,按照学科分类的特点,本项目选定以临床医学所属的各个方向作为语料选取范围。
在选定具体语料时,主要考虑的选用标准为:1.原文与译文呈一一对应关系;2.原文应具备一定的表现力;3.译文应符合所在国的阅读习惯和表述要求,而且该译文是已被认可的;4.按专题模块汇集语料文本,使语料文本具有同质性;5.选用具有代表性的语料文本;6.所选用的每一篇语料文本都是一个完整的单元(孙迎春2011)。
ECMPC将借助于必要的技术手段,实现语篇、句子、语块三个层面的对齐。语篇和句子对齐是双语平行语料库的根本,否则就无从谈起这是双语平行语料库。语块对齐不仅有利于翻译教学中关键语言教学点的组合,而且还可以增强翻译实践中的翻译匹配效果。在本项目中,因为实现了三个层面的对齐,机助翻译时除了句对和术语外,还可参照语篇和句式。这尤其有利于汉译英翻译实践。
ECMPC的创建主要分为五个步骤:语料的采集;语料的电子化;语料的句级对齐;语块的提取;诱导词的选取。
如2.2所述,ECMPC的语料以图书、论文、报告为主,专业方向涉及微生物学、生物化学、解剖学、病理学、药理学、临床诊断学、内科学、外科学、妇产科学、儿科学、眼科学、耳鼻喉科学、口腔医学、皮肤病学、神经病学、精神病学、感染病学等。文本按照语篇连续性进行划分,图书语料按章节划分,每一章为一个语篇,英文部分每篇词数为500至15000;论文或报告语料以一篇论文为一个语篇,英文部分每篇词数为500至6000词。汉语部分均与英文部分一一对应。
项目所采用的语料有两大类,即纸质和电子语料。前者外包给专业机构,通过手工录入或扫描实现电子化,并进行校对,以使电子文档与纸质文档相一致。后者为PDF格式,若是扫描的,则同样外包给专业机构;若是由WORD转化而来的,则以ABBYY软件转化为WORD格式或直接拷贝成WORD格式,之后同样需要校对。这一阶段的操作相对简单,但需要专业机构来处理,否则就会出现文字上的错误,从而影响到语料库建成后的翻译匹配效果。
在实现句级对齐之前,还需要对语料进行降噪处理和再次校对。降噪处理主要涉及以下五类:
•公式:若转化为TXT格式的公式仍未变形,则予以保留,否则就剔除;
•表格:一般将表格内的文字提取出;
•图片:不保留图片,但需提取出图片中的文字;
•外包校对中遗留的某些问题,如空格、断句、标点、字母大小写、数字;
•将WORD格式转化为TXT格式时会发生变形的符号,如破折号“——”等;
再次校对主要是检查文档中的英汉段落是否平行对齐,是否满足软件自动对齐的需要。
在语篇(加注篇头信息)及段落对齐后,方可进行句子对齐。为了获取最佳句对齐效果,在软件自动实现句子对齐的同时,还需要人工介入。本项目采用Trados软件的对齐功能,并依据下列原则对语料进行句对齐处理(见图1):
•英文原文与中文译文的句子对齐以一一对应为主,但也允许语句一对多或多对一等情况的存在。
•一般以句号、分号、问号等为分句标记,但总有例外情形存在。这里最为重要的是,必须考虑到英文语句在句法逻辑上是一个完整的单元,中文语句与之相应匹配。
图1 语料句级初步对齐效果
在人工介入对齐的同时,还可以对语篇进行校对,即观察已链接的英汉句对是否完全对应,是否存在漏译现象。
在真实的语言中,语块是一个具有一定意义的翻译单位,能准确表达其在文本中的含义。语块的大小介于句子与单词之间,它有连续与非连续两种。本项目的连续语块为医学术语,它既可以是一个词,也可以是多个词,主要取决于语篇中所出现的具体情况。提取连续语块时采用对一个语篇进行全额术语提取的方式。连续语块示意如下:
animal models 动物模型
annual cumulative exposure 年累积暴露
antibiotic prophylaxis for infective endocarditis 抗生素预防感染性心内膜炎
antibiotic prophylaxis 抗生素预防
antibiotic resistance 抗生素耐药性
非连续语块为句式即句子结构,主要由非专业术语组成。非连续语块示意如下:
Few cases of...are now secondary to 现在很少有……继发……的病例
relevance of...is questionable 是否具有关联性尚存疑问
之所以将语块划分为连续和非连续两类,是因为作为连续语块的术语将在机助翻译系统中助力译者识别术语,而非连续语块一是为专业翻译教学之用,二是在翻译句子匹配无果时用于句子结构的匹配,尤其是汉译英。如此划分的另一个原因是为了计算机编程方便。
基于语块匹配的机助翻译,可以达到最准确的语义翻译状态。传统的机器翻译主要基于单个词,这在文本使用中意义容易发生改变,产生歧义。而目前国外所开发的机助翻译软件一般均以单个句子为翻译单位,翻译过程中出现较为常见的翻译匹配缺失现象。
为了实现基于语块匹配的机助翻译,必须事先从已经实现英汉匹配的句对中提取语块。为此,我们开发了PhrasExt语块提取系统。该系统以机助方式助力于连续与非连续语块的提取,旨在提取出符合翻译教学和实践要求的语块(见图2)。系统所起的关键作用包括:1.由软件来生成语块格式,即在目视确定后语块自动进入数据库,无需人工介入;2.在软件中设置校对编辑框,以免出现字母缺失现象;3.语块提取人员只需专注于语块的确定即可(熊秋平、管新潮2011:31)。
图2 术语及句式提取界面
诱导词是基于非连续语块的翻译匹配效率而提出的,因为在系统设计过程中,当句子无法实现翻译匹配时,紧接着采用非连续语块(句式)进行翻译匹配。为了使翻译匹配符合要求,即以非连续语块中的关键词来诱导非连续语块(句式)实现翻译匹配,将关键词定义为诱导词。诱导词的作用是在翻译教学与机助翻译系统中诱导非连续语块(句式)的匹配,增强翻译匹配的效果。诱导词也是医学语料中的通用词,一个诱导词可以匹配多个非连续语块(句式),以供翻译时选用适当的句式。
诱导词的选取采用WordSmith软件,从非连续语块的英语部分中将相关单词按词频顺序排列。删除其中的虚词,选取实词和词组作为诱导词,并按英汉对照句式配以中译文(见表1)。注意所选取的对应中译文均须出现在对照句式中,不可参照词典选取义项。选取单个诱导词的同时,还需观察某些诱导词是否构成固定搭配;若是,则须按固定搭配选取(见表1的下半部分)。
表1 英汉匹配诱导词
(续表)
实际上,提取术语之后再通过诱导词的选取,就可以将一个语篇划分成若干术语和通用词。术语表述准确,翻译时无需多加考虑,对应选中即可。而通用词是翻译的关键,即语篇中的通用词是如何将不同的术语串接起来的,这也是翻译教学中的关键。
本节将以ECMPC的若干数据与王克非(2003:114)基于1000万字(词)的英汉汉英双语平行语料库得出的结果进行对比分析。其中1000万字(词)语料库内英译汉约占60%,非文学类约有45%,相当于270万字(词);而ECMPC随机考察了约400万字(词)语料。而且,ECMPC的句对齐原则与王克非所定的识别句子的标准相类同,因此,两个语料库具有较强的可比性。
王克非(2003:414)叙述:“从本文的发现看,句子仍不失为翻译的一个主要转换单位,特别是除文学汉译英之外的另三类翻译,其1:1的句对比例均达到80%以上。……这一点在翻译教学中,特别是在自动翻译研究中,有引人重视的价值。”从ECMPC实际对齐结果来看,其中1∶1的句对语料比例超过80%.实际上,本课题立项的初衷就是将双语对齐语料应用到机助翻译实践和教学之中。这一点与王克非的结论不谋而合。
王克非(2003:414)又说:“译文受原文影响的程度有差异。英译汉1∶1的语句对应高于汉译英,主要原因是汉语译者翻译时多参照原文的句式和标点,特别是在比较严肃的文本中。”这一点在医学语料中也表现无遗,因为医学语料本身就是非常严肃的文本。
相对于英汉汉英双语平行语料库英译汉部分(非文学)而言,ECMPC的专业性更强。那么两者在翻译文字量上会有何种异同呢?考察语料数、文字量比例,结果详见表2.
从表2可以看出,ECMPC的英汉词字数比例范围大于英汉汉英双语平行语料库,因为就有限的专业领域而言,前者的语料多于后者的语料。考虑到每个译者的翻译风格各不相同,这种比例差异是允许存在的。至于该比例小到或大到多少才算得上真正意义的欠量或过量翻译,还有待进一步的研究,因为所选语料毕竟经过第三方认可,而且有选取原则可循。常见英汉词字数比例范围两者基本相同,平均词字数比例完全一致,这说明哪怕是专业性再强的翻译,其翻译文字量也与专业性较弱的翻译基本保持一致。
表2 英汉汉英双语平行语料库英译汉部分(非文学)与ECMPC英译汉文字量对比
由于专业类语料库的稀缺,此方向的实证研究明显滞后。ECMPC收录了选自真实语境的语料,并配以相应的自动检索和统计功能,为专业翻译的实证研究提供了坚实的物质基础,使翻译研究实现定量与定性的结合。ECMPC的语言特征是指整体语料在词汇、句法和语篇等层面上所表现出的特征。由于医学类语料在语言表述形式上的学科遵从性,语料的语言特征有其独特之处。这里,我们分别对语料库原语统计特征和词语搭配情况进行考察。
本文所提供的涉及语料库统计特征的相关数值均源自于ECMPC的一个子语料库的英文部分。由WordSmith统计得出子语料库的统计特征(见表3)。
表3 ECMPC子语料库的统计特征
由表3可知,该语料库的标准类符/形符比(standard type/token ratio)为42.14,略高于JDEST的形符/类符比(40.40),表明ECMPC的词汇比JDEST的词汇丰富。这一现象乍一看有些反常,因为JDEST收录了来自天文学、图书馆学、通讯等41个领域的论文,而ECMPC仅仅由医学文本组成。由Wordlist可知,在所有35514个类符中,有17062个只出现了一次,如onychomycosis,zoonsis,yomesan等。可见医学术语比较丰富,而这些词的出现频率又不高。这充分体现了医学文本的特点,即术语多而专。对二语学习者而言,很难将这些术语都记住。普通医学辞典不可能收录如此众多的术语,因此建立在线医学语料库词典势在必行。
ECMPC的平均句长为20.6,低于JDEST的平均句长(25.96)。通过查看原文可知,ECMPC的短语式标题较多,这是缩短句长的主要原因。其二,它包含有不少的短语式句子,使句长明显缩短,例如:
...a combination of the following mechanisms:
Deletion of uridine kinase.
Deletion of nucleoside phosphorylase.
...
同时,我们检查了ECMPC的Wordlist,得出ECMPC中出现频率最高的前10个实词(见表4)。
表4 ECMPC子语料库最高词频实词(前10个)
上面10个实词都与医学有关,尤其是patients,disease,cells,blood,patient,infection和cell是与疾病、治疗直接相关的,即这些词的主要义项与医学直接相关。这些词虽然是医学术语,但又是通用词,经常出现在各种普通文本中。医学文本的特征是这些词出现的频率极高。patients/patient是医学治疗的对象,disease是医学存在的原因,而blood,cell(s)和infection则是医学研究的对象。相较这些词而言,cases,treatment和normal在医学文本中则主要是以其不太常见的义项出现的,体现了词汇义项的窄化(narrowing)。如cases最常见的义项为“情况”,而在医学文本中则以“病例”的义项出项。treatment常见义项为“对待”,医学文本中义项为“治疗”。
normal一词在ECMPC中涉及“生命体征”的有下列表述:Vital signs were normal“生命体征平稳/未及异常/正常/无异常”。而《英汉大词典》(陆谷孙1993:1231-1232)所列的相关义项仅显示为:“【医】【心】精神(或身体、智力等)正常的”。显而易见,从语料库中检索出的normal一词的义项更为丰富。继续查看Wordlist,可以发现此类词汇很多,如management一词,《英汉大词典》中与医学相关的义项为:“【医】(疾病等的)处理(法)”。从ECMPC中检索出的义项为:“处理,治疗,予以,疗法,管理”等。又以administration一词为例,《英汉大词典》中与医学相关的义项为:“(药的)配给;服法,用法”。从ECMPC中检索出的义项则包括:“给药,治疗,服用,给予,应用,使用,投入,补充,输(入)”等。
以表4中的实词为例,从词语搭配角度来考察ECMPC中代表性句式的表现,会发现词语搭配明显受到语域的影响,反映了不同语域中词语使用的特点(杨惠中2002:105),其检索结果可分为活跃与不活跃搭配两种:
活跃搭配为:
•在医学领域里,patient是常见词。若要表达“某种疾病的患者”,通常采用patient(s) with(疾病名称)的搭配(杨惠中2002:105)。这一点与ECMPC中的句式表现相吻合。
•与disease搭配的形容词主要有active,acute,chronic,common,infectious,malignant,serious,severe,systemic等,用以表示疾病的性质;搭配的动词主要有cause,develop,spread,transmit等,用以表示疾病的产生或发展情况。
•与blood进行搭配的主要是些名词,可分为3类:一是表示医学物理现象,如loss,concentration,pressure,stream/flow,supply,volume等;二是表示人体的医学名称,如brain,glucose/sugar,vessel等;三是表示医学操作,如culture,transfusion等。
•infection的搭配非常活跃。与形容词搭配时主要用于表示感染程度(heavy,light,mild,significant)、性质(active,chronic,endemic)和部位/位置(facial,nosocomial,systemic);与其搭配的动词有acquire,cause,lead,transmit,spread,suspect等,表示感染的生成、传播、揭示等;与其搭配的名词有area,focus,intensity,source,rate,risk等,表示感染源和程度。
•与treatment搭配的主要是形容词appropriate,conservative,effective,external,medical,special等,表示治疗的方式与合理性。
•normal一词搭配最为活跃,可实现任意形式的搭配,以致无法检索归类。
非活跃搭配为:
•cell(s)一词虽然在表4中位居3和8,但除与red搭配外,无其他明显的搭配表现。
•与case搭配的主要是些数字,因其意为“病例”之故。
虽然ECMPC的建设难度很大,但其研究与实践应用的价值已初现成效。ECMPC的建成不仅为医学英语的教学提供了一个平台,而且还可以在翻译实践中得到应用。同时,这是一次创建专业性语料库的尝试,为同类语料库的建设积累了经验。基于ECMPC的统计结果与初始研究表明:翻译文字量与专业性强弱关系不大;医学中的通用词表现活跃,是学习医学英语的重点,尤其是词语搭配。
Baker M.1993.Corpus linguistics and translation studies: Implications and applications [A].In M.Baker,etal.(eds.)TextandTechnology:InHonourofJohnSinclair[C].Amsterdam/Philadelphia: John Benjamins.233-250.
管新潮.2011.汉译外实践中的平行语料库解决方案[A].孙迎春.2009译学词典与翻译研究文萃[C].上海:上海外语教育出版社.52-63.
管新潮.2008.专业翻译与管理[A].第18届世界翻译大会分论坛论文集——工程翻译与本地化服务[C].上海市工程翻译协会.46-52.
胡开宝、陶庆.2010.汉英会议口译语料库的创建与应用研究[J].中国翻译(5):49-56.
陆谷孙(主编).1993.英汉大词典(第1版)[Z].上海:上海译文出版社.
孙迎春.2011.2009译学词典与翻译研究文萃[C].上海:上海外语教育出版社.
王克非.2003.英汉/汉英语句对应的语料库考察[J].外语教学与研究(6):014-614.
王平庚.2008.信息化时代的翻译与本地化服务[A].第18届世界翻译大会论文集[C].北京:外文出版社.7-12.
熊秋平、管新潮.2011.基于工作研究的语块提取系统PhrasExt软件设计[J].工业工程与管理(1):14-117.
杨惠中.2002.语料库语言学导论[C].上海:上海外语教育出版社.
庄智象.2007.我国翻译专业建设:问题与对策[M].上海:上海外语教育出版社.