王连柱
新乡医学院外语系, 河南 新乡 453003
汉英平行语料库的构建及其在医学文献翻译教学中的应用
王连柱
新乡医学院外语系, 河南新乡453003
语料库尤其是平行语料库已成为翻译教学不可或缺的辅助工具。该研究阐述了医学文献汉英平行语料库的总体设计、语料选择和建设流程,以及汉英平行语料库在医学文献翻译教学实践中的应用。翻译课堂中,运用平行语料库和类比语料库进行探究式、启发式教学,例如对词语搭配、翻译中的略译现象进行体验式教学,有助于培养学生自主解答翻译问题的能力。随着语料库的不断丰富和检索工具的不断完善,相信它们在辅助翻译教学实践中将发挥更大的作用。
平行语料库;检索工具;医学文献;翻译教学
语料库是一个将真实情况下使用的海量语言信息经过科学收集和组织而集成的专供研究使用的资料库。如今人们谈到语料库时,指的往往是由若干文本组成的“电子文本集”,实际上,一个小型电子文本集并不能算得上真正意义上的语料库。真正意义上的语料库是“按照一定的的采样标准采集而来的、能够代表一种语言或者某语言的一种变体或文类的电子文本集”[1]。随着计算机和网络技术的发展,电子文本的收集、机读语料库得到了迅猛发展。自20世纪60年代中叶世界上第一个机读语料库布朗语料库(brown corpus)开始,机读语料库经历了20世纪和21世纪5个阶段[2]的发展,语料库的库容规模越来越大,从100万词发展到千万词和上十亿词,甚至可把整个网络作为语料库(web as corpus),因而出现了“栅极”(grid)的说法[3]。除了规模不断扩大之外,语料库朝着深化加工、不断拓展新研究领域的方向继续发展。其中一个重要的表象就是平行语料库的建设和研究,它代表了当今基于语料库方法进行语言对比研究、翻译研究和外语教学研究的发展趋势[4]。
“平行语料库”(parallel corpora)是指使用两种及以上语言撰写、相互间存在“翻译关系”的文本集[5]。它收集的文本有别于“可比语料库”(comparable cor- pora)中的文本。后者收集的文本针对同一主题,如学习者产出的语言与本族语者产生的语言,但相互之间却不存在直接的“翻译关系”[5]。平行语料库用于探索“同一内容是如何用两种语言表达的”[6]。但是,如果要辨别一种语言表达是否地道(如二语或外语学习者产生的语言),还要对比本族语者产生的语言,这样可以避免语言表达中的“翻译腔”[6]。因此,平行语料库和可比语料库对翻译和语言对比研究价值颇高,扩展了研究问题的范围:①便于从语言对比中深入了解所对比的语言,而这种了解往往容易在研究单语种语料库时被忽略;②通过一系列比较,揭示语言的共性以及某语种所特有的、语言类型与文化上的差异;③揭示原文与译文、母语与非母语之间的差异;④用于诸多实际应用,如词典编纂、外语教学和翻译[6]。同时,采用数据驱动的教学法,学习者从平行语料库中能自主发现母语与目的语在语法结构、词汇和语言使用上的差别,提升对母语和目的语的认知度。随着平行语料库的研制和完善,基于语料库的方法论体系必将成为翻译研究和语言对比研究的主流[7]。
20世纪90年代开始,随着从事语言对比研究和翻译研究的学者对平行语料库重要性的逐渐认识,英国、挪威等欧洲国家的研究机构和大学已相继建立各种双语甚至多语平行语料库,如欧洲议会平行语料库(european parliament proceedings parallel corpus 1996—2011)、加拿大议会会议记录英法平行语料库(the can- adian hansard corpus)、克姆尼茨英—德翻译语料库(che- mnitz E-G translation corpus)、德—英文学文本平行语料库(GEPCOLT)、英语—挪威语平行语料库(ENPC)、英语—瑞典语平行语料库(ESPC)、英语—意大利语双向平行语料库(CEXI)、葡—英双向平行语料库(com- para),等。我国也大力开发和建设平行语料库,如1998年哈尔滨工业大学建成的容量3万字词的英汉双语语料库、北京大学计算语言学研究所双语语料库、东北大学英汉双语语料库、外研社英汉文学作品语料库、冯友兰《中国哲学史》汉英对照语料库和李约瑟《中国科学技术史》英汉对照语料库、国家语委语言文字所英汉双语语料库、中科院软件所英汉双语语料库和中科院自动化所英汉双语语料库,等[8]。北京外国语大学中国外语教育研究中心王克非教授主持和研制的北外“通用汉英对应语料库”是目前世界上最大的双语平行语料库,目前容量为3 000万字词,并在进一步建设中。此语料库的建库理念是“语言与翻译研究并重”“可应用于语言研究、翻译研究、教学研究、双语词典研编,等”[9]。南京国际关系学院李德俊教授主持研制的“英汉平行语料库”容量为对齐语料2 000万词次(以汉语计算),采用句对齐为主、段落对齐为辅的原则,文类主要有散文、小说、时文、政论文、百科知识五大部分,可用于双语词典编纂、汉英对比研究、翻译教学和实践等领域[10]。
通过文献回顾可以看出,国内汉英/英汉平行语料库的建设主要涉及文学翻译语料库(特别是英汉名著语料库)的建设和专业翻译语料库的建设,其中,专业翻译语料库的建设主要涉及军事语料库、旅游语料库和外宣翻译语料库,等,极少涉及医学平行语料库的建设。国内讨论英汉医学平行语料库最早的是管新潮和胡开宝,等,其合作论文阐述了英汉医学平行语料库的创建与初始应用研究[11]。该论文主要介绍了英汉医学平行语料库的设计、创建、特点和初始应用。陈潇潇和葛诗利开发了医学著作英汉双语平行语料库,语料为上海科学技术出版社出版的英汉对照医学读物,实现了句级对齐,规模为263万字词[12]。与上述两个语料库不同,该研究将建设一个医学文献汉英平行语料库,用于对医学翻译语言进行对比分析,并应用于医学文献翻译课堂以及学生的自主性、探索式学习。
2.1医学文献汉英平行语料库的设计
医学文献汉英平行语料库从性质上来看属于专门语料库的范畴。它将由一个英汉双语医学文本翻译对应语料库(parallel corpus,PC)和一个英语单语文本医学文本类比语料库(comparable corpus,CC)组成(如图1所示)。PC包含汉语原文文本和英语译文文本两个子库,类比语料库收录的是以英语作为本族语者产出的医学文本。
图1 医学文献汉英平行语料库结构图
PC部分收集为汉英对照语料库,因此两个子库同步建设。汉英语料涵盖医学(西医)主要学科,基础医学和临床医学皆包含在内,要尽量实现各学科文本的平衡,使语料库更具代表性,更全面地反映医学学科的全貌。语料来源包含医学教材汉英对照版、医学论文摘要汉英对照版、医学论文标题汉英对照版,等。
CC为单语语料库,主要用于对比分析,需要收集由英美本族人撰写的医学专业书籍、论文,等。为了使CC语料库和PC英语译文语料库更具可比性,CC语料的收集应考虑以下三点:①年代对照。CC语料的年代和PC译文部分语料所发表的年代相对照,使得语言的时代风格具有可比性。②媒介形式相同。CC书籍语料对应PC书籍语料库,论文语料对应论文语料,相同语域使语言对比获取的结论更具说服力。③收录完整。保持语料的完整性,以便更全面地观察语言的面貌。
该研究目前将建设一个500万字的语料库群,分三个阶段逐步实现:第一阶段完成中国医学论文汉英标题语料库的建设和英美医学论文英文标题类比语料库的建设;第二阶段完成中国医学论文汉英摘要语料库的建设和英美医学论文英文摘要类比语料库的建设;第三阶段完成中国医学教材汉英对照语料库的建设;最后根据研究需要增加相应分库的规模。中国医学论文汉英标题和摘要选自第七版(2014年)中文核心期刊目录中的医药卫生类核心期刊。医药卫生类核心期刊包含九个分类,在期刊选择中坚持高覆盖率和突出重点的原则标准,既要保证每种分类至少要选择一种期刊,又要保证综合类和主干医学学科类期刊重点关注,相应增加选择的期刊数量。英美医学论文英文标题和摘要选自英美国家出版的影响因子IF(2014年)>4.0的医药卫生类期刊。除去影响因子标准原则外,还要坚持高覆盖率的原则和突出重点的原则,确保9个分类全覆盖,重点关注综合类和主干医学学科类期刊。中国医学教程汉英对照语料库的语料来源于科学出版社出版的《风暴式医学英语教程》系列双语丛书。选择该丛书是因为该丛书覆盖较全面,基本涵盖主要医学学科,且由权威出版社出版。中国和英美医学论文标题和摘要可以分别通过知网和Scopus数据库直接下载,错误率较少,但是仍需要人工校对由于字体编码格式改变导致的错误,等。对于教材类纸质语料或者PDF文件语料库,首先要经过光学扫描和ABBYY等ORC软件识别。为保证语言材料的准确性,需要大量的人工校对。
2.2医学文献汉英平行语料库的建设流程
医学文献汉英平行语料库的建设主要分为五个步骤:①语料的选取。圈定语料选取的范围,结合研究目的,按照随机抽样的语言学原则选取语料。②语料的收集。纸质媒介语料采取光学扫描、ORC软件识别,辅助人工校对的方法收集。而电子文本的收集可以直接保存为TXT文本或者通过文本格式转换软件,将PDF文件转换成Word文本,再转换成TXT文本。③语料的整理。文本降噪,使文本内容规范、格式尽量一致,没有乱码,把空格、空行、怪异的字符都去掉。④语料的加工。文本的分词、标注、源语和目标语文本对齐。⑤语料库扩展。根据研究需要,增加库容。其中的某些步骤可以通过应用软件辅助完成,如ABBYYFineReader、EmEditor、EditPadPro、PowerGREP、ABBYY Aligner、ICTCLAS,等。
自莫娜·贝克倡导将语料库运用于翻译研究[13],在过去的20年里,翻译研究领域的一大进展就是语料库翻译学(也称基于语料库的翻译研究)范式的建立和发展[14]。语料库已成为翻译工作不可或缺的辅助工具,基于语料库(尤其是平行语料库)的研究方法逐步发展成为描写翻译研究的主流。国内外的研究者们已从基于单语文本语料库的一般语言研究转移到基于双语或多语的平行语料库的翻译研究,已经建成多个在学界深有影响的双语、多语翻译语料库、平行语料库和可比语料库,语料库支持下的翻译研究收获颇丰[15]。在翻译教学中利用双语平行语料库,对丰富学生的翻译感受、提高翻译能力、多途径实现翻译转换无疑是非常有益的,是“其他教科书和工具书所不能替代的”[9]。
双语英汉平行语料库及检索工具为课堂翻译教学和翻译课堂自主学习提供了独特的方式。语料库为翻译课堂提供的大量、真实、可靠的语言素材,是传统课堂无法企及的。在翻译教学中,应该改变“讲解—练习—产出”(present-practice-produce)的模式,教师的角色应该从“解释”转向引导学生“探索”,应该给学生更多独立思考的空间。同时,引导他们进行自主性、探索式学习,学生自己提出假说,通过观察语料库提供的语料素材,自主探索词、短语或者句子结构的翻译。
在翻译课堂中,教师可以采取启发式教学模式,按照三部曲“提出问题、探索问题、得出结论”的方式进行。例如在医学论文标题翻译中,经常会遇到“……(的)相关性”为结尾的论文标题(见例1)。就这一结构的翻译,首先提出问题,比如应该选择什么样的结构和词汇以及词汇间如何搭配,等。
例1
汉语标题:非冠心病胸痛患者心外膜脂肪与冠状动脉血流储备的相关性(北京大学学报:医学版,2014,6-1.ZH.txt,line 4)
针对提出的问题让学生自己思考、小组讨论,这样有助于培养学生独立思考的能力。然后在汉英平行语料库中检索“……(的)相关性”结构的索引行(如图2所示)。
检索工具BFSU ParaConc[16]检索到了216例“…(的)相关性”的索引行。通过阅读分析索引行发现,“…(的)相关性”的翻译主要包括“correlation between A and B”,“correlation of A with B”,“correlation with B”,“association between A and B”,“association of A with B”,“association with B”,“relationship between A and B”,“relationship of A with B”,“relationship with B”。
图2 检索工具BFSU ParaConc生成的“…(的)相关性”索引行(部分)
接下来,可以通过类比语料库检索,可以更清楚认识英美本族人对如上英文结构的使用情况(如表1所示)。
表1 9个结构在英美、中国医学论文英文标题语料库中的使用频率
表1是WordSmith[17]生成检索行的数量统计。通过分析统计之后发现,英美医学论文作者更喜欢使用association句型结构,其次是relationship句型结构,排最后的是correlation句型结构;在association的3个句型结构中,“association of A with B”使用频率最高(63次),其次是“association between A and B”(53次)。中国医学论文作者更喜欢使用relationship句型结构,其次correlation句型结构,最后是association句型结构;其中“relationship between A and B”的使用次数高达93次,“correlation between A and B”达到 66次,这两个也是中国作者过高使用(overuse)的结构。比较中国和英美医学论文作者在选择句型结构方面的不同,可以得出,中国作者过分依赖relationship句型结构(132∶27)和correlation句型结构(122∶9),而英美作者以association句型结构为主,使用次数高达137次。因此,中国作者应该多加使用association句型结构,减少relationship句型结构和correlation句型结构的使用频率。
在医学论文标题的翻译过程中,除关注句型结构的选用外,还应力求标题译文准确、清晰和简洁,避免套用汉语标题的模式。汉语论文标题中,以“……的研究”和“……的初探”结尾的标题占了相当大的比例。在进行汉语标题英译的过程中,往往受制于汉语表述的牵制,就把它们直译为“study on”“discussion on”“research on”或者“exploration of”(见例2)。对于有些论文作者和译者而言,如没有表述出“研究”和“初探”,似乎英文标题表述的不够清晰和准确,觉得不像论文标题。其实很多时候,论文标题中的“研究”和“初探”并无承载实际意义,因为论文并不是着重讲述的研究方法和研究过程,因此可以省略翻译,像“初探”和“浅谈”等中国人用于表述谦虚、客套的词语,如果译出,不仅会让读者感觉标题冗长啰嗦、重点不突出,而且更重要的是会让读者感觉研究不够严谨、缺乏系统论证和认知。
例2
汉语标题:负压伤口治疗联合湿性疗法用于交通挤压伤的研究(医学研究生学报,2014,12-9.ZH.txt,line 95)
英文标题:Studyonnegativepressurewoundtherapycombinedwithmoistwoundtherapyfortrafficcrushinjury(医学研究生学报,2014,12-9.EN.txt,line 95)
在翻译教学,尤其是医学论文标题翻译教学中,可以采用上述提到的启发式教学模式,首先观察语言现象,发现问题,最后解读现象或者解决问题。通过观察汉英对照语料可以发现标题翻译中的差异性和相似性。以检索“……的探讨”汉英对齐语料为例,图3显示的是双语语料库检索软件BFSU ParaConc生成的平行对照索引行,阅读这44组索引行会发现,“……的探讨”在有些句子中被翻译了出来,如图3中的第40组,而在大多数情况下都没有被一一对照的翻译出来。
图3 检索工具BFSU ParaConc生成的“…探讨”索引行(部分)
针对上述发现的大多数情况下没有翻译出来而少数情况翻译出来的问题,课堂教学中教师可以给出原因和答案。当然,也可以采用探究式、启发式教学,让学生自己寻找问题的答案,学生带着问题去寻找解决办法,教师可以在技术手段上提供帮助,让学生感觉到“踮踮脚尖可以摘到果子”,完成这个任务不是可望不可及的事情。利用WordSmith语料库检索工具,检索英文医学期刊标题类比语料库,对比“Discussion(s)on”“Study/Studies on”“Research(es)on”“Research (es)of”和“Exploration(s)of”出现在平行语料库和类比语料库中论文英文标题开头的情况。统计后发现中国学者上述翻译分别出现了1次、80次、12次、6次和3次,而英美学者仅仅使用了“Research(es)on”和“Exploration(s)of”两个且分别只出现了1次。
中国学者和译者喜欢使用“…探讨”及对应翻译等自谦性表述,这和中国人谦虚、谨慎的民族性格特征是分不开的。这种性格特征折射在论文写作和翻译中,就是出现自谦式的表达。但是对应英美学者而言,学术论文是基于科学论证的,因此不必要自谦和客套。将这些词译出,反而让人觉得本该简洁、明了的标题过分累赘和冗长。因此,可以采取略译的原则。
基于平行语料库和类比语料库进行探究式教学和学习,有助于提高学生发现问题、解决问题的能力,能让学生更深刻的认识问题及问题背后的深层原因。
该研究在回顾语料库、平行语料库研究的基础上,提出了构建教学用医学文献汉英平行语料库的思路和流程;并通过案例教学,讨论了汉英平行语料库及检索工具与医学文献翻译课堂以及医学翻译自主性、探究式学习中的应用。平行语料库及检索工具为翻译教学改革找到了一条新路径。随着检索工具的不断升级和平行语料库的愈加丰富,相信它们一定会在翻译教学中发挥更大的作用。
[1]梁茂成,李文中,许家金.语料库应用教程[M].北京:外语教学与研究出版社,2010:3
[2]Renouf A.Corpus development 25 years on:from super-corpus to cyber-corpus[A].In R.Facchinetti(ed.).Corpus linguist- ics 25 years on[C].Amsterdam:Rodopi,2007:27-49
[3]桂诗春.语料库语言学答客问[J].语料库语言学,2014(1):1-15
[4]甄凤超,张霞.语料库语言学发展趋势瞻望—2003语料库语言学国际会议综述[J].外语界,2004(4):74-76
[5]Borin Lars.and never the twain shall meet[A].In Borin Lars(ed.).Parallel corpora,parallel worlds.Selected papers from a symposium on parallel and comparable corpora at Uppsala University,Sweden,22-23 April,1999[C].Amsterdam:Rodopi,2002:1-43
[6]肖忠华.平行语料库与可比语料库在语言研究中的应用[J].中国文字学报,2004(4):21-25
[7]蒋婷.论法律语言平行语料库的构建[J].重庆大学学报:社会科学版,2005,11(4):94-97
[8]冯志伟.中国语料库研究的历史与现状[J].J of Chinese Language and Computing,2002,12(1):43-62
[9]王克非.双语平行语料库在翻译教学上的用途[J].外语电化教学,2004(6):27-32
[10]李德俊.英汉平行语料库(PECC)建成[J].外语研究,2008(6):73
[11]管新潮,胡开宝,张冠男.英汉医学平行语料库的创建与初始应用研究[J].当代外语研究,2011(9):36-41
[12]陈潇潇,葛诗利.医学著作英汉双语平行语料库的构建[J].外语艺术教育研究,2012(1):33-36
[13]Mona B.Corpus linguistics and translation studies:Implicat- ions and applications[A].In M.Baker G.Francis and E.Tog- nini-Bonelli(eds.).Text and Technology:In Honour of John Sinclair[C].Amsterdam:John Benjamins,1993:233-250
[14]黄立波,朱志瑜.国内英汉双语平行语料库建构与研究现状及展望[J].当代外语研究,2013(1):45-49
[15]胡开宝,陶庆.汉英会议口译语料库的创建与应用研究[J].中国翻译,2010(5):49-56
[16]Xu J J,Liang M C,Jia Y L.BFSU ParaConc 1.2.1[CP].Nat- ional Research Centre for Foreign Language Education,Bei- jing Foreign Studies University,2012
[17]Scott M.WordSmith Tools V 5.0[CP].Liverpool:Lexical Analysis Software,2008
Construction of Chinese-English parallel corpora and their application to medical literature translation teaching
WangLianzhu
ForeignLanguageDepartment,XinxiangMedicalCollege,Xinxiang453003,China
Corpora, especially parallel corpora, have become an indispensable teaching aid for translation classroom. This research attempts to elaborate the construction of Chinese-English parallel corpora in terms of corpora structure, text selection and construction procedure, and their application to medical literature translation teaching. In translation classroom, appropriate use of parallel corpora and comparable corpora to conduct exploratory and elicitation teaching such as analyzing word collocations and omission can enhance students' ability to solve problems by themselves. It is hoped that parallel corpora may play an increasingly important role in aiding translation teaching with the constant enrichment of corpora and perfection of software tools.
parallel corpora; concordance tool; medical literature; translation teaching
教育部人文社会科学研究青年基金项目“基于历时英汉平行语料库的医学文献翻译研究”(14YJC740084);河南省软科学研究项目“语料库辅助下中原文化外宣翻译语用失误研究”(152400410562);河南省教育厅人文社会科学研究项目“中美医学论文英文摘要N词词簇对比研究”(2017-ZDJH-188)
2016-03-30
王连柱(1981-),男,山东郓城人,讲师,硕士,主要研究方向:语料库语言学,专门用途英语。
G40-057;G642.0
A
1004-5287(2016)05-0613-05
10.13566/j.cnki.cmet.cn61-1317/g4.201605033