中药汉英双语平行语料库的设计及构建

2014-03-10 04:06兰彩玉
亚太传统医药 2014年8期
关键词:汉英语料平行

兰彩玉

(广东药学院 外国语学院,广东 广州 510006)



中药汉英双语平行语料库的设计及构建

兰彩玉

(广东药学院 外国语学院,广东 广州 510006)

双语平行语料库的构建为当前翻译研究的一个新热点,同时是ESP翻译研究的新视角。介绍了语料库翻译研究方法,通过分析中医药英语语料库的研究现状阐述了构建中药汉英平行语料库的重要性及必要性,并就语料库构建的具体步骤——语料库的设计、语料的选择、语料的采集和加工以及双语语料库的平行等进行了详细描述。

平行语料库;中药英语;中药汉英平行语料库

随着中医国际化的发展,人们逐渐认识到中医药翻译的重要性,从中医最初于17世纪(明代)被介绍到西方,翻译作为两种文化交流的媒介,其发展状况便对中医的国际化水平起着至关重要的作用。因此目前对中医药翻译的实践和研究均日益蓬勃,而相关的双语平行语料库建立将无疑为中医药翻译实践和研究提供新的平台和视角。

1 平行语料库——翻译研究新视角

语料库是为了某一特定的目标,按照明确的设计标准而收集起来的电子文本库。凭借计算机的强大检索和统计功能,通常可以发现和解释用常规方法无法解决的问题。语料库语言学的三大功能为:检索(concordance)用于查询和统计某个或某些词汇或短语在指定文本中出现的频数;单词列表(wordlist)用于创建语料库中词汇使用频率列表,确定哪些词汇或词块最常用,哪些相对比较少用;主题词(keyword)用于研究文本内容和文本语言特征差异,为语言学研究开启了全新的视角[1]。

翻译研究的描述性研究理论和方法为语料库研究融入翻译研究奠定了基础。Laviosa指出:“语料库研究从90年代初期已经彻底融入翻译研究,不止如此,随着语料库研究的迅速发展,它对我们的翻译思维、学习和教学方式也产生着巨大的影响[2]”。自此语料库语言学已从基于单语文本的一般语言研究发展到基于双语或多语的平行语料库的翻译研究。欧洲学者已建立了多个平行语料库进行翻译研究,其中伯明翰大学的图伊波特(Wolfgang Tuibert)和曼彻斯特大学的贝克(Mona Baker)已开始基于平行语料库的英汉互译研究,香港大学进行了基于平行语料库的英汉法律术语翻译研究,北京外国语大学的王克非等人[3]开始了基于平行语料库的文学翻译研究等。

译学语料库是指专门为翻译学研究而建设的语料库,有平行语料库(parallel corpus)和可比语料库两种,其中平行语料库是收集某种语言的原创文本和另一种文字的翻译文本[4],是语料库翻译研究中比较适用且常用的一种。平行语料库的最大特点是平行语料的对齐,即“源语文本和目的语文本在具体单位之间的对应关系或翻译关系”[5]。因此其最大的优势在于能够将源文本与其译语文本进行对照检索并显示,通过分析对比两种文体在词汇、句子和文体上的差异,可以研究译者所采取的翻译策略和方法,探讨翻译转换规律,便翻译研究从规约性研究向描述性研究过渡。同时平行语料库的构建还将翻译研究从最初的直觉式形式变为具体可操作的研究模式;将小规模的、人工的、只针对两种语言并且局限于个别文本类型的研究变成大规模、系统的、比较性的和目标明确的研究。这必将为语言对比研究和翻译研究提供新的视角,同时为外语教学课程设计、教科书、参考书以及双语词典的编撰提供详实的素材并改进教学方法,提高翻译的水平和质量。

2 中医药语料库研究现状

自20世纪60年代,传统的EGP(English for general purposes)为主的模式开始向ESP (English for specific purpose) 转变,语料库构建方面也从通用型转往ESP型,如1987年中国石油大学建设的广州石油语料库,20世纪90年代以来广州外语外贸大学与香港科技大学共建的科技英语语料库等。

中医英语( ETCMP)作为ESP的一个分支,目前利用语料库对其进行的研究也不乏其数,但大多数为单语语料库的构建研究,如刘耀、周扬[6]探讨了中医药古文献语料库词语标识标准,对中医药英语语料库的词语标识起到了很好的借鉴作用;闻永毅、樊新荣[7]分析了中医英语特点,强调语料采集时应考虑中医英语语料时间跨度;薛学彦[8]则分析了中医英语语料库在语法研究、词典编写和词汇率信息等方面的建库意义,同时在语料收集、标注、检索软件的选择等方面阐述了建立中医英语语料库的方法;倪传斌[9]在“中医英语语料库的建库原则” 中从语料库的用途、语料的代表性、语料库的结构与容量、采样方法等几个方面提出了具体的实施原则;另外还有一些从中医英语语料库对教学的意义方面着手的研究,如“浅谈中医英语语料库及其教学意义”、“基于语料库和多媒体计算机技术的中医翻译教改的尝试”等。

从国内研究现状来看,中医药英语语料库研究受到越来越大的重视,在建库意义、语料采集、标注、应用等方面均有详细阐述,但用于中医药翻译的中医药双语平行语料库方面的研究相对滞后贫乏,目前主要有南京中医药大学施蕴中[10]的“黄帝内经” 汉英语料库建设研究。另外还有陈滟、施蕴中[11]提出的中医英语汉英口语语料库的建设,但我们注意这两个汉英语料库都没有做到平行对齐,目前只是将汉英语料汇总而已。而在中药方面,目前则并未出现过专门的英语语料库,只是在中国药科大学的药学英语语料库中含有一小部分内容[12],而对中药翻译研究有着重要意义的中药汉英双语平行语料库方面的研究更是尚未涉足。中药学作为中医的一个重要分支,具有不可或缺的地位,因此笔者认为构建一个中药汉英双语语料库势在必行。

3 中药汉英双语语料库的构建

中药汉英双语语料库的构建一方面可满足当前大规模的翻译之需,另一方面可对中药英译的各方面研究提供客观、真实、生动的数据;同时也可应用于中药学教学课程设计及与中药名相关的教科书、参考书及双语术语词典的编撰等工作,因此建立一个适用的中药汉英双语语料库具有重大意义。

双语语料库的构建是语料库翻译学研究至关重要的第一步,主要有以下几方面的工作:语料库的设计、语料的选择、语料的采集和加工以及双语语料库的平行等。

3.1 语料库设计

语料库的设计是指对语料库进行总体建设规划,包括明确语料库的建库目的、建库意义和语料库的类型,确定语料库的规模和结构,并决定语料加工的程度等。本语料库的建库目的和意义已经非常明确,即主要为中药的英语笔译研究和教学所用。语料库的建设目的在很大程度上决定了语料库的类型、规模、结构和加工程度[13]。因此本语料将建成的汉英双语平行语料库的类型、规模则主要取决于中药学本身学科的分类情况,拟依照学科分类将语料库分为7类,即中药学原理、中药鉴定学、中药方剂学、中药药理学、中药炮制学、中药化学及中药学其他学科等,所占比例如下:中药学原理20%、中药鉴定学20%、中药方剂学20%、中药药理学10%、中药炮制学10%、中药化学10%、中药学其他学科10%。

语料的加工主要是语料的平行对齐和标注处理等。平行语料对齐分为段落对齐和语句对齐两种。为研究便利,本库拟做到语句对齐。标注工作则主要在篇体信息标注方面,标注所属分科目、译者、出版社及出版时间等。

3.2 语料选择

语料的选择直接影响语料库的代表性和可信性,国内学者柏晓静等[14]指出在选择语料时需考虑两个因素,即语料库的应用目标和原始语料本身的质量。笔者认为双语语料库语料的选择则应特别考虑译文文本的质量和影响力,同时注意文本的获得渠道、译者及出版或发表时间等。为确保本库语料的代表性,我们选择的语料必须涵盖中药学的几个重要领域,同时能够尽可能地反映中药英语的真实性。因此我们选择的语料主要是三套不同正规权威出版社出版的相关汉英双语的学术刊物、教科书及科普读物等。

3.3 语料采集

语料采集是指将书面语料和口语语料以电子文档的形式储存在电脑中。本库涉及的是书面语料,采集方法有三种,即人工输入、扫描输入和利用现有电子文本。由于正规权威中药双语电子文本比较难以获得,因此本库的语料采集第一步主要为印刷版书籍,拟采集三套共21本中药英汉书籍,我们采纳的方法为扫描输入法。首先利用扫描仪 OCR 技术识别英汉语文本,然后将识别后的文本保存为 Microsoft Word 2003 文档。每本书保存为一个 Microsoft Word 2003 的“. doc”文件,共计21个文档。为保证语料的正确性,我们对扫描后的文档错误进行人工除噪,并进行至少两次人工校正。

3.4 语料加工及对齐

语料的加工是语料库系统性构建中的一个重要环节。语料的整理加工一般是分词和标注并最终达到平行对齐的效果。双语语料的平行对齐是指将源语语料与目的语语料在篇章、段落、词句或词汇四个层面建立对应关系。我们首先要做的是实现语料的篇章、段落对齐。但鉴于我们的语料为一本双语书籍扫描为一个word文档,一个文档中往往包含了中英文两种文体,因此首先要做的是对汉英语文本进行切分及汉英语料分存。

汉英语文本的切分工作将采纳陈潇潇、葛诗利[15]的做法,而语料的标注采纳的是柏晓静等介绍的XML标记集。首先将所有的word文档格式转换为txt文本格式,之后利用Python程序,从每个文件中识别和提取英语和汉语文本,每个段落保存为一行,段落与段落之间保留一个空行,并且在行首和行尾添加段落标记“

”。 同时赋予该标记一个属性 id,表示段落的编号,取值范围为1~n,n 是文件的段落总数。最后,将整理得到纯文本格式的篇章级对齐单位21个,每个篇章级对齐单位中的原文文件与译文文件的翻译关系用相同的文件名即书名来体现,但附加不同的文件名后缀:原文文件为S,英语文件为T。篇章级对齐单位的基本属性,即书籍的出版信息、作者、译者等都在其原文文件和译文文件中采用XML标记“”标记出来。根据陈潇潇等[15]的介绍,程序可以自动识别匹配绝大部分汉语段落与相应的英语段落,同时给予同一属性id号码。只有少量不对等的多段落汉语和英语文本,程序无法识别并报告异常,这时需要人工检查,视情况拆分汉语或者英语段落,做到1∶1段对齐。

接下来要做的是实现句级层面对齐,因为目前软件的开发上并没能实现短语或词汇的相互对应,一是因为汉英语言结构本身的巨大差异,另外便是在翻译过程中译者往往灵活处理,并非一一对应,因此计算机难以做到自动识别。而目前双语平行语料的对齐基本上都在句级别上,而且句子对齐的平行语料库已经具有相当大的利用价值,为翻译研究和教学、双语词典的编撰提供了大量科学的数据。早在2002年柏晓静等便已开发出实现句级对齐的软件,也就是在段落对齐的基础上,进一步进行基于句长的句子对齐。自动对齐前,可对一本书籍的部分抽样语料人工对齐,调查本书籍英语单词与汉语汉字的比例如1∶1.7左右,然后利用程序对齐时,对该本书籍设定合理的参数。陈潇潇等[15]指出如果遇到英语和汉语句子长度比例超过设定阈值时,尤其是非一对一的对齐匹配时,程序暂时终止运行,人工介入,检查核实该句的情况,确保对齐准确,必要时人工调整对齐顺序,然后继续运行程序,完成整本书的对齐。英汉语句子对齐后,同样在句子边界采用 XML 格式进行标记。具体操作方法参照柏晓静等的论文:句子级对齐单位(记作AS):一个句子级对齐单位是一个二元组,记作AS=,其中Si由一个或多个自然的句子组成;Ti由一个或多个自然的句子组成。Si与Ti之间具有“翻译关系”。标记嵌套在标记内部,标记又嵌套在

标记内部。为了保证语料句子对齐的质量,人工辅助的计算机对齐语料仍然需要人工校对至少一遍以上。

语料的平行对齐处理完之后,中药汉英平行语料库的创建工作基本完成,后续的研究工作是选择一个合适的相关检索分析软件,从不同角度对语料进行数据分析(如ParaConc, Antcorc 或Wordsmith等),为中药的英语翻译研究及教学提供了一个新的平台和视角。

4 结语

双语平行语料库的构建为当前翻译研究的一个新热点,同时也必将为ESP翻译研究提供新的视角。本文简单介绍了语料库翻译研究方法,通过分析中医药英语语料库的研究现状证实构建中药汉英平行语料库的重要性及必要性,并对语料库构建的具体步骤——语料库的设计、语料的选择、语料的采集和加工以及双语语料库的平行等进行了详细介绍。建库之后将开展一系列基于语料库的中药翻译研究,中药英语教学研究必将为提高中医药英语的翻译水平以及改善中医药英语教学添砖加瓦。

[1] 何安平.语料库辅助教学英语入门[M]. 北京:外语教学与研究出版社,2010:12.

[2] SARA LAVIOSA.Corpus-based translation studies:theory,findings,applications[M].Amsterdam:Editions Rodopi B.V.,2002:1.

[3] 王克非.双语对应语料库研制与应用[M].北京:外语教学与研究出版社,2005:12.

[4] MAEVE OLOHAN.Introducing corpora in translation studies[M].London and New York: Routledge Taylor & Francis Group, 2004: 25.

[5] 胡开宝.语料库翻译学研究导引[M].南京:南京大学出版社,2012:45.

[6] 刘耀,周扬.中医药古文献语料库词语标识标准探讨[J].中国中医药信息杂志,2002,9(3): 85-87.

[7] 闻永毅,樊新荣.医英语语料库建设可行性探讨[J].上海中医药杂志, 2003,37(4): 45-46.

[8] 薛学彦.医英语语料库建设的设想[J]. 广州中医药大学学报, 2004, 21(6): 482-485.

[9] 倪传斌.医英语语料库的建库原则[J].上海中医药大学学报, 2009,19(3):5-6.

[10] 李苹,施蕴中.料库语言学和《黄帝内经》汉英语料库[J].中国科技信息,2009(2):259-261.

[11] 陈滟,施蕴中.语料库语言学和中医汉英口语语料库[J].江西中医学院学报,2005, 17(5):67-69.

[12] 路露,张桂军.药学英语语料库的构建及其应用研究[J].今日药学,2010,20(11):63-66.

[13] 胡开宝.语料库翻译学研究导引[M].南京:南京大学出版社,2012:46.

[14] 黄河燕.2002 全国机器翻译研讨会文集:机器翻译研究进展[M].北京:电子工业出版社,2002:124-131.

[15] 陈潇潇,葛诗利.医学著作英汉双语平行语料库的构建[J].外语艺术教育研究,2012(1):33-36.

(责任编辑:尹晨茹)

Designing and Building of Bilingual Chinese-English Database of Traditional Chinese

Lan Caiyu

(College of Foreign Languages,Guangdong Pharmaceutical University,Guangdong 510006,China)

Parallel corpus has made great influence on language studies and translation studies, and it is also a new perspective for ESP translation studies. This paper starts with an introduction to parallel corpus. On analyzing the status of CTM English corpus, it is necessary to construct a CTM Chinese-English Parallel Corpus. Finally, the paper makes a detailed study on the steps of constructing a CTM Chinese-English Parallel Corpus.

Parallel Corpus; CTM English; CTM Chinese-English Parallel Corpus Construction

2013-10-05

2013年广东省高等学校学科与专业建设专项基金科研类项目(2013WYXM0064)

兰彩玉(1978-),女,广东药学院外国语学院讲师,研究方向为翻译理论与实践。

H09

A

1673-2197(2014)08-0001-03

猜你喜欢
汉英语料平行
向量的平行与垂直
平行
基于归一化点向互信息的低资源平行语料过滤方法*
逃离平行世界
A Chinese-English List of the Sports Programmes in Winter Olympics 冬奥会项目名称汉英对照词表
汉英倍数表达形式比较及其类型学考察
再顶平行进口
汽车德汉英图解词典(五)
《苗防备览》中的湘西语料
国内外语用学实证研究比较:语料类型与收集方法