陈伟
摘要:双语平行语料库是专门用途英语(ESP)翻译研究的新视角。本文以陇药10种大宗道地中药材为研究对象,收集权威出版物关于陇药的中英文对照文献,建立大型陇药汉英平行语料库,并就该库构建的具体步骤——语料库的设计,语料的采集、加工、平行对齐和检索等进行了详细分析,可为中药英译提供参考。
关键词:陇药;平行语料库;中医英语;语料库建设
DOI:10.3969/j.issn.1005-5304.2017.04.003
中图分类号:R2-05 文献标识码:A 文章编号:1005-5304(2017)04-0009-04
Study on Construction of Chinese-English Parallel Corpus in Gansu Chinese Materia Medica CHEN Wei (Foreign Language Department, Dingxi Teachers College, Dingxi 743000, China)
Abstract: Bilingual parallel corpus is a new perspective of English for Specific Purposes (ESP) translation studies. This article set 10 kinds of Gansu genuine bulk Chinese materia medica as the research objects, and collected Chinese-English data about Gansu Chinese materia medica in the authoritative publications for the establishment of English-Chinese parallel corpus on Gansu Chinese materia medica. This article also analyzed the construction concrete steps in detail - corpus design, data acquisition and processing and bilingual corpus parallel and so on, and provided references for English translation of Chinese materia medica.
Key words: Gansu Chinese materia medica; English-Chinese parallel corpus; TCM English; corpus construction
中医英语是英语语言在中医药对外翻译与交流过程中逐渐形成的一种独特的英语表达体系。在中医国际化进程中,中医药翻译的重要性日益凸显,其质量在一定程度上影响中医药在国际上的认可及推广程度。甘肃中药材资源丰富,其大宗道地药材通称陇药。陇药是甘肃物质文化的重要组成部分,在华夏文明传承创新区的建设中,相关翻译不仅是对外传播中医的重要渠道,也是传承文化的桥梁,但目前陇药英译良莠不齐。为此,笔者将语料库数据驱动技术引入相关翻译,建设陇药汉英平行语料库(English-Chinese Parallel Corpus of Gansu Medicine,ECPCGM),为陇药英译提供参考。
1 研究现状述评
1.1 平行语料库
随着专门用途英语(ESP)的发展,专门用途平行语料库也得到相应发展。中医英译研究引入语料库数据驱动技术的设想肇始于21世纪初,目前呈现零星发展态势。中医英汉平行语料库的研究经历了2个阶段。一是设想阶段(2003-2009年),学者从宏观方面提出了建库设想和理论原则。闻永毅[1]提出中医英语语料库建设构想及意义,并一直致力于《黄帝内经》语料库研究;薛学彦[2]从建立中医英语语料库设想方面提出建库方案;倪传斌[3]从中医英语语料库建设原则方面解析了具体实施方法。但这些研究并不能直接指向实践。二是创建阶段(2009年至今),学者提出了建立中医平行语料库细节问题及解决方案。管新潮等[4]开始了英汉医学平行语料库的创建与初始应用研究,兰彩玉[5]则设计并构建中药汉英双语平行语料库。另外,兰凤利等[6]基于自建的中医典籍汉英双语语料库,分析了“经络”与“脉”的翻译,认为“vessel”指人体内三维的管道,是对“经脉”的恰当译语。蒋明佳[7]以人民网英文版为语料来源,建立“中医药英文报道专门用途小型语料库”,分析了中医药对外报道,指出中医药对外英文报道应以中医药历史文化为核心。这些研究拓展了中医典籍翻译的研究视野,深化了中医典籍翻译研究。然而,以上研究是以中英文著作为范本进行研究,选料单一,研究面窄且不够深入,尚未建成实现网络检索的中医典籍汉英语料库。此外,2013年和2014年的国家社会科学基金指南仍有平行语料库创建和应用项目,表明平行语料库的创建和应用还不太成熟,中医药平行语料库也不例外。
1.2 陇药对外宣传英译研究
甘肃是全国中药材优势主产区之一,人工种植面积位居全国第三,中药材品种丰富,质地优良。现有药用品种1527种,2012年甘肃省将当归、白条党参、纹党、黄芪、红芪、大黄、柴胡、甘草、板蓝根9种药材确定为甘肃道地大宗中药材,包括半夏在内,业内有“十大陇药”之说。为实现把陇药产业做大做强的目标,甘肃省制定了《甘肃省“十二五”陇药产业发展规划》(甘政办发〔2011〕181号),提出拓宽营销领域,鼓励和支持陇药企业开拓国内外消费市场。
然而,中国知识资源总库(CNKI)中尚未有陇药的翻译研究。相关内容仅散见于药店的说明书、土特产店中药饮片及制品的产品介绍,且存在问题较多。①译文频繁出现中式英语及毫无意义的字面翻译等。如甘肃岷海制药有限责任公司生产的消炎退热颗粒(Xiaoyan Tuire Keli)、杜仲壮骨胶囊(Duzhong Zhuanggu Jiaonang)、五味子颗粒(Wuweizi Keli)、小柴胡颗粒(Xiaochaihu Keli)和丹参颗粒(Dan shen Ke Li)。这种全用汉语拼音的翻译方式不伦不类。原因是译者或英语功底欠佳,或對中医药知识知之甚少。②有些是“印象式”(impressionistic)、“随感式”(essayistic)翻译,有失严谨。因中医知识匮乏而导致的错误翻译,如把“板蓝根冲剂”译为“Radix Isatidis Lotion”。lotion指外用洗剂,属不溶性药物,不能内服。内服冲剂应译为“dissolvable powder”或“drink”。③中医术语翻译领域缺乏统一标准规范。如黄芪,在英文中就有astragalus、astragalus membranaceus、radix astragali及huang qi等多种翻译,其主要原因是翻译原则方面的学术分歧[8]。endprint
2 构建语料库依据
语料库是指在随机采样基础上收集到有代表性的真实语言材料集合,是语言运用的样本。基于语料库的翻译研究也称语料库翻译学,是以语言理论和翻译理论为指导,以概率和统计为手段,以大规模双语真实语料为对象,采用语内对比与语际对比相结合的方法,对翻译现象历时或共时描写和解释,探索翻译本质的一种翻译学研究方法。语料库具有强大的检索功能,可以利用语言频率的统计概率计算出高频词和低频词。因此,如果把某个中医药术语输入ECPCGM,可通过ECPCGM及其检索工具对词频进行搜索,选择词频最高的翻译版本作为翻译参考。从双语文本“共现”(coexistent)中,可发现最易被人接受的词与词的搭配形式,对语法研究和词汇在语言中的使用转向做了语域再现式的翻译实例和量化数据,从而提高翻译的可信度。中医语言具有辞简、文约、言炼等语言美学特点,如“滋阴补阳”这类具有特定文化信息的词,ECPCGM可提供具体语境,突破单句层面上词对词的翻译,使释义更准确。
3 建立语料库的基本思路
3.1 总体设计
研究目的决定语料库的采样,建立ECPCGM的目的是客观描述、考察中国学者对陇药英语研究所表现出的总体特征及陇药翻译过程中呈现的共性特征。语言本身是动态发展的,笔者通过初建一个50万字容的ECPCGM,其他研究者可随研究的进展,添加适合的语料对该库进行更新扩容。ECPCGM的建设过程包括总体设计、框架设计、语料采集、语料导入、双语对齐、语料校对和语料优化管理等步骤,见图1。
ECPCGM包含2个一级子库。①著作类:选取上海中医药大学出版社出版的新编实用中医文库《中药学》、人民卫生出版社出版的《中医基本名词术语中英对照国际标准》、广东科技出版社出版的《中国中草药图典》和上海浦江教育出版社出版的《方剂学》4种英汉对照医学教材和专著;②电子类:搜集CNKI等数据库中甘肃道地药材中英文论文摘要和论文。另下设10个二级子库(5万字/词),内容涉及10大陇药的植物学特征、生物学特征、生境和主产地、性味与归经、功能与主治和现代药理研究6个方面。子库可分可合,便于研究。
3.2 建库步骤
3.2.1 语料采集 ECPCGM按照语料的典型性、代表性、权威性和可行性标准,语料取材于公开发行的图书、电子版论文等。图书类语料选取上文提到的4部教材和专著,其内容均是英汉一一对照文本,全部由国内中医药院校的著名学者翻译,能够代表中国学者中药英译的最高水平。电子版论文语料取自CNKI学术核心期刊有关陇药的中英文论文摘要和论文等。
3.2.2 语料整理和加工 语料的加工是语料库系统性构建中的一个重要环节。该过程含3个步骤,即原始语料的采集、标注和对齐。第一步把采集到的双语对照文献,经过良田高拍仪S800扫描,用OCR文字识别转换成word,辅以人工校对消除文本中错误信息,运用Pre Encoder对原始语料进行初步整理、去除噪音等预处理,将其变成可机读的txt文本。第二步对生语料进行加工,即标注,使生语料变成熟语料,便于检索和进一步研究。采用语料库构建流程的简要XML标记集。文献信息标注以开头,以结束,注明语料类型
…,同时赋予段落的编号ID。借鉴兰彩玉[5]的做法,英汉语句子对齐后在句子边界采用xml格式标记,句子以开始,以结束,1个句子级对齐单位是1个二元组,记作AS=…标记嵌套在…标记内部,…标记嵌套在
…标记内部,并人工辅助对齐。
3.2.3 语料入库和组织 对齐后的语料需要通过语料库索引,从而构建成一个整体。索引结构是语料库的组织方式,也是语料库检索和应用的基础。可利用CUC Paraconc填写每一文本信息,建立文本信息数据库、单语索引和双语索引的结构,方便以后进行检索。命名要有规律,文件名由“前缀+文件名”两部分组成,前缀可以自己定义,文件名和后缀名一定要一致,如中文文件名“ch-testX.txt”,英文文件名“en-testX.txt”,ch-是中文前缀,en-是英文前缀,testX是文件名,X取值范围为1~n,txt是后缀名。存贮采用tmx格式的xml标记语言,统一码用UTF-8编码,以便存储与检索。双语保存在一个文本中,也可双语分开存贮在2个文本中。对双语保存在一个文本中的平行语料,软件能自动识别4种对齐形式,即汉语在前、汉语在后、汉语整体在前、汉语整体在后,也可把4种形式的文本混在一起检索。
3.2.4 语料检索 语料库检索工具很多,常用的共享软件如Free Text Browser、Web Concordance、Word Smith Tool 4、Concordancer等,可根据需要选择使用检索软件。笔者使用中国传媒大学研发的免费绿色双语检索软件CUC_ParaConc作为检索软件。软件默认一对一平行语料检索,其标签下有3个子标签:调入语料及设置检索参数、检索中英对齐语料、正则式检索。首先选择所要检索的txt文本目录,可检索目录下所有文件夹和子文件夹中的对齐文本。单击源文本目录右边的按钮,选择目录,软件会自动生成“保存目录”,默认是在软件同一目录下自动创立一个“ParaResult”文件夹,也可通过点击保存到右边的按钮更换保存地址。
4 结语
ECPCGM的创建完成,在理论价值方面,基于ECPCGM的双语文本和量化信息能为深入开展中医翻译提供可靠依据;在技术方面,通过语料库技术,可挖掘中医学术语的标准翻译术语,客观描述陇药翻译过程中呈现的共性特征;在应用方面,该库和语料软件结合,可供学习者自主学习研究,并为陇药英语教学、陇药的对外宣传英译及词典与教材编写等提供帮助,另与网络结合,把开发完成的语料库在线发布和索引,实现网络用户对语料库的直接访问,对今后大规模对外翻译介绍陇药文献具有重要借鉴和参考价值,必将促进陇药及陇药文化传承与发展。
参考文献:
[1] 闻永毅.浅谈建设中医英语语料库的意义[J].陕西中医学院学报, 2003,26(5):65-68.
[2] 薛学彦.中医英语语料库建立的设想[J].广州中医药大学学报,2004, 26(6):482-485.
[3] 倪传斌.中医英语语料库的建库原则[J].上海中医药大学学报,2005, 19(3):5-6.
[4] 管新潮,胡開宝,张冠男.英汉医学平行语料库的创建与初始应用研究[J].当代外语研究,2011(9):36-41.
[5] 兰彩玉.中药汉英双语平行语料库的设计及构建[J].亚太传统医药, 2014,10(8):1-3.
[6] 兰凤利,梁国庆,张苇航.中医学中“脉”与“经络”概念的源流与翻译[J].中国科技术语,2011,13(1):54-58.
[7] 蒋明佳.人民网英文版中医药对外报道状况及语言分析[D].北京:北京中医药大学,2014.
[8] 谢竹藩.关于中医名词术语英译的讨论[J].中国中西医结合杂志, 2000,20(9):706-708.