《尚书》汉英平行语料库的创建与应用

2018-08-29 08:06葛厚伟
关键词:尚书译本语料

葛厚伟



《尚书》汉英平行语料库的创建与应用

葛厚伟

(滁州学院 外国语学院,安徽 滁州 239000;扬州大学 文学院,江苏 扬州 225009)

介绍《尚书》汉英平行语料库的创建过程,探讨汉英语料文本的选择、输入、清理、标注、对齐、检索等具体操作方案;应用《尚书》汉英平行语料库,比较和探讨各英译本在词汇层面的基本特征和成语翻译风格上的异同,力求拓展《尚书》英译的研究视角和途径,以期促进《尚书》英译的多维研究,同时为其他典籍翻译研究提供参考和借鉴。

《尚书》;平行语料库;创建;应用

引言

《尚书》是中国乃至世界最早的典籍,为“七经之冠冕”,记录的是贤君明王和贤臣的言论和事迹,体现了儒家的道统观念,承载着中国悠久的上古文明,是中国古代社会的一面镜子,折射着华夏文明丰富多彩的不同侧面。虽然《尚书》作为儒家经典,地位最受人尊敬,但由于《尚书》佶屈聱牙、晦涩难懂、文辞古奥,翻译界对其关注度远小于其他典籍。

近十年来,作为《尚书》学研究的一个重要分支,《尚书》译学研究开辟了《尚书》研究的新领域。郑丽钦(2006)依据阐释学和功能翻译理论剖析和研究了英国汉学家理雅各译本[1];陆振慧(2010)从跨文化传播层面深入剖析理雅各译本在跨文化交流中的传播动机、传播策略及传播效果,由点窥面,为拓展汉籍与经学研究、深化文化传播研究提供了尝试[2];陆振慧博士的一系列研究,为《尚书》英译研究提供了不少思路;林风(2012)基于阐释学理论和归化、异化翻译学说,从语言和文化层面对四个译本进行比较研究[3];陈丹丹(2015)以功能语言学为理论基础,从语音、词汇、语法三个层面,分析比较三个译本对原文衔接关系的不同建构策略[4]。钱宗武、沈思芹(2017)分析了学术转型期朱子《尚书》学的理路风格与特征,深刻影响了理雅各译本的翻译理念、翻译策略和文本的具体转换[5]。

作为翻译学的全新研究范式,语料库翻译学利用语料库的技术优势,提取关于翻译事实或翻译现象的丰富语料作为研究对象,进行数据分析,归纳出翻译语言特征和翻译过程的内在规律,从而有效避免传统译学研究的主观性和片面性缺陷。平行语料库(parallel corpus)是由原文文本及其平行对应的译语文本构成的双语语料库,将翻译好的成品展现给人们,从这些成品中人们可以了解不同语言之间的相似之处和不同之处,比较便利地研究译文的语言特性和译者的文体等诸多因素。随着语料库翻译学的兴起,语料库翻译学为中国古代典籍的英译研究增加了新的范式。目前《尚书》英译研究还处于起始阶段,《尚书》英译研究需要借助语料库技术的辅助作用,进一步扩展研究的广度与深度。

一、 《尚书》汉英平行语料库的创建

(一) 语料的选择

1.中文语料

众所周知,《尚书》有今文《尚书》和古文《尚书》之分,《尚书》的形成过程非常复杂,版本、篇章、经文真伪、各篇写作年代等问题亦未有定论;汉代流传的《尚书》28篇是由伏生口述、晁错用隶书笔录的,史料价值甚高,本研究只限于今文《尚书》。《尚书》中英文平行语料库的中文文本采用江灏、钱宗武译注,贵州人民出版社出版的《今古文尚书全译》,该书主要参考《尚书正义》《书集传》《尚书今古文注疏》《尚书正读》和《尚书易解》,篇次和文字据《十三经注疏》本的《尚书正义》,依据《尚书易解》断句,注释参考古今传注,实事求是,择善而从[6]。

2.英文语料

理雅各(James Legge)和高本汉(Bernhard Karlgren)的译本是最受欢迎、普遍使用的两个《尚书》英译本。理雅各的《尚书》英译本(1865年出版),翻译的是今文和古文《尚书》共58篇,时至今日理氏译本依然具有相当高的学术价值,一直被奉为“标准本”,而无法被其他译本完全取代。鉴于理氏的译文和注释切实可信,颇具参考价值,至今尚无人超越,《大中华文库》采用了该译本,2013年重印了汉英对照版《尚书》,由湖南人民出版社出版[7]。高本汉翻译了今文《尚书》28篇,1950年发表于《远东博物馆馆刊》第22期,学术界认为其译文准确地翻译了这些经文的古代语言[8]。2014年,汉学家彭马田(Martin Palmer)英译了今文和古文《尚书》共58篇,由英国Penguin Group出版,这是目前最新的《尚书》英译本[9]。自上世纪八、九十年代开始,国内也出现“经典复译”热,1993年山东友谊出版社也出版了杜瑞清教授翻译的《尚书》,这是国内首部《尚书》英译本[10]。以上四位译者既有国外也有国内的,译本出版时间横跨了三个世纪,从时空上充分代表了《尚书》英译的整体状况,本研究将以上四个今文《尚书》译本作为平行语料库的英文文本[11]。

(二) 语料的输入

在确定好本研究所选的《尚书》中英文文本后,开始输入中英文语料。语料的输入主要有两种方法:一是传统的方法:印刷文稿+扫描仪+ORC软件,并以键盘输入制作电子文本;二是直接获取电子文档,如:网络直接下载、图书馆服务、CD等电子介质。《尚书》源语文本在网络上可以找到电子版并免费下载,虽然省去了中文语料的输入工作,但是网络资源往往存在各种各样的错误,笔者参照《今古文尚书全译》中的源语文本,进行逐字逐句校对,期间还有增、删等编辑工作,以保证语料库中文语料的准确性。

所选的四个《尚书》英译本目前未见电子文稿,只有纸质印刷文本,需要通过手工输入或使用扫描仪扫描的方式,完成英文语料的输入,将纸质文档转化成计算机可以读取和编辑的电子文档。笔者先用扫描仪将四个《尚书》英译本的纸质文档扫描成图片后,再利用汉王OCR识别软件转化成可编辑的电子文档。为保证英文语料质量以及研究的可靠性,完成英文语料的输入后,参照相应的纸质版逐字逐句核对,更正语料中的错误,确保文本的准确性。确定所选《尚书》中英文文本准确无误后,将所有语料统一使用 UTF-8 编码保存语料文本并分别存储在“CN”和“EN”两个文件夹里,CN文件夹下的中文文本以CN01、CN02……CN28命名;EN文件夹下又设理译、高译、彭译和杜译四个子文件夹,各章节文本分别以L01、L02……;G01、G02……;P01、P02……;D01、D02……类似文件名依序命名,其中大写英文字母代表译者姓名的简写,数字代表篇章数。

(三) 语料文本的清理

文本清理又称文本除噪,即清除无关的内容,以便得到清洁的语料文本。从网络上下载的文本、通过扫描转化的电子文本,通常存在格式问题,需要纠正错误的书写,删除多余空格(□)、多余空行、多余硬回车(断行)和软回车(↓)等不合规范的符号,语料文本如果不进行清理,会直接影响后续的语料对齐、词性标注和检索的质量。例如,多余的回车(或者空段落)是指回车前面没有别的内容,可以使用 Microsoft Word清除多余的回车(空段落),在MS-word中调出“查找替换”功能,“查找内容”框输入“^p^p”(两个段落标志),“替换为”框输入“^p”(一个段落标志), 点击“全部替换”若干次,就可以清除多余的空行。

(四) 语料的分词和标注

“双语对应语料库的质量主要取决于语料各类标注的质量和语料对齐的质量。”语料的标注主要指对原始语料的词性、词类进行划分标注,把表示语言特征的附码添加在相应的语言成分上,以便进一步分析和检索,是建立语料库的一个重要环节。由于《尚书》源文本是古汉语,古汉语与现代汉语有许多不同之处,不能简单地把标注现代汉语的方法直接运用于古汉语的研究与分析,目前还没有任何针对古汉语进行词性标注的软件,由此本研究只对汉语语料进行分词处理,便于检索分析软件处理。语料整理完成后,选用中国科学院计算技术研究所研制的汉语词法分析系统ICTCLAS 3.0对汉语语料进行自动分词处理,为了提高分词的准确率,再辅以大量的人工校对分词。

对于译文的英文语料,采用英国兰卡斯特大学计算机语料库研究中心开发的 CLAWS 词性附码器,CLAWS 4.0是CLAWS 的最新版本,使用第七代附码集(C7 tagset),详细的附码集及附码所代表的意义可查看相关网站中的资料,此软件准确率可达97%;使用 CLAWS 4.0 的免费网络服务,分别对《尚书》的四个英译文本进行在线词性标注,待标注后的文本在网页上加载后,再将标注后文本复制到相应的Word文档中保存;最后将标注后的中文原文及每个译文保存为纯文本文件,分别放在“CN tagged”和“EN tagged”两个文件夹里,这样就建成了标注过的平行语料库。

(五) 语料的对齐

源语文本和翻译文本之间有多种对应方式,比如篇章、段落、句子,以及词汇等不同层级的对齐,平行语料库建立后,在翻译研究中,可以通过检索软件很容易确定对应关系。篇章对齐和段落对齐实现的难度不大,但值得研究的翻译现象往往不能立即呈现出来,对于翻译批评来说,词汇对齐最有用,但由于《尚书》语言为上古汉语,晦涩难懂、诘诎聱牙,是古籍中最难通读的一种,因此,《尚书》的源语文本和英译文本之间很难实现词汇层面对齐,创建本语料库主要采取句级对齐。为了达到一定的效度和信度,句级层面的对齐则需要借助于软件应用和人工校对相结合的方式来实现。

本研究总体对齐原则是以源语文本的句子划分为基准,适当调整译文以适应原文,将句号、问号、感叹号、句末的省略号作为划分中英文本最小标注单位的依据,采用Tmxmall平台中的在线对齐功能来实现句级对齐处理,其语料对齐技术在国内首屈一指,受到用户的广泛好评。Tmxmall在线对齐省去了用户下载和安装对齐软件等一系列繁琐过程,即可随时随地使用在线对齐服务。在Tmxmall页面分别导入要对齐的两个文档,先手动调整到段落对齐,然后参照原文点击“合并”“拆分”“上移”“下移”等按钮来调整译文,再辅以大量人工校对来实现源语文本与其译文自动对齐(见图1)。按照以上程序,分别完成四个译本在线对齐工作后,将对齐文件下载到本地计算机或存储在Tmxmall私有云记忆库中备用。

图1 借助Tmxmall平台对《尚书》语料对齐工作界面

(六) 语料的检索

本研究中的一对四汉英平行语料库包括了5个文本,若想实现同时共现或对比,Para Conc(国际著名的平行语料库软件)是不可能实现的,因为该软件最多支持原文与3个不同译文的对照显示。笔者使用CUC_ParaConc(中国传媒大学平行语料检索)作为检索软件,它是一款免费共享绿色软件,主要用于检索双语、多语平行语料,支持对Unicode、UTF8、ANSI等编码的纯文本语料检索,最新版本是0.3版,最大特点是支持多个国家的平行语料检索,多语检索可以实现1对16的平行语料,即一个原文可以对齐1-16个译文,这一点恰好弥补了Para Conc的不足。但是Para Conc对原文和译文的对齐方式要求非常严格,必须一致才行,否则无法正常使用,所以在对齐语料时遇到某句的译文缺失就以“Omission”这一单词来补充完整。

以《尧典》篇中“德”字英译对比分析为例,运行CUC_ParaConc,点击“一对多平行语料检索”,进入“加载语料及检索参数设置”界面,选择“源文本目录”及“保存目录”,将“选择译本数”设为4,“文本编码”设为“Default”;在“检索和提取”界面的“原文关键词”栏中输入“德”,共有4条相匹配的句对,其中每一对应单元的最上面是汉语原文,下面的译文分别是对应的理译、高译、彭译及杜译。显示的部分结果如图2:

三、《尚书》汉英平行语料库的应用

翻译语言特征研究是语料库翻译学的一个重要研究领域。在实现《尚书》汉英双语语料平行对齐并赋码标注后,就可以利用相关软件对语料库各文本的语言特征进行描述统计和对比分析,可以在宏观层次对比研究《尚书》各译本的词汇、句法、语篇特征;也可以探讨微观层面上的翻译特征,对宏观研究的补充和深化,包括文化负载词翻译、成语翻译、修辞翻译等。基于已建成的《尚书》汉英文平行语料库,笔者在《基于语料库的<尚书>英译本词汇特征研究》一文中,运用语料库检索软件对《尚书》四个英译本在词汇层面的基本特征进行了数据统计和量化分析,比较和探讨四个英译本在高频词、词长分布、类符/形符比、词汇密度和主题词等五个方面表现出来的独特风格,为全面系统地进行《尚书》英译研究提供有益的启示和借鉴[11]。宏观特征与微观特征相结合可以使研究更趋全面合理,下文以《尚书》成语翻译为例,探讨各译本在微观层面表现的特征。

图2 利用CUC_ParaConc进行原语对应译语检索

现代汉语成语源远流长,源自经传的成语最早可追溯到今文《尚书》。成语英译一直是一个难题,译者常常很难找到完全对等的表达形式来准确翻译其内涵与外延意义,特别是对于源自《尚书》这些成语,其翻译的难度和复杂性可想而知。以成语“光被四表”为例,利用CUC_ParaConc软件检索出四个译文,比较和探讨各英译文在翻译风格上的异同。

“光被四表”源于《虞夏书·尧典》篇中“允恭克让,光被四表,格于上下”。被:加于,及于;四表:四方极远之地,亦泛指天下。该成语的概念意义为光辉普照四方。在原文语境中该句描写和颂扬尧的品德,意思是尧对他人恭敬,又能让贤,德光普照四方,至于天地。“光被四表”的语源意义是君王的品德像阳光一样给四面八方带来光明,该成语的四个译文如下所示:

理译:He was sincerely courteous, and capable of (all) complaisance., and reached to heaven above and earth beneath.

高译:He was truly respectful and could be modest.. He reached to Heaven above, and Earth below.

彭译:He was also sincere, able and, reaching from Heaven itself down to Earth.

杜译:Reverential and magnanimous,and renowned both in Heaven and on earth.

成语的语义具有整体性,往往不能从组成成语的单个词语意义中猜测出来。许多汉语成语如果直译成英文,尽管读者能了解成语中每个字的含义,但很难理解该成语的整体意义,此时译者应舍弃成语的原文形式,灵活采取其他翻译策略,在译文中传达该成语的蕴涵意义。以上四个译文均采用了意译法,未将原文的“光”简单直译为“the light”,否则会词不达意、不合逻辑、效果不佳;译文根据上下文语境,意译为“influence of these qualities”“his reputation”或行为主体“he”,充分传达要义——“德光”,帮助读者理解其隐义——尧品德高尚。意译中译者并未对内容随意删改,而是深入钻研原文,抓住要点,达到融会贯通。

与直译相比,意译则从原文的意蕴出发,将目的语读者的接受程度作为衡量译文质量的重要指标,即不注重原文的形式,译文自然流畅即可,形变而义不变,力求做到虽失原作形貌,但不失原作的内容精髓而且与原作的风格相适应。值得注意的是理译采用了释义法,在译文中直接解释了原词在上下文中的意义,其特点在于保留直译的形象生动,又能确保译文容易为读者理解。为了在译文中凸显“his reputation”,彭译中使用了转换法,将名词“光”转换为动词习语“light up(shine lights on sb./sth.)”,使译文信息得到明晰传达,译文逻辑连贯,流利顺畅,臻于完善。

结语

创建《尚书》汉英平行语料库是《尚书》译学研究的一种创新性尝试,对《尚书》多译文本进行客观的数据分析,有助于更加科学地开展《尚书》译者风格及英译语言特征研究,不仅可以弥补传统主观分析翻译研究模式的不足,而且能够增强《尚书》英译研究结论的效度和信度,拓展研究的深度和广度,有利于实现《尚书》英译研究的多角度和跨学科性。《尚书》汉英平行语料库的创建过程比较复杂,该过程主要包括了语料文本的选择、输入、清理、标注、对齐、检索等,将为产生更好的《尚书》英译本提供实物平台,为同类语料库的建设积累经验,同时为其他典籍翻译研究提供参考和借鉴,推动中国文化“走出去”。

[1]郑丽钦.与古典的邂逅:解读理雅各的《尚书》译本[D]. 福州:福建师范大学,2006.

[2]陆振慧.跨文化传播语境下的理雅各《尚书》译本研究[D].扬州:扬州大学,2010.

[3]林风.《尚书》四译本比较研究[D].福州:福建师范大学,2012.

[4]陈丹丹.《尚书》译本中的语篇衔接重构[J].扬州大学学报(人文社会科学版),2015(4):59-67.

[5]钱宗武,沈思芹.从英译《尚书》看朱熹的儒家诠释学思想对理雅各的影响[J].海外华文教育,2017(4): 445-454.

[6]江灏,钱宗武.今古文尚书全译[M].修订版.贵阳:贵州出版集团,2009.

[7]Legge, J. The Chinese Classics. Vol.Ⅲ. The Shoo King, or The Book of Historical Documents [M]. Taipei: SMC Publishing Inc.2000.

[8]Karlgren, B. The Book of Documents [J]. Stockholm: The Museum of Far Eastern Antiquities, Bulletin, 1950(22):1-81.

[9]Martin Palmer. The Most Venerable Book [M].London: Penguin Group. 2014.

[10]杜瑞清.The book of history[M].济南:山东友谊出版社,1993.

[11]葛厚伟.基于语料库的《尚书》英译本词汇特征研究[J].青海师范大学学报(哲学社会科学版), 2016(6):121-127.

The Creation and Application ofChinese-English Parallel Corpus

GE Hou-wei

(School of Foreign Language, Chuzhou University, Chuzhou 239000;School of Liberal Arts, Yangzhou University, Yangzhou 225009)

This paper introduces the creation process of the Chinese-English parallel corpus of the, exploring the specific operation schemes for selecting, inputting, clearing, labeling, aligning, and retrieving Chinese-English material texts, and applies the Chinese-English parallel corpus ofto compare and explore the basic characteristics of the lexical level and the similarities and differences in the idioms translation style of the English translations to expand the research perspectives and approaches of English translation of, in order to promote the multidimensional study of the English translation ofand provide reference for translation studies of other classics.

; parallel corpus; creation; application

2018-07-08

安徽省哲学社会科学规划项目“《尚书》汉英平行语料库的创建与应用”(AHSKY2016D118);江苏省普通高校研究生科研创新计划项目“《尚书》汉英平行语料库的创建与应用”(KYZZ16_0483)。

葛厚伟(1979— ),男,安徽天长人,滁州学院教授,扬州大学博士研究生,研究方向:认知语义学、典籍翻译研究。

10.14096/j.cnki.cn34-1044/c.2018.04.11

H0

A

1004-4310(2018)04-0066-05

猜你喜欢
尚书译本语料
《尚书》中“迪”释为“由”新探
《佛说四人出现世间经》的西夏译本
《通玄记》的西夏译本
尚书·禹贡
基于语料调查的“连……都(也)……”出现的语义背景分析
华语电影作为真实语料在翻译教学中的应用
《明新兴雷石庵尚书遗集》补遗
《苗防备览》中的湘西语料
国内外语用学实证研究比较:语料类型与收集方法
《孙子兵法》俄译本简介