《在语料库翻译研究中使用定量方法
——描写翻译研究实用指南》述评

2014-03-20 09:55阳鲲

外语与翻译 2014年2期

阳鲲

（广东财经大学外国语学院，广东广州，510320）

《在语料库翻译研究中使用定量方法——描写翻译研究实用指南》2012年出版，为 John Benjamins出版社知名的Studies in Corpus Linguistics系列的第51本，是目前少有的全面介绍使用统计量化方法研究翻译语料库的论文集。两位主编兼作者 Michael P. Oakes和 Meng Ji分别著有 Statistics for Corpus Linguistics和Phraseology in Corpus-Based Translation Studies。本文拟对此文集作简要评介。

一、结构及内容

Mona Baker[1,2]“语料库语言学和翻译研究：启示与应用”一文，倡导用语料库方法研究翻译，标志着基于语料库的翻译研究范式的诞生。“工欲善其事，必先利其器”。语言和翻译研究也需要定量方法。本论文集收入17位作者的13篇文章，旨在系统描述能用于语料库翻译研究(Corpus-Based Translation Studies，CBTS)的各种统计方法。文章按照主题归类，从较为宏观的理论探讨到微观的词汇研究，分为四个部分。

第一部分题为“理论探讨”，包括三篇论文。

首篇“明晰与暗示：翻译研究中定量与定性方法的互动”依据认知语言学将意义视为基于身体经验的概念化(conceptualization)的观点，作者认为翻译是对源语文本信息重新概念化的过程，亦即原文经历的质的变化。诸如词汇使用频率、搭配和语义关系模式等语言形式参数上的变化则是原文经历的量的变化。这一质和量的变化使得原文与译文的形式具有各自语言特有的性质，因而翻译是重新概念化的活动。作者建立的平行翻译语料库由一部当代波兰爱情小说和其英语译文，以及一本英语财经指南和其波兰语译文组成。参考语料库比较多样化，既有大型的英语国家语料库(BNC)和波兰语国家语料库，又有小型的英语和波兰语样本语料库，还包括与研究对象不同文类的波兰诗歌以及译文语料库。借助Wordsmith工具，作者探讨了四个方面：① 源语、译语以及可比语料库的关键性(keyness)比较；② 搭配作为确认原文和译文中隐喻的始源域和目标域的工具；③ 句法模式作为翻译中意象识解(image construal)和重新概念化的线索；④ 源语-译语词汇对等模式以及以“害怕” 一词为例，体现的英语与波兰语不同的隐喻和场景(scenario)。其结论是：翻译的对等关系应是有关词丛和概念整合(conceptual blending)的域(domains)的整体对等。

第二篇“翻译学中的回归分析”的两位作者介绍了如何使用R程序语言，一个自由、免费、源代码开放的软件来对翻译数据进行Binary Logistic回归分析和线性回归分析。其研究数据来自Brighton大学Raf Salkie提供的INTERSECT语料库，这是一个包含各种文类的英语原文和法语以及德语译文的语料库。具体的研究对象是英语和德语复合句中主句和壮语从句的先后顺序。论文说明了 logistic回归的一个关键统计量是怎样与频数(frequency)表卡方检验(chi-square test)具有概念上的相似性，并且举例展示了 logistic回归的各种应用，包括两分类预测指标(a binary predictor)，间隔/比例测度预测指标(an interval/ratio-scaled predicator)，和这两种指标的组合预测指标。

在“基于语料库的文学翻译研究中的假设检验”中，作者以西班牙名著《堂吉诃德》的杨绛和刘京胜两个中译本为个案，探讨原文与译文、译文文体与译语语言变迁之间的相关性关系。古语(archaism)的大量使用是原文中一个突出的修辞手法，作者通过线性回归分析古语在原文和两译文的词汇和语法层面上出现的频率差异，得出结论：刘译本比杨译本更遵循原文的古语使用模式，刘译本的语言文体特色更为丰富多样。其次，通过参照比对兰卡斯特现代汉语语料库(LCMC)和加州大学洛杉矶分校书面汉语语料库(UCLA)，作者解释了刘译本（1995）在成语使用上与杨译本的差异是与现代汉语的发展变化相一致的：随着汉语小说中成语使用数量的增加，出现在杨译本出版近20年后的刘译本也用了更多的成语表达。

第二部分“语料库统计学精要”的主题是语料库的创建与描写。

目前绝大部分的语料库都以英语为其中一种研究语言，对非英语语言之间的研究存在着明显不足，因此由挪威卑尔根大学创建的挪威语-西班牙语平行语料库(NSPC)有着重要意义。在“研制挪威语-西班牙语平行语料库：方法与挑战”中，两位作者详细介绍了这一研制过程，包括文本的选择、分类、预处理、对齐以及与西班牙莱昂大学研制的英语-西班牙语语料库(P-ACTRES)构成可比语料库的兼容问题。NSPC是单向翻译平行语料库，语料年代为2000年至2009年，体裁包括虚构和非虚构作品，采用全文收录的方式，目前库容为三百万词，标注了与翻译有关的文本信息。此外，作者还重点介绍了基于这一语料库的几项初步研究结果：总的看来，西班牙语译文长度大于挪威语原文，句子数量少于原文，平均句长短于原文。方差分析(ANOVA test)和卡方检验结果说明，句长与文类(genre)具有显著的相关性；原文与译文1：1的语句对应同样也与文本类型的相关性具有统计学意义。最后，作者简述了基于NSPC的研究现状和前景。

Michael Oakes在“描写翻译语料库”中展示了如何借用统计学知识较为充分地对语料库进行描写。利用统计手段对数据进行整理能发现数据的基本特征。以一翻译语料库中一篇挪威语原文的十八个不同英语译文的字符总数为样本数据，作者用诸如集中量数(measures of central tendency)等多种手段考察了翻译语料库中的语言特点成正态分布的情况、语料库规模与语言特点出现次数的关系、语料库的相关性问题(aboutness)、用词的变化性以及搭配问题。其中语料库的相关性是指哪些类符在何种程度上是这一语料库中的典型类符。作者以《红楼梦》的包译本(Edward Bowra)和乔译本(Henry Bencraft Joly)为例说明，通过统计频数、卡方检验、Tf-idf权重公式能找出译文中最为典型的单词，从而在一定程度上反映译者的风格。另一个能反映译者写作风格的指标是译文中用词的变化性。众所周知，未经标准化的类符形符比作用有限，因此作者介绍了另外两种计算公式：Yule’s K和Heaps定律，其结论是两译本的用词变化性并无大的差异；计算相互信息值(MI)和Z分值各有所长和所短，两者结合才能测量词语的搭配强度。

聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组的统计分析技术。“翻译语料库的聚类分析”一文旨在介绍各种能找出翻译语料库中相似信息的聚类技术和文本处理方法。基本步骤包括数据表示、计算相似性和数据聚类。首先，需要将自然语言的文档“翻译”成机器内部表示结构，作者介绍了词袋算法(bag-of-words)，n元语法(n-Grams)，多词表示(multiple-word representation)的文档表示技术。然后，通过语言学的或统计学的方法消减向量空间的维度(dimension reduction)。计算样本间的距离常用的距离度量是D维特征空间中的Euclidean距离和余弦夹角(Cosine Angle)。聚类分析计算方法主要有划分法(partitioning methods)和层次法(hierarchical methods)。

第三部分“文学翻译的量化研究”侧重对文学文本的译文进行量化分析。

两位主编在首篇中比较了《红楼梦》两个早期英译本的文体特征。英国人包腊(E. Bowra)前八回译本发表于19世纪60年代末，英国驻澳门副领事乔利(Henry B. Joly)1892-3年译本最早以整书形式出版。这两个译本在《红楼梦》英译史上有着重要影响。作者选取第一回为具体分析对象，以著名汉学家翟理思(H.A.Giles)在其《中国文学史》中译介的《红楼梦》为独立样本做参照，对经过了词性和语义标注以及手动对齐后的三个英语文本的句长、情感词、习语、类符形符比分别进行配对样本t检验、独立样本t检验、卡方检验、皮尔逊相关系数检验、Spearman秩相关系数、Wilcoxon符号秩和检验以及曼-惠特尼U检验，发现了两者在习语用法上的差异：乔译本的英语习语用法更多、习语的结构更灵活，包译本则更多地保留了原文的逻辑结构，多用固定形式的习语。这一研究旨在体现翻译语料的统计学研究的可行性与潜力。

统计的理念长期应用于文体分析中，逐渐出现了偏重于统计的文体分析方法，这种方法被称为“文体测量”或“计量文体学”(stylometry)。本章的第二和第三篇都属于这一研究性质。前者旨在通过分析乔伊斯的《都柏林人》（Dubliners）和土耳其译文中的文体标记：字数体现的句长、最常用词、类符长度、形符长度以及类符形符比，找出翻译中的不变量（invariant）。其研究方法是逐步判别分析和线性判别分析(discriminant analysis）。结果显示：常用词是最能对英语短篇小说进行分类判别的文体标记；句子长度线性地从英文原文映射到土耳其译文；原文和译文的型符和类符分布都符合泊松分布（Poisson distribution，一种随机分布规律），原文和译文中类符型符的相对频率曲线能让我们找出原文和译文的不变量及其特征。本研究的意义在于其结果可以用于评价一部作品的原文与译文的一致性。

“隐形译者的谜团：翻译中的计量文体学”一文介绍了文体测量的历史与现状，指出其在作家身份确定方面（authorship attribution）的成就与不足。身份确定中最为广泛使用的方法当属Newcastle大学的John Burrows教授的Delta分析技术。其主要的理据是，选择某位作家的作品中出现频率最高的80-150个文体标记，多为功能词、非主题名词或动词等，计算出每个高频词的Z值（z-score），然后对要鉴别的文章进行匹配性计算，各项 Z值到达一定的总值，就可判定该文章的作者就是这位作家。本文作者通过对大量英语-波兰语平行语料进行多元计算后得出结论：Delta分析技术不能区分译者的文体特征，统计数字结果不能体现不同译者的最常用词差异，印证了“译者的隐形”（Venuti，1995：8）这一为译界诟病的现象。

第四部分“译文词汇的量化研究”有四篇文章之多，分别借助不同的统计方法研究各具特色的翻译语料，多角度地展示了对词语进行量化分析可以带来新颖的发现。

首篇“翻译与科技术语”通过对语料的层次聚类分析(HCA)以及定性归纳，探讨了西方译者在将英法荷兰语的科技著作译为汉语时所采用的词汇策略。作者Meng Ji从欧洲汉学数字资源中心选取五个汉译文本，以形符长度（token length，指一个汉语词包含的方块字的字数）和能表达语法意义和功能意义的虚词(functional particle)分布为研究对象，发现十九世纪的这些传教士和汉学家在翻译时充分利用古汉语，形成了独特的译文用词特点——多用两字、三字和四字词语；用八大类的虚词来表示功能意义和语法意义，以对应拉丁语系的原文惯用词语的前后缀来表达的概念。研究这一时期的科学译作对于我们了解对近代中国科技术语的形成能起到重要作用。

“译者的对策：吠陀梵语翻译中(vedic translation)的词汇选择”一文的研究目的在于借助多语平行语料库和卡方检验，探讨德语和俄语的两位译者在翻译印度现存最重要的上古诗歌总集《梨俱吠陀》（Rgveda）时，面对原文的各种限制与歧义时所采用的对策。研究发现在翻译诸神的名称以及一些有歧义的吠陀神学词汇时，两位译者最为常用的技巧是音译，其次是显化和隐化，都更倾向于显化；无论是单个译者的行为或是两位译者的一致行为，研究证明都是源于原文的内容与语境的影响。

第三篇论文的视角独特，关注的是颇不受重视的词缀。作者用三种常用的多元统计分析方法对来自翻译英语语料库（TEC）中的23个前后缀的构词能力及其使用进行了研究，指出因子分析(factor analysis)不适用于语料库语言学，而对语料进行主成分分析(principal component analysis)和对应分析(correspondence analysis)，则能给我们带来启示：翻译英语中词缀与文本类型明显有关联——文本类型限制者译者对词缀的使用，词缀的构词能力与原文的语言没有关联，词缀的分布与译者的国别同样无关联；译者对词缀的使用自觉或者不自觉地以文本类型的规范为目标。

上文提到的对应分析作为近年新发展起来的一种多元相依变量统计分析技术，也是最后一篇论文所采用的研究工具，结合Binary Logistic回归分析，作者通过对分别译自英语和法语的荷兰语的译语文本以及荷兰语原语文本研究发现：翻译语言与非翻译语言之间的关系是多维度的；翻译文本的保守化倾向(conservatism)这一翻译语言共性并不完全成立，文体类型和原语类型才是影响译者用词的正式程度，亦即保守化的因素。鉴于目前语料库翻译研究中普遍存在的忽视文体类型对译者的影响以及翻译语料具有的多维度性质，这一研究具有重要的意义。

二、简要评价

（一）研究语种范围大

上述简介的论文，加上附录和索引，构成了全书361页的篇幅，展现了一幅用统计手段研究翻译语料的精彩画面，所使用语料库涉及英、法、汉、日、德、俄、西班牙、意大利、波兰、挪威、古印度和土耳其语等多种语言，体裁以文学作品为主，包括诗歌和小说，科技文类也有体现。单从语种范围扩大这一点就可以看出语料库翻译研究发展之迅速。

（二）跨学科性强

作者利用已有的平行语料库或者自建语料库，不仅提供大量数据，而且对这些数据作出翻译学的和文体学的理论分析和概括，对数据描述出新的趋势和新的模式。每一位作者都具备翻译学、语料库和统计知识。充分使用统计量化方法这一强大工具来对翻译进行实证研究可以说是国外语料库翻译学研究的一大趋势。这些论文合力证明，将统计分析和语料库结合起来，能做出许多有益和独到的发现。

（三）关注文体

本书有超过半数的文章（第3、5、6、7、8、9、10篇）涉及了译作的文体特征或者译者的文体表现。这也符合目前语料库翻译学的潮流。翻译语言的共性、特征以及译者文体等是语料库翻译研究最为深入的两个方面。

最后应该指出，本书有着西方出版的众多学术论文集的通病，那就是忽略中国学者的研究成果。或许可以略为弥补其不足的是，它收入了以汉语语料为研究对象的两篇论文。本书还有一些本应避免的拼写错误，如出现在第 8、93、103、138页的个别单词。但瑕不掩瑜，本书无疑是新兴的语料库翻译研究方向的一部力作。或许要读懂这部略显艰深的跨学科著作，对于我国大都不具备统计知识背景的外语研究者来说，不是件易事，如要进一步学习借鉴其方法来分析翻译汉语语料，则更为不易。外语学者可以通过与有统计知识背景的学者合作来弥补不足，取长补短。

[1]Baker，M. Corpus Linguistics and Translation Studies：Implications and Applications[A]. In M.