平行语料库设计及对应单位识别

2010-12-07 02:12李文中
当代外语研究 2010年9期
关键词:平行语料库语境

李文中

(河南师范大学语料库研发中心,新乡,453007)

本研究属于国家社科基金项目“基于语料库英语本土化研究及应用,编号:07BYY022”及“平行语料库对应意义单位研究,编号:07BYY002”研究。本文基于李文中2006年在“上海交通大学庆贺杨惠中先生执教50周年暨应用语言学研讨会”的演讲“From Translation Units to Corresponding Units: a Corpus-driven Approach”,以及李文中在2007年“第五届中国英语教学国际研讨会暨第一届中国应用语言学大会”主题研讨会“Corpus-based Language Research”上的主题发言:“Corresponding Units: Identification and Application”。

1. 作为翻译数据源的平行语料库

语料库语言学研究的出发点是自然语言,其研究成果的应用也应回归到自然语言,研究的基本目的和任务是探索语言中的意义。在一个自然文本中,任何一个意义单位的识别和理解都不能脱离其共生的语境,也不能脱离文本中该意义单位与其他意义单位构成的复杂同义解释关系。同理,任何文本也不是孤立的,理解一个文本需要借助其他同义文本或已知信息的参照。翻译是一个高度依赖语境的过程,在翻译过程中,译者交互的对象包括文本、读者,以及其他译者。“好的翻译”是指那些在译者社团中通过谈判交际不断被重复的翻译,并通过重复应用得以确立。因此,当前的翻译文本不仅仅是一种终端产品,还是联接前后翻译文本的重要环节,继承了以往翻译文本中大量的翻译特征。基于平行语料库的对应单位翻译转换对比分析,其主要意义在于充分尊重语言事实,尊重翻译事实。

对应单位指对应源文本和目的文本中任何可识别的文本块或片段。对应单位具有意义的完整性和相同性,并且具有各自的句法结构特征。由于其对语境高度敏感,并在结构上动态变化,对应单位可逆或不可逆。我们研究的问题是:1)在平行语料库中如何界定等值性,如何在操作层面测量它?2)如何在平行语料库处理中体现语料库驱动原则?3)双语视角对识别对应单位有何意义?本研究的目的是通过开发平行语料库,确定对应单位识别程序,并建立对应单位数据库。本研究的主要目标为:1)建立一定规模的平行语料库,其语料应范围广泛,包括政治、经济、科技等领域的现存中英文互译文本。2)开发语料库处理软件,包括平行语料库双语对应单位的提取、储存、记忆及检索工具。3)汉英翻译研究:基于所建平行语料库,以初期在有限领域建立的模型为基础,深入研究双语文本的翻译对应关系,并建立动态开放的对应单位数据系统。4)汉英对比研究:在双语语料库的基础上进行文本的平行、对应及关联研究,分析两种语言的意义属性、评价体系及批评价值。研究方法主要包括:1)利用网络等手段,搜集平行文本语料,建立包括广泛均衡语料的平行语料库。2)对应单位识别:前期通过大量人工干预,在有限领域内建立初始模型,通过对应的识别单位数确认句子对应,利用后台数据库计算对应单位的频率,再通过文类、体裁等参数确定对应单位的分布及频率。3)对应单位分析。4)基于建成的平行语料库和开发的软件开展相关研究。

Teubert认为,正如自然语言运用一样,翻译实践中译者群体构成了一个特殊的语用话语社团,一切翻译活动和行为都在这一特定的话语内进行。译者通过翻译活动,实现交互和谈判,并促生和确立源语言和目的语之间的意义对应和翻译转换(Lecture,2004)。在这里,翻译的过程不是简单的词语或句子对等,也不像Weaver所说的那样,是一种信息的编码和解码过程(1949,转引自冯志伟2003)。翻译是一项复杂的社会活动和语用事件,是一种语言交际行为。翻译中意义的转换和对应产生于译者内部的交流和沟通,并实现于译语文本。在这一交互过程中,“正确的翻译被采用并重复,错误的翻译被淘汰”(Teubert 2005)。所以说,翻译知识既不来自词典,也不来自预设的规则和知识原型,而是存在于翻译文本中的翻译事实。平行语料库通过收集大量的双语对应文本,通过对翻译事实的系统描述,利用概率统计发现重复出现的翻译对应单位,以确立翻译的对应性。

与基于语料库实例研究不同的是,我们所说的平行语料库不是作为类比和推理的基础数据,而是作为翻译知识库;平行语料库的作用也不仅仅是为了提取翻译实例,而是把翻译文本与数据库作为一个交互处理的整体。在构建平行语料库时,我们提出以下几个基本原则:1)平行文本的来源和领域必须严格界定。领域越广阔,文本翻译的对应性变异就越大。能适应所有文本的翻译对应非常少,如人名、地名、机构名称等,有时甚至这些普遍被认为无歧义的名称,在不同领域的文本中也会表达不同的含义,从而产生独特的对应。在语料库处理中,尽可能划分一个大领域内部的层级关系,并应用XML标准进行标注。2)选取的文本类型应从科技领域及对应关系相对单纯的平行文本开始。语用结构复杂、话题多元、且对应相对自由的平行文本一般不作为初始研究的对象,如虚构性文本。文学文本的自动翻译几乎难以逾越。3)平行文本的对齐是分析的结果,而不是前提。仅仅追求文本结构形态的对齐,如通过人工介入或通过概率计算达到对齐的目的,仍需人工对句子进行分析和判断,这是由于对齐后的文本要么单位过大,如段落和句子,要么过小,如单词,都难以得到有效利用。4)文本应保持整体性和原貌,与标注信息分开(Sinclair 2005:1-16)。标注系统应动态开放,允许定制并多层多次标注。

2. 对应单位的界定及工作原则

Sinclair(2005)在提出“意义单位”这个概念时,主要考虑的是为语言分析确立一个基本的分析单位,这个单位必须是构成文本最小的意义单位,它由核心词(core)和搭配词构成,所以又称作“词项”(lexical item)。意义单位的单义性通过词项内部的微型语境得到保证。意义单位可以作扩展分析,或称为“扩展的意义单位”,在抽象度上依次分析其类联结结构特征、语义倾向以及语义韵(参见李文中2010)。意义单位这一概念体现了Sinclair的学术思想,即1)意义在多词序列(搭配)中得到呈现①,多词序列体现了真实的语用环境,并框定其意义取向;2)意义、形态、结构模式甚至语用意向是一个相互依存的统一体,任何一个构成元素都不可分割和抽离。3)意义单位确立的基础是复现频率(frequency of recurrence)。其基本理据是,在词语层面,单个或多个词共现,并呈线性组合,顺序固定,结构相对稳定,或只允许部分变异;该单位具有复现概率,在文本中表现为固定词语序列或词块;在语义层面,词语组合表达意义完整,具有单义性;在发生学层面,意义单位的选择大多不是单个词语的多次选择,而是同时选择的,是一连串说出来的;在语音学层面,该单位表现为一个连续的语音流,与其它意义单位具有明显的界限。该单位在文本中具有可预测性,使文本理解从分析走向综合。意义单位的提出为多词序列(或称词块、多词组合)分析提供了理论基础,具有重要的语言学意义。但意义单位是一种单语理论,其统计基础是复现频率,且必须通过人工分析才可以获得。在此基础上,针对双语平行文本,Teubert(2004)进一步提出“翻译单位”概念,即“源语言表达由一个节点词加上所有搭配词构成,并且在目的语文本中只有一个无歧义的等值表达,如果存在多个等值表达,则这些表达具有同义关系”。Teubert认为翻译单位是平行文本中可识别的最小的等值单位,具有单义性,不能被进一步分析,并且具有可逆性(reversibility)。

我们注意到,翻译单位这一概念虽然基于双语视角,但在平行文本处理中仍存在难题:1)由于强调“最小分析单位”和“可逆性”,翻译单位与词语对等这两个概念几乎没什么区分;有些单位在平行文本中对应严谨,却不一定是最小的;翻译单位确立后,其意义仍然极不稳定,其“无歧义”属性很难得到保证②。如以下对应包含多个翻译单位(用中括号“[]”隔开):

表1 对应及翻译单位

2) “可逆性”标准忽视了不同源语言文本翻译视角的差异及语言具体运用语境的差异。如汉语源文本“打白条”的对应是“issue IOU”,但英语源文本中的“issue IOU”就不一定对应“打白条”,因为“IOU”和“白条”的文化含义和运用语境不一样。“大换血”的例子亦是如此。3)翻译单位与意义单位一样,是一种分析理论,而不能用于识别操作。因此,我们提出“对应单位”这一概念,即“平行文本中意义对应完整、并具有清晰边界的任何片段或序列”(李文中2006)。对应单位是平行文本双语视角下确切对应的片段,其序列可扩展,其意义在抽离语境后仍能保持相对稳定;在大型平行语料库中,可以通过计算同现对应单位的阈值,扩展对应单位的序列;对应单位具有可逆性或不可逆性,这要取决于翻译文本的具体语境。与翻译单位不同,对应单位是针对平行文本处理的操作概念,用于对应片段(或对应块)的识别和提取,是对以后分析的文本准备。对应单位的识别标准是对应边界的适当性和确切性。在此原则下,表1中“安家费”作为一个整体与“settling-in allowance”构成对应单位,因为“安家”与“settling-in”、“费”与“allowance”的对应边界并不清晰。下表中所列都被看作是单一的对应单位,其内部不再分割:

表2 对应单位的边界

对应单位识别的工作原则为:1)人工识别与智能识别相结合原则。对翻译的对应性判断依赖双语语言文化及行业知识的运用,这是计算机不可能做到的,所以初始阶段需要人工判断和识别文本中的对应单位,软件系统对识别出的对应单位自动提取和标注,并利用数据库管理起来。之后,软件应用对应单位数据库对新入库文本进行智能识别和提取,剩余部分仍由人工完成。2)最优边界原则。由于对应单位的定义非常灵活,所以人工识别对应单位时较难把握其边界。最优边界原则即是在保证对应完整、边界清晰的前提下,对对应单位做最小划分。如“中国社会各阶级”(the classes in Chinese society)可以进一步分为“中国社会”(in Chinese society)和“各阶级”(the classes)。人工划分的大小并不是一个关键问题,但如果划分的对应单位太大,其在语料库中的复现频率就越低,这可能对系统后续的智能翻译构成风险。3)穷尽原则。尽可能匹配最大量单位,使剩余非匹配文本片段减到最少。所以,不同源语言的对应单位应分别标注。4)区分连续性单位和非连续性单位,标记并提取非对应单位。如表2中“以……为代表的”在源语言中是一个非连续性单位,而对应的目的语却是一个连续的单位③。对应单位识别完成后,系统对平行文本进行检查,并把非对应单位标注起来。实际上,非对应单位标注后,也作为一个序列看待,这是因为数据库要与文本不断交换数据,平行文本应保持完整并与数据库对应起来。

3. 系统设计与开发

我们在设计系统时,主要考虑到以下需求:1)基于网络服务器,面向多用户群开放的动态交互平台,体现“用户既是享用者,又是参与者和贡献者”的思想。一方面,多家单位需要分工合作,需要系统对数据实时汇总和发布。另一方面,用户群共同使用并识别平行文本中的对应单位,分享和交流对应单位的识别和判断经验与知识,系统追踪和记录参与者识别与判断行为,并通过系统智能匹配体现出来。2)把建库、分析及识别翻译看作一个动态的过程,并整合这几大模块,使软件系统在学习和训练中成长。以往的平行语料库建库、分析及应用被分为多个相互独立的阶段,平行文本库和数据库完成后成为封闭系统,个别系统甚至把文本库弃之不用,只保留数据库,这可能会导致数据衰老,不堪应对日益变化的语言运用。3)人工介入递减原则。在初始阶段,需要大量人工介入,随着平行库及数据库的壮大和成长,系统智能匹配能力增强,人工介入应逐步减少,在以后阶段,人工只对系统析出的非对应块进行判断和识别。4)模块化管理及软件热插拔思想。平行语料库系统内部各个模块应相对独立,并且可定制。软件一次开发完成后,不需要重复开发。

系统的基本工作流程可分为:1)平行文本的导入与预处理,包括文本清理、段落和句子XML自动标注和管理。2)对应单位智能识别和人工识别。3)对应单位自动提取及入库管理。4)处理后平行语料库入库及数据库关联(见下图)。

图1 平行语料库建库及对应单位识别流程示意图

图2 软件系统对平行文本的预处理

在智能匹配时,软件在目的语文本制定区域内查找,并根据频率显示最佳选择,由人工判断是否接受。为便于人工观察,智能匹配在一个独立窗口显示匹配的单位和语境。智能匹配可以随时中断,开始人工识别和匹配。识别者在源语言文本和目的语文本中通过“点击选中”或“拖拉选中”选择对应单位,并点击入库④。

图3 对应单位智能匹配

平行语料库统计和检索分析分为两大模块:1)对应单位检索和基本信息统计。2)全文检索及索引分析。在这里,检索词及语境信息都是可以定制的,所以我们把它称作“语境中的自适应单位”(Self-adapted Unit in Context,SUIT),以和传统语料库中的KWIC区别开来。

图4 对应单位检索及基本信息统计

图5 对应单位的索引分析

在平行文本索引检索中,实现对应单位的平行检索,这时对齐的基本依据是各个对应块,在进一步计算对应单位的共现搭配,只计算所检索的对应单位左右位置的线性序列。

图6 对应单位的搭配统计

4. 翻译对应的复杂性

尽管目前该平行语料库尚未完全建成,但初始检索和统计显示的翻译对应复杂性,却远远超出我们最大胆的想象。从呈现的对应关系上,我们发现以下几种情况:1)一对多或多对一对应,即一个源语言表达在目的语文本中具有多种翻译,词语序列越短,翻译的变异性越强。如“发展”一词仅在政治领域文本中就有十余种不同的译法,使用的词语(归元处理后)包括“develop,accelerate,advance,cultivate,promote,evolution,expand,furthering,improve,introduce,move,progress,grow”;作为对比,以英语为源语言文本中的“develop”一词分别被译为“发展、建设、开拓、加强、树立、形成、产生、开发、建立、拓宽、搞上去、阐明、推动”等。2)零对一或零对多对应。由于两种语言语境应用及语体运用特征不同,源语言中通过语境指涉或预示的意义,在目的语文本中得到重构,或者在源语言文本中显性表达的意义,在目的语文本中通过指涉进行隐性表达。此外源语言中的赘词在翻译过程中被滤除,如汉语中的“X+水平、问题、情况”结构,后加的词语如不表达实际意义一般不被译出。3)简对繁或繁对简对应。源语言的习语、略语或成套的表达在目的语中往往被展开或解释,如“米袋子省长负责制”(译语:provincial governors assuming responsibility for the rice bag (grain supply))中对“米袋子”,“打破‘三铁’”(译语:break the Three Irons: iron armchairs (life-time posts), iron rice bowl (life-time employment) and iron wages (guaranteed pay))中对“三铁”的解释等。与上述对应关系相比,功能词的翻译对应更加复杂多变。这表明,以词语为依据进行形态、结构和意义分析及转换十分靠不住。也有人把这种翻译的变异性归结为缺乏规范和标准,对翻译研究表现出一种规约性态度。我们认为,翻译研究应该是描述性的,研究者不应该凌驾于翻译实践之上,而随意对翻译事实作出价值性判断。

5. 结语:难题与讨论

在对应单位识别及应用中,我们发现尚存在以下难题:1)对应单位的边界问题与人工判断的可靠性问题。从表面来看,每个识别者在判断对应单位时,依靠的是个人知识经验以及对语境的把握,似乎是以直觉和经验为主,且每个人判断的标准及标注的边界不尽一致,这样很容易得出结论:对应单位的判断仅仅是实验性的,结果并不可靠。此外,人工判断某一个单位时,添加了XML标签,似乎是对文本进行了人工干预,使用了预定义的框架,不符合“干净文本”原则和语料库驱动思想。这是一种误解甚至是曲解。理由如下:

(1) 人工判断不是凭空作出的,必须以双语视角及对应边界为依据,对文本中的对应单位进行判断,判断的结果可能存在长度上的差异(即对应单位的大小),而不会产生对应移位或非对应错误。

(2) 人工判断错误不可避免,因而有可能产生非对应性错误,但该错误被重复的几率很小。当另一个识别者(在智能识别过程中)看到这种不得当的对应单位时,会拒绝接受,并重新作出判断。我们可以把识别者看成是一个社团,其互相沟通的基本平台是动态数据库支持的对应界面,以及对数据库中对应单位的多次重复判断。一个对应单位的每一次被认可和接受,不仅增加了该单位的频数,也使得该单位的地位逐步得到确立。可接受性强的对应单位总是会被接受,反之得到拒绝。群体行为的重复构成了对应单位的概率基础。这种多人多次的判断,实际上就是对某一单位的多重验证,这种验证不仅来自人工,还来自实际的文本,其过程可表述为:

a) 当前文本中必须有完全匹配的序列;

b) 识别者依据自己的经验和直觉认可这种对应。

以上二者缺一不可。

(3) 反过来说,假定一个“错误”的判断也被多次重复和接受,且有很高的复现率,那么需要重新评价的不是数据库中对应单位,而是该单位是“错误”的说法本身就有问题。

(4) 关于可靠性。当我们说什么东西是否可靠时,必须有一个基本指向和参照,任何事物本身无所谓可靠与不可靠,可靠性是一种主观认知。也就是说,当我们说某个数据是否可靠时,实际上是参照某种理论和框架体系而言的。说直白一些,就是想拿数据做什么:当研究者有一个具体目标框架体系时,才会产生所使用数据是否可靠的问题。以后的研究者可以完全抛开对应单位这种数据,直接到原文本中去爬梳;目前的对应单位实际上只是一种经过组织的底层数据。对应单位的识别与标注与任何先入为主的语言学研究无关。但如果研究者的目的是观察双语文本,研究翻译事实,对应单位的提取改进了数据呈现的方式,同时也提高了数据的可用性。当然,对应单位本身是一个操作概念,是一种处理和呈现数据的方法,但可以从对应单位中生发理论或验证某个理论。2)进一步限制平行文本的领域和文类问题。在设计平行语料库初始阶段,应尽量避免大而全,避免虚构性作品,尽量限定一个特定领域并选择翻译对应较为严谨的文本。3)对应单位的分类和分析。对应单位不是一个预先设定的理论概念,所以对它的分类和分析是后延的。同时,也不能在对应单位识别过程中就建立分类框架。

在平行语料库系统进一步开发中,我们将充分利用网络数据库资源,进行给定文本中对应单位的识别和判断,提高系统的可操作性,也为平行语料库的应用开发奠定基础。

附注:

① Sinclair也提到,单个的词也可能构成意义单位,但属于个别现象(Sinclairetal. 2004)。

② 一个翻译单位在原语境中是无歧义的,但抽离以后就难说了。

③ 2007年12月与卫乃兴、濮建忠共同修订了操作原则,并通过“上海交大国家课题研讨——平行文本对应单位识别Workshop”讨论确定如下:1)基本原则。A.区分源语文本和目的语文本;B.双语视角原则:以平行文本相互参照确定对应单位的边界,要求边界清晰对应;C.预测原则:确立一个对应单位时,预测其将来的应用性价值。2)操作原则。A.习语原则:优先判断源语文本中习语、成语、熟语等成套出现的单位;B.专指名称原则:判断源语言文本中的专指名称,如人名、地名、机构组织名称、术语等,作为对应单位的依据;C.自由判断原则:对一些词语的自由组合,是否进一步拆分,个人判断不一。应用自由判断原则,即操作者根据自己的判断,确定对应单位的边界,如“真正的朋友”(“real friends”)是一个单位还是两个单位,由个人判定。D.虚词处理原则:对一些独立使用的虚词,如冠词、介词、连词以及代词或含有话语指代的词语,不进行对应处理。E.非连续性对应单位的处理原则:对一些非连续性对应单位,使用不同的标签标记;软件界面作出响应。

④ 该系统的技术开发由河南师范大学语料库应用研发团队软件工程师韩朝阳负责。

Sinclair, J. M., S. Jones & R. Daley. 2004.EnglishCollocationStudies:TheOSTIReport[M]. London/New York: Continuum.

Sinclair, J. 2005. Corpus and text—Basic principles [A]. In M. Wynne (ed.).DevelopingLinguisticCorpora:AGuidetoGoodPractice[C]. Oxford: Oxbow Books: 1-16. Available online from http:∥ahds.ac.uk/linguisitc-corpora [Accessed 2009-05-12].

Teubert. W. 2004. Translation Unit [R].新乡:河南师范大学.

Teubert, W. 2005. My version of corpus linguistics [J].InternationalJournalofCorpusLinguistics10(1): 1-14.

冯志伟.2003.机器翻译的现状和问题[A].徐波,孙茂松、靳光瑾主编.中文信息处理若干重要问题[C].北京:科学出版社:353-377.

李文中.2010.语料库语言学的研究视野[J].解放军外国语学院学报(3):37-40.

李文中.2006.From translation units to corresponding units: a corpus-driven approach[R].上海交通大学庆贺杨惠中先生执教50周年暨应用语言学研讨会,上海交通大学.

猜你喜欢
平行语料库语境
向量的平行与垂直
平行
逃离平行世界
《语料库翻译文体学》评介
基于COCA语料库的近义词辨析 ——以choose和select为例
再顶平行进口
语言学习中语境化的输入与输出
基于JAVAEE的维吾尔中介语语料库开发与实现
跟踪导练(三)2
论幽默语境中的预设触发语