俄汉文学翻译语料库的创建*
——基于契诃夫小说平行语料库的设计与建构

2016-10-26 02:29
外语学刊 2016年1期
关键词:契诃夫俄语译本

刘 淼 邵 青

(北京第二外国语学院,北京 100024/北京大学,北京 100871;中央电视台网络传播中心,北京 100048)

俄汉文学翻译语料库的创建*
——基于契诃夫小说平行语料库的设计与建构

刘 淼 邵 青

(北京第二外国语学院,北京 100024/北京大学,北京 100871;中央电视台网络传播中心,北京 100048)

基于契诃夫短篇小说创建的俄汉文学翻译语料库是一个以俄语经典文学作品及其中文译本为语料的双语平行语料库。创建本语料库的主要环节包括语料文本的选择与加工、语句属性的确定与标注、搜索功能的支持与扩展以及用户体验的设计与维护。创建本语料库的重要思想之一是用互联网平台进行语料库的存储与运行,使大众用户能够充分利用互联网平台完成数据共享与研究交流。

俄汉平行翻译语料库;语料库的创建;契诃夫短篇小说

1 引言

语料库语言学的发展已有五十多年的历史,已经成为一门较为成熟、成果丰富的前沿热点学科。推动语料库语言学发展的重要因素之一是语料库的开发与研制,持续建设各种不同类别、不同用途的语料库是语料库语言学发展的动力源头。

我国俄语界的语料库语言学研究起步较晚,已有的成果主要分为4类:一是探讨语料库创建过程中的具体环节,如标注俄语语料的原则与方法;二是依托俄罗斯国家语料库的相关研究成果,主要包括语法研究与语料标注研究(陈虹 2012,李绍哲 2012);三是自建俄语单语语料库,使用相关软件从词频、关键词和词汇搭配等角度分析总结语料库的相关数据(张禄彭 张超静 2012);四是自建俄汉平行语料库,进行双语对比研究(崔卫 2014)。总的来说,基于俄语单语语料库的研究成果相对较多,而俄汉双语语料库的研制与应用鲜有学者涉及。然而,双语语料库较单语语料库有更广泛的应用空间,如翻译研究、翻译教学、对比语言学、双语词典编撰与翻译软件开发等领域。本文将创建俄汉平行语料库作为研究目标,探讨基于契诃夫小说及其3个中文译本的俄汉文学翻译语料库的创建以及互联网模式下语料库应用平台的搭建与运行。

2 基于契诃夫小说的俄汉文学翻译语料库的创建

2.1 语料库的创建目的与应用价值

基于契诃夫小说的俄汉文学翻译语料库是一个以经典文学作品及其译本为语料、通过互联网平台的形式对源语与译文进行再现的平行语料库,文学翻译语料库的特点在于其语料的经典与准确。文学大师创造的经典文学作品是民族智慧的结晶,它使民族语言得到完好的保存与高度的凝练。同时,原著的经典译本也是外国文学研究的热点之一。同一部经典作品往往有多个版本的译文,将原著与多个译本联系在一起,进行原著与译本、译本与译本间的对比研究,符合现代翻译学、现代语言学重视言语、对语言进行描写式研究的发展趋势。而计算机技术的发展使原著及多个译本语料的搜集、存储、标注、搜索及统计成为可能;互联网技术的发展为多用户在线访问、发表评论及用户交流提供保障。

基于契诃夫小说及其3个中译本创建的俄汉文学翻译语料库能够帮助研究者在掌握大量真实语料的基础上将定性研究与定量研究结合起来,从而更好地辅助翻译教学与翻译研究。

语料的选取是俄汉文学翻译语料库创建的第一个重要环节。在确定作家和具体文学作品时,须要考虑作家的知名度、译本的多样化、作品内容的代表性、语言的规范性以及语言现象的丰富程度等因素。契诃夫是俄罗斯文学巨匠,其作品语言以精练准确见长。他的作品被中国读者广泛熟知,且中文译本较多,便于进行翻译文本的平行对比。基于契诃夫小说的俄汉文学翻译语料库共收录他的7部短篇小说《Аннанашее》,《Ванька》,《Смертьчиновника》,《Толстый и тонкий》,《Хамелеон》,《Человек в футляре》,《Крыжовник》和1部中篇小说《Палата № 6》. 这些作品的原文出自1983-1986年间俄罗斯科学出版社出版发行的30卷本《契诃夫作品全集》;中文译本选择汝龙(《契诃夫小说全集》,上海译文出版社, 2000)、沈念驹(《契诃夫短篇小说精选》,浙江少年儿童出版社, 2009)和冯加(《契诃夫中短篇小说集》,译林出版社, 2011)的翻译作品。

2.3 语料的加工

语料加工的质量决定语料库数据的可靠性,所有数据必须经过初步处理后方可录入计算机。语料文本的处理主要分以下几个步骤:(1)语料采集。随着信息技术的不断发展,互联网上已能搜索到契诃夫短篇小说作品的俄语和汉语文本。课题组下载电子版后与纸质版原文仔细校对,经过整理后分别保存为格式统一的txt文档。(2)文本处理。为方便电脑读取和显示,须要对文本格式进行统一化处理:俄语文本使用半角标点符号,汉语文本使用全角标点符号,每个自然段段首不保留空格,段与段之间不保留空行。(3)段落划分。由于俄汉语言的差异,加之译者的个人因素,有些译文的段落分布并未与原文保持一致。考虑到语料平行对比的需要,课题组以俄语原文的章节、段落划分为基准,相应的汉语文本按照原文段落进行调整。同一段俄语原文及其3个译本为1组段落,每组段落均赋予1个独立的Paragraph ID,便于数据索引。(4)语句对齐。语句层面同样以俄语为基准,将汉语文本与原文一一对应。由于在文学作品的译文中经常出现语序的调整,故这一步骤暂由人工完成,而新闻、科技等其他语体可使用SDL Trados(www.trados.com)内置的WinAlign等工具自动进行,完成后须要进行人工校正。同1句俄语原文及其3个译本为1组语句,每组语句均赋予1个独立的Sentence ID,并且与其所属段落的Paragraph ID相对应,这便于定位数据,使语料库各组成部分间存在明确的层次结构。(5)数据导入。先前步骤已完成句子层面的初步处理,为便于计算机存储和管理这些数据,需将每1组已对齐的语句及对应ID制作成1条记录,生成xml格式的数据表,并导入SQL数据库。

2.4 语料属性标注

标注指以统一的标准来标示语料文本所具有的特征,并将数据用二维表结构进行逻辑表达,使信息的性质和量值出现在固定的位置,实现数据的结构化,以便根据特定条件筛选出符合相应需求的语料。语料库不仅仅是原始语料的集合,而且是有结构的、标注语法、语义、语音、语用等语言信息的语料的集合,这是语料库区别于一般的文本数据库的重要标志(何婷婷 2003:14)。例如,俄罗斯国家语料库设置被搜索词句的“词汇-语法特征”筛选功能,从语法特征、语义特征、补充特征、词组特征等角度设置一百二十多个属性选项;又如北京大学的《人民日报》标注语料库,从26个基本词类、专有名词和语言学角度对所有的语料进行多达四十余项的标记,帮助用户精确定位所需信息。

在对语料进行属性标注前,首先须要标注语料库对象文本的元数据,即描述数据及其环境数据,包括语言、版本、作者、出版信息等。为便于从原文及各个译本中筛选出含有一定特征的语句加以研究,录入语句的同时还要定义其独有的属性字段,即语句属性的标注,据此可在语料库中进行更详细的搜索。俄汉翻译语料库检索所需的标注属性划分尚无现成案例可以套用,如果要达到一定的精准度和可信度,需要有一套相对科学严谨的属性标准。根据俄译汉教学与翻译研究的需要,课题组对原文及译文进行3个层面的人工属性标注,即“语法范畴”、“修辞范畴”和“翻译技巧”。其中,语法范畴指原文自身的语法属性,包括“单部句类型”与“动词非变位形式”;修辞范畴分为原文修辞与译文修辞两部分,其中原文修辞主要包括俗语、习语、谚语、成语、词汇情感色彩后缀、人名称谓、比喻和借代;译文修辞包括四字格、正反义词、叠词与象声词;翻译技巧主要包括增译、减译、成分改变、断句与合句。

人工标注的优势在于能够完成机器无法识别的一些属性标注,可以为研究者提供更有针对性的属性检索与面向某一具体属性的定量研究材料。如原句语法属性的标注能够帮助使用者便捷地一键搜索到所有带有相关属性的句子,大大节省阅读与记录的时间,同时又能查看不同译本的翻译方案与翻译策略;而翻译技巧的属性标注则显示译者对原文的不同处理方式,能够有效地保障多译本模式下不同译者翻译风格的定量与定性研究。

在这样的学术背景下,上海交通大学刘华文教授《翻译诗学》一书的出版无疑是及时而可贵的。正如顾明栋(2015:vii)教授在该书序中所说,该书“精当地将翻译和诗学、中西哲学和美学、中西文论和语言理论、中国译学史料和翻译实践相结合,已初步构建成一个学贯中西、打通古今、理论联系实践的体大思精之作,可以说是迄今为止最好的一部中国翻译诗学。”

然而,人工属性标注的不足之处也是显而易见的。这种标注方式耗时长,需要大量人力资源的保障。因很难快速处理海量文本,所以其准确性难免受到标注人自身知识水平的限制。但由于目前俄文信息处理技术的限制,俄语语句属性的自动标注在实际操作中不易实现,语料的整理标注工作十分艰辛,大量的手工操作必不可少。为了保证标注的准确统一,课题组定期检查标注错误并及时纠正,力求使错误发生的概率降到最低。

2.5 语料库检索功能开发

语料的检索是语料库面对用户最重要的核心功能之一。而俄语词汇具有变化繁杂、词形众多的特点,如只对一种词形进行搜索,则须要进行多次操作才能获得较为全面的信息;若通过模糊搜索等方法扩大检索范围,得到的结果往往包含大量不需要的信息。对此,课题组深入研究,刻苦攻关,研发出包含俄语基本词汇所有词形变化的语料检索功能。

契诃夫小说俄汉文学翻译语料库检索功能的开发是基于А. А. Зализняк主编的《俄语语法词典》。这是一本俄语词形变化词典,全书共收录词条10万余个,详尽地给出这些俄语词汇可能发生的所有变化方式,并列举和分类,归纳成索引符号。该词典的电子化版本奠定众多计算机运行俄语程序的基础,涵盖拼写检查、搜索引擎、机器翻译等诸多领域,为俄语国家的现代化建设做出重要贡献。通过《俄语语法词典》所列的词形变化,课题组归纳出俄语基本词汇形变的具体算法,结合词典中提供的特例,利用计算机根据词条自动处理,整理出常用俄语词汇的词形列表。

搜索功能的运行流程可分为输入、回溯、检索和输出4个步骤。假设其中1个俄语单词的原形为A,其所有变化形式为A1, A2, A3…An,搜索时输入的关键词为Ax,那么程序就会将关键词与词形变化列表进行比对,据此判断出Ax属于A1~An中的一项,再逐个对A1~An进行搜索,最终向用户返回完整的搜索结果。例如,A为单词原形человек,A1, A2, A3...An则为其所有可能出现的变化形式:человек, человека, человеку, человеком, человеке, люди, людей, людям, людьми, людях. 当用户输入的关键词Ax为человек时,程序将判定出该词属于集合{человек, человека, ..., людях},并分别以человек, человека, ..., людях作为关键词检索,并整合查找到的结果,最终反馈给用户的结果如下:

图1 俄汉文学翻译语料库对человек搜索的结果(部分)

2.6 语料库存储和使用平台的构建

当前,国内俄汉翻译平行语料库建设已实现语料在本地数据库的存储,并开发了相应的语料处理工具和管理系统。这些方法已经可以满足较为初步的基于俄汉对照的翻译教学与研究,但仍存在两个问题:(1)数据未能存储在云端,且缺少开放的外部用户界面,本地域之外使用较为不便,移动性不强;(2)依赖管理系统应用程序,仅能在特定操作系统运行,迭代开发较为繁琐,兼容性不强。为满足不同的教学和研究需要,课题组经过广泛调研和深入分析,提出具有普适性的语料库平台基本框架,以便在线进行内容管理和数据检索。

该平台不同于传统语料库的Client/Server结构(客户端/服务器模式),它采用Browser/Server结构(浏览器/服务器模式)将系统功能实现的核心部分集中到服务器上,简化系统的开发、维护和使用;采用的MySQL关系型数据库管理系统具有体积小、速度快的特点,并可以通过索引功能加快数据检索操作;编程语言采用Java,可在所有平台的任意环境中开发、部署、扩展;运行环境为轻量级应用服务器Tomcat,适合语料库这类中小型系统和并发访问用户较少的场合,运行时占用的系统资源小,扩展性较强。该平台具有以下优势:(1)使用方便,随时随地均可进行语料检索;(2)兼容性强,在Windows,Linux,Mac OS等各种操作系统上均可正常使用;(3)类型开放,可建设多语种、多语体、多版本、多种标注属性的平行语料库;(4)易于维护,可任意增删语料库或语料数据,技术升级和版本迭代更为简便;(5)程序轻量,可流畅运行;(6)免去安装,可直接使用。

目前,契诃夫小说俄汉文学翻译语料库的后台管理和前台检索系统已基本完成开发,录入数据7116条,总计78万余字,并通过相关备案手续(京ICP备12033280号)进入试运行阶段,网址为http://www.rucorpus.cn/,高级搜索界面和搜索结果界面如下:

图2 俄汉文学翻译语料库检索系统高级搜索界面

图3 俄汉文学翻译语料库检索系统搜索结果详情页

在语料库系统层级结构方面,该语料库可按照语体划为不同的类别,同一分类下可按作者、题材等添加多个语料库,每个新添加的语料库均可按作品、来源等容纳多个素材,继而划分素材段落,对语句进行标注,具体结构如下图所示:

图4 俄汉文学翻译语料库层级结构

3 语料库使用体验优化

为更好地满足用户需求,提升用户体验,俄汉文学翻译语料库检索系统加入一系列人性化的功能设置,以方便广大俄语学习者和研究者使用。

首先,搜索时如不需要关键词的所有词形变化,可勾选“精确匹配”,系统将只搜索用户输入的词形。在网站注册的用户登陆后,每条搜索结果都带有收藏按钮,点亮即可加入收藏,以便多次查询或异地调取先前搜索到的结果,用户可在自己的收藏夹查看已保存的结果。

其次,为便于收集用户反馈,提升语料库的内容和服务质量,语料详情页面增设评论功能,并且支持使用微博等社交平台账号登录和分享。同时,课题组还建立以俄语语料库为主题的互动社区,网址为http://bbs.rucorpus.cn/,社区包括俄语语料库专区、语料库专题研究、语料库书籍资料、学界新闻动态、用户意见征集等栏目,为广大语料库使用者和研究者提供资源共享和在线交流的平台。

4 当前存在的问题和今后的发展方向

由于国内俄汉文学翻译语料库的研究刚刚起步,加之课题组仍处于探索阶段,俄汉文学翻译语料库检索系统还有许多须要改进之处:(1)目前仅完成部分契诃夫作品的录入与标注,文本量相对较小,且语体和语料都较为单一,将来可扩大作家和作品范围,充实内容,可以尝试录入诗歌、剧本等其他体裁的文学作品,同时,也可尝试创建其他作家、作品的语料库,如普希金作品语料库、托尔斯泰作品语料库等。(2)依靠人工进行属性标注的效率较低,无法应对大量文本的标注。但人工标注是对文学等灵活性较强的语体进行属性标注的必经之路,也为语料属性的分类和框架构建奠定基础。随着语言语义研究的深入与计算机技术的不断进步,将来应努力实现计算机半自动或全自动属性标注。(4)目前语料库较偏重语法属性的标注,属性标注的分类和框架仍须要完善。今后课题组将会继续积极进行探索和实践,增加语义、语篇等类型的属性标注,并可尝试将各类语义词典的算法导入语料库,强化搜索功能。

5 结束语

契诃夫小说俄汉文学翻译语料库的创建是一次大胆的尝试,它创建俄汉翻译语料库的基本框架,探寻出一套具有普适性与开放性的内容管理平台;它对源语文本及多版本译文进行词法、句法与译法的属性标注,真正实现语料的数字化与结构化;它内置数据完备的搜索模块,能够高效地支持“一对多”的检索需求;它依托互联网平台,是我国首个面向大众用户的俄汉翻译在线语料库;它能解决当前俄汉语料库存在的移动性与兼容性差的问题,打破研发者与用户之间的空间壁垒。

目前,契诃夫小说俄汉文学翻译语料库的容量仍在不断地扩充中,除继续补充新的语料外,课题组还定期检查系统功能,及时纠正标注错误,最大限度地保障与提升语料的准确性。本语料库的建设经验与成果可为俄罗斯经典文学作品翻译语料库的建设提供一定的理论框架与操作支持,从而为我国俄语界目前研究较少、难度相对较大的俄汉/汉俄平行语料库建设做出自己的贡献。在“互联网+”的时代背景下,俄汉双语平行在线语料库的研发具有广阔的发展前景,对我国俄语教学、俄汉对比研究、俄语语言及文学研究具有重要的实践意义与学术价值。我们期待俄语界同仁共同努力,不断开发出不同用途的、更具应用价值的俄汉双语平行语料库,为俄汉语料库的研究添砖加瓦。鉴于篇幅所限,本语料库的应用研究将另文探讨。

陈 虹. 俄语语料库的标注[J]. 中国俄语教学, 2012(2).

崔 卫 李 峰. 俄汉-汉俄平行语料库的构建设想与应用展望[J]. 中国俄语教学, 2014(1).

何婷婷. 语料库研究[D]. 华中师范大学博士学位论文, 2003.

李绍哲. 俄语语料库和基于语料库的语法研究[D]. 黑龙江大学博士学位论文, 2012.

契诃夫. 契诃夫小说全集[M]. 上海: 上海译文出版社, 2000.

契诃夫. 契诃夫短篇小说精选[M]. 杭州: 浙江少年儿童出版社, 2009.

契诃夫. 契诃夫短篇小说集——变色龙[M]. 南京: 译林出版社, 2011.

张禄彭 张超静. 自建语料库在俄语教学中的应用[J]. 中国俄语教学, 2012(3).

Зализняк А. А. Граматический словарь русского языка[M]. Москва: АСТ-ПРЕСС, 2010.

Чехов А. П. Полное собрание сочинений и писем в 30-ти томах[M]. Москва: Наука, 1983-1986.

ConstructionofRussian-ChineseTranslationCorpus— On the Basis of Anton Chekhov’s Short Stories

Liu Miao Shao Qing

(Beijing International Studies University, Beijing 100024, China/Peking University, Beijing 100871, China; China Network Television, Beijing 100048, China)

Russian-Chinese translation corpus is a bilingual parallel corpus, which has Russian classic literature and their Chinese versions as the base of its linguistic data. Basic elements of constructing the corpus are as follows: text selection and processing, determination of sentence attributes and labeling, search function supporting and extending as well as user experience designing and maintenance. One of the most vital thoughts of constructing this corpus is building and running the corpus through the online platform. Hence, ordinary users can share the information in the corpus and enjoy communication by the full use of the Internet.

Russian-Chinese parallel translation corpus; construction of corpus; Chekhov’s short stories

*本文系北京市优秀人才培养资助D类项目“基于契诃夫短篇小说的俄汉翻译语料库的创建”(2010D005008000002)的阶段性成果,获北京市委组织部资助。

H319.5

A

1000-0100(2016)01-0154-5

10.16263/j.cnki.23-1071/h.2016.01.031

定稿日期:2015-07-09

【责任编辑王松鹤】

猜你喜欢
契诃夫俄语译本
俄语歌曲在俄语教学中的应用策略探究
浅议如何提高职业教育的俄语教学质量
变色龙
别让道歉成为一种打扰
别让道歉成为一种打扰
《佛说四人出现世间经》的西夏译本
《通玄记》的西夏译本
俄语词义结构中的使役关系类型
中国“俄语年”俄语知识竞赛启动
《孙子兵法》俄译本简介