周衍
(辽宁科技大学,辽宁 鞍山 114051)
语料库是为一个或多个应用目标而专门收集的、有一定结构的、有代表性的、可被计算机程序检索的、具有一定规模的语料集合[1]。20 世纪60 年代,最先兴起的是电子语料库。而后在经过五十多年的发展,语料库种类越来越多,分类越来越细化。按语种分类,可分为单语语料库,双语语料库和多语语料库;按对应关系,分为平行语料库和类比语料库;按用途分类,可分为通用语料库和专门语料库。
近年来许多学者研究开发双语平行语料库,采用原文与译文对齐的方式,实现词汇、短语、句子、段落、篇章等层面的双语自动对齐,用户可以根据自己的需要精确地检索各层面的对应翻译,有很强的针对性和实用性。国外双语平行语料库的建设开始于20 世纪90 年代中期,其中著名的平行语料库当属加拿大的英法双语议会会议录(the Canadian Hansards Corpus)、英国曼彻斯特大学的翻译语料库(TEC)、奥斯陆大学的英语-挪威语双语对应语料库(ENPC) 等。国内平行语料库的研究主要集中在英汉平行语料库的构建上。研究的重点主要集中在语料库的建设与发展技术、平行语料库在教学或翻译、语料库相关内容的分析与比较等领域中的应用等。目前国内规模最大的双语平行语料库是王克非教授主持建设的——汉英通用型对应语料库(PCCE)。与此同时,各地纷纷建立起了多种平行语料库研究,如衢州生态旅游汉英双语平行语料库,河东文化旅游资源汉英平行语料库,江西英汉平行语料库等。国内语料库的构建存在一些需改进的方面:1.语料库类别少,各种不同用途语料库急需丰富增加;2.小型语料库较多,没形成共联,可以实现同类型或者用途的多个小型语料库的联合应用;3.语料库没有大规模应用,利用率极低,应采取不同方式宣传推广;4.语料库中句子段落的对齐方式有待改进,不仅要实现句子、段落层面的对齐,更要实现深层含义的对应。基于以上不足,在语料库构建时,研究者应构建有一定规模,符合约定对齐标准的专门用途语料库,以满足更多专业语料库研究的需要。语料库的应用也应便于今后更大范围的连接和推广,实现共建共联。
鞍山的旅游资源包括:世界第一玉佛、亚洲著名温泉、国家名胜千山、中华宝玉之都和祖国钢铁之都。除此之外,鞍山拥有的国家级非物质文化遗产数量居全省首位,多达11 项,如岫岩满族民间剪纸,岫岩皮影、岫岩玉雕、海城高跷、评书、千山寺庙音乐,海城民间鼓乐、岫岩东北大鼓等。除了旅游民俗等相关的自然风光、景点介绍、地方民俗风情、传统文艺及传统技艺之外,将旅游相关语料,例如:城市概况、宾馆饭店、交通指南、购物美食等语料也搜集进语料库,为游客更好地提供服务。
所有语料的搜集都将编入鞍山旅游英汉平行语料库,该语料库的设计主要参考北京外国语大学王克非教授在《双语平行语料库∶研究与应用》[2]一书中描述的双语平行语料库设计思路进行设计。语料库的建立旨在整合相关旅游资料,进行旅游资料中英文本的合理分类、筛选、翻译、对齐、加工、标注,最终建成一定规模的双语平行语料库。
语料库的基本构建过程包括语料采集、语料录入、语料标注和对齐,以及语料的检索四个部分。首先是对原始语料进行全面搜集,筛选出较为专业的语料翻译,之后将所有语料在电子文档中保存。所有语料都应在经专家的审定之后使用录入,专家要着重对民族文化特色词汇进行汉英译文审定,并对缺少英语译文的中文语料,进行翻译,补齐双语语料,至此,原始语料采集阶段工作基本完成,形成原始语料电子文本库。接下来录入原始语料,首先是对语料进行校对,删除消除无用的语言信息,之后分别对英文语料进行基本的词性标注,最后采取计算机软件和人工标注相结合的方式进行双语语料平行对齐,形成汉英双语平行语料库。最后一个阶段是实现语料检索。通过平行语料检索工具,对语料库的检索功能进行测试、修正、再测试,最终达到可以进行在线检索的目标。
鞍山旅游双语平行语料库立足小型专业语料库,在语料的收集过程中要保证语料的代表性和专业性[3]。因此,采集所有关于鞍山旅游的原始语料,主要语料来源包括:鞍山政府相关外宣文件、宣传手册、调查报告、网站资料、正式出版的书籍、博物馆的资料、论文。将旅游相关中英文本进行筛选,尽量选出最新的翻译译文进行文本的保存。
采集后对语料进行整理分类。按照自然风光、民俗文化、交通食宿等进行分类。对中文语料进行重新梳理,借助翻译工具对语料进行翻译,之后进行人工校对。在对其中文进行翻译时,要注意:特别是对英文译文文本,在充分理解了解内涵含义的基础上,要进行修正和改进使其更加标准化,更加符合惯例,这也以便于将来与其他各地的语料库接轨。另外,人工校对时一定要保证统一性,尤其是专有名词,地名等。对于其它没有英译文的纯中文的语料,翻译时要多参考查阅资料,做到翻译尽量准确,符合翻译原则。最后用软件的翻译质量保证功能来评估翻译的整理语言质量,生成翻译报告后,请专家再次审核和校对译文,之后保存译文进行文本录入。
语料的标注指词性标注,又称词性赋码,是指对语料中的每一个字词按其在句子中的语法功能对其加注词性标记,如单数普通名词、动词的过去分词、形容词的比较级等[4]。
语料的标注和对齐是建好语料库的关键,它直接影响到语料库建成之后检索功能的精确性和实用性[5]。标注和对齐采用人工结合软件的方式进行。先用软件进行标注和对齐,然后辅之人工方式校对。用tagger 赋码器对词性进行标注。再用tmxmall在线语料对齐工具对语料对齐,语料对齐以句子为单位实现汉英对照。再具体实施中,在处理翻译对照时,由于中英文语序的不同,对句子逻辑关系的处理也不同,有时英文的一个长句会翻译成几句中文的短句,中文的多个句子也会合译为一个英文长句,以便更好地符合中英文语言规则。所以,鉴于中英文句法的差异,翻译就不能以句子一一对应为对齐方式,应该以句意为对齐方式,以体现完整的意思为基础。正确使用翻译技巧来保证中英文文本意义的完整表达,这也体现了翻译技巧的运用,对翻译的教学研究都有一定的实际意义和借鉴作用。此外,专用名词的翻译可按词组方式对齐,检索时,翻译结果应关联一些原文的出处,以便游客和学生进一步了解相关背景从而对检索词有清楚的理解。最后,使用语料库软件进行词组和句子对齐,软件对齐完成后,需人工进行调整。
语料标注对齐后,就需要用语料库软件将所有语料按一定方式整合起来,实现检索功能。由于软件涉及计算机网络、数据库技术层面的问题,而语料库软件又属于小众型应用软件,所以现成的软件并不多。现成的软件可以使用ParaConc等语料库检索软件语料整合完成后还需经过网络测试,测试成功后便可以放在网站上对用户开放,建成后根据用户体验不断持续完善语料库。
鞍山旅游双语平行语料库的建立能够助力区域经济发展,提升鞍山外宣水平,助力智慧旅游、智慧城市发展,对鞍山旅游文化的国际传播具有十分重要的意义。其一,翻译研究中越来越关注地方化特色。旅游民俗方面的翻译时,地方化特色的最佳代表,这无疑丰富了此方面的研究成果,为对外宣传研究提供了可借鉴参考的英文宣传范本和详实的实践例句。其二,根据详尽丰富的语料资源,可开发新型技术软件。在此基础上,探索更实用的检索方法,创造更多语料库的互联互通,运用软件升级等技术手段推广鞍山旅游双语语料库。
鞍山旅游文化平行语料库可以为相关学术研究提供借鉴,为语言研究者提供语料丰富的对比平台。研究者可以通过语料库研究鞍山文化的语言特征的差异和共性,为进一步研究旅游文化提供了方法和途径。依托鞍山旅游双语语料库在鞍山高校内开展语言与文化对比研究,可根据语料库的文本搜索功能获取的大量原始资料,可对旅游双语文本的风格、句法、词汇等进行比对和分析,进行定量和定性结合的研究。
鞍山旅游文化双语平行语料库还可以为鞍山地区高校的翻译教学,相关专业的培养提供丰富、有针对性的翻译实例。这些语料库中的直观文本能够成为学生学习翻译提供资料,激发学生的学习热情和对城市的热爱,提升课堂教学效果,对培养翻译人才、旅游从业人才的培养都有积极的作用。
目前我国已经建立了一些地域性的双语平行语料库、有力的服务和推动当地旅游产业的发展。为顺应旅游国际化的趋势,促进对外宣传,各地建立本土化的旅游双语平行语料库势在必行。因此,广泛搜集鞍山旅游资源,构建旅游文化平行语料库是为广大游客提供优质的旅游翻译服务,帮助人们充分认识旅游资源文化的内涵,从而提升品牌质量以及旅游市场价值。