中韩双语对译平行语料库的创建与应用研究

2018-06-02 10:00李丹
读与写·上旬刊 2018年3期

李丹

摘要:韩汉-汉韩平行语料库是语料库的一个重要类型, 可以在语言对比、翻译研究、语言教学和词典编纂方而发挥独特作用。 该平行语料库建库的总体流程主要包括语料采集、整理和加工、存储等筹划,目前虽在设计上有突破,但还存在许多困难。

关键词:中韩平行语料库;语料采集;语料整理

中图分类号:G648文献标识码:B文章编号:1672-1578(2018)03-0007-01

1.引言

近年来,平行语料库正日益受到人们关注。平行语料库是由源语文本原文及其平行对应的译语文本构成的双语或多语语料库,其对齐程度有词级、句级、段级和篇级几种。平行语料库按照翻译方向的不同,可分为单向平行语料库、双向平行语料库和多向平行语料库。平行语料库不仅可以广泛运用于翻译研究与培训、双语对比、双语词典编纂,还可用于外语教学和学生自主学习辅助平台。在国内许多学者开始尝试西语语料库的建设。可以说西语语料库已经初具规模,其中,北京外国语大学已建成了规模约2000万字词的英汉平行语料库。

目前,国内外平行语料库的建设和发展已经取得很大成就,特别是汉英或者英汉双语平行语料库的数量及种类较多,语料的规模和语料的选取具有科学性、语料标注具有规范性。中日,汉俄平行语料库的建设由于有汉英平行语料库作为参照,在语料规模、选材方法、标注规范和深度等方面,具有后发优势,而中韩平行语料库建设和应用则刚刚起步,有待进一步探讨和研究。

2.中韩双语对译平行语料库的构建方案

2.1设计理念

2.1.1服务对象:为从事韩国语教学的教师、学习韩国语的学生以及译者提供可检索的翻译网络数据库应用方面的服务;

2.1.2设计目的:应用于中韩语言对比研究、翻译语言及规范研究;应用于中韩(韩中)翻译研究;应用于中韩语言转换规律的探讨和韩国语外语教学、 双语词典编纂等;

2.1.3语库规模: 先根据实际需要建立一个个小型语料库,然后在小型语料库基础上逐步接近或达到千万词级,最后建立理想型的语料库。

2.1.4韩汉比例:语料收集中,在涉及面广的基础上,不仅要收集韩文原文和中文原文还要收集韩文译文和中文译文。从数量上通常韩译汉的原文和译文要多于汉译韩的原文和译文。

2.1.5语料要求:以共时(现代韩语和现当代中文)书面语的语料为主,题材可按照正式公文、报刊杂志、文学作品、新闻消息、科学技术和经济贸易等,根据具体内容分类采集或收集。

2.1.6标注加工:利用软件操作,让句子层级自动对齐。自动对齐后需要人工再次校对。此外,还可选用词性标注半自动和人工相结合的方式)

2.1.7评价标准(通过搜索引擎或专家评判方式进行检验)。

2.2中韩平行语料库的构建方案。中韩平行语料库的建立和应用将语言学研究的客体对象定位于语料库中的文本。也就是说,在语料库的建设中,韩国语语料的选取、标注、存储、管理等建设都要围绕韩国语语料库的文本进行。 此外,韩国语文本资料还是中韩平行语料庫的应用、中韩子语料库的生成、语料的分析统计的基础;也是构建中韩平行语料库的基础。其主要内容包括语料的采集、语料的加工、语料库的组织和网络检索平台的更新。

2.2.1韩国语语料采集。韩国语语料的采集应尽量选用书面语文本,书面语越正式越好。之所以选用书面语文本,就是要考虑语言及其译文的规范性。从可用性上来说,公文体文本的规范性最强,其次是其他正式文本包括新闻文本和文学文本。中韩语料库后续建设方向包括采集标准和应用目标。其中采集标准是指语料的质量问题,在语言资料整理加工、收录和保存过程中,要保证源语言本身的"质量"、翻译质量和相应的规范性,避免乱码现象;而应用目标是指应根据语料库建设的近期目标和长远目标,灵活安排语料的文本类型语料的内容,注重原始语料中语言质量、翻译质量及语料保存的规范性,以有助于翻译教学为准则。

2.2.2子库的组成

2.2.3语料的采集。首先,发挥团队合作的精神,小组分工,广泛应用计算机、互联网、扫描仪等现代化科学技术,全面收集语料;通过和翻译公司和旅游公司合作,将接手的翻译项目完成之后,将语料进行整理、归类; 通过互联网和共同兴趣的人交换语料;组织学生收集整理语料等方法建立汉韩双语平行语料库平台。中韩平行语料库书面语料采集应遵循权威性原则(原文应具有代表性,典型性,译者应为该领域的权威)、共时性原则(只收录现当代中韩文本,且同一子库的韩国语、汉语文本是同时一代的)、科学性原则(选择语料不要求全、求大,应科学抽样,兼顾平衡)。然后,尝试将中韩平行语料库引入翻译实践与翻译教学中,通过实验探讨在现有技术条件下中韩平行语料库用于翻译实践可能产生的积极效果,并通过教案的形式,说明中韩平行语料库在翻译教学中的具体应用,旨在探讨基于语料库方法的翻译教学模式。

中韩语料库拟要收录的主要文本,从类型上可以分为正式文档 、新闻文档和文学作品及评论。其中,正式文档包括"政府、经贸、科技、法律文本及白皮书";新闻文档包括"时政要闻、述评";其他文档包括教学文档、文教类文档。文档收集应注重材料内容的共时性,尽量收集现代或当代的文本资料,如正式文档可收集近几年的文本资料;新闻文档可收集最能反映社会现实的文本资料;