刘曲 杨天地
摘 要:翻译语料库的建设和研究探索始于上世纪中期,经过几十年的发展,国内外翻译语料库的建设已经取得了丰硕的成果,并在计算机技术的辅助下不断向专业性和个性化的方向发展。
关键词:翻译语料库;建设现状;发展趋势
0 引言
语料库语言学和语料库建设的研究是一个相对起步较晚的领域,自上世纪五十年代以来,随着计算机科学研究的推广和深入,各门类语料库的建设研究逐渐进入高速发展阶段,并成为推动语料库语言学发展的源动力。
1 翻译语料库与平行语料库
翻译语料库是指按照一定的语言学标准,在随机采样的基础上,广泛收集具有代表性、真实性和典型性特征的连续语言运用材料文本或话语使用片段的具有一定包容性和可分析行的大型电子语料文本的集合。语料库可为语言运用提供学习范本,也可用于不同层面和领域的相关语言研究和语言教学。专业语料库的建设更是专业语言研究不可或缺的有利工具。
平行语料库属双语语料库的一种,是目前双语翻译语料库中最典型、使用最为广泛的一种形式。平行语料库主要收集原语与译语的对照预料,“按设定的标准对语料进行句子或段落的对齐,常用于考察原文中的某些语言现象如何在译文中得到反映”(李德超,2010)。
2 国外翻译语料库研究建设现状
国外翻译语料库研究大体经历了三个阶段:第一阶段,20世纪60年代至70年代第一代电子语料库时期,以Quirk、Francis、Leech 等语言学家的研究为代表,诞生了BROWN、LOB和LLC三大经典语料库。这三大语料库建立过程中形成的基本方法和基本原则,为建立更大规模的语料库奠定了基础,标志着语料库研究进入电子时代。第二阶段,20世纪80至90年代第二代电子语料库时期。出现了一批容量更大、标注及检索统计手段更先进新型电子语料库。最典型的是COBUILD、Longman、BNC、ICE等,与第一代电子语料库相比容量更大,通常以亿为单位,采用了更加先进的计算机技术,检索统计能力更强,速度更快。第三阶段,20世纪90年代至今的第三代电子语料库时期。计算机标注技术、索引技术和检索技术极大地提高了对超大规模语料库的处理和查找能力。以上三方面为特大型语料库、监控语料库、多模态语料库及多功能语料库的建设提供了物质基础,这一时期的主流语料库主要有COCA、BNC、ANC、OEC和BOE。特大型语料库为基于语料库的语言学研究提供更全面、更丰富和更可靠的数据支持,由于语料规模巨大,概率统计更趋于平衡,语料采集时就更容易保证语料的典型性和代表性,从而降低平衡语料库的平衡度对语料库的代表性的影响。
3 国内翻译语料库的研究建设现状
国内翻译语料库研究从20世纪70年代末80年代初兴起,20世纪90年代后,随着语料库语言学研究的深入,广泛开展了语料库建设研究,并形成了一批高水平的语料库研究团队,建成了JDEST、CEEC、CLEC、COLSEC、SWECCL 等较大型的英语学习者语料库,并基于这些语料库开展了广泛的英语语言学及教学研究。我国近30年语料库研究实践具有两个共性特征:第一,语料主要来源于各级各类英语考试。SWECCL的语料采集于全国大学英语四级考试作文,COLSEC语料采集于全国大学英语口语考试录音,SECCL采用了全国英语专业四级口语录音,CEEC则采用全国英语高考广东省考生抽样的英语作文。采用来自各级各类英语考试的语料不仅使语料搜集更加容易,而且保证语料的代表性,客观反应我国不同级别英语学习者的实际水平。第二,语料标注及检索均采用国际通用软件与自行研发软件相结合的方式,国际通用软件包括CLAWS、Wordsmith、TACT、Paraconcordancer、ICECUP、OCP、SARA。国内语料库研究者也根據需要,自主开发了一些检索及标注工具,如CEEC研制的中英文检索系统Project,CLEC研制的Corfind用于标注、Cbrower用于检索、Cleantxt用于清除汉字符号、Pargraph用于清除转行符用、Merge用于合并和统计词。自主开发的标注系统和检索工具,弥补了国外常用语料库工具处理中文的缺陷,使语料库研究更为客观全面。
4 语料库的未来发展趋势
首先,迄今为止,国内外学者、研究机构高校院所等所建立的语料库多以通用型语料库为主,容量巨大,标准明确,其语料来源多基于国内外规模成熟的标准化考试材料,但是随着专业领域研究的不断深入,通用型语料库已不能满足不同专业领域研究的需要,不能为专业研究提供更精准的数据支撑。因此,研究并建立一批专业性强的小型语料库显得势在必行。
其次,随着计算机技术的不断深入发展和推广,个人计算机能力的不断增强,借助计算机实现更加智能化的语料库标注和分类操作将成为可能,而且研究者也可以根据个人的研究条件和特色,在计算机的辅助下自行建立更有效辅助研究工作的个性化语料库。
参考文献
[1]李德超,王克非.新型双语旅游语料库的研制和应用[J].现代外语,2010,(1).