文任彬
自上世纪50年代以来,以计算机技术为依托的语料库研究开始出现并快速发展,最初主要集中于语言学、词汇学、词典编撰等领域,进入20世纪90年代末,语料库开始与翻译研究结合,为翻译研究注入了新的灵感和活力,而21世纪以来,基于语料库的翻译研究的相关主题受到了越来越多翻译学者和大学教师的偏爱,大家开始尝试将语料库应用于各个具体领域的翻译实践中,例如:建筑英语语料库建设,人工智能背景下金融领域的语料库建设,《黄帝内经》英译语料库建设等等。
在此基础上,很多学者也将目光转向了语料库研究的微观方向和技术层面。语料库是按照一定的语言原则,运用随机抽样方法,收集自然出现的连续的语言,运用文本或话语片段而建立的具有一定容量的大型电子文本库。因此最重要的几个关键因素就是对语料的选择,对词频的准确把握和对文本的标识和赋码。首先在语料的选择上,双语语料库建设者应选择高质量的,权威的英汉翻译素材,例如专业课的双语教材;国家官方新闻网站的文章;著名翻译家的译著等。根据英语和汉语的特点,选择合适的句子做为数据存储的最小单位,设定对齐类型为一对多(原文对应多段译文)和多对一(译文对应多段原文),最大限度地满足检索者对翻译学习和研究的要求。除了对语料文本的挑选和处理,翻译语料库的主要建设工作还包括检索平台的搭建。语言处理人员在导入语料和对语料进行对齐标注之后,软件支持人员设计高性能的检索语言。以目前使用较多的语料库检索语言SQL为例,需要将语料库建设者导入的素材转化为可以用计算机执行的SQL语句。经过语料库使用者的检索之后,在最终的用户界面显示检索的结果,并且能够进行排序、导出、保存等操作。
由于近年来高校大学英语课程改革的推进,翻译教学被大学英语教师们重视,并成为课程体系中重要的一部分。在大学英语四六级考试中,翻译题型占据相当一部分比例的分值,并且学生在走上工作岗位之后,需要具备一定的英语翻译技能,这些都要求我们不断转变和丰富现有的翻译教学手段,然而目前的大学英语翻译教学仍然存在一定的问题。首先体现在课上部分,由于课堂教学时间受课程规划的严格限制,不可能给学生很多的时间进行思考和分析,翻译教学主要是以教师为中心来进行,教师尽可能多的将所准备的翻译理论知识和经典范例讲解给学生,而学生在整个教学过程中的大部分情况下只是一个被动的接受者,能够发挥主观能动性的时间很少。
在课下部分,我们会使用超星学习通和U校园平台为学生布置各种形式的线上翻译作业,例如四六级真题练习,学生之间互相批改对方的翻译篇章,对常用汉英翻译表达方式的积累等。但由于没有一个相应的客观评价体系,学生无法正确地对自己的翻译水平做出评价,从而不能达到翻译练习的预期目的。并且大部分的翻译练习为主观题,教师需要一个批阅和反馈的周期,由于翻译本身的难度,学生翻译水平的提高也是个耗费漫长时间的过程,综述以上因素,部分学生难以坚持翻译练习,慢慢的也就失去了课后进行翻译练习的兴趣。
因此我们亟需寻找新的教学方法来改变翻译教学的现状,由于语料库自身强大的功能和语料库教学具有的自主性、开放性的特点,我们相信将语料库这一工具引入大学英语课程可以极大地促进学生的学习自主性。目前国内外最具代表性和影响力的大型语料库主要有:英国的翻译英语语料库(TEC);英国国家语料库(British National Corpus,BNC);布朗语料库(Brown Corpus);我国上海交通大学的JD-EST 语料库等,但是这些大型语料库或因为网络壁垒的原因,或因为不对公众开放的原因,目前尚且无法被普通大学教师使用。建立大型语料库需要输入至少5000万词以上的素材,这需要投入大量的人力和资源,普通学校短期内难以做到这一点,因此本篇文章主要研究面向本校师生的,小型双语语料库的建设。在本语料库投入使用并不断完善之后,将面向大众开放,并寻求同类院校的合作,不断扩大该语料库的规模。
在语料库设计之初,我们首先明确该语料库的规模和服务对象。由于人力和资金投入的限制,目前该语料库主要服务对象为我校本科阶段全体非英语专业学生,目的是帮助学生们在大学英语四六级考试中的翻译部分取得理想的成绩,并且具备所学专业的基本翻译实践能力。语料库的内容主要分为2013年12月份(题型改革之后)-2022年6月共计18场次108套大学英语四六级翻译真题,以及结合我校的专业特色所总结的建筑工程、金融财会、机械智能、法律、文史哲五大板块,我们最终的目标词条为100万词左右,预测可以基本满足教学研究与学生翻译学习的需要。
其次建设语料库最重要的部分之一就是对语料素材进行筛选和存储。由于目前我们的语料库容量有限,所以跳过了抽样的环节,更多地关注输入语料的来源和质量。例如目前的四六级翻译真题为汉译英,我们除了选取官方公布的参考答案,本着一对多的对齐原则,我们也筛选了一些英语培训机构和网络上发布的质量高的英译版本,每篇被选定的篇章都由至少三名教师进行检查核对,杜绝任何翻译错误和用语不规范现象。而其他五大专业方向的板块,素材主要来源于权威出版社出版的专业课双语教材,相关行业的新闻网站和权威专家的译著等。为了保证所选素材的实用性和前沿性,我们咨询了学校相关专业的专业课教师,听取了他们对于行业教材和著作选取的建议。
将语料库素材转换为计算机执行语言是语料库建设最复杂和繁琐的步骤之一。在此主要介绍需要大学英语教师完成的部分:分词和赋码。与英语单词不同,中文单词是由一个或多个汉字组成。一个汉字可能代表一个音节,但它不一定构成一个单词。所以对中英文素材进行恰当的分词是非常必要的。目前,中文文本可以使用Autotag 或 ICTCLAS 3.0 进行单词分词。前者由台湾中文信息处理集团开发,后者由中国科学院计算技术研究所开发。为了促进该语料库的长期发展和提高学生的使用体验,赋码也是非常必要的,综合比较几种赋码方式,我们最后选择了更适合小型语料库的词类赋码。目前自动词类赋码技术已经基本成熟,对英语基本上可以通过计算机自动赋码,且赋码正确率在96%~97%左右。不管是分词还是赋码过程,都需要语料库创建者们层层把关,并对数据库进行定期的备份与维护。
近年来,我校不断进行包括英语课程在内的课程体系改革,语料库在大学英语课堂的引入就是我们的一次尝试和探索,具体分为课上和课下两个部分。首先在课堂讲授和练习部分,语料库的引入能够使翻译教学的内容更加深入和全面,使学生的课堂学习更有效率。教师设置相应的任务,学生通过检索语料库快速获取信息。而语料库中积累的大量翻译教学素材,能够使翻译学习者们充分利用英汉双语平行对应的语料观察翻译语言,掌握英汉两种语言在翻译过程中的转换规律,了解某些特定词或结构的转换原则。翻译语料库的语料都是来源于真实的译本语言,所以具有时效性,客观性和真实性,学生在学习过程中不仅能获得翻译表达方式的积累,并且可以潜移默化地掌握翻译理论及认识翻译的本质。
学生在接触一个新词汇的用法时,大部分是通过老师的讲解或查阅词典。但词典所能提供的例句数量有限,并且语言情境相对单一,语料库的引入可以填补这部分的空白。例如2021年12月四级翻译真题中的句子:“长久以来,大运河对中国的经济发展发挥了重要作用,有力地促进了……。”这句话中出现了四级考试中的高频词汇“促进了”,通过对语料库的检索,学生不仅可以掌握例如promote;improve;enhance;facilitate;advance;boost等词的具体用法,还可以了解到在其他试卷中这些词汇的考察情况。
语料库在课下部分引入的最大优势就是能充分调动学生翻译学习的自主性和积极性。根据我们问卷调查的结果显示,在四六级考试中相对于阅读和听力题型,翻译和写作两个部分是大部分学生都认为非常重要,但是短时间内又很难提高分数的。翻译不仅需要学生具备相当数目的英汉表达方式的储备,还需要熟悉各种句型的衔接,并且四六级考试对单词的拼写和语法细节都有很高的要求。这需要平时的积累和不间断的练习,因此课下学习时间的利用变得尤为重要。教师在向学生详细介绍语料库的使用方法之后,通过小组合作和翻转课堂的形式,以5-8人小组为单位布置开放性作业,例如:汉译英时某些情况下选择主动或被动表达式的深层原因;通过词频统计出特定体裁和语境下最常用的翻译词汇;四六级考试和你所学专业在句子解构和句子复杂程度方面的偏好等等。学生通过使用语料库完成任务之后,教师随机抽取小组在课堂上向同学们分享自己的观点。
翻译语料库可以使翻译教学的内容更具真实性和时效性,使教学的形式更加丰富多样,提升了学生翻译学习的积极性和学习效率。语料库的创建涉及到语料库的设计,素材的采集、整理和加工,以及创建语料库之后的分词、赋码、后期维护和管理。目前本校语料库的建设仍然处于初级阶段,作为语料库的建设人员任重而道远,之后我们会寻求与同类院校进行合作,以共享共建为目标,将语料库进行横向和纵深的拓展。我们相信,随着语料库翻译研究的深入,会促进更多语料库的创建以及计算机技术的发展,语料库将在高校翻译教学中发挥更大的作用。