宋亚军
(河南工学院 外语系,河南 新乡 453003)
小型旅游英汉双语平行语料库的创建及教学应用
宋亚军
(河南工学院 外语系,河南 新乡 453003)
当今语料库已经应用在多个学科领域,也得到学者们越来越多的重视,但是具有地方特色,能够服务地方发展的小型双语平行语料库的独特优势和应用价值还需继续挖掘。文章以一个小型旅游英汉双语平行语料库的创建及其在教学中的应用表明,双语平行语料库在专门用途英语教学上也有着广阔的使用前景。关键词:专门用途英语;双语平行语料库;英语教学
毋庸置疑,语料库语言学的持续发展不仅加强了学科之间的联系,如语料库翻译学、语料库与二语习得、话语研究、机器翻译等,同时它也提供了独具特色的量化研究方法,使得计算机技术可快速、准确、高效地处理大批量数据,来帮助人们解决多维度、深层次的语言问题。
尽管有些国际学者对平行语料库和可比语料库的概念还存在争议[1]19,但国内普遍认为平行语料库是指收录某一源语语言文本及其对应的目的语文本的语料库[2]33。王克非也指出平行语料库是由源语文本及其平行对应的译语文本构成的双语语料库[3]6。而专门用途双语平行语料库是依据某一特定学科或专业领域而建立的双语对应语料库,其立足点是语料来源于某一学科或者专业[4]。相比通用语料库,专门用途语料库在专业词典编撰、学科语言研究及教学方面的优势是很明显的,但是受限于语料库资源的匮乏、语料库建设困难等原因,专门用途语料库的建设和研究发展缓慢,而且面临很多的问题和挑战。本文在梳理国内专门用途平行语料库研究现状基础上,详细描述建设专门用途语料库的具体方法及专门用途语料库的教学应用。
自从20世纪90年代世界上第一个双语平行语料库——加拿大议会会议录英法平行语料库建成后,经过20多年的发展,双语平行语料库在技术开发、词典编撰及语言研究方面都取得了很大的发展。国内在平行语料库建设方面也有不少建树,建成了不少大型平行语料库,如:北京外国语大学王克非等创建的3000万字/词通用汉英平行语料库,上海交通大学胡开宝等学者创建的1000万字/词英汉医学平行语料库[5],以及香港理工大学和北京外国语大学学者共同创建的约100万字/词的英汉旅游文本语料库等[6]。
但这些双语语料库出于建库类型、研究目的及最终用户等因素的影响,在具体学科教学方面尚有限制,笔者在中国知网以“平行语料库”为主题词查询发现,近些年关于平行语料库研究虽呈增长趋势,尤其从2015开始每年论文发表篇数都已过百,但和通用语料库研究相比还存在许多不足之处:(1)语料库建设过多,口语及专门领域研究很少;(2)学科领域分布不均匀,尚有很多学科没有适合的语料库;(3)资源共享困难,存在重复建设现象;(4)关于文学和翻译的研究较多,具体学科教学实践的应用研究较少。
本课题组地处河南,河南省旅游资源丰富,省政府也十分重视旅游资源的开发和利用,在河南省国民经济和社会发展“十三五”规划纲要中也强调要依托建设郑汴洛焦国际文化旅游名城,打造一批文化旅游、乡村旅游、生态旅游、红色旅游、特色旅游精品线路和品牌景区,塑造国际国内旅游形象品牌。但河南旅游外宣资料还有不足之处,语言使用还有很多问题[7]。基于此,本研究依托地方资源和优势,试图建设适合地方发展的小型专门旅游双语平行语料库,探讨面向教学的平行语料库建设,以期帮助河南旅游事业培养更多的后备人才。
双语平行语料库建设不同于单语语料库建设,在收集语料、语料对齐及整理方面比较复杂,本研究历时半年建成了25万字/词小型旅游英汉双语平行语料库。语料库的建设经历了语料库设计、语料收集和语料整理三个步骤,现将语料库建设情况介绍如下:
2.1 语料库的总体设计
语料库的建设规模要依据研究目的来确定,并非越大越好,小型但具有较强针对性的语料库也能达到应有的研究目的。Tribble认为大型语料库由于其范围较广、数据庞杂而并不适合专门用途英语学习,也无法对教师和学生提供直接有效的帮助。Flowerdew认为一般的小型语料库规模达到25万字/词就够了[8]67。由于本语料库设计目的主要是为了研究当地旅游文本的语言特点、揭示翻译方法和策略,以帮助学生和教师了解并熟悉行业用语并提高他们的语言应用水平,从而为旅游事业发展提供语言支持和帮助。在加上地域和时间的限制,本语料库所定的初始规模25万字/词应该可以满足教学需求。
2.2 语料收集
语料收集最主要的问题就是语料的代表性。语料库的代表性指的是一个语料库在多大程度上代表一种语言或语言变体中各种不同的语言现象[9]7。基于此,本语料库语料来源主要是教材资料、正式出版物及互联网资源。纸质采集方法主要为扫描输入,使用的工具为ABBYY FINEREADER12。
2.3 语料处理和加工
语料处理和加工主要包括语料降噪清理、元信息标记、分词处理及语料对齐。语料降噪处理一般包括编码转换、格式规范及拼写检查等,目的是为了让计算机准确地读取数据。同时每个文本也会添加元信息,以方便记录、了解文本属性,如作者、主题、体裁、译者、时间等信息。语料库分词处理和语料对齐对建设平行语料库至关重要,目的是为了让源语和目的语一一对应起来,以方便存储和提取语言间的对译转换信息[3]22。
平行语料库常见的对齐方式是句级对齐,因为对翻译意义单位提取仍存在技术困难[10],而分词处理及句级对齐技术相对比较成熟。本语料库所采用的对齐软件为ABBYY Aligner,并辅助以人工校对,以TMX格式保存。平行语料库检索软件用的是北京外国语大学中国外语与教育研究中心语料库团队开发的ParaConc软件,为了适应软件需要,还要对生成的TMX文件进行分割处理,即利用正则表达式,把TMX文件分割成ASCII编码的英语和汉语两个TXT文本,并确保双语对齐,以便ParaConc软件后期检索使用。
数据驱动学习(Data-driving Learning,简称DDL)是伯明翰大学学者Tim Johns提出来的,它的主要理念是引导学生基于大量的语料库数据,观察、概括和归纳语言使用现象,自我发现语法规则、意义表达及语用特征[11]25。也就是说通过语料库索引软件,以“发现式”方法学习英语,再通过归纳总结的方法达到语言知识的建构。同传统外语教学相比,数据驱动教学模式具有以下主要优势:以学生的自主学习为主要的过程特征,以真实语言为主要语言输入,强调探索和发现的学习过程,主张自下而上的归纳式的学习。同时在教学过程中驱动学习也会以学生自身需求为导向,鼓励学生间的互助合作和共同探索。而对于旅游专业的学生而言,双语平行语料库可以在专业词汇学习、翻译实践、写作及口语学习方面发挥一定的作用。本课题研究中所使用的教学软件是用于平行语料库检索的ParaConc软件和单语语料库检索的PowerConc软件,二者都是北京外国语大学中国外语与教育研究中心语料库团队开发的可免费使用的软件。
3.1 平行语料库用于专业词汇学习
语料库的资源和技术为学生们提供了一种自下而上的归纳式学习方法,学生首先可以接触大量的真实语言,然后自己总结某些专业词汇的主要用法和常见含义,并配以翻译文本,从而达到双语词汇能力提高的目的。比如可以利用主题词分析的方法,把旅游英语文本语料库和本族语者的通用语料库进行比对就可以提取旅游文本主题词,并对重点主题词进行语料库驱动的学习,即学生们可以自行观察索引行,通过不同例句猜测其不同意义和用法。如图1所示。
教师还可以利用ParaConc软件向大家展示中英同词不同义或不同译的情况,利用这些直观的方式从视觉和听觉上不断刺激,达到让学生积累词汇的目的。
3.2 平行语料库用于翻译实践
由于平行语料库具有双语对应的特点,对翻译教学有着得天独厚的优势。如利用ParaConc和ABBYY Aligner软件可以呈现许多真实对译例句,教师可以让学生们观察例句并发现和总结翻译特点,待学生们理解后,教师再对翻译中出现的对译、增译、减译和分译等情况加以讲解,这样学生们理解起来就比较容易,再加以练习,就能达到熟练使用翻译策略的目的。同样,平行语料库还可以起到词典的作用,学生有什么不确定的翻译,可以在语料库中进行查询,看相同或类似的问题是如何翻译的,长期使用和学习就能提高旅游英语的实际翻译能力。
图1 主题词检索分析
图2 同词不同译
3.3 平行语料库用于口语练习和英语写作
由于语料库能提供海量的信息,同时针对本地区具体实际情况和参照本地区旅游文本,可以先为学生布置口语话题,如介绍新乡市八里沟风景区的概况,让学生自行寻找资料进行景区导游词创作,待学生完成后再到语料库中寻找该景区的介绍资料,并据此对自己创作的导游词加以比对和修改,形成相对准确和适合学生的英语导游词,再加以背诵和记忆,学生的语言功底和英语表达能力自然会提高,这种能力的提高也会体现在汉语的表达水平上。
同时导游词的创作也是提高学生写作水平的路径之一。教师可以首先向学生介绍旅游文本的体裁特点、写作原理和技巧,然后通过语料库对文本在词汇、语法和语篇层面的发现,达到熟悉旅游写作的句法和结构特征的目的。然后进入写作实践阶段,仍以某一地区景点为话题,通过学生写作、自评(与语料库文本比对)、学生互评、修正、评估的五个阶段实现学生写作水平的逐渐提高。
本文介绍了具有地方特色的小型旅游专门双语平行语料库的建设和教学应用的情况,涉及语料库建设的具体实施步骤和具体的教学应用,其优势在于为科研工作者的建库工作提供参考,同时又可以帮助学生提高词汇学习的效率、掌握翻译的技巧及策略、提高口译和翻译写作实践的能力,为地方旅游事业发展提供技术指导和人才服务支持。当然本研究还处于语料库的初始使用阶段,后期还可增加学生翻译语料和全国旅游语料,同时还可以对具体翻译现象,如错误翻译进行标注,对语料库进行词性赋码等,以探讨更深层次的语法和翻译问题,从而更好地服务日常教学和地方旅游事业的发展。
(责任编辑 杨文忠)
[1] Tony McEnery and Andrew Hardie. Corpus Linguistics: Method, Theory and Practice [M]. Oxford: Cambridge University Press,2012.
[2] 胡开宝.语料库翻译学概论[M].上海:上海交通大学出版社,2011.
[3] 王克非.双语对应语料库:研制与应用[M].北京:外语教学与研究出版社,上海:上海交通大学出版社,2004 .
[4] 崔维霞,王均松.国内学科专业语料库研究现状及发展趋势[J].西安外国语大学学报,2013,01(55).
[5] 管新潮,胡开宝,张冠男.英汉医学平行语料库的创建与初始应用研究[J].当代外语研究,2011,09(36).
[6] 李艳辉.面向教学的化工类英汉双语平行语料库的构建[J].吉林化工学院学报,2016,12(58).
[7] 宋亚军.河南旅游英语外翻资料的语料库分析[J].河南机电高等专科学校学报,2016,02(64).
[8] Anne O’Keeffe and Michael McCarthy The Routledge Handbook of Corpus Linguistics[M]. London:Routledge,2010.
[9] 梁茂成.什么是语料库语言学[M].上海:上海外语教育出版社,2016.
[10] 李文中.平行语料库设计及对应单位识别[J].当代外语研究,2010,09(26).
[11] 卫乃兴,李文中,濮建忠,等.语料库应用研究[M].上海:上海外语教育出版社,2005.
The Construction and Application of Small Specialized Bilingual Paralleled Corpus
SONG Ya-jun
(Foreign Languages Department of Henan Institute of Technology, Xinxiang 453003, China)
Nowadays corpus technology has been applied in many areas and more and more scholars have found its value, but the unique advantage and application value of small bilingual paralleled corpus which has local characteristics and can serve local development are still being needed. Many facts indicate that bilingual paralleled corpus has more broadened application and potential value in specialized English teaching.
specialized English; bilingual paralleled corpus; English teaching
H319.3
A
1008–2093(2017)03–0070–04
2017-03-01
河南省教育厅人文社会科学研究项目(2017-ZDJH-035)
宋亚军(1980―),男,山东德州人,讲师,硕士,主要从事语料库语言学及外语教学研究。