虚拟语料库在专门用途英语教学与研究中的应用

2018-10-23 02:16李华勇
关键词:语料语料库教学研究

李华勇

(四川文理学院 外国语学院,四川 达州 635000)

一、引言

随着计算机和网络技术的不断发展,语料库资源及技术不断渗透到语言教学与研究中。语料库技术发展经历了20世纪上半叶的1.0时期,也称为前电子语料库时期;20世纪60年代至今的2.0时期,这一时期委身于功能语言学研究之中[1];在大数据技术的推动下,语料库技术正进入3.0时期,它借助海量、个性化的数据,将全面影响近一个世纪以来的语言教学、语言描写和研究范式。专门用途英语(English for Specific Purpose,简称ESP)的教学研究就是受语料库影响的一个重要领域之一。

在国外,语料库应用于ESP教学研究始于上世纪90年代[2],不仅建立了专门用途语料库,如Michigan 口语语料库(The Michigan Corpus of Academic Spoken English),还用语料库技术提取了学术英语词汇表,用于ESP阅读和写作教材的编写。在国内整体上看,基于计算机信息技术进行的ESP研究屈指可数,落后于国外[3],但是近年来将语料库技术引入ESP教学实践和研究逐渐增多[4-5],这些ESP研究使用的语料库绝大部分都是已经建成的静态语料库,它们的容量有限[6],语料的语域有限,标注与统计检索功能不是专门为ESP教学研究设计服务。ESP学习者和研究人员对这些语料库的利用受限,难以很好地满足ESP的多样化、个性化需求。随着网络技术和大数据技术的发展,语料库3.0时代初现端倪,使个性化虚拟语料库(Customized Virtual Corpus)的创建和使用变得方便快捷:ESP的学习者和研究人员可以便捷地创建各种专题、特定语域的虚拟语料库,以满足各类ESP学习和研究的需求。可以预见,虚拟语料库将对ESP的学习和研究产生重要影响。

二、虚拟语料库与ESP

虚拟语料库技术和研究成果应用于ESP教学研究是应用语言学、计算机技术、现代教育技术等交叉融合而开拓的一个新领域。诞生在网络大数据背景下的虚拟语料库技术及资源,以其个性化、方便快捷、界面友好和动态性等特征,能很好地适应ESP教学与研究的需求,可以看成是语料库3.0时代背景下语料库技术对ESP教学研究支持的全面升级。

(一)虚拟语料库

虚拟语料库是在大数据、互联网和云计算等技术支持之下实现的语料库3.0版,它能较好地满足各类语言学习者和研究者的个性化需求。相对于传统语料库而言,个性化和虚拟性是虚拟语料库的第一特征,语料的动态性和开放性、语料库资源的随意再组合性、统计功能的便捷性是虚拟语料库的重要特征。在传统语料库创建时,事先按照一定的抽样标准、标注标准、检索标准建库,尽量做到语言的代表性,做到语料库的“规范”——语料的规范性、权威性。传统语料库不可避免地存在一些缺陷:语料资源静态、库容有限、语域固定、呈现语境受限。这些缺限使传统语料库在教学研究中的使用领域和范围大大受限。建立在大数据时代“网络语料库”(Web as Corpus)[7]之上的虚拟语料库一方面可以克服“网络语料”目的性和针对性不强的缺陷,另一方面又可以实现传统语料库对数据的各种处理功能。虚拟语料库是采用网络技术、计算机技术和云计算等技术对网络语料库与传统语料库的升级,集成这两类语料库的优势,人性化地满足各类人员对语料库的多样化、个性化需求。例如,我们可以快捷地在Wikipedia Corpus平台和Sketch Engine平台上根据个性化需求,创建诸如Business语料库、Biology 语料库、Investment语料库、Buddhism语料库等不同领域和语域的虚拟语料库,并在这些虚拟语料库中进行相关教学研究。

(二)ESP的特征

ESP指与特定职业或学科相关的英语,是以教授学术英语知识和技能为目标,根据学习者特定职业或学科需求而开设的英语课程[2]。法律、医学、电子工程等ESP课程,其语篇结构、修辞手段和句法形式均各不相同[8]。ESP关注英语在某一专业领域中的学术词汇和句法模式等层面的特殊表达形式[9],突出基于学科内容的语言学习,在提高学习者英语水平的同时掌握专业英语技能[10]。ESP有不同于一般通用英语的特征:一是以满足特定专业领域的学习者为对象,而不是所有的一般英语学习者;二是学习内容与特定专业、职业密切相关;三是词汇、句法、语篇均与特定专业的学术话语使用关联;四是具有跨学科的特点,不仅涉及语言本体及语言学的相关理论,还融合了学习者所学的学科专业知识。不同专业和学科背景的ESP具有不同的英语学术词汇及表达方式,ESP学习者主要是学习本专业实际使用的英语词汇、英语术语和习惯用法等,这是ESP教师应该讲授的重点。ESP的性质和特点给ESP课程的英语教师提出了比一般通用英语更高的要求,教师除了要掌握英语语言学、教育学、心理学等理论知识外,还要求熟悉不同ESP课程所涉及的学科知识、专业知识、行业背景知识,以及这些知识的英语学术表述规范,这给ESP课程英语教师带来了极大的挑战。大学英语教师ESP专业词汇知识和行业背景知识缺乏一直是实施ESP教学的瓶颈,很多ESP教师是“语言内行的专业门外汉”。借助虚拟语料库技术和方法,可以在一定程度上克服ESP学习者和ESP教师所面临的挑战与困境。

(三) 虚拟语料与ESP结合的理论背景

语料库语言学以经验主义为哲学基础,坚持语言“一元论”思想,体现功能语言学思想,坚持“语境意义观”(contextual theory of meaning)。语料库语言学坚持在语言事实挖掘和描述的基础上,归纳出或然(probable)结论,而不是非黑即白的断然(possible)结论。语料库语言学的这些思想或原则要求基于实际观察到的实用的语言事实或使用行为来描写、研究和学习语言。语料库可以作为教学资源和教学手段应用于语言教学[11]。语料库经过不断的演化和发展,出现了不同的类型:固态语料库和动态语料库、离线语料库和在线语料库、历时语料库和共时语料库、基于网络的语料库(web based corpus)和网络语料库(web as corpus)、基于网络资源的虚拟语料库(virtual corpus)。传统语料库用于ESP教学研究已是常态,但是从某种程度来说,虚拟语料库有着更适合于ESP教学和研究的优势。虚拟语料库建库具有更方便快捷、语料更丰富、语料可以不断更换等特征。

形成于20世纪60年代的ESP体现了功能主义的语言观[12]。ESP的教与学应该基于真实语境观察和语言使用,关注特定学科或职业的语言使用特征及语言交际功能。可见,ESP与语料库语言学的理论主张一脉相承,语料库及虚拟语料库技术应用于ESP教学研究有着深厚的理论基础和天然的优势:虚拟语料库能为ESP教学提供“真实”的语料,真实性(authenticity)是ESP教学的灵魂;虚拟语料库能够满足ESP学习者多样化、个性化的需求;虚拟语料库技术能够较好地体现ESP学习的“学生中心”原则——学生自主、按需创建、实时观察。

三、ESP虚拟语料库的创建

基于Wikipedia Corpus平台创建各类ESP虚拟语料库。Wikipedia Corpus是由美国杨百翰大学(Brigham Young University)的Davies在2015年初创建的语料库平台,它是取自维基百科(Wikipedia)英语版440万篇文章,总词量达19亿,可按需求创建各种类型虚拟语料库(Virtual Corpora)的平台。利用该平台,可以方便快捷地创建适合各类ESP教学研究的虚拟语料。Davies声称可以在一分种内创建一个50万~100万词,涉及微生物学、经济学、人类学或佛教等主题的ESP虚拟语料库[13]。

下面以创建一个以“商务英语”为主题的虚拟语料库(简称Business Corpus)为例,说明怎样在Wikipedia Corpus平台创建适合各类学生、教师或研究人员需求的虚拟语料库,具体步骤如下。

第一,进入Wikipedia Corpus平台,登录自己的帐号。由网址http://corpus.byu.edu/wiki/进入Wikipedia Corpus,可以进行全库的各项检索。要创建虚拟语料库,首先登录自己的帐号,没有帐号可以免费注册。

第二,由顶端的检索栏(Search)进入“创建语料库”(Create Corpus)项。点击Create Corpus,进入虚拟语料库创建窗口(Virtual Corpus),在该窗口的“Title Word(s)”栏根据检索语法规则选择进入虚拟语料库的语料,其实质是根据Wikipedia Corpus总库中440万篇文章的标题筛选进入虚拟语料库文本。“Title Word(s)”栏可以使用精确的单词,或词的部分加通配符(*),或词加“and”或“or”等逻辑词来进行各类限定,以筛选出符合创建者需求的文本进入虚拟语料库。窗口还有三个可选项:(Optional)Words not in Title、(Optional)Words in Pages、(Optional)Words not in Pages,依次可以限定标题中不出现的词、文本所在页必须出现的词、文本所在页不出现的词。这里的限定支持词的部分加通配符*,例如,“electr* engine*”可以代表“electric engine, electrical engineering, electronics engineer, etc”,可以限定这些词出现或不出现在标题或正文页中,总之可以让创建者精准地选择符合其需求的文本来组建虚拟语料库。就我们要建的Business Corpus而言,“Title Word(s)”栏输入“business or trade”;“(Optional) Words not in Title”栏输入“film”,以排除标题为“Business Is Business (film)”类不符合要求的文本进入要创建的虚拟语料库;“(Optional) Words in Pages”栏输入“business”,以确保进入虚拟语料库的文本中至少出现“business”一次以上;“(Optional) Words not in Pages”栏输入“TV”,以排除文本中出现“TV”词的页面进入虚拟语料库;“pages”栏设定为1 000,即允许最多有1 000篇符合要求的文章文本进入虚拟语料库。通过上述一系列限定,可以确保创建的Business Corpus与商务活动具有高度的相关性,为开展与商务英语相关的ESP教学、研究提供可靠保证。

第三,设定好各项进入虚拟语料库文本的条件限制后,点提交(Submit),进入“语料”编辑页面,在此页面可以查看选中文本的字数、标题、进入正文、增删文章等操作。进一步浏览选中的语料是否符合要求,然后进行增加或删除等操作。经过观察,认为找到的946篇文本都符合要求,点击页面最上面的“Save as”,对创建的虚拟语料库进行命名保存,也可以用“Add to”把创建的语料库作为子库保存在已创建的虚拟语料库中。我们将其命名为Business Corpus,并进行保存,点“Submit”提交。至此,由946篇文章、910 842词构成,涉及商务英语的Business Corpus虚拟语料库创建完成。另外,还可以实时对已建成的虚拟语料库进行增加、删除、隐藏等方面的后继维护操作。

第四,对Business Corpus虚拟语料库进行检索。Wikipedia Corpus平台提供丰富的检索命令,对已建成的虚拟进行语料检索:提取索引,提取关键词,提取搭配结构(pattern),设定提取语料参数等操作,以准确找到各类ESP学习者或研究人员所需的语料库。总之,Wikipedia Corpus平台实现了方便、快捷地创建各类ESP虚拟语料库,是进行ESP学习实践或研究的有力助手。

四、虚拟语料库的ESP应用

(一) 在ESP学习中的应用

ESP涉及的学科、专业或行业众多,现行ESP教材难以满足ESP学习者的实际需求。通过虚拟语料库可以很快检索出特定ESP领域的核心词汇和表达形式,一方面可以解决ESP英语教师专业词汇知识增长的瓶颈,另一方面是解决ESP学习者不能迅速熟悉特定领域词汇这一老大难问题的较好途径。专业领域核心词汇学习占据ESP学习的中心位置,通过虚拟语料库技术提取索引和语境共现功能,为ESP学习者扫除ESP词汇的障碍,为尽快进入后续ESP英语专业知识的学习和能力的培养创造条件。例如,我们根据前述的ESP虚拟语料库创建方法,创建一个虚拟“生物学语料库”(Biology Corpora),实现几项应用:第一,设定参数提取生物学英语核心名词,由于版面限制,只显示前10个,如表1所示。这些核心名词基本只用于生物学这个特定的领域,对它们的掌握是迅速进入此领域,开展后阅读、写作和学术交流的重要保障。第二,可以在虚拟生物学语料库中迅速检索出生物学英语学术话语中核心动词,它们是在该领域的学术写作和交流经常使用的英语动词(仅列前10个):index、 abstract、base、synthesize、encode、propose、associate、bind、classify、characterize。第三,可以迅速发现生物学领域的英语学术话语表达型式“N+N”的具体实现形式有system biology、population genetics、cell biology、impact factor、cell division、model organism、gene expression、cell membrane。对这些形式的理解只放在生物学专业背景中。第四,发现生物学领域常见的前10个特有形容词分别是biological、biochemical、evolutionary、molecular、peer-reviewed、cellular、genetic、metabolic、biomedical、physiological。这些形容词与通用英语(English for General Purposes,EGP)中使用的形容词相差很大,对该类形容词的掌握有助于该领域ESP学习者的阅读、写作或学术交流水平迅速提高。

表1 “生物学语料库”中的生物学英语核心名词

在Wikipedia Corpus平台创建的ESP虚拟语料库还提供了各种快捷链接,让ESP学习者在更大语境中去掌握特定领域的专业知识。例如,可以对刚才创建的“生物学语料库”进行“Find Keywords”检索,发现“bioinformatics”名词,进一步双击该词语,然后进入表2“bioinformatics”所在索引,在更大语境中去理解该术语。如果需要进一步理解和掌握“bioinformatics”术语,还可以点击表2中“Click for More Context”之下的索引所在文章名,链接该术语所在具体文献,有助于ESP学习者在更大篇章中去扩展专业知识,提高自己的ESP阅读水平,熟悉特定领域学术语篇建构模式。可见,在Wikipedia Corpus平台创建的各种ESP虚拟语料库一步步引导ESP学习者自主学习,由词汇、句法、段落到篇章,不断探索和掌握本领域的ESP语言知识与技能,既有宏观的专业领域核心词汇的感知,也有微观的专业术语索引的语境学习,更有权威的Wikipedia上文献阅读实践。

表2 “bioinformatics”在虚拟生物学语料库中的索引

(二)在ESP教学研究中的应用

通过虚拟语料库手段可以便捷地实施对特定领域ESP语言特征的研究,尤其是词汇特征的研究。ESP涉及的专业领域众多,以前要研究特定领域ESP的语言特征,需要投入大量的资金和人力来创建相应的语料库,耗时费力,资源浪费,且受益对象有限。现在通过Wikipedia Corpus平台创建虚拟语料库,研究各领域ESP的语言特征,实现了免费、方便、快捷,同时为基于语料库的写作学习提供了方便[14]。

通过虚拟语料库技术可以迅速创建各类ESP教学语料库资源。建设ESP教学资源语料库是语料库语言学由通用语料库朝着专门用途语料库发展的一种新趋势。通过虚拟语料库技术,进入课堂的ESP语料资源根据教学目标和要求重新语境化,使之更符合各类ESP课堂教学的实际需求,实现ESP教学语料资源的适恰性和连贯性,克服现行ESP教材的不足。总之,虚拟语料库平台Wikipedia Corpus或Sketch Engine[15]有助于ESP教师获取备课资源,建立属于自己的ESP课程资源体系。

五、结语

虚拟语料库是云计算、大数据和网络技术发展的产物,是语料库进入3.0时代的特征之一。在Wikipedia Corpus或Sketch Engine平台上,可以便捷地创建各类虚拟语料库并进行相关检索、统计和分析。虚拟语料库技术可以进一步弥补现行ESP教材难以满足ESP学习者个性化需求的不足,为ESP学习者扫除ESP词汇障碍,尽快进入后续ESP专业知识的学习提供资源。虚拟语料库技术有助于ESP研究者实施各类ESP语言特征的研究,为免费、便捷地创建各类ESP教学资源库创造了条件。总之,虚拟语料库技术可以便捷地满足学生及研究人员对ESP的多样化、个性化需求,对ESP的教学研究具有独特的优势。

猜你喜欢
语料语料库教学研究
《语料库翻译文体学》评介
高中数学复习课教学研究
高中数学教学研究
基于语料调查的“连……都(也)……”出现的语义背景分析
基于COCA语料库的近义词辨析 ——以choose和select为例
交替传译中听记平衡教学研究
基于JAVAEE的维吾尔中介语语料库开发与实现
《苗防备览》中的湘西语料
国内外语用学实证研究比较:语料类型与收集方法
语文课堂有效教学研究