网络语料库教学方法探究

2012-11-21 06:09苏长艳李宗利
吉林广播电视大学学报 2012年10期
关键词:词频辨析语料库

苏长艳 李宗利

(连云港师范高等专科学校外语系,江苏 连云港 222006)

1.引言

近年来,互联网技术的推广和应用推动了外语教学方式转变。基于语料库,可以在互联网上创造一个理想的第二语言习得环境。在这个环境里,可以利用先进的网络技术,为学生创造建构知识的真实性的“情境”。界面友好、材料直观的网络语料库教学环境,不但容易激发学生的学习兴趣和积极性,更能使学生在解决真实的问题中建构自己的知识。

2.语料库研究综述

语料库是一个机器可读的文本数据库,包括在不同的上下文的自然话语。语料库发展经历了20世纪60年代起的小型语料库,80年代的大型语料库,从90年代开始动态语料库,其特点是对早期语料库实行后期的内容更新,建立开放性的滚动式发展的历时性语料库。(何安平,2010)。

Gavioli和Aston(2001)指出利用语料库学习,学习者自主学习能力增强,学会观察语言,总结规律,这不仅符合语言学习理论,还能提升他们的语法意识(Schmidt,1990),从而促进二语习得;Izaskun(2010)指出借助词频比较手段搜索到与原文最相近的文章并建立语料库可增加高水平学习者的阅读和词汇习得途径。

研究表明语料库教学可以在听说读写各个方面辅助教学(何安平,2010),尤其是在同义词辨析方面语料库显示出了卓越的功能。语料库方法“有效地澄清了同义词因部分义素重合而产生的理解和运用的困惑,是对传统的基于直觉判断的同义词辨析方法的一种有效的补充”(张继东,刘萍,2005:53)。李娜、陈德生(2009)、徐启龙(2009)和王家义(2011)指出传统的语义学和语体学视角下的同义词辨析采用直觉判断为主,依赖对词汇定义的描述,而在语料库语言学视角下,采用定性和定量相结合的方法,解释类联接、搭配关系和语义韵等语言特征,从而实现同义词辨析。

根据研究现状来看,语料库应用于教学的研究正在蓬勃发展,国内相关研究虽然丰富,但只限于同义词辨析,几乎没有涉及到短语和句法层面。本文将主要研究如何利用在线语料库学习词汇、短语、句法。

3.COCA 语料库

本研究主要选用美国当代英语语料库(COCA)。它是由杨伯翰大学Mark Davies教授开发的美国最新当代英语语料库,其界面主要是为语言学家和语言学习者了解单词、短语以及句子结构的频率及进行相关信息比较而设计。这个语料库内容较新(1990-2012),容量大(4.5亿词),文本范围广(包括口语、报纸、杂志、小说、学术文章书籍五大类),并且每种类型基本呈均匀平衡分布,时间划分清楚(以5年为一档)。COCA具有其它语料库不可企及的突出优势,它是一种动态的语料库资源,没有最后的版本,处于不断的更新与发展中。语料已经经过分句处理,标注了词性。文本检索包括词素、单词、短语与搭配、结构和句式、同义词、反义词、类义词等,另外该语料库检索界面同时提供英国国家语料(BNC),时代周刊(TIME),美国历史语料库(COHA),美国当代英语语料库(COCA)四个语料库的检索选择,用户可以根据需要选择合适的语料库或者比较检索结果,必要时可借助通配符,扩大搜索结果,保证检索的有效性和科学性。例如,叶拉美提到rob the cradle和have a crush on两个短语在BNC中检索结果分别为0和4条检索行,但是使用表示词元的通配符“[]”,在四个语料库中分别搜索“[rob]the cradle”和“[have]a crush on”,结果显示GOOGLE提供了最多的例句(分别为519,13791),其次是 COCA(19,329),COHA(14,130),TIME(1,31),BNC(0,14)。相比较之下,虽然Google容量最大,内容也较新,查询结果较为全面,但其搜索结果为各个网站的内容,而不是检索行的形式,不利于保存检索结果。所以推荐学生使用COCA。

4.利用语料库的教学

网络语料库教学从二年级第二学期开始,根据精读课的特点,在口语、书面语中出现的词汇、习语和句法等进行讲解。除了基本的单词查询,还包括同义词辨析、习语和句法讲解。语料库语言学以“意义单位”(unit of meaning)为着眼点考察文本的意义。语料库语言学途径的同义词辨析主要通过考察同义词在不同语域中的词频分布差异,统计各搭配词与关键词共现的显著程度,观察检索行中所呈现的同义词搭配特征,揭示出它们不同的搭配关系和语义韵等语言特征。得益于巨大库容的语料库所提供的翔实的证据,语料库索引可对同义词群提供丰富的用法和语境,使研究者能够比较和掌握同义词之间细微的语义语用差异,实现对同义词的细微差异进行客观和全面的描述(王家义,2011)。教师在语音室进行网络语料库教学,按照词频、搭配、语义韵三个方面检索同义词,并利用通配符检索习语和句法。

4.1 词语教学

针对口语中经常出现的同义词sure和certainly,学习者往往不会加以区分,鉴于外教曾指出用certainly回答问题略显粗鲁不建议使用,为此进行如下检索:

(1)词频分布差异

登陆美国当代英语语料库网站,选择显示分类统计表“CHART”,搜索栏输入 certainly(跨距(0,1)),题材范围不限(即“IGNORE”),显示 certainly总数为 67422,其中主要为口语(30757,45.6%),而同样搜索sure,总数为152117,主要出现在口语和小说中(分别为49484和49421)(见图 1),点击“小说”一栏可以看出,sure 主要出现在小说的会话中,所以sure在口语中的比例可高达65%,远远超过certainly,对两个词在各类文体中出现的频率进行卡方检验显示二者使用频率存在显著差异(x2=13555.1,p=.000),说明sure比certainly使用频率更高,尤其是在口语中。(图1见文后)

(2)搭配差异

回到搜索界面,选择“COMPARE”比较两个词在口语中的使用差异(跨距(0,1)),按照频数排序(见表 1),结果显示sure每出现1次,certainly出现0.62次,换言之,certainly出现一次,sure则出现1.61次,这个高频比与前面的检索结果相似。certainly主要接逗号(3286),其次接not(1766),后接the时出现的频数和sure几乎没有差别(1163,1189),而在接句号时,certainly明显低于sure(709<9944),接下来表格显示多为动词和形容词,这符合certainly作为副词的特点。在sure的搜索结果显示其主要接that,即be sure that用法,其次是句号、逗号,其余多为人称代词 you,it,they,we,I,he、关系代词 what if、介词of、about,仔细观察代词所在的句子可以看出他们多为省略that引导词的用法。

表1 sure和certainly在口语中搭配前十名

(3)语义韵差异

两个词在整个语料库中的分布显示,certainly与sure后接not的频率比(W2/W1)是12.1,在口语中是34,(见表1)初步判断certainly更倾向于接否定词,但不排除sure作为形容词而certainly作为副词在使用上的差异,据此比较certainly和surely在口语中后接not的频率比,结果为42.8,远高于前者。所以基本可以判断,certainly的语义韵更偏向消极,sure更偏向于积极。

据此建议学习者在口语中表达否定含义时可优先选择certainly,其他情况下可优先选择sure。

4.2 习惯用语

除了词汇,学习者在惯用语层面的使用也存在一定的问题。在作文批改过程中,笔者发现大量学习者习惯于使用一些诸如it rained cats and dogs,every thing has two sides的用法,为了让学习者有一个直观的认识,在COCA进行以下检索(结果见表2):(表2见文后)

输入 [rain]cats and dogs,表示搜索rain词元后接cats and dogs,BNC、TIME和COHA中分别只出现3次、1次和19次,在COCA中出现24次,从COCA数据表看出从1990年至今呈现递减趋势,近10年只用过7、8次,每百万词出现频数在0.03-0.04之间,可谓名副其实的陈词滥调。在COCA中查询heavy搭配rain,设左右四个跨距,检索结果则多达686条检索行,每百万词出现频数在1.08-2.35之间。与之类似,查询every*[have]two sides,其中*表示任意一个单词,[have]表示have的词元,结果COCA中只出现4条搜索行,every coin has two sides和every story has two sides各出现2次。TIME和BNC各出现1次;COHA出现6次,其中21世纪以来只出现过1次(2009年),据此判断二者为陈词滥调。呈现给学生这样的搜索结果,比起说教显得更有说服力。

4.3 句法结构

COCA语料库还可以借助通配符“*”查询句法结构。查询it is…that结构时用“*”代表任意一个单词,可以发现搜索项中“*”不仅有名词、动词,还有形容词,分别用“ [n*]”、“ [v*]”“ [j*]”代替其中的“*”即可进一步搜索相关用法。例如查询主语从句it is[j*]that时,在所得到的搜索中点击“THAT”,15143项结果均可见(见表3)。

表2 习惯用语在COCA中词频分布表

表3 句法示例

为培养学生分析索引行的习惯,教师在课堂展示搜索行,让学生总结用法规律。课后将文本中的检索词替换为下划线,作为练习题上传至课程网络教学平台“文件”一栏,由学生课后完成,以巩固学习效果。

4.结语

本文主要探讨了网络语料库COCA在精读课上的应用及其对学习者成绩的影响,结果证明COCA语料库可以在词义辨析、惯用语、句子结构等方面帮助学习者获得地道纯正的英语,也为中国外语教师教学提供了真实的语言环境和可操作的教学方法。本研究也有不足的地方,未来研究中可加强传统教学与多种语料库如汉英平行语料库教学的结合,并在听力、翻译、阅读等方面进一步探讨语料库的应用。

图1 sure和certainly在各语域分布频数

This paper investigates the application of Corpus of Contemporary American English in Teaching word frequency,collocation and semantic prosody of synonym analysis as well as idiom and syntax analysis.The present study makes up for domestic research of Corpusaided teaching in idioms and syntax analysis.

online corpus;teaching

[1]何安平.语料库辅助英语教学入门[M].北京:外语教学与研究出版社,2010.4.

[2]李娜,陈德生.基于语料库的英语同义词辨析教学方法探究[J].教育探索,2009,(10):53-54.

[3]王家义.英语同义词辨析的多视角透视[J].外国语文,2011,27(5):79-83.

[4]徐启龙.英语词汇教学的新工具:网络语料库的运用[J].全球教育展望,2009,38(8):90-93.

[5]张继东,刘萍.基于语料库同义词辨析的一般方法[J].解放军外国语学院学报,2005,28(6):49-52.

[6]Gavioli,L.&G.Aston.Enriching reality:language corpora in language pedagogy[J].ELT Journal,2001,55(3):238-246.

猜你喜欢
词频辨析语料库
基于词频分析法的社区公园归属感营建要素研究
怎一个“乱”字了得!
——辨析“凌乱、混乱、胡乱、忙乱”
“论证说理”与“沟通说服”:高考论述类与实用类写作之异同辨析
《语料库翻译文体学》评介
基于JAVAEE的维吾尔中介语语料库开发与实现
词频,一部隐秘的历史
云存储中支持词频和用户喜好的密文模糊检索
以关键词词频法透视《大学图书馆学报》学术研究特色
“征、伐、侵、袭、讨、攻”辨析
“assess”和“evaluate”辨析与翻译