张琮
摘要:在平常的高中英语教学中,教师往往凭自己的直觉或经验来授课,这种方法容易出错且效率低下。如果能把词频统计引入到平常的英语教学中,它将成为英语教学的一大利器,在帮助避开已不再常用的词汇与搭配、提高教学效率、增加教学趣味及理性选择语言素材等方面为教师提供助力。
关键词:词频统计 语料库 英语教学
2017年,一位六年级的小学生用大数据分析的方式,研究苏轼的诗词,并发表了许多相关的论文。此举震惊了学术界,成了当年的新闻热点,也再一次带火了词频统计。
一、词频统计的由来
词频统计(Word Frequency Count)是一种分析研究词汇的方法,它通过统计一定数量的语言材料中每个词出现的次数,分析统计结果,以便描绘词汇规律。
词频统计并不是近年来才有的新鲜名词,它其实有着悠久的历史。不过,第一次现代意义上的以统计调查方法完成的词汇研究工作发生在19世纪90年代初。德国语言学家克定(Kacding,F.W.)在5,000名速记人员和800名合作者的共同帮助下,完成了一项伟大的工程。该工程耗时七年,在没有计算机帮助的情况下,参与人员手工统计了以报刊为主的14个语料来源的资料。据统计,该项工程总词汇量达10,910,777条,频率在4以上的词共79,716个。调查结果形成了一部厚达671页的《德语频率词典》(Haufigkcitsworterbuch der deutschen Sprache),于1898年出版。
由于计算机网络技术的应用与发展,我们已不需要像这位德国语言学家一样再去耗费大量的人力、时间才能做词频统计了。现在只要有一台计算机并且这台计算机能连接网络,我们每一个人都可以做词频统计,将这种科学的方法引入高中英语教学中有了现实基础。
二、无词频统计时的缺陷
大部分老师都教过学生这样一个俚语:rain cats and dogs,而且经常将其作为重点内容来讲解。而据词频统计的结果,这个短语在1000萬词语的口语语料库中,出现次数为零;在当今世界上最大的英语平衡语料库——美国当代英语语料库(Corpus of Contemporary American English)中进行检索,它也只出现了两次。这也就是说,这个短语几乎已被现代人所抛弃,再去花大量时间讲解或练习这个搭配,已经没有太大的意义。
再以讲解cut这个词的搭配为例。词典中给出的此词的搭配有20种之多。很显然,这20种搭配不可能全都讲解一遍,一定要有所取舍。取哪些,舍哪些呢?根据在JTW(http://www.justtheword.com)上的词频统计结果,我们会发现 cut off,cut out,cut down是使用频率最高的短语,也是最值得去讲解的短语;cut across,cut through,cut into,cut off这四个短语次之,讲解时可以提一提。
三、词频统计的基础——语料库
只有在一定长度的语言材料的基础上,才能进行词频统计。因此词频统计的基础是语料库,在把词频统计引入高中英语教学之前,必须先了解语料库。
语料是人们运用语言时自然发生的书面或口头的语言材料(语言素材)的集合,按照一定的目的与方式建立起来的大规模储存这些语言材料(语言素材)的“仓库”就称之为语料库。
1.网络上的语料库
从20世纪90年代起,得益于计算机网络的日益发展,语料库的建设与使用迎来了大爆发。目前网络上提供的有杨伯翰大学语料库(https://corpus.byu.edu/),它也是目前使用人数最多、最频繁的语料库,每月有超过13万师生及科研人员在使用。还有英语国家语料库(https://corpus.byu.edu/bnc/)、美国国家语料库(http://www.anc.org/)、当代美语语料库(https://corpus.byu.edu/coca/)等,它们都可以免费使用。这些可以免费使用的网络语料库为个人进行词频统计提供了条件,将它引入日常教学也有了现实基础。
2.自建语料库
除了这些可以在网络上免费使用的大型语料库以外,还可以通过人工收集或网络爬虫的方法来建立自己的语料库。比如,把人教版高中英语从必修1至选修11共11本教材上所有的reading,using language 中的reading以及课后练习部分的reading文章输入到电脑当中,就建立了一个小型的“人教版高中英语教材阅读材料语料库”。
四、词频统计在高中英语教学中的应用
充分利用网络上的免费语料库或是自建的语料库,能够让高中英语的教学更加精细、更加有效率,还会更加有趣。下面笔者将从四个方面来探讨如何将词频统计应用到高中英语教学中。
1.剔除过时的词汇与搭配——少做无用功
除了上文提到的rain cats and dogs这个俚语之外,仍然有许多中国英语老师一直在教,而实际上国外却已经很少使用的表达。例如“How do you do?”这个中国老师常教的问候语,把它输入美国当代英语语料库中进行词频统计。
从统计结果可以看出,“How do you do?”这一表达在1990-2017年共27年560,000,000词汇量的语料中,一共只出现了1082次,其中在“口语部分”中出现655次,占比60.5%,在其他如小说、杂志、新闻、学术部分出现次数很少。从时间跨度上来看,其使用频率也在逐渐降低,从1990-1994年共出现216次,降低到2005-2009年的156次,之后略有回升。
再去查看“How do you do?”这个短语出现的语言环境。该短语出现的前24个语境中,可以明显看出在第二个do的后面都有宾语的存在,即说明这个短语在这些语境中都不是教师经常告诉学生的“非常正式地打招呼的方式”,而是用来表达“你是如何做某事的”。这里并没有对全部1082次出现的上下文进行全部统计,但也可以看出,“How do you do?”这种表达现在已经很少用于见面的问候了。
与此类似的还有“thanks very much”,其使用频率在时间跨度上呈直线下降趋势,从2000-2004年共出现1997次,降低到2015-2017年只出现了298次。
利用这些语料库中的词频统计,教师可以轻易对很多表达进行甄别,剔除掉那些不常用的词汇或搭配,使教师和学生都少做一点无用功。
2.快速找出常用表达与搭配——提高效率
例如make up这个短语,其含义与搭配很多,哪一个才是最常用的呢?
从词频统计结果可以看出,“make up mind” 这个搭配出现的频率最高,覆盖范围最广,应是学生首先需要掌握的搭配,其次是“make up story”这个搭配,学生应掌握其所包含的“编造”这个含义。
3.比较近义词的区别——没有辨不清的单词
利用词频统计的比较功能,还可以进行近义词的比较。比如在美国当代英语语料库中输入“say”和“speak”两词,进行比较。
从统计结果可以轻易看出,say后通常接说话的直接内容,如hello,thanks,goodbye等;speak后多是搭配各种语言,如Chinese,English,portuguese等。另外可以看出“say”的总使用频率为8.74,远大于“speak”的使用频率0.11,说明say比speak更常见到。
4.统计自有语料——教学素材选择更理性
《新概念英语》教材一直以来受到不少教师与学生的推崇,甚至网络上还有人说学完这套教材,可以达到听、说、读流利自如的状态。以《新概念英语》全部四册课文内容作为语料库,进行词频统计,看看是否如传言一般。
从词频统计的结果看,《新概念英语》全部四册课文共统计出7157个单词,合并一种词的多种变化形式,包含复数、不规则动词变化、过去分词、现在分词、比较级与最高级之后共有单词3486个,一共出现62554次。
新版英语课程标准规定:“除教材以外,高中学生英语八级的课外阅读量应达到35万词以上。”《新概念英语》只有6万多词的阅读量,远远不夠新版英语课程标准的推荐数,可见,只读《新概念英语》难以符合学生阅读量的需求。此外,3486个单词的词汇量也远远达不到听、说、读流利的要求,直接破除了网络谣言。
再看细节部分。在合并一个单词的多种变化形式之前,词频在5次以下的单词数为5506个,占总单词量的比重约为76.9%。可见,有接近八成的词汇都是低频词汇,重复次数不足。出现频率最高的前100个词共重复32621次,占总词汇量的52%,剩下的7057个单词只占总词汇量的48%,再次印证其低频词过多,重复次数不足的重大缺陷。
对词频统计的应用当然不止上文提到这几种,它还可以有许多其他的应用方式,例如检验一种英语表达是否地道、寻找合适的替代词、获取词汇的使用环境等。此外,如果能组织起教师建立自己的语料库,如英语阅读语料库、英语歌词语料库、英语影视剧语料库等,利用词频统计工具,就可以让英语教学变得异常简洁高效、趣味横生。这些更高级的应用,笔者会在以后的教学中一一去探索。
参考文献:
[1]刘洪波.词频统计的发展[J].图书与情报,1991,(2):1319.
[2]尹斌庸,方世增.词频统计的新概念和新方法[J].语言文字应用,1994,(2):6975.
[3]章柏成.语料库与英语词汇教学[J].重庆交通学院学报(社科版),2006,6(2):108111.
[4]Paul Nation, Robert Waring. Vocabulary size, test coverage and word lists[M].Shanghai: Shanghai Foreign Language Education Press,2002.
[5]刘世芳.语料库对英语词汇教学的促进作用[J].安徽工业大学学报(社会科学版),2007,24(4):6567.
[6]李晓彤.基于汉语高频词联想场的中俄大学生语言意识对比研究[D].哈尔滨:哈尔滨师范大学,2017.
责任编辑:赵潇晗