张薇
摘 要:阅读理解是高考英语的重要组成部分,而词汇是构成文本的基础。本研究使用Wordsmith 8.0、CLAWS等语料研究软件及Excel等统计方法对近五年全国卷I阅读理解文本词汇进行整理、处理、分析和统计,通过研究总结了其文本词汇的形符、类符、词汇类型及词汇特点:考纲内词汇重复率高,高频词多为功能词,从属连词及情态动词对文本难度的增加有直接作用。因此,对词汇教学的启示有:总结高考高频词汇表,重视词汇分层教学;在一轮复习阶段,重视功能词教学。
关键词:阅读理解;命题规律;词汇类形符;体裁
阅读理解能力作为获取信息的重要技能,也是全国卷的重要组成部分。而纵观近年来的研究,其重心主要集中在答题技巧(杨延从,2007)、试题效度(辜向东、王秋艳,2008),对高考英语试题命制及复习备考都极大的积极作用,但对于具体的高中教学来说指导作用较小,尤其对高三年级的词汇教学来说,意义不大。而且近些年也出现了一些自建语料库对阅读理解文本的研究(付向东,2016;王蓉,2018),但都没有涉及对全国卷I的阅读理解文本的词汇分析。因此本研究尝试建立小型语料库并借助语料分析软件,对近五年全国卷I高考英语阅读的词汇进行研究,旨在寻找阅读理解命题规律并以此优化英语教学实践尤其是词汇复习提供更有针对性的参考。
一、研究框架
基于语料库的研究通常由类符形符比、词表与高频词等指标构成。本研究的文本词汇研究也基于5年阅读理解文本中的类符形符比、高频词统计,探讨全国I卷高考英语阅读理解的命题规律及对高三复习教学的指导意义。
类符/形符比(TTR)指特定语料中类符(type)与形符(token)的比率。类符是指语料库文本中任何一个独特的词形(word form),形符类似于我们日常说的“词”。类符/形符比是衡量文本中词汇密度(lexical density)的常用方法。较高的类符/形符比意味着文本词汇量广泛,反之则说明文本的词汇量较为有限。但较长的文本会出现更多重复的功能词,因此类符/形符比会降低。
词表(wordlist)是按类符的频率高低的表格。该表列出所有类符的频率(frequency)和在总词频数所占百分比。据Laviosa的定义,高频词为出现频率至少占语料0.1%的词。
二、研究方法
(一)文本來源及归类
本研究语料来源于2015~2019年普通高等学校招生全国统一考试I卷中阅读理解部分(包括七选五部分),共收集到20个内容文本(除问题部分),所有文本共计有7132个词。按体裁分类,其中说明文有9篇、记叙文有6篇、应用文有5篇、议论文有4篇。
(二)数据收集及处理
根据年份将每年试卷的五篇文本单独建立独立的TXT文件,如2015年五篇文本命名为“2015”;再根据年份和篇目,每个阅读文本建立一个独立的TXT文本,总共25个文本,如2015年A篇命名为“2015-1”;将每年试卷所有阅读文本汇成一个大文本。每一年份单独设立文件夹,最后将5年的文件夹放入一个文件夹中,这样就形成了小型的阅读文本语料库。
(三)分析工具
1.Wordsmith 8.0
Wordsmith 8.0由英国语言学家Mike Scott研发而成,用于处理和分析数据,主要分为三大类Wordlist(词频列表检索工具)、Concord(语境共现检索工具)、keyword(关键词检索工具)等。具体而言,Wordlist可以提供文本的类符、形符数及类符/形符比,统计高频词;Concord可以提供某个特定词所在的语境。
2.CLAWS
CLAWS是由兰卡斯特大学计算机语料库研究中心(University Centre for Computer Corpus Research on Language)研制并开发的CLAWS词形赋码器,可以用来对文本进行词形赋码,使用第七代赋码集(C7 tagset)。其赋码准确率可达96%~97%。
3.数据分析
笔者在使用文本整理器对收集到的语料进行处理后利用CLAWS4的免费网络服务对语料进行词形赋码,并进行检查,进一步提高准确率,再使用WordSmith软件对数据进行统计,并利用Word及Excel软件统计和分析。
三、研究结果
(一)词汇类符/形符比
近五年来,全国卷1英语阅读理解部分共有25篇文本(包括七选五部分)。从单个文本的类符数来看(见表1),最大值为202词(2018年阅读理解文本D篇),最小值是120词(2016年七选五文本及2019年阅读理解文本A篇);而从单篇阅读理解的形符数来看,最大值为340词(2018年阅读理解文本D篇),最小的是213词(2015年C阅读理解文本C篇)。从单个文本的TTR值来看,最大值为66.55%(2015年阅读理解文本C篇说明文),最小值是46.69%(2016年阅读理解文本C篇说明文)。说明文和应用文的TTR值相对较低,一方面是因为说明文篇幅较长,功能词重复的词数较多,TTR值有所降低;另一方面也说明应用文形符数较低,使得TTR值与说明文相差无几。
再者,2015~2019年全国卷1英语阅读理解阅读理解文本的形符数表现为波动中上升的势态,形符数最大值出现在2018年(1461词)。类符/形符比有先降后升、后趋于稳定的趋势,最大值出现在2015年(52%),最小值出现在2016年(42.11%),近三年基本稳定在47%左右。在某种程度上,类符/形符比体现词汇多样性,TTR值越高,文本不同词汇越多,难度越大。2015年阅读理解包括应用文、说明文、记叙文各一篇,2篇议论文,难度较大。
最后,从体裁的类符/形符比来看(见表2),说明文TTR值最低,部分因为近年来高考阅读理解说明文有9篇,降低了TTR值;议论文TTR值最高,说明其信息量大,难度高。
从表3可以看出,近5年的高频词中,前5个均为功能词,且the和to是频率最高的两个词。研究结果如下:
功能词词频高。2015~2019年全国1卷阅读理解文本中,占总词频0.1%以上的高频词共有167个。前30位的高频词在总词频的占比达32.26%:基本为功能词(主要为冠词、介词、连词和代词);动词仅有be和have的各种形式;仅有的一个名词是people(23)。笔者又对前100位高频词进行统计,总词频数为3262,占总词频的45.71%。发现其中出现了38个实词,共计频次为647次,而剩余62个功能词共计频次位2615次。在前50位高频词中,仅出现了9个实词(is,are,be,have,was,people,has,been),共计频次为240次。其他41个功能词共计出现2354次,其中介词12个共出现876次,分别为to(220)、of(177)、in(149)、for(83)、with(55)、on(50)、at(31)、by(29)、from(29)、up(20)、about(18)、out(15);代词15个共出现436次,分别为that(58)、I(50)、you(50)、it(45)、they(33)、your(28)、we(25)、all(22)、one(21)、this(21)、my(19)、me(17)、our(17)、some(15)、their(15);连词4个共出现289次,分别为and(211)、but(33)、or(30)、if(15);冠词2个共出现570次,分别为the(374)、按(196);情态动词can出现18次;其他7个出现165次,分别为as(40)、more(25)、when(25)、who(21)、how(18)、not(18)、than(18)。可以看出,功能词在前30、前50、前100 位高频词的比重很高,说明学生对于频繁出现的功能词的掌握对解构和分析文本有很重要的意义及作用。
(一)高考试题命制规律
篇幅及难度有改变:2018年高考C篇议论文及D、E篇说明文篇幅长,TTR高,也反映出2018年试题难度较大,2019年高考D、E篇说明文篇幅较2018年有所降低,与C篇议论文持平,且说明文TTR值也有所降低,说明试题难度有改变,使考生在做题时稳扎稳打,而这也体现了命题人以人为本的宗旨。
(二)对词汇教学启示
词汇教学应重视词汇分层教学。目前高考一轮复习多从单元词汇进行复习,或从考纲词汇入手进行复习,任务多且繁复,缺少侧重点,也增加了词汇复习教学难度。结合语料库,对高考高频词进行词性及常见搭配分类总结,形成词汇分层表,可以帮助教师在高三一轮复习更有针对性开展词汇复习。
参考文献
[1]杨延从.高考英语阅读理解题的特点及解题技巧[J].中小学外语教学(中学篇),2007(3):1-6.
[2]辜向东,王秋艳.高考英语全国卷与各省市自主命题卷阅读理解试题内容效度分析[J].考试研究,2008(3):102-114.
[3]付向东.自建文本语料库辅助高考英语词汇复习[J].基础教育外语教学研究,2015(9):42-48.
[4]王蓉.2008—2017年江苏省高考英语阅读理解文本的词汇研究[J].考试研究,2018(1):19-25.
[5]梁茂成,李文中,許家金.语料库应用教程[M].北京:外语教学与研究出版社,2010.
[6]Biber,D.,S.Johansson,G. Leech,S. Conrad & E. Finegan.Longman Grammar of Spoken and Written English [M].London:Pearson Education Limited,1999.
[7]Laviosa,S..Core Patterns of Lexical Use in Comparable Corpus of English Narrative Prose[J].Meta,1998,43(4):1-15.
本文系2018年度江西省基础教育研究课题“大数据下的高考英语命题规律研究——以语料库为基础”的阶段性成果(课题编号GZYY2018-508)。