中外大学生英语词汇学习的语料库研究

2015-03-10 00:26刘艳芹李卓孙承荣
关键词:英语作文语料库

刘艳芹 李卓++孙承荣

[摘要] 基于学习者及本族语者语料库,采用中介语对比分析法,借助语料库统计分析软件,分析中国英语专业学生同英美本族语者大学生英语作文中自由产出性词汇的差异及原因,结果表明:中国英语专业学生词汇密度居首位,但平均词长小于英美大学生,七字母以上单词使用量及句长标准差远落后于英美大学生;中国英语专业学生词频概貌中一级词汇使用率低,二级词汇使用率高,三级及词表外词汇使用率低,反映出中国英语专业学生英语自由产出性词汇运用中仍存在一些问题。针对这些问题,教师应鼓励学习者较多使用刚学到的低频词,采用语义网络联想等方法加速学习者低频词的习得,同时多渠道增加学习者词汇的地道输入和输出。

[关键词] 自由产出性词汇;英语作文;语料库

[中图分类号]H313

[文献标识码]A

[文章编号] 1673-5595(2015)01-0074-06

一、引言

近年来,国内外学者对英语作为二语或外语学习者的英语词汇研究不断升温。国外学者Nation认为词汇可分为接受性词汇与产出性词汇。[1] 后来, Laufer和Nation进一步将产出性词汇分为控制产出性词汇和自由产出性词汇。[2]语言学习者通过将接受性词汇转化为控制产出性词汇,继而转化为自由产出性词汇,以此完成对词汇的最终习得。自由产出性词汇作为词汇习得的最终产物是语言学习者词汇运用能力的主要标志,自由产出性词汇能力的不足将严重影响学习者语言能力的全面发展。

国外学者对自由产出性词汇的早期研究集中于纵向跟踪研究,但后期对比研究逐渐显出优势,如有研究发现,二语学习者英语作文词频概貌比例同本族语大学生相比明显不同,一级词汇使用率高于本族语者10%以上,二语学习者将近90%的自由产出性词汇皆为一级词汇;二级词汇使用率低,三级及词表外词汇使用率不高。[3]191,[4]8,[5]国内学者在这方面的对比研究也不断升温,如马广惠以中美大学生作文为语料开展了研究。[6]5文秋芳等将中国英语专业三、四年级学习者与本族语者进行对比,认为中国学生一、二级词汇使用率高,三级及词表外词汇使用率低。[7]272李志雪、李景泉以中国英语专业三、四年级英语作文及美国大学生作文为语料进行研究,发现除一级词汇外,中国大学生词汇使用率与美国大学生无统计意义上的显著差异。[8]56濮建忠以中国学习者英语语料库(CLEC)中非英语专业学习者子语料库ST3和ST4为学习者语料进行研究,发现中国非英语专业学习者词汇密度低于本族语者10%以上,提出中国英语教学要解决的核心问题在于如何使中国英语学习者从使用中国式英语向使用本族语者的地道英语过渡。[9]128

语料库类型的飞速发展带来各种专用语料库的不断分化,其中一个重要趋势便是学习者语料库的兴起。中国学习者英语语料库(CLEC)于1996年筹建,1999年完成。[10]学习者语料库的建立以及语料库统计分析软件的日臻完善使得定性分析和定量分析得以更好结合。在这种条件下基于语料库的中介语对比研究方法的优势表现得尤为突出。这一方法以目标语典型性和学习者偏离作为其研究视角,本项研究即采用这一方法对自由产出性词汇各维度开展对比研究。

为了研究中国英语专业三、四年级学习者同英国及美国大学生写作中自由产出性词汇运用情况的不同,本文增加了中国大学生同英国大学生与美国大学生的分别对比,并借鉴濮建忠[9]128及Ringbom[3]191的研究参数考察外语学习环境下中国英语专业高年级学习者同英美本族语者大学生自由产出性词汇的差异并剖析其原因所在,在此基础上提出相应建议。

二、研究设计

(一)研究问题

本项研究主要回答以下四个问题:

1.与英美大学生相比,中国大学生书面作文中词汇密度为多少;

2.与英美大学生相比,中国大学生书面作文中平均词长及各长度词标准频数为多少;

3.与英美大学生相比,中国大学生书面作文中句长标准差为多少;

4.与英美大学生相比,中国大学生书面作文中词频概貌结果如何。

中国石油大学学报(社会科学版)2015年2月

第31卷第1期刘艳芹,等:中外大学生英语词汇学习的语料库研究

(二)语料来源

本研究采用中国学习者英语语料库CLEC和LOCNESS。LOCNESS (The Louvain Corpus of Native English Essays)由比利时Louvain大学的Sylviane Granger教授主持建设,该语料库包含美国大学生写的英语议论文共200多篇,约20万词。[11]LOCNESS语料库由以下几个部分组成:英国A-level作文114篇;英国大学生作文90篇,其中议论文 33篇;美国大学生作文107篇,其中议论文74篇。

CLEC共有100万词的语料,分为五部分:高中生英语自由作文(ST2),非英语专业大学一、二年级学生试卷作文(ST3),非英语专业大学三、四年级学生试卷作文(ST4),英语专业一、二年级自由作文(ST5),英语专业三、四年级自由作文(ST6)。

本研究选取CLEC的ST6子语料库,该子语料库共包含428篇文章,文体一致,全部为议论文;LOCNESS中选取议论文部分。为达到文体一致的目的,英国大学生语料仅采用其中33篇议论文,美国大学生语料采用其中74篇议论文。

(三)研究工具

本研究使用WordSmith Tools 30, Range, Bright Corpus Detagger等软件进行统计分析。WordSmith Tools 30是由英国利物浦大学Mike Scott设计的具有词表、主题词表、语境共现等多重功能的语料库统计分析软件。Range是一款基于三个词汇底表的词汇分级分布统计软件,包含Range_GSL_AWL.zip和Range_BNC.zip两个版本,第一个版本为书面语语料库,第二个版本是BNC英语口语语料库。由于本文研究对象为书面语,因此采用第一个版本。Bright Corpus Detagger①是一款语料库标注去除软件,用于去除CLEC语料的错误标记及文本前元信息标注。

(四)数据处理

首先,本研究使用Bright Corpus Detagger去掉CLEC子语料库ST6中的错误标注及文本前面的元信息标注,去除标题,将得到的清洁文本使用WordSmith Tools 30中“词表”选项卡操作,得出各语料库参数:总形符数、总类符数、类符/形符比、标准类符/形符比、平均词长、1—14(+)各长度词频数及句长标准差。将LOCNESS中英美本族语者语料文本进行了分类整理,分别分出33篇英国文本和74篇美国文本。这些文本为清洁文本,直接使用“词表”选项卡操作得出以上参数信息。由于各语料库容量不同,需要在excel中使用函数fx=(A1/B1)×1000将各长度词频数标准化,将基数定为1000,然后使用Range进行操作。Range一次可以同时分写32个文本的词汇分布,于是分别抽取三种语料中的32篇文本。Range软件中输入的文本需要去除专有名词并修改文章中的拼写错误。需要手动从三种语料的文本中分别选出32篇生成单独的文本文档,去掉专有名词并改正拼写错误。然后经Range操作生成三种语料的词频概貌报告,包括一、二、三级及词表外词汇的形符百分比、类符百分比、一二三级词汇的词族数。

三、结果与分析

通过软件WordSmith Tools 30得出的数据如表1所示。

(一)词汇密度对比

从表1可以看出各语料库参数。总形符数是语料库容量的常用测量单位。三个语料库容量分别为:228499,68229,18828。类符/形符比是用来衡量文本词汇密度的常用方法。三种语料的类符/形符比分别为:513,963,1421。文本每增加一个词,形符就增加一个,但类符未必增加,因此文本越长,类符/形符比就会越低。虽然表1中国英语专业三、四年级学生的类符/形符比最低,远落后于英美大学生,但这一数值并不具有可靠的比较意义。为弥补文本不等的误差,我们采用标准类符/形符比测量词汇密度,三者的比值分别为4050,4018,4042。标准化以后,中国英语专业三、四年级学生标准类符/形符比最高,比英国大学生高008,比美国大学生高032。这一结果同马广惠[6]6的结果一致。在马广惠的中美大学生英语语篇对比修辞分析研究中,她通过对比中美大学生作文,得出中国大学生作文词比均值显著高于美国学生作文词比均值的结论。其中的词比均值与本研究的词汇密度具有同质性。这一结果说明中国英语专业三、四年级学生自由产出性词汇的掌握及运用具有一定丰富性,词汇重复使用率低。但本项研究与李志雪、李景泉[8]56和濮建忠[9]128的研究结果不一致。这是因为李志雪、李景泉采用的类符/形符比没有标准化,因此会受到文本长度不等的影响而产生误差;而濮建忠研究中的研究对象为非英语专业学习者,因此标准化的类符/形符比低于美国学习者也是情理之中的事。

当然,笔者并不否认这样的结果一定程度上有语料选取的原因。本项研究所选取的语料平均长度均超过中国大学生作文的平均长度。Biber认为, 短篇文章和长篇文章相比, 短篇文章的词比大于长篇文章的词比。[12]然而本研究采用标准化类符/形符比避免了文本长度的误差。因此研究结果表明中国英语专业三、四年级学生书面作文中自由产出性词汇量较大,书面写作中熟练运用的词汇多样性高于英美大学生。笔者认为,这一结果可能是中国英语专业学生比较注重书面语中单词的记忆,而英美大学生相对来说更关注日常生活中的口语,因此会造成这一差异。

(二)词汇复杂度对比

本研究的自由产出性词汇复杂度通过平均词长及各长度词标准频数之间的关系来考察。表1显示英国大学生平均词长最高,为484;其次是美国大学生,为473;中国大学生平均词长最低,为461。通过WordSmith Tools 30的统计结果,我们得到1—14(+)各长度词的频数结果(15个字母以上单词数量较少,因此本研究设置的最大值为14)。由于语料库容量不等,这一数据不能直接用于比较,因此我们将频数标准化,以1000为基准,通过excel函数fx=(A1/B1)×1000(其中A1为各长度词频数,B1为其语料库容量,即总形符数)算出各长度词的标准化频数,如表2所示。

汇使用呈现出共同点,即使用最多的为三个字母的单词,其次依次是二字母单词、四字母单词和五字母单词。英国大学生两个字母的单词使用最多,其次是三字母、四字母和六字母单词。英国一、二字母单词使用量均高于中国和美国大学生。就六字母单词而言,英国大学生标准频数为9422,美国大学生仅为8464,中国大学生为8553。虽然中国大学生六字母单词标准频数略高于美国大学生,但是远低于英国大学生。此外,通过整个标准频数表,我们发现大部分中国英语专业三、四年级学生七字母以上单词标准频数远低于英美大学生。英国大学生六字母以上单词使用率一直很高。这一结果可能是由于作文话题不同引起的。英国大学生的33篇议论文题目一致,政治色彩比较浓,内容为“欧洲一体化”,尽管文体同中美大学生相比没有什么不同,但内容更为正式,用词就更偏长。可以看出中国英语专业高年级学生在正式文体中对于较长较难词汇的使用还不是很熟练,这一方面的灵活运用有待加强。

这一结果与濮建忠[9]128的研究结果不一致。在濮建忠的研究中,非英语专业大学生中的一、二年级学习者的字母单词标准频数达到905,而三、四年级达到872,远高于本研究的中国英语专业三、四年级及英美本族语者,说明中国非英语专业学习者同英语专业高年级学习者相比仍有很大差距。其中三字母单词标准频数也远高于本项研究,非英语专业大学生中的一、二年级学习者和三、四年级学习者及本族语者标准频数分别为2491、2568、2541。9—13字母标准频数远低于本项研究,这说明非英语专业学习者倾向于使用较短的词汇。

(三)句长标准差对比

单词的习得最终是为形成句子服务的,因而本研究采用了句长标准差这一参数从另一侧面衡量学习者自由产出性词汇的发展。

由表1可知,英国大学生句长标准差为2291,美国大学生句长标准差为1137;中国英语专业三、四年级大学生句长标准差为1061,虽然同美国大学生仅差076,但远远落后于英国大学生。笔者在阅读语料的过程中发现,中国大学生使用复合句数量低于英美大学生,尤其是英国大学生。这同马广惠[6]7的结果一致。马广惠认为中国大学生简单句使用量显著高于美国学生, 而美国大学生复合句使用量显著高于中国学生。本文未对句法层面展开更深入的研究,但从句长标准差来看,中国英语专业三、四年级大学生的自由产出性词汇量虽然较大,但句子长度及复杂度较低,这一方面亟待提高。

(四)词频概貌对比

Laufer[13]提出用词频概貌来统计书面语中各词频等级的分布,这一提议基于Laufer和Nation[14]307沿用Thorndike[15]的词汇分类,将书面语中的词汇分为首批1000 词(最常用的前1000词)、第二批1000词(次常用的1000词)、学术类词汇(大学通识词汇) 和词表外词汇(低频词)。这四类词汇涵盖了英语书面语的所有词汇。书面作文的质量越高, 包含的学术类词汇与低频词汇也越多。Laufer 和Nation[14]307验证了这一方法具有较高的信度和效度,因此本研究也同样采用了这一方法。

用于统计词频概貌的Range软件包含三个以词族为基本单位的词汇底表,分别为BASEWRD1.txt、BASEWRD2.txt、BASEWRD3.txt。在这三个Range底表中,单词按屈折形式和派生形式被归为不同的词族,一个词族包含族长词及其所有基本的屈折及派生词。Range在计算文本的词族数时,将一个词的族长词及其所有基本的屈折及派生词计作一个词族。前两个底表为基础词表,基础词表中的词族来自West编写的《通用英语词表》(A General Service List of English Words②)。尽管这一词表的年代较远,但事实上英语中的前2000词在这段时间内无显著变化,因而可以使用。第三个词表中的词族,源自Coxhead[16]的“学术英语词汇表”(Academic Word List)。三个词表的Range统计结果如表3所示。

由表4可知,美国大学生一级词汇使用率最高,中国英语专业三、四年级大学生比英国大学生高048%,这一结果与李志雪、李景泉[8]56的结果不同,原因在于李志雪、李景泉研究中美大学生语料时,采用肖美玲编写的美国大学生作文荟萃[18],里面的作文题材较多,并且这些美国大学生的文章在经过中国专家学者的修改后减少了高频词的使用,因此一级词汇使用率低。而本文的美国大学生语料题材较少,并且为学生的原始语料,因此一级词汇使用率高些。这一结果也不同于文秋芳等[7]273的研究结果,其研究结果为中国高水平英语学习者一级词汇使用率84%,该研究用于对比的本族语者比例直接采用了Cobb[4]8的结果,即本族语者作文中一级词汇使用率为70%。笔者认为这一差异的原因在于文秋芳等[7]269的研究语料是中国某大学英语专业一到四年级的限时作文。首先,英语学习者迫于时间压力为达到字数要求会倾向于使用最基本的词汇,而一级词汇是英语学习者最易从大脑中提取的常用词汇。另外,文秋芳等[7]272的研究在统计词频概貌时计算的是四个年级的均值,由于英语专业一、二年级学生仍处于英语学习的起步阶段,因此更倾向于使用一级词汇。而本项研究的语料仅为英语专业三、四年级的文本,学生英语水平高于一、二年级,因此一级词汇的使用比例相对低。同时,本研究采用的CLEC中子语料库ST6的语料为自由作文,写作时没有时间限制,作者有充足的时间从头脑中提取较难的高级词汇,并且可查阅词典等辅助资料来完成作文,因而一级词汇使用率相对较低。但通过对每个单独文本结果的分析,得出中国英语专业三、四年级学生一级词汇使用率最高为8289%,最低仅为599%;美国大学生最高达到8421%,最低为6294%;英国大学生最高为7739%,最低为6054%。以上结果说明学习者水平不均衡。但英国大学生最高仅为7739%,这说明中国英语专业三、四年级的学生仍需要努力扩大自由产出性词汇的广度及深度。

相对来说,中国英语专业三、四年级学生二级词汇使用率最高,为949%,美国大学生为703%,而英国大学生仅为571%。从文本独立结果可以看出,英美大学生二级词汇使用比例明显偏低,这一结果不同于Ringbom[3]191的研究结果。Ringbom研究所用学习者语料为魁北克学习者语料库中高级英语学习者的作文语料。高级英语学习者为蒙特利尔魁北克大学TESL(Teaching English as a Second Language)培训项目成功申请者,本族语者作文二级词汇使用率为10%。笔者认为这一差异原因在于Ringbom分析的本族语者语料为说明文,而本项研究为议论文,因而造成二级词汇使用率不同。

就三级及词表外词汇而言,中国大学生使用率较低,仅为869%,英国大学生三级词汇使用率为1296%。通过观察独立文本结果,我们发现英国大学生三级词汇使用率最高达到20%,中国大学生最高只有1546%,词表外词汇呈现出同样的趋势,这一结果与文秋芳等[7] 268的结果一致,即中国英语专业三、四年级学生低频词汇使用率不高。梁茂成等[17]135指出类符的三级及词表外词汇是词汇难度可靠的判别标准,同时指出在三个词表中,三级及词表外词汇,特别是三级词表对文本整体的词汇难度有较好的判别能力。因此,可以得出英国大学生书面作文词汇难度最大,其次是美国大学生,最后是中国英语专业高年级学习者的结论。这也说明中国英语专业高年级学习者在书面表达中仍较依赖高频词汇,应该增加对低频词的使用,提高自由产出性词汇的丰富性。

四、结论与启示

本研究主要结论如下:

其一,与英美大学生相比,中国英语专业三、四年级学生写作中自由产出性词汇密度居首位,表明其词汇具有一定的丰富性。

其二,中国英语专业三、四年级学生写作中自由产出性词汇的平均词长低于英美大学生,七字母以上单词使用标准频数远低于英美大学生,说明中国英语专业高水平学习者依然有依赖小词、短词的倾向。

其三,中国英语专业三、四年级学生写作的句长标准差略低于美国大学生,但低于英国大学生123,说明中国英语专业高水平学习者写作中句子长度及复杂度亟待提高。

其四,从词频概貌来看,中国英语专业三、四年级学生一级词汇使用率较低,二级词汇使用率远高于英国大学生,略高于美国大学生,三级及词表外词汇使用率低于英美大学生,说明中国英语专业三、四年级学生低频词使用率不高。

针对以上研究结果,笔者提出以下建议:

首先,在教学过程中,教师应该让学生认识到作为中国英语专业高水平学习者,不应该仅仅满足于英语高频词的准确使用,还应该较多使用刚学到的低频词。教师可以采用语义网络联想方法,通过构建联想语义网络,让低频词不断在大脑中复现,激活并完善学生的记忆模块。经过不断训练,可以使得处于语义联想网络最末端的低频词转化为自由产出性词汇的机会大大增加。

其次,教师应该有意识地采取多种渠道促进学习者词汇的输入和输出。在输入上,教师可以采用多种方式,不断增加学生的可理解性输入,或采用输入强化等内隐性教学手段潜移默化地提高学生词汇的吸收量。同时词汇的习得离不开语言输出训练,如果没有输出或输出的机会较少,学生的产出性词汇在其广度及深度上都难以得到长足的发展。可以采用王初明教授提倡的“写长法”,以写促学,鼓励学生写出具有一定高度、一定内涵的较长文章,并积极引导学生对主要复杂句型认真学习和吸收,增加作文中句式的丰富性。

最后,本研究仅从写作中单个词汇的角度进行了独立研究,没有涉及类联接及搭配的词块或词丛研究,也没有涉及句法层面的详细研究,因此不能全面地反映中国英语专业高年级学生自由产出性词汇的全貌。但笔者认为这依然是一次关于自由产出性词汇研究的有益尝试,可以起到抛砖引玉的作用,有助于我们进一步了解中国英语专业高年级学生自由产出性词汇的发展,建议以后的研究可以更多地倾向于后者,并可从细微处着眼对自由产出性词汇进行深化研究。

注释:

① Bright Corpus Detagger 是一款语料库去除标注软件,由广东外语外贸大学李亮博士提供。

② A General Service List of English Words(《通用英语词表》)是语言学家Michael West于1953年通过计算机分析得出英语最常用的通用词汇表,共2285个词汇,该词汇表不含词汇音标和词义。

[参考文献]

[1] Nation P. Teaching and Learning Vocabulary [M].New York:Newbury House, 1990:5.

[2] Laufer B, Nation P. A vocabulary size test of controlled productive ability[J]. Language Testing, 1999,16(1):3351.

[3] Ringbom H. Highfrequency verbs in the ICL E Corpus[M]//A Renouf. Explorations in Corpus L inguistics. Amsterdam: John Benjamin Publishing Company,1998.

[4] Cobb T. One size fits all? Francophone learners and English vocabulary tests [J]. Canadian Modern Language Review, 2000,57(2).

[5] Cobb T. Analyzing Late Interlanguage with Learner Corpora: Québec Replications of Three European Studies[J].Canadian Modern Language Review, 2003(3):394423.

[6] 马广惠.中美大学生英语语篇对比修辞分析[J].解放军外国语学院学报,2001(6).

[7] 文秋芳,丁言仁,王文宇.中国大学生书面语中的口语化倾向[J].外语教学与研究,2003(4).

[8] 李志雪,李景泉.中国高水平英语学习者产出性词汇使用情况研究[J].山东外语教学,2005(3).

[9] 濮建忠.基于学习者语料库的中国非英语专业大学生中间语状况调查[M]//杨惠中.基于CLEC语料库的中国英语学习者英语分析.上海:上海外语教育出版社,2005.

[10] 桂诗春,杨惠中.中国学习者英语语料库[M].上海:上海外语教育出版社,2003:1334.

[11] 王立非,张岩.大学生英语议论文中高频动词使用的语料库研究[J]. 外语教学与研究, 2007(2):110119.

[12] Biber D. Variation Across Speech and Writing [M]. Cambridge: Cambridge University Press, 1988.

[13] Laufer B. The Lexical Profile of Second Language Writing: Does It Change Over Time[J]. RELC Journal,1994(2):2131.

[14] Laufer B, Nation P. Vocabulary Size and Use: Lexical Richness in L2 Written Production[J]. Applied Linguistic, 1995(3).

[15] Thorndike E L. The vocabularies of school pupils[M]//J Carelton Bell. Contribution to Education. New York: World Book Co., 1924:6976.

[16] Coxhead A. A new academic word list[J]. TESOL Quarterly, 2000,34(2):213238.

[17] 梁茂成,李文中,许家金.语料库应用教程[M].北京:外语教学与研究出版社,2010.

[18] 肖美玲,等.美国大学生作文荟萃[M].长沙:国防科技大学出版社,1999.

[责任编辑:夏畅兰]

猜你喜欢
英语作文语料库
《语料库翻译文体学》评介
基于语料库“隐秘”的词类标注初步探究
提高高中生英语写作能力之我见
让我们的初中英语作文更接地气
巧用多媒体,提高教学效率
浅谈初中英语写作教学
基于JAVAEE的维吾尔中介语语料库开发与实现
基于网络语料库的“给力”研究
语料库语言学未来发展趋势