中国英语专业学习者写作中的词汇使用研究

2012-01-30 03:31杨滢滢
关键词:词块词频语料库

杨滢滢

(上海外国语大学 国际教育学院,上海 200083)

词汇在语言学习中的重要性不言而喻。20世纪80年代,二语习得领域越来越重视有关词汇的研究;20世纪90年代,国内外对二语词汇的研究重点已经从词汇的广度转移到对词汇深度的研究上。无论是哪种研究,都离不开对词汇知识这一概念的界定,然而有关这一定义至今没有达成定论。其中,Nation研究在二语习得和外语教学领域影响较大。他把词汇知识框架界定为3个方面:词形(包括口头形式、书面形式和词性);词义(包括意义、概念、所指和联想等)以及用法(语法功能、搭配、语域和词频等)[1-2]。这3个方面都涉及到接受性和产出性两种维度。但是Meare明确指出,这种框架只能看作是一个理想的本族语者的词汇知识清单,而实际上即使本族语者也未必能掌握每个词的所有知识。这种以单词为中心的框架只是描述性的,无法揭示词汇知识具体习得的过程以及词与词之间的关系[3]。此外,相关词汇研究的结果说明,完整的词汇知识不仅仅是词的发音、拼写和表面意思或某一个意思,还应包括词汇知识的其他各方面,特别对于中高级学习者来说,词汇深度知识如联想和搭配就显得更为重要[4]。近些年来,随着语料库的发展,二语词汇习得研究也取得了突破性进展。Sinclair和Renouf在大量语料库研究的基础上提出了词汇大纲的概念,认为英语教学的重点应该放在:语言中最常见的词形、这些词形的核心用法模式(patterns of usages)以及它们的典型组合(combinations)[5]。在此基础上,词块的重要性也在这一研究领域获得了越来越多的认可。所谓词块即词的组合(包括两词或多词),结构相对固定,通过计算机可自动检索出以相同形式反复出现、有意义的词组单位。操本族语者之所以能够讲出流利地道的语言,是因为他们所使用的语言不是由单个词语组成,而是由众多“公式性字符串”(formulaic sequences)组成[6]。语言是以“多词单元”(multiword unit)的形式储存在人脑中[7-8]。以英语为本族语的人所使用的语言中约有80%是各式各样的“词的组合”(word combination)[9]。因此,在二语词汇习得研究中,对词块使用的考察也应该是一个不可忽视的环节。

本研究旨在通过对英语专业学习者一至四年级对同一写作主题的产出性词汇进行词汇知识宽度和深度的纵向性研究,并借助语料库相关技术手段考察学习者在不同阶段的词汇、词块及其应用发展特征。

一、研究设计

(一) 研究问题

依据研究目的,本研究旨在回答以下研究问题。

(1) 一至四年级学习者在其各自产出性词汇的类符(type)和型符(token)上有无差别?

(2) 4个年级学习者在词块使用上有无差别,呈现出什么样的特征?

(二) 语料

本研究中收集的语料来自于上海某高校英语专业一至四年级学习者对同一主题所写的作文,每个年级随机收取32个样本。这些学习者都被要求在规定的35分钟内完成一定字数(不设上限)的写作。作文题目(“Will phones kill letter w riting?”)选自2004年英语专业四级考试(TEM 4)的写作测试,写作提示(prompt)如下:

Nowadays young people tend to phone more often than w rite to each other.So,some say that phones w ill kill letter w riting.What is your opinion?

(三) 语料分析手段

本研究采用Range[10]来量化学习者的产出性词汇,并借助语料库技术软件 Antconc3.2.1和Wordsm ith5.0进行共现检索和词元(N-gram)提取,以此提供进一步的数据分析。Range有多种用途,也是学习者写作中词汇丰富性的测量手段之一。它包含3个词频表:

(1) BASEWRD1.txt包括最常用的约1 000个英语词簇(word family)(实际为999个词簇)。一个词簇包含主词及其派生和屈折形式,如help,helped,helping,helpless,helpful(其中,help是主词,中间两个是屈折形式,后面两个则为派生形式)。

(2) BASEWRD2.txt包括次常用的约1 000个英语词簇(实际为987个词簇)。

(3) BASEWRD3.txt包括前两个词频表之外的、高中和大学各科教材中最常用的学术词汇(academ ic words),约570个英语词簇。

本研究采用Range来分析不同年级学习者产出性词汇量的差异,这主要是通过对比高频词和低频词出现和使用的频率高低来判断。

二、统计结果和讨论

(一) 不同年级学习者在产出性词汇量上的差别

首先,通过表1对4个年级的样本的基本特征作初步了解。

单纯从型符(tokens)上来看,二年级的学习者在相同时间内产出的词汇量(8 154个)多于其他年级(特别是四年级7 575个),但在类符(types)上,四年级(1 541个)则超过了其他年级,二年级紧随其后(1 267个)。标准类型符比(SD.TTR)方面,也是四年级较高,且内部差异最小(SD.TTR标准差为49.99)。这说明,在二年级的学习阶段,学习者的词汇量可能处于快速增长期,他们在尝试使用一些“不同的”词,但却出现了一定的重复性;与之相比,四年级词汇的多样性在这方面要好于其他年级,且四年级的平均词长也高于其他年级。这与预期的学习过程和结果基本一致。

湖南省在治理“新官不理旧事”方面,拿出了很多力度颇大的措施,起到的效果也很明显,这从湖南省从严治党、依法治理方面就可见一斑。比如,记者近日在湖南省高级人民法院采访,就了解到了一起“以新官不理旧事为由拒付货款,村民起诉获得法院支持”的案例。被告某村委会三年时间里在原告田某(某镇邮电局的一名临聘人员)处订阅报纸,三年共欠原告报刊费1409元,并向原告田某出具了一张条据。后来,该村村委会换届,原告多次找被告某村委会催要此款,被告某村委会却以“新官不理旧事”为由拒付款。原告田某向湘阴县人民法院起诉请求法院判令被告某村委会向原告田某支付货款1409元,湘阴县人民法院一审作出了支持原告诉讼请求的判决。

表1 4个年级写作词汇的部分描述性统计Tab.1 Descriptive data for the vocabulary in w riting

通过图1可以看出各年级在Range词表中的词频统计结果。

图1 4个年级在Range分级词频表中类符分布图Fig.1 Distribution of the four grades’ vocabulary based on Range results

由图1可以看出,4个年级在词频分布上的差异:在B1高频词使用上一、二、三年级高于四年级,在B2的级别上,4个年级略有差异,四年级略高于其他年级;在B3级别上,四年级明显高于其他3个年级。这说明,低年级的学习者对于高频词的使用有一定的依赖性,到了高年级阶段学习者开始尝试使用一些低频词。

如果换个视角,通过对比不同词频表下各年级类符占4个年级所有产出词汇类符的比例,不难发现,4个年级在产出性词汇使用方面呈现出的其他差异。如图2所示。

图2 不同词频表下各年级类符占4个年级所有产出词汇类符的比例Fig.2 Percentage of types in each grade out of all the four grades’ types based on Range results

通过图2可以看出在B1这个层面上,二年级对词汇的使用高于其他年级,一年级低于其他年级;在B2这个层面上,二年级仍然保持一定的优势;在B3上,二年级和三年级使用比例相当,一年级呈现弱势,四年级呈现出了较大的优势,体现了学习的规律和特点。

(二) 4个年级学习者词块使用情况

为了进一步考察学习者对同一主题作文所产出的词汇深度情况,本研究使用 Antconc3.2.1对 4个年级的作文进行了3~6词的词块提取。词块出现的概率和频率是反映语言规律和特点的重要指标。鉴于本研究中语料样本数量有限,本研究对2~6词词块出现最低频率分别设限为最低是2或3,在检索结果中,将没有意义的词块碎片加以剔除,对 3~6词词块以每千词共现频率进行数据标准化处理,以同步对比分析结果,如表2、表3所示。

由表2和表3可见,在各年级的词块使用分布中,无论是频率设限最低为2或3,3词词块在所有词块使用中都占主要比例;且两种情况下四年级在3~6词的词块每千词出现频率都低于其他年级。以往研究也发现,学习者用于表达命题内容的词块高度复现,可能意味着“规定话题”的影响和语言水平的制约。学生围绕考试预设话题谈话时,会趋于选择与命题内容相关的词语序列[11]。不难发现,在6词词块上,各年级出现频率都很低,四年级尤其低。词块共现频率在3~6 gram中似乎是随着年级(水平)的递增而递减的。这说明,学习者可能过度使用较小的词块。这些特点也进一步印证了以往的研究发现:语块的长度与语块的数量成反比,即随着语块长度的增加,其数量呈下降趋势[12]。既然较长的6词词块在两种情况下均呈现很低的共现率(这可能和6词词块本身较少有关),那么如果不对共现频率设限会是怎样呢?通过表4可以进一步观察4个年级的学习者在6词词块使用上的差异。

表2 3~6 gram( f ≥2)在各年级每千词出现频率Tab.2 3~6 gram( f ≥2) frequency in each grade per thousand words per 1 000

表3 3~6 gram( f ≥3)在各年级每千词出现频率Tab.3 3~6 gram( f ≥3) frequency in each grade per thousand words per 1 000

表4 6 gram( f ≥1)在各年级每千词出现频率Tab.4 6 gram( f ≥1) frequency in each grade per thousand words per 1 000

很显然,在数量上6词词块使用出现一次的数量远远超过共现最低为2次或3次的情况;四年级的学习者使用的 6词词块出现频率略高于其他年级。四年级的学习者在词块形成多样性方面(每千词为916个词块)还是略好于其他3个年级(一、二、三年级分别为每千词881,910,902),但同样这种词块的使用并没有成线性发展趋势(二年级仍略好于三年级)。相比之前的词汇宽度线性发展趋势,词块使用的实际情况值得我们反思:是否学习者水平越高、词汇量越大,反而对于词汇的深度使用越不固定,或者缺少一种向上发展的趋向性?

通过具体考察实际出现的词块可以看出,低年级学习者词块使用频率高于高年级学习者。这在很大程度上是因为他们大量重复了题目中的提示(prompt)相关表达,学生使用固定或半固定词组的能力欠缺,频率较多的词块也多表达观点和原因,这符合议论文体裁的写作特征。一、二年级尤为如此,且在观点表达方面较多用I think,in my opinion,I believe等方式。相比较而言,三、四年级出现了一些其他方式的观点表达,对于作文提示的重复相对较少。

在共现频率设限的情况下,高年级的学习者在3~6词词块上频率较低,一定程度上说明学习者掌握大量词汇的同时,追求对词汇使用的个性化表达,如在表达观点时,很少使用I think,in my opinion等,而使用其他的一些替代表达方式。表5(见下页)对各年级常见的观点表达方式进行了统计。

在所有使用动词表达观点的单词中,频率由高到低分别是think(93),believe(34),hold,feel(5),名词化表达中有 opinion(35),view(15),以及短语表达as far as I …(11)。对于观点表达,低年级学习者更倾向于使用think,或和opinion有关的表达,高年级学习者则似乎更愿意使用一些短语结构来替代。除此之外,从总数上来看,一至四年级在观点表达明确化方面,数量是逐步递减的。这在某种程度上可以体现出高年级学习者可能在尝试使用更正式或委婉的方式表达自己的观点,而不是继续停留在早期使用过度明显的“留在早期使用”、“留在早期使用过度”、“或在早期使用过度”等方式上。然而,如果仔细观察这些词汇和词块的具体用法,不难发现有些表达又未必使用得恰当、得体,其语义和语用特征是被忽视的,也就是说这些表达的形式和意义并没有做到真正的匹配或对应。这主要体现在词语的搭配和语用特征上。以下分别对4个年级学习者一些典型性用法如动词“think”、名词“view”以及半固定结构“as far as I …”做示范对比分析。

例如,有关think的表达,4个年级学习者中除了肯定式表达外,也有否定式表达(I/We do not think),但后者只有个位数的统计,而前者则占据了主导地位。王立非和张岩也发现,中国学生尤其喜欢使用“I think”来表达观点,超过外国二语学生一倍,超过本族语者十几倍,说明我国学生存在二语语体意识薄弱的问题[13]。

表5 4个年级观点表达方式统计表Tab.5 Statistics on opinion expressions in each grade

对照本族语者语料库,通过在线检索BNC发现如下结果(见图3和图4)。图中“M ISC”代表其他体裁。第一行数据为在线语料库中出现的共现频率,第二行为标准化后每百万词出现的共现频率。

由此可见,在本族语中“I think”多出现在口语表达中,相比之下,其否定表达“I do not think”则主要出现在学术文体中。这说明,中国学习者书面语写作中观点表达的口语化倾向,同时也进一步证实了以往相关研究的结果[14]。

图3 BNC中“I think”分布图Fig.3 “I think”in BNC A.spoken B.fiction C.magazine D.newspaper E.non-academic F.academic G.misc

图4 BNC中“I do not think”分布图Fig.4 “I do not think”in BNC A.spoken B.fiction C.magazine D.newspaper E.non-academic F.academic G.misc

对于另外一个高频名词“view”的使用,在BNC在线检索结果中,占据主导地位的是“from the point of view”(521个),第二位的则是“from my point of view”(69个),这种巨大的差异是学习者在二语学习过程所不曾注意到的。经过再次检索,两种表达的具体体裁分布一目了然,如图5和图6所示,前者更适用于学术文体,而后者则相对口语化。但是在本研究中可以看出,中国学习者实际则更倾向于使用后者,忽略甚至有可能不曾注意到前者的用法,更不用说其语用上的差异了。而对于统计结果出现的“in my point of view”,在BNC中却几乎找不到这种用法,说明学习者对于某些词汇(这里是介词)存在过度搭配使用。

图5 “From the point of view (of)”在BNC中的主要分布使用情况Fig.5 “From the point of view (of)”in BNC A.spoken B.fiction C.magazine D.newspaper E.non-academ ic F.academ ic

图6 “From m y point of view”在BNC中的主要分布使用情况Fig.6 “From my point of view”in BNC A.spoken B.fiction C.magazine D.newspaper E.non-academic F.academic

对于学习者作文中出现的“as far as I am concerned”,BNC在线检索中发现这种表达分布出现在报纸、杂志、小说和口语中,他们各自每百万词出现的频率分别是2.48,1.38,0.88和0.10次。由此可见,这种表达在书面语体中使用也比较少,但中国学习者在这方面似乎意识薄弱,或没有区分。而四年级学习者出现的“as far as I can perceive”在BNC中就更不存在了。“as far as I can”这种半固定的短语结构则主要出现在口语表达中(每百万词 7.23次),学术文体比较少(每百万词0.52次),与之搭配位居前5位的动词分别是see(89),remembe(31),tell(26),make(22),recall(6)。

如前所述,在四年级的写作中,各种长度的语块共现频率都低于其他各年级,这其中一个原因可能就是学习者在高水平阶段尝试用“不同的”方式来表达自己的观点,具备了词汇多样性或丰富性的意识。然而,这些尝试却往往没有用在恰当的地方,甚至出现了错误的搭配。比如,在四年级学习者的作文中还出现了诸如“I suspect,from my perspective,according to my perspective,to my understandding,it is unjustifiable and hasty to say that”等一些表达,这些表达一方面可以看出学习者词汇的丰富性(如使用了 suspect,perspective,understanding,unjustifiable等较高级别的词汇),但另一方面不难发现,有些表达或词语搭配是完全错误或不当的。比如,在本族语语料库中,不存在“according to my perspective,to my understanding”这种搭配,而“it is unjustifiable … to say that”这种半固定结构的表达也是一种过度概括使用,学习者只凭自己对该词的印象或表层意思就断然做出这种搭配。通过检索BNC可以发现,unjustifiable更多的是和表达“法律、政治、道德、权利、医学”等相关语义场的词语进行搭配,且语体非常正式,并没有和“to say”的搭配使用。这些都说明了中国学习者词汇深度知识的不足以及对英语语块使用的不足。

由此可见,本研究中学习者还没有充分注意从目的语中学习词和词块的使用,而只注意单个词的声、形、义以及少量词组的学习。这种片面的学习就导致当学习者需要表达某一意义时,由于还未能习得表达类似意义的地道词块,只能从记忆中分别提取所对应的英语词汇并进行简单的组合,这样的结果必然会产生一些不地道的、甚至不可接受的词块[15]。

上述研究发现也证实了以往的一些研究结果:Liao和Fukuya的研究发现,中国英语学习者存在回避使用动词语块的现象[16]。动词语块回避是中介语发展的一种现象。学习者在词汇知识深度上的问题和不足与未能充分掌握常用词在使用时的典型类联接和搭配直接相关,亦即未能充分掌握词块[15]。中国英语学习者的词块能力总体来说不容乐观。卫乃兴研究发现,学生能熟练使用的词块数目较少,长度偏短,缺乏应有的变体[15]。

三、结 论

本研究结果表明,一至四年级学习者就词汇宽度而言,基本成线性发展,即语言水平和词汇量的增长基本成正比;但是4个年级在高频词和低频词的使用方面却呈现出一定的差异,总的来说低年级的学习者对于高频词的使用有一定的依赖性,高年级学习者开始有意识地尝试使用一些低频词。从这个角度而言,高水平学习者的词汇丰富性好于低水平的学习者。然而,当我们通过词块进一步考察不同水平的学习者对于词汇深度知识的掌握时却发现,低年级简单词汇的复现率高、特别是3词词块使用过度。这主要是重复了作文的提示的有关表达,高年级对于一些复杂单词的使用缺少语体适用性的考虑,甚至出现错误搭配使用,说明词汇的深度知识欠缺;语体适用性的缺失同样存在于一些简单、复现率高的词块使用上。

本研究对外语教学有一定的启示作用,我们不但要重视学习者词汇量的扩大,更要注重他们对于所学单词的恰当运用,即对词汇深度知识的把握。语块的学习或者词语的搭配学习在这一过程中是不容忽视的,这其中特别也要注意词语表达的语用适用性和准确性,从而增强学习者书面写作表达的连贯性和流利程度,真正做到掌握词汇的形式和意义对应以提高其语用能力。但鉴于针对同一作文主题的4个年级语料收集的难度,本研究在样本数量上存在一定的局限性,日后应在扩大样本量的基础上进一步检验上述结果,且对于英语教学过程中教师对词汇的重视程度及其发挥作用的大小也是未来深入研究的方向。

[1]Nation P.Teaching and Learning Vocabulary[M].New York: Newbury House,1990.

[2]Nation P.Learning Vocabulary in Another Language[M].Cambridge: Cambridge University Press,2001.

[3]Meara P.The dimensions of lexical competence[C]// Brown G,Malmkjaer K,Williams J.Performance and Competence in Second Language Acquisition.Cambridge: Cambridge University Press,1996: 35-53.

[4]张学宾,邱天河,钟庆伦.国外二语词汇深度研究综述[J].河南科技大学学报(社会科学版),2005,23(1); 76-79.

[5]Sinclair J,Renouf A.A lexical syllabus for language learning[C]//Carter R,M cCarthy M.Vocabulary and Language Teaching.Harlow: Longman,1988: 140-158.

[6]Paw ley A,Syder F H.Two puzzles for linguistic theory: nativelike selection and nativelike fluency[C]//Richards J C,Schm idt R W.Language and Communication.London: Longman,1983.

[7]Sinclair J,Corpus C.Collocation[M].Oxford: Oxford University Press,1991.

[8]Nattinger J,DeCarrico J.Lexical Phrases and Language Teaching[M].Oxford: Oxford University Press,1992.

[9]A ltenberg B.On the phraseology of spoken English: the evidence of recurrent word-combinations[C]//Cow ie A P.Phraseology: Theory,Analysis and Application.Oxford: Oxford University Press,1998: 101-122.

[10]Heatley A,Nation P,Coxhead A.Range and frequency programs[CP/OL].(2005-07-20)[2010-09-10]http://ww w.vuw.ac.nz/lals/staff/Paul Nation.

[11]卫乃兴.中国学生英语口语的短语学特征研究——COLSEC语料库的词块证据分析[J].现代外语,2007,30(3): 280-291.

[12]王立非,张岩.基于语料库的大学生英语议论文中的语块使用模式研究[J].外语电化教学,2006,(4): 36-41.

[13]王立非,张岩.大学生英语议论文中高频动词使用的语料库研究[J].外语教学与研究,2007,39(2): 110-116.

[14]文秋芳,丁言仁,王文宇.中国大学生英语书面语中的口语化倾向[J].外语教学与研究,2003,35(4): 268-274.

[15]濮建忠.英语词汇教学中的类联接、搭配及词块[J].外语教学与研究,2003,35(6): 438-445.

[16]Liao Y D,Fukuya Y J.Avoidance of phrasal verbs: the case of Chinese learners of English[J].Second Language Studies,2002,20(2): 71-106.

[17]卫乃兴.中国英语学习者口语语料库初始研究[J].现代外语,2004,27(2): 140-149.

猜你喜欢
词块词频语料库
基于词频分析法的社区公园归属感营建要素研究
《语料库翻译文体学》评介
高中英语词块教学现状调查研究及应用策略分析
词块中心教学法在高职英语教学中的应用初探
词块在初中英语写作教学中的应用研究
基于JAVAEE的维吾尔中介语语料库开发与实现
词频,一部隐秘的历史
云存储中支持词频和用户喜好的密文模糊检索
以关键词词频法透视《大学图书馆学报》学术研究特色
美国总统就职演说词中的词块研究