吕静
(河南理工大学外国语学院,河南焦作 454000)
基于语料库的学术英语词块研究
吕静
(河南理工大学外国语学院,河南焦作 454000)
本研究以中外正式出版的学术期刊中的科技英语论文为对象,建立了两个大小相当、学科接近的语料库,利用索引分析软件,对其词块在结构和功能使用方面的相似点与不同点进行了对比。研究发现,中国英语学习者与英语本族语者在词块使用的种类方面相似度较高,并均倾向于在科技英语学术论文中使用名词词块、动词词块和介词词块。但与英语本族语者相比,中国英语学习者在动词词块的使用上存在过度的倾向,而介词词块的使用并不充分。
语料库;词块;词块类型;结构特点
词块现象早在19世纪就被语言研究者关注,Ellis于1893年在研究中首次使用了“词块”这一概念。随着互联网技术的进步和语言研究的发展,词块领域相关文献、成果层出不穷,很多语言研究者开始从不同角度对词块进行研究并提出了自己的定义,如:词束(lexical bundle)、词丛(lexical cluster)、词汇短语(lexical phrase)、程式序列(formulaic sequence)、预制块(prefabricated chunks)等50多种。虽然目前国内外语言学界尚没对词块的定义达成共识,但语言研究者们都普遍认为,这种拥有“稳定结构和意义的多次序列”与语言学习有着及其重要的关联性。与此同时,语言研究者们还在研究过程中对词块进行了不同层次和范畴的分类。与给词块下定义一样,对词块进行合理分类也是一道极其复杂的难题。不同语言学研究者从词块的频数、词块的亲疏程度、词块的结构及功能等角度进行了不同尝试。在对词块的众多分类中,Biber(1999)的分类方法被认为是较为全面且被广大语言研究者们采用的一种。Biber从结构层面将词块分为名词词块、动词词块、介词词块、形容词词块、连词词块、副词词块、句干词块7种主要类型,各类型下又可进一步划分为12种子类型。功能层面上,词块可被分为:立场词块、组篇词块、指示词快和会话词块4大类。与以往研究者不同的是,Biber突破了仅从单一角度对词块进行分类的局限性,开创性地采用结构和功能相结合的分类方法,使研究者们对词块的认识和相关研究进入了一个全新的领域。
作为特殊用途英语的一个分支,学术英语指的是在学术文章撰写、学术交流及科研学习过程当中针对特定概念或问题进行阐述、表达时所使用的英语。学术知识的传播和学习很大程度上受到学习者学术英语水平的制约,而学术英语水平的高低不仅取决于学习者的词汇储备及语法构架,更为重要的是,取决于如何恰当地使用各类连接手段将学术概念、观点客观准确地传递给外界。词块作为一种具备“特定语法和语用功能的意义集合体”(马广惠,2011),在学术论文中起着十分重要的衔接和引导作用。基于学术英语词块在英语学习和科研中的重要性,本研究运用语料库方法对比了中外学术期刊科技英语类论文中词块的使用情况和结构特征,并归纳了学术英语词块在中国英语学习者学术阅读、写作中的重要作用和积极意义。
在分层抽样、随机选取的基础上,本研究共建立两个语料库作为研究对象:中国科技英语论文语料库和英语本族语科技英语论文语料库。两个语料库的语料来源于发表在中国和国外期刊上的科技英语学术论文。与此同时,两个语料库的库容也十分接近:中国科技英语论文语料库包含112篇论文,共计1012386词;英语本族语科技论文语料库包含106篇论文,总词数为1024053词。由于两个语料库在总词数、主题内容等方面均十分接近,因而对两者进行比较所得的数据较为客观,相应研究结论的可信度更高。
语料库建立完成后,本研究将使用语料库分析软件WordSmith对所建语料库中的科技英语论文进行处理和分析。WordSmith是一种在语料库研究中十分常见的软件,主要用于查询语料库中特定单词或词块的频数、提取目标词块以及进行相关数据分析。由于国内外众多语言研究者对词块概念的阐述不尽相同,因此,如何恰当地选择词块工作定义将会对词块的提取和分析具有至关重要的意义。基于以上考虑,词块提取之前,我们首先确定了本研究中词块的工作定义。由于本研究的对象是公开发表的科技英语论文,其主题规范且内容客观,这就要求所提取词块不仅应该意义完整,而且需要符合传统语法规则。换言之,即使个别词块在语料库中出现的频率很高,但如果其意义或语法不完整,将不被列入本研究词块讨论和比较的范畴之内。Biber(2004)和Cortes(2004)通过研究发现:学术英语文本中“至少出现在5个不同文本且频数不少于40次/百万词”的4词词块具有极其显著的研究意义。依照这一标准,我们可以得到中国科技英语论文语料库和英语本族语科技英语论文语料库中的高频4词词块。接下来,对所提取的高频4词词块按照Biber(1999)的分类方法进行结构方面的分类统计,对比分析其异同,从而发现中国英语学习者学术英语论文的写作特点。
3.1 高频4词词块使用情况对比
根据本研究设定的“至少出现在5个不同文本且频数不少于40次/百万词”的高频词块提取标准,我们对中国科技英语论文语料库和英语本族语科技英语论文语料库中的4词词块进行了提取、筛选。接下来,为了了解中国英语学习者和英语本族语者科技英语论文中高频词块具体的使用情况及特点,我们按照出现频数高低分别提取了两个语料库中排名前12位的高频4词词块进行比较,具体结果见下表。
表1中国科技英语论文语料库和英语本族语科技英语论文语料库高频4词词块对比
从表1可以发现,中国科技英语论文语料库和英语本族语科技英语论文语料库排名前12位的高频4词词块中有半数是相同的,分别是:on the other hand、at the same time、on the basis of、as well as the、it could be seen和in the process of。它们在语料库中出现的频数分别为102和86、80和112、72和101、67和90、62和67、59和50。以上分析数据表明,中国英语学习者在词块使用的种类方面与英语本族语者的相似度较高,已经基本能够合理且熟练运用各种不同词块进行学术英语论文写作。然而,两个语料库中出现频数排名前3位的词块却都不相同:中国科技英语论文语料库中频数排名前3位的词块分别是on the other hand(102)、by the use of(91)、with the increase of(89);英语本族语科技英语论文语料库则是at the same time(112)、on the basis of(101)、it could be seen(90)。这表明,在最常使用的词块方面,中国英语学习者与英语本族语者存在不同。这种差异意味着在某些词块的选择方面,中国英语学习者较英语本族语者存在过度使用或使用不足的倾向。例如,at the same time在中国科技英语论文语料库中的频数为80,其在英语本族语科技英语论文语料库频数则为112,这就表明中国英语学习者在这个词块的使用上存在不足;而on the other hand这个词块在两个语料库中出现频数分别为102和86的现象则表明,中国英语学习者过度使用了该词块。
3.2 词块结构特点分析及对比
在对自建语料库中4词词块按照研究所设定的标准进行检索后,中国科技英语论文语料库和英语本族语科技英语论文语料库分别提取到了105个和132个符合条件的词块。接下来,按照Biber(1999)对于词块结构的分类标准将所提取的高频词块进行分类,得到如下结果。
表2 中国科技英语论文语料库和英语本族语科技英语论文语料库词块结构分类对比
从以上分析数据可以发现,两个语料库在词块结构类型使用方面的特点。首先,中国科技英语论文语料库和英语本族语科技英语论文语料库均包含了Biber针对词块在结构层面所划分的7种类型。其次,两个语料库所占比例最高的三种词块结构类型都为名词词块、动词词块和介词词块,三者分别占结构类型总数的20.00%和34.29%、15.24%和21.21%、15.91%和37.12%。第三,中国科技英语论文语料库中出现频数最高的结构类型是动词词块,所占比例为34.29%;而介词词块则成为英语本族语科技英语论文语料库中比例最高的类型,所占比例为37.12%。与此同时,名词词块、介词词块、形容词词块、连词词块在中国科技英语论文语料库中的比例低于英语本族语科技英语论文语料库,动词词块、副词词块和句干词块在中国科技英语论文语料库中的比例则高于后者。
中国科技英语论文语料库和英语本族语科技英语论文语料库中词块结构类型数量方面的相同点和不同点表明:(1)中国英语学习者词块结构类型使用较为完整,已经基本具备与英语本族语者相近的词块内在意识和合理运用词块进行学术写作的能力。(2)中国英语学习者和英语本族语者在学术论文中都倾向更多地使用名词词块、动词词块和介词词块。在语料库中,这三类词块主要起内容描述、话语组织等作用,对学术论文的客观、准确的表达具有十分重要的意义。(3)与英语本族语者相比,中国英语学习者在动词词块的使用上存在过度的倾向,而介词词块的使用并不充分。
本研究借助语料库索引分析软件,对中国科技英语论文语料库和英语本族语科技英语论文语料库中的不同词块类型及其结构特点分别进行了讨论,发现了中国英语学习者和英语本族语者词块使用的异同点。在词块使用种类方面,中国英语学习者与英语本族语者的相似度较高,已经基本能够合理且熟练运用各种不同词块进行学术英语论文的写作;结构方面,中国英语学习者和英语本族语者都频繁地使用名词词块、动词词块和介词词块。但与英语本族语者相比,在某些词块的选择方面,中国英语学习者存在过度使用或使用不足的倾向:中国英语学习者在动词词块的使用上存在过度的倾向,而介词词块的使用并不充分。因此,在今后的学术论文写作及学术交流过程中,中国英语学习者应提高自身合理使用词块的能力,为地道的英语输出打下基础,同时也为词块习得和教学实践领域提供更多的启示和反馈。
[1]Biber,D.,S.Johansson,G.Leech,S.Conrad&Finegan.Longman Grammar of Spoken and W ritten English[M].Beijing:Foreign Language Teaching and Research Press,1999.
[2]Biber,D.,S.Conrad&V.Cortes.If you look at...:Lexical bundles in university teaching and textbooks[J].Applied Linguistics,2004,25(3):371-405.
[3]Cortes,V.Lexical bundles in published and student disciplinary writing:Examples from history and biology[J].English for Specific Purposes,2004,(23):397-423.
[4]Erman,B.&Warren,B.The idiom principle and the open-choice principle[J].Text,2000,(20):29-62.
[5]雷秀云.基于语料库的学术英语语法的频率特征[J].上海交通大学学报,2000,(1):117-122.
[6]马广惠.词块的界定、分类与识别[J].解放军外国语学院学报,2011,(1).
[7]濮建忠.英语词汇教学中的类联接、搭配及词块[J].外语教学与研究,2003,(6):438-445.
(责任编辑 陈永康)
A Corpus-ba1 sed Research of Academic English Chunks
LU¨Jing
(School of Foreign Studies,Henan Polytechnic University,Jiaozuo,454000,China)
In this study,based on the objects of the scientif ic English articles of the Chinese and foreign academic journals,two corpuses of similar size and discipline are established,where similarities and differences in the structure and function of chunks are compared with the use of index analysis software.The study finds that both Chinese English learners and native English speakers bear great similarities in the employment of different types of chunks,and that tend to use NP-based chunks,VP-based chunks and PP-based chunks in scientific English articles.While compared with native speakers of English,Chinese English learners tend to overuse VP-based chunks and do not make full use of PP-based chunks;they use referential chunks more adequately than stance bundles and discourse organizers.
corpus;chunks;types of chunks;structural features
H31
A
1008-7257(2015)01-0026-03
2014-06-05
河南省教育厅人文社会科学研究项目(2014-QN-566);河南省哲学社会科学规划项目(2013BYY023);河南理工大学人文社科基金项目(SKW2014-2)
吕静(1986-),女,河南新乡人,河南理工大学外国语学院讲师。