中国作者和本族语作者农科英语学术论文中词块的对比研究

2023-03-10 11:34向冰清
现代英语 2023年3期
关键词:本族语高频词词块

向冰清

(湖北民族大学,湖北 恩施 445000)

一、引言

词块在学术论文中的作用不言而喻,研究表明如果二语学习者能从语言使用的惯例或规范的角度来认识和学习语言,并以词块为单位来储存、提取及使用典型词块,不但能够减轻学习负担,还能在很大程度上提高语言运用的准确性和规范性[1]。但词块的运用对二语写作者来说存在相当难度,他们对词块的知识很欠缺[2]。

词块对学术语篇的作用至关重要,这些高频出现的序列,不仅体现了学术交流的文本构成特点,更是命题和语篇衔接的重要手段,而这些序列对学术文本的构筑作用将超出传统语言理论所做出的估计[3]。词块的不恰当使用会影响语言表达的流畅性、地道性和可读性,要得到国际学术界的认可和接受,必须以其所期待的交流方式呈现研究和表达观点[1]。目前学术论文写作中存在很多问题,词块的运用会直接影响到评阅者对该论文整体及其学术水平的评价,所以了解掌握英语母语者使用的高频词块及其搭配趋势,对帮助二语写作者组织学术文本和进行语言表述至关重要。

国外学者Milton&Freeman[4]、Milton[5]以及Granger[6]都比较了英语母语者和二语学习者在词块使用上的区别,其研究方法和结论对本研究有借鉴意义。Milton&Freeman[4]采用语料库的方法对比分析了英语母语学习者和非母语学习者在使用表模糊和立场功能的词块时的差异,结果表明非母语学习者受学习方式的影响,误用或滥用一些程式化的词块,对词块功能的理解上存在偏颇。Cortes[7]比较了历史和生物领域的英语母语者和学习者在词块使用上的差异,但Cortes选择的两个语料库在可比性上存在明显的不足,英语母语者语料库选用的是学术文章,而学习者语料库选用的是大学生的研究报告、实验报告以及阅读报告。

近年来,国内对词块的结构和功能的研究也层出不穷。刘晓玲、刘鑫鑫[8]参照Altenberg[9]对词块的分类标准,先把词块分成完整分句、分句成分、不完全词组三类,再分别研究每种结构分类下不同词块的功能。该文只描述了大学生英语作为外语写作中词块使用的情况,并没有对本族语者书面语中词块的使用情况进行对比分析,以考察中国英语学习者在词块使用方面与本族语者之间的差异,从而得到对二语教学的启示,提高大学生英语写作教学的有效性。李国敬、曹雁[10]分析了科技论文摘要中四词词块的结构特点和语用功能,在结构上以介词词块和名词词块居多,功能上以研究类词块和语篇框架类词块为主,该研究也没有对学习者和英语母语者的论文进行对比研究。胡元江[11]对比分析了学习者与本族语者语料库中三词词块的结构和功能特征,发现英语专业一、二、三年级学生使用的词块量均明显多于本族语者,但该研究的语料是大学生二语学习者的议论文,而非学术论文。潘璠[12]对比了英语本族语作者和中国作者的机械期刊论文库中四词词块的结构和功能差别,研究发现中国学者论文并未遵循学术英语以短语类词块为主的特性,而是表现出以小句类词块为主的结构特征。

除了对学术语篇的整体特征进行研究,还有不少国内外学者对其组成部分的词块特征进行了深入的研究,如对引言部分的词块研究[13-15];对摘要部分的词块研究[16]和对结论部分的词块比较研究[17]。在以往的研究中并没有研究者使用农科英语学术论文作为研究语料,而近年来中国农业科学领域硕果累累,提高该领域二语学习者的学术论文写作水平对加强该领域对外的学术成果交流意义重大。鉴于此,本研究拟通过语料库统计方法,首先进行两库词块列表的对比,探讨英语母语者和中国作者词块总体使用频率以及共同使用的高频词块的差异,然后探讨农科英语学术论文中国作者和本族语作者的学术论文中词块在结构方面的差异,为中国作者正确使用常用词块提供实证依据,从而更为细致、具体地指导中国作者的农科英语学术论文写作,为中国作者农科学术论文写作提供一定的启示。

二、定义与分类

根据频数驱动的研究方法,Biber等[18]提出了“词块”的概念并将其定义为“在一个语言或语域中最频繁出现的词语序列”。四元词块比五元词块更加普遍,使用频率更高,且四元词块比起三元词块,可以代表范围更大的结构和功能,因此本研究以四元词块为研究对象。在本研究中,词块被视为四词的短语表达,结构不一定完整但是意义相对完整。Biber以词性为主要线索将笔语中词块的结构归纳为12类,获得了学界的普遍认同。本研究基于Biber等[18]的结构框架,将词块结构分为名词词块、介词词块、动词词块和连接词词块(如“as well as the”),在此基础上,名词词块与介词词块被称为短语词块(phrasal bundles),动词词块和句干词块被划分为从句词块(clausal bundles)。

在对具体词块的功能进行分析时,本研究参照了Hyland[2]提出的词块功能分类方法,将词块分为3大类11小类。研究导向类(“at the beginning of,the operation of”)指帮助作者构建现实世界里的活动以及经历的词块;语篇导向类(“on the other hand,with respect to”)指有关组织篇章、帮助传达文章中信息或论点等因素的词块;参与者导向(“are likely to be,as can be seen”)指关注文章作者或读者的词块[2]。

三、研究设计

(一)研究问题

1.中国作者和本族语在四元词块的总体使用频率上是否存在显著差异?共用词块的个体使用频率如何?是否存在显著性差异?

2.在农科英语学术论文中,中国作者和本族语作者使用的词块结构类型及分布有何差异?如果存在差异,这些差异是如何通过词块的语篇分布和功能体现的?

(二)语料库

文章分别建立了农业科学领域中国作者和本族语作者的学术论文语料库。中国作者论文库(Chinese Speaker Corpus,CSC)一共收录了2011~2015年间华中农业大学农业科学领域的博士生尚待发表的英文学术论文,一共50篇,总库容为148996词,平均每篇2980个词。为了匹配中国作者论文创作时间和库容量,本族语作者论文库(Native Speaker Corpus,NSC)一共收集了2011~2015年间该领域的国际期刊上已发表的30篇论文,总库容为138440个词,平均每篇4615个词,论文来源期刊为农林科学土壤科学期刊Biol Fertil Soils。选取标准遵循Wood等[19]对母语使用者的定义:第一作者姓名具有英语本族语国家的姓名特征;第一作者工作单位在英语本族语国家。每一篇抽取出的论文都删去图表、参考文献、以段落格式存在的长篇幅的原文引用、致谢、语料摘引、脚注以及附录等部分。

(三)词块的提取及处理

1.本研究使用AntConc 3.2.0软件的N-gram功能,统计NSC和CSC语料库中的四词词块及其频数,以40次/百万词为频率阈值,以确保提取出最典型的词块。用自建语料库的库容换算,则需要从两个库中提取出频次在6以上的四元词块,且要保证这些高频词块的分布广度,要求至少在3个不同文本中出现,以排除个别学者个人措辞风格对高频词块提取的影响。有些词块结构相似,互为变体,如“the present study has”与“the current study has”,每种形式均视为不同的类符,将其中满足提取标准的部分保留。统计差异性的时候以频率作为比较对象,频率计算方式为用每个词块的原始频数除以语料的总词数,再乘以100万。

2.对提取的词块进行人工筛选,剔除与论文主题内容过于相关的词块,如“the major capsid protein,in EBR treated fruits,of formula feed group”等;并处理因出现重叠而被重复计算的词块,如“in the present study”和“In the present study”,从而得到目标词块;在筛选过程中发现在CSC库中“The results showed that”的频数为21,而“results show that the”的频数为15,查看索引行后发现“results show that the”里包含10条“The results showed that”的索引行,故“results show that the”除去“The results showed that”之后频数不足6,故删除掉“results show that the”;因为索引行不区分大小写而统计出的词块有大小写之分,所以如果出现索引行行数大于N-gram界面统计出的次频数的,则以索引行行数为准;“played an important role”和“plays an important role”合并成同一个词块“play an important role in”。

3.人工对其进行结构性分类:名词词块、介词词块、动词词块和连接词类词块,以及前三个大类下的小类。

四、结果与讨论

(一)词块的总体使用情况

根据上述的词块提取标准,本研究从中国作者农业学术论文语料库(CSC)中频次在6以上的361个四元词块中提取了70个符合要求的四元词块,总频次为684,平均每百万4590;从中本族语作者农业学术论文语料库(NSC)中频次在6以上的315个四元词块中提取了55个符合要求的四元词块,总频次为566,平均每百万4088。统计结果显示loglikelihood=4.17;sig.=0.041,说明中国作者和本族语作者共同使用的高频词块在总体使用频率上在p=0.05时存在显著差异,中国学者使用的四词词块种类和总频次均高于本族语学者。这一结果与Hyland[2]、Staples[20]、潘璠[12]的研究结论一致。Hyland[2]发现,缺乏写作经验的作者在构建语篇时会更依赖程式化表达;Staples等[20]也发现低水平非本族语作者使用的词块多于高水平非本族语作者;潘璠[12]使用WordSmith提取合乎标准的四词词块,结果也显示中国学者使用的四词词块数量高于本族语学者。即使是以学术论文的某一具体部分作为语料来提取词块的研究,中国学者使用的高频词块的频率也显著高于本族语学者[15]。

(二)词块的个体使用情况

两库中相同的词块有8个,相当于CSC库中高频四元词块的12%;相当于NSC库中四元高频词块的15%。本研究对检索出的8个共用四元高频词块做了对比分析,结果如表1所示。

表1 CSC库与NSC库中共同出现的四元高频词块对比分析

两库中共有的四元词块只有8个,证明中国作者与本族语作者在撰写农科英语学术论文时,使用的高频词块在类别上存在比较明显的差异;而在这8个共同使用的词块中,只有“in the present study”在两个库中存在显著差异。这一结果与潘璠[12]的研究结果存在一些差异,潘璠对共同存在的词块做了对数似然率分析之后,发现在工科英语学术论文中,中国作者和本族语作者在7个词块的使用上都存在差异,在这7个词块中,中国学者比国外学者显著多用的5个词块为“the influence of the、at the same time、are shown in fig、can be seen in、is shown in fig”,显著少用的两个词块为“as a function of、in the form of”。本研究之所以没有得到显著差异可能是因为库容量还不够大,导致一些使用上存在显著差异的词块并没有出现在共同高频四元词块中,比如“as shown in fig、as shown in figure”在CSC库中一共出现了23次,但是并不属于NSC的高频四元词块;“in the form of”在NSC中出现了11次,但在NSC中出现的次数小于6次,故没有被计入高频词块。

对存在显著差异的词块“in the present study”,本研究使用AntConc的concordance功能分别查看了其所在的索引行以及索引行所在的篇章,发现该词块在本族语作者的论文中全部处于“results and discussion”部分,即文章的讨论部分,而中国作者不仅会将该词块用于讨论部分,也会用于摘要和结论部分。说明中国学习者对“in the present study”这一词块不仅存在过度使用现象,在语篇位置方面还存在着运用不当的情况。

(三)两库中词块结构对比分析

本研究先把词块归为几大类:名词词块、介词词块、动词词块和连接词类;然后在前三大类词块中分出8小类,再进行类别频次的对比和分析,如表2和表3所示。

表2 两库词块结构分类与分布

表3 两库词块类别占比

续表

结果显示,本族语作者在prep.+art.+n.+prep.这一介词结构上的使用的词块类别数远远大于中国作者。说明中国作者对该结构的介词词块的存贮量较少、运用能力较低,这可能与英语和汉语的语言特征有关。英语属于形合类语言,注重句子的结构和层次;而汉语属于意合类语言,只强调意义的表达和传递,不注意句子结构上的完整性。介词词块在保证长句的结构完整性上发挥了重要的作用。且介词词块属于短语类词块,短语类词块是学术论文的典型特征,所以中国作者要多积累这一类的介词表达,注意句子的层次结构,写作时多用介词来体现英文长句的结构和层次特征。

本族语者使用该结构的高频四元词块按频次从高到低排序为“At the end of,in the presence of,at a rate of,as the difference between,in the form of,to an increase in,with the addition of,with the exception of,as a result of,at the time of,to a depth of,to the application of,by the addition of,to that of the”,

其中“at the end of”高达42次;中国作者使用该结构的高频四元词块按频次从高到低排序为“as a result of,with the increase of,with the increasing of,in the presence of,by the end of,in the absense of”。

从这些词块的功能角度出发进行分析,“at the end of,by the end of,at the time of”属于表示时间和位置的研究导向类词块;“in the presence of,at a rate of,as the difference between,in the form of,with the exception of,to an increase in,to a depth of,in the absense of,with the increase of,with the increasing of”都属于表示描述类的研究导向类词块;“with the addition of,to the application of,by the addition of”

都属于表示过程类的研究导向类词块;“as a result of”属于表推断或结论的语篇类导向词块。可以看出,本族语作者在使用表示描述类研究导向的介词词块时,类别数量远远超过中国作者;在表示过程类研究导向的词块的使用上,中国作者出现了缺失的现象。原因可能是农业科学论文倾向于汇报实验的过程和研究发现,而中国作者倾向于将研究过程中的具体实验操作用动词词块表达,缺乏将动词名物化的习惯和能力。从表3的各类词块个数在高频词块中的占比也可以看出,中国作者的介词词块占比明显低于本族语作者;本族语作者的动词词块占比明显低于中国作者。动词词块属于从句类词块,或小句类词块,英语水平相对低的人比较偏向使用小句类词块[12]。所以中国作者在写农科英语学术论文时,要尽量多使用名词的介词结构来描述实验过程中的具体操作。

本研究还做了各个类别词块所出现的频次对比分析,结果如表4所示。

表4 各类词块出现的频次对比

续表

从词块出现的频次来看,中外学者在多数结构类型中的词块频率都存在显著差异,除了“be+v.-ed”这一被动语态结构。在“the+n.+of,art.+adj.+n.+prep.,prep.+art.+n.+prep.,be+n./adj./pron.,v.+n./adv./prep./that clause”这几个类别上结构差异尤其明显。在名词词块、介词词块的各个结构中,中国学者使用的词块频次显著低于本族语学者;在动词词块除被动语态的各个结构以及连接词词块的使用频次上,中国学者显著高于本族语学者。

中国学者在被动语态的使用上与本族语学者并无差别,说明中国作者已经意识到了被动语态可以使研究显得更加客观。根据前文对词块的分类,我们也可以得出,中国学者从句类词块的使用频率过高,短语类词块使用频率不足。学术英语存在高度名词化的特性,在学术英语中,动作和事件往往通过名词表述,借此将复杂现象打包成句子的单一元素。学术论文里信息量高度集中,所以要使用精练的结构呈现出尽可能多的信息。因此,中国作者想要提高自己的学术论文写作水平,就必须多注意名物化现象和介词结构。

五、结语

本研究考察了农科英语学术论文中国作者和本族语作者的学术论文中词块在结构方面的差异,结合了词块的在论文中的位置分布以及词块的功能对有显著差异的词块进行了进一步的探究。研究显示,中国学者使用的四词词块种类和总频次均高于本族语学者。使用的高频词块在类别上存在比较明显的差异,不同类别词块的频次差异主要表现在中国学者从句类词块的使用频率过高,短语类词块使用频率不足。建议中国作者在撰写学术论文时多运用名词和介词这种短语类词块。本研究的优点在于搜集整理语料、筛选高频词块以及词块类别判定的过程较为细致,所以不同词块结构的频次对比结果差异显著;缺点在于研究讨论部分还不够深入,对词块的语篇分布和功能探究都只是针对了个别的词块。后期的研究可以考虑从词块的语篇或功能角度对所有高频词块词块进行系统深入、由面到点的分析。

猜你喜欢
本族语高频词词块
30份政府工作报告中的高频词
省级两会上的高频词
28份政府工作报告中的高频词
省级两会上的高频词
高中英语词块教学现状调查研究及应用策略分析
《本族语和非本族语科技写作中的词块:语料库方法在语言教学中的应用》述评
大学英语教学中的词块教学
词块在初中英语写作教学中的应用研究
英汉本族语者对中国英语学习者的口音感知及言语理解度的对比研究
美国总统就职演说词中的词块研究