BEC真题集文本词汇的计量特征及对商务英语教学的启示

2022-08-06 07:24韦爱云方雯鑫
教育观察 2022年19期
关键词:高频词实词真题

韦爱云,方雯鑫,李 盈

(广西师范大学外国语学院,广西桂林,541006)

一、引言

剑桥商务英语证书考试(Cambridge Business Certificate,BEC)是根据公务商务工作的实际需要,从听说读写四个方面对考生在商务和一般生活环境中使用英语的能力进行全面考查的一项水平测试。该考试设有初级、中级和高级三个级别,是目前国内外衡量商务英语水平的权威性考试。

目前对BEC真题集的研究甚少,现有研究多采用内省法分析各个题型,帮助考生有效备考[1-2],针对商务英语词汇研究的语料采样范围不够广,量化的研究方法使用也较少。计量语言学将语言视为复杂的自适应系统,追求语言研究的精确化,是一个系统地采用定量方法研究语言的学科。计量语言学对普通英语和科技英语的词汇量化特征已有较为深入的研究,但对商务英语词汇研究较少[3],目前尚未有学者针对BEC真题文本进行专题词汇研究。基于BEC真题文本进行词汇研究,从而指导BEC考试乃至商务英语教学的研究尚未出现。因此,本研究基于计量语言学的研究方法,以自建的77933词的BEC语料库为语料,对BEC文本词汇的量化特征进行分析。拟围绕以下三个问题展开:第一,BEC语料库的词长分布呈现出什么特点?第二,BEC语料库的高频词和低频词呈现出什么特点?第三,可为商务英语教学带来什么启示?

二、研究语料和方法

(一)语料来源

本研究分别选取BEC初级、中级与高级真题卷的第二、三、四和五辑作为语料,每一等级的真题中分别包含真题卷各16套,由剑桥大学考试委员会推荐,是历年考题中经过剑桥考试中心解密的题目,具有较高的参考价值。为了保证语料的标准化,只选取真题中构成完整句子的真实文本(阅读理解部分)进行语言定量分析。将语料校对后计数,BEC语料库共包含77933词,其中初级13485个,中级30271个,高级35268个。

(二)研究方法

本研究基于自建的小型语料库,从词长和词频对BEC语料库的词汇进行量化研究。宏观上,将BEC语料库与其他英语文体语料库进行对比,探究BEC词汇与其他英语文体的共性和特性;微观上,对BEC语料库三个等级(初、中和高级)试题文本语料库进行对比,以求多角度探究BEC的词汇特征。

三、结果和讨论

(一)词长

本研究使用Python分别测量出BEC语料库中以字母和音节为单位的词长和词频分布数据。

1.平均词长

词形还原基于字典,将单词的复杂形态变为基础形态。其中单词的基础形态被称为词形。[4]例如,单词go、goes、going、went和gone构成一个以go为词形的形态学范式。词形还原对形态变化丰富的语言来说尤其重要,能减少词汇量过大导致的标注困难和理解困难问题。BEC四个语料库平均词长分布情况见表1。

表1 BEC四个语料库平均词长 单位:个

由表1可知,词形还原前,以字母为单位测量词长时,BEC总语料库的平均词长为4.98,大于一般用途英语的平均词长(4.66)[5],稍大于法律英语语料库平均词长(4.84)。[6]而以音节为单位测量时,总语料库的平均词长为1.56。无论是以字母还是以音节作为测量单位,平均词长与试题难度均呈正相关。

词形还原后,以字母为单位测量词长时,BEC总语料库的平均词长为4.71。以音节为单位的总语料库平均词长为1.51。同样,两种方式测量的平均词长都随着试题等级难度的上升而增长。

2.各库词长分布情况

对各个原始语料库以字母为单位分别测量词长,图1为各个层级的词频分布情况。

图1 各库中不同长度(字母)词汇占比(%)

图1显示,各个语料库的词长主要集中在2—4个,其中初级语料库中占53.95%,中级占51.94%,高级占51.63%,总语料库中占52.14%。

此外,初级语料库中的词长分布在1—21个,但鲜见词长为17和19的词。中级语料库词长范围为1—27个,其中24与25的词长缺少。高级语料库词长分布在1—26个,缺少词长为21、23和25的词。BEC总语料库的词长分布范围为1—27个,缺少了词长为25的词。其中一些特定词长的词缺少的主要原因是本文语料库的样本量不足,但总体可以反映出BEC考试真题各梯度的词长分布范围。

图2显示,各库中多数词为单音节词,单音节词在各库中的占比均超过60.00%,其中初级68.00%,中级65.09%,高级64.64%,BEC总库65.39%。结合统计数据可知,BEC总语料库的词长分布范围为1—10个,其中初级语料库的词长分布范围为1—7个,中级为1—8个,高级的音节数分布在1—9个。

(二)高频词

词频是测量英语语言中特定词出现频率的重要方法。在超过700万词的普通英语词表中从未出现过的词相较于出现过的词更不易被使用。[7]同样,在语料库中,出现次数多的词更易受到关注。h点是秩频率分布中功能词和实词之间的模糊分界点。一般来说,h点之前的词属于高频词,h点之后的词为低频词。h点之前的词以功能词居多,但也可能包含该文本的核心词,通常能反映该文本的特征。

1.BEC与NE高频词对比

为探究BEC语料库与其他英语文体的语料库的共性与特性,笔者分别选取BEC语料库与海军英语(NE)语料库[2]词频表前50的词进行分析。

高频实词与更丰富的世界知识体系相关联。[8]由表2可知,BEC语料库中有6个核心词,如“公司”company(666)、“业务”business(401)、“工作”work(276)、“经理”manager(218)、“时间”time(215)、“顾客”customer(213)。由表5可知,NE语料库有8个核心词,“力量”force(3185)、“海军的”naval(2442)、“火车”train(2315)、“大海”sea(2130)、“船”ship(5589)、“海军”navy(3954)、“飞机”aircraft(2014)、“潜艇”submarine(1793)。这些高频核心词反映具体领域的目的和活动。BEC语料库中的高频词展现出了明显的商务英语特征,NE语料库中的高频词也体现出海军英语特征。

表2 BEC语料库和NE语料库词频前50词

就词汇定制而言,词可分为实词和功能词。[9]实词具有极强的所指性,可单独用来描述可感知的实体(如物体、事件和特征),为每句言语提供主题义。[9]实词包括名词、动词、形容词和副词。功能词在实词之间提供语言联系,要在小句或句子中与其他词结合才构成意义。助动词、连词、介词和代词都属于功能词。[9]在BEC前50高频词中,有38个功能词(如the、to、of、a和it)和12个实词(如company、business),分别占76.00%和24.00%。在NE语料库中,功能词有22个,占44.00%,实词有28个,占56.00%。卡方检验结果显示p=0.5>0.05。这表明NE语料库与BEC语料库中前50个高频词表中实词与功能词的使用情况并无统计学意义上的差异。

2.BEC子语料库中高频核心词对比

表3为三个子语料库中的高频核心词。结果表明,试题等级难度与高频实词的个数成正相关的关系。随着试题难度的加大,更高一级的高频核心词中几乎囊括了前一等级的高频核心词。在中级高频核心词中,初级的覆盖率为61.53%;在高级高频核心词中,中级的覆盖率为62.50%。“company”(公司)均为三个子语料库的最高频核心词,该词也是读者在商务英语领域中所期待见到的高频词,因为在商务英语的文本语境中,公司为进行商务活动的主要场所及载体。

表3 初、中、高级语料库中的高频核心词

高频实词构建了文本的语义网络。Trier指出,语言之间的界限可以决定其真实的价值。[10]词不应被单独作为考察对象,而应系统分析其语义的相互关系。以施动者为例,初级语料库中商务动作执行者或参与者为people和customer,在中级语料库中扩展到了manager与staff,到高级语料库中出现了manager的语义功能词management。结构主义认为,某种语言中的所有词组成的词库是语言形式和语义关系构成的关系网。随着文本难度梯度的加大,词汇所构建的关系网愈发复杂和精确。

(三)低频词

1.BEC与CCBNC低频词对比

低频词是指在文本中出现少于4次的词。可通过文本测量分析软件QUITA迅速了解低频词占比。本节将BEC语料库的低频词与CCBNC语料库低频词[11]进行对比。

在BEC总语料库中,仅出现一次的单词占比2.86%,出现两次的单词占比1.80%,出现过3次的单词数占比1.44%,低频词的总数仅占文本的6.10%。在CCBNC中,只出现一次的单词占比35.00%,出现两次的单词占比13.00%,出现三次的单词占比7.00%,低频词占文本的55.00%。卡方检验结果显示p=000<0.05,表明在两个语料库的低频词使用上呈现出显著差异,BEC语料库的低频词远远少于CCBNC的低频词。CCBNC的研究结果表明商务英语的独有词汇一般由低频词构成,这说明BEC语料库中含有的商务英语独有词汇较少,不足以涵盖整个商英语域的所有词汇。

文本中频次为1的词被称为单现词。Kornai认为,某个文本中将近一半的词只出现一次。[12]表中数据显示,单现词的占比仅为2.86%。而黄洁得出的结论为,商务英语的单现词比例为35.00%。[11]CCBNC的单现词占比35.35%。[3]统计检验表明BEC语料库的单现词与其余两个语料库出现显著差异。这表明BEC语料库的单现词数量较少,词汇丰富度低。这是因为BEC试卷通常使用高频词来表达其含义。因此,如果考生掌握了BEC语料库高频词的含义,他们在理解文本方面会遇到的生词困难就相对较少,能较为顺利地通过BEC考试。这也反映出BEC考试所涉及的词汇只是商务英语领域的少量词汇,要对商务英语领域的知识有更深入和准确的了解,必须努力增加商务英语方面的词汇量。

2.BEC子语料库低频词对比

笔者对三个子语料库的低频词做了统计。独立性检验结果显示p=0.997>0.05,表明BEC三个子语料库之间低频词的占比并未出现统计学意义上的显著差异,即初、中和高级语料库中的低频词分布情况相似。这与上节测出的BEC总语料库高频词占比少的结论相符。

低频词在英语词汇构成中的能产性较强[13],大量新词的产生和词法化往往始于低频词。此外,单现词通常能反映文本的词汇丰富度。三个子语料库中TTR的值(初级0.140,中级0.099,高级0.106)与表8中低频词的占比波动相似,这说明各个子语料库的词汇丰富度普遍较低。理论上,文本的难度梯度越大,词汇丰富度越高(即TTR与单现词占比越高)。但是,为何初级的TTR值和单现词占比要高于中级和高级?笔者认为,初级真题语料有限,但初级真题中的词汇必须构建完整的商务环境语境,从而造成型符与例符的比例变大。

(四)对教学的启示

在英语词汇教学中,词长和词频看似是极为抽象的概念,但对两者的研究可为针对BEC考试的词汇教学提供可靠数据支持。立足前文研究结果,本节尝试为BEC考试教学与商务英语教学提出以下建议。

1.注重单音节和双音节词汇教学

词长因素会影响英语学习者的词汇学习。[14]BEC平均词长与真题难度呈正相关。大部分BEC词汇主要由2—4个字母构成,分布范围多集中于单音节和双音节词。教师在词汇教学中应特别注重教学文本中单音节和双音节词汇的教授。

2.引导学生通过掌握基本词形主动学习词汇

在进行BEC考试词汇教学时,教师应从词汇的基本形态抓起。多数词汇的基本形态较简单,易于记忆习得。[15]多数商务英语词汇由基本的普通英语词汇词形构成,主要通过复合词和派生词进行词汇构建。[16]此外,BEC考试的备考对象多为以高效完成商务活动为目的的社会人士和商务英语专业学生,具有较强的学习动机和逻辑思维能力。教师应引导学生掌握基本词形,同时将构词法的知识融入词汇教学,以此提高学生构建其词汇语义网络的能力,达到一词记多词的效果。

3.高频词词表制作与教材选择

高频词词表的生成可减轻教与学的负担。因此,BEC备考的教材应尽可能涵盖商务英语专业词汇,尤其是高频词。此外,教师课后应安排相关任务,如造句、根据场景使用新词汇进行对话,鼓励学生使用当天学习的词汇,提高词汇使用率。

4.进行课外知识补充,扩大学生商务英语词汇量

对BEC语料库低频词的研究表明,BEC真题的词汇丰富度较低。这说明BEC真题涵盖的商务英语语域词汇较少,词汇覆盖率较低。任何教材都无法将一个语域中的词汇包罗万象。[18]适当选取课外读物进行教学,可提高学生的阅读能力,增加学生商务英语语域的词汇量。在读物的选取上,应尽量选择真实文本,如商务英语信函、英文合同等。

四、结论

本文基于自建的BEC语料库,借助计量语言学的相关指标,结合质性分析手段,有以下几个方面发现。

BEC语料库平均词长随着真题难度梯度的不断上升而增加,其中多为单音节词和双音节词。初级与中、高级词长的难度跨度相差明显。中级真题中不同音节词汇的音节数最长。

在与NE和商务英语语料库的对比中,BEC语料库与NE语料库的前50个高频词都具有各自的语言特色。BEC语料库与商务英语语料库的前10个高频词均为功能词。对比内部三个语料库后发现,试题等级难度与高频实词的个数呈正相关,更高一级文本语料库的高频核心词中几乎涵盖了前一等级文本语料库的高频核心词。

BEC语料库中低频词所占比例远远低于CCBNC语料库,说明BEC语料库中单现词的比例较低,词汇丰富度较低。此外,三个子语料库的低频词和单现词占比均较低。

本文最后提出BEC词汇教学的建议:第一,教师应在备考教学中注重单音节和双音节词汇教学;第二,引导学生通过掌握基本词形主动学习词汇;第三,制作高频词词表,选择高频词出现多的教材以及布置针对性的课后作业加深记忆;第四,进行课外知识补充,扩大学生商务英语词汇量。

猜你喜欢
高频词实词真题
30份政府工作报告中的高频词
省级两会上的高频词
玩转高考真题——比较大小问题
玩转高考真题——集合
玩转高考真题——几何图形中的不等式篇
28份政府工作报告中的高频词
省级两会上的高频词
玩转高考真题——集合篇
基于大数据分析的初中文言常用实词确定的研究
——以部编版教材为例
文言文实词词义推断的基本策略