ESP与EGP文本的词汇特征对比研究

2017-11-01 21:38卫志强
宿州学院学报 2017年9期
关键词:实词词频主题词

卫志强,万 麟

马鞍山职业技术学院应用外语系,马鞍山,243031

ESP与EGP文本的词汇特征对比研究

卫志强,万 麟

马鞍山职业技术学院应用外语系,马鞍山,243031

为深入了解ESP与EGP阅读文本在词汇使用方面的特征,以自建ESP/EGP语料库为基础,通过对比分析三个层次词汇特征,结果表明:与EGP相比,ESP词汇平均长度较长,实词比例较大,词汇复杂性更高;ESP中高频词的汇覆盖率较低,但学术词汇、专业词汇和低频词比例较高;ESP多用名词、形容词,却少用动词和副词。ESP主题词以名词居多,而EGP主题词中以人称代词和动词居多。主题词的不同反映出两类语料在语体风格及交际目的上的差异。

ESP;EGP;文本;词汇特征

1 研究背景与问题提出

专门用途英语(ESP,English for Specific Purposes)是在一般用途英语(EGP,English for General purpose)的基础上提出并发展而来的,它是与特定职业或学科门类相联系的英语类型。不同于EGP,ESP主要聚焦于学习者的语言学习需求。在我国,ESP存在的理据及其必要性已经得到范谊、蔡基刚等人的充分论证[1-2],ESP课程也将成为今后一段时期高校英语课程改革的重点。但其发展仍面临多重任务,更有许多亟待解决的问题,围绕ESP的探讨一直都是备受关注的焦点之一。

李传芳认为ESP与EGP的根本区别在于词汇[3]。目前,围绕ESP词汇开展的研究多集中于教学领域,如秦建华论述了ESP语料库词汇研究对于大学英语教师转型的意义[4],梁宁提出了有效的ESP词汇教学途径[5],张济华、卢华国等介绍了基于语料库数据驱动的ESP词汇教学模式[6-7]。在为数不多的实证研究中,研究者仅仅考察了某一学科领域内的ESP词汇特征,如徐承萍研究了工科学术论文中的ESP词汇特点[8],张敏以信息工程专业语料库为基础,探讨了学术词汇与专业词汇的边界及两者的辩证关系,并借助语料软件提取了248个核心学术词族及166个核心专业词族[9]。这些研究无疑能够加深学习者对ESP词汇特点和学习规律的认识。

可是,到目前为止,并没有发现对ESP/EGP文本的词汇特征作系统性的对比研究,并且在过往研究中,对词汇特征这一概念也未形成共识,研究者多是根据特定研究目的和需要对其作工具性界定。例如刘建达等人在研究中仅使用了四个词汇指标对这一概念进行量化[10]。笔者认为词汇特征这一概念具有层级性,基于这一认识,本文根据整体性、分类性和个体性词汇特征对两类语料(ESP/EGP)作综合性分析。整体性词汇特征指语料的宏观词汇概貌;分类性特征则是在一定的标准或原则之上对所有词汇进行分类,在此基础上对语料词汇特点做横向或纵向的比较;而个体性特征则关注单个词语在不同类语料中的使用规律。笔者认为,从上述三个层次对词汇作出的系统性分析才应该是完备的。与此同时,本文也认同王同顺等人的观点[11],侧重从词族角度来研究词汇的使用,因为相比于词符与词型,词族与词汇的学习具有更为密切的联系。

2 研究设计

2.1 研究问题

(1)ESP与EGP的整体性词汇特征如何?两者间有无显著差异?

(2)ESP与EGP分别具有怎样的分类性词汇特征?差异是否显著?

(3)ESP与EGP各自具有什么样的独立性词汇特征?

2.2 语料库构建

自建ESP/EGP分类语料库。用扫描仪扫描纸质文本,使用ABBYY FineReader 12光学文字识别软件对扫描所得图片文件作转码,以获得纯文本文件(.txt)。对所得文本进行统一编号,并对语料作严格的整理,以确保后续数据的真实有效。

两类语料都源自近10年来国内公开出版发行的大学英语教材中所有阅读类型文本。EGP语料取自6套公共英语教材共20分册352篇文章,ESP语料取自4套专业英语类教材共19分册309篇文章。EGP语料容量为160 165词,ESP容量为132 317词。ESP文本涉及的学科众多,主要包括计算机、机电、汽车、农林、土建、商贸等专业。选取语料时只考虑正文内容,不包括原文中的图、表、标题、注释等内容。

2.3 方 法

使用以下3种语料库工具:(1) Readability Analyzer 1.1,用于测量整体性词汇特征中的平均词长和标准类型符比。(2)Range_GSL_AWL,可测量实词密度、各级词汇的分布和词族的频率性特征。(3)AntConc3.2.1,能够完成对附码语料的词性统计和主题词的提取任务。

需要作出如下说明,Range 软件中自带一般用途词表(GSL)以及Coxhead研制的学术词汇表(AWL)[12]。GSL包含2 000个最为常用的高频词汇,按照词频,前1 000个单词被定为一级词汇,后1 000个为二级词汇。学术词汇共570个词族,它对构建学术语篇有不可替代的作用,被定为三级词汇。在使用该软件时发现,上述两张词表能够覆盖88%的ESP词汇,但对剩余12%词汇则不提供任何词族方面的信息,因而有必要自制四级词汇表,以全面反映词汇的整体使用情况。四级词表的制作过程为:将Range分析结果中的三个级别词汇以外的所有词型导入到http://www.lextutor.ca/familizer/上的在线辅助工具中。所得词族表有部分与GSL或AWL重合,这是由于该辅助工具会自动拆分合成词,并分别计入不同词族。将这部分重合的词族删除,在此基础上,将四级词族表与其他词表共同载入Range中运行,以求获得关于语料的较为全面的词汇数据。

此外,还使用Range自带的虚词表(function.txt)。将其导入Stop list 中排除对所有虚词的统计,从而计算出实词密度;同时也对两类语料分别作TreeTagger词性附码,利用正则表达式在AntConc软件中分别检索各类别实词。

3 研究结果

由表1可知,在词汇整体性特征的三个指标上,EGP都低于ESP。进一步的独立样本T检验显示,EGP 与ESP在平均词长方面的差异性达到十分显著的程度(P=0.000)。

表1 EGP与ESP的整体性词汇特征

对比ESP与EGP各级别词汇的词符使用(表2)可以发现,相较于EGP,ESP中一级词符的比率较低(73.15<82.52),二、三、四级词符的使用率则高于EGP(6.76>5.84; 9.05>3.98; 6.74>4.09)。ESP四级词符的数目仅8 920个,但该类词汇却归属于2 119个不同的词族中,类似的情况也出现于EGP四级词汇中。相比于他类词汇,四级词汇的词族数目巨大。表外词汇由于含有较多的人名、地名、数字、单位符号等,所以无法统计其词族信息。

表2 EGP与ESP的分级性词汇特征

表3 EGP与ESP词汇频率特征

表3表明,重复次数在1-10之间的低频词汇数目,ESP显著多于EGP。但ESP中词频在11~40次的中低频词却显著少于EGP。ESP中41-100词频的词数目要多于对应的EGP,101次及以上的词少于EGP,但在这两区间内,两类语料无明显差别。

表4 EGP与ESP的各类别词汇特征

对两类语料分别作归并处理,并对整合后的语料作词性赋码,将正则表达式(名动形副四类词分别为:S+_Nw+s;S+_VVw*s;S+_JJw*s;S+_RBw*s)输入AntConc软件中并作词类检索,结果见表4。表4显示,ESP使用的名词与形容词较多,EGP则使用动词与副词更多。卡方检验证实,两类语料在各类别实词的使用上都存在显著差别。

为了弄清各独立词汇在两类语料中的典型度,仍运用AntConc软件,以EGP为参照语料,抽取ESP中的主题词;再以ESP为参照,相应抽取EGP的主题词。限于篇幅,仅列出两类语料的前20个主题词(表5)。不难看出,两类语料主题词差异明显。ESP的主题词都为名词,主要涉及商务、市场、经济、信息技术等。而EGP主题词以代词居多,多半反映学校、个人生活、亲情与友情等。

表5 EGP与ESP主题词表

4 分析讨论

ESP平均词长大于EGP。按照桂诗春的观点:“词长与词频有一定的关系,常用词一般较短。”[13]如此看来,ESP中应包含了比EGP中更多的不常用的低频词。董艳萍在前人研究的基础上作如下论断:“高频词一般是整词存储和提取的,低频词可能是以词根和词缀分别存储(于心理词库之中)。”[14]因此,可以认为个体阅读辨识ESP词汇时,可能需要作出更多认知处理。ESP词汇阅读难度可能更大。ESP的实词密度也大于EGP,深入分析(表4)ESP发现,在主要的4类实词中,名词与形容词使用频率较高,而动词与副词的使用频率相对较低。似乎可以作出如下推测:名词的大量使用,使得修饰它的形容词使用频率也上升,这两类词的多用恰好造成了动词和副词的相对少用,并整体上造成ESP实词使用频率偏高。Biber和Conrad 认为名词的使用正是教材说明文体(Academic Prose)的语言特点之一,体现出该类文体的信息性特征[15]。标准类符型符比数据也显示ESP词汇比EGP词汇复杂。

再看分级性词汇特征。据Laufer等推算,为了达到理想的阅读效果,须具备足量的词汇储备(sight vocabulary),并保证词汇量至少覆盖阅读文本的95%以上[16]。本文中ESP一级到四级词汇的总型符覆盖率累计达到95.70%。这说明,为轻松地阅读ESP,不仅需要熟练掌握高频率词汇和通用学术词汇,也包括相当数量的其他词汇,掌握2119族四级词汇对阅读本研究中ESP文本也十分必要。本研究范围内,研究发现有超出9成的ESP四级词汇,其频率在1~10之间,故ESP四级词汇以低频词居多。Chung等将一级至三级外的词汇区分为专业和低频词汇两类,并且认为专业词汇可源自前三级词汇,但其常规意义丢失,更多体现为较为固定的专业义[17]。张敏也将一到三级词汇外的低频词汇剔除,将剩余的频率超过100次以上的166族词汇确定为核心专业词汇[9]。鉴于本研究ESP语料规模较小,学科跨度也较大,出现高频的核心专业词的可能性较小,但仍有理由相信四级词汇中有相当一部分可视为专业词汇。同时,由于四级词汇的词符覆盖率低,而词族众多,因此对学习者来说,记忆四级词汇的难度相对更大,如果说EGP中词汇的学习任务主要集中于前三级词汇,那么四级词汇理应成为ESP词汇学习的重点。从词频角度看,两类语料最显著的差异体现在低频词上(词频<40,见表3)。词频在1~10范围内的词以ESP居多,一定程度上也反映出ESP词汇的多样性。

此外,ESP与EGP在词汇个体上也呈现特征性区别,ESP的前20个主题词皆为名词,EGP主题词既有动词,也有人称代词,显示出两者在文体上的巨大差异。如前所述,ESP文本中,说明文占据很大篇幅,文本多以信息传达为主要交际目的;而EGP中人称代词多,动词多,表明文本的互动性较强,从语体角度来说,与口语体风格更为接近。

5 结 论

通过对两类语料三个类型词汇特征的比较,得到如下结论:(1)相比于EGP,ESP中词汇的平均长度更长,实词更多且词汇复杂多样。(2)EGP中一级词汇的覆盖率更高,ESP中二、三、四级词汇占比更大。四级词汇的型符最少,但词族数最多。ESP中1~10次区间的低频词显著多于EGP,11~40词频区间的词汇却显著少于EGP。ESP多用名词与动词,而EGP多用动词与副词。(3)ESP主题词以名词居多,EGP主题词中以人称代词和副词居多,主题词的不同间接反映出两类语料文体风格上的差异。

但是,本研究也存在不足:语料规模有限,上述结论需要得到其他相关研究的佐证。语料范围较窄,仅研究了大学英语教材中的阅读类型文本。词汇特征的测量指标也较为单一。今后的研究可弥补以上三方面所存在的不足,从而获得对ESP词汇更加准确的认识。

[1]范谊.ESP存在的理据[J].外语教学与研究,1995(3):43-48

[2]蔡基刚.ESP与我国大学英语教学发展方向[J].外语界,2004(2):22-28

[3]李传芳.EGP词义石化对ESP词汇学习的负迁移:基于商务英语英汉翻译的实证研究[J].外语界,2009(4):40-44

[4]秦建华.基于专门用途英语(ESP)语料库的词汇研究:探索大学英语教师向ESP教师转型的途径[J].内蒙古民族大学学报:社会科学版,2013,39(2):89-93

[5]梁宁.论ESP项目的词汇教学[J].广东外语外贸大学学报,2003(4):77-80

[6]张济华,高钦,王蓓蕾.语料库与大学专门用途英语(ESP)词汇教学探讨[J].外语界,2009(3):19-25

[7]卢华国,张雅.基于Sketch Engine的专门用途英语(ESP)词汇数据驱动教学模式探索[J].现代教育技术,2015,25(2):67-73

[8]徐承萍.工科学术论文中ESP词汇特点研究[J].中国ESP研究,2014(1):60-67

[9]张敏.ESP视角下学术词汇与专业词汇的边界:一项基于学科语料库的实证研究[J].中国ESP研究,2016(2):41-55

[10]刘建达,黄亚萍.词汇特征量对CET作文得分的影响[J].外语电化教学,2011(3):11-15

[11]王同顺,许莹莹.大学英语教材中的词族分布研究[J].外语电化教学,2013(5):10-15

[12]Nation P.英语词汇教与学[M].北京:外语教学与研究出版社,2004:21-27

[13]桂诗春.新编心理语言学[J].上海:上海外语教育出版社,2000:275-276

[14]董燕萍.心理语言学与外语教学[M].北京:外语教学与研究出版社,2005:36-39

[15]Biber D,Conrad S.Register,genre,and style[J].Cambridge University Press,2009:114-123

[16]Laufer B,Nation P.Vocabulary Size and Use:Lexical Richness in L2 Written Production[J].Applied Linguistics,1995,16(3):307-322

[17]Chung,Teresa Mihwa,Nation P.Technical Vocabulary in Specialised Texts.[J]:Reading in A Foreign Language,2003(2):103-116

(责任编辑:胡永近)

H315

A

1673-2006(2017)09-0069-04

10.3969/j.issn.1673-2006.2017.09.016

2017-03-28

马鞍山职业技术学院校级质量工程研究项目“基于语料库的英语教材词汇特征研究”(201527)。

卫志强(1983—),安徽合肥人,硕士,讲师,研究方向:语料库语言学、二语习得。

猜你喜欢
实词词频主题词
基于词频分析法的社区公园归属感营建要素研究
文言文实词词义推断的基本策略
文言实词50例
文言实词推断法
词频,一部隐秘的历史
云存储中支持词频和用户喜好的密文模糊检索
我校学报第32卷第5期(2014年10月)平均每篇有3.04个21世纪的Ei主题词
我校学报第32卷第6期(2014年12月)平均每篇有3.00个21世纪的Ei主题词
2014年第16卷第1~4期主题词索引
《疑难病杂志》2014年第13卷主题词索引