刘 宇
(四川外国语大学 出国培训部,重庆 400031)
国家公派访问学者英语高级培训听力测试的选词特点
——基于RANGE软件的分析
刘宇
(四川外国语大学 出国培训部,重庆 400031)
本研究运用以词频为统计基础的Range软件,对国家公派学者英语高级培训听力测试(2010—2014)六套最新解密真题的录音脚本及考点答案的词汇范围进行量化分析。结果表明:就录音脚本而言,每套真题中不同语篇的选词范围存在明显差异,但六套试题选用的词汇范围从总体上看较为一致;六套真题考点答案选取的各级词汇,其词频出现了较大幅度的波动;与录音脚本相比,低频词汇在考点答案中出现的频率较高。弄清这些特点有利于优化国家公派学者英语高级培训的听力测试设计并进一步提高教学质量。
听力测试;Range软件;高频词汇;学术词汇;低频词汇
国家留学基金管理委员会(以下简称留学基金委)每年在选拔资助高级研究学者、访问学者和博士后赴海外留学时,对申请者的外语水平提出了明确要求。[1]计划前往英语国家的公派留学人员可以直接报考学术类雅思考试(IELTS:Academic Mo-dule)、托福考试(TOEFL),或全国英语等级考试第五级(PETS-5)并达到最低分数线;也可以在教育部指定出国留学人员培训部参加英语高级班培训,并通过留学基金委组织的英语测试(CSC-ET)。由此可见,CSC-ET是我国政府用于衡量公派留学人员英语水平的一项重要测试手段。然而与其他三种公共英语考试相比,公众对CSC-ET考试的形式和特点仍缺乏了解,相关研究尚处于起步阶段。
近年来,随着在全国范围内参加英语高级班培训的公派出国预备人员数量不断增长, 学界开始关注CSC-ET考试。例如,吴晓诺对CSC-ET听力试题录音原文中的语篇长度及类型、题目类型、语速等特点进行了考察,并将其与全国英语等级考试第五级(PETS-5)进行比较。他还根据80名公派培训人员参加两种听力测试的成绩,分析CSC-ET试题的信度和效度,进而指出CSC-ET听力测试的难度低于PETS-5考试。[2]尽管该研究揭示了CSC-ET听力测试的一些特点,但由于没有分析试题的具体内容,对公派学者英语强化培训的促进作用有限。
针对上述不足,本研究拟从词汇的角度考察CSC-ET听力测试的内容特点。以2010—2014年六套最新解密真题为数据建立语料库,并使用Range软件分析六套真题录音脚本及考点答案的选词范围,以期为优化考题设计及提高听力教学水平提供相应的实证依据。
(一)研究数据
本研究的数据来源于CSC-ET考试的听力部分,考试时间介于2010年至2014年,是经过留学基金委解密的六套最新真题。数据分为两大部分,包括六套真题听力测试的录音脚本以及考点答案。两种数据涉及不同类型的词汇。录音脚本中出现的词汇要求考生在聆听时能快速理解其基本语义,主要属于接受性词汇;而CSC-ET听力测试的一大特点是,除了五道判断正误题外,其余35道都是要求考生填写答案的主观试题,考点答案所涉及的词汇需要能够快速而准确地拼写出来,对考试者提出了更高的要求,因此主要属于产出性词汇。[3]六套听力真题的这两大类数据建立起本研究的数据库。根据研究需要,录音脚本数据按照对应的考试时间和所属的语篇类型进行归类,考点答案数据则按对应的考试时间进行归类。录音脚本和考点答案均以文本文件形式建立语料库,此外还去除了解密真题材料中出现的中文释义、评分说明等冗余信息。
(二)研究工具
Range软件由新西兰语言测试专家 Nation & Coxhead 设计开发,是一款能够有效分析统计英语文本中词频及词汇范围的重要工具。[4]我国学者近年来已经开始使用该软件考查学生在英语写作中表现出的词汇习得情况,或评估英语阅读测试的词汇覆盖率。[4]-[5]本研究所使用的Range软件自带三个不同级别的词频表。[4]其中,第一级、第二级两个词频表均包括1000个词族(word family)。这两个词频表的内容是英语使用者最常用及次常用的2000个词族,我们将其称为高频词汇。第三级词频表则源于Coxhead所收集的学术英语词汇表[6],包含570个词族,我们将其称作学术词汇。
按照Coxhead的解释,英语中一个词族包括能单独使用的核心词和在核心词基础上通过曲折变化及添加前后缀等方式派生出的其他词汇。[6]例如以“collect”为核心词的词族包括“collects,collected,collecting,collection”等。而“special”和“specify”尽管语义上有相关性,但他们共有的词素“spec”无法在英语中单独使用,因此不属于同一词族。同一词族下以各种形式出现的词汇,如“collects,collected,collecting,collection”等,记录为不同的词类(word type)。而某个词类如在语篇中出现的次数则记录为词符(word token)。
Range软件在处理语料库中的文本文件时,会自动将文本中出现的词汇同自带的三个词频表进行比较和统计,从而显示该文本在三个级别的词汇覆盖率。如果某个文本的学术英语词汇覆盖率较高,则该语篇的学术性更强。对于文本中包含在三个词频表范围内的词汇,Range软件能够自动统计出词族、词类和词符三者的数量和百分比。而如果文本中出现了三个词频表范围以外的词汇(本文称之为低频词汇),Range软件则只能统计出词类和词符两者相关数据。鉴于此,本研究在考察CSC-ET的词汇覆盖率时,以词类为重点比较对象。
(一)听力脚本中不同类型语篇的词汇分布情况分析
CSC-ET听力测试的录音脚本在形式上分为四个部分(section)。从语域这一视角上看,[7]考虑到话语活动的目的、话语活动参与者之间的关系,以及话语交际的渠道,CSC-ET听力测试涉及五种不同语篇类型。第一部分(Section 1)是一则就人文社科领域话题的独白,例如简要介绍一所国际知名大学的发展历史。第二部分(Section 2)分为两个不同语篇(Section 2a,Section 2b)。Section 2a是日常生活服务领域中(如入住酒店)的一段对话;Section 2b 则是由男女两名播音员轮流播报的新闻。第三部分(Section 3)往往是一位专家就人文、社科或科技领域内某一话题接受记者或学生的采访。第四部分(Section 4)是教育场景中的一个小型讲座。将六套真题的录音脚本按照语篇类型进行汇总后,使用Range软件处理,表1显示的是五种语篇中的词类分布比率。
表1 CSC-ET听力测试五种语篇的词类分布比率
从词类分布比率来看,Section 2a对话这种语篇的内容最贴近英语国家的日常生活,有超过八成的词类都属于最常见和次常见的2000个高频词汇,而对话中的学术词汇比率不到百分之五。相反,Section 1简介的内容最为学术化,其学术词汇的比率差不多是对话的三倍,高频词汇的比率却比对话低了近两成。另外,Section 4小型讲座的内容学术化特征也很突出,其学术词汇的比率只比简介差0.2%。相比之下,Section 3 采访的内容则比较均衡,其高频词汇的比率在五种语篇类型中排第二,学术词汇的比率排第三。Section 2b 新闻语篇的一个突出特点是,其低频词汇的比率最高,超过四分之一。这些低频词汇包括大量涉及人名地名的专用名词,如“Charles、Alaska”等,对考试者的听力理解提出了一定挑战。
(二)各套真题听力脚本的词类分布情况分析
本项目收集的CSC-ET听力真题按照考试时间分类,各套题的录音脚本经过Range软件分析,其词类的分布比率如表2所示。
表2 CSC-ET听力测试六套真题录音脚本的词类分布比率
表2的数据显示,各套听力真题测试选用的接受性词汇,其级别词频分布较为一致:其中绝大多数(七成左右)来自英语国家的日常生活场景,一成左右涉及学术场景,还有近两成的内容较为专业化,属于低频词汇。在场景内容的选取上有较大波动的是2010年1月和2012年1月的试题。前者的第三级词汇比率高出后者近一倍,学术化特征突出,难度值较高。
(三)各套真题考点答案的词类分布情况分析
CSC-ET听力测试有一大特征和难点,那就是主观试题的比例接近九成,即40道听力试题中有35道要求考试者填写答案。听力脚本中出现的词汇往往只要求考试者理解,属于接受性词汇。与此不同,考点答案中的词汇不仅要求正确理解,而且还要求能够准确拼写,因此属于产出性词汇。六套真题考点答案所涉及的产出性词汇的词类分布情况如表3所示。
表3 CSC-ET听力测试六套真题考点答案的词类分布比率
表3显示的数据表明,各套真题测试的产出性词汇在级别分布上存在较大差异。例如,2014年6月的考点词汇超过七成属于日常生活中最常见和次常见的2000基本词汇;而2010年1月的试题中属于此范围内的考点词汇比率不到四成五。同样,2011年6月的考点词汇只有很少一部分(5.5%)属于学术场景,而2010年1月要求正确填写的答案有超过三成是学术词汇。另外,大多数CSC-ET听力真题都将低频词汇列为重点考查对象,其在考点词汇中的比率达到两成以上;唯一例外的是2014年6月试题,这套题所测试的产出性词汇只有不到一成属于低频词。
(四)各套真题听力脚本与考点答案的选词范围变化趋势之比较
真题考点中要求准确填写的产出性词汇来源于相应听力脚本中出现的接受性词汇,两者之间因而存在密切联系。我们有必要研究一下六套真题中接受性词汇同产出性词汇在选词范围上的变化是否具有一致性。以学术词汇的百分比为例,两者在六套真题中的变化趋势如图1所示。
图1 六套真题听力脚本与考点答案中学术词汇的百分比变化
图1表明,听力脚本与考点答案选取的学术词汇,在六套CSC-ET真题中呈现出的词频变化趋势迥异。首先,从总体上看,考点中学术词汇的词频有较大波动,而脚本里学术词汇的词频变化较为平稳。其次,两者在各阶段的词频变化也很不一致。举例来说,从2010年1月到2010年7月这一阶段,考点中学术词汇所占百分比的变化趋势是大幅下降,而脚本中学术词汇百分比则缓慢上升;从2010年7月到2011年6月这个阶段,考点中学术词汇百分比先是显著上升然后又骤降,而脚本中学术词汇百分比则是略微下降;从2011年6月到2014年6月这一阶段,考点中学术词汇的百分比直线上升,而脚本中学术词汇的百分比先是下降,然后又反弹回升。
(一)听力试题设计的反思
通过分析CSC-ET听力的真题脚本中不同类型语篇的词频特征,我们发现测试第一部分Section 1简介语篇选取的高频词汇比率最低,学术词汇比率最高,难度较大;而测试第二部分,特别是Section 2a 对话语篇选取的高频词汇比率最高,学术词汇比率最低,理解障碍较小。按照从易到难,循序渐进的原则,我们建议在以后设计CSC-ET听力考题时,调整不同语篇的测试顺序,将对话部分的考题位置提前。
另外,Range软件的统计结果表明,六套真题中接受性词汇的级别分布情况比较一致,而产出性词汇的级别分布则差异很大。这提醒我们在今后设计CSC-ET听力测试的考点答案时,需要进一步明确各级词汇的比率范围,从而避免选词的随意性。
(二)教学启示
随着CSC-ET考试的影响力日益扩大,相关语言培训项目也在不断摸索和发展。《国家公派访问学者类别培训大纲》在说明“知识要求”时,提到学员需要掌握7000认知词汇以及4000积极词汇。但考试组织方迄今为止没有公布明确的CSC-ET考试词汇表,部分学员在准备考试时存在困惑,感觉无从下手。我们的研究表明,无论是真题听力脚本中出现的接受性词汇,还是考点答案选取的产出性词汇,Range软件自带的三个词汇表的覆盖率均达到八成左右。也就是说,Range软件自带的近2570个词族可以成为今后编写CSC-ET考试听力词汇表的基础核心内容。
我们使用Range软件分析还发现,CSC-ET听力测试无论是接受性词汇还是产出性词汇,其中低频词汇的比率也比较高,达两成左右,包括人名地名等专用名词以及经济、自然科学等专业领域使用的词汇。这也要求教师在开展听力培训时,在Range软件2570个词族的基础上继续扩充词汇,引导学生掌握这部分涉及专业领域的内容,从而帮助学生在准备听力考试时能够更好地做到有的放矢。
Range软件不仅能够剖析出CSC-ET听力测试的录音脚本和考点答案的选词范围和特点,为不断改善试题设计,提高教学质量提供实证依据;其本身自带的高频词汇及学术词汇表也是学员用于准备CSC-ET考试的宝贵资源。熟练掌握和运用Range软件,对国家公派访问学者英语高级培训项目的建设和发展具有积极推动作用。
[1]国家留学基金管理委员会.国家留学基金资助出国留学外语条件[EB/OL].(2016-01-04)[2016-06-08].http://www.csc.edu.cn/article/250.
[2]吴晓诺.“全国英语等级考试”与“国家留学基金委英语考试”的听力测试分析[D].上海:上海外国语大学,2011.
[3]Nation, P.LearningVocabularyinAnotherLanguage[M]. Cambridge: Cambridge University Press, 2001.
[4]鲍贵,王霞.RANGE在二语产出性词汇评估中的应用[J].外语电化教学,2005(4):54-58.
[5]文忠毅,王雪玮.基于语料库的高考英语阅读理解试题语言复杂性分析——以2008—2012年重庆市高考英语试题为例[J].重庆第二师范学院学报,2014(2):167-170.
[6]Coxhead, A. A New Academic Word List[J].TESOLQuarterly, 2000(2):213-238.
[7]Halliday, M.A.K.LanguageasSocialSemiotic:TheSocialInterpretationofLanguageandMeaning[M]. Baltimore: University Park Press,1978.
[责任编辑亦筱]
2016-06-22
国家留学基金管理委员会“培训部外语强化教学人员出国研修项目”(20153044)
刘宇(1975— ),男,重庆市人,博士,副教授,研究方向:系统功能语言学,英语强化培训教学。
H319.3
A
1008-6390(2016)05-0156-04