基于语料库的CET-6阅读语言复杂性对比研究

2021-03-16 06:05闫正坤
安顺学院学报 2021年1期
关键词:主题词雅思复杂度

徐 鹏 闫正坤

(1.安徽工程大学外国语学院,安徽 芜湖241000)(2.安徽财经大学文学院,安徽 蚌埠233030)

全国大学英语四六级考试是教育部主办,教育部考试中心主持和实施的一项大型标准化考试,其目的是对中国在校大学生进行英语综合应用能力的评价。自1987年实施以来,四六级考试已经走过三十多个年头,历经数次改革。作为对于中国高校大学生具有重大意义和影响的考试,多年来围绕其展开的相关研究从未停止过。关于四六级考试的研究主要分为两大类:一是2010年至2020年国内专家学者对于考试的顶层设计的思考和改革的导向问题[1-4];二是长期以来各类学者对于四六级各类题型的解题分析、应试策略以及对教学的反拨作用。纵观大学英语四六级各题型中,阅读题所占的比例较大,和听力各占35%的分值。且词汇、语法覆盖全面,是检测考生词汇量、语法知识以及篇章理解能力的重要手段。近年来,国内学者基于四六级阅读的研究多集中于篇章解题型分析和题技巧、篇章阅读的心理过程、语篇阅读模式。而从测试学方面进行的篇章本体分析则寥寥无几。从语言特征本体上进行分析的研究只有刘冰、陈建生通过基于语料库的方法考察了2013年之前四六级阅读理解的词汇密度和句子长度。[5]然而该研究时间久远,仅停留在2013年以前的语料,且分析也限于词汇密度和句子长度,对于近年来,尤其是2016年最新四六级大纲更新过后的试题缺乏指导意义。鉴于此,本文利用自建语料库对2013年以后的六级阅读篇章做本体的文本研究,旨在更加深入地对更新的篇章语料做更为彻底的比较分析。

一、研究设计

语料库技术的发展为语言研究提供了新的手段, 开拓了新的视野。孔文、邹申指出, 语料库在外语测试中的应用还很少有人探讨, 我国的语言测试研究者应认识到语料库在外语测试中的潜力, 并积极运用这一强大的工具改进和完善我国的外语测试。[6]

本研究通过定性和定量相结合的统计方法,以语料库语言学手段,对大学英语六级考试中阅读部分篇章的语言难度从不同层面进行对比分析。旨在回答以下几个问题:1.近年来六级快速阅读和仔细阅读与雅思阅读相比,在词汇复杂度和句法复杂度上呈现何种差异;2.近年来六级快速阅读和仔细阅读在语言复杂度上有何种变化;3.与雅思阅读相比,近年来六级阅读呈现何种主题特征;4.语料库及工具介绍。

本研究采用个人自建语料库,通过语料库语言学方法,为大学英语六级考试中阅读部分语言特征差异的研究提供了一个全新的视角。本库所有语料来自 2013-2019年间全国大学英语六级考试阅读理解部分的长篇阅读和仔细阅读,共计60篇,其中快速阅读30篇,约3,6,000词;仔细阅读60篇,约2,7000词。对所有文本剔除了中文、题目,并且进行Treetagger附码。之所以选择六级没有选择四级,一是因为四级考试的关注远大于六级,相关的对比研究数不胜数。二是因为六级作为高水平的语言测试,和考研英语较为接近,对高年级大学生的参考价值更大。本研究使用的工具有Wordsmith4.0, LCA, L2SCA等软件,并且使用雅思学术阅读作为参照比较,雅思学术阅读语料库来在于雅思官网,共50篇约五万余字。

本研究主要考察词汇复杂度和句法复杂度两个方面。词汇复杂度的概念长久以来定义不一。前人曾借用词汇多样性(lexical diversity)、词汇丰富度(lexical richness)、词汇成熟度(lexical maturity)等概念来指代。本文拟采用Read(2000)的lexical richness 概念来表示词汇复杂度,其包含词汇密度(lexical density)、 词汇高级度(lexical sophistication)、词汇多样性(lexical variation)、词汇的误用(error in vocabulary use)四个维度。由于六级阅读选材并非学习者语料,遂剔除词汇的误用,从词汇密度、词汇高级度和词汇多样性三个方面对词汇复杂度进行考察。

词汇密度最早由Ure提出,指的是实义词数相对文本总词数的比率[7]。本研究中,采用陆小飞的界定,实义词包括名词、形容词,除情态动词、助动词、BE动词以外的实义动词,以及具有形容词基础的副词等[8]。词汇高级度主要衡量文本中罕见词、高级词的比率[9],本文着力考察高级实义词对总实义词比率,以及高级动词对总动词数的比率。此处的“高级”按照惯例被定义为BNC语料库2000高频词外的词汇。词汇多样性指的是词汇使用的广度[10],词汇广度的考察指标较多,各有优劣,且非本文讨论范畴,在此不展开赘述。前人使用较多的是类形比TTR,由于TTR容易受到文本大小的影响,因此本文采用修正类形比CTTR。综上所述,选用LD, LS1,VS1,CTTR等四个指标,考察六级阅读的词汇复杂性。

句法复杂度,本研究使用陆小飞开发的L2SCA二语句法复杂性分析器进行标注分析。该分析器的准确性已经过多次测试得到了验证[11]。汇集了前人文献中公认的14个表现最好,代表性最强的测量指标,并加入9个早期句法发展研究中常用、容易计算的频数指标作为补充。徐鹏通过对23各指标作因子分析,将其归分为四个维度[12]。基于前人综述,本研究四个维度中各选择一个代表性较好的指标,作为测量六级阅读文章句法复杂性的关键工具。分别是表示从属结构密度的C/T, 表示从属结构长度的MLT, 表示并列短语使用的CP/T, 以及名词性结构维度的CN/T(详见表3)。

表1 语料库构成

表2 词汇复杂度考察指标[13-16]

表3 句法复杂度考察指标

二、结果分析

(一)六级快速阅读与仔细阅读的词汇和句法复杂度考察

我们采用了ANOVA简单方差分析,试图揭露三个群体的均值在四个维度上是否存在显著性差异。根据表4,六级快速阅读、仔细阅读、雅思学术阅读在词汇密度LD上的数值分别是0.553,0.552和0.549,且P=0.862大于0.05,不具有显著性差异,这说明在实义词的使用比例上,六级快速阅读、仔细阅读和雅思学术阅读几乎没有显著差异。这与王勇旗[17]得出的雅思与六级阅读材料在词汇密度和重复率方面相差无几结论相一致。

表4 六级阅读词汇复杂度

在词汇高级度LS1,动词高级度VS1,以及修正类形比CTTR三个维度的方差F值分别为7.540,4.292和17.890,且P值均小于0.05,其中LS1和CTTR的P值小于0.01,表示这三个指标上,三种语料之间存在着显著性差异。接下来对三个具有显著性差异的指标进行进一步考察,使用方差分析中的事后比较发现:在LS1指标上,六级快速阅读与仔细阅读没有显著性差异,p>0.01,快速阅读、仔细阅读与雅思差异显著性P值分别为0.002和0.022, 均小于0.05。可以看出,六级阅读的词汇高级度(即高级词汇的使用)远小于雅思学术阅读。这与江进林、韩宝成通过Range软件测试出六级阅读语篇词表外词汇的百分比远低于托福(40.78%)和雅思(41.36%),因此六级阅读语篇的词汇整体上比托福和雅思容易的结论相一致。[18]而对VS1的事后比较也顺应这一趋势,动词的词汇高级度也相应地低于雅思学术阅读。

类形比(TTR)长久以来一直是词汇多样性/词汇广度的指标,由于TTR容易受到文本大小的影响,因此本文采用修正类形比CTTR,来弱化其受制于文本大小的影响。类形比越大,表明不同词汇使用程度越大,即同样字数篇幅的内容中涉及到的不同单词越多。从事后比较分析可以看出,六级阅读无论是快速阅读或是仔细阅读,其用词广度均明显高于雅思学术阅读。但在快速阅读和仔细阅读之间不存在差异。这也符合Yasunori Nishina学术类文章的词汇变化最小,重复程度高的论断,因此学习者应当通过阅读有针对性地总结积累学术类词汇[19]。

而在句法复杂度方面,根据表5可以看出,六级阅读在从属结构长度,并列短语维度和名词性结构维度等方面方差分析P值分别为0.765,0.947,0.272均小于0.05,因此不存在显著性差异。唯一值得注意的是从属结构密度指标C/T,C/T(T单位中子句数量),被广泛用于句法复杂性测量。秦晓晴[20]、鲍贵[21]均用此指标测量过句子复杂性,并认为C/T能很好地测量与年级水平或教学水平相关的写作能力。这里P=0.004,小于0.05,可见六级快速阅读和仔细阅读的从属结构使用率均显著高于雅思学术阅读,然而快速阅读与仔细阅读之间不存在显著性差异(P>0.05)。可能的解释是雅思学术英语,更多地像 Graesser等人[22]指出,当主题较难,使用的词汇和表达的观点不为读者所熟悉时,作者倾向于使用更简单的句法和更多的衔接手段,以弥补读者理解文本的难度。McNamara等人[23]也发现,信息性较强的文本比语言艺术类文本中的句法结构更简单、衔接手段更多。另外一种解释是雅思学术阅读中高度凝练的名词化语法隐喻,以及大量的名词性结构的使用代替了关系从句等从属结构的使用。表5中名词结构比率CN/T在雅思阅读中数值也较高于六级阅读。王勇旗[17]的研究也证明了这一点。由此可见,从属结构的使用会增加文章的难度,但学术文体的从属结构比例不一定高于叙事性强的文体。

表5 六级阅读句法复杂度

结合对三个样本群体进行的方差分析结果可以看出,在词汇复杂度和句法复杂度上,六级快速阅读和仔细阅读做到了良好的一致性,难度统一性高。但和雅思学术阅读相比,六级阅读在词汇高级性上低于雅思学术阅读,而在词汇广度和句子从属结构密度上均高于雅思学术阅读。

(二)六级快速阅读与仔细阅读难度的历时考察

从2013年开始,四六级引来了新一轮的改革,采用多题多卷,为了检测在过去的七年((1494年))中,阅读理解的难度是否存在着变化,本文对手上所有的试卷阅读语料进行一个纵向时间上的比较。有关四六级难度趋势的研究屈指可数,仅有李跃平、杨廷君[24]对1987-2012年的四级阅读试题难度进行了趋势分析,得出2002年之后难度增大的结论。本文分析2013-2019年七年中的六级难度变化,分别取四个年度2013、2015、2017、2019,每年三篇文章,在以上八个指标精选了特异性较强的四个指标:词汇密度、词汇高级度、词汇广度和从属结构比率进行观察。对比发现在词汇复杂度上,2017年的快速阅读和仔细阅读在词汇密度LD和高级度LS1都表现出明显的小高峰,显然高于2013、2015和2019三个年度,而在CTTR上2017年的快速阅读却出现低谷,表示其词汇广度并不出众,可能的解释是2017年的快速阅读和仔细阅读在专业性上较前后年份更强,阅读难度更大一点。在句法复杂性上,2017年的快速阅读从属结构密度值高达1.89,也佐证了2017年六级阅读文章难度上升的变化,之后2019年阅读的数据发生了回落。总体来说,四个年度的六级阅读文章在几个维度上各有长短。没有显著的趋势和难度变化,这也表示六级阅读试题的信度较高,难度稳定性较好。

表6 六级阅读题型历年难度指标

表7 六级阅读和雅思学术阅读主题词对比

(三)六级阅读主题特征研究

以上词汇复杂度和句法复杂度集中考察的是形式上的特征,而决定阅读难度的除了形式特征还有意义范畴。在考察语篇是否适合特定读者时,不仅要量化测量词汇和句法复杂度,还应考虑其他语义和句法因素如结构嵌入、语篇类型、读者的背景知识等[25]。由于背景知识不同,主题是影响阅读者阅读难易程度的重要因素。主题词体现了文本中词语运用的规律,语料库主题词分析既是一种文本层面词汇运用的统计方法,也是通过词语分布概率观察文本的视角。通过语料库的主题词分析方法可以弥补传统孤立主题词依靠主观直觉分析所造成的偏颇。六级阅读和雅思阅读,对于其主题的偏好会直接影响学生阅读的认知难度。本文利用wordsmith4.0软件,采用BNC词表作为参照语料库,对前文中的六级库快速阅读和仔细阅读的60篇文章建立的子语料库与涵盖50篇雅思学术阅读的语料库进行了关键词的提取和比较,可以非常明晰地显示两种阅读在主题上的区别。

通过对两个库的前二十位主题词提取比较:六级仔细阅读和快速阅读处于前列的主题词包括:math, online, students, parents, researches, data,internet, percent, 以及American, robot, iphone, schools ,science等等。六级考试大纲的阅读要求是要求考生能读懂一般性题材的英语报刊文章和其他英语材料,能阅读题材较为熟悉的学术英语文章[26]。但从检索看来,这类词的语义场主要涉及学科、学校、学生、家长、数据、网络、科学等于日常学习生活家庭息息相关的词汇。可以看出,范围紧密围绕着以学生为中心,构建出一个以学生为主题,辐射学习生活的概念语义框架,符合教育英语的特性。词汇虽然广泛,但涉及的主题有一定的局限性,对于大学生阅读者来说,语篇内容的把握容易建立熟悉的图式,降低了认知难度。相比较而言,雅思学术阅读更偏重于学术,主题词排列前二十的rainforest, brain,percent, reef,marble,animals, arctic,以及rockets, health, wind, employee, productivity等反映了词类覆盖非常广泛且具体,主题且涉及环境、地理、健康、海洋、航空、社会学等方方面面。从认知层面上看,有别于六级阅读以学生为主体的内容辐射,雅思阅读更加地去读者化、中立化和全局观,较为符合普通学术的视野。因此,对阅读者而言,牵涉到的背景知识和图式要求更高,认知难度也相对较大。同样六级阅读牵涉到学术内容,但前列主题词中有关学术科学的词汇只有math, data, science, researchers等泛指的上义词,而雅思的主题词汇更偏重于科学的下义词。这也很好地解释了前文中六级阅读词汇高级性弱于雅思阅读的现象。这一发现与王勇旗[17],江进林、韩宝成[18]的研究结果相一致。江、韩认为六级阅读的叙事性(MD=0.62)高于雅思阅读(MD=0.43),而叙事文本往往带有口语色彩,其话题通常为人们所熟悉,句子的构成也容易理解。且在词汇具体度上,六级阅读(MD=0.70)也低于雅思(MD=0.85)。总的来说,六级阅读更注重阅读技能的考察,而非专业知识的衡量,鉴于此在专业内容上弱于雅思学术阅读,也可以得到解释。

三、总结与思考

本研究进行题目本体研究,借助语料库技术,从量化的层面,通过和雅思考试的对比,揭示六级阅读题型篇章在词汇和句法在不同维度上的特征,以及与雅思考试相比,六级阅读主题上的倾向。三者结合共同揭示六级阅读的篇章复杂度以及近年来复杂度的变化。研究表明,六级阅读中快速阅读和仔细阅读无论是在词汇复杂度或是句法复杂度上都保持着良好的统一,从侧面说明六级阅读出题质量的控制较好,且跨年波动不大,是国内高级别测试的典范。与雅思学术阅读相比,六级词汇密度和雅思没有差异,但词汇高级度上低于雅思阅读,而词汇广度上却高于雅思阅读,由此可见六级阅读词汇上广泛且简单的特征,而雅思学术阅读呈现出集中且高级的趋势。而在句法上,唯一有差异的是六级阅读的从属结构比率C/T值高于雅思,这可能是由于雅思学术性带来的名词化使用而降低了从句的使用。从主题词的考察上发现,六级阅读所涉及的主题一般是以学生为中心,和学生学习生活紧密相关;而雅思却跳出个人的范畴,更加宏观、客观地反映科学、学术体裁。这也是造成雅思阅读认知难度高于六级阅读的原因之一。

通过对六级阅读试题的复杂度检测,我们认为,在平时的教学过程当中,应当适度培养学生对高质量外国文献的学习,学生在阅读中应当多接触各种生活息息相关的话题,扩大词汇量的类别,尤其是高级词汇的习得,对不同的语义场词汇要熟悉上下义词。只有这样在未来的考试中学生才能熟悉题型,加快阅读速度和提升阅读效率。

猜你喜欢
主题词雅思复杂度
全球大地震破裂空间复杂度特征研究
Eco-Friendly pH Indicator Based on Natural Anthocyanins from Lycium ruthenicum
数字经济对中国出口技术复杂度的影响研究
Kerr-AdS黑洞的复杂度
雅思新增两个考试日期 即日起可在线报名
非线性电动力学黑洞的复杂度
智能传感器的智慧战略,新技术创造新价值
取消公文主题词的真正原因是什么?
雅思6~9分成功策略
雅思6~9分成功策略(3)