Coh-Metrix工具辅助的大学英语教材阅读文本研究

2020-07-07 21:59杜驭炎项凝霜
文教资料 2020年30期

杜驭炎 项凝霜

摘   要: 自然语言计算工具Coh-Metrix可用于分析文本可读性。相对操作更简便的Coh-Metrix TEA从计算结果中提取6个文本可读性相关指征:叙事性、句法简约性、单词具体性、指称衔接、深层衔接和Grade Level数值。利用该工具对大学英语教材阅读文本分析后发现:四册书之间难度基本呈现梯度递进,但单册内部变化趋势无规律;选材难度偏低,体裁多样性不足;文本可读性指征间存在一定的相关性。

关键词: 大学英语教材   文本可读性   Coh-Metrix

1.研究背景

教材是教学过程中的重要因素之一。近年我国大学英语教学实施较大改革,优化教材选择自然备受重视,教材相关的研究覆盖面得以扩大,研究数量快速增加。但教材评估方面的研究相对缺乏[1](16-19),对读写类教材中阅读篇章的研究视角较为单一,如仅考查语篇难易度或仅以篇章词汇特点作为研究目标[2](39-42)[3](69-73+78)[4](7-10)。不可否认,造成这种现象的原因之一是研究工具的局限性。

教师和教材编写者选材的主要依据是代表文本难易度的Grade Level数值,即检测文本可读性的弗莱士-金凯德年级水平数值。然而,参照该数值为学习者选择合适的阅读材料并非易事[5]。Grade Level数值是由对传统的文本难度维度计算得出的,包括句长、词长等,评估的指标具有局限性。这种局限性让教师和教材编写者认定不同体裁的文章阅读难度可能相似,文本的可理解性(comprehension)似乎与文章体裁关联不大[5]。然而,决定文本“可理解性”的因素远不止词长和句长等,只凭借传统的浅层的难度衡量指标评估文本可读性已远远不够[5]。评测文本可读性的全新计算工具应运而生。

二十一世纪初,由美国孟菲斯大学McNamara教授领衔的团队设计开发出自然语言计算工具Coh-Metrix,可生成11个模块、共106项的文本语言表征指标,用来检测文本的衔接性和连贯性[6](193-202)[7]。该团队随后从上述语言表征指标中提取用于文本可读性主成分分析的五个特征,开发Coh-Metrix Text Easability Assessor(简称Coh-Metrix TEA)工具,可检测的指标包括叙事性(Narrativity),句法简约性(Syntactic Simplicity)、单词具体性(Word Concreteness)、指称衔接(Referential Cohesion)和深层衔接(Deep Cohesion)[8](223-234),同时能计算出Grade Level数值。该工具能直观明了地为使用者显示这些维度,允许输入一段不超过1000词的英语短文,并快速获得文本的可读性信息,且配有信息化的视觉插图和简短的结果解释[9](72-95)。由于Coh-Metrix工具相较于Grade Level数值在检测文本可读性方面具有显著优势,近年来利用该工具进行的阅读和写作文本研究与日俱增[10](119-135)[11](58-65)[12](208-210+205)。本研究将利用Coh-Metrix工具从多维度分析大学英语教材中的阅读篇章文本的可读性,探究目前国内大学英语教材的阅读篇章选材的特点并判断是否科学合理。

2.研究方法

市面上广泛使用的大学英语教材中,由浙江大学编著、2012年出版的《新编大学英语综合教程》(第3版)具有一定的代表性,因此本研究选用该套教材四册学生用书的阅读篇章作为研究对象。

该套书每册十个单元,每个单元包含In-class Reading和After-class Reading两篇阅读文章。先将全套教材的80篇课文每篇的标题、作者姓名、语言文化知识点注释、课后词汇表、课后思考题等信息去除,再经过扫描、校对等多道工序后转换成准确的电子文本,共得到80个纯文本文件。每册的20个文件为一组,分别命名为Book 1, Book 2, Book 3, Book 4。每册内部的第1至第10单元分别标注为U1、U2……U10,In-class Reading标注为A,After-class Reading标注为B,即U1-A对应为第一单元In-class Reading。研究中使用Coh-Metrix TEA工具(http://tea.cohmetrix.com/)对80个文本依次进行检测计算,对不符合计算条件的文本(单词数超过1000)转用辅助支撑工具Coh-Metrix 3.0版本(http://tool.cohmetrix.com/)进行测量,从所得结果中选取体现难易度、体裁、句法、词汇、篇章结构衔接性和内在逻辑连贯性6个维度的突出变量进行分析评估文本可读性。计算得出的数据再导入统计计算网站http://vassarstats.net/进行相关处理,得到变量之间的相关性等重要数值。本研究主要探讨的问题为:一、四册教材中阅读篇章难易度的特点如何;二、代表性文本可读性指征的特点如何;三、文本可读性指征间的相互关系如何。

3.结果与讨论

3.1教材中閱读篇章难易度的特点

用Coh-Metrix TEA工具对80个文本进行计算处理后得到如下结果。图1和图2直观地呈现了四册书中体现文本难易度的Grade Level数值大小及变化趋势。

由图1可见,册与册之间基本呈现难度由低到高的梯度变化,Book4的Grade Level数值虽略低于Book3数值,但差距并不显著,可视为符合难度逐册递进的合理趋势。然而图2中的四条曲线的趋势走向杂乱无章,除代表Book1的曲线勉强呈现小幅波动的线性上升走势外,其余三条曲线毫无规律可言。表明这套教材单册内部的阅读材料难易程度并未体现逐级增加的梯度,反映了国内现行的大学英语教材存在的典型问题,即教学材料的选择缺少量化数据指标,主要依靠教师个人语言能力和教学经验筛选阅读材料,欠缺科学性依据和指导[13](30-31)。

接下来重点解读图2中的凸显数据。Book4的U3-A和U5-B显然是整套教材Grade Level数值最高的两个文本,分别为13.4和13.1。两篇文章主题分别为“Gender Roles from a Cultural Perspective”和“Athletes Should Not Be Role Models”,前者为传递信息的说明型文章,后者为表达观点的议论型文章。两篇文章题材均较为严肃,通篇不乏30个单词以上的长句及类似consciousness, responsibility, achievements等抽象性长单词,且被动句较多。这些综合性因素都削弱了文本的可理解性。相对应的是,Book2的U5-B和Book4的U10-A又达到了可读性曲线的最低谷,数值分别为2.6和3.0,大致等同于美国二、三年级小学生的阅读水平。两篇文章的主题分别为“Dreams That Came True”和“The Immortal Bard”,共同点是叙事性体裁,人物对话频繁,短句多且句法简单,抽象性名词少而实词多,从词汇和句法角度看可理解性的确很高。由于这些凸显数据涉及文章的题材与体裁,而不同题材或体裁的文章词汇与句法特点差异显著,题材与体裁可能与文本可读性相关,显然Grade Level数值解释不了这些问题。

3.2代表性文本可读性指征的特点

本研究的80个文本经过Coh-Metrix TEA或Coh-Metrix工具测量后,得到以下6个变量:Grade Level数值,叙事性,句法简约性,单词具体性,指称衔接,深度衔接。我们着重观察Grade Level和叙事性两个指征的特点。

图3显示的是不同数值段的Grade Level分别对应的文章篇数。集中分布在6-9和9-12两个数值段的文章数量高达54篇,说明绝大多数篇章难易度约等于美国中学生的阅读水平。分布于数值段12以上的篇数仅为3篇,说明达到美国大学生及以上阅读水平的文章寥寥无几。剩余23份文本的Grade Level数值在6以下,大致相当于美国小学生的阅读水平。图4显示的是不同数值段的叙事性指征分布对应的文章篇数。27.5%的阅读材料叙事性低于0.5,叙事性较强的阅读材料数量占40%,剩余32.5%的阅读篇章叙事性中等。

以上数据表明,我国大学英语教材阅读选材基本以美国中学生阅读水平为参照,所选阅读材料中叙事性体裁文章占比偏多。相对于说明性、劝说性和描述性等类型的语篇,叙事性语篇更偏向日常口语化,这样的选材标准对培养具有国际视野和更高综合文化素养的大学生是非常不利的。在信息技术飞速发展以至于高度全球化的今天,大学生要阅读的英语文本远不止故事类的叙事性文章,更多应接触的是纯正英文文字资讯,如新闻、专业相关的学术文献、生活技能类的说明书等阅读素材,甚至浏览国外高校网站。学生英语学习仅达到美国中学生阅读水平,且体裁多样性不足,完全达不到能流利阅读并较好理解上述素材的要求。

3.3文本可读性指征间的相互关系

经过Coh-Metrix TEA或Coh-Metrix工具测量后获取的6个变量分别用V1到V6对应指代:V1 - Grade Level数值,V2 - 叙事性,V3 - 句法简约性,V4 - 单词具体性,V5 - 指称衔接,V6 - 深度衔接。将所有变量数据导入VassarStats网站中的Matrix of Intercorrelations模块进行典型相关分析,四册书各变量间的相关系数(r)计算结果见表1。其中每个变量对应的观测值(observations)均为80个。

關于相关系数的联系强度,相关系数的绝对值小于或等于0.39被认为低相关,介于0.40和0.69被认为中等相关,大于或等于0.70为高相关[14]。从计算结果可以看出,存在高相关的变量仅为V1和V2,呈现负相关。相关性其次的是V1和V3,以及V2和V5,相关强度中等。前者为负相关,后者为正相关。其余变量间则呈现低相关或极低相关。值得注意的是,变量间的相关关系并非简单的因果关系,两者间是否或如何互相影响从相关系数中无法得到解释。

表1的数据说明,阅读篇章的文本Grade Level数值越高,叙事性数值越低,即叙事性较强的文体(如记叙文)文本难度相对较低。此外,从某种程度来说,文本Grade Level数值越高,句法简约性越低,即难度越大的文本,句子表现为越复杂的结构。叙事性数值越高的文本对应的指称衔接数值越高,即叙事性越强的文体,句子间、段落间或全文内的显性衔接越紧密。这些显性衔接表现为上下文用词和观点上的重叠(overlap),重叠关联度越大文本信息越容易理解,读者阅读则会越轻松。这些数据在一定程度上解释了体现文本难易度的Grade Level数值与篇章题材或体裁的相关性。

图5   Book2, U5-B文章“Dreams That Came True”的文本可读性指征数据

以Book2 U5-B文章“Dreams That Came True”为例。图5为将文本输入Coh-Metrix TEA工具后得出的文本可读性相关指征计算结果,以横向柱状图呈现。还计算出了Grade Level数值2.6,并配有简短的结果解释。该文体裁为叙事性强的短篇故事,话题较为轻松,较多地使用具体的、比较熟悉日常的实词,句子结构相对简单,用词和观点有不少重叠,种种特点使得文章可视化特征更强,更易于理解。

4.结语

大学英语教材阅读材料的选择并非易事,却是教学三要素的重要内容之一。本研究显示,单从阅读篇章文本难易度角度看,《新编大学英语综合教程》(第3版)四册学生用书之间基本呈现梯度递进的选材方式。然而,每册内部各单元的阅读篇章并未呈现梯度递进,Grade Level数值的趋势变化曲线杂乱无章,毫无规律可言。虽然学界有观点认为同一册教材内部的课文难度系数应保持稳定[15](109-113),但是该套教材单册内部的难度指标变化依然未达到要求。

篇章的难易度指征Grade Level数值不是衡量文本可读性的唯一标准,除了传统的衡量指征句长和词长外,文本可读性还与体裁、显性语言衔接性、深层逻辑连贯性等方面存在一定关联。通过重点研究代表性的文本可读性指征得出结论,当前大学英语教材选材难度偏低,体裁不够全面,不能很好地实现让学生拥有较强的英语实际应用能力这一目标。

更全面的文本可读性指征的衡量可以由Coh-Metrix这一自然语言计算工具实现,使文本可读性测量更加量化具体、科学合理。本文的第三个研究问题发现,这些指征间存在一定的相关联系。叙事性较强的文体(如记叙文)文本难度相对较低;从某种程度来说,难度越大的文本一定程度上表现出越复杂的句子结构,叙事性越强的文体,句子或段落间的显性衔接越紧密。

现阶段大学英语教学改革中,教学材料的选择是决定改革成效的首要环节。对于大学英语教师和教材编写者来说,教材阅读篇章的选择除了保证难易度的合理梯度递进之外,还要综合考虑可读性的其他相关指征。

參考文献:

[1]杨港,陈坚林.2000年以来高校英语教材研究的现状与思考[J].外语与外语教学,2013(2).

[2]辜向东,关晓仙.CET阅读测试与大学英语阅读教材易读度抽样研究[J].西安外国语学院学报,2003(3).

[3]李华东,吴楠,杜驭炎.大学英语教材学术词汇覆盖率研究——以《新编大学英语综合教程》为例[J].杭州电子科技大学学报(社会科学版),2019(5).

[4]项凝霜,杜驭炎.大学通用学术英语教材学术词汇覆盖率研究[J].海外英语,2020(7).

[5]Snow C. Reading for Understanding: Toward an R&D Program in Reading Comprehension[M]. Santa Monica, CA: RAND Corporation, 2002.

[6]Graesser A, D McNamara, M Louwerse & Z Cai. Coh-Metrix: Analysis of Text on Cohesion and Language[J]. Behavior Research Methods, Instruments & Computers, 2004(36).

[7]McNamara D S, M M Louwerse & A C Graesser. Coh-Metrix: Automated Cohesion and Coherence Scores to Predict Text Readability and Facilitate Comprehension[R]. Grant Pro-

posal. Retrieved October 10th, 2005, at http: //cohmetrix. memphis.edu/cohmetrixpr/archive/Coh-MetrixGrant.pdf.

[8]Graesser A C, D S McNamara & J M Kulikowich. Coh-Metrix: Providing Multilevel Analyses of Text Characteristics[J]. Educational Researcher, 2011(5).

[9]Dowell N M M, A Graesser & Z Cai. Language and Discourse Analysis with Coh-Metrix: Applications from Edu-

cational Material to Learning Environments at Scale[J]. Journal of Learning Analytics, 2016(3).

[10]Crossley S A & D S McNamara. Computational Assessment of Lexical Differences in L1 and L2 Writing[J]. Journal of Second Language Writing, 2009(2).

[11]江进林.Coh-Metrix工具在外语教学与研究中的应用[J].中国外语,2016(5).

[12]潘筱.大学英语精读教材与CET4阅读材料易读性的比较[J].文教资料,2019(2).

[13]文旭,莫启杨.框架与话语理解[J].外文研究,2013(1).

[14]Grimm L. Statistical Applications for the Behavioral Sciences[M]. Hoboken, New Jersey: John Wiley & Sons,1993.

[15]陶丽,王腊宝.新一代大学英语教材的需求分析与反思[J].外语学刊,2013(6).

基金项目:2018年浙江省教育厅一般科研项目“基于Coh-Metrix文本语言测量工具的高考英语作文文本特征研究”(Y201840182);杭州电子科技大学2018年度高等教育教学改革研究一般项目“Coh-Metrix工具在大学英语精读课写作教学中的应用探究”(YBJG201862)。

通讯作者:杜双炎