英语学习者口语复述中的n元组和关键词提取研究

2021-09-16 07:19:54张蕾鲍贵
外国语文 2021年4期
关键词:元组三元组英语水平

张蕾 鲍贵

(1.北京外国语大学 英语学院/北京工业大学 文法学部 100124,北京;2. 南京工业大学 外国语言文学学院,江苏 南京 211816)

0 引言

口语复述指二语学习者通过言语重复识记过的材料,是口语产出的一种形式。同其他相对自由的口语产出形式(如独白)相比,口语复述的一个显著特点是语言输入制约学习者产出的内容。它是综合考量学习者理解能力、口头表达能力、信息整合能力和记忆能力等的有效手段(Crossley et al., 2014;Frost et al., 2012;文秋芳 等, 2009)。学习者的口语复述表现能够综合体现其二语产出能力,因而口语复述任务被广泛用于英语听说综合测试。

有关口语复述的前期研究主要涉及语言表达准确性、复杂性和流利度、意义单位、n元组(含习惯性搭配和短语)和关键词的测量(Skehan et al., 1999;Skehan et al.,2014;Hoang et al., 2016;Awwad et al., 2017;周丹丹, 2010;杜娟 等, 2011;韩亚文, 2015;王华 等, 2018;徐鹰 等, 2019,2020)。特别值得注意的是,随着自然语言处理技术的快速发展,对口语复述语言形式和内容的研究倾向于采用客观的计量学方法测量n元组和关键词,减少意义单位等测量存在的主观性和片面性问题(Hoang et al., 2016;严可 , 2009;蔡宁 等, 2017)。n元组是文本词串,包括通常所说的搭配和词块,既能够体现原文本的语言形式,又能够体现原文本的内容。关键词指体现原文本内容的重要词。关键词覆盖率是测量复述内容完整性的重要指标。

从为数不多的现有研究来看,对n元组和关键词的探究还有待深入。关于n元组的前期研究主要从原文本中提取若干语块或固定短语,调查学习者复述文本对这些语块的复现率,未能全面考察学习者复述文本中n元组的使用。Hoang et al.(2016)对比分析了原文本与学习者复述文本中词族的重合率,但是测量单位是单个词。严可等(2009)利用人工判断筛选与原文内容相关的重要词作为关键词,计算学习者复述文本对这些关键词的覆盖率。但是,学习者复述中更多地使用原文中的关键词还是使用与之相关的关键词,目前尚无证据。

与口语复述相关的一个理论议题是协同(alignment)效应(Atkinson et al., 2007;王初明, 2010)。协同是人类自适应(即灵活地依赖、整合与构建)不断变化的心智、身体和外部世界的复杂过程,是二语发展的必然要求(Atkinson et al., 2007)。在听说或读写过程中,协同效应源自语言输入与产出的紧密结合,二语学习者构建与语言输入相适应的情境模式和语言结构层次,催生语言产出层面的趋同,提高语言产出的质量。协同效应在课堂互动和写作领域得到了实证支持(Trofimovich et al., 2014;Wang et al.,2015;王敏 等, 2014)。在复述研究领域,协同效应研究尚处于起步阶段。蔡宁等(2017)调查不同输入模态对四元组再现数量的影响,支持了输入多模态对协同效应的促进作用。英语水平等学习者因素如何影响协同效应尚需进一步研究。

综上,作为这一领域研究的初步尝试,本研究拟扩大n元组和关键词的调查范围,利用计量学方法探索不同水平英语学习者在故事复述中如何使用不同长度的n元组(三元、四元和五元组)和不同类型的关键词(原文词和语义相关词)再现原文的语言表达形式和内容,希冀研究发现为大学英语口语教学提供改进建议。

1 研究方法

1.1研究问题

本研究回答以下两个主要问题:

(1)不同长度n元组的重复量如何随学习者的英语水平发生变化?

(2)不同类型关键词的复现度如何随学习者的英语水平发生变化?

1.2研究设计

本研究采用两个混合设计回答研究问题,其中n元组和关键词类型是被试内因素,学习者英语水平是被试间因素,两个因变量是n元组的重复量和关键词的复现度。n元组体现词语组合方式,在语言形式和内容上对复述提出较高的要求。将n(n> 1)元组进行词条化是研究文本邻近词组合的有用方式。根据n元组的构成,本研究将不同长度n元组操作定义为三个类别,即三元组、四元组和五元组。

关键词是体现文本内容的重要词项,本研究将之定义为两个类别,即相同关键词和同义关键词。相同关键词指复述中使用与听力文本相同的重要词。同义关键词包括相同关键词和与之相关的近义词。

1.3数据收集与转录

本研究采用听说任务测量学习者的口语表现。听力原文是一则故事。故事讲述一个小男孩参加三场赛跑,第一场赢了另外两个小男孩,第二场赢了两位长者,第三场和两位长者携手穿过终点线。听力文本长度为316个词,共29个句子,平均句长约为11个词,其中的绝大部分词均为常用词,只有个别词(如frail和plead)对英语水平较低者可能有理解困难。

来自两所高校的112名英语专业学习者在参加全国英语专业四级考试一个月后的同一时间在语言实验室参加了故事口头复述测试。这批学习者以女生为主(105名女生,七名男生),根据专业四级考试成绩被分为低、中、高三个水平组。故事复述测试要求学习者听完两遍同一篇听力原文后随即对故事进行复述。在听短文期间,学习者可以做笔记,复述时间控制在三分钟左右。复述材料保存为音频文件。

经过培训的四名研究生对112份有效的音频文件进行了转录和校对。在转录过程中,对不当停顿、机械重复和意义不完整的语段做出标注。研究者对提交的转录文件做了最终的核对。

1.4文本处理与计算

在开展统计分析之前,剔除转录文本中所有标注和标点符号,同时将所有的字母改为小写,避免统计结果受其影响。为了回答第一个研究问题,本研究对所有文本进行词条化处理,将每位学习者复述文本和听力文本依次转化为n(n = 3,4,5)元组,再利用匹配技术计算每个学习者复述文本中包括的原文本n元组的总数,以此作为n元组重复量测量。

第二个研究问题涉及基于关键词的复述内容分析,无须考虑由语法所限定的词形变化形式。为此,本研究将所有文本中的词语还原为词目,词类保持不变,如将runs、ran和running还原为run。利用停用词表排除听力文本中在内容方面没有太大作用的功能词(如and和the),保留揭示文本内容的重要词作为关键词(包括名词、动词和形容词和副词)。将由此得到的83个词(即词目)作为相同关键词。在操作层面,同义关键词包括相同关键词和近义词。利用WordNet 2.1(https:∥wordnet.princeton.edu/citing-wordnet)确定与原文83个关键词意义相近的同义词(即词目),由此得到249个同义关键词。将相同关键词词表和同义关键词表与词目化的复述文本进行匹配,得到每位学习者在复述过程中使用的相同关键词总数和同义关键词总数,以此作为内容复现度的测量。

1.5统计分析

本研究使用的统计分析软件为R 3.6.2。停用词表来自R数据包quanteda(Benoit et al. , 2018)。该词表由175个词组成,包括代词、助动词和情态动词、连词和介词。词目还原调用的R数据包为textstem(Rinker, 2018)。研究问题的回答采用双因素混合方差分析。配对比较效应量估计采用Cohen’sd。效应量大小采用Cohen(1988)建议的标准:d= 0.2,效应量小;d= 0.5,效应量中等;d= 0.8,效应量大。

2 研究结果

2.1英语水平和不同长度n元组对n元组重复量的影响

不同长度n元组的重复量随英语水平变化的描述性统计量如表1所示。

表1 不同英语水平组n元组重复量描述性统计

表1显示,在每个英语水平上的n元组随着长度n的增加,重复量都在大幅度减少。从标准差、最大值与最小值来看,每个水平组内部差异都比较大,高水平组尤为如此。

图1显示不同长度n元组的重复量随英语水平变化的模式。

图1 每种长度n元组的重复量随英语水平的变化

图1中圆点、三角形和正方形符号代表不同英语水平组中n元组的重复量平均数。如图所示,在每个英语水平组中,随着长度n的增大,n元组重复量均呈明显的下降趋势,从三元组到四元组,下降的幅度特别明显。从平均数变化的线条和数据点分布来看,对于每种长度的n元组,随着英语水平的提高,学习者复述中重复的n元组量均呈上升趋势。但是,这种上升趋势在三元组上较为明显,在其他两个n元组上不太明显。

表2报告在每类n元组上英语水平配对比较Tukey检验的结果。

表2 每类n元组在不同英语水平中的配对比较

表2显示,在三元组重复量方面,中、高水平组显著好于低水平组(p< 0.05),且效应量大,但是中、高水平组之间没有显著差异(p> 0.05),效应量较小。当三元组增至四元组和五元组时,只有低、高水平组之间有显著差异(p< 0.01),效应量大,其他所有配对比较均没有显著差异,效应量处于中等或较低的水平。

表3报告在每个英语水平上不同长度n元组配对比较Tukey检验的结果。

表3 每类n元组在不同英语水平中的配对比较

表3显示,在每个英语水平中,随着长度n增大,n元组重复量无一例外地显著降低(p< 0.001),且效应量很大。各个英语水平中n元组配对效应量的差异与英语水平和n元组类别之间的显著交互效应有关。即,n元组配对差异的大小在不同英语水平上具有不一致性,但是差异的方向一致。

2.2英语水平和不同类型关键词对内容复现度的影响

不同类型关键词复现度随英语水平变化的描述性统计量如表4所示。

表4 不同英语水平组关键词复现度描述性统计

由表4可知,在每类关键词上,随着英语水平的提高,学习者复述时整体上再现更多的关键词。从平均数来看,每个英语水平组同义词的复现量比相同词的复现量高出大约两个词。从最大值和最小值来看,各个英语水平组组内复现度的个体差异较大,高水平组尤为如此。从大约标准差来看,英语低、中等水平组组内差异近似,英语高水平组组内差异要大一些。

图2呈现内容复现度随英语水平和关键词类型变化的模式。

图2 每类关键词的复现度随英语水平的变化

如图2所示,在每类关键词上,关键词复现度平均数有随英语水平增加之势。从平均数和数据点分布来看,英语低水平组与中、高水平组之间的差异较大,而中、高水平组之间的差异较小。在每个英语水平组中,同义关键词平均复现度均高于相同关键词平均复现度,但是增幅不大。

混合方差分析发现,英语水平对内容复现度有显著主效应(F(2,109)= 9.35,p< 0.001),关键词类型也有显著主效应(F(1,109)= 296.42,p< 0.001),英语水平和关键词类型没有显著交互效应(F(1,109)= 0.42,p= 0.658 > 0.05)。根据以上结果,在每个英语水平上同义关键词复现度显著高于相同关键词复现度。

表5报告在每类关键词中英语水平配对比较Tukey检验的结果。

表5 每类关键词中不同英语水平配对比较

表5显示,在每类关键词上,英语中、高水平组在内容复现度方面均显著高于英语低水平组(p< 0.01),且效应量大,但是英语中、高水平组没有统计显著性差异(p> 0.05),效应量也较小。

3 讨论

本研究得到以下主要发现:(1)不论英语水平如何,随着n元组长度的增加,n元组重复的难度显著增加;英语水平能够在低、高水平组之间显著区分各个长度上n元组的重复量,但是不能在中、高水平组之间做出有效区分,中等水平组相对于低水平组的优势只停留在三元组的重复上;(2)不论英语水平如何,学习者整体上都会在复述时少量使用近义词替代原文关键词传达原文内容;不论复述的关键词是相同词还是同义词,英语中、高水平组的内容复现量显著好于英语低水平组,但是前两者之间没有显著差异。

3.1英语水平对n元组提取的作用

Hoang et al.(2016)发现,在接受听说任务的实验组中学习者重复原文中习惯性搭配和短语的总量和语言水平没有统计显著性正相关关系。但是本研究发现,英语水平在三元组的重复中能够保持相对较好的区分优势。产生这一结果的主要原因可能在于Hoang et al. (2016)没有较为全面地考察学习者在复述中对原文措辞的提取,且有些习惯性搭配和短语(如Despite the fact that)并不体现原文的主要内容,学习者或许觉得没有必要记忆这些搭配和短语从而增加记忆负担或者因为短语过长,学习者无法准确重复。

本研究发现高水平组比低水平组在复述中提取更多的四元组和五元组,支持了语言水平对协同效应的积极作用,即英语水平高更有助于学习者与输入本文互动,增强协同效应。但是,我们也发现,随着n元组长度的增加,在邻近水平组之间,英语水平丧失了对n元组的提取优势。这说明学习者对n元组的加工与提取能力并非仅仅取决于英语水平,还取决于学习者的非语言能力,如记忆力和笔录能力(Crossley et al., 2014)。当然,英语水平、记忆力和笔录能力等如何协同作用提升口语复述的质量尚需进一步研究。下面举例说明一名英语中等水平的学习者在复述的开首时如何再现不同三元组和五元组。

学生文本:

Once there was a little boy. He was hungry for sport and success, and to him winning is everything and he desired for success. One day, the little boy took part in a race in his village, and his competitors are other two young boys.

三元组切分:

1once there was16him winning is31part in a2there was a17winning is everything32in a race3was a little18is everything and33a race in4a little boy19everything and he34race in his5little boy he20and he desired35in his village6boy he was21he desired for36his village and7he was hungry22desired for success37village and his8was hungry for23for success one38and his competitors9hungry for sport24success one day39his competitors are10for sport and25one day the40competitors are other11sport and success26day the little41are other two12and success and27the little boy42other two young13success and to28little boy took43two young boys14and to him29boy took part15to him winning30took part in

以上n元组切分包括43个三元组,其中与听力原文相同的三元组数有17个(见画线部分),重复率约为40%。观察以上三元组发现,这名学习者正确使用了一些过去时描述故事背景和情节,如once there was和he was hungry,也恰当重复了一些习惯搭配,如took part in和in a race。但是我们也发现,复述中存在误用现在时代替过去时和措辞不当等问题,如winning is everything和other two young,导致三元组重复量减少。学习者对重要信息记录和记忆的不准确也可能降低三元组重复量。譬如,听力原文的第一句是:Once there was a little boy who was hungry for success in sports.从重要信息再现的角度来看,这名学习者将这个包括关系从句的复合句重述为两个简单句未尝不可,但是错误地将“渴望体育活动中胜出”(hungry for success in sports)理解为“渴望体育活动和成功”(hungry for sport and success)。对于这样一名英语水平达到中等的学习者,听懂原文中的这个句子应该不难,信息错位问题可能出现在信息的记忆和组织上。

我们再看以上几句话的五元组切分:与原文相同的五元组没有划线,应如下所示:

五元组:

1once there was a little22desired for success one day2there was a little boy23for success one day the3was a little boy he24success one day the little4a little boy he was25one day the little boy5little boy he was hungry26day the little boy took6boy he was hungry for27the little boy took part7he was hungry for sport28little boy took part in8was hungry for sport and29boy took part in a9hungry for sport and success30took part in a race10for sport and success and31part in a race in11sport and success and to32in a race in his12and success and to him33a race in his village13success and to him winning34race in his village and14and to him winning is35in his village and his15to him winning is everything36his village and his competitors16him winning is everything and37village and his competitors are17winning is everything and he38and his competitors are other18is everything and he desired39his competitors are other two19everything and he desired for40competitors are other two young20and he desired for success41are other two young boys21he desired for success one

以上切分包括41个五元组,其中与听力原文相同的五元组数有10个,重复率只有25%。重复五元组的挑战性在于,五元组不仅包括文本内容和短语表达,而且还涉及句子的主干、短语之间甚至句子之间的衔接等语篇问题,如race in his village and和boy took part in a。简言之,五元组重复不仅要求学习者再现听力原文的内容,而且还要求准确使用原文的语言表达形式,在语言水平和记忆力等方面向学习者提出了比三元组更高的要求。

3.2英语水平对关键词提取的作用

本研究发现,复述中原文本内容的再现主要通过原文关键词的重复。本研究从听力原文中提取了83个关键词。表4显示,各个英语水平组都较多地重复来自原文的关键词,如低水平组平均重复大约41个关键词,占比为49%。同样,Hoang et al.(2016)发现,接受听说任务的实验组在故事复述中平均使用的词族与原文有69%的重合。这表明,在故事复述中,学习者会倾向于凭借对听力输入的记忆和笔录再现原文的重要信息。同低水平组相比,中、高水平组复述中重复关键词的占比更高(中等水平组:59%;高水平组:63%),个别学习者甚至能够重复81%的关键词。因此,语言水平一定程度上能够促进相同关键词的提取。虽然本研究发现各个英语水平组除了使用相同词之外,还使用了同义替代关键词,但是同义替代词的使用量很少。从表4可以发现,各个水平组实际上只是平均使用了2-3个同义替代词。这一发现同蔡宁等(2017)的研究一样支持了协同效应。学习者在与听觉输入文本互动时,有限的语言产出能力被更高的理解力所牵引,提取原文关键词会减少产出过程中的认知负荷和注意力的分散,缓解信息加工能力不足和时间压力等问题。其结果是,复述中的内容再现主要通过重复原文关键词,使用同义替代词只是辅助手段。从表5提供的各个水平组配对比较在两类关键词复现中出现近似的效应量可以推断,复述中同义替代词的使用量与学习者英语水平没有必然的正向联系。同低水平学习者一样,高水平学习者也倾向于尽可能使用原文关键词,减少信息加工的负荷,这样做既“省力”,又“准确”。不过,由于英语水平对协同效应的积极作用,高水平组比低水平组能够从原文本中提取更多的关键词。

这里仍以前文提及的学习者为例,分析其复述对原文重要信息的再现情况。图3显示学习者复述文本和听力原文中的关键词词云。

图3中关键词的字体大小代表词语出现的频数,字体越大,频数越高。例如,boy在两个文本中出现的频数皆为最高,因为这则故事的主角是小男孩。在学习者复述中出现三次及以上的关键词还有race、old、man、cheer、success、little、time。这些高频词在听力文本中也同样以高频出现。但是,在听力文本中出现的其他一些高频词(如wise),在学习者的复述中未能以高频出现,甚至一次都未出现(如crowd)。从两个词云的大小可以看出,这名学习者的复述漏掉了一些重要信息。听力文本中包括83个关键词,而学习者复述只包括52个关键词,其中50个词为听力文本词,另外两个词too和desire作为同义词替代了原文词 also和hungry (for),保留关键词信息的占比约为63%。很显然,这名学习者在复述中漏掉了一些重要细节。譬如,第一场比赛的复述中漏掉评价性信息,如unsurprisingly,也漏掉观众的反应信息,如喝彩(cheer)和招手(wave)。再如,原文描述少年恳请(plead)第二场比赛是希望(hope)感染(impress)智慧老人(wise old man),但是学习者的复述却没有使用相同或同义关键词再现这一信息。原文描述观众对第三场比赛的反响时用了cheer和like a thunderstorm(雷鸣般),但是学习者的复述却漏掉了这一信息。原文介绍与少年第二、第三场比赛的一位选手是身体虚弱的婆婆(frail granny),另一位选手是盲人(blind man),但是学习者在复述中均没有提及。这名学生的复述中缺失的关键词信息占比达到37%。如此高比率的关键词信息的缺失是具有普遍性的。根据表4提供的各个英语水平组复述使用的关键词(即同义词)平均数,我们得到低、中、高水平组的复述中平均丢失的关键词信息占比依次为48%、38%和35%。由此可见,在英语专业听说教学中,学习者的复述能力应作为薄弱环节来加强。学习者复述能力的培养不仅应该包括提升学习者的听力,而且还应该包括提升笔录与信息整理的能力以及更具有一般性质的重要信息提取能力和记忆能力。

4 结语

本文以英语学习者口语复述故事文本为语料,调查英语水平对不同长度n元组重复量以及对不同类型关键词复现度的影响。研究表明,英语水平的提高一定程度上有助于学习者在口语复述中提取听力原文中的n元组和关键词。随着n元组长度的增加,学习者提取n元组的能力下降;学习者对故事内容的再现以提取原文关键词为主。整体上,学习者的复述能力在内容和语言形式方面都有很大的提升空间。

本研究对英语专业听说教学有重要的启示。听与说是口语交际不可分割的两个方面。学习者只有同时注意高质量语言输入的形式和内容,有意识地模仿地道的语言表达形式,方有可能真正提高语言产出能力。口语复述是实现“听”“说”相结合的重要手段。口语复述教学中应着力提高学习者从听力故事中提取关键词的能力,包括传授如何构建关键词之间的语义网络,如何做有效的笔录和使用其他记忆技巧。在提高学习者关键词提取能力的同时,教学中也应注重语言形式和意义的统一,鼓励学习者在复述中尽可能使用原文的语块,提升语言表达的准确性和流利度。

猜你喜欢
元组三元组英语水平
基于带噪声数据集的强鲁棒性隐含三元组质检算法*
Python核心语法
电脑报(2021年14期)2021-06-28 10:46:22
特征标三元组的本原诱导子
关于余挠三元组的periodic-模
海量数据上有效的top-kSkyline查询算法*
基于减少检索的负表约束优化算法
句子教学——提高学生英语水平的奠基石
通道形式与英语水平对大学生英语听力成绩的影响
三元组辐射场的建模与仿真
英语水平
聪明语文(2013年11期)2014-01-08 03:06:40