孙 乐 乐
(江苏理工学院 外国语学院,江苏 常州 213001)
语言在不同语言场合和环境使用的变体在“各个层面的语言特征,包括词汇搭配、词频、名词化结构、从属句和各种共现特征都存在差异。[1]语料库语言学兴起使基于大量真实语料对语言各种变体展开潜在维度的研究成为可能。Biber[2]对LOB语料 库 (Lancaster-Oslo-Bergen corpus)及 LLC 语料库 (the London-Lund corpus)中 23类口笔语语域的481篇语料的研究及其采用的多维度/多特征分析方法(MD/MF:Multi-dimensional/Multi-feature analysis)已经成为语料库语言学研究的一个标准[3]并产生大量延伸研究[1,4,5]。
近年来,对英语学习者语言(EFL,i.e.English as a foreign language, varieties of English spoken in countries such as France or Germany)的研究成为语料库语言学研究迅速发展的领域之一。[6]国内外越来越多的学者应用Biber[2]的多维度/多特征分析法描述相关语言特征在学习者语域中的共现模式,对比分析学习者相关语体的语言特征。他们或采用Biber[2]的维度框架,与本族语者口笔语语域进行对比分析,调查学习者相关语域的语言特征 ;[7,8,9,10,11]或根据研究需要重新选取语言特征进行因子分析并识别出新的维度,探索学习者特定语域并发现该语域的维度变异。[12,13,14]然而Biber[2]的维度框架中所涉及的语言特征基本局限于词汇层面,这些特征虽已被证实是区分不同语体差异的强有力的决定因素,但不足以体现语篇句际、段际层面的衔接连贯特征。[15]
计算机语言学领域里程碑式的发展使自然语言处理成为可能。美国孟菲斯大学McNamara 等人综合利用计算机语言学、信息检索、语料库语言学等自然语言处理技术开发设计了Coh-Metrix,可从文本中提取11大类106项表层和深层的文本特征指标变量,包括基础计数、文本主构易读性、指称衔接性、潜在语义分析、词汇多样性、关联词使用、情景模式、句法复杂性、句法组构密度、词汇信息和文本可读性,用以进行语篇深层和整体衔接特征的自动测量研究。随着基于Coh-Metrix的研究增多,其测量指标的效度得到验证,应用范围不断扩大。[16]
目前Coh-Metrix已被广泛应用于不同英语语体的研究,通过对口语和笔语[17]、不同作者的作品[15]、世界英语变体[15]及文本的不同部分[15,18,19]等不同语体具体差异的量化和统计分析,分析挖掘不同语体深层次的语篇特征差异。国内利用Coh-Metrix进行的研究主要是对中国英语学习者写作文本的研究,侧重考察不同写作话题、不同提示特征对作文语篇衔接手段或文本特征使用的影响,[20,21]以及哪些衔接手段或文本特征影响学习者作文语篇质量,进而探索自动测量学习者语篇连贯性或质量的途径或模型。[22,16]而利用Coh-Metrix对学习者口语语篇文本特征的研究以及对学习者口笔语语体差异的研究还不多见,因而有必要展开深入研究,以挖掘和揭示学习者口笔语语篇的深层文本特征。
Coh-Metrix以Halliday & Hasan的衔接分类体系为理论框架,通过提取指称衔接 (Referential Cohesion)、连接词使用(Connectives)和部分词汇信息(Word Information)等变量分析文本的衔接和连贯。同时Coh-Metrix利用计算语言学领域的潜伏语义分析法(Latent Semantic Analysis,简称LSA),对文本中各部分之间的语义相关性(Semantic Relatedness)进行分析,[23]挖掘文本中衔接手段之外的深层次文本特征,从而有效地分析文本的连贯性。[22]本研究提取的具体指标变量有:(1) 指称衔接(Referential Cohension),包括相邻论元重叠 (Argument Overlap Adjacent)、相邻词干重叠(Stem Overlap Adjacent)、相邻实词重叠 (Content Word Overlap Adjacent)、论元重叠 (Argument Overlap)、词干重叠(Stem Overlap)、实词重叠(Content Word Overlap);(2)人称代词 (Personal Pronouns);(3)连接词 (Connectives);(4)潜伏语义分析法 (Latent Semantic Analysis,LSA),包括相邻句子间 LSA(LSA Sentence Adjacent)、所有句子间LSA (LSA Sentence All)、段落间LSA(LSA Paragraph)。
本研究拟利用Coh-Metrix3.0对比分析学习者口笔语语篇的衔接手段特征,进而对比分析学习者口笔语语篇的局部和整体连贯能力,研究问题如下:
1) 学习者口笔语语篇中各种衔接手段的使用频率如何?是否存在显著差异?
2) 学习者口笔语语篇中各种衔接手段的使用是否对语篇局部和整体连贯能力产生影响?
本研究语料收集对象为江苏某地方本科院校商学院30名2015级非英语专业本科生。口笔语测试题目和形式均参照历年全国大学英语四级考试,话题范围为大学生日常生活、学习和社会行为。语料收集后由4名大学英语教师将纸质笔语语料和音频材料转写为电子语料,再由2名大学英语教师负责语料校对和清洁整理。由于Coh-Metrix不能识别拼写错误,在语料处理时修正学生语料的拼写错误。为保证口笔语语料内容的一致性和可比性,去除口语语料中重复出现的主考教师的指令性语言以及与学生对话开始和结束时的程式化的客套语言,如:“Good morning”,“Thank you”,“That’s all”等,但保留学生对话和发言中在迟疑和思考时舒缓语气、给自己提供思考时间所使用的语气词 如“Um”,“Er”,“Hmmm”等,以保证语料的真实性。
本研究将收集的口笔语语料逐一读入Coh-Metrix 3.0分析,并从中提取指称衔接、连接词使用、部分词汇信息和潜伏语义分析等指标变量数值导入SPSS19.6进行统计分析。
这些变量除潜伏语义分析外,都为照应、替代、连接等多种常见的语篇衔接手段。根据梁茂成[22]研究发现,人称代词和连接词是利用简单工具就能提取的文本表层特征,常常不能作为二语分析中的可靠测量工具。而指称衔接和潜伏语义分析等更深层次的文本变量与文本的局部连贯和整体连贯关系密切,[24,22]其中相邻论元重叠、相邻词干重叠、相邻实词重叠、相邻句子间LSA等4个变量跟局部连贯能力相关,论元重叠、词干重叠、实词重叠、所有句子间LSA、段落间LSA等5个变量跟整体连贯能力相关。
研究者先以口笔语语体为自变量,以两组语篇中提取的指称衔接、人称代词和连接词等衔接手段为因变量,进行独立样本t检验,对比分析学习者口笔语语篇衔接手段的使用频率是否存在显著差异,分析结果见表1、表2、表3。随后从两组语篇中分别挖掘提取与局部和整体连贯能力相关的变量,并将这些存在多重共线性关系的变量进行简化,在数据处理过程中运用主成分分析法进行因子分析。KMO测度检验和Bartlett球体检验结果显示,学习者口笔语语篇4个局部连贯能力变量的KMO测度值为.656,Bartlett球体检验显著水平为.000,表明因子分析的可行性,从中提取一个局部连贯因子,该因子可以解释变量方差的69.313%;5个整体连贯能力变量的KMO测度值为.731,Bartlett球体检验显著水平为.000,这两个统计量也表明因子分析的可行性,从中提取一个整体连贯因子,该因子可以解释变量方差的60.413%。再以口笔语语体为自变量,以两组语篇局部和整体连贯因子为因变量,对比分析学习者口笔语语篇在连贯性方面的差异。
1. 指称衔接
表1显示,学习者口语中指称衔接相关的具体特征的出现频率除词干重叠(均值相等,均为.390)外均高于笔语中的频率,且相邻论元重叠(P=.003)、相邻实词重叠(P=.000)、论元重叠(P=.036)和实词重叠(P=.000)均呈现统计学上的显著差异。
表1 学习者口笔语语篇指称衔接手段独立样本t检验
指称衔接多个指称变量在学习者口语语篇中的使用频率明显高于其笔语语篇,表明学习者口笔语语体差异对其词汇复现手段的运用产生显著影响。这一结果可以解释为:学习者的口语语篇在测试环境下以即兴问答和即兴小组讨论的形式进行,因受时间限制且要面对考官和小组成员,即兴口试任务给学习者带来的认知负担相对较重。学习者更多依赖词汇复现这一较为简单的衔接手段,以确保在限定时间内完成任务且提高语言准确度。学习者的笔语语篇虽然也是在测试环境下进行,但学习者完成信息构建过程时间相对较长,认知负担相对减轻,有更多时间在大脑中进行词汇搜索,从而大大减少词汇复现衔接手段的使用。
2.人称代词
表2显示,学习者口语中第一人称和第三人称代词的使用频率均高于笔语文本,且口笔语中第一人称单数、第三人称单数和单复数使用频率呈显著性差异(P值分别为.000,.027,.003),第一人称复数的使用频率则有呈显著性差异倾向(P=.052);而口语中第二人称代词的使用频率高于笔语,但差异并不显著(P=.669)。
口语中第一人称“I”的使用高频率是由学习者作为口试任务中讲话者的话语角色决定的,他们在构建口语语篇时更关注语篇的交际和情感内容,反映了口语语篇的交际性特征;而第二人称“you”在学习者书面语篇中使用频率略高,原因在于“you”作为听话者的话语角色在书面语篇中可以指其读者,学习者较多使用“you”以拉近与潜在读者的心理距离,加强情感交流,增加论证力度。根据Halliday & Hasan,第一和第二人称形式常常通过情景来表达,不涉及语篇。而第三人称代词可以看作是叙事行为的标记词,通常回指叙事语篇前部分的某个项目(一般指叙事故事的参与者),从而完成对过去或现在发生事件的有序描叙,具有固有的衔接作用,在以叙事为主要任务之一的口语语篇中是使用频率最高的一类衔接项目。
表2 学习者口笔语语篇人称代词独立样本t检验
3. 连接词
表3显示,学习者口语中因果连接词使用频率略高于笔语,但差异并不显著(P=.650);而逻辑、转折、时序、拓展时序、增补连接词的使用频率均低于笔语,其中除增补连接词(P=.286)外,其余连接词使用频率均有显著性差异(P值分别为.000,.021,.002)。连接词能较明确地表示上下文关系,这符合书面语篇具有较精确的信息焦点和较高的语篇整体性特征,而且使用连接词让语篇显得更正式,因而在有时间准备的语篇中使用频率比在即兴语篇中的频率高。
数据表明,学习者在有相对较长时间构建书面语篇信息时,有意识地借助各类连接词来表达上下文的语义关系,实现语篇衔接,符合笔语的书面语篇特征。这一结果进一步证实了国内一些研究者如马广惠[25]、梁茂成[22]等的研究发现,国内学生书面语中连接词语高频出现。
表3 学习者口笔语语篇连接词独立样本t检验
衔接手段 具体特征 语体 N 均值 标准差 t值 Sig.(双侧)连接词口语 30 11.509 8.287 -3.203 .002**笔语 30 18.284 8.096增补连接词 口语 30 44.417 18.028 -1.078 .286笔语 30 48.877 13.737转折连接词 口语 30 7.417 9.379 -3.851 .000***笔语 30 18.270 12.259时序连接词 口语 30 14.312 9.460 -2.390 .021*笔语 30 21.220 12.693拓展时序连接词
表4显示,学习者口语语篇的局部连贯能力和整体连贯能力均高于笔语语篇,且差异达到显著水平(P值分别为.000和.012)。数据表明学习者在即兴口试环境下,虽然认知负担较重,只能更多依赖词汇复现衔接手段,但其口语语篇的局部连贯力较高。
表4 局部和整体连贯能力因子独立样本t检验
学习者笔语语篇局部和整体连贯力较低可能与其连接词的高频使用有关。梁茂成[22]研究发现,中国学生在英语作文中高频使用连接词,学习者有滥用连接词倾向,但连接词的使用频率不能反映语篇连贯性的强弱。Halliday & Hasan[26]指出,连接词并不是延伸至上下文的手段,其本身并没有连贯性,而是通过连接词特定的意义间接地具有连贯作用。换言之,文本的连贯性并不取决于连接词使用,而在于文本内容,在于命题本身之间的概念相关性,[27]因而使用连接词并不创造连贯性,而只是使文本间的连贯性显性化。[28,29]
本研究自然语言处理工具Coh-Metrix 3.0测量并对比分析了学习者口笔语语篇中浅层和深层文本衔接特征,并进而对比分析两组语篇的局部和整体连贯能力。研究结果表明,学习者口语语篇通过句与句、段与段之间的词汇复现和语义复现等衔接手段构建语篇联系,在体现语篇口语体特征的同时增强了语篇的衔接和连贯性;而学习者虽有意识在笔语语篇中借助各类连接词来表达上下文的语义关系,因更多依赖这一表层衔接手段而忽视综合运用其他衔接手段,影响语篇的局部构思及整体谋篇布局。
本研究发现对于英语教学具有以下启示作用:1)学习者笔语语篇连贯力相对较低提示学生应避免滥用衔接词等显性衔接手段,在语篇构建中注重使用多种衔接手段,实现相邻句子、段落间乃至整个语篇的内在衔接与连贯;2) 学习者口语语篇虽然连贯力相对较高,但其词汇复现率和潜在语义重合率高也提示学生在构建口语语篇时“围绕话题从一个角度或事实出发反复论证”,“内容单一”,[21]论证不够充分。教师应引导学生在注重语篇衔接连贯的同时从多角度展开论证,注重论述的简洁性和内容的丰富性,培养学生的思辨论证能力。