中外大学生英语议论文写作语言复杂度对比分析

2022-09-26 05:01赵琪源杨树芳
关键词:句法复杂度语料库

赵琪源,杨树芳

(中国矿业大学(北京) 文法学院,北京 100083)

语言复杂度(linguistic complexity)作为语言能力的重要维度,通常用来衡量语言产出的广度和难度。语言复杂度具有多种维度,通常包括词汇复杂度、句法复杂度以及形态复杂度[1]。在这些维度中,词汇复杂度和句法复杂度已得到广泛研究。词汇复杂度指词汇的多样性和复杂性,与学习者的书面和口语交际能力密切相关[2]。句法复杂度指语言产出中句法结构和形式的多样性和复杂性,是决定第二语言学习者写作质量的重要指标,其发展是学习者整体语言发展的重要组成部分[3]。相比之下,形态复杂度指语言曲折形式的多样性,是第二语言研究中一个相对较新的概念,近年来成为评估二语写作质量的又一重要指标。语言产出中,曲折形式越多样,形态复杂度也就越高。换言之,如果一个文本使用“talk”“talking”“talks”,那么它就比单纯使用“talking”的文本在形态方面更加复杂[4]。

近年来,语言复杂度在二语写作研究中越来越受到关注,为此国内外学者开展了很多实证研究。在各类写作体裁中,议论文写作不仅是英语学习者写作的基本任务,也是二语教学的重要组成部分。因此,对比研究中国大学生与英语本族语大学生英语议论文写作语言复杂度,有利于找到我国大学生语言层面的不足,为教学以及相关研究提供一定的借鉴。

1 研究现状

目前,学者们主要从三个角度对二语写作中语言复杂度展开相关实证研究。

首先是研究语言复杂度与二语写作质量的关系。此类研究都发现,语言复杂度对二语写作质量具有预测效应,但具体哪项维度或指标预测能力更强,还存在着认识差异。例如,同为考察句法复杂度的预测效应,Lahuerta Martínez[5]通过考察188名初中三年级和初中四年级的EFL学习者的句法复杂度,发现平均句子长度、并列句和复合句比率、并列句和从属句比率以及每子句中的名词短语数显著地区分了年级水平。然而,张晓鹏和李雯雯[6]以中国大学生的英语说明文为语料,发现微观层面的句法复杂度指标,如充当修饰语的关系子句、从句性主语等,对预测英语说明文的质量更为有效。此外,在词汇、句法、形态哪项维度对二语写作质量区分更为有效的研究中,Lee等[7]基于120 份由香港中学文凭考试中考生撰写的高分、中分和低分的英语报告和信件,调查了词汇和句法复杂度如何区分并预测二语写作的质量。调查发现,与句法复杂度相比,词汇复杂度指标是二语写作质量的更强预测指标。然而,Qian等[8]以托福考试的1102个写作样本为研究对象,探索了句法、词汇和形态复杂度这三个维度与人工评分的关联程度,发现15项测量指标中,只有动词形态复杂指数可以对作文的质量产生影响。

其次是研究二语学习者语言复杂度的动态发展。整体上,学习者的语言复杂度与二语接触年龄呈正相关,但学习者各项指标的增长趋势或多或少存在着不同程度的差异。Ishikawa[9]发现,随着学习者二语熟练程度的提高,词汇多样性先下降后上升,词汇密度保持不变,词汇复杂性稳步上升。张会平[10]通过分析英语初学者写作中词汇复杂度的发展特征发现,随着年级的提高,初学者的词汇复杂性、词汇密度和词汇多样性都有显著提高,但各项指标发展不均衡。此外,李雪兰和张会平[11]也在一个学期内跟踪研究了10名中国英语学习者在二语写作中形态复杂度的动态发展。研究发现,形态复杂度总体呈稳定趋势,而个体呈非线性发展趋势。

最后是语言复杂度的对比研究。目前,对比研究多集中于中高级英语学习者的学术写作。如雷蕾[12]对比了中国学者和英语本族语学者学术写作句法复杂度之后发现,两者在从属结构和名词复杂度方面表现相当,但中国英语学习者语言产出长度更短,从属结构更少。此外,宋瑞梅和汪火焰[13]比较了国内外博士论文摘要的句法复杂度,结果显示,中国博士生的平均子句长度和并列句的比例明显高于美国博士生,但从句比例明显低于后者,且学科差异程度较小。

综上,虽然以往研究对二语写作中语言复杂度的研究做出了重要贡献,但仍有些不足。一方面,学者们对语言复杂度的维度研究较为单一,鲜少从语言复杂度各个维度(词汇、句法、形态)上对研究对象进行全面考察。另一方面,目前研究多集中在语言复杂度与议论文写作质量关系角度,鲜少关注到中国大学生和英语本族语大学生英语议论文写作中语言复杂度的差异。因此,基于TECCL和LOCNESS语料库,本研究将对比分析中国大学生和英语本族语大学生英语议论文写作中词汇、句法以及形态复杂度的差异。

2 研究设计

2.1 研究问题与语料来源

本研究拟回答以下三个问题:①中国大学生和英语本族语大学生英语议论文写作词汇复杂度是否存在差异?如果存在,具体表现如何?②中国大学生和英语本族语大学生英语议论文写作句法复杂度是否存在差异?如果存在,具体表现如何?③中国大学生和英语本族语大学生英语议论文写作中动词形态复杂度是否存在差异?如果存在,具体表现如何?

本文以中国学生万篇英语作文语料库(TECCL)以及鲁汶英语本族语作文语料库(LOCNESS)中大学生英语议论文写作语料作为研究对象。TECCL语料收集于2011-2015年间,其中大学生作文的高校层次来源比例与我国高校实际构成接近。从中随机选取中国大学生议论文写作150篇,建立TECCL_A子语料库,形符数为80164词。作为本研究参照语料库,LOCNESS语料库收录了英国和美国高中生和大学生的写作文本,总形符数为32.43万词。本着题材和体裁一致的原则,随机选取英美大学生议论文150篇,建立LOCNESS_A子语料库,形符数为87506词。所选两个语料库议论文题目均涉及教育、生态、网络、文化等主题,且库容量相近,因此具有较高的可比性。

2.2 指标测量与统计分析

词汇复杂度分析采用Lu[14]开发的词汇复杂度分析器(Lexical Complexity Analyzer, LCA),该工具包括25 项测量指标,分属于词汇密度、词汇复杂性、词汇多样性三个次维度。结合朱慧敏和刘艳梅[15]以及张煜杰和蒋景阳[16]的研究,本研究选取词汇复杂度三个次维度下的9项可靠指标进行考察(表1)。词汇密度指文本中实词所占比例,词汇复杂性指文本中高级词(低频词)所占比例。本研究参照Lu[14]的做法,将实词定义为名词、形容词、动词(不包括情态动词和助动词)以及副词、将BNC语料库中2000高频词以外的词定义为低频词。词汇多样性指文本中词汇使用的广度。传统的词汇多样性测量方法,类符与型符比(TTR)容易受到文本长度的影响。相比之下,平均分段类符与型符比(MSTTR)受文本长度影响较低,故本研究选取MSTTR测量词汇多样性。

句法复杂度分析采用Lu[3]开发的句法自动分析器(L2 Syntactic Complexity Analyzer, L2SCA),其信度与效度已得到验证。本研究中,子句为带有主语与限定动词的结构、T 单位为包含有一个主句以及所有从句和非从句结构的不可分割的最小单位。L2SCA中共有14项指标,本研究根据Lu & Ai[17]的建议以及宋瑞梅和汪火焰[13]的研究,最终选取7项可靠指标进行测量(见表2)。

表1 词汇复杂度测量指标

表2 句法复杂度测量指标

形态复杂度分析采用Pallotti[1]开发的形态复杂度工具(Morphological Complexity Tool, MCT),该工具已得到国内外研究者广泛使用[4,18]。本研究通过MCT提取形态复杂度指标MCI,从结构上考察中国大学生和英语本族语大学生英语议论文写作中语言屈折多样性程度。该分析器可以全面计算名词形态复杂度和动词形态复杂度,但参照以往研究[4,11],本研究主要考察动词形态复杂度。具体操作如下。首先,该工具识别文本中每个单词的词类(形符),并使用TreeTagger将其指定为词典中的词目。然后将每个形符与词目进行比较,并确定其特定的屈折形式,形成单个形符的子集。最后计算MCI。计算公式为:MCI=(子集内多样性+子集间多样性/2)-1[4]。

本研究运用LCA、L2SCA、MCT工具分别计算得出两个语料库中词汇、句法、形态复杂度各项指标均值后,随即使用SPSS 28.0进行ANOVA单因素方差分析,然后再通过Antconc 3.44语料库检索工具,考察语料的具体表现,对其进行对比和分析。

3 结果与讨论

3.1 词汇复杂度对比分析

由表3可以看出,在词汇复杂度方面,中国大学生和英语本族语大学生在词汇密度、词汇复杂性、词汇多样性维度上均具有显著性差异。在词汇密度上,TECCL_A的LD均值(0.52)高于LOCNESS_A(0.51),两者具有显著差异(F=7.746, P=0.006)。根据Rahayu等的研究[19],英语本族语者在写作中有使用冗余和无效句子的倾向,这使得他们使用更多的表征词(token words),而较少使用内容词。这种情况可能是造成两者差异的原因。通过观察语料库,本研究发现,英语本族语者经常使用一些嵌套结构(如例1),这也会使得文章的总词数增多,而实词比例变小。进一步观察我们还发现,中国大学生因缺失功能词而造成了一些语法错误,如例2中缺失连词“and”、例3中缺失冠词“the”。功能词对于构建语篇、表达逻辑关系至关重要。为此,教师在写作教学中还要提醒学习者合理运用功能词,以便提高文章的衔接和连贯。

(1)There has been such a lot of talk about a Single Europe in recent years that it is hard to believe that it will be upon us very soon. (LOCNESS_A)

(2)The young people are the hope of our nation, we should not deny them but help them. (TECCL_A)

(3)In reality, however, stress we have to face in our lifetime varies in several aspects. (TECCL_A)

在词汇复杂性上,TECCL_A和LOCNESS_A的LS2分别为0.24和0.25(F=4.786, P=0.029),差异显著,但VS1不具有差异性(F=0.070, P=0.792)。这说明,中国大学生动词高频词和低频词的使用与英语本族语者相当,而其他词性还具有一定的差距。该发现与Lei等[20]的发现一致,他们通过对比中国博士生和英语本族语应届本科生和硕士研究生的研究论文,发现中国博士生的词汇复杂性较低。Mcnamara等[21]以120篇英语本族语者作文为语料,研究了高低质量作文词汇差异,发现高质量作文比低质量作文低频词汇使用更多。因此,学生在写作中使用低频(高级)词汇的能力是文本质量和写作水平的一个指标。例4和例5是随机从TECCL_A语料库中截取的两个段落,我们发现,每个段落低频词仅有2个,分别为“Nowadays”和“engaged”以及“ultra”和“ambition”。因此,本研究进一步证明了中国英语学习者用词稍显简单。究其原因可能是学习者在学习词汇的过程中,仅仅机械记忆,没有真正地掌握词汇,或没有注意到词与词的联系,这样就使得所学词汇碎片化,在产出词汇时只能想到高频词,而不能灵活运用低频词。因此,词汇学习不能仅仅依靠简单记忆,而需要上升到思维层面。在今后的教学中,教师应该注重培养学习者的思维,比如通过词汇联想、思维导图等活动培养隐喻思维,因为隐喻符合人类认知发展规律,具有创造相似性、建立事物联系等功能,所以教学中引入这些活动可以加强学习者词汇网络,从而提高教学效率。

(4)Nowadays, we are living in a society where everyone is working hard to make a living. No matter what kind of profession we are engaged in, all of us will do everything we can to have a good performance. However, there is no doubt that it is impossible that we can all achieve our goals. (TECCL_A)

(5)Although some people benefited from him, his ultra behaviors could still cause a lot of problems. Thus, only when all of us can control our ambition within a certain range, can we benefit from it. (TECCL_A)

最后,在词汇多样性上,TECCL_A和LOCNESS_A的MSTTR-50分别为0.78和0.77(F=6.514, P=0.011),前者高于后者,两者具有显著差异性。进一步分析发现,二者在除副词(F=3.025, P=0.083)以外的动词(F=20.776, P=0.001)、名词(F=5.250, P=0.023)、形容词(F=29.657, P=0.001)、修饰词(F=25.423, P=0.001)方面均具有显著差异,且中国大学生均高于英语本族语大学生。该研究的发现与文珊珊[22]的发现矛盾。与本研究不同的是,她发现英语本族语大学生的词汇多样性高于中国大学生且中国大学生和英语本族语大学生名词多样性相当,但在她的研究中仅仅比对了均值,遗憾的是差异性并未给出检验。此外,与她研究中所用的TTR衡量词汇多样性相比,本研究考虑到文本长度的影响而采用了MSTTR,因此这可能是造成两个研究发现不一致的原因。词汇多样性对比结果表明,中国大学生动词、名词、形容词、修饰词更为多样,甚至有过度使用之嫌。通过观察语料库,我们发现中国大学生文本中存在很多同义词替代现象。如例6中,学习者使用了“empowers”和“capacitates”替代了“enables”,这样就使得文本中词汇更为多样。此外,在陈述他人观点时,中国大学生也存在使用替代现象,如例7中使用词组“hold the view”代替“say”,而英语本族语大学生使用了同一词汇“view”(例8)。研究发现,中国大学生有意进行同义替换,而英语本族语大学生用词更为随意,似乎没有考虑词汇多样性。这种现象产生的原因:可能是因为长期以来,我国英语写作教学刻意强调学习者写作中不要反复使用同一词汇,而要尽可能使用替代词汇以使文本中词汇更多样。本研究认为,造成中国英语学习者英语写作能力欠缺的原因可能不是体现在词汇多样性上,或许存在着观点、内容、深度方面的原因。为此,在今后的研究中,我们应该进一步反思词汇多样性和写作质量的关系。

(6)Diligence enables me to read, write, and practice to accumulate knowledge as much as possible. Perseverance empowers me to work unremittingly even in the face of twists and turns. Self-discipline capacitates me to focus on my goals without being disturbed by various distractions. (TECCL_A)

(7)Some people may say that love is romantic, others may hold the view that love is sweet. (TECCL_A)

(8)Some view it as a symbol of pride and a heritage that should not be forgotten. Others may view it as a flagrant sign of hatred and many years of racism. (LOCNESS_A)

3.2 句法复杂度对比分析

由表4可以看出,在句法复杂度各项指标中,中国大学生和英语本族语大学生MLS、MLT、DC/C存在显著差异。

表3 词汇复杂度对比结果

在句子单位长度上,TECCL_A和LOCNESS_A的MLC分别为10.07和10.44(F=2.74, P=0.990)、MLS分别为18.43和20.93(F=20.317, P=0.001)、MLT分别为16.58和18.65(F=21.472, P=0.001),这说明两者在平均子句长度上相当,但中国大学生平均句子产出长度和T单位产出长度较短。与雷蕾[12]的发现一致,本研究进一步表明,中国英语学习者语言产出长度更短。此外,在从属子句使用量上,TECCL_A和LOCNESS_A的DC/C分别为0.37和0.41(F=22.657, P=0.001)。该发现也与雷蕾[12]以及Mancilla等[23]的发现一致,进一步证实中国大学生从属子句使用显著低于英语本族语者。随机从TECCL_A和LOCNESS_A中选取两个总结段落(例9和例10),我们可以发现,中国大学生更倾向于使用简单句,而英语本族语大学生写作中明显句子和T单位更长、从属子句使用更多。本研究认为,造成这种差异的原因是学习者受到汉语母语的影响,因为汉语写作常用松散句[24]。

(9)Taking what's the life's meaning into account, we need to be the master of own life. Don't follow others blindly, not to be a servant for your emotions. Everyone has obligations to decide his life. It's like a kaleidoscope. It depends on you how to enjoy it. (TECCL_A)

(10)In conclusion, as the turn of the century slowly approaches, I look back with a feeling of accomplishment as well as anticipation as to what lies ahead. As a world of many scattered nations, conflict is inevitable. However, if we all have one bond, democracy, then maybe together, we can learn to understand one another, and work towards a happier world for all. (LOCNESS_A)

在并列结构使用量上,TECCL_A和LOCNESS_A的CP/C分别为0.28和0.25(F=3.347, P=0.068)、T/S分别为1.11和1.13(F=0.551, P=0.458),没有显著差异。值得注意的是,中国大学生在并列短语使用量上高于英语本族语大学生,这也印证了中国大学生在一定程度上依赖并列句或简单句实现语篇功能,体现出句法发展初级阶段的典型特征[25]。此外,在特定短语结构维度,TECCL_A和LOCNESS_A的CN/C分别为1.23和1.29(F=2.098, P=0.149),两者不具有显著性差异。

句法复杂度对比结果也进一步印证了中国英语学习者对句型的控制能力不如英语本族语者,中国英语学习者句型单一,变化度低[26]。从句一直困扰着中国英语学习者。鉴于句型控制能力与语言环境和语言的输入量密切相关[13],学习者可以通过接触真实语料提高这种能力。语料库技术的发展,为学习者接触真实的本族者语料提供了机会。因此,学习者可通过访问英语本族者语料库(如BNC、COCA等),了解他们写作的思维习惯以及英汉语言的差异。教师也可以通过展示更多的本族者语料、引入一些分析和仿写长难句的活动,引导中国大学生提高句型丰富度。

3.3 形态复杂度对比分析

由表4,在形态复杂度方面,TECCL_A和LOCNESS_A的动词MCI分别为5.61和7.03(F=78.113,P=0.001),具有显著的差异性。这一结果表明,中国大学生动词形态变化程度上显著低于英语本族语大学生,也就是文章动词形式使用单一。该结果与李雪兰和张会平[11]的研究结果一致。他们通过分析80篇中国英语学习者作文语料得出的结论是:中国英语学习者时态使用较为单一,集中在使用一般现在时和一般过去时。他们把原因归结于议论文体裁的特点,因为议论文写作需要在写作中陈述自己的观点,因此多以一般现在时为主,所以造成中国英语学习者英语写作中形态变化度低。通过Antconc检索,我们发现,中国大学生一般现在时使用占比(68.27%)显著高于英语本族语大学生(53.12%),而一般过去时(16.59%)和现在完成时(2.95%)显著低于英语本族语大学生(20.89%和5.22%)。进一步观察语料发现,中国大学生时态使用差强人意,文章中很多本应该用一般过去时(例11)和现在完成时(例12)而用了一般现在时替代。造成这种差异的原因可能是中国大学生受到母语的影响,因为汉语没有动词屈折形式的变化,且时态系统相对简单。

(11)At that time, they just consider that death is a good way to relax. (TECCL_A)

(12)With the development of society, another new shopping form springs up quietly but quickly in past few years. (TECCL_A)

通过Antconc检索语态发现,英语本族语大学生被动语态使用占比为13.39%,显著高于中国大学生(7.17%)。在议论文写作中,被动语态具有保持客观态度、衔接语篇、凸显主题等功能。因此,与中国大学生相比,英语本族语大学生的语篇表述更为客观、语言更为连贯。这种差异可能是由于文化的影响,因为汉文化的人们通常使用较多的主动语态以突出动作的发出者(例13);而英语本族语者则通常强调客观世界的存在实体(例14),因此使用较多的被动语态。

(13)When it comes to economy development and environment protection, people often regard them as two opposing sides. (TECCL_A)

(14)In the minds of most Americans, television is regarded as a diversion rather than an educational tool. (LOCNESS_A)

此外,本研究还考察了两语料库中谓语动词和非谓语动词所占比例。检索发现,LOCNESS_A中谓语动词和非谓语动词占比分别为64.93%和35.07%、TECCL_A中为62.88%和37.12%。可以看出,两语料库中谓语动词与非谓语动词占比相当。因此,本研究认为,造成两者动词形态复杂度差异的原因是时态和语态的运用。

时态和语态的教学一直是我国外语教学的重点和难点。传统的时态和语态讲授多基于教师教—学生学模式,多以教师为中心,学生很少积极融入课堂中,学习起来也枯燥乏味。然而,作为近些年兴起的一种教学模式,多模态教学可以使教学的主客体产生微妙的变化,让原本枯燥的语法知识变得生动形象,从而明显提升课堂效率。因此,在今后的教学中,教师应多融入一些多模态技术。譬如,在讲到一般过去时时,教师可利用多模态技术生成一些情景对话,提高学生的注意力,以此增强学习者对一般过去时的认知。除此之外,传统的时态和语态练习方式也较为单一。应用多模态技术,教师可以将原本的造句练习改为制作动画视频,或者呈现给学生们一些电影片段,让学生们寻找其中的时态和语态,总结出各个时态和语态在不同语境下的使用情况,帮助学生将语言知识转换成语言能力。

表4 句法和形态复杂度对比结果

4 结论

本研究对比研究了中国大学生和本族语大学生英语议论文写作中语言复杂度的情况。主要有三点发现。其一,在词汇上,中国大学生词汇密度和词汇多样性较高,尤其是动词、名词、形容词、修饰词的多样性。然而,中国大学生词汇复杂性较低,但动词复杂性与英语本族语大学生相当。其二,在句法上,两者平均子句长度相当,但中国大学生平均句子产出长度和T单位产出长度较短、从属子句较少。其三,在形态上,中国大学生动词形态复杂度显著低于英语本族语大学生,表现为一般过去时、现在完成时以及被动语态占比较小。

本研究为大学英语议论文写作教学可提供以下借鉴。首先,教师在今后的教学中应注意引导学习者恰当使用功能词,提升文章的逻辑与连贯性。也可以加入一些培养学习者思维的活动(如词汇联想),扩充学习者词汇知识,引导其在写作中使用更多的低频词。其次,教师应加大对学习者分析和仿写长难句的训练,鼓励学习者在写作中避免使用简单句,而是尽可能多地使用从属子句,使文章更为连贯。学习者也可以应用语料库技术接触真实语料,了解本族语者写作的思维习惯以及英汉语言的差异。最后,教师可以在教学中应用多模态技术,使时态和语态的教学更生动。学习者也可以利用思维导图的方式,通过时间线将时态贯通在一起,以便使所学时态知识系统化。

此外,本研究也为二语写作与语言复杂度研究提供了以下启示。一方面,在讨论词汇密度上,本研究发现造成中国大学生词汇密度高的原因可能是因为中国大学生从句嵌套结构较少,这也在句法复杂度分析中得到了验证。因此在今后的研究中,可以尝试着寻找词汇复杂度和句法复杂度的相关性。另一方面,本研究首次发现中国学生英语写作用词更为多样。为此,我们应该进一步反思和研究词汇多样性和文章质量的关系,找出阻碍中国大学生写作能力提升的真正原因。

猜你喜欢
句法复杂度语料库
基于语料库的清末民初日源外来词汉化研究
一类长度为2p2 的二元序列的2-Adic 复杂度研究*
述谓结构与英语句法配置
毫米波MIMO系统中一种低复杂度的混合波束成形算法
《语料库翻译文体学》评介
Kerr-AdS黑洞的复杂度
非线性电动力学黑洞的复杂度
句法二题
诗词联句句法梳理
语篇元功能的语料库支撑范式介入