晏胜
(华中师范大学 外国语学院,武汉 430079)
句法复杂度(syntactic complexity)指口语或书面语产出句法形式的复杂性和多样性(Ortega,2003;Lu,2011),自Larsen-Freeman(1997)提出语言复杂理论后引起学界广泛关注。现有研究探究了句法复杂度与二语水平和二语写作质量之间的关系,认为句法复杂度是影响和衡量语言水平及描述语言发展轨迹的重要指标(Ai & Lu,2013;Casal & Lee,2019;高霞,2021;吴继峰、陆小飞,2021),如句法复杂度呈“三段式线性”发展,即遵循从并列从句、从属结构到复杂从句和短语的发展路径(Norris & Lourdes,2009;Bulté & Housen,2014)。同时,影响句法复杂度的因素也成为学者们关注的重点。研究发现二语写作句法复杂度受到学习者、文体、任务、环境等多种因素的影响,如话题(topic)、体裁(genre)、任务复杂度(task complexity)、写作环境(instructional setting)等(Ellis & Yuan,2004;Casal et al.,2021;蔡艳玲,2012;韩亚文、刘思,2019;张煜杰、蒋景阳,2020)。这些研究不仅加深了对句法复杂度框架的理解,而且推动了基于句法的二语写作教学研究。
以往研究已关注到二语写作中的母语因素,并且发现了母语在二语写作各方面的影响,包括观点生成(Lally,2010)、修辞结构(Uysal,2008)、句法结构(Rankin,2012)等,如Lefrançois(2001)发现母语对二语写作中词汇生成、句法处理、学习策略、段落模式等有一定影响;又如Jarvis & Crossley(2012)发现二语写作中词汇类型、多词结构(N-grams)、错误类型(errors)、连接(cohesion)等都带有明显的母语特征烙印。但在影响二语写作句法复杂度的众多因素中,学习者母语因素在以往研究中没有得到足够重视,相关研究不足,原因有三点:首先,学习者文本相对难于获得,研究者往往对学习者不加区分,无法获得足够的样本量,如Ai & Lu(2013)在对比学习者和母语者句法复杂度时,忽略了学习者母语背景变量。其次,限于客观条件,研究者往往调查使用同一母语的英语学习者,很少考虑不同母语背景学习者在句法特征上的异同(鲍贵,2009;江韦姗、王同顺,2015)。再次,部分研究虽开始调查不同母语背景学习者之间的句法复杂度差异,但调查的指标并不全面。Lu & Ai(2015)虽然采用了较全面的指标,但是主要专注欧洲英语学习者的情况,而对亚洲英语学习者,以往的研究并没有涉及。
鉴于以往研究对学习者母语因素关注不足,尚未形成结论性意见,本研究调查亚洲10个国家和地区英语学习者和母语者同题作文句法复杂度的差异。研究关注点不在于建立母语特征和二语句法复杂度特征之间的因果联系,而在于观察在严格控制相关变量的前提下,不同国家/地区学习者二语写作句法复杂度是否存在差异,哪些指标具有共性特征。此外,本研究将来自中国内地(大陆)、中国香港和台湾地区的学习者视为汉语母语背景,其句法复杂度是否呈现差异性特征也可以增进对母语因素的认知。
本研究回答以下两个问题:第一,亚洲英语学习者整体和英语母语者同题作文句法复杂度指标是否存在显著性差异?差异如何?第二,亚洲不同母语背景英语学习者和英语母语者同题作文句法复杂度指标是否存在显著性差异?差异如何?为避免各国家和地区之间多重对比而产生大量的对比数据,我们使用母语者作文作为对照语料。
在以往研究中,研究者使用多种指标来测量句法复杂度。Lu(2010)在Ortega(2003)综述的基础上开发了二语学习者句法复杂度分析器 (L2 Syntactic Complexity Analyzer,L2SCA)。L2SCA自动计算文本中9个语言单位发生的频率:单词(words)、句子(sentences)、子句(clauses)、T单位(T-unit)、复杂T单位(complex T-unit)、从属子句(dependent clause)、动词短语(verb phrases)、并列短语(coordinate phrases)、复杂名词短语(complex nominals),并据此计算出14项句法复杂度指标值。Lu(2010)发现,L2SCA和专家人工统计的同一文本中9个语言单位频率相关度达到了.830-1.000,而相应14项句法复杂度指标值相关度达到了.834-1.000,说明L2SCA汇报的指标值准确有效。本研究使用了14项句法复杂度指标(表1)。
表1 句法复杂度维度和指标(Lu,2010)
(续表)
本研究语料来自亚洲英语学习者国际语料库网络(The International Corpus Network of Asian Learners of English),简称ICNALE,由日本神户大学Shin Ishikawa博士创建(Ishikawa,2013)。ICNALE由亚洲10个国家和地区不同水平的英语学习者提供语料(中国内地(大陆)、中国香港、中国台湾、印度尼西亚、日本、韩国、巴基斯坦、菲律宾、新加坡、泰国),还包括400篇英语母语者的作文。ICNALE有以下几个主要特征:第一,专注亚洲英语学习者。与之形成鲜明对比的国际英语学习者语料库(The International Corpus of Learner English, ICLE)主要聚焦于欧洲英语学习者,两者互为补充,使全面描绘英语学习者语言使用状况成为可能。第二,严格控制变量。开展中介语对比分析是ICNALE建库的主要目标之一,因此在建库之初就严格限定各种变量,如话题(Topic),两个固定的写作话题为1) It is important for college students to have a part-time job; 2) Smoking should be completely banned at all the restaurants in the country.其他变量如写作时间、作文长度、写作环境等均统一要求。第三,学习者水平定级。根据标准化英语水平测试成绩(TOEFL或TOEIC)将学习者分为四个等级(A2, B1_1, B1_2, B2+)。
鉴于ICNALE中B1_2级(中高级)学生数量较多,本研究从B1_2级提取作文数据。提取方法为:10个地区B1_2级里各随机提取100份作文,两个话题各50份,总共1000份;由于ICNALE没有对母语者进行定级,且母语者语料有限,400份母语者作文全部纳入研究,两个话题各200份。表2是对研究数据的描述。
表2 不同国家和地区写作数据描述
(续表)
数据分析分为以下三步:首先,计算指标值。L2SCA计算1400份作文数据中14项句法复杂度的指标值。其次,整体对比。学习者整体和母语者进行对比,使用独立样本T检验(T-test)调查两类作文14项句法复杂度指标值差异。最后,单独对比。10个国家和地区学习者分别和母语者进行对比,使用了单因素方差分析(one-way ANOVAs),事后多重检验(Post Hoc Multiple comparisons)采用了Tamanu’s T2在SPSS 25.0上展开统计分析。
由于同一批数据进行了14次独立样本T检验,笔者运用Bonferroni校正法来控制族系误差率(familywise error rate),并将alpha值调整到0.05/14,即0.036。0.05是整个数据达到显著性水平的值,14为对比的次数,而0.036为单次对比达到显著性的值,即只有当p值小于或等于0.036时,单项指标对比的差异才具有显著性。
如表3所示,英语母语者作文有12项指标值显著高于亚洲英语学习者(p=.000)。无显著性差异的指标为平均子句长度(MLC,p=.346)和每个子句中的并列短语数量(CP/C, p=.075)。说明在不考虑地区或母语背景因素的情况下,亚洲英语学习者和英语母语者作文句法复杂度差异巨大,母语者作文句法更复杂。而Lu & Ai(2015)却发现,母语者和欧洲学习者仅在三项句法复杂度指标上有显著差异,分别是平均子句长度(MLC)、子句中复杂名词数量(CN/C)和T单位中复杂名词数量(CN/T)。母语背景和学习者语言水平因素是造成显著差异的主要原因,笔者将在后文中进一步展开对比讨论。
表3 学习者作文整体和母语者作文句法复杂度指标对比分析
(续表)
3.2.1 语言产出长度单位对比
表4呈现了学习者和母语者作文语言产出长度指标值对比的结果。从表中可以看出,在母语者作文中,三个长度单位指标均值分别为MLS=25.813,MLT=20.212,MLC=9.468,其中MLS指标均显著高于英语学习者,即英语母语者作文句子普遍更长。MLT指标也有近似趋势,仅有3个国家的学习者(印度尼西亚、新加坡、菲律宾)和母语者作文MLT指标差异不显著。MLC指标对比则有多变趋势。只有4个国家(日本、韩国、泰国、新加坡)的学习者作文MLC指标显著低于母语者。这一发现和表3有一定的关联。表3显示,学习者作文整体MLS和MLT指标值显著低于母语者,而两者的MLC则没有显著性差异。一方面说明三个指标为不同的建构,从不同的角度衡量语言长度;另一方面也说明MLS是区分母语者和学习者语言产出长度的可靠指标。
表4 不同国家和地区作者同题作文语言产出长度指标(MLS,MLT,MLC)对比
3.2.2 从属结构对比
表5呈现了从属结构数量指标值的对比结果。母语者作文4个指标均值分别为C/T=2.174,CT/T=.685,DC/C=.489,DC/T=1.104,均高于学习者作文的相应指标值。其中,DC/C和DC/T指标均显著高于学习者,说明他们是区分母语者和学习者文本从属结构数量的稳定指标。仅有4个国家(泰国、印度尼西亚、新加坡、菲律宾)学习者的C/T和CT/T指标和母语者无显著差异。
表5 不同国家和地区作者同题作文从属结构数量指标(C/T, CT/T, DC/C, DC/T)对比
(续表)
3.2.3并列结构对比
表6为并列结构数量指标的对比结果。母语者作文的三个指标均值分别为CP/C=.217, CP/T=.458, T/S=1.290。其中,T/S值显著高于学习者,是区分学习者和母语者文本最可靠的并列结构指标。此外,只有汉语母语区的英语学习者作文CP/T指标显著低于英语母语者,而所有国家和地区学习者作文中的CP/C指标与母语者均无显著性差异。
表6 不同国家和地区作者作文并列结构数量指标(CP/C, CP/T, T/S)对比
3.2.4 短语复杂度和句子整体复杂度对比
句子整体复杂度维度只有一项指标(C/S),笔者将它与短语复杂度指标集中到一起汇报。如表7,母语者作文的四个指标均值分别为CN/C=1.081, CN/T=2.302, VP/T=3.087, C/S=2.800,并且都高于英语学习者,说明母语者作文中使用了更多的复杂名词结构、动词短语,从句数量也更多。其中,学习者作文的C/S指标均显著低于英语母语者,说明C/S是区分学习者和母语者文本的稳定指标。有8个国家和地区学习者的VP/T指标显著低于母语者(除新加坡和菲律宾),而只有3个国家(日本、韩国、泰国)学习者的CN/C和CN/T指标显著低于母语者。
表7 作文短语复杂度指标(CN/C, CN/T, VP/T)和句子整体句法复杂度指标(C/S)对比
本研究从亚洲英语学习者语料库网络(ICNALE)中提取不同国家和地区英语学习者和英语母语者的同题作文,从整体和局部两个层面对比文本中14项句法复杂度指标的差异。研究发现,将学习者整体和母语者进行对比时,子句平均长度(MLC)和子句中并列短语数量(CP/C)无显著性差异,而学习者另外12项指标值均显著低于母语者。将不同母语背景的学习者分别和母语者进行对比时,句法复杂度指标值呈现出多样化的变化趋势。研究表明,在学习者语言水平相同的前提下,将不同母语背景的学习者作为一个整体和母语者进行对比可能掩盖了母语因素对学习者句法复杂度指标的影响。由于数据收集中严格控制了相关变量(语言水平、话题、字数、写作时间和环境等),母语因素可能是造成学习者和母语者作文句法复杂度指标差异的重要因素。与母语者相比,不同母语背景学习者的句法复杂度指标变化趋势不尽相同,而同一母语背景英语学习者的句法复杂度指标变化趋同,说明母语因素对句法复杂度的影响不容忽视。
本研究补充了Lu & Ai(2015)的部分研究成果,并优化了研究过程。虽然两项研究都调查母语因素对句法复杂度的影响,但研究设计和发现并不完全相同。首先,Lu & Ai(2015)从国际英语学习者语料库(ICLE)中提取了7个国家(法国、德国、俄罗斯、博兹瓦纳、保加利亚、中国、日本)不同语言水平英语学习者的语料,研究以欧洲学习者为主。其次,Lu & Ai(2015)对话题、写作模式(定时和非定时等)和环境变量(课内和课外等)等均不加控制,并且仅采用抽样的方法判定学习者的语言水平。在研究发现上,本研究和Lu & Ai(2015)均发现中国和日本英语学习者的句法复杂度指标整体低于母语者,但有两点不同:第一,Lu & Ai(2015)发现日本英语学习者作文中的T/S指标和母语者没有差异,而本研究发现这一指标显著低于母语者。第二,Lu & Ai(2015)发现中国学习者的CN/T指标和母语者无差异,但本研究中中国英语学习者作文中的CN/T指标值显著低于英语母语者。两项研究对学习者水平定义和对样本变量的控制是差异的主要原因。亚洲具有最广泛的英语学习者群体,本研究结论不仅可以和欧洲学习者研究形成对比,而且有利于形成关于学习者句法复杂度的普适性结论。
以往很多研究都探讨语言水平和句法复杂度之间的关系,焦点在于研究随着学习者语言水平的增长,二语句法复杂度系统内指标如何变化。如Lu(2017)和Ortega(2003)发现,在语言学习的初级和中级阶段,学习者会分别使用更多并列和从属结构,而高水平英语学习者会使用更多短语。以往研究基本都是不同水平学习者之间的横向对比,指标呈多样性变化,增长和下降并存。而本研究发现,母语者几乎在各个维度的句法复杂度指标均显著高于亚洲英语学习者,母语者句法明显更“复杂”。Lu & Ai(2015)却发现母语为德语的英语学习者的多项复杂度指标值均显著高于母语者,原因可能是因为“德语句子比英语句子更长”。作为一种意合语言,汉语可以通过标点来体现短语的连接而不使用并列连词(Li & Thompson,1981)。本研究也发现,有汉语母语背景的学习者文本中并列结构的数量显著低于母语者。汉语这一特点是否对以汉语为母语的英语学习者作文句法中并列结构的使用带来影响需要进一步的研究来验证,但结果显示母语是考察语言水平和句法复杂度联动变化时不可回避的因素。
此外,本研究14项指标虽然尝试从不同的角度描述句法复杂度,但部分指标变化有极大相似性,这符合Norris & Lourdes(2009)关于指标间可能高度相关且冗余的假设。具体来说,从属结构指标C/T和CT/T与DC/C和DC/T、短语复杂度指标CN/C和CN/T在不同母语群体中变化完全一致。因此,在未来研究中有必要对同类型的指标进行取舍,可仅保留一项同类型指标。
本研究在严格控制相关变量的前提下(如话题、写作时间、环境、语言水平等),发现亚洲地区不同母语背景英语学习者与母语者同题作文句法复杂度指标差异多变。虽然本研究没有探讨具体的母语特征和句法复杂度之间的因果关联,但研究显示母语因素对二语写作句法复杂度的影响不容忽视。在未来探讨二语水平和句法复杂度之间的关系时,有必要考虑学习者的母语特征变量。
本研究对二语写作教学也有一定的积极意义。在本研究中,学习者具有同一语言水平,但句法表现并不完全相同。二语写作教师应意识且重视不同母语背景学习者之间的差异,降低母语因素对句法的影响,如针对汉语母语学习者,可以增加从句和动词短语的教学。此外,本研究对学习者文本和母语者文本自动识别也有一定的意义。在未来研究中,还可以融入不同母语背景学习者文本的对比研究成果,增强学习者文本的母语自动识别。
本研究有以下几点局限性:首先,样本数据较小;其次,研究并没有明确哪些母语特征会影响二语句法的发展。这需要精通不同母语的研究者开展合作研究,也是笔者今后研究的方向。最后,为了准确描绘不同母语背景英语学习者的句法复杂度全貌,未来研究中需要跟踪学习者句法复杂度的发展,并比较母语特征对学习者句法复杂度发展路线的影响。