中国EFL学习者句法复杂度测量研究

2016-12-14 10:24张丽丽
关键词:句法复杂度语料

张丽丽

(1贵州大学 外国语学院,贵州 贵阳 550025;2.浙江大学 浙江 杭州 310000)



中国EFL学习者句法复杂度测量研究

张丽丽1,2

(1贵州大学 外国语学院,贵州 贵阳 550025;2.浙江大学 浙江 杭州 310000)

以某省高校间英语写作竞赛两种体裁各49篇作文为语料,以L2SCA(二语句法复杂度分析器)为工具,考察其句法复杂度。研究发现,14项指标有3项与作文分数相关,即W/S (平均句长)、C/S (句子复杂度)和CN/T(复杂名词密度)。除C/S外,议论文所有指标几乎均显著高于记叙文,学习者议论文句法复杂度总体强于记叙文,高低分组间议论文C/S和C/T(小句与T单位数量比)呈显著差异,但记叙文所有指标未见显著差异;作文质量对句法复杂度的影响不如体裁因素。结果表明,最适合测量中国EFL学习者句法复杂度的指标有W/S、C/S、CN/T和C/T。C/S不受体裁因素影响,相对最为稳定。

句法复杂度;测量指标;EFL;自动测量

二语句法复杂度测量研究始于20世纪70年代,迄今已累积40多种测量指标,但多项研究结果不一致,Wolfe-Quinta等和Ortega认为,或与指标定义、任务类型、语料规模或水平组分类方式等因素有关Lu[1]134。此外,国外研究大都以二语学习者为对象,针对外语学习者的研究较少。Ortega的研究证明,外语学习者与二语学习者句法复杂度的情况存在差距[2]。目前,国内相关研究以英语专业学习者议论文为主,将EFL学习者作为整体,对多种体裁进行的研究较少。鉴于此,本文利用二语句法复杂度自动测量工具——L2SCA(L2 syntactic complexity analyzer)*该测量工具由美国宾夕法尼亚州立大学应用语言系陆小飞开发。下载网址http://www.personal.psu.edu/xxl13/downloads。展开研究,以发现更适于中国EFL学习者句法复杂度测量的指标,加深对我国EFL学习者句法复杂度发展整体情况的了解,同时揭示其中一些特点或规律。

一、句法复杂度研究概况

句法复杂度,又称句法复杂性或句法成熟度,指“语言产出形式的范围和形式复杂化的程度”[2] 492,在写作中主要考查句法的变化和结构的复杂性[3]69。

前人的研究尽管对某些测量指标的定义和测量效度存在争议,但大量实证研究逐渐促成学界达成某些共识,比如:采用句子、T单位*T单位是一个句子能够被缩减、表达完整意义的最短单位,包括一个主句及其所附带的任何从句。最初Hunt(1965)用于研究儿童母语句法复杂度,后被广泛用于二语句法复杂度研究。、小句、从句、词组为观测对象,用单词量表示单位长度,用频次或比率表示单位密度;“测量友好度”较高的指标有W/S(平均句长)、W/T(平均T单位长)、W/C(平均小句长)、C/T(T单位小句数)、DC/C(从句与小句比)、T/S(T单位密度)[2-3];句法复杂度的衡量不应止于小句层面,而应深入短语层面;T单位测量能较好区分不同语言水平学习者,但有局限性,不能全面反映学习者连接句子的知识,因此,衡量L2学习者句法复杂度还须考虑并列结构的使用情况[4]。

句法复杂度测量研究同时还推动了理论探索的进程,句法发展次序假说不断完善发展很好地证明了这一点。Wolfe-Quintero 等总结了前人的研究,提出句法发展次序大致为:非完整句—>主句—>并列小句—>副词从句—>形容词和名词性小句—>形容词、副词和名词性动词短语[3]73;Biber 等进一步提出了句法复杂性发展次序5级量表[5],按不同复杂程度将各类从句详细列入,为二语句法发展或测量研究提供了一个简洁而直观的规尺。徐晓燕等认为,将两者相结合,可以更科学地描写句法复杂性[6]。

Lu对《中国学生口笔语语料库》共3000多个样本的研究发现,3个长度指标、2个并列结构指标和2个复杂名词指标随年级增加呈显著线性发展,是较理想的测量指标[7]。该研究样本全部来自英语专业学习者,其结论是否适用于中国高校所有ESL学习者,有待进一步验证。此外,这7个句法复杂度发展最佳指标是对年级水平而言,对不同作文质量水平是否具有敏感性,Lu的研究没有涉及。

国内的相关研究也以英语专业学生作文为主,只有少数关注非英语专业学生[8],集中于议论文体裁,未见对其他体裁语料的研究,大都采用手工测量,考察几个常用指标,通常涉及W/T、W/C、C/T和DC/C。和国外一样,研究结果不尽相同,如:鲍贵的研究认为密度指标C/T和DC/C均不区分写作和语言水平[9],但徐晓燕等的研究结论与之相反[6];秦晓晴、文秋芳以及徐晓燕等两项研究结果均支持密度指标与作文质量的相关关系[6,10],但鲍贵却报告,密度指标峰值出现于中等分数组[9]。

综上所述,二语句法复杂度研究经过几十年发展,成果颇丰,常用的测量指标大致分两类:以T单位为代表的表层结构指标和以复杂名词短语为代表的深层结构指标。国内近年相关研究主要考查少数几个表层指标,对深层指标缺乏尝试。当前有关中国EFL学习者句法复杂度研究的结论大都基于英语专业学习者议论文语料,是否适用于更广泛的“中国EFL学习者”,尚待进一步证明。此外,句法复杂度自动测量研究在国外已渐成风尚,但国内同类研究大都还停留在手工测量阶段。

二、研究问题、语料及方法

1.研究问题

主要回答3个问题:(1)哪些句法复杂度指标与中国高校EFL学习者作文质量相关?(2)体裁和作文质量因素对中国高校EFL学习者作文句法复杂度有什么样的影响?(3)这些指标中,最适合测量中国高校EFL学习者句法复杂度的指标是什么?

所用14个指标及定义见表1 。这些指标基本代表了目前二语或外语研究常用句法复杂度指标[1]134,除短语结构类3个指标为深层指标外,其余均为表层指标。

表1 句法复杂度测量指标及定义

所涉测量指标采用工具开发者[1]136使用的定义,重要概念介绍如下:

小句(Clause):任何带有一个主语和一个限定性谓语动词的结构,包括独立句,形容词性、副词性或名词性子句,不包括非限定性动词短语。

复杂T单位(Complex T-unit):有一个或多个从句的T单位。

并列短语(Coordinate phrase):仅限并列形容词短语、名词短语或动词短语。

复杂名词性短语(Complex nominal):被形容词、物主代词、介词词组、定语从句或分词所修饰的名词;带有同位语的名词;名词性小句;充当主语的动名词或不定式。

动词短语(Verb phrase):限定性或非限定性动词短语。

2.语料描述及预处理

语料来自某省高校间英语网络写作大赛作文,参赛者不限专业和层次。议论文要求就广场舞大妈与附近居民冲突的新闻报道发表看法并展开讨论,600~800词;记叙文要求根据图片完成一份交通事故目击证词,400~600词。

阅卷教师共5人,包括一名英语为母语的外籍教师,由副教授以上职称且有丰富写作教学经验的教师承担。采用百分制,去掉最高分和最低分,取其余3个分数平均分为最终分值,作文质量得分可靠。评委按如下比例打分:思想内容(40%)、写作技巧(30%)、语言质量(30%)。“写作技巧”指结构完整,层次清楚,衔接自然,标点、大小写规范;“语言质量”指语法结构灵活多样,词汇丰富,行文流畅,语言错误少,语域、语体恰当。本研究所关注的句法复杂度分值主要体现在“语言质量”的“语法结构灵活多样”和“语言错误少”这两项表述上。

本研究只关注句法复杂度的问题,但由于计算机操作不熟等与句法习得无关的因素,学生极易产出“问题”语料,对数据结果造成影响。因此,我们对语料进行了预处理:统一文本输入格式,包括全半角等技术问题;标点、大小写、单词拼写、搭配,单复数,主谓一致、限定词等错误被给予纠正。因为工具开发者Lu称*陆小飞2015年3月 30日电子邮件内容。,这类错误不影响分析结果,影响结果的句法错误(如:无主语句、无动词句和不规范嵌套结构)用“<>” 尖括号标注以方便后续操作。

3.数据收集与分析方法

为了确保结论的可靠性,本研究对同一语料取原始样本和无错样本同时测量。用L2SCA测量原始样本(含句法错误)14个测量值,然后剔除语料中有句法错误的句子,重复测量一遍,得无错样本测量值14个。所有数据最后采用SPSS 20.0进行分析处理。

三、结果与讨论

1.指标与作文质量的相关关系

14个测量值与作文整体得分的皮尔逊相关分析结果见表2。原始样本3个指标呈正相关:平均句长W/S、句子复杂度C/S、复杂名词性短语与T单位之比CN/T。无错样本测量结果除上述3个指标相关系数更高以外,另有3个指标表现相关:两个并列度指标T/S、CP/T和动词短语密度指标VP/T。

表2 作文整体质量与句法复杂度测量值相关分析结果

研究发现,句长与作文整体分数相关,与此前多项研究结论一致[10-11],支持该指标作为中国EFL学习者句法复杂度测量指标。

秦晓晴、文秋芳对英语专业学习者议论文的研究未发现句子复杂度指标C/S与作文质量相关[10]。但本研究结果与之相反,C/S在3项呈现相关的指标中,相关系数最高,说明本语料评分过程中,评分者更易将句子整体复杂度即小句内嵌度,作为判断学习者句法习得水平的标准。Myhill提出,多用从句是学习者早期的句法特征[12],所以,我们认为,中国高校大多数ESL学习者仍处于句法发展初级阶段。另外,评分标准“语言质量”明确强调句法准确性,也是无错样本较原始样本有更多指标与作文整体得分相关、相关系数也更高的原因。这一现象至少部分印证了Larsen-Freeman的说法,无错T单位是较理想的二语句法复杂度测量单位[13]。

复杂名词性短语密度CN/T也表现出与作文质量相关,此前Lu发现该指标随年级增长呈线性发展[7],本研究再次表明CN/T作为句法复杂度指标的敏感性,也印证了Wolfe-Quintero关于该指标是潜在理想指标的说法[3]。

上述3个指标虽然显示与作文质量相关,但相关系数不高,与秦晓晴、文秋芳的发现类似[10]。此前大量研究也表明作文整体质量分数更多与语言准确度指标相关[3]。

与T单位相关的多数指标未显示相关,说明T单位指标是较好的句法发展粗粒度指标,但对大致处于同一句法发展水平的语料没有测量效力。无错样本另3个呈现相关的指标可以视为潜在优秀指标进一步考察。CP/T和T/S 两个并列度指标表现相关,但Lu的研究认为另一指标CP/C优于T/S[7]。综合两项研究,可以认为CP/T是中国EFL学习者较理想的并列度测量指标,同时也说明句子连接能力差异能较真实地反映中国EFL学习者句法能力的差异。无错样本VP/T的表现支持Wolfe-Quintero将动词短语作为句法复杂度发展指标的提议[3]。但此3项指标仅单样本显示相关,较其他指标是否具有优越性还须更进一步研究考察。

2.体裁对句法复杂度的影响

两种体裁句法复杂度测量值独立样本T检验结果见表3。原始样本除C/S和T/S外,有12个指标呈显著差异,无错样本只有C/S未呈显著差异,体裁对学习者作文句法复杂度的影响非常明显。测量结果支持Lu用同一工具对中国英语专业学习者语料的研究结论:“议论文通常表现出比记叙文更高的句法复杂性。”[7]49

表3 两种体裁描述统计与差异检验结果

Lu控制时限变量后,发现14个指标中只有C/S未呈显著差异[7],与本研究无错样本结果一致,一定程度上表明英语专业学习者语料已接近句法无错语料;另一方面,本研究语料产出者以非英语专业学习者为主,可以推断中国高校EFL学习者对不同体裁写作的驾驭能力总体不如英语专业学习者。句子复杂度指标C/S对体裁变量不敏感,同时又与作文质量相关,因此,我们认为,C/S作为中国EFL 学习者句法复杂度发展指标,稳定性较其他指标强。两个样本所有指标表现出来的一致性侧面说明L2SCA作为句法复杂度自动测量工具,性能可靠。

3. 作文质量对句法复杂度的影响

控制体裁变量,对议论文和记叙文高低分组的描述统计及独立样本T检验结果分别见表4和表5。

表4 议论文高分组与低分组描述统计与差异检验结果

表4原始样本仅两个值呈显著差异,分别为句子复杂度C/S和小句密度C/T。可见,相比于体裁,作文质量对学习者议论文句法复杂度的影响不大。无错样本并列度指标T/S也呈显著差异,虽然在原始样本中差异未达显著水平,仍能说明该指标有效区分中国EFL学习者语料句法复杂度的可能较大。呈临界显著的指标还有DC/C、DC/T和CT/T,总体来看,呈显著差别或临界差别的指标主要是表层指标,与小句直接或间接相关。Lu的研究也暗示,小句更能充分反映中国EFL学习者句法复杂度的情况[7]。

此前,Ishikawa对日本EFL初级学习者两次测量研究发现,独立写作任务组C/S 呈显著差异,另一组测量值虽未达显著差异,但也呈增长趋势[14]。C/S实为T单位复杂比率的变体,因考虑日本EFL初级学习者特点而采纳,受母语影响,他们往往将本属一个T单位的句子产出为几个独立T单位,如:I went to school. Because I had to[3]86。中国EFL学习者也普遍存在类似现象。Bardovi-Harlig同样认为,以句子为单位衡量二语成人学习者句法复杂度更恰当[4]。本研究C/S高低分组间差异显著,再次证实其对于中国EFL学习者语料较出色的测量效力。

C/T的研究结果和徐晓燕等一致[6],印证了Ortega关于C/T是二语句法发展最佳指标之一的论断[2],显示支持其作为中国EFL学习者句法复杂度测量指标。此前多项研究发现单位长度W/C和W/T高低分组间呈显著差异[9-10],但本研究不予支持。或因上述研究均采用英语专业学习者语料,本研究为竞赛语料,学习者可能采取回避等应试策略,导致语料代表性有所“打折”。

表4的14个测量值中有两个指标出现“异常值”,高分组低于低分组,分别为小句长度指标W/C和并列结构密度指标CP/C。这说明,议论文写作中,高分组学习者的小句长度和并列结构使用频率均有缩减趋势,虽然未达显著水平,但已清楚表明两组学习者分处不同句法发展阶段。高分组学习者句法复杂度更多体现为单位信息承载量的增加,而不是单位长度的增加。这一研究结果印证了紧缩句是高水平学习者句法结构特点的结论[2,6],也为二语句法发展次序假说提供了间接证明。

表5显示,除无错样本T/S外,记叙文高低分组各指标均未表现显著差异,再次说明T/S可能是较为适合的中国ESL学习者句法复杂度测量指标。和议论文情况类似,记叙文原始样本小句长度W/C 也出现了“异常值”,但由于是单样本差异,所以须谨慎将小句长度缩减作为中国EFL学习者句法发展的有效表征。

L2SCA在学习者记叙文语料句法复杂度测量方面表现不佳,这与记叙文体裁的特殊性、作文任务难度以及中国大学英语学习者的学习经历有关。因为记叙文无论从句子结构还是从用词选择角度,与议论文相比都更偏向口语体,该体裁写作不易全面反映学习者句法习得发展的情况,也许这即是国内研究集中于议论文写作语料的原因。与学习者平时熟悉的议论文写作相比,大学英语记叙文写作练习本就偏少,此次作文任务又兼具说明性质。此前有研究发现,说明性任务中二语句法复杂度最低[15],因此,学习者产出的记叙文语料句法复杂度总体表现欠佳,趋于同质性。另外,语料产出者虽来自不同院校、层次、专业,但经初赛选拔,大致处于同一句法习得水平。受限于上述几点,作文便不易表现出句法复杂度方面的差别。

表4 议论文高分组与低分组描述统计与差异检验结果

总之,记叙文高低分组间句法复杂度测量值无显著差异,原因是多方面的,但至少给我国学界和外语教育从业者一个启示,中国EFL学习者记叙文写作能力亟待加强。

四、结语

本研究本着寻找中国EFL学习者最佳句法复杂度测量指标的初衷,分析研究了14个自动测量指标与两种体裁作文质量的关系,发现3个指标与作文质量相关:平均句长W/S、句子复杂度C/S和复杂名词密度CN/T。议论文高低分组间C/S再次表现出显著差异。小句密度指标C/T也呈组间显著差异,结合此前我国英语专业学习者语料的相关研究成果,本研究认为,W/S、C/S、CN/T、C/T等4项指标是最适合测量中国EFL学习者句法复杂度的指标。除CN/T为深层指标外,其余3个为表层指标。剔除句法错误的无错样本分析发现,并列度指标T/S、CP/T和动词短语密度指标VP/T是潜在的最佳测量指标,需进一步研究证实。

两种体裁作文除句子复杂度指标C/S以外,几乎所有指标都呈显著差异,说明C/S对体裁因素不敏感,是更稳定的句法发展水平测量指标。记叙文高低分组间未见任何显著差异,或与记叙文体裁的特殊性、作文任务难度、学习者经历以及语料同质性等因素有关。总之,体裁因素对学习者句法复杂度的影响大于作文质量因素。

本研究所用中国EFL学习者语料取自竞赛文本,样本规模不足,期待更多研究者采用更丰富、更典型、更广泛的语料,对本研究结果做进一步验证,尤其期待针对本研究发现的潜在指标进行的相关研究。

[1] LU, X. Computational Methods for Corpus Annotation and Analysis [M]. Dordrecht: Springer, 2014.

[2] Ortega, L. Syntactic complexity measures and their relationship to L2 proficiency: A research synthesis of college-level L2 writing [J]. Applied Linguistics 2003(24):492-518.

[3] 〔美〕Wolfe-Quintero, K, S. Inagaki H. Y. Kim. Second Language Development in Writing: Measures of Fluency, Accuracy, and Complexity [M]. Honolulu: University of Hawaii Press,1998.

[4] 〔美〕Bardovi-Harlig, K. A second look at T-unit analysis: Reconsidering the sentence [J]. TESOL Quarterly, 1992(26):390-395.

[5] 〔美〕Biber, D, B. Gray,K. Poonpon. Should we use characteristics of conversation to measure grammatical complexity in L2 writing development? [J]. TESOL Quarterly, 2011(45):5-35.

[6] 徐晓燕,王维民,熊燕宇.中国英语专业学生英语议论文句法复杂性研究 [J].外语教学与研究,2013(2):264-275.

[7] LU, X. A corpus-based evaluation of syntactic complexity measures as indices of college-level ESL writers’ language development [J]. TESOL Quarterly,2011(45):36-62.

[8] 赵俊海,陈慧媛.英语学习者书面语语法复杂度的测量研究 [J]. 外语教学理论与实践,2012(1): 27-32.

[9] 鲍贵. 英语学习者作文句法复杂性变化研究[J]. 外语教学与研究,2009(4):291-297.

[10] 秦晓晴,文秋芳.中国大学生英语写作能力发展规律与特点研究 [M]. 北京:中国社会科学出版社, 2007.

[11] 杜慧颖,蔡金亭.基于Coh-Metrix的中国英语学习者议论文写作质量预测模型研究[J].现代外语, 2013(3):293-300.

[12] Myhill, D. Towards a linguistic model of sentence development in writing [J]. Language and Education, 2008(22): 271-288.

[13] Larsen-Freeman, D. An ESL index of development [J]. TESOL Quarterly, 1978(12):439-448.

[14] Ishikawa, S. Objective measurement of low-proficiency EFL narrative writing [J]. Journal of Second Language Writing, 1995,4(1):51-69.

[15] Way, D P,Joiner E G Seaman M A. Writing in the secondary foreign language classroom: The effects of prompts and tasks on novice learners of French [J]. Modern Language Journal, 2000(84):171-184.

(责任编辑 钟昭会)

2016-03-17

国家社会科学基金重大项目子课题“英汉句法比较研究”(11&ZD188)。

张丽丽(1974—),女,土家族,贵州湄潭人,贵州大学副教授,浙江大学博士研究生。研究方向:语料库语言学与二语习得。

H314.3

文章编号:1000-5099(2016)05-0143-07

10.15958/j.cnki.gdxbshb.2016.05.022

猜你喜欢
句法复杂度语料
基于归一化点向互信息的低资源平行语料过滤方法*
述谓结构与英语句法配置
一种低复杂度的惯性/GNSS矢量深组合方法
句法二题
诗词联句句法梳理
求图上广探树的时间复杂度
某雷达导51 头中心控制软件圈复杂度分析与改进
出口技术复杂度研究回顾与评述
《苗防备览》中的湘西语料
国内外语用学实证研究比较:语料类型与收集方法