刘金路,柴改英
(浙江工商大学外国语学院,浙江杭州 310018)
基于句法树库的英语时态加工难度对比研究
刘金路,柴改英
(浙江工商大学外国语学院,浙江杭州310018)
摘要:在依存语法的理论框架下,利用计量方法,运用句法标注建立的树库对英语时态及其对应的被动语态的平均依存距离进行了测量分析并对它们的加工难度进行了排序。研究发现:(1)英语时态及其被动语态存在加工难度差异;(2)常用的十类英语时态比剩余六类时态加工难度小;(3)常用的六类英语时态的主动语态比对应的被动语态加工难度小。
关键词:英语时态;句法树库;加工难度
英语时态(tense)是一种表示行为、动作、状态在各种时间条件下的动词形式,是很基础且重要的语法知识。不同的时态用以表示动词的不同的时间与方式。按照传统语法,英语共有16种时态,同时,这些时态也分别对应16种被动语态[1-4]。英语时态涉及每一个完整的句子,使用广泛且普遍,因此英语学习者自开始学习英语时就要与之接触。根据研究,在英语教学及二语习得过程中,英语时态是颇具难度的知识点之一[5]。对比英汉时态的表达形式后不难发现,英语的时态多体现在语法形式上而汉语更多的使用虚词或其他词语的组合表达时态的概念,缺乏语法形态上的变化,这就使得中国的英语学习者在时态习得学习的过程中困难不断,无疑是一种新语言知识的极大挑战[6][7]。过去的研究发现,无论低年级的中学生还是高年级的大学生,他们在英语学习过程中仍时常会在时态方面犯错误[8][9]。那英语专业的高年级大学生的英语时态使用又会如何呢?张雪梅,杨滢滢[10]通过收集英语专业学习者四、八级考试中的作文语料来考察了中高级学习者的时态习得概况,发现,虽然时态形式本身错误的比率不高,但仍然存在。
语言类型及结构的差异导致中国学生习得英语时态时很有难度,既有用法上的错误也有形式上的误用或错写。英语时态及其被动语态的种类繁多,是否某些时态及其被动语态结构本身就具备了句法结构的难度呢?哪些时态及其被动语态结构的本身加工难度更大一些呢?这些时态及其被动语态之间的加工难度是否会有差异?为何将来进行时与完成进行时没有相对应的被动语态形式呢[3]?对于英语时态及其语态的习得难度的顺序又是怎样的?以上这些问题至今没有定论。基于此,本研究在依存语法框架下,采用计量方法,运用句法标注建立的树库对英语时态及其对应的被动语态的平均依存距离(MDD)进行了测量分析,以期解决以上的诸多疑问。
本文旨在通过英语句法树库的标注计量,对英语时态及其被动语态的加工难度情况进行考量并对比各树库所得数据显示的加工难度差异,为英语时态及其被动语态的习得难度差异探寻理据,本研究主要尝试解决以下三个问题。
(1)英语十六种时态及其被动语态的加工难度各自怎样?加工难度排序又是怎样的?
(2)英语前十种常用时态与后六种时态之间的加工难度有无显著性差异?
(3)英语前八种时态的主动与被动语态之间的加工难度有无显著性差异?
(一)语料说明
对研究语料需要特别说明的是,英语时态及其被动语态的平均依存距离的测算需要将时态及其被动语态放于具体的英语句子之中才有意义,因为英语时态及其被动语态本身就是句子结构的一部分且在具体的谓语动词中才得以体现。为控制变量,保证树库中语料的完整性与一致性,我们对它们的处理采用了论元一致且最简的方案,即这些时态与其被动语态只含有一个主语与宾语两种句子成分,且主语与宾语相同无差异,以保证所有时态及其被动语态均在相同的语言整体结构下进行计量的。
本研究语料包括两部分:一是含有英语十六种时态且主语与宾语相同的十六个英语句子;二是含有英语十六种时态且主语与宾语相同的十六个英语句子的被动语态句。
(二)句法标注的理论依据
依存语法(dependency grammar)是由法国语言学家泰尼埃在1959年提出的语法理论,它认为,依存关系具有以下属性:(1)它是二元的,即它是一种两个元素之间的关系;(2)它是不对称的,即在关系两个元素中一般而言一个元素会支配另一个元素,这是构成依存句法树层级结体系的基础。依据该理论,计量语言学界提出用依存距离(DD:dependency distance)测量句子结构的加工难度,它是指在一个句子中,两个有着句法关系的语言学单位之间的线性距离[11][12],也被定义为词语与其支配者之间的距离,可以根据相邻词语的数量计算获得。Liu[13]将依存距离作为语言复杂性的量度标准,Jiang&Liu[14]也认为,依存距离与人类工作记忆加工密切相关。简言之,一个句子的平均依存距离越大,加工难度就越大。
(三)研究方法及程序
依据以上理论及量度标准,本研究运用计量的研究方法,将依存距离作为测量指标,利用Excel 2013软件进行句法标注,对含有英语十六种时态且主语与宾语相同的十六个英语句子及其相应的被动语态句共计32句进行句法标注,最终形成两个独立的句法树库,一是含有英语16种时态的依存句法树库;二是含有英语16种时态的被动语态的依存句法树库。然后,对句法分析的重要指标平均依存距离进行定量测算,然后利用SPSS16.0对比分析每个树库所得的数据,检验数据间的差异是否具有显著性,这种计量可以使人们对英语时态及其被动语态的加工难度有更明晰化的认识。
平均依存距离计算过程中,我们以相互依存且相邻的两词间依存距离的绝对值为“1”(依存距离绝对值的最小值)为基础[13],用支配词所属句子序号减去被支配序号所得值为依存距离,有正负之分,但句子的平均依存距离(MDD)是指句中涉及到的所有依存距离绝对值的平均值。例如,The reporter who attacked the senator admitted the error.中,从左至右的词序代表序号,分别标记为1,2……9.其中,“The”与“reporter”根据依存语法及句法理论确定后者为支配词,两者之间的依存距离为“2-1=1”,得出两者的依存距离为“1”,本句的平均依存距离则为:
(|2-1|+|7-2|+|2-4|+|4-3|+|4-6 |+|6-5|+|7-9|+|9-8|)/8=1.875。具体标注方法如图1所示。
图1 句法依存关系示例
通过以上的理论及标注方法,本研究分别将时态的主动与被动形式进行了标注,其依存关系如下图2与图3举例所示,按照这种依存关系标注句子从而形成英语时态及其被动语态的两个句法树库,利用Excel2013软件分别计算出了各自的平均依存距离(MDD:Mean Dependency Distance)再作差异显著性检验。
图2 英语时态的主动形式的依存关系
图3 英语时态的被动形式的依存关系
(一)英语十六种时态及其被动语态的加工难度成正比
根据标注的树库计算所得的英语时态的平均依存距离(MDD)数据,笔者按照MDD的值从小到大的顺序对其进行了排列。由于MDD越大,加工难度就越大,首先,我们可以得知,一般现在与一般过去的MDD最小,说明它们的加工难度最小;其次,在很多教科书,考试大纲及语法书中涉及到时态语态的数量时,大多指的都是常用的前十种时态形式,对应下边表1不难发现,恰好从第一种到第十种时态的MDD是逐渐增大的,而剩余的后六类难度逐渐增大,一直到最后的“过去将来完成进行”,其MDD已达到了2.2,我们认为这应该就是我们常用时态表达形式主要涉及前十种的原因,这个加工难度的排列正是其理据所在。
表1 十六种英语时态的各项统计
按照表1的MDD排列,我们可以得到如下图4所示的英语16种时态加工难度排序表(由左至右,加工难度逐渐增大)。
图4 英语16种时态加工难度排序表
根据标注的树库计算所得的英语时态的被动语态的平均依存距离(MDD)数据,笔者也按照MDD的值从小到大的顺序对其进行了排列。首先,我们可以得知,一般现在的被动与一般过去的被动的MDD最小,说明它们的加工难度最小;其次,在很多语法书[3]中谈到“将来进行时与完成进行时没有相对应的被动语态形式”,这背后有何依据?原因在哪里呢?通过表2不难发现,从“现在完成进行被动”开始的MDD值上升到了1.83,而之前的数据是1.6,且大于现在完成进行时的1.75,明显在加工难度上有所增大。我们认为这应该就是该语法规则限制的理据所在。再次,对于表2中的排序,我们可以看出,前八种形式恰恰是我们很多语法书及考试大纲中提出要求的那些被动语态形式。
表2 十六种英语时态的被动语态各项统计
按照表2的MDD排列,我们可以得到如下图5所示的英语16种时态的被动语态的加工难度排序表(由左至右,加工难度逐渐增大)。
图5 英语16种时态的被动语态加工难度排序表
(二)英语前十种常用时态与后六种时态之间的加工难度对比
在表1中列出了英语的十六种时态的MDD排序,且通过分析验证了前十种时态是常用形式,而后六种时态随着MDD的增大其加工难度也在增加,那么前十种常用时态与后六种不常用甚至不用的时态之间的加工难度有无显著性差异呢?如果有,那么说明两者之间确实在加工难度上有着明显差异,这也可以为前十种时态的常用找到理据。
我们利用SPSS16.0对以上的两组数据进行显著性检验,检验前我们进行了数据的正态分布检验,从表3与表4可知,前十种英语时态及后六种时态的平均依存距离的数据值服从正态分布,可以进行参数T检验。
表3 正态分布数据(1)
表4 正态分布数据(2)
表5 两类英语时态间的平均依存距离差异
表6 独立样本T检验数据表
表5与表6是T检验具体反映的数据结果,在表6即表Independent Samples Test(独立样本T检验)中,通过Levene′s Test for Equality of Variances(方差齐次性检验)中Sig.0.633可以看出明显大于0.05,因此独立样本T检验的结果应该以Equal variances assumed栏为准。由于其p值0.001明显小于0.05,说明零假设被推翻,通过效应量计算得知d=2.3,明显大于0.8,表明,英语十六种英语时态中的前十种常用时态的平均依存距离(1.3480+0.25108)与后六种时态的平均依存距离(1.9000+0.23238)具有显著性差异,且差异性较大,t(14)=4.371,P〈0.05,d=2.3。
两类英语时态间的平均依存距离有着较大的明显差异,说明了两者之间的加工难度存在明显差异,其中,后六类时态的平均依存距离为1.900大于前十类英语时态的平均依存距离1.348,这样就对后六类时态形式在英语语言的具体使用中几乎没有涉及找到了理据所在。
(三)英语前八种时态的主动与被动语态之间的加工难度对比
在表1与表2中列出了英语的十六种时态及其被动语态的MDD排序,通过对比不难发现,在表2中的前八种被动语态是我们经常会见到且有用到的,那么我们可以对比这八种被动语态及其对应的主动语态(前八种时态)之间的MDD有无显著性差异,从而探寻英语时态的主动与被动形式之间的加工难度有无显著性差异,如果有,两者哪一个的加工难度更大呢?
表7 英语时态与被动语态间的平均依存距离差异(Group Statistics)
表8 独立样本T检验数据表(Independent Samples Test)
表7与表8是T检验具体反映的数据结果,在表8即表Independent Samples Test(独立样本T检验)中,通过Levene′s Test for Equality of Variances(方差齐次性检验)中的Sig.值0.852可以看出明显大于0.05,因此独立样本T检验的结果应该以Equal variances assumed栏为准。由于p值0.005明显小于0.05,说明零假设被推翻,通过效应量计算得知d=1.68,明显大于0.8,表明英语十六种英语时态中的前八种常用时态的平均依存距离(1.248+0.528)与其被动语态间的平均依存距离(1.513+0.162)具有显著性差异,且差异性较大,t(14)=3.366,P〈0.05,d=1.68。
两类英语语态间的平均依存距离有着较大的明显差异,说明了两者之间的加工难度存在明显差异,其中,前八类被动语态的平均依存距离为1.513,大于前八类时态(主动语态)的平均依存距离1.248,可以看出英语时态的被动语态在加工处理上要更有难度。
本文考量了英语时态及其被动语态的加工难度问题,在依存语法的理论框架下,运用计量的研究方法,将依存距离作为测量指标,利用Excel 2013软件进行了句法标注,并利用SPSS16.0统计软件对树库所得数据进行了差异显著性的分析对比,研究发现,(1)英语时态及其被动语态存在加工难度差异;(2)常用的十类英语时态比剩余六类时态加工难度小;(3)常用的六类英语时态的主动语态比对应的被动语态加工难度小。
该计量分析所得数据及加工难度的排序将会为英语时态及其语态的教学提供参考,有助于英语学习者时态及被动语态习得效率的提高,加深对其结构表达式的理解与掌握,提高其英语时态及其被动语态运用的正确率,包括理解和产出的正确性及灵活度,为其结构复杂性认识提供了理论及数据参考。本研究的语料数量还略小,加工难度差异对比的参照点还可以更加细化,选择的语料有待改进与完善,期待后续相关研究能有更加权威的研究发现。
[参考文献]
[1]Quirk R,etal.A Comprehensive Grammar of the English Language[M].London:Longman Group Ltd,1985.
[2]徐广联.大学英语语法[M].上海:华东理工大学出版社,2003.
[3]薄冰.实用英语语法[M].太原:山西教育出版社,2004.
[4]Murphy R.English Grammar in Use(Fourth Edition)[M]. Cambridge:Cambridge University Press,2012.
[5]Bardovi-Harlig K.Tense and Aspect in Second Language Acquisition:Form,Meaning,and Use[M].Oxford:Blackwell,2000.
[6]蔡慧萍.汉语不对应现象和外语学习中的负迁移[J].外语教学,1999(2):92-95.
[7]杨惠中,桂诗春,杨达复.基于CLEC语料库的中国学习者英语分析[M].上海:上海外语教育出版社,2005.
[8]樊长荣,林海.中国学生英语时体习得中的两大误区[J].外语教学与研究,2002(6):414-420.
[9]韩存新,樊斌.英语写作中的现在完成时错误分析[J].基础英语教育,2007(2):20-23.
[10]张雪梅,杨滢滢.英语专业学习者的时态习得现状——一项基于中国英语专业写作语料库的研究[J].外国语文,2009(3):133-138.
[11]Heringer H J,Strecker B,Wimmer R.Syntax:Fragen-Lo¨ sungen-Alternativen[M].München:Wilhelm Fink Verlag,1980.
[12]Hudson R.Measuring Syntactic Difficulty.Unpublished paper[EB/OL].(2008-07-06)http://www.phon.ucl.ac.uk/home/ dick/difficulty.htm.
[13]Liu Haitao.Dependency Distance as a Metric of Language Comprehension Difficulty[J].Journal of Cognitive Science,2008,9(2):159-191.
[14]Jiang Jingyang&Haitao Liu.The Effects of Sentence Length on Dependency Distance,Dependency Direction and the Implications-Based on a Parallel English-Chinese Dependency Treebank[J].Language Sciences,2015(50):93-104.
(责任编辑:刘婧)
中图分类号:H314
文献标识码:A
文章编号:2096-2126(2016)03-0057-06
[收稿日期]2016-03-12
[基金项目]2015年浙江工商大学研究生科研创新基金重点项目“基于句法树库的英语从句依存距离研究”(14020000248)阶段成果。
[作者简介]刘金路(1981—),男,山东泰安人,硕士,研究方向:句法学,依存语法及计量语言学;柴改英(1968—),女,山西太原人,浙江工商大学外国语学院院长,教授,博士,硕士生导师,研究方向:修辞学,英语教学及语用学研究。
Processing Difficulty in English Tense:A Contrastive Study Based on English Treebanks
LIU Jinlu,CHAI Gaiying
(School of Foreign Languages,Zhejiang Gongshang University,Hangzhou 310018 China)
Abstract:According to the theoretical framework of dependency grammar,the treebank is established using metrology method and syntactic tagging in order to carry out the measuring analysis of English tenses and their corresponding average distance dependence of the passive voice,and sort the processing difficulty as well.The study finds:(1)There exists the difference of processing difficulty in English tenses and their corresponding passive voices;(2)There exists less processing difficulty in the ten English tenses frequently used than the remaining six ones;(3)There exists less processing difficulty in the six English tenses than their corresponding passive voices.
Key words:English tense;syntactic treebank;processing difficulty