中国大学生英语书面语中情态动词使用特征的多因素分析

2023-04-20 08:24秦梦蕾黄莹

现代英语 2023年5期

秦梦蕾黄莹

(中国矿业大学，江苏徐州 221116)

一、引言

情态动词是二语或外语学习中的难点，作为形式－功能的配对体对二语或外语学习者带来巨大挑战。其中情态动词can，may 和could 在语义上具有很多相似之处，属于核心情态动词[1]，但在实际使用中有很大差异。如can 和could 多表示动力情态，may 多表示认知情态。但我国的英语教学在区分近义情态动词时，一般将could 解释为can 的过去形态，或区分它们的委婉程度，但不会过多解释究竟在何种语义、句法、词汇等情况下使用哪种情态动词。因此，中国英语学习者近义情态动词can，may 和could 的使用特征需要进一步研究。

本研究尝试以中国大学生英语学习者情态动词can，may 和could 为研究对象，开展基于语料的多因素统计分析，探讨影响两种语言群体情态动词使用特征的异同，并分析中国英语学习者情态动词使用中所体现的内在认知机制。

二、研究背景

以往研究表明，情态动词选择主要受多种因素的影响，这为目前的多因素研究奠定了基础。目前对情态动词使用特征的量化研究逐渐趋向于使用多因素建模的统计方法，并关注多方面影响因素。这是因为，每一个语言现象都会受到多种因素的共同制约。 Deshors[2]使用逻辑斯蒂回归分析了法国英语学习者和本族语者may 和can 的使用差异，考虑了涵盖语义、句法、词汇三个方面的语言特征，发现多个语言学因素在两个语料库中有显著性差异，为进一步研究影响本族语者和二语学习者情态动词的语言学因素提供了方法参考。但是，她没有对may 和can 以外的情态动词进行研究，尽管指出进一步拓展情态动词研究范围的必要性，如拓展到may 和can 的近义情态:could。

越来越多的学者将语言使用的多因素特征与可比语境(comparable context)相融合。传统中介语对比研究未详尽阐述语料是否具有可比性[3]。鉴于此，Gries ＆ Deshors[4]基于复杂统计模型，将其具体化为对二语学习者与英语本族语者均具有显著制约作用的一系列语言学因素，并采用MuPDAR(简称双回归)分析影响母语者和法国英语学习者can 和may 选词差异的具体制约因素。但许家金[5]指出，我国学者开展的多因素研究，相当数量是对国外成果的复制，对中国英语学习者多因素研究非常缺乏。

三、研究设计

(一)语料来源及标注

本研究所用语料包括中国英语学习者语料和英语本族语者语料两部分。中国英语学习者语料为ICNALE 语料库中的中国学习者子库，英语本族语者语料为ICNALE 语料库中的英语本族语者子库和LOCNESS 语料库中的英语本族语者子库。选取语料具有较好的可比性，体裁均为议论文。其中ICNALE 语料库对话题、书面写作、词长等都进行了严格的控制。

首先，使用Antconc 检索并抽取语料中所有包含can，may 和could 的索引行，再进行人工检查，最终获得索引行。

其次，本研究在参照Deshors[2]的语义、句法、词汇三方面的因素标注的基础上，并考虑到TTR、平均词长和平均句长三种文体特征，本研究拟使用涵盖语义、句法、词汇、文本特征四个方面共计20 个变量的语言特征标注框架。

(二)双回归分析

双回归分析[4]是一种基于回归的统计方法，能够量化在可比语境下，学习者与本族语者使用某种语言结构的差异。该模型建构在本研究中分为三步，包括两轮回归分析:

第一，对英语本族语者开展多项逻辑斯蒂回归，并检验该模型对语料的拟合程度；第二，如果模型拟合良好，则将该回归模型用于对中国英语学习者进行回归分析，并检验模型拟合程度；第三，若模型同样拟合良好，提取新的因变量(基于第一次回归R1 预测NNS 数据的因变量数值)进行第二轮回归分析。

四、研究发现

(一)第一轮回归

经过对英语本族语者语料进行多项逻辑斯蒂回归，发现该模型对数据拟合良好，预测值C ＝0.91(C>0.8)，R2McFadden ＝0.56，预测准确率为0.81。模型的外部可用性也相对较好，五折交叉验证显示，模型平均准确率为0.78，可见该模型可以推广到不同的数据集。

回归方程对英语本族语者拟合良好，因此尝试将其对中国英语学习者的语料进行拟合。多项逻辑斯蒂回归显示，该模型对中国英语学习者语料拟合同样良好，C ＝0.90，R2McFadden ＝0.71，预测准确率为0.95。因此，下面将开展第二轮回归分析。

(二)第二轮回归

在第二轮回归中，本研究将设置新的因变量:dev，即中国英语学习者和本族语者在可比语境下对情态动词的预测偏离值，并分别对每一个情态动词的dev 数据集进行线性回归，分别观察每一个情态动词偏离的主要影响因素。

分别对情态动词can，may 和could 的dev 数据集进行线性回归后，模型均拟合良好，其中模型(can)的调整R2为0.37，P<0.0001；模型(may)的调整R2为0.42，P<0.0001；模型(could)的调整R2为0.29，P<0.0003。

表1 线性回归模型显著变量

限于篇幅，本研究主要汇报与三种情态动词选择具有高度显著影响(P<0.01)的因素:主语形态(SubjMor)和平均单词长度(MWL)。

1. 主语形态

在主语形态上，在不同的因素上，中国英语学习者偏离英语本族语者的程度不同，can 的偏离值主要置于－0.1~0.2 之间；may 的偏离值区间主要置于－0.1~0.3，只有副词的偏离值区间大于0.2；could的偏离值基本大于0.2。这表明，could 的差异程度明显普遍高于can 和may。将本族语者对情态动词的使用作为参照，那么中国英语学习者对情态动词could 的掌握程度显然较差。这种较大的差异程度可以说明，中国英语学习者对情态动词could 的使用倾向相对较弱，这一发现与梁茂成[6]、程晓堂和裘晶[7]的发现一致，即学习者不倾向于使用表达委婉情态的情态动词could。此外，主语为副词时的差异程度相对较大，然而，这需要更多的样本量来进一步验证这一观察结果:在3302 条数据中，情态动词may 前主语为副词的数据极少，仅有4 条。

2. 平均单词长度

平均单词长度的改变对三个情态动词偏离值的使用差异影响不是很大。当单词长度增大时，中国英语学习者与英语本族语者使用can 和could 的差异程度都略微增大，而may 的使用差异略有缩小，但都较为均衡，偏离值的改变范围在0.05 之内。此外，无论单词长度如何改变，相比can 和may，中国英语学习者与英语本族语者在情态动词could 使用上的差异度更大，接近0.5。

(三)讨论

总的来说，我们可以看出，在可比语境下，中国英语学习者情态动词的使用受到多种因素的制约，也是概率性的。本小结将对中国英语学习者情态动词使用情况进行多方面的讨论和解释，探讨在可比语境下，中国英语学习者和本族语者情态动词出现差异的原因。

首先，言语产出频率及言语的重复使用是影响语言固化的决定因素，言语类型的出现频率是影响语言规约化的决定因素[8]。研究发现，中国英语学习者使用情态动词时与本族语者有一定的偏差，即中国英语学习者对一些影响因素敏感，影响中国英语学习者偏离本族语者can、may 和could 使用的显著变量分别有11 个、7 个和5 个。且每个显著影响因素在can，may 和could 的使用上存在一定不同差异度，即与本族语者的限制条件因素有差异，这也可以说明，中国英语学习者对情态动词的习得和产出存在多因素下的认知固化，且与本族语者认知固化模式有差异，概念化有偏差。将本族语者对情态动词的使用作为参照，那么中国英语学习者对情态动词could 的掌握程度显然较差，这表现在每个显著变量中，could 的高偏离值。

母语迁移是二语习得过程中存在的普遍现象。中国英语学习者在习得情态动词的过程中，同义情态动词在句法、词汇、语义等多方面、多因素的相似或相异之处均在不同程度上导致了母语迁移现象。在母语迁移中，母语与目的语之间的构式差异对二语习得的负迁移受到了较多关注[9]。就情态动词而言，许多英语学习者认为同义情态动词的用法也近乎相同，即认为这三个情态动词之间几乎没有区别，使得学习者在习得和写作过程中极易出现误用现象。此外，学习者学习有母语“对应词”的二语词语较容易，准确度也比较高[10]；学习者倾向于按照母语对应词的意义来使用二语词语，并常常导致二语词使用错误。例如，连系动词may be，就是因为中国英语学习者常常寻找英文中的对应词进行写作导致的，多用此类表达，却也出现了许多误用现象，因此与本族语者的偏离值较大。通过重复的认知活动使得情态动词的形式和意义在学习者的思维中产生一定的联结，也成为学习者常规的语言表达。

五、结语

综上所述，中国英语学习者偏离英语本族语者使用三种情态动词排序为can>may>could，在分析的所有因素水平上，could 的使用差异程度普遍大于can 和may 的差异程度，其大部分都具有高偏离值，这说明，中国英语学习者对could 的使用与本族语者存在较大的差异。而英语同义情态动词的相似或相异之处，以及英语情态动词与汉语情态动词的不同之处均在不同程度上导致了母语迁移现象。

本研究通过多因素分析，发现双回归分析能够准确地让研究者剖析出在可比语境下，中国英语学习者和本族语者使用情态动词的差异和偏离程度，使得开展的因素分析更加准确、客观、深入。此外，研究发现，学习者在习得和产出过程中，因其使用的概率性对其不断固化，因此，教师可以将其内在差异教授给学生，不断加强正向认知固化。