语料库研究方法应用的探讨
——以王颖基于语料库的对比分析论文为例

2011-08-15 00:49谢雪锋
湖北开放大学学报 2011年6期
关键词:本族语王颖介词

谢雪锋

(桂林电子科技大学 外国语学院,广西 桂林 541004)

语料库研究方法应用的探讨
——以王颖基于语料库的对比分析论文为例

谢雪锋

(桂林电子科技大学 外国语学院,广西 桂林 541004)

本文讨论了王颖关于中国学习者英文写作中高频介词的研究论文,探讨其如何利用语料库研究方法对研究对象进行量化分析。同时,本文也认为其所用的语料库研究方法存在有优缺点,提出要谨慎选择研究中具体所采用的方法,避免产生研究结果的偏差。

量化分析;语料库;误差

一、引言

在2009年第3期《北京化工大学学报(社会科学版)》上,北京协和医学院护理学院的王颖发表了题为“中国学习者英文写作中的高频介词研究——基于语料库的对比分析”的论文。作者王颖在该文摘要指出其研究采用基于语料库中的中介语的对比研究方法,结合定量分析与定性分析讨论,来考察本族语和学习者语料库中的15个常用介词的特点。本文将对该研究进行简单分析,特别讨论了其所采用的语料库研究方法的优缺点。

二、简述

1.研究目的

王颖在引言中首先阐述了介词的意义以及介词是中国学习者英语学习的难点,提出利用语料库(本族语语料库和中介语语料库)对此进行研究,找出英语为本族语者和中国学习者在介词使用上的差异,并探讨学习者超用(overuse)和少用(underuse)介词的原因以及在教学上的启示。

2.研究方法

王颖借助语料库索引软件AntConc3.1.302,对两个本族语者语料库Brown、LOB和一个学习者语料库CLEC进行检索和分析。她的研究比较突出的特别是在量化分析部分应用了语料库研究方法,再将得出的统计数据进行定性分析。下面将简述该研究所应用的研究工具、统计数值方法以及研究步骤。

3.研究工具

采用Anthony博士于2006年3月8日在网上发行的语料库检索软件 AntConc3.1.302中的两个子程序:(1)词频表Word List:用于生成15个常用英语介词在三个语料库的频次表;(2)关键词表Keyword List:用于生成对比学习者语料库和本族语者语料库是产生的超用和少用词汇表。

4.统计数值

采用了两种统计数值:百分比,或然率(Keyness)。文章举of为例:在CLEC里of的频数是23207,而整个语料库的总词次为1172732,其百分比为23207/1172732=1.98。作者认为或然率的绝对值越大,说明该次在两个语料库中的差异越大,正负号表示超用或少用,并且规定Keyness阈值在0.01显著水平上位16.4,就是说如果某一个介词在两个语料库对比中keyness的绝对值高于16.4,便认为学习者语料与本族者语料有显著差异,或超用或少用了该词。

5.研究步骤

在横向比较 15个常用介词在两个本族语者语料库Brown、LOB和学习者语料库CLEC的异同后,把 CLEC的五个语料库和 Brown进行对比,得出不同阶段的学习者对介词掌握情况的纵向比较结果。同时,利用桂诗春“学习者错误相关矩阵”将CLEC的五个语料库分成初、中、高三个等级,来考量学习者在不同阶段的介词使用情况。

6.分析结果

中国学习者与英语本族语者使用介词的总体频次没有显著差异;常用介词在两个本族语者语料库 Brown、LOB中的差别不明显,而对比学习者语料库CLEC,看到有些介词被超用了,如to, in, about,有些少用了,如of, as,with, by。

高级学习者的语料要比初级学习者的语料更接近本族语者语料;某些出现在初级学习者身上所存在的问题同样出现在中、高级学习者身上。文章最后分析了造成中国英语学习者超用和少用部分介词的原因,认为母语的干扰、汉语本身的语法以及其他诸如教师课堂用语、对固定搭配的忽视等等因素造成了部分介词超用和少用。

三、分析

王颖的论文在量化分析中所采用的语料库研究方法值得进一步探讨。首先,语料库选择带来的偏差。中国学习者语料库CLEC收集了包括中学生、大学英语4级和6级、专业英语低年级和高年级在内的5种学生的语料一百多万词,并对言语失误进行标注。该语料库注重的是对学习者言语失误的描述,那么通过某个词在这个语料库里的词频率与在本族语语料库Brown、LOB里的词频率进行对比而得出该词超用或少用的结论就值得怀疑了。某个词在CLEC的词频率和在 Brown、LOB里词频率一致或接近,也不能得出中国学习者就不存在超用或少用该词了。例如王颖论文提到 15个常用介词在CLEC里的总词频率10.43%和在Brown、LOB的总词频率12.18%、12.42%非常接近,但显然在CLEC里的词频率要低一些,可是不能轻易地下结论说中国英语学习者都少用了这15个常用介词,因为这15个介词每个在相应的语料库里都有着不同的词频率。另外,在通过 AntConc 3.1.302里的Word List程序生成某些词的词频表并不会剔除错用的情况,因而所得到的结果不能真实地说明某个词超用和少用。或者说要是让这些统计数据保有意义的话,至少要保证CLEC里的语料都不存在言语失误的。显然,这是不可能的。

统计方法不同所带来的偏差。以 in为例,在通过AntConc 3.1.302的Word List程序生成的词频表里,in属于超用的情况,而在通过AntConc 3.1.302的Keyword List程序以Brown为参考语料库得出的或然率表里,in却属于学习者语料库和本族语者语料库使用差别不明显的介词。

四、结语

从上面的讨论来看,我们发现偏重描述言语失误的中介语语料库和本族语语料库所进行的比较研究可以很生动地分析语料,但是在研究中具体所采取的方法需要谨慎考虑,避免给研究结果带来偏差。虽然王颖的论文在少用和超用介词方面的论证存在有些值得商榷的问题,但是所采用语料库的方法却也是很客观的、独到的。

[1] 王颖. 中国学习者英文写作中的高频介词研究——基于语料库的对比分析[J]. 北京化工大学学报(社会科学版),2009,3.

H0-0

A

1008-7427(2011)06-0097-01

2011-03-28

猜你喜欢
本族语王颖介词
A 4H-SiC trench MOSFET structure with wrap N-type pillar for low oxide field and enhanced switching performance
介词和介词短语
追本溯源刨根问底
Solitary Vortex Evolution in Two-Dimensional Harmonically Trapped Bose-Einstein Condensates∗
介词不能这样用
Research and development trend of intelligent clothing
《本族语和非本族语科技写作中的词块:语料库方法在语言教学中的应用》述评
英汉本族语者对中国英语学习者的口音感知及言语理解度的对比研究
看图填写介词
最容易发的音与最难发的音