如何利用语料库语言学方法研究学习者错误

2014-05-26 09:42陈鹤
文学教育 2014年2期
关键词:错误分析语料库错误

陈鹤

内容摘要:本文主要介绍了语料库语言学这一新兴学科以及如何在传统的语言学研究中将这两者结合起来。语料库语言学的特点是实证性研究,它基于真实的语料,用统计的方法对研究对象进行量化的概率计算。因此如果在传统的理论研究中结合这一方法,就可以得到定性定量的更科学的结论。

关键词:语料库 语料库语言学 错误分析 错误

一.语料库

语料库是按照一定的采样标准采集而来的、能够代表一种语言或者某语言的一种变体或文类的电子文本集。可以说,一个语料库由若干个电子文本构成,而这些电子文本作为一个整体可以代表某语言或者某语言的某种变体或文类。因此,以一个语料库为数据源进行的研究可以看作是对该语料库所代表语言、语言变体或文类的研究,研究所得到的结论可以推广到整个语言、语言变体或文类。

对于一个语料库来说,最高的目标是它的代表性。为了能够达到有代表性这个标准,在建设语料库的时候,要对需要研究的对象有个全局性的认识,只有当研究中所使用的语料库有代表性,得到的研究结果才具有代表性,才能够作为科学的结论被推广到整个语言、语言变体或文类。在语料库语言学中,抽样和总体之间的比例关系是非常复杂的,需要利用多种抽样检测的方法来确定语料库的代表性。因为假如我们通过对一个语料库进行研究得到的结果具有代表性的话,那么它一定适用于其他的抽样和其他的语料库。

由此,我们可以看到,并非任何随意收集的数据都可以称为语料库,要想通过语料库研究这种方法得到科学的结论,必须考虑到语料的收集标准以及语料库的代表性。如果在建设语料库的时候本身考虑偏颇,那么通过对该语料库所代表语言、语言变体或文类的研究,就无法推广到整个语言、语言变体或文类,那么这个研究就违背了语料库语言中的初衷,也就成为了失败的研究。

二.语料库语言学

在近现代语言学发展史中,哲学领域的理性主义与经验主义之争渗透到语言学研究的绝大部分领域,几乎贯穿于语言学发展史的全过程。理性主义认为,由于表象可能使人受到蒙蔽,所以通过感觉的观察而得来的经验常常是不可靠的,所以他们认为研究语言行为并不能揭示语言的本质,更能反映语言特征的应该是语言能力。由此可以看出,理性主义在研究中是不主张使用真实语料,与语料库语言学持对立的观点。而经验主义因为主张通过观察来了解外部世界,认为任何知识的获取必须通过观察得到,因此他们与语料库语言学持相同的观点,认为研究应该使用真实的语料。

在语言学界,针对语料库语言学一直持有模糊的态度。在一些研究者看来,语料库语言学是一个独立的学科,因为它有自己独到的理论体系和操作方法。由于语料库语言学立足于大量真实的语言数据,通过对这些数据进行观察,统计和概括,可以证实或质疑一些语言理论,这对于语言理论的建设具有无可比拟的创新意义。而在另一些研究者看来,语料库语言学并非语言学的又一个分支学科,在更大的程度上只是一种研究方法,这种方法基于大量的真实语言,得出科学的数据统计结果,可以回答通过其他途径很难回答的问题,从而丰富和补充了已有的研究方法。

语言学的研究对象是人类的语言,而在人类语言中存在着各种各样的变体,作为语言的母语使用者或者学习者,我们清楚地知道一门语言中既定的语法规则,但仍然很多时候还是会提出疑问,例如某种搭配是否存在,或者另外一种说法是否正确。语言学不会就这些问题给出正确或者错误这样的答案,它不是来评估一门语言,而是主要来区别符合和不符合一门语言规则的使用形式。但涉及到某种搭配在一门语言种使用情况的多少,单纯地依靠语言学系统理论就无法对此进行回答,这时候人们就必须具体地研究语言的使用情况,也就意味着必须借助于实证性的研究。

语料库语言学以大量采集而来的真实文本为研究素材,主要通过概率统计的方法得出结论,因此,我们可以说,语料库语言学在本质上讲是实证性的。也就是说,如果研究者涉及到语料库语言学,那么非常重要的部分就是对语言现象的观察和描述。但同时我们进行实证性的研究并不意味着我们完全抛弃理论研究,理论型的语言学家和实证型的语言学家之间的合作应该是双赢的结果。

语料库语言学研究的是语料库的建设、标注、评估。Lemnitzer对语料库语言学的界定是:语料库语言学是对自然语言,其组成部分,结构的描述以及通过对语料库中真实语料的分析所建立起来的理论。语料库语言学是一种科学活动,它必须遵循一定的科学原则,满足一定的科学要求。基于语料库的语言描述 可以为语言教学、语言资料汇编、词典编纂和机器语言处理等不同用途服务。

三.利用语料库语言学研究方法研究学习者错误

错误的种类有很多,对学习者语言进行的错误分析可以涉及到语言学的各个层面。对于过渡语中出现的错误现象的分类,不同的语言学家有不同的见解:Richards认为偏误有语际错误、语内错误和发展性错误。Corder根据偏误出现的系统性把错误分为以下三种:第一种是形成系统前的错误,这类错误主要出现在学习者并不知道在目标语中存在着相应的规则的情况下;第二种是系统性错误,主要出现在学习者已经发现了目标语中存在着某个规则,但没有把它正确地使用;第三种情况是形成系统后的偏误,出现在学习者知道正确的目标语规则,但不能总是正确使用。Dulay,Burt和Krashen从评价的角度,根据错误对交际产生的影响把偏误划分为全局性偏误和局部性偏误。James认为语言学习者的偏误常出现在3个语言层面:本体层面,文本层面和语篇层面。本体层面是指单词拼写,标点符号错误等,本文层面主要是本论文研究的词汇错误,以及语义,句法等方面出现的偏离目标语结构的错误,语篇层面则是上升到了篇章语言学的层次,主要是针对衔接连贯方面出现的问题。

很多语言学家曾建议对学习者错误的研究应该通过量化的方式,分组进行对比和分析。语料库语言学的研究方法是通过软件的标注和搜索功能,对语料进行实证性的研究,通过数据的展现直观地说明结论。对于语料的处理主要有三个阶段:标注、搜索和统计。在每一个阶段都使用不同的软件,本文推荐使用以下三个针对语料库语言学研究的软件,在网络上都可以免费下载使用。endprint

语料库标注是指利用各种标签对语料库中的文本的各种属性加以标记。标注的母的是为了方便开展不同目的的研究。经过标注的文本增加了很多对语言研究十分有价值的信息,对文本进行标注的价值正在于此。经过人工或者自动处理后,原来的文本会得到“增值”。在标注阶段使用的工具是Annotool,正如它的命名一样,它主要是负责标注的工具。它操作界面友好,支持.doc文档格式,只需要将语料库中.txt格式的文件在word文字编辑工具中打开就可以使用。在使用前将实证研究所需要的所有标注类别输入编辑页面,就可以显示在Annotool的工具条中,这样在对语料进行标注的过程中,就不用每次手动输入标注,而是直接点击Annotool中实现输入好的对应的标注,就可以添加到语料中。这样做的好处不仅节省了标注的时间,更是保证了标注的准确率。这样一来就不会因为重复手动输入标注而导致的错误,例如标点符号、字母代码等,能够尽可能地保证标准阶段的准确性,对搜索得到科学的结果打下基础。

标注的设计和研究的问题是紧密相关的,这样才能在之后搜索统计的时候得到准确的结果。对赋码设计的原则首先是简洁,用字母缩写和数字组成的代码方式;其次是全面,根据错误分析理论的预测,涵盖错误类型,即使某种错误出现的频率可能比较低,也要考虑到;最后是实用,有些错误类型是几乎不可能出现的,在设计标注的时候,就可以把这类情况排除在外,这样一来会减少很多不实用的标注,使得标注页面清晰明了,标注过程也少了很多干扰,能够保证标注标准的统一性,减少出现有歧义的情况。

搜索工具AntConc对已经利用标注Annotool加工过的语料进行搜索和统计。它的巨大优势在于能够高速地在庞大词次的语料库中快速地找到研究需要的信息,并且能够在词、字符串、词组、词块、搭配、标注这些不同的层面上进行检索、统计和对比。它的主要功能有七项,如下图操作界面的菜单栏所示:词频、词距、词的列举、词的常见搭配、词的固定搭配、所有词汇列表以及关键词汇列表。概括来说AntConc的基本功能主要有三项:1.能够快速找到某个词及其附近词的频率;2.能够快速找到所有词和所有词块的频率;3.能够快速找到所有词在另一个库中的频率差别。

在用搜索工具进行搜索对比后,还需要对统计结果进行t值的检验,以确保不同组数据之间的差异性是否真正存在。因为语料的长度和篇数都各自不同,因此各类错误的分布都不能只看它出现的次数来决定,而且取平均值进行对比也不是科学的统计方法。因此,在标注统计后,建议利用计算机统计软件SPSS对统计结果进行t值的检验,来看不同的分组之间是否存在明显的差异性。

语料库语言学的研究方法是实证性的,注重理论和实践的结合,一般来说分为三个步骤。首先是理论准备,思考一项研究需要解决的问题,寻找可以作为理论支持的语言学理论,特别要注意所要研究的问题和使用的理论在语料库中的操作性;其次是实践操作的部分,按照研究依据的理论,设计合理的标注,使用标注工具自动或者手动地对语料进行处理加工。标注完成后,再使用语料库索引工具对语料和标注进行检索、统计、归类和分析。最后是对研究结果的评估总结,通过研究结论的反馈,评估研究所用理论是否可以恰当地和语料库这种研究方法做结合,标注过程是否准确,所使用的标注工具和检索工具是否合适,得到的研究结果在多大程度上可以解决所提出的问题。只有应用到了这些步骤,才能在研究中更好地发挥语料库语言学这种研究方法的优势,在研究中得到更科学更合理的结论。

四.结束语

语料库语言学的优势在于,它在大量数据的基础上不仅研究一门语言本身的结构,同时也研究这门语言的使用。但同时它也要遵守一些基本的科学研究的前提,比如通过语料库语言学研究方法得到的结果必须是经得起检验。在语料库语言学的具体情况下也就是说,在一个语料库基础上得到的研究结果,可以适用于用另外的可比的语料库;或者当别的研究者利用同一个的语料库,他们得到的研究结果应该是一样的。只有这样,才能保证利用同一个语料库的不同角度和方向的科学研究有可比性。和其他语言学分支相比,语料库语言学更加地具有目的性,由语料库语言学得到的认知可以广泛地应用于翻译学,词典学和语言教学。

参考文献:

1.Lemnitzer,Lothar/Zinsmeister,eike

2006:Korpuslinguistik.eine Einführung. Tübingen.

2.Scherer, Carmen, 2006: Korpuslinguistik. Heidelberg.

3.Tognini-Bonelli, Elena, 2001, Corpus Linguistics at Work. Benjamins. Amsterdam

4.Lüdeling, Anke/Walter, Maik, 2009: Korpuslinguistik für Deutsch als Fremdsprache. Sprachvermittlung und Spracherwerbsforschung. In: HSK 19, Deutsch als Fremdsprache.

5.梁茂成/李文中/许家金,2010:《语料库应用教程》。外语教学与研究出版社。

6.梁镛/钱敏汝,1991:“专业语研究中的几个主要理论问题”。载:《国外语言学》。1991,第1期。34-40页。

(作者单位:北京外国语大学)endprint

猜你喜欢
错误分析语料库错误
在错误中成长
基于语料库翻译学的广告翻译平行语料库问题研究
运用语料库辅助高中英语写作
高中英语写作中的语法错误分析
大学英语学生作文语言错误分析研究
高一学生英语作文中词汇错误分析
有效提升学生数学解题能力的策略研究
“怒”与“努”
“浮”字等
语料库与译者培养探索