邵 斌
(浙江大学/浙江财经学院,杭州,310018)
语料库语言学研究业已渗透到语言研究和语言教学的方方面面。语料库语言学的“研究话题从词汇、语法和词典学扩展到语言教学、二语习得、翻译、自然语言处理、话语分析、认知语言乃至抽象的理论语言学问题探索等广泛的领域”(甄凤超2010:36)。另外,由于出现了许多网络语料库(Online Corpora),世界各地的语言研究者和学习者可以通过在线使用这些网络语料库开展各种形式的语言研究。
温蒂·安德森(Wendy Anderson)和约翰·考伯特(John Corbett)撰写的《运用网络语料库探索英语》一书于2009年由帕尔格雷夫·麦克米伦出版公司(Palgrave Macmillan)出版,是一本讲解网络语料库使用的入门教材。考伯特是苏格兰格拉斯哥大学的应用语言学教授,主持建设了“苏格兰英语语料库”(Scottish Corpus of Texts & Speech,简称SCOTS);另一作者安德森为该校讲师,是语料库中心的研究人员。该书详细展示了如何使用网络语料库来研究英语,涉及其词汇、语法、话语、语音、语境等各个层面。该书在语言上浅显易懂,以解决研究问题为目的,是网络语料库应用方面的一本入门好书。下面简单介绍其主要内容并予以评述。
第一章总体介绍了网络语料库。本书开宗明义提出:过去四十年来英语研究中最激动人心的事件便是大量的电子文本(即语料库)得以在计算机里存储并能通过软件快速处理,语料库的利用改变了语言研究的工作方式。接下来作者简单介绍了语料库的概念和性质,如代表性、规模、种类、标注和发展史。
之后,作者又介绍了五个常用的网络语料库,即英语国家语料库(British National Corpus,简称BNC)、当代美国英语语料库(Corpus of Contemporary American English,简称COCA)、时代周刊语料库(TIME Corpus)、密歇根大学英语学术口语语料库(Michigan Corpus of Academic Spoken English,简称MICASE)和“苏格兰英语语料库”。其中第二、三个语料库都由美国杨伯翰大学Mark Davies教授开发。此外,他还开发了BNC语料库对用户友好的界面,使之更适合语言研究。本书的数据主要基于上述这些网络语料库。
第二章谈如何解读语料库数据。本章目标有四:一是比较定量分析和定性分析的相对优势,二是解释相关的统计术语,三是介绍简单的统计工具,四是分析利用统计手段来进行文本分析的优势和劣势。作者认为定量分析和定性分析分属语言研究的两大阵营:语言的科学性和语言的人文性。前者注重语言经验证据,强调客观分析;后者看重个人洞察力和个人解读。与常人把语料库研究归于定量的科学研究不同,本书作者认为,“数据总需要分析”,“优秀的语料库语言学者同时需要能驾驭定性分析和定量分析”。这也是很多语料库语言学家的共同观点,比如Leech(2004:62)就认为语料库语言学绝不仅仅是收集资料和描述语料,而应包括三个不同层面的研究:语料收集、语言描述和理论构建。定性分析是理论建构层面上必不可少的一个部分。接下来作者谈了语料库的“代表性”问题,认为所有的统计分析都要基于“样本代表群体”这一原则。他们细致分析了几个重要的统计概念:平均值(mean)、标准差(standard deviation)、频数(frequency)、频数标准化(normalization of frequency)、互信息(Mutual Information)和关键词(key words)。此外还简单介绍了一些语料库工具软件,如WordSmith、Micro-OCP以及TAPoR等等。这一章的概述有详有略,既介绍了必要的统计概念,又点到为止,不至于让读者感到枯燥乏味或无所适从。
第三章介绍如何使用网络语料库开展词汇研究。作者认为与语言其他层面相比,词汇研究最适合使用语料库方法。一是词的概念较易把握,二是语料库无论是否经过标注都可用于词汇研究。作者简单介绍词形(word form)和词目(lemma)的区别后,展示了如何通过语料库索引行(concordance)获取词汇信息以及如何分析数据。之后作者把词置于词汇语法语境(lexico-grammatical environment)中进行研究,讨论了语料库中的固定表达、习语、搭配和类联接。例如,通过分析习语“What is sauce for the goose is sauce for the gander”的变体,展示了习语在具体语境中的变化;通过分析tangible和palpable这对近义词的搭配来探索其语义差异;通过分析“a matter of”的语法结构来探索类联接。作者还运用语料库进行了词汇的语义韵研究、词汇和文体以及词汇和语体之间关系的研究。
第四章介绍如何使用网络语料库开展语法研究。作者首先按照传统语法,把词类分成实词和虚词,然后通过语料库来分别研究实词和虚词。之后研究层面由词汇扩大到短语,如名词短语、介词短语、动词短语、形容词短语和副词短语。再由短语扩大到分句,主要探讨了四类不同的动词句式。语料库揭示了一些有趣的发现,如有些不及物动词可加宾语(“He sneezed himself back to life”中的sneeze一词即属此类用法),让读者耳目一新。作者还探讨了口语和书面语语法的异同,如口语中虚化动词(delexicalized verb)的使用。此外还探讨了正式和非正式的被动句(前者为be-passives,后者为get-passive)之间的微妙差异。
第五章介绍如何使用网络语料库研究话语。作者将“话语”限定为“句子层面之上的语言组织层面”。作者指出应用语料库研究话语尚处于初始阶段,并提出了两种研究方法选择,一种是下载语料库文本,然后进行“话语标注”(discourse tagging),另一种是以语言表面特征(比如词汇)为起点进行话语探索,而第二种较为可行。比如可以通过口语语料库检索ah和erm,从而分析其在话语中的不同功能。接下来作者把话语分为口语话语和书面语篇,并分别加以讨论。口语话语中讨论了“相邻对”(adjacency pairs)和语用意义,书面语篇中讨论了“衔接手段”,特别是连词衔接和实词衔接,最后还讨论了基于语料库的互文性研究。总之,这一章节提供了与传统话语研究方法形成互补的新方法,颇给人启发。
第六章介绍如何使用网络语料库研究语音。作者先介绍了带有语音标注的网络语料库,如除了上文介绍过的“密歇根大学英语学术口语语料库”和“苏格兰英语语料库”外,还有“英语口音语料库”(Speech Accent Archive)、“英国学术口语语料库”(The British Academic Spoken English corpus,简称BASE)、“作为第二语言应用的英语访谈语料库”(English Language Interview Corpus as a Second-Language Application,简称ELISA)等。接下来作者通过语料库分析了两个辅音个案,一个是词尾和辅音前的/r/的发音的地区差异,另一个是在苏格兰英语中loch等词中的/x/音的变化。在元音部分,作者利用“英语口音语料库”和“苏格兰英语语料库”探索了不同地区的元音发音,如单元音、双元音、音长和语调等方面的差异。
第七章探讨了语料库文本的语境化。作者首先区分了“上下文”(co-text)和“语境”(context),前者指的是被考察的某语言要素周围的语言材料,后者指影响语言使用的所有环境特征的总和,范围要大得多。作者指出语料库中的“元数据”(metadata)对语境研究至关重要。元数据以标签的形式存在,用于标识所有语料的信息,所以被称为“数据的数据”,如果把语料库比作“文本博物馆”,那么元数据则像是提供背景知识的标牌,其重要性由此可知。这一章的第二部分关注文本语境的具体方面,比如基于语言使用者的语言差异,如其年龄、地区、职业对其语言的影响,以及基于语域的语言变体,如因语场、语旨、语式不同而导致的语言使用的差异。
第八章为结论部分,作者对网络语料库在英语教学研究中的运用做了总结。作者认为语料库中大量的真实文本为英语教师提供了丰富的教学资源,无论是把英语作为母语、二语还是外语的语言教学者都能从中获益。特别是对把英语作为外语的教师而言,语料库的应用更为广泛。语料库可以作为一种课堂组织的模式而存在,教师分配一个交际任务给学生,学生在完任务的成过程中,可以和语料库数据相对照,然后寻找差异,从语料库中习得语言知识,这就是以过程为导向的课堂,和传统的以结果为导向的课堂截然不同,激发了学生学习的积极性。作者还进一步总结了基于语言使用的语料库语言学家和强调内省的理论语言学家的区别,前者关注语言使用,而后者关注语言能力,前者会问“这(语言现象)很有意思,但它是真实的吗?”后者会问“这是真实的,可这有意思吗?”作者指出,理想的语言学家是内省式和语料库语言学家的结合体。最后作者还展望了语料库语言学的未来,认为未来英语语料库可能会朝着以下的方向发展:大型的国家英语语料库、小型的特殊英语语料库、非标准英语语料库、世界英语语料库、平行语料库、历时语料库和多媒体语料库。
与目前常见的语料库语言学著作相比,本书颇具特色,如所阐释的话题较新颖,内容实用、可操作性强等等。
第一,话题新颖。涉及语料库研究的书籍很多,但笔者在亚马逊网上书店中以“online corpus(corpora)”作为主题词进行搜索,只搜索到该书,可见就“网络语料库”话题进行较为深入细致而又广泛的研究,在西方语言学界也尚不多见。此前语言研究所基于的语料库,如BROWN、LOB、ICE、Bank of English等,并不免费向公众开放,使得这些研究颇具“自说自话”之嫌。而网络语料库则弥补这一不足,书中着重推荐了5个网络语料库,在附录中还介绍了另外18个网络语料库,为语言研究者打开了研究英语语言的“方便之门”。此外,以往基于语料库的研究大多局限词汇和语法层面,本书则把语料库的应用范围扩大到话语、语境等较高的语言层面,并且也涉及语音和口音等以往较少研究的层面,颇有新意。
第二,读者友好。本书并不过多探讨语料库语言学的理论问题,而是借助网络语料库对英语语言开展了多个层面的分析。本书以解决实际问题为导向,在内容上以实用为目的,在写法上注重读者友好。作者在每一章节的开头都提出一系列问题,然后引领读者通过语料库去解决问题。在每一小节中,作者还设计了具体的操作任务,并置以方框内单独列出,然后指引着读者来完成操作,达到解决问题的目的。另外,作者在借助网络语料库分析每种语言现象时,如搭配和类联接,会提纲挈领地介绍该研究话题的定义和来龙去脉,帮助读者理解研究对象。因此,无论是内容还是写法,作者都注重读者友好。
第三,可操作性强。作者列举的每个任务、每个例证都是可以通过网络实现的。按照作者提供的网址和操作步骤,读者能按图索骥,寻找到类似的答案,因此本书的任务可操作性非常强,具有可重复性,这也有别于很多基于内部使用的语料库或自建语料库的研究。正因其可操作性强,读者会感觉到语料库是一种非常有用的手段,并且能够掌握这种研究手段。这给语料库初学者带来信心,激发了他们探索语言的好奇心,增强了他们语言学习的兴趣。
第四,立论公正。本书作者虽然强调语料库的价值,但也同时会不时指出语料库的不足之处。比如谈到语料库的代表性问题,作者指出“语料库只能肯定某种结构或用法的存在,也就是说,它无法告诉我们前人没说过或没写过的内容”。作者认为一个优秀的语料库语言学家应该将定量分析与定性分析结合起来,而且理想的语言学家应该是善于内省的语言学家(以乔姆斯基为代表)和语料库语言学家的结合体。可见作者强调语料库研究的重要性,但对于其他语言研究方法绝不忽视和排斥,不过分夸大语料库的作用,体现了作者兼收并蓄的思想。
当然,本书也有一些不足之处。由于两位作者都是“苏格兰英语语料库”的设计者,书中的很多例子都来源于该语料库,特别是涉及语音及语境研究的时候,而一般的以英语为外语的读者更关心的无疑是英国英语和美国英语的一些特征,而本书在这方面的探索则显得不够充分。此外,有些探索还不够深入,比如用语料库探索语法这一章节,作者就没有谈到基于语料库的语法化研究。
综上所述,本书是一本较为理想的网络语料库入门著作。当然,如果学习者对语料库语言学想有更系统的了解,在学完本书后,还需要选择几本全面介绍语料库语言学的著作进行研读。本书作者在每个章节后都提供了进一步阅读的书目,我们可以通过网络语料库这扇“方便之门”,继而走进语言研究的殿堂。
Leech, G. 2004. Recent grammatical change in English: Data, description, theory [A]. In K. Aijmer & B. Altenberg (eds).AdvancesinCorpusLinguistics[C]. Amsterdam: Rodopi. 61-81.
Liu Dilin. 2010. Is it a chief, main, major, primary, or principal concern? A corpus-based behavioral profile study of the near-synonyms [J].InternationalJournalofCorpusLinguistics15 (1): 56-87
甄凤超.2010.语料库语言学在中国的成长与发展[J].当代外语研究(3):36-41.