语料库词典学的最新发展和未来趋势（上）

2009-07-31 08:52ＭｉｃｈａｅｌＲｕｎｄｅｌｌ夏立新

辞书研究 2009年3期

Ｍｉｃｈａｅｌ　Ｒｕｎｄｅｌｌ　夏立新

摘要本文首先回顾了词典编纂中语料库(包括学习者语料库)的使用现状，指出除了少数词典以外，大多数词典对语料库数据的使用都是隐性的，而非显性的。在此基础上分析和总结了语料库数据显性应用的可能方式和途径，如词频、搭配等语料库数据在词典中的新应用。最后，预测了语料库在词典学领域的应用和发展趋势。

关键词语料库词典学学习者语料库语料库显性应用词典学

一、引言

词典编纂是一个复杂的过程，但从本质上看该过程可分为四阶段：

(1)决定词典的目标用户与词典的使用方式；

(2)收集语料；

(3)分析语料；

(4)根据上述三个阶段的研究结果，编写词典文本。

第一个阶段至关重要，但是相对来说比较容易做。然而，剩下的三个阶段一直以来都是一块非常难啃的硬骨头，使得词典编纂成为一项耗资巨大的苦差事。出于多种原因，近来第二和第三两个阶段变得容易了许多。计算机技术的发展、语言工程界的最新研究，以及词典编纂者与计算语言学家的密切合作为词典语料的收集和词典编纂带来了一场革命。如今，我们可以在很短的时间内、用较少的资金建成大型的语言数据库，并可以用非常先进的方法对数据库中的数据进行有效的分析。

让我们先来看一下词典语料的收集。在过去几百年间，这项工作意味着要通过艰苦的“阅读与标记”过程从文本中收集引例。例如，《牛津英语词典》(Ox ford English Dictionary)的第一版和第二版(1928年版和1989年版)就是根据几百万张语料卡片上所记录的引例编纂而成的，每张卡片上都有一段简短的引文，标示语词的使用情况。这些引例是大批志愿读者从19世纪60年代开始用几十年的时间收集起来的，它们具有极大的语言学价值。然而，其中大部分工作如今都可以用计算机来完成，需要人工做的部分已经很少。到20世纪末，这种收集语料的方法已经在很大程度上被电子语料库——一种存储在计算机中的文本集所取代。但是，这是一个渐进的过程。从第一个英语语料库

20世纪60年代建立的拥有一百万词的布朗语料库到约翰·辛克莱(John Sinclair)在伯明翰建立的大型语料库之间相隔了二十年。只要读一读早期语料库建设者的记述(Kuecera and Francis 1967，Renouf 1987)，我们就知道这需要怎样艰辛的努力。即使是像BNC(英国国家语料库)这样比较“成熟”的语料库，也花了三年多的时间才建成。该语料库建于上世纪90年代初，由多家词典出版社和学术机构合作建设，耗资达数百万英镑。

如今，情况已大不相同。因特网的出现以及网页文本定位、提取和处理等软件工具的开发给语料库带来了第二次革命。这些技术使我们能够用较少的投资快速地建设比“传统”方式所能收集到的任何语料集都大得多的语料库。英国的词典编纂者通常可使用收词达20亿的各种英语语料库(Baroni et al.2006，Sharoff 2006)，不仅如此，他们还拥有现成的或正在开发的汉语、日语、阿拉伯语、大部分欧洲语言语料库和其他类似的资源。拥有了庞大的语料库资源后，我们就可以轻松地、准确地确定语词的使用频率或语言特征。相比之下，让齐普夫(G.K.Zipf)得出其著名齐普夫定律的词频表，则是他经过多年艰辛的收集才编辑而成的。

词典编纂过程的第三个阶段——分析语言数据的工作也经历了类似的变化。传统的做法是，词典编纂者将在第二阶段所收集的引例卡片进行分类、比较和反复推敲，直到从中得出语词意义和用法的明显证据。詹姆斯·默里(James Murray)的孙女在其著述(Murray 1977：chapter X)中给我们生动地描绘了这一艰辛的工作需要怎样巨大的耐心和韧性。在前计算机时代，语文学者可以利用的另外一个工具是“语词索引表”。“语词索引表”原先是文本中每个语词的索引(尤其是宗教典籍或经典文献)，表中给出所有语词每次在文本中出现的位置。想到过去建成这类资源要投入数年的辛勤劳作，而如今同样的工作只需短短几秒钟就能完成，真令人感慨不已。过去与现在相比，的确有天壤之别：在收集词条的语料时，如今的词典编纂者能够在几秒钟之内在几十亿词的语料库中进行各种复杂的检索。

虽然近年来语言数据的收集和分析变容易了许多，但是，词典编纂过程的最后一个阶段一一编写准确反映可观察的语言行为和适应目标用户需求的词典文本——仍然是一项需要大量(人工)编辑工作的艰巨任务。这就引发了下面的问题：语言科技到底能带我们走多远?既然如今已经不会发生语料不足的情况，并且语言分析的过程也简约高效，那么，词典学界和语言工程界的合作能使我们距离在某种程度上自动生成词典这个目标越来越近了吗?早在1987年，约翰·辛克莱就预见到计算能力和计算技术可能的发展轨道。他甚至还说过“一种完全自动生成的词典正处于设计阶段”。然而，二十年后，这个自动生成词典的梦想仍没有实现——但是，它当然也没有从议事日程中去掉。在下文介绍上述变化对教学型词典产生影响的各种方式时，它将是其中所讨论的问题之一。

二、语料库的影响

1980年可视为语料库词典学的“零年”，这一点显而易见(并且相当准确)。正是在这一年COBUILD项目正式启动，由此所编纂出的词典——第一部以语料库为基础的英语词典于1987年问世。这给全球英语词典的编纂带来了根本性的变革。短短十年之内，所有主要的英语学习词典出版社都把语料库作为其首要的语料来源。双语词典[例如《牛津一阿歇特英法词典》(Ox ford-Hachette English—French Dictionary)]和以本族语者为目标用户的单语词典(例如《牛津英语词典》)都很快跟进，因此，现在在编写英语词典(或者在英国出版双语词典)时几乎没有不利用语料库的。

使用语料库编纂词典的好处已有多篇文献做过记述(Sinclair 1987，Rundell 1998)，但是直到近年来，词典呈现从语料库中所获得信息的方式大多数都是隐性的，而非显性的。“隐性”呈现方式是指，对语料库数据的分析将帮助词典编纂者对一些编纂问题做出决策，如词义(某一语词有多少义项)、片语(哪些短语或搭配值得凸显)、句法特征(哪些句法结构需要收入词典中)等等。同样，从语料库中所获得的词频信息为词典编纂者决定选词立目和义项排序(例如，哪个义项该排在前面)等决策提供了依据。最后，对学习者语料库的分析使我们在词典中凸显学习者可能感到困难的某些用法，或者用用法说明来解释学习者时常混淆的语词差异。例如，我们从学习者语料库数据中得知information一词经常用作可数名词，于是，在词典中就给出一个类似下面《剑桥高阶学习词典》(Cambridge Advanced Learners Dictionary)中的警示说明，以帮助学习者纠正

这一错误印象。

但是，在上面所有这些隐性呈现方式中，只有词典编纂者能够看到从语料库中所获得的信息，最终的词典使用者却无法看到。在这种呈现方式下，词典编纂者的任务就是以简洁有效的方式为词典使用者呈现一系列有关语词特征的信息，而这些信息就是通过对语料库中的数据进行大量分析后得出的。实际上，词典使用者在词典中看见的不过是二手数据，是巨大冰山的一角。总的来说，这是一个理智的做法：普通的词典使用者——他们一般是为某个语言问题快速寻求一个答案——既没有时间也不愿意(通常也没有必要的技能)费力在一堆原始语言数据中寻求答案。但是新科技给词典编纂者提供了让词典使用者直接使用语料库信息的机会。

最能证明这一点的就是例证的呈现方式。在早期的学习词典里，例证都是词典编纂者自己杜撰的，为了在一句话里阐释几个不同的语言点，他们常常要精心编造例证。语料库的出现使词典编纂者直接使用语料库中的真实句子作为例证成为可能。第一部COBUILD词典开创了这方面的先河，它大胆地采用从语料库中选取的、未经过任何修改的句子作为例证来阐示语词的用法——这可能是首部向词典使用者提供显性语料库信息的词典。COBUILD词典的做法并没有获得一致认可(Haussman&Gorbahn 1989)，后来，词典学界还对使用未加修改的真实例证的优点(和缺点)进行了一场激烈的辩论。现在，虽然仍然可以听到不同的意见，但大家已理智地达成共识：如果例证不通俗易懂，那就不能起到有效的示例作用；此外，直接选自语料库的未加修改的例证并不总能(甚至经常不能)满足普通词典使用者的需求。然而，我们稍后会了解到，实际上我们完全可以做到鱼和熊掌兼得：既能提供以教学为目的、充分反映语料库中语词用法的例证，同时又能让词典使用者直接接触到大量未经修改的语料库中的原句。

然而，在这场关于例证来源和真实性的辩论中，我们很容易忽视语料库对词典学发展最为重要的贡献。虽然对词典编纂者来说，例证是他们可以使用的、看得见的语料库数据，但是，语料库的真正价值在于它为词典编纂者分析语词意义与用法提供了不可或缺的原始数据。这一点表现在两个层面：具体层面和系统层面。

在具体层面上，即单个词条层面，我们如今能够非常精确地描述语词的意义，如果没有大量的语言数据支持，这是完全不可能的。像《朗文英语联想活用词典》(Longman Language Activator)(1993)这类以辨析近义词为主要目标的词典在前语料库时代是根本不可能做到的。例如，该词典的动词bump off词条就清楚地给出了该词的语义和文体特征，这些特征把它和其他动词，例如murder和do away with区别开来：

bump off an informal word meaning to kill someone or arrange for them to be killed, especially because they know about things you have donewrong，or are dangerous to you杀死，谋杀：杀死某人或预谋让某人被杀的非正式词汇，尤其是因为他们知道你所做的错事或对你构成危险。早期的词典是不会详细到这个地步的，就像该词条在《牛津高阶学习词典》(Ox ford Advanced Learner's Dictionary)(1989)第四版中所示的那样：

bump oFf(sl)kill or murder sb(俚)杀死某人；谋杀某人

在系统层面，语料库的影响更为深远：它让我们重新认识语言使用的规律。根据我们对语言使用进行考察后所获得的发现，许多构成传统词典学基石的观点都得重新评估。例如，传统词典学认为，单个语词是意义的自主载体；语词可以拥有一定数量的、相互排斥的独立“义项”。但在大量的语言证据面前，这些观点看起来越来越不合情理。不断出现的语言使用模式(约翰·辛克莱首先对此进行了研究，并称其为“习语性原则”)促使我们重新去思考词典描述语言的方式。正如帕特里克·汉克斯(Patrick Hanks)所指出的那样：“约翰·辛克莱并不仅仅是一位词典学家……他还深入研究语词的使用，以便阐明语言使用的规律。”辛克莱和其他语料库语言学家的新见解给我们展示了意义和使用之间的密切联系。这导致词典的组织方式发生了巨大的变化，词典更加重视片语和词汇单位的处理，而不是单个的语词。举一个简单的例子，让我们想一想词典是如何帮助使用者理解“I said 1 would have a think about it and give my decision tomorrow.”这句话的。在传统词典中，我们将发现以下解释：

think²noun [singular]an act of thinking[单数]想；思考；思想接着，词典编纂者希望读者用词典所给的释义替换原句中的词目词，并成功地理解这句话的意义。但是，所有的数据都显示，无论用“名词”这一术语的哪个意义来解释上句中的“think”，它都不是通常意义上的名词，相反，它总是出现在固定表达式“have a think about”中。因此，基于语料库的词典将不收录或解释那些罕见的、边缘的用法，而着重解释反复出现的多词单位。语料库数据不仅使词典编纂者能够在许多方面比以前做得更好，而且促使我们重新思索词典编纂的本质。我们目前也许只是初步利用了语料库发展所带来的那些附带成果，因此，罗斯蒙德·穆恩(Rosamund Moon)预测将来会出现“一种新型的词典，在这种词典中，正字单词不过是检索途径而已，同时，词典将给出上下文，以便确定其意义”。

(未完待续)