语料库语言学视角下的语块自动提取研究

2012-11-01 05:53石志亮

天津外国语大学学报 2012年6期

石志亮

（中原工学院外国语学院，河南郑州 450007）

一、引言

语块类似于词汇和语法之间的桥梁，是一个完整的词汇和语法单位，Wray（2002）认为，语块具有心理上的现实性、结构上的完整性和语义上的一致性。上述特点使得语块在交际中可以整存整取，减轻了交际者大脑处理的负担，节约语言处理的时间和精力，获得像本族语者一样的流利性，增加语言输出的准确性、流利性和地道性。近二十年来，随着认知语言学、心理语言学和构式语法理论的兴起，语块（lexical chunks）在二语产出过程中的重要作用日益凸显。语料库语言学的兴起为语块的研究开创了新的视角，近年来语块已经成为语言学研究和教学研究的一个热点，且研究视角呈现出多元化趋势。本文主要从语料库语言学的角度对语块的提取方式进行论述，以此来深化我们对语块这一语言现象的理解。

二、语块的界定与特征

目前语块的研究呈现出三种视角：语法学、语料库语言学和心理语言学。由于覆盖范围及研究重点不同，这三种视角对语块的定义表述不一。语法学家将其看作“充当句子成分、具有句法功能的词的组合”；语料库语言学家更多地“关注那些出现频率超过提取频点的重现词丛，而忽略其地道性和结构特征”；心理语言学家则认为，语块是“一串预制的连贯或不连贯的词或其他意义单位，整体存储于记忆中，使用时直接提取，无需经过语法生成和分析”（Wray，2002：9）。这就是语块储存和提取的整体性（即心理现实性）。词的组合能否作为整体被储存和提取是决定词的组合是否为语块的重要指标。

由此可见，人们尚未对语块给出一致的明确定义，国外创造和使用的术语多达57个，如formulaic sequence, chunk, lexical chunk,prefabricated chunk, collocation, colligation,N-gram等，国内对它的翻译也是名称繁多，尚无定论。中国期刊全文数据库文史哲辑专栏目录（1997-2011）检索的结果为：语块、组块、套语、多词单位、预制语块、搭配、习语、成语、惯用语、类联结等，如此大量的术语说明了语块研究的重要意义和语块现象的多面性和复杂性（段士平，2008）。简单地说，语块是真实言语交际中以高频率出现的大于单个单词的整体的多词单位。基于语法学、语料库语言学和心理语言学三个视角的研究发现，语块具有心理现实性和结构上的连续与非连续性特征。

1 语块的心理现实性

语块是心理学概念组块（chunking）的结果，组块就是记忆对信息的加工过程，也就是把单个信息组成更多的信息单位。心理学家通过分析短时记忆与长时记忆的差别，发现语块具有组块效应，对记忆及语言学习至关重要。心理学家Miller的研究表明，短时记忆所能加工与处理的信息容量非常有限，其容量大约为5～9个组块或者有意义的信息单元（Miller，1956）。长时记忆中加工与存储的信息容量巨大，以语义方式进行编码与储存，信息储存的时间长，甚至可以保持永久。Simon（1974）的研究也验证了Miller的短时记忆容量的观点，认为语块是人类记忆的基本单位。因此，人们可以通过加强语块内部信息单位之间的意义联系来扩大短时记忆的容量，重新编码后的信息单位变为有意义的语块即可进入长时记忆，以语块的形式整体储存、整体提取，这就是语块的组块效应，即心理现实性。McClelland的连通理论发现，人类大脑中无数的节点及其相互之间的连接构成了一个巨大的网络，知识就储存在这些联结线上，联结的强度决定知识掌握的程度（陈万会，2008）。由于语块中各个组成部分共现的频率较高，所以它们之间的联结会不断增强。语言输出时，语块更容易从心理词库中提取出来,使交际变得流畅、高效。因此，Wray（2002）认为，词块是指出现频率高、作为整体储存和使用的词语程式。二语习得研究也表明，语言学习是通过规则学习和范例学习两种途径发展的，后者就是预制语块的构建（Skehan，1998 ：49）。

2 语块的结构特征

语块从结构上可分为四类（Nattinger &DeCarrico，1992：33）：多元词语块（polywords）、习俗语语块（institutionalized expressions）、短语架构语块（phrasal constraints）、句子构建语块（sentence builders）。Lewis（1993）从结构和功能上把语块分为四种情况：聚合词，指具有习语性质的固定词组，比如on the one hand，on the other hand；搭配词，指共现频率很高的词语，如动词+名词、形容词+名词搭配，如put forward a suggestion；惯用话语，指形式固定或半固定的具有语用功能的单词组合，如If I were you；句子构架和引语，这一类仅指书面语词汇，如firstly... and finally。此外，还可以按照语块成分间连续情况将其分为：连续性、固定语块，如once upon a time, on the other hand等；非连续性可变语块，如firstly...and finally，it occurred to sb.to do...基于语块的心理现实性和结构方面的特征并结合语料库研究的方法，本文把语块界定为：以整体形式储存在大脑中，并可作为预制组块供人们提取使用的多词单位，这就把名称为语块、搭配、类联结和预制语块等多词单位统统包括在内。也就是说，语块的概念模糊了原有的词汇搭配之间的界限，它不仅包括多词的搭配、句子框架，还可以扩大到句子甚至语篇。

三、语料库语言学视角下的语块提取

要研究语块，首先必须快速识别和提取语块，目前主要通过机器自动识别和人工多方验证两种方式。人工识别主观性强，速度太慢。语块提取的经典方法是基于语料库的方法，这是语料库语言学和自然语言结合的产物。语料库的优势在于能快速检索和统计大量语料，注重频数信息是语料库方法的一个显著特征。事实上，现有的从大规模语料库中自动提取语块的方法多是以统计为主，辅之以词性、句法等语言学规则（谢家成，2008）。随着人们对语块认识的深入，语料库的方法也不断改进。语料库除了通过检索行凸显搭配外，还可实现搭配的自动提取在自然语言处理领域，语言检索的工具和技术进展很快。语块识别的技术也从人工识别进入了机器识别。语块检索技术的起点是从语料库中提取连续的、固定的词串，经过几年的发展，已可以提取非连续的可变语块。

语块提取软件

上表为六个语块提取软件的概貌，下文主要从以下三个方面对语块提取软件进行分项阐述：语块提取软件的运行方式与收费情况，语块的提取方式，即有无既定的中心词及语块的种类。

1 语块提取软件的运行方式与收费情况

软件的运行方式主要分为单机运行和在线运行两种方式，一般情况下单机运行的软件多为收费的商业软件，功能也较全面，如Wordsmith Tools，在线运行的软件多为免费软件，功能相对单一，如N-Gram Phrase Extractor，Sketch Engine，Concgram。AntConc是免费的，功能强大，界面友好，支持正则表达式检索等因素，国内研究者多倾向于使用它，目前是语料库检索的主流软件。

2 语块的提取方式

语料库提取语块可分为基于既定中心词和无既定中心词两种情况，本文将《新概念英语3》全部60篇文章作为检索语料，以AntConc软件为例进行语块提取的演示。

2.1 基于既定中心词的连续语块提取

以既定中心词possible为例提取《新概念英语3》中相关的连续语块。第一步，通过点击菜单栏File下拉菜单中的Open File（s）, 导入要提取的语料《新概念英语3》，再点击软件主界面上方的Clusters（词丛）按钮，然后在主界面下方的Search Term（搜索输入框）中输入检索词possible。第二步，设置Cluster Size, 通常提取的语块长度范围为2～6个词。由于不同长度的语块重叠，因此语块的边界的确定也是困扰研究者的一个问题。我们可以采取从长到短的顺序提取语块，并依次屏蔽已经提取的语块，这样可以最大限度地避免语块重叠问题。本文中语块长度范围设置，最小为4，最大也为4, 表示要提取包含检索词在内的4词短语。第三步，设置Min. Cluster Frequency（出现的最小频数）为默认值1，设置Sort by为Sort by Fre （按频率显示）。第四步，点击Start即可提取出包含possible在内的所有连续4词语块来。语块提取结果如下：

2.2 无既定中心词的连续语块提取

如果需要了解某篇文章中的语块总体使用情况，可以如下操作：第一步，导入要提取的语料《新概念英语3》，点击主界面上方的Clusters按钮，勾选主界面下方的N-grams（N元结构）；第二步，设置N-gram Size, 一般设置Min. Size 为2, Max. Size为6。本文把二者皆设置为4；第三步，设置Min. Cluster Frequency为默认值1，设置Sort by为Sort by Fre；第四步，点击Start即可提取出语料中的所有连续的4词语块来。语块提取结果如下：

以这种方式提取的语块多是基于词形的外在物理毗邻进行人为切分，统计共现频数，忽视了词语序列的内部黏着力。因此，提取的数据中含有大量结构不完整、语义不清晰的强干扰序列，识别的准确率稍低，还需人工运用语言学知识进行筛选，但是这种机切语块往往能凸显容易被忽略的语言适用范式（何安平，2011；林维燕，2011）。

3 语块的种类

根据语块的结构，可以将其分为连续性和非连续性语块。连续性语块的提取较为容易，非连续语块的提取方法相对比较复杂。这种检索主要是围绕某个既定中心词提取其相关的搭配模式，一次检索只能针对一组词语。可以利用Wordsmith工具中的Concordance检索工具中Context word语境词功能，也可运用ConcGram（框合结构）或Sketch Engine进行检索。下文仍以AntConc软件为例，检索in...of构成的非连续语块在新概念英语第三册中出现的情况。

第一步，导入要提取的语料《新概念英语3》，在软件主界面下方的Search Term中输入in; 第二步，点击其右侧的Advanced（高级），在随后弹出的界面上勾选Use Contexts Words and Horizons（使用语境词和设置语境词左右范围），在Contexts Words（语境词）框中输入of，点击Add，接着把Context Horizon（语境词左右范围）设置成From2R to 4R（右2至右4），表示of必须出现在检索词in 右边的第二到第四的位置上；第三步，点击Apply，自动回到主界面，再点击Start即可提取出在in...of 这个短语框架下的所有的非连续性语块。语块提取结果如下：

从上面的检索结果可以看出，AntConc的局限性在于它只能检索既定中心词之间的单向搭配，即“in在前，of在后”的这个方向的搭配，而不能检索“of在前，in在后”的反向搭配的语块。ConcGram（框合结构）可以克服AntConc的这一局限性，检索由多个中心词构成的非连续语块，且不考虑这些词的先后顺序（即任意方向的强搭配）。ConcGram的具体操作步骤详见詹宏伟（2011）的《语料库中语块提取的工具与方法》，在此不再赘述。

四、结语

综上所述，语块是语言中高频共现的多词组合。在结构特征上，可以分为连续和非连续两类；在语块提取的方式上，又可分为基于既定中心词和无既定中心词两种情况。并且语块具有整存整取的心理现实性和统计上的显著性。因此，语块的提取应充分考虑上述特征。基于语料库自动提取出的大量语块，虽然频率较高，但不一定都具有心理现实性，尚需结合心理语言学的相关知识进行人工筛选。因此，我们相信心理语言学与语料库语言学两大研究视角的融合，将更能够实现二者的优势互补，达到人工筛选和自动识别的高度弥合，加深人们对语块这一语言现象的认识，提高语块研究的效率和深度。

[1]Lewis, M. The Lexical Approach[M]. Hove: Language Teaching Publications, 1993.

[2]Miller, G. a.The Magical Number of Seven, Plus or Minus Two: Some Limits on Our Capacity for Processing Information[J].Psychological Review,1956,(63).

[3]Nattinger, J & J. DeCarrico. Lexical Phrases and Language Teaching[M]. Oxford: Oxford University Press, 1992.

[4]Simon, H. a.How Big Is a Chunk? [J].Science, 1974, (183).

[5]Skehan, P. A Cognitive Approach to Language Learning[M]. Oxford: Oxford University Press, 1998.

[6]Wray, a.Formulaic Language and the Lexicon[M]. Cambridge: Cambridge University Press,2002.

[7]陈万会. 词块的心理现实性及其特征[J]. 外语学刊,2008,(6).

[8]段士平. 国内二语语块教学研究述评[J]. 中国外语,2008,(4).

[9]何安平. 短语理论视角下的英语教师课堂话语探究[J]. 外语教学理论与实践,2011,(3).

[10]林维燕. 机切语块立场标识特性的理论与实证研究[J]. 中国外语,2011,(5).

[11]谢家成. 搭配的多视角透视[J]. 解放军外国语学院学报,2008,(2).

[12]詹宏伟. 语料库中语块提取的工具与方法[J]. 外语教学,2011,(2).