语料库数据化发展趋势及词典学意义

2016-01-06 23:18章宜华
辞书研究 2015年5期

摘要 语料库对词典学的价值已得到辞书界的普遍认可,但传统大规模语料库由于缺乏必要的标注,与词典微观结构项之间的相关性不足,这使得它对词典学研究和词典编纂的贡献受到很大的制约。文章从词汇知识库和数据库的建设特点入手,探讨它与词典学的相关性及其在规模、速度和信息量等方面的局限;最后以COCA为例,从语料库的标注、语料库的索引、语料的智能化检索和显示等方面探讨语料库的数据化特征及其词典学意义。

关键词 词汇知识库 词汇数据库 语料库数据化 语料库与词典编纂

在语料库发展的初期,人们对语料的评价和期望都十分高,似乎有了语料库,词典的一切问题都解决了:释义和义项划分有了依据、例证的采集可以变得轻松、词典的编纂效率可以大大提高等等。人们的主要精力是要把语料库做大,觉得大到一定程度就可以覆盖和解决词典编纂的一切语言问题了。所以,语料库迅速从百万级到千万级,最后柯林斯的“Bank of English”在20世纪80年代就达到空前的近5亿词。这时,词典编纂者突然发现,在使用这些大规模语料库时,随便输入一个词查询就会产生成千上万的索引行,显示界面会把这个词的各种用法实例都一股脑呈现出来。面对海量语料,词典编纂者往往无从下手,只能逐条浏览;这会大大增加其工作量,影响词典编纂的进度。因此,西方语言学家和词典学家早在20世纪七八十年代就开始了语料的数据化加工,取得了一系列的成果。下面就语料数据化及其词典学意义做一探讨。

一、词汇知识库的建设

词汇知识库(knowledge base)是为了特定目的,根据一定应用领域的要求、背景特征、属性特征和使用特征等构建的模块化的语言知识集合,系统地满足用户某方面的知识需求。自20世纪70年代开始,美国学者就开始设想建立能进行自动语义描述的大规模词库,并在20世纪80年代中期付诸实践,我国的专家在20世纪90年代以后也进行了这方面的尝试。现在,为人熟知的词库有词网(WordNet)、 智网(MindNet)、框架网(FrameNet)、动词网(VerbNet)、命题库(PropBank),以及国内的知网(HowNet)和综合知识库(CLKB)等,分别用于句法分析、语义分析和自然语言处理或理解等,当然也可以用于词典学研究和词典编纂。

这些词库的建设并没有受当时主流语言学重语言能力(competence)轻语言应用(performance)学术思潮的影响,而是从语言实例(语料)入手,通过自下而上的方式对语言的属性进行描写,如句法模式、题元角色、概念结构等语言规则和语义关系等。譬如,词网使用同义词集合(synsets)来表征词汇概念,在词的形式和意义之间建立起映射关系,把名词、动词、形容词和副词归入认知同义集合(sets of cognitive synonyms),每一集合表示一个不同的概念;同义集合之间通过概念—语义和词汇系统关系相互联系起来(Miller 1990;Lin Dekang 1998)。智网利用微软的一个广域自然语言分析器(broadcoverage parser)自动分析词典释义和例证文本而获得词汇语言知识,涉及24种关系,包括共同施事、拥有者、深层宾语、深层主语、领域、材料、来源、目标、原因、意图、方式、方法、同义等(Richardson et al. 1998)。框架网是基于Fillmore框架语义学、借助词典释义和语料建成的知识库,它利用“框架”和框架元素来解释词的结构模式和语义角色,表征词汇之间的共现特征和相互关系,语义结构就蕴涵在这种关系中。有了这些语言资源,研究者就可以设计机器学习算法,构建语义角色标签的自动标注系统,从而实现句子语义结构的自动识别,为各类精细的语言工程应用服务(Fillmore et al. 2001;Fillmore 2003;Ruppenhofer et al. 2010 )。这些词库对于认知词典用户的内在知识结构、按用户的知识特点设置微观结构信息项及其组织方式有很好的借鉴作用,它们并不是为词典编纂而建的,能直接用于词典编纂的词汇信息并不多。因此,一些语言学家和词典学家尝试建立能用于词典编纂的通用词汇数据库。

二、词汇数据库的建设

词汇数据库(database)指的是把从语言实例(语料库)中提取的词汇语言属性,如形态、句法、搭配、语义和用法等各种基本信息按一定格式以多元子集的方式储存在一起,以满足用户对共享词汇语言数据的需求。数据库一般是由字段(field)、记录(record)和文件(file)构成。在库中,人们把字段定义为能反映词目某一语言特征的简单数据项,记录是能反映词目某一类语言属性的、有特定指向或归宿的复杂数据项,而文件则是某一类词典微观数据项的集合。这样,单一词目(lemma)的拼写、读音、词类、屈折变化、句法、搭配、释义、例证,以及与其他词项的各种关联或关系以及多媒体信息都可以字段和记录等形式存储在库中,以便在词典编纂时按需调取。为了词汇数据库的建设,西方词典学家构建了语料库模式分析(Corpus Pattern Analysis,以下简称CPA)理论(Hanks & Pustejovsky 2005;Hanks 2010)及语料索引和数据提取工具——词汇速描引擎(Word Sketch Engine)(Kilgarriff & Tugwell 2001;Kilgarriff et al. 2014)。前者以“常态与拓展”(Norms and Exploitations)(Hanks 1994,2013)理论为基础构建了语料模式分析的原则和方法,主要是通过语料分析提取语词使用的横聚合原型模式;后者是模式分析中的语料索引和有效数据的提取工具。

CPA理论认为,名词和动词的模式是不同的,名词的模式隐含在语料库中的一些反复使用的“经典”语句的共现结构中,而动词的模式不但要看其基本论元结构或配价结构,还要看其次配价特征(subvalency features),即一个语义角色有无其他修饰成分。譬如,“take place”与“take his place”的意思显然是不一样的。这就需要有特定的算法统计和分析它们的相关性,还需要人工干预来区别习语性搭配和一般搭配的语义特点。显然,CPA不是解释孤立的单词意义,而是解释语词与原型构式或句型模式(pattern)相关的意义,而且最近的标注方式和成分凸显与最初的方案相比有了很大的改进。譬如动词“grind”条目(见图1)共有13个模式和语义结构(包括短语和习语),241个用法实例,其重点是揭示动词事件行为参与者,并以论元结构和配价结构的形式表征出来。如施动者为“Device/设备或Human/人”:Device=Mill/磨房,且由“Human”操作来磨碎“Stuff/东西”;受事“Stuff/东西”= “Grain/粮食或Coffee Beans/咖啡豆或Raw Material/原材料”;方式是“Slowly/慢慢地;Systematically/有条理地;between a stationary stone and a rotating stone,or in some other similar device在固定和转动的石头之间,或同类设备中”;成事为“Food/食物= Flour/面粉、Coffee/咖啡,或Stuff/东西 = Cement/水泥”。注意,数据库把语义作为一种“隐含”(implicature)潜值来表达,即“如果某设备或某人Grinds某东西或食品,就是该人操作磨房把粮食、咖啡豆或原材料在固定与转动的石头之间慢而渐进地磨碎”。这样,通过论元结构把被释义词的句法、语义和使用搭配成分都在一个平台上表征出来,既有释义的抽象性、原型性,又有语用的具体性,加上200多个各种用法实例把被释义词的语义潜势系统地表征出来,这为语言学习或教学,以及词典编纂者提供了很好的、可靠的建设性参考信息。

该数据库拟对5602个动词进行数据处理,截至2015年5月,已经处理1275个,正在处理的有384个[1]。因此,目前的实际应用价值还很有限。

另一词汇数据库是由英国词典学培训公司(Lexicography MasterClass Ltd)创建的DANTE数据库,其设计目的就是为词典编纂和计算语言学(包括计算机词库)研究而服务。该数据库收录了9.45万个词和短语,对词的义项划分和语言属性描写都很细致,包含40个数据类型,以及词目类型、拼写变体、屈折变化、句法模式、搭配结构、翻译对等词、语用说明、语法说明和功能说明等内容,并配有丰富的例证,对词典编纂有很好的参考作用。相关的信息结构和数据结构已另文发表(章宜华 2012),这里不再赘述。

三、语料库数据化开发

虽然数据库目的性和实用性更强,但需要大量人力物力的投入,发展比较缓慢。针对这种情况,西方语言学者就开始直接对语料库进行深加工处理,把语料库的建设从追求量的扩充向语料数据化方向转化,即利用标注、数据挖掘技术和计算机自动运算的方法对无序的语料索引行进行梳理、统计、分类、归纳,按用户需求有针对性地呈现各种典型的词汇数据。美国当代英语语料库(Corpus of Contemporary American English,以下简称COCA)[2]就是一个典型的代表。

COCA由美国杨百翰大学(Brigham Young University)的Mark Davies教授主持开发,语料规模达4.5亿词,是美国目前最新的当代英语平衡语料库。自2008年2月20日在互联网上正式推出以来,每年都要至少做两次语料更新。语料库的数据化主要体现在将杂乱无序的语料变得有条有序,能根据用户的需要提供相对准确的词汇语言数据,其关键就是“智能化”索引,而索引的基础是对语料的标注和基础数据库的支持。下面就从这几个方面谈谈COCA数据化的功能特征。

1.语料库的标注

词典编纂者最想从语料库中获取的信息大多是语词的各种语言属性,包括形态、词类、句法模式、搭配成分、语义表征和使用语境等,因此需要对库内的各种用词进行标注。COCA在 SWECCL词类赋码的基础上设计了150多种标签,对全部4.5亿语料进行了逐条标注。譬如,连词类7个,如CC(并列连词)、CS(从属连词)、CCB(转折并列连词)等;形容词4个,如JJ(普通形容词)、JJR(形容词一般比较级)、JJT(形容词一般最高级)、JK(连接形容词);限定词类13个,如DA(前置或后置限定词)、DA1(后限定词单词形式)、DAR(后限定词比较形式)等;名词类22个,NN(普通名词)、ND1(方向性单数名词)、NN1(单数普通名词)、NN2(复数普通名词)、NNL1(单数方位名词)等;NNO(数量词)、NNT1(单数时间名词)、NNU(度量单位词)等;动词31个,如VB0(动词原形)、VDD(动词过去式)、VBM(系动词)、VBG(现在分词)、VBN(过去分词)等;代词19个,如PN(不定代词)、PNQO(宾格WH代词)、PNQS(主格WH代词)和PNX1(反身不定代词)等。其他还有副词、介词、冠词、程式(FO)、未分类词(FU)和外来词(FW)等。

除词类外,COCA还对所有语料做了词汇语域和时间分布的标注,因为语词的意义和用法与语域以及时间有着密切关系。语域维度分为口语、小说、流行杂志、报纸和学术期刊五大类型,语料按这五个类型基本呈均匀平衡分布;时间维度分为:1990—1994、1995—1999、2000—2004、2005—2009、2010—2012等五个时段,用户可以从这两个维度查询任何一个词的分布频率。为了语词的形态变体和同义词查询,库内还配置了词的屈折变化和同义词数据库。

2.语料库的索引

COCA根据标注和用户的查询需要设计出一套索引句法(Search Syntax)来满足“智能”检索的需要。主要分以下几类:[pos](精确词类[vvg])、[pos*](各种词类[v*])、[lemma](原型词形态变体[speak])、[=word](同义词)、word|word(两词比较)、*xx(以某前缀开头的词)、x?xx(含某字母的词)、x?xx*(含某字母+某词缀的词)、

word(某词前成分,若要限定词类则可加词类标签,如[nn*])等。利用上述句法成分和词类标签可以组合成各种复杂的索引句法结构,以便词典编纂者准确查找所需的各种信息。

3.语料的智能化检索和显示

这里说的“智能”并不是说它具有抽象思维和随机应变的能力,而是指检索系统通过识别语料库中的标注代码,按特定的索引句法提取语料数据。这样,用户便可以根据自己的查询需要,按一定句法规则来组织“检索模式”,语料库便可以比较准确地调出他们所需的各类信息。值得一提的是,即使是无限制的普通检索,COCA也能做不同的结构和句法/搭配成分分类显示,如相同结构的例句放在一起,各种句法成分用不同颜色显示:名词为蓝色、动词为紫色、形容词为绿色、副词为棕色、代词为灰色、介词为黄色。这样,可以使用户对所显示内容一目了然。(见图2)

四、语料数据化的词典学意义

语料库能辅助词典编纂是辞书界的一个共识,它对词典学的理论研究和实践都具有重要意义,具体的作用体现在以下几个方面:选词立目(词频)、义项划分、词典释义、句法模式提取、例证配置、语法注释、语用或用法注释、同义词语义与使用对比等。(参见章宜华 2013:173—176)然而,传统的语料库会把各种信息混杂在一块,人工识别比较困难,而数据化语料库可以按特定义项、特定词类或形态、特定结构或分布来提供信息。

1.特定单词或范畴词的查询

查询一般单词或连续的固定短语,可直接输入所要查找的字符串,如输入“child, children; give up, take measure; Actions speak louder than words.”等,就可以精确查到仅包含这些单位的句子。如果要查包含某些字母的一类词就需用通配符“*”,如具有某种前缀、后缀、中缀或词根的语词:输入“dis*, un*, anti*”等就能查找到所有以它们为前缀的词,输入“*ness, *tion, *ly”能查到以它们为后缀的词。同理,查词根就需要把通配符放在词头与词尾之间,如输入“dis*ly”能查到所有以“dis”开头、以“ly”结尾的词的词根;要查以特定词为基础的复合词或变体,则需把通配符放在该词的前后,如输入“*speak*”会显示出“speak, speaks, speaking, speaker, speakeasy, speakerphone”等。

如果想用一个检索单位查得某词的所有屈折变化形式,就要使用特定的“索引句法”及句法代码。譬如,输入“[ speak ].[ v* ]”会显示出“speak, speaks, speaking, spoke, spoken”;如果要单独查其过去式和过去/现在分词形式则需在动词后加上相应的标签:[speak].[vvd]/[vvn]/[vvg]。此外,英语还有很多兼类词,如track (v/n), lower (v/adj),own (adj/v/pron), left/right (adj/n/v)等,若要查其特定词类则需在单词后边加上词类标签,如“left”名词、形容词和动词对应的索引句法是:left.[n*]、left.[j*]和left.[v*];同理,若想区分相同词尾的不同词类,则需要与词类标签组成特定的索引句法,如以“ly”结尾的大多是副词,若输入“*ly.[j*]”就可以查到全部以“ly”结尾的形容词,如排在前面的有“only, early, likely, daily, holy, friendly, elderly, lovely”等。可见,用索引句法的方式可以限定检索词的特定词类、次语类和形态,可以做到精确查询,大大减少词典编纂者的工作量。

2.词汇搭配与句型模式的查询

搭配和句型模式一直是外语学习者和学习词典最为关注的语言现象之一,同时也是难点之一,因为普通语料库(如BNC)无法提供这类信息的查询,即使是利用“词汇速描”等索引工具也无法按用户的需求准确查询。COCA的数据化处理就比较好地解决了这一问题。

搭配和句型结构都涉及多个词的共现,而这些共现关系的检索就比单一语言单位更复杂一些,也更能体现语料库的数据化特点。查两词的简单搭配可直接在单词前/后空格加“*”,若要限定搭配的词类则要在单词后加词类标签“[n*]、[j*]和[v*]”等;譬如,查“left”作为动词与副词的搭配情况,可在词串框中输入“*left.[v*]”,在搭配框中输入[r*]就可以得到“clockwise, abruptly, voluntarily, hurriedly, carelessly, purposely”等;而反过来也可以通过词类标签锁定被搭配词的词类,如用“pretty [nn*]”可查该词作为形容词与名词或动词搭配的情况,如“pretty girl/woman/face/picture”等;用“pretty [vv*]”可以查“pretty”作为副词与动词搭配的情况,如“pretty well, pretty much”等。

若要查找某一词类(如动词)+任何词与特定词(如argument)的搭配,可输入“[V*] * [argument]”,就可以得到与“argument”搭配的动词,如“make, reject, accept, hear, understand, win, support, lost, defend, strengthen, build”等,词典编纂者可以从这些搭配中抽象出该词的部分隐喻用法,如“argument is a war/battle (win, lost, defend, make)”,“argument is an idea (hear, understand, accept, reject, support)”,“argument is an architecture (build, strengthen)”等,这对促进学习者的识解和记忆有重要意义。

句法模式是反映特定语词用法的最有效手段之一,但其查询远比搭配复杂,因为它们涉及的成分比较多,且组配结构复杂,如“permit sb/sth to do, prevent sb/sth from, provide sb with/for, put sb/sth through to sb, nod to/at sb to do sth”等,中间的插入成分是不固定的,而且往往有多种选择,查找合乎这类句型需求的例句是词典编写中的棘手问题,运用传统语料库编纂者只能在海量的语料索引行中逐条寻找,耗时又费力,而COCA的索引句法可让人轻松地找到相应结构的例句,节省很多时间,可大大提升词典编纂的速度和质量。如输入“[permit] * to [v*]”便可查到“permit them/us/him/it/individuals/Anna/students/busine

ss... to be/have/take/do/make/play/happen/see...”等与所需句型一致的例句;输入“[provide] * with|for”可查到含“provide them/us/you/students/people/teachers with”和“provide opportunity/support/incentives/security/care/food/funds/evidence/guidance/service/benefits/training for”句型的例句。

此外,若想查找特定结构的不同用词或特定语词的句法功能,也可以运用相应的索引句法来解决。譬如,想了解哪些词可以用在“to be or not to be”结构中,可以输入“to [v*] or not to [v*]”,结果得到“be, do, buy, tell, see, engage, play, sell”等几个较常见的动词;若想查找某一动词接任一词+into 后接动词“-ing”形式构成的动结式结构,了解“into”表达致使义的句法功能,可输入“[vv*] * into [vvgk]”便可以查得“fool you/people into thinking, brought them into being, delude ourselves into thinking, talked him into going, trick people into thinking”等。这对于说明“into”在动结式中的作用、抽象出动结式的句型特征,以及发现动结式动词和用法都具有重要意义。

3.同义词组与其搭配成分的对比查询

同义词之间的语义和用法差异也是外语学习和词典编纂处理的一个难点,普通语料库在这方面基本没有作为。COCA数据化的一个重要特征就是同义词组及其语域频率分布查询和各自搭配成分的相互比较。

对于同义词,既可以查多义词的所有意义,也可以查某一义项。譬如,输入[=deliver]可查“deliver”的全部同义词,结果为“give, bring, produce, free, provide, present, serve, send, save, produce, carry, release, supply, transfer, rescue, surrender, convey”等;如果要查该词某一义项或分布结构中的同义词,则需要在后边加特定搭配词做语义限定,如用“[=deliver] the mail”可查得该动词作为“递送”义时的同义动词,结果有“send, give, carry, bring”等,这些信息丰富、可靠,远胜过一些同义词典,这对于同义辨析以及选择最佳搭配词都十分有效。

同义词搭配比较查询可用于一组同义词的分布特征、搭配成分和使用频率差异的对比研究,并以此来辨别它们细微的语义差异。对于同义词分布特征的比较很简单,如选择“COMPARE/比较”后在索引框中输入“rent/hire”就能比较两个词的使用频率,如果再选择下方的“SHOW SECTIONS/显示项”将会获得这两个词在不同语域(口语、小说、杂志、报纸和学术期刊)和不同时段的使用分布数据;如果在比较模式下选择“COLLOCATES/搭配词”(1~n词)和“POS LIST/词类表”中的相关选项(名词、形容词、副词等),系统便会自动比较两个词的特定搭配词及其出现的词频。对于同一词搭配的比较,需要特定的句法组合,如输入“fast|quick|rapid [nn*]”就能查得这三个同义词的不同名词搭配成分:fast food/lane/track,rapid transit/growth/change,quick/look/break/question等,而且后边还给出了它们的共现频率。这种信息对于词典编纂者和英语学习者都是十分有用的,因为中国的EFL学习者很容易用汉语的思维来理解英语(语言迁移),对那些对应于同一汉语概念的同义词往往难以区分,更会混淆这类词的习惯搭配,如“提高”的对等词有“improve, increase, enhance”,它们在语义上的差异以及与搭配词之间的微妙关系常常让中国EFL学习者茫然,难得要领,甚至张冠李戴。如果在COCA中输入“improve|increase|enhance [nn*]”进行对比检索,用户不但能得到各自的常用搭配词,而且还可知道其搭配词在这个结构中的共现频率:improve health (187)/education (183)/relations (174) /quality(151);increase heat (212)/taxes (210)/production (184)/sales (104);enhance performance (86)/learning (80)/understanding (42)/communication (37)等。

此外,如果词典编纂者想对某一词进行同义辨析,但又不清楚该词到底有多少同义词以及搭配的用法差异时,也可以在COCA中得到解答。如输入“[=cheat]. [v*] the [n*]”便可查得“cheat”做动词时其同义词与“the+名词”搭配的情况,最后的结果是:deceive the public/court, defraud the government/system, trick the eye/brain/enemy, bilk the taxpayers/area, con the people/airship等;然后再结合索引行实例的语义比较就可以轻松地完成这组同义词的立目和辨析。

五、结 语

传统的大规模语料库虽然信息量丰富,但缺乏与词典微观数据结构项相关的标注,大多只具备提供简单索引行的检索功能,词典编纂者要想在海量语料中找到所需信息绝不是一件容易的事情,因此对词典编纂的贡献也是有限的。专门索引工具“词汇速描引擎”的使用能较大地提升语料库的使用效果,但它所提供的数据信息针对性不强,无法区分多义词的义项,也无法进行离合式句法结构的检索,更无法按用户需求来提供词汇语言数据。词库的建设发起比较早,对词汇语言属性的描述也比较详尽,但它们都是为了某一目的或自然语言处理研究和应用而设计的,对词典学研究有很好的学术和参考价值,但由于其规模或数据结构的限制,对词典编纂的支持也有局限。COCA对词汇语言属性的精细标注或数据化处理,建立了整套的索引句法和较为完善的智能化检索系统,基本能满足语言学习、辞书研究和编纂的各种需求。同时,该语料库的建设使我们看到了国际语料数据化处理的发展趋势,积极研究、开发和应用数据化语料库,可以大大提升辞书研究和词典编纂的效率和质量。

附 注

[1]见http:∥nlp.fi.muni.cz/projekty/cpa。

[2]见http:∥corpus.byu.edu/coca。

参考文献

1.章宜华.2012国际辞书现代化技术的新理念:辞书语料数据化.辞书研究,2012(2):1—9.

2.Fillmore C J. et al. Frame Semantics for Text Understanding. ∥Proceedings of NAACL WordNet and Other Lexical Resources Workshop. Pittsburgh,2001.

3.Fillmore C J. Background to FrameNet. International Journal of Lexicography, 2003:235—250.

4.Hanks P, Pustejovsky J. A Pattern Dictionary for Natural Language Processing. Revue Franaise de linguistique appliqué,2005(10):2.

5.Hanks P. Linguistic Norms and Pragmatic Exploitations, or Why Lexicographers Need Prototype Theory and Vice Versa. ∥Kiefer F. et al. (eds.) Computational Lexicography: Complex 94. Budapest:Linguistic Institute,1994.

6.Hanks P. Corpus Pattern Analysis: How People Use Words to Make Meanings. Speech in Center for Lexicographical Studies. Guangdong University of Foreign Studies,2010.

7.Hanks P. Lexical Analysis: Norms and Exploitations. Cambridge: MIT Press,2013.

8.Kilgarriff A, Tugwell D. Word Sketch: Extraction and Display of Significant Collocations for Lexicography. ∥Proceedings of Collocations Workshop, ACL 2001.Toulouse, 2001:32—38.

9.Kilgarriff A. et al. The Sketch Engine: Ten Years on. Lexicography, 2014(1): 7—36.

10.Lin Dekang. Wordnet: An Electronic Lexical Database. Computational Linguistics, 1998(2): 292—296.

11.Miller G. Nouns in WordNet: A Lexical Inheritance System. International Journal of Lexicography ,1990(4): 245—264.

12.Richardson S D. et al. MindNet: Acquiring and Structuring Semantic Information from Text. ∥COLING 98 Proceedings of the 17th International Conference on Computational Linguistics, 1998(2):1098—1102.

13.Ruppenhofer J. et al.FrameNet II: Extended Theory and Practice. http:∥framenet2.icsi.berkeley.edu/docs/r1.5/book.pdf,2010.

(广东外语外贸大学词典学研究中心 广州 510420)

(责任编辑 李潇潇)