李德俊
语料驱动释义: 意义、问题与对策*
*本研究得到国家社科基金项目“基于平行语料库的《汉英词典》的研编”(批准号:07BYY038)的资助,谨此致谢。
李德俊
摘要语料库对词典研编的价值是不言而喻的,在词典编纂的实际过程中,不仅配例依赖于语料,语料对提高释义的效率和科学性也发挥着举足轻重的作用。但是,语料驱动也有一些明显缺陷,处理不当会令语料驱动流于形式。文章以语料驱动释义为例,通过实例讨论了语料驱动释义的优势,同时也分析了该方法过分依靠索引行所存在的问题。短语驱动是语料驱动的一种特殊形式,研究表明,基于统计的短语识别方法是克服索引行过多、提高释义效率的有效方法。
关键词语料库语料驱动释义短语
一、 引言
随着语料库词典学研究的兴起和发展(王馥芳,罗敏莉 2004: 45—53),语料库在词典学研究和词典编纂中不可或缺的作用已取得广泛共识。今天,语料库已不再局限于为词典提供例证,其在词典释义方面的价值也日益凸显。国外出版的部分词典,例如柯林斯词典,释义基本依赖于对语料的释读,柯林斯词典的成功与其释义的准确实用不无关联。
基于语料库的词典研编在我国业已起步,但从已发表的研究成果看,语料库建设和理论探讨仍是主要议题,而针对语料库在词典研编实践工作中的应用的讨论并不多见。虽然语料库对词典学的价值不言而喻,但语料驱动也有一些缺陷和不足。伴随语料驱动而来的问题严重困扰着词典编纂者,如果这些问题不能妥善解决,语料库驱动词典编纂的效率会大打折扣。本文以释义为例,在论证语料驱动释义的意义之后,重点讨论了语料驱动存在的问题和可行的解决方案。
二、 语料驱动释义方法与意义
语料驱动视语料库为一种理论研究,对于语料驱动研究来说,语料库不仅是储存语言材料的仓库,还是建立语言假设的源泉。语料库本身蕴含了自己的语言理论。(Tognini-Bonelli 2001: 84—85)
语料驱动的哲学基础是“意义的使用论”,诚如维特根斯坦(1992: 8)所言: 根本不存在“五”字的意义的问题,只有“五”如何使用的问题,一个词的意义就是它在语言中的用法。语料驱动的方法从观察分析语料开始,通过分析语料得出假设,然后进一步归纳、概括以形成语言规则。如用语料驱动的方法进行词义和搭配的研究时,事先不设定词义(或义项)和搭配规则,词义和搭配规则完全基于对语料的分析和总结。Hunston(2006: 46—47)对initiative和condemn的词义和搭配的研究很好地诠释了该方法的特点。
Sinclair(转引自Krishnamurthy 2008: 231)不仅强调语料驱动的重要性,也在实际的词典编纂中积极采用语料驱动的方法。他认为语言知识的最佳源泉是语言使用,所谓的语言使用指的就是真实的、用于交际的文本。
语料驱动词典释义采用的是“自下而上”的方法,释义以从语料库中选择未经过编辑的语料(例子)为起点,然后根据词典研编的需要对语料进行分析和归纳,从而形成释义文本。对语料驱动释义来说,对语料的依赖是第一位的,语感只是在对语料的分析判断时才起作用。
1. 释义的要求
释义就是对词语、短语或术语的意义进行诠释。(Hartmann & James 2000: 35)在词典学的其他文献中,释义的定义基本与此类似。虽然说上述定义的本身没有问题,但是该定义是模糊的,根源在于“词义”的所指不清。为了明确释义的任务,有必要先讨论“什么是词义”以及词义的具体组成或分类。
在语言学领域,与意义相关的研究由来已久,也因此产生了各种不同的意义分类。Grice(1969)将意义分为四种类型: 固定意义、应用固定意义、情景意义和说话者的情景意义。作为词典学家,兹古斯塔(1983: 29—78)更关心词义的不同表现形式,他将词义划分为固定意义和具体意义两大类,其中固定意义包含词的指称意义、附加意义和词的使用范围。Leech(1987: 13—33)对意义的分类最具代表性,他认为意义具有七种形态,即概念意义、含蓄意义、社会意义、情感意义、反映意义、搭配意义和主题意义。
以上关于意义的分类,有些讨论的并不是词义,如主题意义、反映意义、情景意义。Grice的固定意义、Leech的概念意义和Zgusta的指称意义基本相同,都是指词汇或句子的基本概念义,它是词汇的第一层意义。词汇有虚实之分,虚词不一定有具体的所指,也就是说没有明确的概念义。对于虚词来说,它主要承载着语法功能。虚词的基本概念义就是它的语法功能义。兹古斯塔所言的附加义与Leech的内涵意义、社会意义、情感意义、反映意义相当,Leech的搭配语义包含了兹古斯塔所言的词的使用范围。我国学者使用陪义对基本概念义之外的各种意义进行统称。(张志毅,张庆云2001: 42—68)陪义是词汇的第二层意义。
词义的分类纷然杂陈,反映了词义的复杂性和多样性。那么,在释义时是否要考虑到基本概念义和所有的陪义?我们以Leech归纳的七种意义来讨论这个问题。在这七类意义中,有些不属于词义描写的范围;有些意义具有不确定性、具体义因人而异。见表1:
表1 意义类型与特征
稳定的词义只有概念意义和情感意义。词典无须描写与词义无关的意义,如反映意义、搭配意义和主题意义;词典也不能描写动态的、因人而异的词义,如含蓄意义和社会意义。概念意义和情感意义才是词典释义需要还原的对象。
语料库语言学在词汇语义方面的研究还揭示了词义的另外一种形式: 语义韵(semantic prosody)。
语义韵与搭配语义不同,Leech的搭配意义指的是一个词所获得的各种联想,这些联想来自与这个词经常共现的一些词的意义。(Leech 1987: 24—25)通过搭配语义可以区分基本概念义相同或相似的词语,例如英语词汇pretty和handsome基本概念义相似,但它们在搭配意义上却有所区别:
pretty + girl / boy / woman / flower / garden / colour / village
handsome + boy / man / car / vessel / overcoat / airliner / typewriter
语义韵也叫话语韵(discourse prosody),指的是修饰节点词的搭配词由于具有相同或相似的语义偏好(semantic preference),最终影响了节点词的语义,使之拥有了搭配词所包含的或贬或褒的联想意义。语义韵可以分为消极语义韵(negative semantic prosody)、积极语义韵(positive semantic prosody)和中性语义韵(neutral semantic prosody)。(Stubbs 2002: 105—108)
语义韵加深了我们对词义的理解。Hunston(2006: 60—61,142)的研究揭示了sit through具有“乏味”的语义韵,set in具有“不祥”的语义韵。因此,英语句子“He sat through the film.”表明他不但没有被电影吸引,反而觉得其冗长乏味;“A spell of fine weather set in.”这句英文由于语义韵的不和谐而显得不自然。
语义韵反映的是词汇的隐性义,是熟练语言使用者语言能力和词汇知识的一部分,语义韵与词汇的使用是否贴切和地道密切相关。
综上所述,释义就是用语言还原词汇的概念义、情感义和语义韵。其他几种词义由于具有个人性的特征,不属于语言社团成员共享的知识,因此不是释义的对象。概念义是核心词义,是释义的主要对象;情感义并非是所有词汇共有的,只存在于部分词汇中,但是一旦某个词汇具有了情感义,也需要在释义时予以体现;语义韵由于与词汇的使用是否得当有关,因此也是释义需要考虑的对象。
2. 语料驱动释义的优点
释义主要有两种方法: 基于语料的经验主义方法(即“语料驱动法”)和基于内省的理性主义方法(即“内省法”)。这两种方法都可以诠释词汇的概念义和情感义,但词汇语义韵的释解就只能借助语料库才能进行。概念义是词汇的基本义,也是释义的重点所在。本节从词汇的概念义入手讨论语料驱动释义的方法和优势,情感义和语义韵的诠释与之类似,不再赘述。
释义一直是词典重现词义的首要手段,也是词典学研究的重点。国内学者对词典释义方式的研究较为深入,总结出了多种释义方式。(胡明扬等1982: 132—137;黄建华2001: 109—113)不论采用何种释义方式,释义方法不外乎上文提及的两种: (1) 内省法: 从内省出发,以个人对词语的认知为基础构建释义文本,有时在释义过程中参考收集的语言实例;(2) 语料驱动法: 从语料出发,以语言材料为基础,通过对其分析、归纳生成释义文本。
在没有语料库可以使用之前,内省无疑是释义的主要方法,即使释义时参考了语言实例,但零星的例子并不能构成真正意义上的语料。我国已出版的单语和双语词典基本采用的都是内省释义的方法。例如:
狼藉乱七八糟: 杂乱不堪。(《现代汉语词典》第6版)
目不暇接形容东西太多,眼睛看不过来。(《现代汉语词典》第6版)
内耗losses caused by internal strife(《新时代汉英词典》)
内秀intelligent without seeming so(《新世纪汉英大词典》)
内省释义具有两个难以克服的缺点。其一,难以操作,很多时候内省难以构建释义文本。汉语里的功能词和众多的多义词都是这种情况,例如“摸”“打”“不”等。内省释义困难的根源是释义与文本的分裂,词义需要在短语语境或更大的语境中才能具体化,所以离开文本而单凭个人思考来还原词义必定困难重重。其二,释义具有个人性,与词语在语言中的典型义往往不一致,难以保证准确和全面。
我国汉语界对释义进行的探讨由来已久,对几种主要词类都建立了释义模式。例如,名词的基本释义模式可以用公式表示如下:
m=tL(m代表被解释的名词,t代表种差,L代表类词语)(符淮青 2009: 97),如:
军旗军队的旗帜。
名词释义模式在面对不同词语的时候会进行些许调整,但以种差和类词语构建释义核心内容的方法基本保持不变。释义模式在词典编写中发挥了巨大作用,它为解释纷繁复杂的词义找出了一条清晰的路线,大大提高了词典释义的效率。
然而,基于模式的释义方式也不能克服内省法固有的缺陷,以下例子都来自于《现代汉语词典》第6版:
地摊在地上陈列货物出卖的摊子。
花絮比喻各种有趣的零碎新闻(多用于新闻报道的标题)。
水①最简单的氢氧化合物,化学式H2O。无色、无味、无臭的液体,在标准大气压(101.325千帕)下,冰点0℃,沸点100℃,4℃时密度最大,为1克/毫升。
可以清楚看出以上三个释义的缺陷。“地摊”和“花絮”的释义显然出现了差错;“水”的学科性释义远离生活,不适合语文词典的使用对象。
语料驱动释义可以克服内省释义法的主要不足。由于释义基于语料,释义就是从语料中归纳词义,所以释义无从下手的问题基本可以缓解。例如,单凭内省对“不”进行释义比较困难,但是如果有下列语料的支持,释义就会变得简单:
语料: 够不到;搬不动;写不好;说不清;看不见。
释义: 不 用在动补结构中间,表示不可能达到某种结果。[1]
语料驱动法还可以克服释义个人性的问题,使释义更准确和全面。以“狼藉”为例,在现代汉语语料库(www.cncorpus.org)中检索到以下关键索引行:
1) 三个人的兴致都很高,你劝我,我劝你,你贺我,我谢你,直吃得杯盘狼藉,碗底朝天。
2) 桌上杯盘狼藉,那些大蜡台上一盏盏洋蜡也都被夜风摇曳的没了光亮。
3) 苏联和各国共产党当时也严厉打击并揭露托派第四国际,致使它声名狼藉。
从上述索引行来看,“狼藉”应该有两个义项,一个是基本义,另一个是比喻义。基于以上语料,可以对“狼藉”释义如下:
狼藉① 乱七八糟,杂乱不堪,如“杯盘狼藉”。② 比喻行为不检点,名声不好,如“声名狼藉”。
下面再看看语料驱动法对“目不暇接”的释义:
语料(来自现代汉语语料库,经过整理):
4) 好玩的地方太多,莉莉东张西望,目不暇接,不知道究竟玩什么才好。
5) 走进山东威海地毯毛纺厂的车间,一排排国内外先进设备,夺目争辉;再进展品室,完全是地毯的世界: 铺的、挂的,手织的、机织的,方的、圆的,令人目不暇接。
6) 打唱台上的猴园乐园以及三打白骨精、沉香劈山救母等传统姑苏灯彩被打入了光、电、声新技术,使整个公园菊灯交融、声光相接、动静结合,令人目不暇接、流连忘返。
7) 各种类型的丛书、辞书、专著和论文如雨后春笋般萌发出来,令人目不暇接。
8) 这天上午,我到东珠市口大街的北马路牙子上玩耍,有轨电车叮当乱响,穿梭来往,小贩吆喝叫卖,九腔十八调,令人眼花缭乱,目不暇接,两只耳朵不够使唤。
9) 现在,文艺园地百花竞艳,繁花似锦,使人目不暇接。
10) 这里的商品真是琳琅满目,应有尽有,使人有些目不暇接,眼花缭乱。
语料分析: 在现代汉语语料库中共检索到19条包含“目不暇接”的索引行,所有的索引行都显示“目不暇接”的对象是新奇、美好的“东西”。因此,我们可将其释为:
目不暇接新奇、美好的东西太多,眼睛看不过来。
使用语料驱动的方法,“地摊”和“花絮”的释义也可以得到修正:
地摊没有正规的经营店面,直接摆在地上经营的摊点。
花絮指新闻或画面外有趣而零碎的片段。
上文“内耗”和“内秀”的英文释义显然是基于内省的释义。汉英词典编写时,由于编纂者有时无法通过内省获得英语对应词,只好采取解释性释义。对于内向型的编码词典来说,解释性释义的意义不大。使用语料驱动的方法,可以检索到许多个人内省无法获得的目标语对应词。借助于平行语料库PECC[2],检索到“内耗”和“内秀”的对应词分别为:“infight; infighting”和“a diamond in the rough”。语料驱动弥补了个人知识的不足,使释义更加准确有效。
三、 语料驱动释义存在的问题
前一节论述了语料驱动释义的优点,但是基于索引行的语料驱动法却远非想象的那么简单而易于操作。
虽然说索引行承载了词义,但基于索引行的词义还原有一个难以克服的困难: 那就是难以对检索到的大量句子语料进行分析和整理。例如,以“战争”为关键词在PECC中检索,共命中2016个检索行(句子);以“水”为关键词,在现代汉语语料库中共检索到5318个索引行。实际上,人工手段难以对如此庞大的数据进行释读和分析。
针对PECC命中的检索行进一步研究发现,大多数的语料都是在重复关键词的某一个或几个使用义。例如:
11) 瞎说一顿之不能解决问题是大家明了的,那末,停止你的发言权有什么不公道呢?
12) 他一定要弄坏事情,一定要失掉群众,一定不能解决问题。
13) 调查就像“十月怀胎”,解决问题就像“一朝分娩”。
14) 他们是认真地在那里进行工作,他们是仔细地在那里解决问题。
在以上例11)—例14)这些语料中,“问题”都意为“须要研究讨论并加以解决的矛盾、疑难”(《现代汉语词典》),相当于英语里的problem, issue。大量重复的语料使基于检索行分析的工作量成倍增加,事实上,在实际的研究中对语料的穷尽分析常常无法完成。在这种情况下,基于语料的释义并不能获得最大的收益。
对于语料库的效率问题,Chomsky早就有过质疑。他(1984: 44)认为内省不仅比语料库的方法效率更高,也是语言研究的唯一方法,他曾对内省的作用做过如下总结: 如果你静静地坐着,几分钟的思考就可以轻易获得大量的相关数据。我国国内也不乏类似的声音,至今仍有学者对语料库方法持怀疑态度,在词典编纂过程中,内省释义仍然是主流。
在词典的编写过程中,如果以上问题得不到合理解决,基于语料库的词典编纂很容易变成“口号式的空谈”。
四、 对策: 基于短语的方法
1. 短语驱动释义的理据
在实际的词典编纂过程中,语料驱动方法的缺点一直困扰着词典学家和编纂人员。为了提高语料驱动的效率,研究人员也提出了一些解决方案,其中主要的方法是对语料进行语义标注。但是,语义标注的工程极为浩大,大多数语义标注语料库最后都停留在了理论上。另外,语义标注难以克服错码和漏注等问题,实际检索效率还没有得到证明。
与内省相比,语料库驱动的最大优势是可以提供语境,因此有利于从“语言的使用”中来考察词义。从语境理论来看,语境多种多样(Malinowski 1923;Firth 1957;王建华 2002),但简而言之,语境不外乎源自语言系统本身的言内语境和来自语言系统之外的社会文化语境。社会文化语境与词汇的社会意义相关,如前文所言,由于词汇的社会意义不具有稳定性,它不是释义必不可少的要素。词汇的概念意义和情感意义主要由言内语境所决定。言内语境有大小层次之分,大到完整的篇章,小到句子短语都是言内语境。一般情况下,句子就能够使词义明晰化,因此,语料检索所得的索引行也基本上以句子为基础。但是,由于以句子为基础的索引行存在数据噪音难以抑制的问题,目前语料库语言学界惯用的关键词索引(KWIC)方法在释义时的效用会受到很大影响。
短语是比句子更小的语言单位,在当代语言学领域,短语具有特殊的含义,是短语学的研究对象。Gries(2008: 6)认为“短语”是一个词汇单位和另一个或几个词汇单位的共现,该共现组合具有独立完整的语义功能,其共现频率大于理论频率。
可以肯定的是,大多数情况下,词义在句中能够明晰化,那么词义在短语中是否也能明晰化呢?
英语词汇多一词多义,在脱离语境的情况下,我们可以说某个词是有歧义的,如sake,light,foot等。蒯因(2005: 37—42)将句子分为场合句(occasion sentence)和恒定句(standing sentence)。由于存在单词句,所以词汇也可以有场合和恒定之分。像“二氧化碳、石榴、函数”这样的词汇属于恒定类,其概念义比较透明;而像前面提到的“sake”等英语词就是场合词,其义随语境变化(或者说其义在语境中才能透明)。英语单词sake的词义非常模糊,但只要我们将其置于“for the sake of”这一短语中,其义立即明晰起来;“as light as a feather”也使得light的词义得以明确;“foot”既是名词,也可以作为动词使用,在“hands and feet”“on foot”“foot the bill”这些短语中,不仅其词性变得明朗,而且歧义也得以消除。
对于词汇的歧义,蒯因(2005: 142)还谈到了“过程—结果”(process-product)歧义词。如“assignment”一词,它既可以指分配的行为(the act of assigning),也可以指被分配的东西(the thing assigned)。例如:
15a) After the school assignment, she began to watch television.
15b) Fast as you do, you can’t finish the assignment in two hours.
16a) His assignment to the new department was due to his competence in English.
16b) The assignment of candidates to types of job is in effect random.
在例15)中,assignment义为“duty”,即“the thing assigned”;而例16)表示的是“the act of assigning”。基于以上句子,可以提取相关短语: school assignment, finish the assignment和assignment to。“assignment”的歧义在短语中也如其在句子中一样得到了消解。
我们现在还没有充分理由认为所有词语的词义都可以通过其所在的短语而得以具体化和明晰化,像“poor politician”这样的短语并不能使“poor”的词义明晰化,即使我们将该类短语拓展为句子也无济于事,如“He is a poor politician./The poor politician has resigned.”。这里存在的问题并不能说明我们需要比句子更大的语境才能确定“poor”的词义。“poor politician”之所以具有歧义是因为形容词修饰语“poor”和名词“politician”之间的搭配所致,短语“poor politician”并没有起到消除歧义的作用,而在短语“poor but happy;help the poor”和“poor baby;poor donkey”中,“poor”的词义就会明朗起来。
综上所述,我们认为,词汇的概念义和情感义大多可以通过该词语所处的短语语境而得以明确,短语驱动可以取代句子驱动反映词语的使用,前文的“杯盘狼藉”和“声名狼藉”亦可为佐证。
短语驱动还可以克服语料驱动所面临的索引行过多这一难题,这是短语驱动释义的另一个理据。
如果我们对上一节的语料做进一步的分析,就会发现,词汇有共现的特性,如例11)—例14)中“问题”与“解决”的共现。共现构成了短语,也使词义具体化。“问题”与“解决”共现时,其义为“须要研究讨论并加以解决的矛盾、疑难”;如果“问题”与“回答”共现,如例17)—例20),那么它的词义就是“要求回答或解释的题目”,用英语说就是question,而不是problem。
17) 第一个问题倒容易回答。
18) 这个节目的要求很简单——回答15个问题,如果全答对就可赢得一百万美元。
19) 我开始每天拨打电话,随着回答出的问题难度不断增大,我的心跳也不断加快,我自己也觉得很诧异。
20) 你是符号学方面的专家,我们希望你能帮助我们回答这个问题。
由于索引行蕴含的词义信息具有高度重复性,而且词义可以在短语语境中被具体化,接下来可以这样设想: 如果能将与关键词(被释义词)存有搭配关系的短语从语料库中提取出来,那么释义效率不仅与基于索引行的释义方法相当,而且还会免去分析大量索引行所需的时间,使语料驱动释义更加切合实际。我们可以将短语驱动视作语料库驱动的最简方案(minimalist approach)。
2. 短语驱动释义的方法
短语驱动的优势已经得以明确,但是短语的提取却不能采用简单的关键词索引方法,需要设计新的方案提取短语。也就是说,短语驱动释义法的关键是短语的自动识别和提取。
正因为构成短语的词语具有共现倾向,也就是说当观察到“问题”时,“解决”的共现频率会高于与“问题”没有搭配关系的词语(例如“发行”)的频率,所以从统计测量的角度自动识别和提取短语就成了首选的解决方案。通过相关统计模型可以有效鉴别短语和非短语。
目前很少有文献专门论述短语的自动识别和提取,但是我们完全可以借鉴语料库语言学领域对搭配力的计算方法来计算构成短语各字词之间的共现频率值。对于搭配的识别,语言学家们发现了多种方法,Evert (2005) 讨论过30多种方法,Pecina (2005) 列举的度量方法更是多达57种。在这些测量方法中,有三种最为流行,即Z值测量法、t值测量法和MI(Mutual Information)值(互信息值)测量法。下面以Z值测量法为例,来说明短语自动识别的基本原理。
(1) 设跨度S=5,以节点词(如question)在BROWN语料库中进行索引,得节点词频数n为257,小文本的词语数M=(2S+1)×n=2827
(2) 语料检索得到搭配词“answer”在语料库中总使用频率F(c)=153,搭配词在文本总体(N)中的出现频率P=F(c)/N。N=1200428,P=153/1200428=0.000127
(3) 搭配词的期待频数E=P×M=0.36
(5) Z值=(F(n,c)-E)/ SD,其中F(n,c)是节点词和搭配词的共现次数,在LOB中,answer和question的共现次数为12,因此Z=(12-0.36)/0.6=19.39
表2是当跨度为5时,在BROWN语料库中与节点词question相关的几个搭配词的Z值:
表2 与question相关的搭配词的Z值
虽然各种统计度量方法都可以进行短语自动识别,但针对不同语言也表现出一定的差异性。初步研究表明识别英语短语时,MI值的识别方法优于Z值;识别汉语短语时,Z值效率最高。(李德俊 2014: 8—13)短语识别也可以采用复合的方式,以提高识别的效率。表3是利用现代汉语语料库语料,使用ICTCLAS(Build 269)分词后,在WordSmith 5.0中计算出的与“水”相关的具有统计意义的短语的Z值:
表3 与“水”相关的搭配词Z值
Z值大于2就具有统计意义,依据Z值,很多“噪音”被有效地过滤,短语被凸显了出来。如果将Z值与其他统计值联合使用,会取得更好的效果。
短语驱动的方法完成了语料驱动释义的第一步,即短语的识别和提取,接下来要对短语进行分类:
(1) 河水、湖水、海水、地下水;(2) 水源、开水、喝水、饮水;(3) 灌溉水、浇水;(4) 清水、纯净水;(5) 洪水。
词义分析:
河水、湖水、海水、地下水→组成河流、湖泊、海洋的主要成分;
水源、开水、喝水、饮水→动物和人赖以生存的必需物质;
灌溉水、浇水→植物赖以生存的必需物质;
清水、纯净水→纯净状态下为无色无味的液体;
洪水→暴雨过度可致其泛滥而引起水灾。
(短语驱动)释义: 水 组成河流、湖泊、海洋的主要成分,动植物和人赖以生存的必需物质,纯净状态下为无色无味的液体,暴雨过度可致其泛滥而引起水灾。
基于短语的释义不仅更加通俗易懂,而且也更好地还原了词汇的经验值。短语驱动释义是语料驱动释义的特殊形式,它将语料具体到短语,是语料驱动的具体化。
短语驱动释义也适合比喻义的研究。很多词语都有比喻性的用法,有人甚至认为语言本身就是隐喻的。莱肯(2011: 214)说:“由任何人生成的几乎每一个句子都包含着重要的隐喻或其他比喻性元素。”短语语境可以甄别字面义和比喻义,这是短语使词义具体化的另一种情况。以“深浅”为例,语料分析显示,当“深浅”与“颜色”(包括“红”“绿”“褐”等具体的颜色词)、“色彩”、“水”、“不一”等共现时,其义为字面义;当“深浅”与“不知”“理解”“阅历”“专业”等共现时,其义是比喻义。
并不是所有的比喻义都是词典学关注的对象。词的比喻义有两类,一类是字面义偶尔的畸变,如把朱丽叶比作太阳;另一类由于在语言中一再重复地使用而被大众所接受,如“深浅”的比喻义。后一种比喻义由于使用频率高,在语言系统中已经变成了词语字面义之外的默认义,它是词语的一个新的义项。
词典编纂需要大量的人力和时间,短语驱动能取得更大的效益。基于关键词检索的技术会获得数以百计或千计的检索行,通过人工逐条研读和分析在实践上是办不到的。短语驱动是对关键词检索行的进一步分类和筛选,它充分利用了计算机的自动处理功能,过滤了大量的冗余信息,将研究者从海量数据中解放了出来。
五、 结论与评述
在题为“Corpus-driven Lexicography”的文章中,Krishnamurthy(2008: 231—242)全面阐述了Sinclair关于语料驱动的概念,并对语料驱动词典学的研究方法阐述如下:
语料驱动词典学的研究方法是自下而上的方法,研究从语料检索开始,继而对检索到的、未经任何修改的原始语料进行分析,然后再根据词典研究的需要对其进行分类。语料驱动词典编纂不认可既往的词目;新词目、义项、释义都依赖于对语料的分析。
语料由句子组成,句子又由短语构成,因此短语是语料的一个单位。短语驱动是语料驱动的特殊方式,与语料驱动相比,短语驱动具有多种优势。首先,语料驱动没有明确的驱动单位,从词到篇都是语料,研究的对象不确定。其次,短语可以自动识别和提取。最后,基于短语的释义模式效率更高。短语驱动不仅可以建构释义文本、再现词语的使用义,而且还可以避免单纯的关键词检索方式所产生的索引行过多、信息无法分析和释读等问题。随着短语自动识别技术的日臻成熟,针对未标注语料库进行短语自动提取已经从理论走向了现实。短语驱动不仅能大幅度提高词典研编的效率,也将会是迈向词典编纂自动化的重要一步。但是,短语学的相关研究还没有引起国内词典学界的重视,我们仍然依靠对索引行的解释来进行释义和配例。词典学既是理论学科,同时也是一门技术学科。词典学在技术领域近年来发展迅速,国外学者不仅提出了自动识别、提取短语(搭配)的方法,也开发了相关的识别工具,如Sketch Engine,它们已应用于基于语料库的大型英语词典的编纂,并取得了良好的效果。我们注意到,在理论研究之外,词典编纂技术将是未来词典学研究的主要方向之一。但是目前还没有针对汉语开发的短语自动识别工具,由于识别前需要对汉语语料进行分词处理,汉语分词存在的问题会影响短语自动识别的准确度。为了提升我国词典研编的水平,词典辅助编纂工具的研究和开发势在必行。
附注
[1] 释义来自《现代汉语词典》,但显然此释义参考了语料,不完全基于内省。
[2] PECC(Parallel English Chinese Corpus)是国家哲学社会科学基金项目“平行语料库与积极型《汉英词典》的研编”的第一期工程。
参考文献
1. 符淮青.词义的分析和描写.北京: 外语教学与研究出版社,2009.
2. 胡明扬等.词典学概论.北京: 中国人民大学出版社,1982.
3. 胡文飞.新型汉英学习词典释义原则的构建.辞书研究,2013(4).
4. 黄建华.词典论.上海: 上海辞书出版社,2001.
5. 蒯因.语词和对象.陈启伟,朱锐,张学广译.北京: 中国人民大学出版社,2005.
6. 莱肯.当代语言哲学导论.陈波,冯艳译.北京: 中国人民大学出版社,2011.
7. 李德俊.短语及其自动识别研究评述.外语研究,2014(6).
8. 王馥芳,罗敏莉.语料库词典学的兴起与发展.辞书研究,2004(5).
9. 王建华.关于语境的构成与分类.语言文字应用,2002(3).
10. 维特根斯坦.哲学研究.汤潮,范光棣译.北京: 三联书店出版社,1992.
11. 杨蔚.试析原型及相关认知理论的词典效应.外语教学,2011(1).
12. 张志毅,张庆云.词汇语义学.北京: 商务印书馆,2001.
13. 兹古斯塔.词典学概论.林书武等译.北京: 商务印书馆,1983.
14. Chomsky N.ModularApproachestotheStudyoftheMind. San Diego: San Diego University Press, 1984.
15. Evert S.TheStatisticsofWordCooccurrences: Word Pairs and Collocations.Stuttgart:InstitutfürmaschinelleSprachverarbeitung,UniversityofStuttgart, 2005.Avaiablefromhttp:∥www.collocations.de/phd.html.
16.FirthJR. Papers in Linguistics 1934—1951.Oxford:OxfordUniversityPress, 1957.
17.GriceHP.Utterer’sMeaningandIntention. Philosophical Review,1969(78).
18.GriesS.PhraseologyandLinguisticTheory:ABriefSurvey. ∥GrangerS,MeunierF. (eds.) Phraseology: An Interdisciplinary Perspective.Amsterdam/Philadelphia:JohnBenjaminsPublishingCompany, 2008.
19.HartmannRRK,JamesG. Dictionary of Lexicography.Beijing:ForeignLanguageTeachingandResearchPress, 2000.
20.HunstonS. Corpora in Applied Linguistics. 北京: 世界图书出版公司,2006.
21.HunstonS.Corpus Approaches to Evaluation: Phraseology and Evaluative Language.NewYork:Routledge, 2011.
22.KrishnamurthyR.Corpus-drivenLexicography. International Journal of Lexicography, 2008(21).
23.LeechG.语义学.李瑞华等译. 上海: 上海外语教育出版社, 1987.
24.MalinowskiB.TheProblemofMeaninginPrimitiveLanguages.∥OgdenCK,RichardsIA. (eds.) The Meaning of Meaning.NewYork:Harcourt,Brace&World, 1923: 451—510.
25.McEneryT. Corpus Linguistics: Method, Theory and Practice.Cambridge:CombridgeUniversityPress, 2012.
26.PecinaP.AnExtensiveEmpiricalStudyofCollocationExtractionMethods. ∥Proceedings of the ACL Student Research Workshop, 2005.
27.SinclairJ.TheSearchforUnitsofMeaning. Textus, 1996(9).
28.StubbsM. Words and Phrases: Corpus Studies of Lexical Semantics.Oxford:Blackwell, 2002.
29.Tognini-BonelliE. Corpus Linguistics at Work.Amsterdam:JohnBenjaminsPublishingCompany, 2001.
(中国人民解放军国际关系学院江苏210039)
(责任编辑李潇潇)
Corpus-driven Definition: Values, Drawbacks and Solutions
Li Dejun
Abstract:The value of the corpus to lexicography cannot be overestimated. The corpus is not only significant in citation selection but also in dictionary definition writing. However, the corpus-driven method also has some drawbacks, which, if inappropriately treated, will be counterproductive. This paper, using concrete examples, discusses the advantages and problems of corpus-driven dictionary definition. As a special form of corpus-driven definition, the phraseology-driven method is recommended to solve these problems and make the corpus-driven method more efficient.
Key words:the corpus, corpus-driven, definition, phraseology