○黄俊超
词条义项分合的标准化检验方法
○黄俊超
摘要:义项的划分需要明确一点:客观问题与主观问题的阶段性,即由客观问题的处理到主观问题的处理,是一前一后的阶段性操作。客观问题即指没有共时语义关系的义项切分问题,主观问题即指具有共时语义关系的义项分合问题。假设义项划分存在这两个问题,那么通过以下三个步骤可以实现划分:1.最小义项切分。2.局域识别。3.义项离合检验。为了做到标准化的检验,第三步可以通过在语料库中进行统计检验来实现。
关键词:义项分合义项划分统计检验
在词典编纂中需要对多义词进行分项说明,这就涉及到义项的划分。但基于义位的义项划分并不适用(符淮青,1998),并且各类词典也并未完全按照义位进行义项划分。虽然不同词典的同一词条其释义大同小异,但拥有的义项数还存在差异。一个词应该有多少个义项,义项A和义项B是否应当合并为同一个义项,义项C是否应该分拆D、E等次义项等问题都是值得探讨的。因此,制定一种更为标准化、步骤化、可重复操作的义项划分方法显得尤为重要。根据这一思路,本文吸收现有的义项划分成果,基于义项划分中的客观切分与主观分合假设,利用语料库统计的方法,制定出一套可操作的、步骤化的义项分合检验范式。通过步骤化操作,可以针对某词条现有的义项划分给出适当与否的评判,由此得到一个基于语料使用的词条义项划分。
义项作为词典学的使用术语,是辞书中一个词的释义条目,这些条目的划分表现出了两面性,一方面具有客观性,另一方面具有主观性。义项的划分具有主观性,这一观点可以从辞书的对比中找到依据,同一个词在不同的辞书中可能会有不同的划分。而支持义项划分具有客观性的人则认为,虽然不同辞书的义项划分可能不同,但这种不同是大同小异,即基本的义项类别在划分上是客观的。
实际上,义项划分所表现出的主观性与客观性,实则是相容的,二者并不矛盾,因为它们并非处在义项划分的同一时间段上。要理解这一观点,就需要弄清楚客观性和主观性的基础是什么。
首先,义项实际上找不到一个实际的语言单位与之对应。虽然义位与义项是一对极其容易混淆的概念,但并不能说义项在语言中的对应单位就是义位。符淮青(1998)就指出过义位的分合具有客观性,不能随意分合;而义项则是根据辞书编纂者的经验、词语使用现状有策略地分合,具有主观性,因而义项和义位是不对应的两个概念。
其次,需要知道,义项分合时常是一个局部问题而非全局问题,亦即涉及义项分合的区域通常并不是整个词义,而是词的多个义项当中的某几个义项需要考虑分合问题。例如词W拥有A、B、C、D、E五个最小义项[1],可能A、B和C、D、E具有明显差异,因而A、B与C、D、E是相对独立的,义项划分中不会出现A、B与C、D、E的交叉义项。而其中的A、B可能存在分合问题,C、D、E可能存在分合问题。这些问题都是局部问题,通常不涉及到A、B、C、D、E整体的分合。这个现象的原因大多在于词的历时性,一个词的义项可能由于年代、来源成分的差异而显得毫无关联,或者至少在共时层面上找不出关联,那么A义项就很容易与B义项区分开来,并且没有争议。例如《现代汉语词典》[2]关于“木”的释义:
(1)木:①树木②木头③棺材④质朴⑤{形}反应迟钝⑥{形}麻木⑦(名)姓
其中①②是不可能与③④⑤⑥⑦释义合并的,因此不存在关于①②③合并为一个义项的争议,只有①②之间存在合并的争议。可见义项分合的研究对象往往不是词义的全局而是局部,当排除掉一些不在局域内的义项后,义项的分合问题才面临了真正的对象。而这些义项之所以难以分割,是因为它们可能具有引申、比喻、交叉、包蕴等关系,例如《现汉》里的“节日”“大雁”:
(2)节日:①纪念日,如五一国际劳动节等。②传统的庆祝或祭祀的日子,如清明节、中秋节等。
大雁:①鸿雁(鸟名)。②泛指雁类。
“节日”的两个义项间有着交叉关系,大雁的两个义项之间有着包蕴关系。总之义项间要具备“语义关系”才可能引起分合问题,否侧义项的分合问题实际上是不存在的,“关系”是串联起义项的桥梁。
根据以上两点可知,客观性与主观性的基础不是任何语言单位,而是一种关系,即共时语义关系。当语义关系增强时,分合的主观性就会增强,当语义关系减弱时,客观性就会凸显。这也就是为什么义项的划分表现出“主客观两面性”的特点。
由此,义项划分应至少由两个步骤来完成对主观问题和客观问题的处理:一步用以处理客观性问题,即义项的切分处理;一步用以处理主观性问题,即义项的分合处理。并且客观性问题的处理要先于主观性问题的处理,这是由于客观性是全局的,而主观性是局部的。我们将这两个步骤实现为“局域识别”和“分合检验”。局域识别依据义项的客观性划分出“分合”的对象,分合检验解决义项分合的主观性问题,让分合更符合语言使用现状。例如义项A、B从各项应用指标都反映出它们具有显著独立的使用[3],那么毫无疑问A、B应拆分为两项,反之合为一项。这里的“指标”实际上是指义项中特有义征[4]的独立性,而独立性的度量是用某义项在语料中的使用比例来测度的。如果在实际语言运用中,某几个义项并没有达到足够独立的使用比例,那么该义项就不具有独立性,应当合并;反之,则具有独立性,可以分别独立为一个义项。
需要指出的,上述分析中使用的A、B、C、D、E是最小义项。最小义项是一个操作单位,不是对应特定语言单位的术语。最小义项是义项的极限取值,也就是把可能成为义项的词义都切分出来作为一个义项。有了最小义项才可能讨论义项的分合问题,也就是说最小义项是实际的研究对象。并且最小义项的切分实际是在提前处理义项中“分”的问题,进而把义项的分合问题简化为义项的合并问题,之后只需寻找义项的合并理据。最小义项这一概念的难点在于概念的界定以及如何得到最小义项。由于义项不同于语言学中的义位,单凭义素作为划分义项的标准是行不通的。义项有时反映一个义位,有时则是多个义位的综合反映,例如“航船”的两个义项分别反映了一个义位:
(3)航船:①江浙一带定期行驶于城镇之间的载客运货的木船。②泛指航行的船只。
义项最大的特点是其包含的义位具有非完整义位的特点,也就是说义项可能包含一些其他的义素、义征,但不必满足义位的完整性,义征并没有构成义位,形象地说,义项可能会包含1.5个义位。例如《现汉》的“吃白饭”一词:
(4)吃白饭:①吃饭时光吃主食不就菜。②吃饭不付钱。③只吃饭而不干活(多指没有工作),也指寄居别人家里,靠别人生活。
义项②③共享了一个义位“不付钱”,但其中义项③是作为一种特殊的社会意义来表达的,因此只算是一种引申,那么就不是多个义位的组合,但义项③又包含着“[依靠他人]”等义征,由此可见,实际上义项③包含的义位是大于①小于②的。
因此,最小义项应该是至少包含一个义位的义项,而其义位以外的义征越少,这个义项也就越独立,进而也就越接近最小。那么区分最小义项的标准就不是义位而是义征。
以上对最小义项的叙述仅是一种假设,并且难以操作。为了在义项分合问题的处理中获得与最小义项近似的“基元”,我们将选用一种简便的方法,通过综合不同辞书的义项划分,给出一个最小义项的切分。这种方法看似随意,但它实现了两点:一是足够小,二是划分可用性高。“足够小”指出,通过这种方法得到的义项是在可观察到的材料中划分最小的。“划分可用性高”指出,这种方法是基于现有辞书成果而进行的合理归并,因此可以避免由于新方法的介入导致划分不当的问题。
据上述,义项分合问题将采用基于语料库的统计方法来解决。总体来说,这一工作需要三个步骤:最小义项切分、局域识别、义项离合检验。
局域识别的工作是剔除掉不在分合问题范围内的义项,把那些没有“关系”的义项直接独立出来,不再列入检验范围。这一步可能有如下结果:
图1:
如图1,当义项经过局域识别后,剩下的C、D、E才会进入到分合检验的环节,而A、B分别独立为两个义项,又因为A、B是最小义项,因而不再继续分析。例如《现代汉语词典》中“目”的释义:
(5)目:①眼睛②网眼③<书>看④大项中再分的小项⑤生物学中把同一纲的生物按照彼此相似的特征分为几个群叫做目,如鸟纲中有雁形目、鸡形目、鹤形目等,松柏纲中银杏目、松柏目等。目以下为科⑥目录⑦名称⑧计算围棋输赢的单位
其中①②③具有相关性,④⑤具有相关性,⑥⑦⑧不具有相关性,因此可以作如下划分:
①②③||||④⑤||||⑥||||⑦||||⑧
存在分合争议的义项只在①②③和④⑤的内部,⑥⑦⑧并不参与分合检验,可直接分别独立为一个义项。
得到局域内的义项后便需要进行义项的分合检验,这一步采取的是基于义征标示的离合度检验方法。依据具有不同义征的义项的使用率,以评价义征所标示的义项的独立程度。每个义项只提取出一个特有义征作为标示,在语料库中检索出含有该词局域内义项的语料,逐一进行义征的标示,统计使用频数。进而利用语料总数得到义项的实际使用比例。这一步需要将不同的义项看作是不同的总体,理由有二:第一,由于这一步检验的对象都具有一定程度的相关性,因此不宜对其进行相关性检验,将不同义项看作独立的总体,转而检验总体间的差异性更为合理;第二,义项的分合关键在于义项的使用状况与其他义项有无差异,如果一个义项的使用明显弱于局域内的其它义项,那么就应该被合并[5]。将义项看作独立的总体后便进行假设检验:
第一,取实用频数与总语料数的比值作为样本的比例ρ,并近似看作总体的比例π(条件允许的情况下可使用多样本给出比例的点估计或区间估计,可提高比例的真实性)。
第二,假设两个总体比例相等(因为此处的义项为最小义项,基于释义的精准要求,在此将“比例不等”看作是小概率事件,即采取不轻易合并义项的策略)。
“吃”在《现汉》中共有8个义项:①{动}把食物等放到嘴里经过咀嚼咽下去(包括吸,喝)②{动}依靠某种事物来生活③{动}吸收(液体)④{动}消灭(多用于军事、棋戏)⑤{动}承受⑥{动}受;挨⑦{动}耗费⑧{介}被(多见于早期白话)。
《新华》中共有9个义项:①.把东西送进口中咽下,或依靠某种事物生活②消灭(多用于军事、棋奕)③吸④感受⑤挨⑥承受,支持⑦船身入水的深度⑧被⑨说话结巴
按照项数最大化、义项最小化的原则,得到11个最小义项:
①{动}把食物等放到嘴里经过咀嚼咽下去;②{动}依靠某种事物来生活;③{动}吸收(液体);④{动}消灭(多用于军事、棋戏);⑤{动}承受;⑥{动}受;挨;⑦{动}耗费;⑧{介}被(多见于早期白话);⑨{动}吸,喝;⑩{动}船身入水的深度;说话结巴;
经过局域识别后可以得到如下排列:
①⑨||||③||||②||||④||||⑤⑥||||⑦||||⑧|||| ⑩||||
可见,即使多达11个最小义项的词,在经过局域识别后,实际上涉及到分合问题的义项并不多,因此局域识别是义项划分中的重要一步。接下来,只需处理义项①和⑨、义项⑤和⑥的分合问题。将①的义征标示为[咬],⑨标示为[吸],使①、⑨得以区别;⑤标示为[中性],⑥标示为[贬义],使⑤、⑥得以区别;这一步的作用是使相近的义项得以区分开来,然后利用语料库[6]统计到,在1000条语料中①的频数为442、⑨的频数为17,⑤的频数为6、⑥的频数为13,因此:
ρ1=0.442,ρ9=0.017
ρ5=0.006,ρ6=0.013
进而提出假设:
H0:π1=π9,H1:π12≠π9
H0:π1=π6,H1:π5≠π6
ρ1与ρ9的z值 = 23.611
ρ1与ρ6的z值 = -1.75
根据决策准则可知,在显著水平为0.05的条件下,ρ1与ρ9的z值落入拒绝域,ρ5与ρ6的z值落入接受域,由此推断义项①和⑨的比例差异较大,即一个使用频率高一个使用频率低,不宜将小比例的义项⑨单独立为一个义项;义项⑤和⑥的使用差异不大,亦即两者均等,因此可以分别独立出来。
最终“吃”的义项划分为:
①{动}把食物等放到嘴里经过咀嚼咽下去(包括吸,喝);②{动}依靠某种事物来生活;③{动}吸收(液体);④{动}消灭(多用于军事、棋戏);⑤{动}承受;⑥{动}受;挨;⑦{动}耗费;⑧{介}被(多见于早期白话);⑨{动}船身入水的深度;⑩{形}说话结巴;
义项划分应当明确区分出两个问题,一个是客观性问题——局域切分,另一个是主观性问题——分合检验。而义项分合问题只有在划分出局域后才面临真正的对象。由于此时的义项具有相关性,而义项本身又难以找到客观的语言单位与之对应,因此适合从应用的角度进行检验,其首要标准就是该义项的使用比例。由于之前已经剔除掉了非局域成员,因此不会出现某低频义项由于使用率低而无法独立的情况。需要指出的是,利用统计方法进行使用率的检验,虽然在一定程度上可以改善义项分合的任意性,但这种方法也有很大的局限性,例如样本容量较小时易出现不当划分,实用频数过低时义项划分的波动性也会增大。并且由于义征标示的工作量较大,因此在大规模的辞书编纂中不宜使用此类方法,相较于辞书编纂,在义项划分的合理性评判等小规模问题的处理中更具有操作性。
注释:
[1]“最小义项”概念的在下文介绍。
[2]使用《现代汉语词典》第六版,以下简称《现汉》。
[3]此处的“使用”不是语法上的分布,而是参考语料分布的使用情况。
[4]在下文“最小义项”的讨论中将解释“特有义征”的作用。
[5]此处的前提是经过了局域划分的义项。当义项经过局域划分后,义项间的差异就是主观的而不是客观的,因此才依据使用状况来判断分合。
[6]语言文字应用研究所语料库网络版http://www.cncorpus.org。
参考文献:
[1]符淮青.词义单位的划分[J].汉语学习,1998,(4):26-32.
[2]符淮青.义项的性质与分合[J].辞书研究,1981,(3):86-94.
[3]黄彬.义项划分的依据与标准[J].辞书研究,2005,(5):31-36.
[4]金立鑫.语言研究方法导论[M].上海:上海外语教育出版社,2007:102-117.
[5]贾俊平.统计学(第四版)[M].北京:中国人民大学出版社,2009:231-233.
[6]刘哲.《现代汉语词典》义项划分刍议[J].辞书研究,2002,(2):12-15.
[7]李安.对义项设立是否贴切的一种检验方法——词义标注对词典编纂的一点启示[J].辞书研究,2012,(3):28-31.
[8]尹洁.义项界说综论[J].辞书研究,2013,(3):21-29.
[9]杨金华.释义·义项划分·义项排列 (上)——《现代汉语词典》和《小罗贝尔法语词典》的对比初探[J].辞书研究,1987,(4):98-105.
[10]章宜华.多义性形成的认知机制与词典义项的处理——兼谈多义词的语义理据及词典义项的解读[J].广东外语外贸大学学报,2005,(3): 13-18.
[11]章宜华.语义·认知·释义[M].上海:上海外语教育出版社,2009.
[12]赵学清.古汉语辞书义项处理的客观性和主观性[J].辞书研究,2004,(2):22-30.
[13]邹酆.论义项的概括与“分合”[J].辞书研究,1980,(4):197-208.
(黄俊超西南民族大学文学与新闻传播学院610041)
基金项目:(西南民族大学中央高校基本科研业务费专项资金项目“词条的义项分合标准化检验研究”,项目编号:[2015ZYXS56]。)