刘筱杉
(武汉大学文学院,湖北 武汉 430072)
所谓多义词,从语言信息处理的角度来看,就是“书写形式相同的一个词形表示了两个或多个不同的意义,即形与义形成了一对多的映射关系”[1]127。在语料库词义标注中,多是以传统词典中的义项划分作为重要依据的,但词典编纂中,由于人在区分义项时往往过于追求概念上的细微差别,使得义项粒度过于精细,超越了计算机的识别能力,进而给词义的自动标注带来困难。例如,《现代汉语词典》中,关于“大暴雨”一词有两个义项的描述:
[大暴雨]①指下得很大的暴雨。②气象学上指24小时内雨量达100—199.9毫米,或12小时内雨量达70—139.9毫米的雨。①若无特别说明,文中所引词义注释均出自《现代汉语词典》(第6版),北京:商务印书馆,2012年。文中语料均引自CCL语料库(网络版)。
义项①是泛指义,义项②是特指义,词义表达也很清楚,但是在词义标注时,例如:“珠江三角洲部分地方6日也下了224.8 毫米的大暴雨,并出现9级大风。”既可以选择外延大的义项①,因为暴雨不仅大,而且降雨量超过了气象学上的“199.9 毫米”;也可以选择外延小的义项②,因为既然雨量达199.9毫米是气象学上认定的大暴雨,那么比它大的224.8毫米理所当然也符合要求,造成选择难的原因在于义项②被表泛指的义项①所包含。而词义标注又必须要给真实语料中的每个词选择并标示一个确定的义项,由此可见,传统词典中的义项划分并非完全适用于计算机。
以上是词义自动标注在知识资源上存在的问题。若从标注实践来看,这是否意味着高准确率的词义标注无法实现?若否,又是否有新的解决途径?能否直接从具体语料出发,根据多义词在真实语料库中的使用及分布,去建构能被计算机所识别的、形式化的、规则化的区别性特征?然后再利用所建构的区别性特征,对词典中不合理的义项划分粒度进行调整?这样既能确保词义标注高准确率的实现,也解决了其在知识资源上的问题。但关键是,该如何提取有效的区别性特征?尽管有不少学者在这方面进行过研究,但他们在提取区别性特征时各有侧重,总的来说,缺乏一定的系统性、层级性。在前贤研究的基础上,我们尝试从真实的语料出发,根据多义词不同义项在词类、句法组合、语义搭配上的差异,对多义词义项的区别性特征进行更为合理、全面的建构,以提高词义标注的准确率。
在词义标注研究领域,学者们提出了义项粒度的概念,认为细粒度(fine-grained)和粗粒度(coarse-grained)与多义词的义项区分密切相关,直接影响到词义标注的正确程度。Ide & Véronis认为,“传统语文词典的义项切分粒度过小,导致有些多义词义项超出了自然语言处理的需求,增加了词义标注的难度。”Veronis 通过实验分析,将词义标注不一致的原因总结为三点:“1)词典的释义中能被计算机用于判断的线索较少;2)词典的义项区分没有充分考虑到实际运用中的词义布分;3)义项之间过于模糊,导致区别信息缺乏”。吴云芳、俞士汶指出:“信息处理用词语义项区分应对所标注的语料具有‘完备性’”[1]128;并且还要求“义项的区分具有‘离散和不相交’的特性,即在意义分析系统中不同义项之间是离散的”[1]129。肖航认为:“词典中多义词的义项之间存在重叠、相离、包含等关系,这些关系影响着词义的准确区分,具体表现为词义区分线索不足、义项缺失等,义项划分颗粒度是否适当及义项间是否有足够区分特征直接决定着词义标注的正确率。”苏新春在论述传统词典的义项特征时也指出,其“长于对具体词的考察,缺乏统一、整体的义项切分标准,义项颗粒度粗细不一,需将义项在使用中的独立性、完整性以及区别特征的显著性作为判断义项切分是否合理的重要依据”。通过以上分析,我们认为,多义词义项粒度过粗或者过细是导致词义标注难的主要原因。具体表现在:
1.当多义词义项划分颗粒度过细时,义项间通常呈现出包含或者大面积重叠关系,义项之间的语义距离相对较小,从词义标注的角度而言,会因义项与义项之间缺乏足够的区别性特征,而陷入模棱两可的境地。例如:
[过道]①新式房子由大门通向各房间的走道;②旧式房子连通各个院子的走道,特指大门所在的一间或半间屋子。
从释义上看,“过道”一词两个义项的核心内容都是连通房子各组成部分的走道,可见,两义项之间存在非常明显的重叠现象,差别仅仅在于义项①中的“房子”是“新式”的,而义项②中的“房子”是“旧式”的,也正因为两义项在释义上重叠的部分过大,使得用于能将彼此区别开来的部分相对较小。在词义标注时,通常会因区别性特征不足而造成困难。例如:“娇小玲珑的莫慧兰在不足百米的过道上就连遭记者三次‘包围’…”,似乎很难确定到底该选哪个义项,莫慧兰是站在“新式”过道还是“旧式”过道上,从句中无法判断出来,并且如此细微的义项划分,对分析句子帮助也不大,应合并成一个义项更好。
2.当多义词义项划分颗粒度过粗时,会使得原本有差别的两个义项并未划分开,导致义项划分未能反映出该词在语言实际运用中的真实面貌,这样词义标注的结果也会有悖于语言事实。例如:
[评论]①批评或议论;②批评或议论的文章。
从释义上看,“评论”一词的两个义项并不难区分,义项①为动词,义项②为名词,但在标注过程中,可以发现义项②所指过于宽泛。在真实语料中,还存在一种较特殊的“评论”,即针对重大事件或问题发表在报刊上的评述性文章,包括社论、评论员文章等。例如:“新华社发表了题为《在春天里放飞中国梦》的评论。”虽然此类“评论”囊括在义项②所指中,但又不同于一般的批评或议论性文章,它是一种新闻体裁。因此,有必要将义项②进一步拆分为两个义项,即a.批评或议论的文章;b.特指一种新闻体裁,如社论、评论员文章等。这样才会使标注结果更符合语言实际。为验证上述观点的合理性,我们发现《现代汉语大词典》(上海辞书出版社)中“评论”一词正是按照①批评、议论;②批评、议论的文章;③一种新闻体裁这样三个义项划分的。
鉴于作为词义标注重要资源的传统词典在义项划分粒度上存在上述不合理问题,可以利用区别性特征对其进行调整、改造。所谓区别性特征,是指义项在真实语料中赖以体现其意义内涵同时又能区别于其他义项的表达形式,是能被计算机所识别的形式化的产物,主要包括词类、句法组合、语义类搭配等。借助区别性特征对不合理义项划分粒度进行调整主要包括如下方面:
1.义项合并
(1)当多义词不同义项在语义内涵上有细微差异,且这一差异无法通过计算机所能识别的形式特征体现出来时,需对相关义项进行合并。例如“该”在《现汉》(第4 版)中有两个义项为:①应当:~说的一定要说。④表示根据情理或经验推测应当如此:再不浇水,花都~蔫了。义项①与义项④的“该”均为助动词,两者在句法组合上也大致相同即多出现于动词前,计算机很难从形式上对其进行识别,两义项在语义上的细微差别仅表现在前者是一种按道理、按照常理的“应该”,后者多是根据经验、情理作出的推测,即便由人来判断也会出现结果不一致的情况,因此宜将两者合并成一个义项。
(2)当多义词不同义项的语义内涵极为接近时,即便在形式上呈现出细微的特征差异,仍需合并相关义项,因为义项的划分不能为了形式而形式,立足于不同义项语义内涵有差异的划分才是有意义的。例如:[正义]①公正的、有利于人民的道理。②公正的、有利于人民的。义项①是名词,义项②具有描写性,属于形容词,多作定语,如:正义的人、正义的事业。尽管两义项在词性、句法组合特征上的差异为计算机的自动识别提供了区分线索,但其语义内涵却是极接近的,若暂不考虑义项的归属,单看“维护正义”与“正义战争”,似乎很难找出两者的语义差别,故有必要将两义项合二为一。以不同义项在语义内涵上有足够差异为前提来进行义项划分才是合理的,若盲目参照形式使得义项划分粒度过于细致,反会给计算机的自动识别增加不必要的负担。
2.义项拆分
多义词义项划分粒度过粗的情况也是常有的,当某一义项内部仍存在语义差异,且这一差异能通过计算机可识别的形式体现出来时,需对该义项进行拆分。例如:[打磨]在器物的表面摩擦,使光滑、精致:手工~︱这个剧本还得经过几次~。从后半部分的用例可以显示出传统词典对“打磨”的义项粒度处理是相对粗的。通过语义搭配这一区别性特征,可以发现与释义中的“打磨”搭配的语义类多为“器皿、用具”,如玉石、陶器、刀具等,而与用例中的“打磨”搭配的语义类多是“文章、剧本”等,这说明该义项内部仍存在语义差别。后者是由前者引申出来的。最好的处理办法是将其拆分为两个独立义项:①在器物表面摩擦,使光滑、精致。②对文章、台词等创作进行修改润色,使趋于完善。
3.义项补充
义项和语料之间需有清晰明确的对应,当义项的划分与真实语料中词义分布不一致时,需对缺失的义项进行补充。例如:[出轨]①(火车、有轨电车等)行驶时脱离轨道。②比喻言语行动超出常规:这话说得~了。从释义上看,义项①具有动作性,为动词,且后面无法带宾语;义项②具有描写性,能被程度副词“很”、“太”修饰,也能出现在“得”的后面作补语,如:这话太出轨、话说得很出轨。借助句法组合上的区别性特征,两义项似乎很容易区分开,但在真实语料中,我们却发现有些用例无法从现有的义项中找到与之匹配的义项,例如:“当然,像妻子出轨、孩子犯罪这种问题发生在自己身上的可能性极低…/结婚第四年,她丈夫出轨了。”例句中“出轨”前并未出现“很”、“得”等标志性词语,很显然与义项②不符合,再从语义搭配来看,与例句中的“出轨”搭配的语义类通常是“人”,而与义项①的“出轨”搭配的语义类则是“列车、电车”等交通工具,故义项①也是非匹配项。由此可见,传统词典中对“出轨”的义项划分是不具完备性的,借助语义搭配上的特征差异,我们认为应补上“比喻婚姻关系中一方或双方出现外遇行为”这一义项才算完整。义项的划分应全面反映该词在真实语料中的使用情况,只有这样词义标注的结果方才不悖于语言事实。
鉴于传统词典中义项划分粒度问题给词义标注带来了不少困难,Kilgarriff 甚至认为,“若不解决好多义词义项间区分难的问题,不仅词义标注无法达到高准确率,而且与之相关的研究也将走进死胡同。”与此同时,也有学者提出不同的看法。Wilks 认为Kilgarriff 的论断高估了多义词义项区分的难度,他通过对Gale 等人提出的“One Sense Per Discourse”(一篇一义)及Yarowsky 提出的“One Sense Per Collocation”(一搭配一意义)两个假设进行分析,指出:“从语料本身出发,有效利用多义词在具体语料中的使用和分布特点,高准确率的词义标注是可以实现的”。Palmer 认为:“能在义项区分中有效发挥作用的只有那些具体的、有形的标准(比如论元结构、句法框架、选择限制),而建立在世界知识之上的意义区分是值得怀疑的。”吴云芳、俞士汶也指出:“上下文语境是计算机区分词语意义的最终凭借,因此可以根据词语的句法行为来区分义项。”[1]130苏新春在论述机用词典义项库的建立时也提到,“要立足于义项意义内涵寻求义项形式差异,同时也要注重对义项形式特征的提取,并努力做到使两者相符”。
Kilgarriff 的观点虽有一定道理,但难免有将困难无限放大之嫌。尽管标注过程中会因义项划分粒度不当导致区分线索缺乏,从而使计算机陷入到选择难的境地,但也不宜把难度估计过高,并非没有解决的办法。从上述其他学者的观点中可以得到启示。我们认为,从真实的语料出发,由于多义词的使用和分布在具体语料中是有规律可寻的,可以根据多义词不同义项在句法组合、语义搭配上的差异,寻找到足够的区分线索,并对其进行形式化的描写并建构规则,以可识别的方式提供给计算机,高准确率的词义标注是可以实现的。同时,区别性特征梯级建构的过程,也是多义词义项与义项间的区分度不断明晰化的过程,完全可利用所建构的区别性特征,及时对词典中的义项划分粒度进行调整(如合并、拆分、补充义项等),使之更趋合理化,这样也解决了词义标注在知识资源上的问题。
另外,句法和语义也是相互依存与制约的。脱离了句法形式,语义关系无法得到体现;脱离了语义关系,任何句法形式毫无作用可言。因此在对多义词义项的区别性特征进行提取时,单从句法形式上进行分析是欠妥的,容易陷入到唯形式论的误区中。而是要将句法形式和语义关系、语义类别结合起来,互相渗透。例如:“吞没”一词有两个义项:①把公共的或代管的财务据为己有;②淹没。这两个义项均表示动词义,而且“吞没”后都可以带宾语及动态助词,两者句法组合功能大体相同,若要区分这两个义项,单从句法的角度似乎行不通,这时不妨通过“吞没”后面受事角色语义类的不同来寻求突破。借助真实语料,可以发现与义项①搭配的受事角色语义类多为“钱财”,与义项②搭配的受事角色语义类以“建筑物”居多,根据这一区别性特征,计算机便能很快将其区分开来。鉴于本研究中识别主体的特殊性即计算机往往对形式化、规则化的对象更容易识别,我们尝试先从形式入手再到意义即从词类层到句法层再到语义层即“梯级”递进的方式,对多义词义项的区别性特征进行更为合理与系统性的建构。由于区别性特征形式可以是多样的,故需对多义词不同义项所属的词类、句法组合功能、语义搭配及各义项在语言使用中的分布情况进行全面考察,并且遵循一定的规则与流程,采取逐层排除的方式,直至找出最为合理与有效的区别性特征。按照这一思路,我们认为对多义词义项的区别性特征进行梯级建构是可行的。
在前期的语言信息处理中,计算机自动分词与词类标注的正确率都已达到一定程度,由于不少多义词的不同义项所属词类也是不相同的,因此可以充分利用词类标注的成果进而对不同义项进行识别。例如:
[设计]①[动]在正式做某项工作之前,根据一定的目的要求,预先制定方法、图样等;②[名]设计的方案或规划的蓝图等:那两项~已经完成。
《现代汉语词典》中已明确标出义项①是动词义,义项②是名词义,当计算机对如下句中“设计”所属的义项进行识别时,首先可先通过专门的分词标注软件对其进行自动分词与词类标注,得到:
(1)高层建筑/n 的/u 建筑/n 设计/n 和/c 管理/n 上/nd ,/w 没有/v 达到/v 防火/v 规范/n 的/u 要求/n。/w
(2)电子/n 窗户/n 还/d 能/vu 按/p 用户/n 的/u要求/n 设计/v 出/vd 世界/n 某/r 一/m 旅游胜地/n的/u 风景/n ,/w 故/c 有着/v 广阔/a 的/u 销售/v 前景/n。/w
在此基础上,通过词类标记来进行匹配,第(1)句中“设计”的词类标记为n即名词,计算机可根据此标记很快找到与之相匹配的义项②,同理第(2)句中“设计”的词类标记为V即动词,计算机能很快判断出与之匹配的是义项①。
可见,通过借助前期词处理所取得的成果,在词类标记的辅助下,计算机可以准确地判断出很大一部分多义词的词义或者缩小多义词义项的数量,但是,此方法仅适用于多义词义项所属词性不相同的情况,当多义词不同义项所属词性都相同时,计算机则无法直接匹配识别。另外,在少数情况下,自动分词与标注也会出现错误,建立在此基础上的义项识别也会受影响,例如:
(3)并/c 以/p 这个/r 设计/v 为/vl 纲领/n 而/c行动/n(/w 当然/d 只有/d 失败/v)/w 。/w
第(3)句中,“设计”很明显应该标注为“设计/n”即名词才对,但却被标注为“v”即动词,这时计算机若根据错误的词性标注结果去匹配义项,只会得到错误的结果。对此,需要寻求新的途径去解决利用词类标记无法辨识的那部分多义词。
当无法通过词类标记找到相匹配的义项时,就必须进入到句法层面,尝试从组合功能的角度寻找义项间的区别性特征。即通过对该词在句中可与哪些成分组合进行逐一描写分析,从而找到义项甲具备而义项乙不具备、或者义项乙具备而义项甲不具备的某种特征。例如:
[沐浴]①洗澡;②借指受润泽;③比喻沉浸在某种环境中。
借助大量语料,我们对“沐浴”不同义项的句法组合特征进行描写,“沐浴”的句法组合特征见表1:
表1 “沐浴”的句法组合特征
表1清晰地显示出三个不同义项的“沐浴”在组合功能上的差异,义项①作谓语时,通常可以是光杆的,也可以与动态助词“着/了/过”直接连用,还可以带上动量补语,如:沐浴一次。义项②与义项③的“沐浴”也通常作谓语,后面可以不带任何成分,也可以带上动态助词或者补语,如:在日光下沐浴着/在暖阳里沐浴一下。但与义项①不同的是,义项②与义项③的“沐浴”后面可以直接带宾语或者介词短语,如:沐浴春风/沐浴爱情光辉/沐浴在金色的秋阳之中等。由此可见,沐浴后能否带宾语或者介词短语构成义项②与义项③区别于义项①的一个属性特征。
根据这一区别性特征,计算机能很快识别出与以下句中的“沐浴”意思相符的义项。
(4)两百年来,法国人沐浴在浪漫的气氛中。
由于第(4)句中的“沐浴”后出现了介词短语“在……中”,义项①能很快排除掉,而义项②与义项③则可以通过“沐浴”前的语义角色语义类的不同来区分。与义项②搭配的语义类多为“植物”,如花草、秧苗等,与义项③搭配的语义类以“人”、“建筑物”类居多(具体操作流程下文会详细说明),据此可以判定例句中的“沐浴”当属义项③比喻沉浸在某种环境中。
需要说明的是,计算机对于义项③的正确识别是以动词“沐浴”后的宾语或者介词短语不为空为前提的,为便于表述,我们把这一区别性特征设为Vx即当且仅当“Vx≠空”,这一区别性特征在实际操作中才有效。当“沐浴”后的宾语或者介词短语为空时,并不能断定“沐浴”就是义项①,例如:
(5)找个背风向阳的草坪坐下,任凭太阳沐浴。
(6)它让你在它的光辉里沐浴,又让你染上它的清香一步一回头地离开。
上文中的例(5)、例(6)句中“沐浴”的后面没有宾语或者介词短语,但计算机并不能就此识别出“沐浴”当属义项①表示洗澡,因为义项②与义项③的“沐浴”后同样可以不带任何成分,在形式上与义项①的“沐浴”相同。此时,计算机无法从形式上将义项①与义项②、义项③区分开来。这也正体现出借助句法组合功能识别多义词义项的局限性。在实际操作中,当多义词在句法组合上的某个区别性特征为空时,有可能产生与其他义项相同的句法组合形式,导致计算机无法从形式上进行义项识别,从而不得不采取新的手段来寻求突破。
当多义词的不同义项所属词性相同且从句法组合上也难以提取区别性特征时,就只能进入到语义层面,通过考察被标注词与其他词语在搭配上的一些语义限制,将不同的义项区别开来。根据“语义句法双向选择性原则”①邵敬敏认为对于一个X+Y的组合,不仅X要选择Y,而且Y要选择X即只有相同或互补语义特征的词才能搭配。以及“词语之间能否搭配,取决于双方是否存在耦合性义征或语义兼容性”[11],可以发现能够组合到一起的词语之间必然在语义上存在某种联系。因此当单从被标注词的角度无法找到突破口时,不妨考察有哪些语义角色可以与之组合到一起,充当这些语义角色的词语又隶属哪些语义类,从而找到使之与其他义项相区别的特征属性。下面就以多义动词“腐蚀”为例,进行具体说明。
[腐蚀]①通过化学作用,使物体逐渐消损破坏;②使人在坏的思想、行为、环境等因素影响下逐渐变质堕落。
1.建构语义角色描写框架
要从语义搭配上对多义词不同义项间的区别性特征进行提取,首先需要对能与该词搭配到一起的语义角色进行全面描写。我们采取了鲁川、林杏光先生的划分体系,将语义角色分为主体、客体、邻体、方式、根由、环境六种,并且每种语义角色又可细分,例如方式角色又包括工具、凭借和样式①参见鲁川、林杏光《现代汉语语法的格关系》,《汉语学习》,1989年第5期,第11-15页。。在此基础上,我们对不同义项“腐蚀”的语义角色搭配情况进行描写分析并建构框架,见表2:
表2 “腐蚀”语义角色描写框架
由表2可知能与义项①的“腐蚀”搭配的语义角色是受事、结果和工具,例如:硫酸能腐蚀皮肤。其中“硫酸”为工具、材料,“皮肤”则为受事。/昆虫的尸体被腐蚀成一片粉末。其中“昆虫的尸体”为受事,“粉末”为结果。能与义项②搭配的语义角色为受事、工具,例如:黄色书刊会腐蚀青少年。其中“黄色书刊”为工具,“青少年”则是受事。
2.语义角色的语义类归纳
完成了语义角色的框架建构后,需要借助真实的语料库,找到能充当这些语义角色的典型词语,然后进行语义类归纳,并与《同义词词林》的义类体系②参见梅家驹、竺一鸣《同义词词林》,上海:上海辞书出版社,1983年,第12页。《同义词词林》把词语分为大、中、小三级,按词义分类编排,共分12个大类、94个中类,1428个小类。例如:第二大类(B物)又分为Ba统称、Bb拟状物、Bc物体的部分、Bd 天体、Be地貌、Bf气象等18个中类,中类(Ba统称)又分出Ba01物体、Ba02生物Ba物品物件、Ba04货物产品、Ba05器具设备等10个小类。对应起来。我们对能进入到与“腐蚀”搭配的不同语义角色的词语进行语义类归纳,见表3:
表3 “腐蚀”语义角色语义类
表3清晰地反映出与“腐蚀”搭配的不同语义角色的词语在语义类上的差异。首先,从位于“腐蚀”之前的方式语义类来看,最大区别在于作为义项①方式的多为表“具体物”类名词,例如:有害气体、重金属、硫酸、细菌等;而作为义项②方式的词语多为“抽象事物”类,例如:荣誉、迷信观念、邪教、不良习俗等。其次,从位于“腐蚀”之后的客体语义类来看,最大不同是义项②的客体可以是“人”类,即只要“腐蚀”后客体位置上出现表示“人”的词语,就可以识别为义项②,另外,部分表“抽象事物”类词语也能作为义项②客体,例如:心灵、灵魂、精神等;与此相对,作为义项①客体的只能是部分“具体物”类词语,例如:皮肤、建筑物、船只、木材等。
根据上述语义类区别性特征,计算机可以对被标注词前后,对应语义角色位置上词语的语义类进行判别,并由此很快识别出下列句中“腐蚀”所属义项。例如:
(7)坤萨曼说,蝙蝠的大堆排泄物严重腐蚀了博物馆内的栋梁、木柱。
(8)近些年,不法组织腐蚀在校大学生的案例时有发生,已引起了相关部门的高度警惕。
第(7)句中“腐蚀”前面的方式角色“蝙蝠的排泄物”属于“Ba 废物类”,并且位于“腐蚀”之后的客体角色为“栋梁、木柱”,属于“Bn建筑物类”,于是可以判定该句中的“腐蚀”为义项①;第(8)句中“腐蚀”前面的方式角色“不法组织”当属“Di团体、派别”类,而位于“腐蚀”之后的客体是“在校大学生”,属于“A 人”类,故可判定该句中的“腐蚀”为义项②。
由以上分析不难发现,语义搭配实质上体现的是词语语义类选择机制,例如动词对论元角色语义类的选择机制,形容词对受其修饰名词语义类选择机制等,通过描写、归纳不同语义角色的语义类聚,进而提取区别性特征,其优点在于少量规则就可以涵盖大量具体词语的搭配,但要完成这样一个语义类描写体系,并建立相应规则库,工作量相当,还需持久努力。
多义词各义项的频率分布并非是均衡的,具体表现在某一义项很常用,使用频率高,而其他义项则用得很少,出现频率较低。尤其在语义搭配中,当充任某语义角色的词语较为零散地分布于众多语义类,导致不太好归纳时,不妨充分利用义项分布的不均衡性,先直接找出与非优势义项搭配词语或语义类,而不对与优势义项搭配的语义类别作详细描写、归纳,将其作为缺省值。在标注时,根据多义词所在句中的搭配成分,看其是否符合与非优势义项搭配的条件,如果是,就判定该多义词属于非优势义项,如果否,就取缺省值即该多义词属于优势义项。例如:
[参加]①加入某种组织或某种活动:~工作|~会议|~选举;②参与提出(意见):这件事儿,请你也参加点儿意见。
较之义项①,义项②出现频率相对较低,为了验证这一点,我们从北大语料库中随机抽取了500句含有“参加”一词的语例,结果发现表示义项②的句子不足5例,不仅数量少,而且用法也较为单一即只有“参加…意见”这一种用法,例如:“我不参加意见,让他们自己协商去。(《风雨故人来》白峰溪)”可见两个义项频率分布玄虚,义项②作为非优势义项出现的语境较为固定,义项①是优势义项,可以作为缺省值,毋须对其可以与哪些语义类搭配进行归纳,并且由于义项①的搭配极为丰富,要详尽描写也是相当困难的。在实际标注中,首先查看“参加”之后客事位置上是否出现“意见”这一常与义项②搭配的字段,如果是,就判定“参加”属于义项②表示参与提出意见;如果否,就取缺省值即“参加”属于义项①,这样不仅大大降低了计算机识别的难度,而且提高了准确率。
综上所述,在提取多义词义项区别性特征时,首先可从词类标记入手,当多义词不同义项所属词类不相同时,可通过词类标记,找到与之相对应的义项;其次当多义词不同义项所属词类相同时,需从句法组合上找出排它性特征;然后当在句法组合也上无明显性差别或者某区别性特征为空时,就只能通过语义搭配来找到突破;最后当充任某语义角色的词语较为零散,不便于归类,使得从语义搭配上也无计可施时,可充分借助频率排歧即通过非优势义项的排除来找到正确的义项所属。由此,得到提取多义词区别性特征的梯级建构模型(图中Y代表“是”,N代表“否”),见图1:
图1 区别性特征梯级建构模型
计算机对多义词词义的自动识别一直是语言信息处理中的难点问题。本文针对作为词义标注重要依据的传统词典中的义项划分问题进行了相关探讨,认为多义词义项粒度过粗或者过细是导致词义标注难的主要原因所在。进而尝试从真实语料出发,由词类标记到句法组合再到语义搭配即梯级递进的方式,对多义词义项的区别性特征进行更为合理与系统性的建构,并得到了梯级建构的模型。但本文的研究只是一种概要式的探讨,由于不同词类具有其自身的独特性,因此具体到单个多义词的区别性特征提取时,可能会在遵循上述操作流程的基础上有略微变化,还有待进一步研究。