刘鹏远,刘玉洁
(北京语言大学 信息科学学院,北京 100083)
名词是人类语言最基本的词类范畴之一,包含了大量思维和认知信息,在语言学研究中占有非常重要的地位。名词短语不但一直是中外语言学领域的重要研究对象,近年来在自然语言处理领域也受到研究者的持续关注。
国外,Downing[1]针对英语复合名词短语提出了十二类语义关系。国内,吕叔湘先生[2]将作定语修饰成分的名词与中心名词之间的关系分成三大类。随后,众多学者针对名词短语提出了很多语义关系分类方法,但鲜有基于语料库大规模实例的验证。
Vanderwende[3-4]首先进行了名词短语语义关系标注知识库建设的尝试,但规模很小。目前最大的英语复合名词短语语义关系知识库是Tratz&Hovy[5]建立的,该库共含有17 509条短语,标注了十二类语义关系,每一个大类关系下还分了小类,也进行了语义关系标注。迄今为止,汉语并无类似的开放语义资源,仅有魏雪和袁毓林[6-7]以隐含谓词的识别和自动释义为目的而建立的名名搭配知识库,规模为638条,暂没有开放。
建立复合名词短语语义关系体系,并建立基于该体系且具有一定规模的知识库,可以帮助研究者们分析及发现名词短语的句法语义规律,对名词短语的自动释义、语义关系自动分类及名词短语复述等相关任务的研究具有很大价值。本文针对基本复合名词短语[注]复合名词短语源于英语研究者所用“Noun Compounds”,意为多个名词复合而成的短语,整体表现类似一个名词。本文将该结构的名词个数限定为2,这样的结构是复合名词短语中最“基本”的一类,因此加上“基本”,对复合名词短语做词数限制。以下简称“NN短语”。,对中外众多学者提出的语义分类体系进行梳理,并以Levi[8-9]的语义分类体系为基础,结合汉语相关研究及汉语自身特点,在反复考察大规模语料库中基本复合名词短语实例的基础上,建立了中文基本复合名词短语语义分类体系;并利用该体系,对18 218条新闻领域高频基本复合名词短语进行了人工标注。标注内容包括:语义关系,句法结构,语义类及是否实体指称等信息。
本文后续组织如下:第1节对相关研究进行了综述;第2节介绍NN短语的语义关系分类体系以及知识库构建;第3节是对建立的知识库的语义基本情况的考察;最后一节对全文进行总结。
国外复合名词短语语义关系分类的研究主要有两种路线,其一是通过复合短语内部各个成分的语义类来定义其语义关系(始于Downing[1]),另一种则是基于删除谓词的语义类来定义复合名词短语内部成分的语义关系(始于Levi[8]及Warren[10])。
Downing[1]认为,对于某一个有限数量的语义或语法种类的关系,可以作为短语关系的潜在关系。他提出了十二类语义关系:(1)Whole-Part;(2)Half-Half;(3)Part-Whole;(4)Composition;(5)Comparison;(6)Time;(7)Place;(8)Source;(9)Product;(10)User;(11)Purpose;(12)Occupation。
Levi[8-9]在对英语复合名词短语的研究中,通过删除谓词对获得的“ N1+N2”复合名词短语的名词成分之间的语义关系进行分类,并根据可删除谓词的语义类,提出了此种结构中作修饰成分的名词和核心名词之间的十二种语义关系:(1)N1 CAUSE N2;(2)N2 CAUSE N1;(3)N1 HAVE N2;(4)N2 HAVE N1;(5)N1 MAKE N2;(6)N2 MAKE N1;(7)N2 USE N1;(8)N2 BE N1;(9)N2 IN N1;(10)N2 FOR N1;(11)N2 FROM N1;(12)N2 ABOUT N1。
Warren[10]认为复合名词短语的一个特点就是其中的抽象语义关系,这种语义关系由四个层级组成,最顶层有六种粗粒度的语义关系,分别为(1)Possession;(2)Location; (3)Purpose;(4)Activity-Actor;(5)Resemblance;(6)Constitute;而每一大类下面又包含众多细粒度语义关系类型。
随后的研究者在以上研究基础上继续改造或细化,陆续见文献[5,11-14]等。
国内传统汉语相关研究中,复合名词短语内部名词之间的关系集中在修饰语(定语)和中心语的关系上,相关研究常常面向包括如“N1+(的)+N2”结构或其他名词中间插入了其他成分的结构,统一将之视为名词作修饰语(定语)的情况进行讨论。吕叔湘[2]将作定语的修饰成分名词和中心名词的关系分为领属性的、描写性的、同位性的;朱德熙[15]提出修饰语和中心语意义上的联系是多种多样的,主要包括表示领属者、表示质料、表示时间、表示处所等。
相关研究成果如按照类别数量可分为两类。一类是两类说(两大类,大类下可能再分为小类):袁毓林[16]将名词作定语的情况分为领属定语和属性定语两大类;张卫国等[17]将名词作定语的情况分为限定性和区别性两大类;李宇明[18]将“N1的N2”的结构中,名词之间的关系分为属性关系和非属性关系;文贞惠[19]将“N1(的)N2”结构中名词之间的语义关系分为领有范畴和属性范畴两大类;后续还有蔺璜[20]及谭景春[21]的相关研究。另一类是多类说:黄国营[22]认为“N1的N2”中名词之间的语义关系共有十种:领属、属性、材料、比喻、同一、相关、成数、施事、受事、举例;孔令达[23]又进一步将其细分为十四类;单强、牛守祯[24]将名词作定语的情况分为领属、数量、时间及处所定语等;马洪海[25]考察了“名+名”偏正结构和复指结构,将偏正结构语义关系分为七类,把复指关系的名名组合语义关系分为了八类;周日安[26]归纳出18种复合名词短语语义格组合;魏雪[27]归纳出了26种语义组合关系。
从语言信息处理角度,对应的是槽关系的研究,如鲁川[28]、林杏光和张庆旭[29]等。但更多的研究并不是聚焦在复合名词短语上,而是在汉语所有结构的语义关系层面进行的研究,如冯志伟[30]根据依存句法提出了30种论元关系;鲁川[28]提出的意合网络中归纳出了6大类,共26种关系;董振东[31]等人提出事件内部语义关系总计83类,分为语义角色及辅语义角色;刘开瑛[32]基于CFN概括了31个常用的周边语义角色。
总的来说,前人的相关研究中,国外已有成系统的短语内部名词之间的语义关系体系,且在此基础上形成的研究成果颇丰。而国内的研究往往是针对名词作定语的情形对名词定语进行分类,缺少对NN短语的针对性研究。在NN短语中,其结构类型也是多样的,不仅有定中结构,还有同位结构、主谓结构和联合结构等。针对NN短语的研究缺乏相应的语义关系分类体系,仅仅以语义的组合来代替短语内部名词之间的语义关系,难以体现语义组合内部的深层关系。
国外最早由B Rosario&M Hearst[33]建立了包含1 660条名词短语及其语义关系的知识库。随后Kim&Baldwin[34]、D ó Séaghdha&Copestake[14]及Girju[13]分别构建了包含短语及相应语义关系的知识库,规模分别为2 169、1 443及2 031条。目前国外最大的名词短语语义关系知识库规模为17 509条,由Tratz&Hovy[5]所构建,该知识库标注了语义关系及名词词性。
严格说来,汉语目前尚无类似的知识库资源,特别是开放资源。肖国政建立了基于语义依存图的汉语复杂名词短语资源,但没有资源规模等信息。魏雪和袁毓林[6-7]以隐含谓词的识别和自动释义为目的建立的名名搭配知识库,规模为638条。卢涌[35]针对“名词+的+名词”的结构总结出了三十多个释义模板,形成了一个短语释义库,规模为1 000条。以上资源均未对外开放。其余语义关系知识库资源并非针对复合名词短语,词汇级别的主要有知网等,句子级别的有哈工大和北语联合开发的语义依存关系标注语料库等。
为保证NN短语的规范性,本文基础数据来源为新闻语料,选自国家语言资源动态流通语料库(DCC)2005年至2015年的全年报刊数据,共超过30亿字次。我们使用LTP平台和jieba分词对语料进行分词及词性标注,以连续词性为“名词名词”的序列为识别模式,抽取上述两种分词结果,得到模式的交集,最终得到290多万条NN短语,其中出现频次在100以上的有22 474条。
在这些NN短语中,有小部分不属于本文考察范围,主要包含以下三种情况:
(1)多层嵌套名词结构的一部分。例如,“《今日美国》报道,中国国家统计局公布的中国经济成绩单提振了全球市场信心”。“中国国家”是形如“中国国家XXX”的一部分,随着该类型结构的大量出现,导致“中国国家”频次较高。
(2)分词粒度不一致。例如,“其中,进城务工人员子女的教育,特别是义务教育问题日益引起了社会的关注”。分词工具将“务工人员”视为一个名词,而实际上“务工人员”是两个词构成的短语,根据本文的定义,“务工人员子女”就不是本文关注的NN短语。
(3)词性标注错误。例如,“民警随即将犯罪嫌疑人王某龙及其车辆带回调查”。分词工具将“犯罪”标注成名词,而该词只有动词词性,故而“犯罪嫌疑人”非NN短语。
经过人工分析和确认后,共从出现频次100以上的22 474条短语中筛选18 281条NN短语用于本文的研究。
汉语相关研究中,并没有针对NN短语建立的语义关系体系。本文参考研究与应用最为广泛的Levi体系(英语),结合汉语中对名词短语的相关研究成果,对上述18 281条短语进行了反复试标注,由于汉语与英语NN短语存在很大差异,本文最终所建立的汉语NN短语语义关系体系与Levi体系有较大的差别。本文建立的语义关系体系共包含十四类语义关系:
(1) Cause: 致使/引起/导致(因果关系)
N1是导致N2产生的直接原因或N2是导致N1形成的直接原因。
① 原因+结果: 地震灾区(由于地震形成的灾区)、病毒感冒(由病毒引起的感冒);
② 结果+原因: 禽流感病毒(引起禽流感的病毒)、事故车辆(造成事故的车辆)。
(2) Have: 患有/含有/拥有(领有关系)
可以用“有”相关的词来解释。 N1是N2的外部特征。
① 患有: 自闭症儿童(患有自闭症的儿童)、 重症病例(患有重症的病例);
② 拥有: 技术人才(拥有技术的人才)、实体书店(有实体的书店)、武装分子(拥有武装的人);
③ 含有: 碳酸饮料(含有碳酸的饮料)。
(3) Make: 用……做成/由……组成(做成组成关系)
N1是N2的主要和直接组成成分。
① 材料成分: 木头桌子(用木头做的桌子)、水果沙拉(主要用水果做成的沙拉);
② 成员: 志愿者队伍(由志愿者组成的队伍)。
(4) Use: 使用……做/采用(使用关系)
N1是 N2的使用工具、使用方法和使用材料。可以通过“用”类相关动词来连接释义。
① 用工具: 砂锅排骨(用砂锅炖的排骨)、钢琴协奏曲(用钢琴弹奏的协奏曲);
② 用原料: 燃气热水器(使用燃气的热水器)、汽油发动机(使用汽油的发动机)、激光武器(使用激光的武器);
③ 用方式: 法治中国(采用法治方式治理的中国)、冷链物流(使用制冷技术的物流)。
(5) Be: 是(属性说明关系)
N1对N2某种属性的说明和补充,N1和N2是从不同侧面对同一事物的描述。
① 指称: 总统普京(总统[姓名]是普京)、英雄黄继光(英雄[姓名]是黄继光)、埃博拉病毒([名字]是埃博拉的病毒)、深圳特区([名字]是深圳的特区)、东风汽车([品牌]是东风的汽车);
② 补充: 老王夫妇、夫妻双方、母女关系;
③ 陈述: 今天星期一(今天是星期一)、明天晴天(明天是晴天)。
(6) For: 为了/用于(目的关系)
N1是N2的用途,包括目的和目标两个方面。
① 目的: 公益项目(为了公益而……的项目)、慈善基金(为了慈善目的的而成立的基金);
② 目标: 婴幼儿配方(用于婴幼儿的配方)、儿童牛奶(用来给儿童喝的牛奶)。
(7) From(来源关系)
表示N1是N2事物的来源。
① 具体: 中国游客(来自中国的游客),新华社消息(来自新华社的消息);
② 抽象: 部门规定(来自部门的规定)、社会需求(来自社会的需求)。
(8) Do: 从事/教/生产(从事关系)
N1是N2所从事的工作,可以是领域或者内容等。 N2可以是人或者机构等。
① 领域: 互联网精英(从事互联网领域工作的精英)、生物学者(从事生物相关研究的学者);
② 内容: 钢铁工人(生产钢铁的工人)、英语教师(教英语的教师)。
(9) Like(比喻关系)
N1是对N2的比喻或者隐喻。往往可以用“像……一样”来解释。
例如: 金砖国家(像金砖一样的国家)、 影子银行(像影子一样的银行)。
(10) Of(属性属于关系)
① 属于: 广汽丰田(属于广汽的丰田品牌)、集体财产(属于集体的财产)、消费者权益(属于消费者的权益);
② 属性: 中国特色( 中国的特色)、西洋风格(西洋的风格)、产品质量( 产品的质量)。
(11) Locate/In(位于关系)
N1 和 N2 在空间上有包含和被包含的关系。
例如: 杭州西湖,英国伦敦。
(12) And(并列关系)
N1和N2在语义上处于平等位置,属于并列列举关系。
例如: 华人华侨、田间地头、爸爸妈妈。
(13) Time(时间关系)
N1和 N2有时间上有先后或者时间点和时间段的包含关系。
例如: 昨天下午、去年春天。
(14) Content(内容关系)
N1是N2所指称事物的具体内容。N2通常是相对抽象和概括类的名词。
例如: 能源项目(内容是能源方面的项目)、户籍政策(内容是有关户籍的政策)、质量报告(内容是有关质量的报告)
NN短语知识库标注内容主要分为结构和语义两个方面。结构是指基本短语内部两个名词之间的结构关系;语义则包括三部分,一是组成短语的名词所属的语义类别,二是组成短语的名词之间的语义关系,三是基本复合名词短语是否指称一个命名实体。其中语义类别的标注根据上一节中建立的语义关系体系进行标注。数据条目标注示例如表1 所示。
表 1 数据条目标注示例
2.3.1 短语结构关系标注
基本复合名词短语的内部语法结构包含四种: 定中结构、联合结构、同位结构和主谓结构。以每种结构的拼音缩写为标记来对短语进行标记,即分别标记为dz(定中)、lh(联合)、tw(同位)、zw(主谓)。
定中结构: 定中短语由有修饰关系的两部分组成,构成短语的两个名词中,前者为修饰语,后者为中心语。例如: 中国人民、工作会议。
联合结构: 联合短语由语法地位平等的两项组成,内部词语之间是联合关系。例如: 华人华侨、好人好事。
同位结构: 同位短语是指构成短语的词语不同,但所指的是同一事物,且二者语法地位相同。其与联合短语的不同之处在于,构成联合短语的两个名词指的是不同的事物,而同位短语则是用不同的词语指称相同的事物。例如: 首都北京、习近平主席。
主谓结构: 主谓短语由有陈述关系的两个成分组成,前面是主语,表示说的是人或者事物,后面陈述的部分是谓语,说明主语的状态或者是什么。例如: 今天星期一、明天晴天。
2.3.2 名词语义类标注
本文用北京大学的《现代汉语语义词典》(SKCC)为参考标准,进行短语内部名词语义类别的标注。根据SKCC的语义类体系,我们在其基础上添加了几个小类: 一是在“个人”下面添加了“称谓”;二是将除人名、地名以外的命名词统一提出来标注为“命名词”,如建筑物名、游戏名、舞蹈名等。
对于名词的语义类标注,本文遵循以下几个原则:
① 标签尽量细致。也就是能标小类的尽量标注小类,实在无法细分的,可以标为上层标签。例如: “白色” ——颜色(抽象事物);利益——抽象事物。
② 对于 SKCC 中没有的词,本文采用相似词标签相同的原则。例如: 词典中没有“妇科”等词,但是有“骨科”,并且标签为“领域|处所”。根据词语相似原则,也将“妇科”标注为“领域|处所”。
③ 对于 SKCC 中同类词标签不一致的地方,要更正并标注正确标签。例如: 词典中将“绿色/蓝色”标注为“颜色”,但把“红色”标注为“抽象事物”,把“紫红色”标注为“外形”。将颜色类的词统一标注为“颜色”。
④ 对用普通名词作为命名词的情形,“命名词”和原有的语义类都要标注,二者用“|”隔开。例如: “花园小区”中的“花园”,标为“命名词|建筑物”。
2.3.3 命名实体标注
对于狭义的命名实体,采用以下的判断原则:
① 符号性: 命名实体是唯一一个个体的专有名称,是一个区别性称谓,具有代号性质。
② 命名实体所指称的事物不可向下再分类。
③ 命名实体所指称的事物是世上独一无二的,通常不可以被数量词修饰;一旦以数量词修饰,命名实体就被转义了。
广义上,命名实体还包括一些非概念性称谓,如“厄尔尼诺现象”“格力空调”。这种非概念性称谓一般只具备符号性,而不具备个体性和唯一性。在本文标注内容中,我们采用广义的命名实体定义,将基本复合名词短语中在位置上与命名实体紧密相连、语法词法上与命名实体紧密结合、语义上与命名实体概念范畴相同的词统一用数字标签“ 1”标注出来。
2.3.4 知识库建设成果
知识库的标注采用双盲标注,然后由第三人进行复核。短语句法标注一致率为99.9%,短语语义关系标注一致率为87.4%。最终形成了总共包含短语数 18 281条的NN短语句法语义知识库[注]该库已经开源,共享在: https://github.com/liupengyuan/Basic-Noun-Compounds。包括短语所包含的每一个名词的语义类、每一条短语的短语结构、语义关系和命名实体。形成了三个表,分别包含: ①短语和各个句法语义信息;②语义类组合语义关系对应信息;③语义类组合和是否为命名实体。知识库的最终标注成果规模如表2所示。
表2 NN短语知识库的规模
续表
知识库前50%的语义类出现的次数占到了所有语义类总数的90%。出现频次排名前五的语义类有: 抽象事物、地名、身份、处所及领域(图1)。语义类组合较多,其中频次前五的语义类组合为: 职业+人名、地名+地名、地名+处所、身份+人名、地名+机构。在排名最靠前的十个语义组合中(图2),仍然以实体相关的名词组合为主,这说明基本复合名词短语在指称实体中应用相当广泛,这也离不开名词在人们对事物的认知过程中的指称作用。而且作为报刊语料,往往需要指出事件发生的主体人物、地点以及相关机构等实体,因此其中出现的实体自然也会远多于其他语体的语料。
图1 语义类分布
图2 语义类组合Top10
对十四类语义关系进行统计,其分布如表3及图3所示。
表3 语义关系分布及对应典型语义类组合
在这些语义关系中,出现频次最多的就是Of/领属关系,这也符合我们对NN短语的认知。其中Time[注]类似“x月y日”的短语,由于分词原因,本文没有统计在内。,Like及Cause三种语义关系均在100以内,这是受到语料是新闻领域的影响,这三类语义关系的使用相对弱势。
图3 语义关系分布
相同语义类别的短语组成成分之间往往存在一定的联系,每一类语义关系通常对应多种语义类组合。表3展示了每一类语义关系中的典型语义组合并给出了示例。
理想情况下,我们希望语义类组合与语义关系是多对一对应的关系,但事实上,除了每一类语义关系对应多种语义组合之外,同一语义组合对应着多种语义关系。原因在于,语义类词典对名词分类的粒度还不够细,也就是说,出现此类情况意味着同一语义类的名词可能需要进行更细致的分类才能够进一步区分。由于语义类组合数目较多,因此表4仅给出了典型的语义类组合所对应的语义关系及示例。
表4 典型的语义类组合所对应的语义关系及示例
续表
本文以新闻媒体语料中抽取的基本复合名词短语为数据基础,结合语言学基本理论及复合名词短语语义关系分类及相关研究成果,建立了中文基本复合名词短语语义关系体系。在此基础上,对基本复合名词短语的语义类、语义关系、结构关系以及命名实体进行标注,建立了一个基本复合名词短语句法语义知识库。基于该知识库,我们对汉语基本复合名词短语的语义进行了初步分析。希望知识库能够为中文基本复合名词短语句法语义的研究提供基础数据支撑。
基本复合名词短语语义的人工标注存在一定的主观性,特别是语义关系。虽然采用双盲标注且一致率较高,但恐怕仍然无法符合所有人的语感。此外,由于知识库只选取了从新闻报刊语料中抽取的高频短语,类型较为单一,平衡性较差,因此,对于语义关系的分类和描述仍然有待进一步完善。下一步工作的重点将针对语料的平衡性和人工标注的一致性,对整个语义关系体系进行调整、细化或修改,选取多个领域的数据进行标注,争取建设一个平衡性、规模和质量三者均衡的中文基本复合名词句法语义知识库。