面向本体的专有叙词语义关系研究

2016-07-27 02:21左惠凯闫路娜任瑞娟
关键词:本体

左惠凯, 闫路娜, 任瑞娟

(1.河北科技大学 图书馆,河北 石家庄 050018;2.河北科技大学 生物科学与工程学院,河北 石家庄 050018;3.河北大学 管理学院,河北 保定 071002)



面向本体的专有叙词语义关系研究

左惠凯1,闫路娜2,任瑞娟3

(1.河北科技大学 图书馆,河北 石家庄050018;2.河北科技大学 生物科学与工程学院,河北 石家庄050018;3.河北大学 管理学院,河北 保定071002)

摘要:基于《中国主题分类词表》等叙词表中的专有叙词,参考中外文叙词表编制标准,提出了面向本体的专有叙词语义关系的调整原则,在此基础上,将专有叙词语义关系划分为3个层次19种细分关系,并对语义关系的判定原则及应用,同形异义词的语义关系及人物叙词语义关系等进行了探讨。

关键词:《中国主题分类词表》;本体;专有叙词;语义关系

在当今大数据时代,数据正在成为信息社会的重要财富,同时也对人类的数据驾驭能力提出了新的挑战,如何高效快速地处理海量数据,实现大数据的归档存储以及快速准确查询等成为当前研究的热点,其中利用构建领域本体来解决这一问题成为趋势。鉴于领域本体与叙词表在知识表达上的相似性,许多国内外学者在构建领域本体时,纷纷借鉴了叙词表的语义关系体系。[1~3]

叙词表通常由普通叙词和专有叙词组成,“专有叙词”又称“专有名词”,是指表示单独概念的某一特定事物的专有名称主题词。为了满足计算机标引的需求,有学者对专有名词的识别技术进行了研究[4~5],但是面向本体的专有叙词语义关系的研究却几乎无人涉及,尤其是在我国区域一体化、城乡一体化等大环境下,专有叙词语义关系研究更显得尤为重要。本研究主要基于《中国主题分类词表》等叙词表构建一个专有叙词汉语语义框架,旨在为形成汉语叙词语义关系标准化研究提供帮助。

一、专有叙词语义关系的调整原则

为了提高大数据时代信息的查全和查准,就必须重视本体构建过程中语义关系的研究。我们利用归纳推理法,制定出面向本体的专有叙词语义关系的调整原则(如图1所示),具体来说:

(一)词族分析

在叙词表内具有属分关系的一群专有叙词中,所选定的最上位叙词称为族首词。在本研究中,词族分析主要是分析这两个叙词的族首词异同。如族首词不同,直接进入相关关系的分析;如族首词相同,则进入词义分析阶段。

(二)词义分析

在本研究中,词义分析是指分析叙词的语义。根据两个专有叙词词义的差异,进而归入等同关系、等级关系或相关关系。

(三)细划分析

细划分析是指在上一阶段的基础上,根据专用叙词使用时的具体语义区别,在等级关系内细分为属分关系、整部关系、举例关系等关系,或相关关系中的并列关系、交叉关系、亲朋关系等具体关系。

图1 构建专有叙词语义关系的工作原则

二、专有叙词语义关系的描述与分析

按照前文所述研究方案,我们基于《中国主题分类词表》、《汉语主题词表》(附表)以及《中国分类主题词表标引手册》中的专有叙词,参考中外文叙词表编制标准[6~7],对专有叙词语义关系进行了分析调整,将专有叙词语义关系划分为3个层次19种细分关系(见表1),具体描述与分析如下:

(一)等同关系

等同关系是指在专有叙词中同一概念的不同译名、别名与本名、全称与简称、中文名与外文名、旧称与新称等之间的关系。

1.全称与简称,如加利福尼亚州与加州;

2.同一概念的不同译名,如康斯坦察与康斯坦萨;

3.旧称与新称,如西贡与胡志明市;

4.中文名与外文名,如美国与USA;

5.别名与本名,如柳河东与柳宗元。

(二)等级关系

等级关系表示上位专有叙词与下位专有叙词之间的关系,包括属分关系、整体与部分关系和举例关系。

1.属分关系:表示下位专有叙词概念必然包含在上位专有叙词概念的外延之中,并且是外延的组成部分,如西汉与汉代。

2. 整体与部分关系:表示在专有叙词概念间整体与部分的关系,如亚州与伊朗。

3.举例关系:指在专有叙词中个体作为类的成员与类的关系,即实例和概念整体间的关系,如大西洋与海洋。

(三)相关关系

相关关系是指在专有叙词间不具有等同关系或等级关系,但在使用中经常一起出现的专有叙词与专有叙词(或普通叙词)间的关系。同时考虑到人物叙词在我国区域一体化、城乡一体化等大环境下的重要应用意义,在本研究中分成非人物叙词的相关关系和人物叙词的相关关系两类进行细化研究。

1.非人物叙词的相关关系

(1)并列关系:指在行政区划、地理区划、组织机构、时代等专有叙词的同一族首词下,互不包含的专有叙词之间的关系,如联合国教科文组织与联合国粮农组织。

(2)交叉关系:指隶属于不同的族首词,但有部分内涵相同的两个专有叙词之间的关系,如俄罗斯族与俄罗斯人。

表1 专有叙词语义关系汇总表

(3)事物与来源关系:表示国家、机构、组织、民族、种族等与其来源(因果)之间的关系,如乌克兰与苏联。

(4)事物与时间关系:表示国家、组织机构等事物与其建立或灭亡时间、年代等之间的关系,如闽国 (893~945)与五代十国时期。

(5)事物与空间关系:表示种族、国家、组织机构等事物与其建立、分布或灭亡的地理空间之间的关系,其中地理空间包含自然地理名称和行政区划名称,如国际奥林匹克委员会与瑞士洛桑,台湾与阿里山。

2.人物叙词的相关关系

(1)亲朋关系:指人物叙词间存在父子、夫妻、兄弟、姐妹等亲属、朋友或师生关系。

一是亲属关系,如毛泽东与杨开慧(夫妻),多尔衮与努尔哈赤(父子),班固、班超与班昭(兄妹)。二是朋友关系,如管仲与鲍叔牙。三是师生关系,如颜回与孔子。

(2)人物与属性:表达人物与其生活时代、籍贯、种族、性别、称谓、流派等特征之间的关系,如李文学(1826~1874)与彝族。

(3)人物与事件:是指事件的发生、创建与有直接主导作用的人物的关系,如安禄山与安史之乱。

(4)人物与工程:是指工程的设计、建造等与有直接主导作用的人物的关系,如秦始皇与灵渠。

(5)人物与制度:是指制度、条约、协定、宪章等设计、执行等与有直接主导作用的人物的关系,如曹操与屯田制。

(6)人物与理论:表示某思想、理论、学说、著作、论文等与主要代表人物间的关系,如巴甫洛夫与反射论。

三、关于专有叙词语义关系细化研究中应注意的问题

(一)语义关系的判定原则及应用

在本研究中,我们构建了一套专有叙词语义关系的基本工作原则(如图1所示),即词族分析——词义分析——细化分析,这是本研究判断语义关系的基础。这对于解决某些长期存在争议的问题具有一定的启迪意义。例如,在汉语主题词表中对叙词“建安七子”和叙词“孔融”之间认为是相关关系,而卫荣娟[8]研究认为,“建安七子”和“孔融”之间相关关系的界定太过宽泛,而应精确为等级关系中的类与实例关系。我们通过对“建安七子”与“孔融”的关系分析发现,孔融为人物专有叙词,建安七子为称谓名词,尽管也存在一定包含关系,但考虑到他们分属不同族首词,所以应为相关关系中的人物与属性关系,而非等级关系。也有学者(如我国台湾地区蔡柏生)提出,虽然族首词不同,也可建立泛等级关系的观点[9],然而,考虑到构建本体的目的之一就是提高信息的查准率,故本研究也不赞成此观点。因此,我们认为只有同一族首词的包含关系才能划入到等级关系,对于族首词不同的两个叙词,虽然两者有一定的包含关系,也不应该归为等级关系,而应划入相关关系。

(二)同形异义词的语义关系

同形异义词是语言学中的一个术语,用以描述不同语言中,形态(拼写)相同而表达涵义却不同的词(一词多义现象)。这就导致我们只有在一定的语境中,才能确切理解该词的含义。

在本研究中我们发现,在专有叙词中也存在大量的同形异义词,如“墨西哥”既是一个国家名称,又是城市名称,二者具有不同的语义关系。针对专有叙词这种现象,在构建本体时可采取同形词词后加备注的方式进行分类阐述,从而解决同形异义词问题。同时应在用户检索界面增加同形异义词提示功能入口,由用户选择该叙词的相关领域,再执行检索,进而提高查准率。

(三)人物叙词语义关系分析

通过比较普通叙词与专有叙词语义关系,我们发现,专有叙词语义间也具有相同关系、等级关系和相关关系3个层次,这与孙亮(2010)、刘丽斌(2010)等学者对普通叙词研究相似[10~11]。同时发现,在专有叙词中还存在一些特殊的语义关系,例如“多尔衮”与“努尔哈赤”,如归类于并列关系,很难准确表达这两个人物间的内在关联(父子关系),因此,在我国区域一体化、城乡一体化等大环境下,我们构建领域本体时增加了亲朋关系、人物与属性等人物叙词的相关关系。

四、结语与展望

在大数据时代,面向本体构建的叙词语义关系的调整是一项复杂而艰巨的工作,专有叙词与普通叙词相比较,其无关联性较强,从而决定了调整专有叙词语义关系的特殊性与困难性。同时,本体构建的初衷是为了提高大数据时代信息的查全率和查准率,但现存的各领域本体标准繁多,很难达到提高大数据时代信息的查全率和查准率。因此,本研究以汉语专有叙词词间关系作为切入点,提出了专有叙词词间关系的调整方案,试图寻找到一个普遍适用的关系准则,从而使后来者能快速完成概念数据的交换与共享,这也为今后的研究指明了方向。

参考文献:

[1]赵会园, 李绍稳,刘超, 等. 基于云变换的农业领域本体概念构建方法研究[J]. 安徽师范大学学报(自然科学版), 2015,(2): 123~128.

[2]A. I. Walisadeera, A. Ginige, G. N. Wikramanayake. User Centered Ontology for Sri Lankan Farmers[J]. Ecological Informatics,2015, (26): 140~150.

[3]B. M. Konopka. Biomedical Ontologies——A Review, Biocy Bernetics and Biomedical Engineering [J]. 2015 ,(35): 75~86.

[4]罗浩, 魏祖宽, 金在弘. 面向GIS基于专有名词优先的中文分词方法[J]. 计算机应用, 2010, (7): 1 941~1 943.

[5]J. Heu, I. Qasim, D. Lee. FoDoSu: Multi-document Summarization Exploiting Semantic Analysis Based on Social Folksonomy[J]. Information Processing & Managements, 2015,(1): 212~225.

[6]BSI. BS 8723-2:2005 Structured Vocabularies for Information Retrieval-Guide-Thesauri[S]. British: BSI, 2005.1~64.

[7]全国文献工作标准化技术委员会.GB13190-91 汉语叙词表编制规则[S].北京:国家技术监督局, 1991.1~15.

[8]卫荣娟.《汉语主题词表》本体化的自动生成研究[D]. 太原: 山西大学, 2010.30.

[9]蔡柏生,等. 中文词义关系的定义与判定原则[J].中文信息学报, 2002, (4):25~27.

[10]孙亮. 面向本体的中文叙词词间关系改造研究[D]. 保定: 河北大学, 2010.43~45.

[11]刘丽斌, 任瑞娟, 米佳, 等. 基于叙词表构建本体的中文叙词词间关系细化研究[J]. 山东图书馆学刊, 2010, (1): 73~76.

文章编号:1671-1653(2016)02-0045-04

收稿日期:2016-03-26

基金项目:河北省高等学校人文社会科学研究项目(SZ14126);河北科技大学博士启动项目(000304)

作者简介:左惠凯(1973- ),男,河北唐县人,河北科技大学图书馆馆员,主要从事信息组织与管理研究。

中图分类号:G254.0

文献标识码:ADOI 10.3969/j.issn.1671-1653.2016.02.007

Research on Semantic Relation of Proprietary Thesaurus for Ontology

ZUO Hui-kai1, YAN Lu-na2, REN Rui-juan3

(1.Library, Hebei University of Science and Technology, Shijiazhuang 050018, China;2.College of Bioscience and Bioengineering, Hebei University of Science and Technology, Shijiazhuang 050018, China;3.School of Management, Hebei University, Baoding 071002, China)

Abstract:Based on the proprietary thesaurus of Chinese Classified Subject Thesaurus, and referred to the standard in thesaurus of domestic and international, an adjustment principle oriented to the semantic relation of proprietary thesaurus forward ontology is put forward. On this basis, there were 3 levels with 19 subdivided relations for semantic relation of proprietary thesaurus such as equal relation, hierarchical relation and correlation. And the judging principle and application of semantic relations as well as homographs and the semantic relation of characters thesaurus were discussed.

Key words:Chinese Classified Subject Thesaurus; ontology; proprietary thesaurus; semantic relation

猜你喜欢
本体
基于MFI4OR标准的本体融合模型研究
眼睛是“本体”
多重分割框架下的两类新本体学习算法*
领域本体的查询扩展和检索研究
使用LDA构建预警情报的本体映射依据研究
一种基于社会选择的本体聚类与合并机制
一种基于社会选择理论的本体聚集方法
基于本体的机械产品工艺知识表示
本体在产品设计知识管理中的应用研究
立足音乐本体 开启音乐思维