从用户标注中抽取本体框架与知识组织系统创新研究*

2016-07-13 03:42郑州大学信息管理学院河南郑州450001
图书馆建设 2016年1期
关键词:本体关联语义

白 华(郑州大学信息管理学院 河南 郑州 450001)



从用户标注中抽取本体框架与知识组织系统创新研究*

白 华(郑州大学信息管理学院河南郑州450001)

针对用户标注的弱点,在标签的基础上构建本体框架并赋予标签丰富的语义,有助于进一步改善知识组织系统的性能。在大量标签数据的支持下,提取知识框架是一种建立本体框架的有效方法,提取方法主要采用特征或属性概括法,即针对一类标签集合的共同特征抽取它们的上位概念,并根据这些上位概念的关系建立知识框架。对基于两种系统的语义分析而构建的可以整合标签和概念本体的兼容本体进行分析可知,它吸取了用户标注的灵活、多元、表达性强大的特征,提高了知识组织系统的组织能力和标引功能;同时,也改进了用户标注系统的语义能力,使之具有丰富的结构和语义表达功能。

用户标注 本体框架抽取 知识组织系统

目前,大多数知识体系或资源组织系统都采用概念划分方式展开体系,划分意味着区分和关联,即每个概念都是其他概念的“关系”概念,这是人们构建知识世界的普遍规则。宽泛地说,本体就是一种按任务或目标用语义技术构建知识体系的方法,它不限于一般的学科概念或知识框架,可以构建不同任务与目标的本体。大众分类的出现只有10年左右,它创造了一种新的分类“体系”,大众词汇、非规范性的表达、多样化的分组、概念的模糊性或独特性、平面化的结构等构成了大众分类的主要特征[1]。也就是说,它为分类展现了新的视角或样式。大众分类在结构、观念、应用上都体现了“草根”化的民俗(folk)特征,这些特征将成为新型本体的养料。

1 用户标注的分类创新

大众分类首先是具有民俗性,这在观念上形成了大众的视角:对资源的选取、表达资源词汇的选取、独到的感受和表达符号等都颠覆了原来的专家视角和观念,使知识体系的表达出现了全新的价值和方法。它也许不是最好的,然而却是最有用的,这在大众时代是对专家式知识观和资源观的颠覆或重新改写。然而这种颠覆,不是要否定其他知识体系,而是要创造一种新的知识组织方式,即大众分类的意义在于它的创举而不是否定。大众分类实质上是由“小众”(组群)组成的,不仅因为它的资源是个人或“小众”(组群)的,它的描述资源的符号也是由分群形成的“小众”,即在一个交流圈中流行的术语,即使表面上与一般词汇相同的符号,在不同组群中也可能代表不尽相同的意思。这样就产生了问题,即怎样在一般知识系统中表达“个人化”的知识结构,而又不失其本意?这就需要创新,需要在一般知识系统中添加必要的大众分类的个性化方法或技术。

1.1大众语言

“民俗”化的表达是大众分类最突出的特色,这些表达选取的符号,并非仅仅是追求词语的新奇,而是追求独特的用户感受和大众的资源需要,或许这些符号只是流行的泡沫,然而它在知识的发展中留下了抹不去的痕迹,因而具有价值上的正当性。网络热词的出现,总是伴随着某些资源或观念的诞生,这就是它的价值。如果这些资源是有价值的,被许多人关注的,它就必须成为知识体系的一个节点。

1.2大众关注的资源选择

用户标注是以用户个人创作或阅读的资源为对象,这颠覆了过去分类法或叙词表等的资源选择,并直接影响到知识表达系统。在表达的用户看来,大众分类资源选取的用户立场不但使资源保障成为不言自明的内在规则,而且使符号对资源的表达性更为“真确”。由于表达的个别性(各个用户分别表达),个性化的标签使表达的符号体系呈现出独有的特点,而且这些特点可以用资源本身来定义。这就是大众分类本体“浮出语义”方法的支柱。

表达符号的多样性,并非一定会导致混乱或不清晰,这种“混乱”可能是建构新的知识秩序的原料[2]。例如,在分布式环境中,数字资源的多样表达几乎是不可避免的,而语义本体就是为这样的异构数据与分布环境建立桥梁。同类资源的多样表达(多种符号)不仅为用户保留了多样化的寻找资源的渠道,而且为本体增加了丰富的表达手段或语义。例如,OWL(Web Ontology Language,网络本体语言)本体的Equivalent Classes 与SKOS (Simple Knowledge Organization System,简单知识组织系统)PrefLabel、AltLabel、HiddenLabel语句,都可以关联不同形式的标签,从而使本体语义更为丰富[3]。正如人们总是不断变换表达事物的词汇一样,知识体系也在不断地变换词汇符号,用变化的概念表达变化的观念或事物。

1.3资源多元语义与多向关联本体

由于用户标注资源时通常使用多个标签描述资源,使资源可以关联多个类,同时多元语义关联可以方便用户从多个角度(词汇或其他符号)查找到相同资源。多元关系是资源多种特征的体现,因为资源研究的事物的属性是多方面、多角度的。多元语义可以多方面地表达事物对象(即资源)的多方面特征,也可以反映用户对事物的多方面、多角度的认识;这些认知是用户标记和查询资源的依据,所以多元语义应是本体技术满足用户查询和标注工作的一个策略。一种用户标注的标签有时使用了大量宽泛的上位词,这使资源分组形成了普遍的“不合法”或不严谨的状态,创造了一种大众时代的宽泛甚或模糊的分类“规则”。这种方法,在早期的关键词索引时代就存在了,但是真正使之普遍化的是20世纪80年代以后的“超文本时代”,网络资源多元成组技术成为突破线性组织体系的一个数字时代的创举。但是真正具有“分类法则”意义的是大众分类时代,它使检索和归类实现了真正意义上的多元组织,即真正成为一种普遍的方法体系或方法变革的样例。

本体和语义网的核心思想是在分布式数据环境中,如何实现大量异构数据的语义关联,所以本体对准、本体映射、本体集成技术从不同角度探索了如何叠加不同的概念框架,并连接或转换不同的表达形式[4]。在另一层面,语义网与本体语言在一个本体系统内部,也致力于各种类别、个体概念的关联、重用和转换,即把不同的表达符号集成到一起,以便实现信息聚合[5]。例如,在OWL2中,Equivalent Class、Equivalent Property 、Same Individual这些本体建构语句形成了构造不同概念、不同个体和不同属性的强有力的语法工具[5]。

然而,本体关联不仅是实体之间显性语义关系的联系,更多的是一种隐在的语义关联,如明显的属性描述中隐含的间接语义关系以及父类赋予子类和实体的逻辑关系。这些关联并非一定是一种类似传统分类的“归入”关系,而是一种特征表达,这些特征被推理器推导出来,成为本体最重要的语义类型。隐含关系可能推导出人们从未发现的新知识或新信息,从而为本体知识库添加新的知识类型,帮助语义网实现智能咨询和检索[6]。例如,相交类(in te rs ec tion c la ss es)一般就是创造一个匿名类(anonymous class),如“美国∩悬疑∩电影”就是创造了一个隐匿的类——“美国悬疑电影”,这个匿名类实际上是由本体中的3个初级类(primary class)即“美国”“悬疑”“电影”的交集组成,或可以解析为“美国电影∩悬疑电影”的交集。然而本体类在同一层级(父类)是两两不相交的类(disjoint classes),这意味着,相交类通常是不同父类之间的子类或个体相交;所以,匿名类实际上是由属性关联起来的、具有本体语言规定的某些给定条件的隐在的类,它可以把大量具有某些同样特征的类,以匿名形式表达为一个新的个体知识集合,这极大地丰富了本体的语义能力。

2 在知识组织体系中加入大众分类本体的特征和改进表达方法

大众分类的创新并不完美,然而它为新型分类本体提供了革新的“原料”。此外,大众分类代表的知识本体的使用群体是庞大、复杂的,这个因素也是本体创建要考虑的核心因素之一。

2.1语言选择

本体语言的选择需要基于很多方面的考量,首先是资源表达的标记符号发生了变化,大众标记不过是一种表现。除此之外,近十几年来,图书研究的内容发生了变化,越来越多的作者从多种角度研究同一个对象,传统的资源描述符号已经难以适应当前知识的复杂情况。其次,多学科视角的研究规范已经建立,多学科研究使单线性的知识结构无法适应现实的著述情况,因为资源放在一个位置显然是不够的。因此,当前的资源内容需要多元化的表达符号和表达形式。

首先,本体的语言选择已经完全不同于传统分类法和叙词表的一般化概念,而是更强调本体底层的个体和属性的表达,以便推出细节性知识;其次,本体语言的大量关系构造语句致力于描述不同语言、不同表达形成的映射关联。例如,在SKOS中,正式标签(PrefLabel)、替代标签(AltLabel)、隐藏标签(HiddenLabel)、语种标记(以@language表示)表明了本体语言对多样化的自然语言表达形式的关注和集成多种语种资源的意向[7]。这说明,本体的语言选择虽然重视正式术语概念,但也同样重视自然语言的多样表达。因为多样化的表达是分布式数据环境的普遍现象。要建立一个表达能力强大的本体,必须考虑资源或知识多样化背后的语言或表达符号的多样化。所以本体的语言选择至少应把科学术语和自然语言、大众标记同等看待。

2.2用户资源需求的变化与本体形成的原则

大众分类是在资源形成同时或之后形成标记符号的用户的资源需求必须得到最充分的满足。这种状态为本体和知识系统的构建开启了新的视域。

(1)非学科性分类需求。大众标注形成了一种新的分类需求,即非学科性分类需求。它追求的不一定是一个知识系统,也许是一个日常的知识片断或节点,这符合一般群体的知识需求。因为用户群不可能是知识系统专家,他们熟悉的是某些或某个知识点。本体构建虽然也是一个体系式的知识框架或系统,然而不少本体的大部分用语是非学科的,即它可以构建事务性的体系,或围绕某一对象形成小型知识体系。所以,大部分本体可以满足某个知识节点的细节性知识。例如,一个人及其朋友群,一个事物的关联体,这使知识系统更加细化和具有日常性,从而能够满足人们工作性、事务性的需求。

(2)以达成用户需求的目标为宗旨。用户标注是资源形成的一部分,即标签是为了完成用户表达个人观点的这种视角使表达系统更贴近资源本身,成为资源的一部分。本体表达符号也应该服从重视用户表达的需求,使本体成为用户群体乐意分享的概念和表达概念的工具。

(3)注重实用。用户标注主要是围绕个人关注的事物或观念对资源进行标记,即它是为了表达和描述对象而建立的知识体系,所以注重个人实用是他们创建资源和标签的目的。本体形成原则也应以实用为目标,注重用户关注和用户应用,以用户组群的应用为建模目标。

(4)任务保障。用户标注是为了完成表达个人资源参阅和利用同类资源的任务而参与标注活动的,用标签表达个人的资源集,并聚合相关用户的资源集,以实现任务因为用户已经拥有了个人的资源集合了。本体构造的原则,也应围绕领域任务进行。按此原则,领域词汇的选择及资源考察,应该成为建立本体的前提条件。在建立本体时,类概念的选取、划分符号的粒度(粗细或大小)选择等,都要考虑是否有利于完成某个领域用户的任务。

2.3多元语义表达

用户标注通常采用一件资源、多个标签的方式,多方面表达用户对资源的观点。而在用户组中,同一资源,标注的符号也可能完全不同。标签过滤虽然以趋同为目标然而多用户标注的结果是一件资源一般都有数个甚至十余个标签(要依过滤后选取标准而定)。这意味着,多元表达是大众分类的常态现象。多元表达也是分布式系统的基本特点,语义网就是针对多元表达提出的解决方案之一,分类法和叙词表也是为了解决多元歧义而产生的。不过,传统分类采取了“以一元代多元”的方案。叙词法虽然把非叙词关联起来,但它的自然语言概念是“非用词”,即一个没有资源的“空集”。本体采取的是不同概念体系的关联方法,即对于多元表达,本体技术采取了映射、集成、重用等方法,把异构数据集成到一个目标本体内。这种集成实现了不同概念或资源的平等共享,而不是代替。例如,在细节上,OWL2本体语言采用了注释(annotation)属性、声明(declaration)、扩展等技术,允许用户添加自己的语义[8];SKOS除了扩展外,还允许用户建立自己的分类体系。这些支持多元表达的技术可以让应用软件在处理时,构建具有语义集成功能的数据集。本体的多元语义是基于海量分布式数据大量存在的现实而产生的,这为处理大规模分布式数据集、为用户找到内容上关联的有用资源建立了有利条件。多元表达在大众分类中的优势,是它能够以平面结构展示大量的概念路径或查询窗口,而在本体中,这应成为一种集成概念或关联资源的技术。

3 基于大众分类的新型分类本体的构建

基于大众分类的本体,在某种意义上是一种新型本体,因为它是基于用户创新的需求。也就是说,以大众分类为基础的分类本体需求要体现用户标注的某些新特征。大众分类本体模型采用“浮出语义”方法,尽可能地保留用户资源和标记,只是在资源集、用户组、标签集、标注频率等之间添加语义,在本体模型基础上方便资源共享。新型分类本体也要保留用户标注的某些特征,采用用户语言并加以提炼和“修正”,以便本体保留更多民俗特征或大众分类的功能,同时又具有一般知识本体的特征,以便与一般知识系统实现语义连接。

3.1基于用户标注的词语处理

(1)标签的概念抽取。用户标注的词语有许多优势,首先是语义丰富,关联的资源多;其次是语料多样,表达全面。所以分类本体应在语言上摆脱过于学术化的倾向,尽量选取用户标签又不拘于用户标签,在原则上把用户标签当作抽取概念或类的“原料”。同时,标签作为联结资源的符号,要尽可能与概念联系起来,这样,类概念作为一个知识窗口,除了作为本体的一个知识实体(entitle)或节点(node)外,还可以是代表类资源的符号。

下页图1是豆瓣网上的一个经过处理的标签云(tag cloud)页面[9],笔者以此为例讨论用户标签的概念抽取问题。首先,笔者对图1用户标注的标签进行了处理,把此页面上截取的部分标签分为三大类:加波浪线的标签代表人名标签,可以抽取为“艺术家”的概念类;斜体字的标签代表“地区”或空间(spatial)类;加下划线的标签代表类型或题材类。此外,我们在标签云页面中,未截取的时间(temporality)标签也要被考虑作为立类的一个面(facet)。最后,还要考虑用户对电影的标记、介绍和评论资源,为此设一个类。这样每部电影作为个体或本体类的一个实例,都具有空间、时间、题材(类型)、创作者、评论等属性。这些属性不但建构了一部电影与各类概念的关系,而且全面描述了每部电影的拍摄国家、年代、演员和导演、题材(类型),这样这个电影本体就全方位介绍了每部电影的全面知识。例如,《七宗罪》是大卫·芬奇导演的作品,1995年上线,主要演员有布拉德·皮特、摩根·弗里曼、凯文·史派西、格温妮斯·帕特洛、李·厄米、查尔斯·达顿,是美国制作的悬疑、惊悚、犯罪题材的经典电影。不仅如此,每部电影根据题材可以归入每个类型中,也可以集成到导演和明星名下,可以按国家、年代集成。这样用户无论从哪个角度查找,都可以找到想要的电影,而且都可以集成资源。这种优势是传统分类技术无法比拟的。

由图1可以观察到:多元分类从查询角度看,是为用户开启了多个查询窗口;从本体来看,多元表达是一种多方面特征的语义表达,它不但为实体增加了多方面的、丰富的属性关系,构造了每个实体的集成资源,而且为每个实体添加了多方面的语义;应用软件在处理时,会把语义描述的多方面资源集成到每个实体下。例如,每个导演实体,都集成了个人导演的作品;每个明星演员,都集成了他/她表演的个人作品。这在图书分类时代几乎是很难实现的,除非编制庞大的个人索引才能做到。而使用本体技术,只要添加一些语义连接就可以实现大规模的知识集成[10]。

(2)标签细化处理。除了抽取概念类,用户标签还需要归并、规范或添加语义,使标签概念明晰化和规范化。

图1 用户标注的“电影”标签资料的处理

①标签归并。大量的用户标签和标签组成的标签云(一个大众分类检索窗口)是按照标注频率选取出来的,有些标签是重复的,有一个意思多种标记的,这就需要整合和归并。例如,“动画、动画片、动画短片、动漫、卡通”“同志、同性”“童话、童年”“日剧、日本、日本电影、日本动画、日本动漫、日剧、日影”等,都只能归并为一个规范词,其他词作为同义词关联起来(因为每个标签都有资源)标签;兼有地区和题材特征的标签,一般要改变一下,使其既作为空间词用,又作为题材(类型)用,如“美国动画”,就是既属于地区类,又属于题材类。

②标签规范并添加语义。标签规范即为有歧义或为某些缩写的标签定义,或为标签补足语义,有的还需要转换概念。例如,“同性”指的“同性恋电影”,它与“同志”“gay”等同义又略有区别,“同志”“gay”均指男同性恋,但作为电影类型,区分不宜再细。再如,“3D”指“3D电影”或立体影片,“西部”特指美国的“西部电影”或以牛仔故事为题材的影片。某些简称需要在本体注释(annotation)中添加定义,如“les”是英文Lesbian的简称,即女同性恋;BBC是英国广播公司拍摄的电影;OVA是原创动画录影带(Original Video Animation)的简称,一般指通过DVD、蓝光碟等影碟发行方式为主的剧集;HBO是Home Box Office的缩写(直译为家庭票房),是一家美国的付费有线和卫星联播网,为时代华纳公司所拥有并由Home Box Office公司负责营运。这些资料都要在本体注释中说明,以帮助用户和机器识别。

标签处理后,形成了类(包括子类)、个体和属性(属性即类、子类和个体间的关系)。处理结果如图2所示。

图2 标签处理后的类、个体和属性

3.2本体框架与集成语法和语义

图3是本体的基本框架及语义片断。这个片断的前三级表示等级关系,用“owl:subClassOf”语法描述子类和父类的关系,个体与类关系也可以用“owl:subClassOf”语法描述,不过Proé软件允许在属性中使用“type”语句将个体归入父类;此外,对于个体与个体关系,用户可以在Proté软件的“objectProperty”中定义个体间的属性关系。例如,在图3中,“大卫·芬奇”和“李安”分别导演(directs)了电影《七宗罪》和《色·戒》,“directs”就是关联导演与其作品的属性;我们还可以用“directed by”的“逆函数”(inverseOf)属性把每部电影和它的导演联系起来。同样,每部电影可以关联到“电影类型”中分别按地区、年代、题材划分的类。这意味着,关于每部电影的制作地区、年代、类型、导演、演员、剧情等知识,都集中在每部电影名下,推理器可以方便地推出这些知识,这就是本体的作用之一,即它可以向用户提供一个实体的全面知识[11]。另一方面,导演和演员也可以用属性语法把每个人的电影作品集成到一起。同时,由于电影作品个体(每部电影)可以分别描述地区、年代、题材(类型)等类型特征,这意味着在本体中,每部电影可以在语义工具中从多个角度实现语义聚类和查询,为从不同角度理解一部电影作品的用户提供了在不同检索途径中聚类的窗口。

此外,大量的用户标签(见图1)特别是同义和相关标签,在本体中可以在多个方面联系起来:一是同义标签代表相同或同类的资源,可以用本体语法联系起来。这种语义集成的最终目标是实现资源集成,这意味着,用户不但可以查询和共享自己的资源,而且可以分享别人标注的同类资源。二是同义标签可以与本体概念类关联起来,以便在本体类下集成标签代表的用户资源。例如,图1中的“日剧”“日剧”“日本”“日本电影”“日影”都是同类或相近标签,其中的“日剧”和“日剧”是中文繁简体的不同表达,标注的资源是日本在电视上播放的电影,而“日本”指的是“日本电影”,与“日影”等是同义标签。

图3 电影本体语义图

3.3类、个体和资源多元集成

在大众分类法中,每个标签都是一个查询窗口,即每个标签都是一次划分标准。例如,当用户给《七宗罪》标注了“悬疑”“犯罪”“惊悚”等标签,这部作品就归入了3个类型,即个体可以有多个“类”特征。而在本体中,虽然强调本体在概念上具有不同(difference)、清晰的特征,仍然定义了“等于类(equivalent classes)”“相同的个体(same individuals)”等语法,因为本体的重要任务是要在分布式数据集这样的复杂环境中,关联不同形式的概念和实例(instance),把它们代表的资源集成起来,实现共享和重用。对于大众分类这样的高度分布式环境,语义集成尤其重要,其有利于在语义意义上集成用户标注这样的大规模分布式数据集,而语义关联是主要方法。

在W3C的“酒本体”文件中,“wine(果酒)”这个概念在不同类中设立,而且出现了“wine=wine”这样的类名;同时,“酒本体”出现了许多逻辑交类[12]。这些例子说明,多元关联是一种重要的本体技术,如“美国电影”这个概念就是“美国”这个地区类与“电影”这个类的交集,即相交类(intersectional classes),这种相交语义可以组配成许多相关的类,如“美国悬疑电影”“美国导演”“美国演员”等具有多种语义的类概念。多语义或多特征的子类或个体,不是要为多特征的实体分组,而是为了给实体赋予更多的语义特征性知识。更重要的是,要为一个实体集成各种特征,而这些特征关联到不同的个体,并不违背不相交类(disjoint class)的建模原理,因为关联的是对象(个体或其他实体)的属性,而并非使实体归到其他类。OWL等本体语言描述的公理(axiom),可以使之成为语义工具的处理对象,并非在本体中成为另一类的对象[13]。

4 结 语

大众分类对知识组织系统和其他本体的影响体现在许多方面,而最深远的影响表现在3个方面:一是资源决定体系,即围绕已有资源形成本体,数据状态和数量以及本体任务、目标等因素将全面支配本体的类型、大小和结构,也就是说,服务资源决定本体。过去“文献保证原则”实际上难以做到,因为大型知识体系是对学科和研究领域的粗略评估,很难全面贯彻这个原则。二是用户因素,用户将确定分类法、叙词表等本体的类型和大小,因为本体主要是为特定用户服务的,所以自然语言、用户标注将成为知识组织的重要词汇[14]。三是分布式资源和用户标注造成的语义难题,使语义聚合和集成变得越来越重要,成为处理分布数据和多样表达的关键技术;所以在本体中关联不同标签,从而实现按语义规则聚合内容成为关键的手段,而语义技术将成为新一代知识框架能够实现目标的有力工具,它将改变知识组织系统的结构、表达能力和规则,从而为它的创新奠定坚实基础。

[1]Subasi I, Berend B. Topical Structure Discovery in Folksonomies [EB/OL].[2015-06-08].http://www.kde.cs.uni-kassel.de/ws/ wbbtmine2008/pdf/3.pdf.

[2]王真星, 但唐仁, 叶长青, 等.本体集成研究[J].计算机工程, 2007, 33(2):4-5,33.

[3]陈 遥, 李 珊, 厉 浩. 一种基于ontology的数据集成系统[J].计算机工程, 2007,33(23):90-93,64.

[4]W3C. SKOS Simple Knowledge Organization System Reference [EB/OL]. [2014-10-23].http://www.w3.org/TR/2009/REC-skos-reference-20090818/.

[5]John H, Matthew F, Ryan B, et al . Web3.0与Semantic Web编程[M]. 唐富年, 唐荣年, 译. 北京:清华大学出版社, 2010:292-296, 298-306.

[6]W3C. OWL2 Web Ontology Language New Features and Rationale [EB/OL]. [2014-09-13]. http://www.w3.org/TR/2009/ REC-owl2-new-features-20091027.

[7]W3C. OWL2 Web Ontology Language Primer [EB/OL]. [2014-11-18]. http://www.w3.org/TR/2009/REC-owl2-primer-20091027/.

[8]W3C. SKOS Simple Knowledge Organization System Reference [EB/OL].[2014-06-09]. http://www.w3.org/TR/2009/REC-skos-refrence-20090818/.

[9]豆瓣网. 电影标签云[EB/OL].[2015-07-21]. http://movie. douban.com/tag/?view=cloud.

[10]高小龙, 朱信忠, 赵建民,等. 电影本体的构建与一致性分析[J].计算机应用, 2014,34(8):2192-2196, 2201.

[11]Bouquet P, Serafini L, Zanobini S. Semantic Coordination: A New Approach and an Application[C]. Sanibel Island,Florida, USA:In Proceedings of ISWC, 2003:130-145.

[12]W3C.Wine Ontology[EB/OL].[2015-05-12].http://www.w3.org/ TR/2003/PR-owl-guide-20031209/wine/.

[13]薛春香, 乔晓东, 朱礼军. 基于集成的领域知识组织系统构建初探[J]. 现代图书情报技术, 2009(11):29-33.

[14]毛 军. 基于RDF的叙词表研究[J]. 情报学报, 2003(4): 163-168.

白 华 男,1955年生,博士,郑州大学信息管理学院教授,主要研究方向为信息语义组织与本体。

Innovation Research on Ontology Framework and Knowledge Organization System Extracting from the User Tagging

In view of user tagging's weakness, constructing ontology framework and endowing lable with rich semantic based on the label, could help to improve the performance of knowledge organization system. With the support of a large number of tag data, the extraction of knowledge framework is an effective method to build ontology framework. The extraction methods mainly take the method of characteristic or attribute generalization. That is, in view of common features of a class of label extracting their upper concepts, and according to the relationship among the upper concepts the knowledge frame is established. Through analyzing compatible ontology which constructs based on the semantic analysis of the two systems and integrating labels and concept ontology, we could find that it absorbs characteristics of the user tagging of flexiblity, diversity and strong expression, improves organization skills and indexing functions of the knowledge organization system; meanwhile, it also improves the semantic ability of user tagging system which make it with rich structure and semantic expressive function.

User tagging; Ontology framework extracting; Knowledge organization system

G254.29

A

2015-08-06 ]

*本文系国家社会科学基金项目“大众分类法本体构建与集成映射研究”的成果之一,项目编号:10BTQ017。

猜你喜欢
本体关联语义
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
眼睛是“本体”
语言与语义
“一带一路”递进,关联民生更紧
奇趣搭配
基于本体的机械产品工艺知识表示
智趣
批评话语分析中态度意向的邻近化语义构建
“社会”一词的语义流动与新陈代谢
“吃+NP”的语义生成机制研究