基于本体的标签控制方法研究

2010-03-23 13:31郑州大学信息管理系郑州450001
图书馆理论与实践 2010年7期
关键词:本体检索语义

●金 燕,陈 玉(郑州大学 信息管理系,郑州 450001)

Web2.0环境下新兴的网络信息组织方式——分众分类借助于标签(Tag) 对网络信息资源进行标识和分类,是对网络信息组织的一种新尝试。标签是人们在互联网上用自己熟悉的语词标识相关信息的标记,类似于主题词中的关键词,但比关键词更自由、更个性化。标签不需要遵循固定的模式和标准,用户在标记信息资源时可以不需要具备任何专业背景知识;标签可以信手拈来,而不必按照词表标注;标签可以只反映信息的一小片内容,而不必反映信息的核心内涵;标签可以是用户的主观感受,而不必是信息的客观反应;标签甚至可以使用传统意义上无意义的词,只要它对创造它的用户有意义。[1]可以说,个性化、简单易用是标签的一大特征,在满足用户的个性化需求,汇聚和传播用户的个性化信息方面,标签比关键词的作用更突出。与传统分类法中类目的设置不同,标签在组织网络信息资源时突破了元数据和关键词的局限,具有自由性、平面性、社会性等优点,因而在互联网上得到了广泛应用。但任何事物都有两面性,标签一样存在许多缺点,例如,标签并不是描述和获得结构化信息的最有效方式,标签的自由性也给信息的组织与检索带来了很多困扰等。

1 标签控制的必要性

1.1 标签组织网络信息资源的缺陷

(1)标签的无控性。虽然标签的自由性使得信息组织进一步人性化,但伴随着标签的随意性而来的是标签的混乱和无序,即标签的无控性。与传统分类有着严格的分类章法不同,用户在提交标签时是没有任何限制的,如用户可以将一张草莓的照片标记为“西瓜”,这样的标签并不能反映所标识的信息的内容,是没有任何实际意义的。对于其他群体用户而言,这样的标签就是“垃圾标签”。[2]

(2)标签的平面性。标签的平面性改变了传统分类法的树状分类结构,给用户带来了极大的方便,但标签类目的平面非等级结构也造成主次不分、重要信息被隐藏、不便浏览等问题。分众分类不像传统分类法那样具有等级结构,不存在根结点,标识信息的标签是以标签云图的形式显示在页面上的,尽管重要的、点击频次高的标签通过特殊颜色或字体等被突出显示,但也仍然难免被浩如烟海的信息所淹没。[1]同时,用户在进行标签检索时,很难确定主要标签和次要标签,很多重要信息可能会检索不到,从而影响用户的检索效率。

(3)标签的分散性。当有多个标签可以表达同一事物或同一内涵时,表达同一对象或内容的多个标签就会呈现出分散的状态,给检索带来不便。如单复数、同义词、缩写词、语种及语义认知的差别等都是标签分散性的表现。[1]例如,“book”与“books”都是指书,是单复数造成的词形区别;“电脑”和“计算机”两个不同的词指示同一种事物,是一义多词造成的分散;又如,“中国”是“中华人民共和国”的简称,是缩写词造成的分散;再如,不同的语言环境下,“人民”“people”都表达人的意思,是语种的分散;还有语义认知的差异,也会导致标签的分散,比如“大夫”可以指医生,也可指古代官职,“杜鹃”可表示鸟也可表示花等。这种分散会严重影响重要标签的聚类和检索的效果。

1.2 标签控制的必要性

虽然标签具有容易使用、用户参与性强、利用集体智慧等优点,但其无控性、平面性、分散性等缺点在一定程度上限制了其作用的发挥。目前提供标签共享与服务的网络信息资源还不多,仅为一些典型的Web2.0应用网站,如Delicious、YouTube、Wikipedia等,而大部分网站并不提供标签功能。究其本质原因,就是因为标签的不规范给信息组织和检索带来了不便:标签的无控性导致信息的分散与混乱,有悖于信息组织序化信息资源的初衷;标签的过度分散影响检全率、检准率,最终影响用户使用标签的积极性。

标签的创造者最初的目的是希望帮助用户标识和找到有用的信息。但是,由于标签的自由分散性而导致的结构性差,用户很难弄清楚哪些标签之间存在联系,标签描述了哪些资源,描述了资源的哪些属性。此外,标签的多重语义也给用户使用标签带来困难,这是因为同一标签在不同的语境下可能描述不同的信息对象,同一信息对象也可能会有多个不同的标签来标记。例如,我们将一张有关建筑物的照片标记为“old”,这可能表示照片中的建筑物年代很久远,也可能表示这张照片拍摄的时间很长了,或者两者都是。诸如这种没有控制而产生歧义的现象在标签使用过程中随处可见,给标签的使用带来了很大的不便,因此,我们认为,对标签进行规范和控制已经成为一个亟待解决的问题。

2 利用本体进行标签控制的可行性

2.1 本体

本体(Ontology)这个术语来自于哲学,是对自然存在的一种描述,表示抽象的概念,研究客观事物存在的本质和组成。作为一种能在语义和知识层次上描述信息系统的概念模型建模工具,本体这个概念已被引入到计算机科学等多个领域。关于其定义,目前比较认同的是1993年Gruber提出的“本体是共享概念模型的明确的形式化的规范说明”。它包含了本体的四层含义:[3]① 概念模型(Conceptualization),指通过抽象出客观世界中一些现象的相关概念而得到的模型;②明确(Explicit),指所使用的概念及概念的约束都有明确的定义;③形式化(Formal),指本体是计算机可读的(即能被计算机处理的);④ 共享(Share),指本体中体现的是相关领域共同认可的知识。

本体被认为是一种知识结构或数据结构,这种专门构建的结构体系列出了一个领域里所有的概念及其之间的关系,从而能够很详细地描述某一领域范围内的知识以及它们之间的关系。建立本体的目的就是通过对相关领域概念及其关系的形式化描述,确定该领域内共同认可的词汇,提供对该领域知识的共同理解,达到知识的共享和重用,使该领域内不同系统、不同模型间能够进行互操作。

2.2 借助本体进行标签控制

通常而言,为了获得信息的明确的语义,用户必须提供更多的说明性信息,如语境等。但在互联网上,要求信息的创建者提供标记说明等对创建者和使用者而言都是既复杂又浪费时间的。因此,我们设想,能否借助一种方法,在保持标签的易用性和简单性的同时,又能给标签赋予精确的语义呢?本体就是能够实现这种功能的方法。可以借助于本体的形式化规范模式,把用户使用的自由标签和本体关联起来,建立起自由标签的语义控制体系和语义网络。这种方法最大的好处就是为用户提供了一种控制自由标签的能力,给标签赋予了精确的语义信息,能够改进标签的搜索机制和浏览体验。[4]例如,通过建立起标签“饭馆”“餐厅”和标签“建筑物”“酒吧”等的联系,可以很容易地从一张有关“餐厅”的图片链接到其他有关酒吧或建筑物或特色餐馆的图片上。

本体作为标签控制的工具,其可行性和作用体现在:① 本体中所定义的概念和属性可用于对标签的标识,从而在概念上对标签进行控制,减少标签歧义和垃圾标签的出现。同所有事物的概念一样,标签是通过一定的字、词或短语等描述元素反映客观事物的某种特征的。但是,当用户使用标签标识信息时,存在多个标签表达同一概念的情况,即一义多词,如前面提到的“电脑”和“计算机”;而且,由于同一标签在不同的语境中也可以表示不同的概念,一词多义现象也大量存在,如“杜鹃”(既可表示一种花的名称,也可表示一种鸟的名称)等。标签在组织信息资源时碰到的这些问题,可以借助于本体解决。本体通过对概念的明确定义以及对概念间关系的揭示,可以在不同形式的词汇间建立起关联。借助于本体的这个功能,可以实现对自由标签的词汇控制——能够选择一个明确的概念来约束和控制不同标签的语义,从而尽可能地消除标签歧义现象。② 由于本体建立了概念间的语义网络和推理规则,可以借助本体的这种功能构建自由标签的语义网络。任何概念都不是孤立存在的,概念与概念之间必然存在着一定的关系,如种属关系、同义关系、反义关系等,概念本身、概念之间的关系共同构成了概念空间。本体通过对概念的明确定义和对概念间关联关系的揭示,建立起一个领域的语义网络,实现对该领域中概念及概念间关系的控制。自由标签虽然不是严格的概念,但其本身也具有一定的语义,自由标签之间也存在着同义、种属、反义等语义关联。因此,可以借助于本体的这种功能,对自由标签进行语义控制和揭示,通过概念间的多种关系及其紧密度来反映标签对象的语义关联。标签语义关联主要体现在内容关联和结构关联两个方面。[5]借助于本体对自由标签语义关联关系的揭示,有助于构建自由标签的语义网络。只有建立起这种具有推理规则语义网络,标签用于网络信息资源组织和检索的作用才能充分发挥。

3 标签本体(TagOntology)—— 一种基于本体的标签控制工具

3.1 标签本体的概念

标签本体(TagOntology)是标签和本体技术的结合,是描述标签语义的一种工具。也就是利用本体的语义控制功能在语义层次上组织和构建标签语义网络,对用户的标记行为(赋标签的行为)进行标识和控制,以实现对“标签泛滥的限制、垃圾标签的过滤和歧义标签的规范”。[6]

3.2 标签本体的标注规则[6-8]

标签本体借用了本体的形式。同本体一样,标签本体也具有概念模型、明确、形式化、共享等含义。标签本体通过建立起标注者、资源和标签之间的关系模型,同时关联资源出处和标记日期等信息来规范控制标签,达到共享标签的目的。因而,标签本体的标注实际上是借用了本体的理念来规范描述标签和控制标签的应用。

(1)标签本体的简单标注结构——二元组结构。标签本体的核心概念是标注(Tagging),标注是指用户使用一个或一组标签对其创造或浏览的信息内容进行描述的过程,因此构建标签本体时,首先需要揭示这个二元组关系,即:Tagging(object,tag)。其中,Object表示被描述的资源对象,Tag即标记某个对象所使用的标签,指能够被人和计算机所认知的、能够描述信息对象的单词或词组。这个二元组是标签本体最简单的标注规则,适用于范围较小、标签较少的情况。

(2)标签本体的基本标注结构——三元组结构。由于标签是一种随意的行为,因而不同用户会使用不同的标签标识同一信息对象,也会用同一标签来标记不同的信息对象。为了明确区分这些标签,在二元组标注中增加标注者的信息,建立起标签本体的基本标注模型,即三元组关系:Tagging(object,tag,tagger)。三元组中,Tagger表示使用标签进行标记的人,如应用程序的用户,博客的作者等。通过这样的三元组建立起来的标签本体的基本标注结构,描述了标注者、资源和标签三者之间的基本关系。这种结构的描述,从格式上对标签进行了规范控制,不仅规范了标签的表达,也规范了用户的行为,能够减少无意义的标签出现。

(3)标签的多元组标注。考虑到标签的共享问题,需要增加标签的来源和标注的时间,因而可以在三元组关系的基础上再增加两层关系,即:Tagging(object,tag,tagger,source,date)。此处 Source 表示标签的来源,可以用命名空间或者URI来表示,date表示信息对象被标记的日期,通过年月日的形式表现。这样的标注规则可以用来描述和控制用户的标注行为,避免对信息对象的随意标注以及大量垃圾标签的出现。如对一幅手表的照片,我们可以这样标注:Tagging:=(手表,watch,张三,http://en.wikipedia.org/wiki/Watch,2007-02-28)。这个标注就揭示了“watch”这个标签的描述对象、标注者、资源出处和标注时间,也便于标签数据的规范化理解和其他用户共享该标签。

引入标签本体后,当我们使用某一标签对某个系统中的资源进行标注时,就能够发现与其他标签之间的关联,也有助于判断同一标签在不同系统中的具体涵义。可以说,标签本体的引入增加了对知识的描述,增加了机器处理的描述,不仅能够对原有的信息对象进行标注,还可以从语义层面上描述各个标签元素之间的关联,使得信息共享变得更加便利。同时,形如people的标记语言,能够同时被用户和机器理解,从而使得计算机对标签进行自动处理成为可能。

3.3 标签本体实例——SCOT

SCOT即SocialSemantic Cloud ofTags,可理解为标签的社会性语义云图,是标签本体模型的一个典型应用。其目标是在语义层次上为标签提供一个机器可理解的框架,在语义网络中为标注活动所描述的信息对象的概念和属性(如用户、标签、资源等)提供一个表示模型,为标签数据的共享和重用提供便利。[9]

SCOT主要的特点就是能够描述标注活动并展示在线虚拟社区中的各个元素之间的关系,即描述被标记的信息对象的结构和语义,并提供一种社会互操作性——为了共享和重用标签数据以及描述来自于不同资源的用户之间的关系。[9]为了达到这一目标,SCOT采用现有的计算机可理解的语言如RDF/OWL来定义词汇,以便计算机更好地处理。SCOT词表的核心要素是标签云,SCOT不仅能够识别一个标签云本身,同时还反映了标签与其他元素和属性之间的联系。[9]

如在SCOT模型中,scot:tagging Activity描述了scot:TagCloud 和 tags:Tagging 之间的关系,scot:contains描述了scot:TagCloud和scot:Tag之间的关系。此外,scot:hasUsergroup则指出了有哪些成员使用SIOC(Semantically-Interlinked Online Communities) 参与了标注活动,scot:usedBy定义谁进行了标注,scot:Tag指在标注活动中使用了哪些标签,scot:tagOf则指出标注活动是在哪里发生的,如博客。通过这样的描述,就能对用户的标注活动进行约束和限制,从而很容易地找到标签间的联系。

在SCOT中,将多个标签聚合到一起形成一个标签云图,从用户组、标签、资源三个角度建立一个语义关联图,这些聚合到一起的标签具有同类属性,如在Delicious中,有关Webdesign一类的标签有design、logo、 logos、 webdesign、 designer、 dreamweaver、 templates、best、good等。因此,将SCOT用于分众分类法的标签控制中是非常合理的。

4 结论

引入标签本体后,对用户的标注过程采用Tagging(object,tag,tagger,source,date) 多元组机制来描述,可以反映出标签、资源、标注者、标注对象和日期之间的关联。同样,类似的多元组机制也可以用来描述标签聚集的结果——分众分类标识,如采用多元组 Folksonomy:= (Tagset,User Group,Source,Tagging,Occurences)进行。这样,还可以将有联系的标签通过呈现的方式关联起来,有利于从语义的角度将具有同类属性的标签聚合到一起,实现分众分类,对信息进行序化组织。当然,在利用标签进行信息检索时,也避免了过去盲目地输入标签进行检索的弊端,可以从多个角度检索,同时由于对标签进行了规范,能够提高用户的检索效率。可以这样说,引入标签本体,一方面可以对标签进行语义控制,提高标签的可用性;另一方面,为机器自动描述标签提供了有益的探索,增强标签的功能和实用性,有利于网络信息组织与检索的改善。鉴于现有的一些标签本体模型尚不能很好地支持计算机的自动描述和处理,因此还需要广大用户和各领域专家以及技术开发人员的共同努力和合作,共同关注标签控制工具——标签本体的建设。

[1]图书馆2.0工作室.图书馆2.0:升级你的服务[M].北京:北京图书馆出版社,2008:161-191.

[2]马然,陈树年.网络信息分类组织的新星——Folksonomy[J].新世纪图书馆,2006(4):37-39.

[3]曹树金,马利霞.论本体与本体语言及其在信息检索领域的应用[J].情报理论与实践,2004(6):632-637.

[4]KeesvanderSluijs,Geert-JanHouben.RelatingUser Tags to Ontological Information[EB/OL].[2008-10-27].http://wwwis.win.tue.nl/~ksluijs/papers/UbiqU M08/sluijs_UbiqUM08.pdf.

[5]王翠波,等.基于语义网的信息组织与智能导航研究[J].中国图书馆学报,2006(3):32-36.

[6]T Gruber.Ontology of folksonomy:A Mash-up of Apples and Oranges[EB/OL].[2008-11-03].http://www.metadata-semantics.org/.

[7]Tag ontologydesign[EB/OL].[2008-10-25]http://www.holygoat.co.uk/projects/tags/.

[8]TGruber.Tag Ontology—awaytoagree on the semanticsof tagging data[EB/OL].[2005-10-29].http://tomgruber.org/writing/tagontology.htm.

[9]SCOT Ontology Specification[EB/OL].[2008-11-03].http://scot-project.org/scot/index.html/.

猜你喜欢
本体检索语义
眼睛是“本体”
语言与语义
基于本体的机械产品工艺知识表示
“上”与“下”语义的不对称性及其认知阐释
专利检索中“语义”的表现
认知范畴模糊与语义模糊
专题
Care about the virtue moral education
语义分析与汉俄副名组合
国际标准检索