黄美
(广东工程职业技术学院图书馆,广东 广州 510520)
基于分众分类法的图书馆书目本体构建研究
黄美
(广东工程职业技术学院图书馆,广东 广州 510520)
分析了分众分类法与本体结合的必要性和可行性,介绍了本体的构建原则、方法和工具。在此基础上构建了图书馆书目本体模型,并重点阐述了书籍本体模型构建思路、标签及定义类的体系等。
分众分类法 图书馆书目 本体构建
随着网络时代的到来,分众分类法已经开始广泛应用于很多领域,但是这种方法本身也存在一定的局限性。相对来说,网络信息资源冗杂繁复,所以分众分类法在一定情况下局限了现代化信息组织的进一步发展[1]。在网络环境下,使用的分类系统需要具备直观明确、精致有序、具有动态性特征、有一定语义控制能力以及抽象概括能力等特点,唯此才能更好地满足网络信息组织、信息检索以及信息分类的需求。
本体可以对资源语义之间的关系进行确认,并通过一定的形式对信息资源的概念和相互间关系进行表达,确保构造的模型能被计算机识别。在分众分类法中运用本体,可以使网络标签的本体化变为现实。在分众分类法模型的基础上构建的本体有助于标签本体的构建。笔者首先分析和探讨了分众分类法和本体研究的体系、内容和应用状况,研究了分众分类法与本体结合的可行性和必要性,并在此基础上提出可以借由本体对分众分类法标签的特性进行约束。
1.1 分众分类法与本体结合的必要性
标签数量伴随不断增加的网络用户而呈现出迅速增长的态势,结合了分众分类法的标签表现出了模糊性、多样性以及扁平化组织等特点,增加了系统的检索难度[2]。所以目前亟待解决的问题是如何使分众分类法的语义性得到增强,以有效提升检索效率。用户在检索过程中使用的分众分类法标注系统只能以查找关键词作为检索标签,这样对资源进行检索具有较高的漏检率,将导致检索结果的混乱,表现出了相应的局限性。
在概念与概念之间,本体能明确提供语义关系,并在分众分类法标注系统中进行应用,达到语义检索的目的。本体的使用能有效弥补在检索方面分众分类法标注系统体现出的不足[3]:有利于分享知识,作为自上而下的分类法,分众分类法是用户基于自身理解通过自然语言完成分类和标注,本体却是通过相关领域的专家通过大量的分析和研究完成的分类,两种分类方法之间的结合不仅使得信息组织方式更加专业,同时以用户为中心的分类法更有利于共享知识;有利于向用户提供个性化信息。两种分类法的结合可以对用户信息进行深度挖掘,然后根据用户的标注活动、习惯喜好以及浏览历史等为用户自动推荐个性化信息资源;有利于检索效率的提升,用户把需要检索的关键字在系统中输入之后,利用本体可以实现扩展查询,输入的单一关键词可以向语义相关的关键词扩展,使检索的查全率得到有效提升。
1.2 分众分类法与本体结合的可行性
综合本体和分众分类法,可以把控制自由标签的能力提供给用户,把精确的语义信息赋予到标签上,对标签的浏览体验和检索机制进行改进。在分众分类法系统中加入本体应用可以更好地控制标签。笔者通过以下两方面具体阐述其可行性。
1.2.1 借助本体规范标签
通过本体的使用可以达到规范标签的目的。从概念上对标签进行控制,对歧义、同义和模糊标签进行规范,使标签的多样性和模糊性得到有效消除,防止垃圾标签的出现[4]。在分众分类系统中,用户的知识量、专业性、表达能力以及目的都有所不同,会导致多个标签表达的概念完全相同的情况;即便是同一个标签,当语境不同时,其表达的概念也有所不同。比如“苹果”这个标签,在计算机领域指的是计算机或者手机品牌,在水果店就是可食用的水果。借助本体可以解决这一问题,本体是规范化描述某一领域知识,可以对概念之间的关系、概念的定义进行再明确,并且以多样化的形式把概念之间的关联连接起来,对不同标签的语义进行约束和控制,使标签歧义的现象得以消除。
1.2.2 借助本体建立标签间的语义关系
用户可以依据本身需求,在分众分类法系统中,使用相似或相同的标签对相关资源进行描述,这些标签具有可见性和共享性的特征。有学者在研究过程中以标签使用频率为切入点,通过语义浮出和类聚等方法把用户使用频率相对较高的词汇集合成表。这些词汇之间都存在着一定的同义、近义、反义或者上下级关系等关联。本体说明是概念化的,具有共享性,是用户对事物的共识,其词汇表中的词汇都是具有明确定义的。其实本体和分众分类法标签还是存在一定共性的,本体概念和部分标签是可以重合的,通过本体的使用可以便于我们控制和揭示自由标签的语义,把标签之间的语义关联揭示出来。针对分众分类法标签来说,有助于语义网络的构建。本体可以通过两种方式优化分众分类法体系:一种是整理分析标签,构建出标签语义模型;另一种是通过控制标注过程,对标签之间的语义关系进行再明确。图1给出了本体和分众分类法的具体结合机制。
2.1 本体构建准则
本体随着多样化的研究角度、发展壮大的研究队伍以及不断拓宽的研究领域,不管是在多样性方面还是在数量上都有了显著的提升[5]。对于大多数本体来说,都是用户根据个性化需求对某个研究项目或者自己的研究领域专门设立的,这是本体多样化构建过程的形成原因。目前本体构建方法还不规范,用户都是基于自身需求和本体构建目的提出本体的构建标准。一般而言,本体构建需要遵循以下规则:一致性、客观性和明确性、最小承诺、编码编号程度最小以及最大单调可扩展性。笔者依据以上规则,基于构建目标需求,提出分类法领域本体构建的具体方法。
首先是一致性,也即是要求不管是本体的逻辑关系还是本体的概念都要确保前后一致,进而保障概念及逻辑关系的一致性。其次是客观性和明确性,在分类法分类规则的基础上对本体概念进行定义,把常用词和规范词之间的关联关系建立起来,发挥本体概念的实用价值;第三是完全性,是指在本体的构建过程中,要尽可能完整表述本体定义,确保能把所描述的事物完全表达出来。当然在这一过程中,知识表达方式呈现出了多样化的特征;第四是最小承诺,对于用户来说,本体是为了支持用户的检索查询需求,所以在建模过程中,要尽可能少地约束建模对象,只需要实现概念的语义知识,满足用户的特定需求即可;最后是可扩展性。用户在本体提供的共享词汇中,在不改变该词汇原有概念的基础上可以对新的术语进行定义;在对词汇定义的本体扩展中,可以采用局部构建法。但是局部构建法自身也存在着一定的局限性,在进行本体扩展之后要在已有本体中嵌入词汇的扩展部分,对两者的冲突情况进行检测,确保原本体与本体扩展部分的一致性。
分类法本体构建的过程中,由于本体构建原则并不统一,而且还不成熟,所以离不开专家的协作和参与。在本体的实际构建中,由于本体具有复杂的结构,所以本体构建方法还实现不了,而且在短期内也达不到完全自动化。
2.2 本体构建方法
构建本体多是面向特定领域进行的,通常具有较强的目的性,所以在本体构建过程中,选择构建方法至关重要。国际上比较权威的有TOVE法、METHONTOLOGY法、骨架法以及七步法等本体构建方法[6]。有很多专家和学者都针对广泛应用的本体构建方法进行了分析和研究,概括了各种方法的优劣,还有一些学者按照自身需求,结合不同方法的优点,提出适宜特定领域的分类法本体构建方法。
2.3 本体构建工具
相关统计数字显示,截至2002年12月,已经存在52种本体构建工具。在此基础上,中科院的李景博士又找到12种新的本体构建方法。到了2004年下半年,仅在互联网上就可以找到高达64种本体编辑工具[7]。但是到了实际操作中,并不是所有的本体编辑工具都能得到切实的应用。其中常用的本体合并工具为ONIONS,常用的本体评价工具是Onto Clean;在本体基础上拓展的标引工具是Onto Aimotate,本体还有一种合并和集成的Chimaera工具,Ontosaunrus常常被用于本体的转换器、服务器和浏览器。通过研究发现,在以上提及的数十种本体编辑工具中,存在着一定的共同点:首先,用户界面兼容性较强,易操作,稳定清晰;其次,本体构建工具可以对指令含义进行解释,提供给用户帮助;第三,本体构建工具都提供有本体文库;第四,本体构建工具的验证机制是统一的;最后,本体构建工具可以对文库中的已有本体重复使用。
3.1 书籍本体模型构建思路
笔者已经分析和探讨了构建本体的原则、方法和使用的工具,并在此基础上与书籍本体的相关研究成果、书籍本体的特性以及构建书籍本体的目的相结合,使用分众分类法构建了书籍本体模型。具体建模过程如下。
首先是收集和整理书籍标签。根据构建本体的目的以及书籍的特性,对分众分类法网站进行比较分析,从中选择满足研究要求以及可以展示出书籍标签特性的网站,并在这些网站中对书籍的相关标签资源进行搜集。书籍标签搜集完成之后,根据研究的具体要求和标签整理原则,规范整理这些标签,如去重、清洗等,确保获取的标签是规范和有效的;其次是重要术语,重要术语其实主要是指语料,这些语料是与构建书籍本体相关的概念、关键词以及术语等。在该步骤中主要是把重要术语从规范化的标签中整理出来。值得注意的是,还要与其他学者研究的相关性较高的书籍本体比较,不仅可以参考具体的本体研究成果,还可以分析本体模型的可复制性,对现有数据本体提供参考和复用可行性分析,达到基于现有标签,进一步充实书籍本体模型语义关系的目的,进而使书籍本体专业功能得到有效提升。第三,对书籍本体的结构体系进行定义,该体系结构其实就是书籍本体模型的概念化,是在书籍重要术语基础上对概念化书籍描述体系进行定义。具体内容包括一级、二级以及三级类目等专业术语。对本体类结构体系定义是为了更加有效地构建书籍本体;第四,对类的属性进行定义,在第三步中,在同级类之间,语义关系还较为匮乏。通过类的属性定义,可以在不同级别不同类或者是相同级别不同类之间建立语义关系,书籍本体属性的功能包括推理和判断等,它有助于对书籍信息的高效检索,能实现构建书籍本体的目的;第五是添加个体;最后是模型特征。
3.2 标签
在构建本次书籍本体中,最主要的信息资源是在分众分类法网络上的相关书籍标签。标签质量的高低与研究结果的有效性和客观性是直接相关的。笔者根据研究要求和目的,进行了严谨的比较和分析,发现豆瓣网是采用分众分类法较早的网站之一,而且主要涉及的网站资源是书籍,在该网络上不仅有大量的书籍标签和信息资源,还汇集了海量的书籍信息用户,与研究需求相吻合。所以,在构建本次书籍本体过程中,选用豆瓣网作为标签来源网站。
3.2.1 标签收集
笔者根据检索和研究的需求,与分众分类法充分结合,选用了“书”“书籍”“文学”“小说”“读书”“生活”“文化”“穿越”“经济”科技”等20个近期的热门词汇和标签,并以这些关键词为入口,通过摘录和检索等标签收集活动在豆瓣网中进行标签的采集。
3.2.2 标签初次整理
通过以上步骤采集到的标签只是简单汇集了豆瓣网上的相关书籍资源标签,还存在很多的标签集合问题,不能拿过来直接应用在研究中,还需要进一步的规范化整理。首先是标签去重,这种处理主要是去除标签集合的冗余,主要思路是在集合中相同的标签只能出现一次。以“文学”标签为例,在搜集到的标签集合中,该标签一共出现了6次。根据标签去重的原则只要保留一个“文学”标签即可;其次是清洗标签,清洗的对象主要包括容易带给信息检索者歧义以及不能把书籍信息知识准确反映出来的标签,比如汇集的标签集合中存在的歧义标签或是无效标签。由于自身包含的语义并不能对书籍的信息资源进行有效揭示,所以可以将类似标签直接清除。通过去重、清洗等整理之后,得到的标签集合是规范化的,可以在研究中直接应用。
3.2.3 重要术语
可以从多渠道获取书籍相关的重要术语。笔者主要参照了主题词表、元数据词表、叙词表以及其他本体的重要术语。在分众分类法基础上构建书籍本体,其实就是将用户进行分众分类法处理之后,利用书籍信息资源标签对书籍本体进行构建,充分发挥系统化概念的优势,使标签与标签之间的语义关系建立起来,进而实现用户对所需资源的检索。构建书籍本体语义关系的基础是丰富的领域术语。笔者为了使书籍本体的构建更加高效,对前人的研究成果进行了分析,参考了相关的构建信息,使书籍本体的语义功能得到进一步增强。
3.3 定义类的体系
在书籍的描述过程中,本体类是术语的概念抽象化,概念化描述了众多书籍的个体共性。类根据描述范围和对象的区别,可以分为3种:同级、上位和下位类。这3种类具有一定等级结构和层级关系,是一个关系分明、结构明确的体系结构。本体这3个类层级等级的区分与确定,关系到书籍本体类间的语义联系和层次聚类。笔者参考分众分类法对用户标签的定义、语义的搜索及挖掘方法来对书籍本体进行分类。这种本体类间层次关系相对比较简单,而且容易区分,故本研究拟利用Top-Down方式来构建基于分众分类法的图书馆书目本体。图2就是笔者使用Top-Down方式构建的书目本体类层体系图。
G250.7