白 银 刘 宏
〔摘 要〕本文对现有各网站的网络信息资源的分类目录进行了对比研究,采用了分类—主题一体化和本体论相结合的方法,拟定了一个网络信息资源的分类目录,丰富了网络信息资源组织的分类方法,进一步促进了基于本体论的分类组织方法的实现。
〔关键词〕网络信息资源;分类目录;本体论
中图分类号:F713.51文献标识码:A文
章编号:1008-4096(2009)02-0028-04
因特网的出现为人类开辟了新的更加广阔的信息空间。它的无国界性和使用的便利性,使它迅速地集聚了亿万各种各样的用户。网络的发展导致了一大批以网络为依托的电子化信息资源的产生。与传统的信息资源相比,网络信息资源呈现出许多新的类型和特点,并在管理方面有了更为丰富的内容。如今因特网已经成为全球规模最大、用户最多、资源最丰富的广域网。如何让海量的、无序的网络信息资源为人类服务,这就是网络信息组织的内容。本文采用了分类—主题一体化和本体论相结合的方法,拟定了一个网络信息资源的分类目录,丰富了网络信息资源组织的分类方法。
一、信息资源的分类组织方法
目前,信息资源的分类组织方法主要包括分类法、主体法、分类—主题一体化的方法。现存的方法对信息的描述大多局限在语法和语句层面,不能完全有效地表述信息。描述的信息中存在名称相同、语义不同或名称不同、语义相同的情况,会降低信息检索的查全率和查准率。本体描述概念以及概念之间的关系,可以从语义层面对信息进行描述。本文利用本体实现从语义层面上描述网络信息资源的分类组织,从而提高网络检索的查全率和查准率。
关于本体,目前尚无一个明确的形式化定义,较为认同的是1998年Rstuter的解释[1]:“本体是对概念体系的明确的、形式化的、可共享的规范说明。”本体通过对概念的严格定义和概念与概念之间的关系来确定概念精确定义,表示共同认可的、可共享的知识。基于本体的网络信息资源分类组织是通过构建网络信息资源的领域本体来实现的,领域本体是用于描述特定领域中概念与概念之间的关系的本体。
二、现有的分类法在网络信息资源分类组织中的应用
围绕传统的文献分类法在Internet的应用,国外进行过不少实验研究,目前已进入实用阶段。一些大的万维网站或搜索引擎就采用现有文献分类组织Internet信息资源。
(1)杜威十进分类法(DDC)[2]。现有一些站点以DDC为分类体系,这些站点以图书馆和大学为主。资源类型既有综合性全球资源,也有专题性资源、国别资源。有些目录在各层次的类目前均标记了标准的十进制分类号,而大多数没有分类号,只是利用DDC体系建立了浏览结构。
(2)国际十进分类法(UDC)。UDC具有分面组配分类法的一些特点,可以通过符号组配获得概念的组合,因此这种分类法较适用于机检[3]。一些网络目录利用了UDC的这些优点,建起自己的分类系统。
(3)国会图书馆分类法(LCC)。使用LCC的网络目录如:CYBERSTACKS,由依阿华大学开发,主要提供6大部类的资源,包括:科学、医学、农业、工业技术、军事科学、海洋科学[4]。
网络信息资源分类在国际上以及各个国家没有一个特定的分类标准,许多搜索引擎采用自编的分类系统进行信息组织,具体表现为网站分类目录和网页分类索引。用于网络信息组织的自编分类系统主要有以下三种[5]:
(1)等级式主题分类法系统。是指在分类中,基本上采用等级结构,一个主题充当一个类目,类目按字顺或人为次序,类目不采用标记符号表示,一个类目可以细分为若干个细目,同位类的细目多按字顺排列。这是一种主题分类法形式的分类体系,依事物分类,可以将相关事物的网络信息资源集中。目前的大多数网络检索分类系统就是采用这种分类系统。
(2)分面组配分类系统。是由若干个分面组成,每一个分面的类目可以与其他分面的类目组配,表达专指的概念。
(3)学科分类法系统。这是将各个学科、领域及其分支设为类目的分类法系统。中文搜索引擎“网络指南针”就提供了一个学科分类系统。
三、采用自编分类系统的网络信息资源分类实例
Yahoo是WWW上最早、最著名的网络分类目录,它是由美国斯坦福大学的两位博士研究生David Filo和Jerry Yang(杨致远)于1994年创建的。目前,其分类目录成为网络自编分类系统的标准模式。
Yahoo将所收录的信息分为16大类,每一个基本类目下会细分出不同层次的次一级类目,级别越低的类目中的网站主题越明确。Yahoo网站分类见图1。
搜狐网站将信息资源分为16大类,每个大类下又细分了各个子类。和Yahoo的分类目录相比较,两者有相同的分类,也有不同的分类。不同之处是把Yahoo的某些大类又细分了子类作为搜狐一级类目。采用自编分类系统的搜索引擎多采用了等级式主题分类法系统和分面组配分类法系统相集合的方法[6]。类目既突出了主题,又可以与其他词互相结合,产生出一个上下文关系,具有了更深层的含义。
通过对比各个网站的分类目录(这里不再详细例举)发现,由于网络信息资源的无序性、学科交叉性、种类多样性以及所面对的对象的层次性,它不可能完全以传统的信息组织方式和现有的网络分类体系进行聚类和类目设置,那么,就要对传统和现有的网络分类目录相互借鉴和改造,不断完善网络信息资源的分类目录体系,旨在制定出一部网络信息分类法。
四、基于本体论的信息资源分类组织研究
按照本体论的内容来划分,可分为:领域本体论、通用本体论和任务本体论。领域本体是本体在具体领域中的应用,本文是本体论在网络信息资源领域中的应用,属于领域本体。
领域本体是对某个具领域的知识和特征的描述,通用的领域本体不可能穷尽所有的知识,要想使信息检索尤其是某个专业领域的信息检索达到较高的标准,就需要建立并合理地使用领域本体论。
开发一个领域本体包括如下的步骤:(1)考察现有的领域本体的可复用性,定义本体中的类;(2)设定类和子类的合理层次结构;(3)定义类的属性和描述对属性值的限制;(4)为实例中的属性设定具体属性值。
定义类和类的等级体系是构建网络信息资源本体的关键步骤,对类的等级体系的确定,需要体现分类—主题一体化的方法[7]。定义类的属性也是本体构建的重要组成。在定义类的属性时,体现元数据表示方法的思想,从多角度多层次对类进行描述。完善类的等级体系和定义类的属性是密不可分的,两个环节必须同时进行,而且,在实现过程中会出现不断的循环往复,直到合理、满意为止。基于本体论的网络信息资源检索模型见图2。
在本体的构建过程中,如果存在着现有的本体资源,应将其导入并在其基础上进行添加和完善,这样可以减少不必要的工作量,提高本体构建的效率,促进资源共享。目前,对于网络信息资源而言,没有一个标准的本体资源可以复用。但是各个网站已经有了自己的网站分类目录,可以为网络信息资源本体的构建提供参考。通过参考和比较搜狐、网易、Yahoo、新浪、Google等网站的分类目录,在本体的分类组织思想的基础上,符合概念逻辑,采用综合法对网络信息资源做如下的一级分类(表1):オ
其中,每一个一级子类包含着不同层数的次级子类[8]。网络信息资源本体中类的关系包括:(1)每一个子类由其下级子类构成;(2)子类完全继承其上一类的属性;(3)同一层次的类互为不相交类;(4)每个类的个体不能成为其同级类的个体,但可以存在关联。
类目划分一般须遵守相应的概念逻辑规则[5]:(1)每次划分只能按一个分类标准,一般不得同时采用两个或两个以上的标准。(2)划分以后所得的子类的外延之和应等于母类的外延。(3)划分出来的各个子类应该相互排斥,不能交叉重叠,界限分明,类目之间不应存在相互交叉现象。
因为中国是体育大国,所以把体育从休闲娱乐中分离出来,成为一级类。越来越多的人走出了国门,出国成为人们越来越关注的话题,所以把出国列为一级类。一级类中的参考,是就目前最新出现的事物、概念进行的汇总,归为参考类。这样在网络上查找所需的信息资源时就会明确归类,直接到所需内容的类去查找,提高了查全率与查准率。
类目设置充分体现了网络信息组织的动态性,要根据网络信息资源数量的分布情况、信息的用户访问率,随时进行类目结构的调整或类目的增、删、改,并根据网络的需求进行改造。例如,对于新生的事物,网络类目就要及时增加其内容,这样才能完善自身的网络信息资源。此外,对各自网站来说,用户是不尽相同的,那么不同的用户对网站的不同内容,兴趣程度也不同,这也需要对网络类目做出调整,要把大多数用户感兴趣的类目划分出一个一级类目,以便于用户查找。分类的层次也不要太多,不应该出现转换十多次还找不到所需信息的情况。各个网站要结合自己的分类特点,分类对象要扩大到网站所包含内容的一切可利用的资源,让各种类型的网络信息资源都能在分类法中找到相应的位置。
基于本体论的网络信息资源分类组织方法与其他的分类组织方法相比较,其优点是:(1)突出大多数用户感兴趣的类目,通用性强;(2)把网络资源分成若干个一级类,类名是网络资源的本源,也就是本体,用户进行检索时,就归属到对检索内容所属的类进行查找,提高了查全率与查准率;(3)网站可以随时对领域本体进行补充、删减,具有较强的动态性及实用性;(4)采用本体对网络资源进行分类,是以知识分类、概念逻辑为基础的,具有较强的完整性和逻辑性。
五、结论和展望
基于本体的网络信息资源分类目录的实现,有助于提高网络信息资源的查准率和查全率。本体构建从语义层面上对网络信息资源进行了描述,在对网络信息资源进行搜索时,可以确保具有相同语义的信息被搜索到,同时排除名称相同、语义不同的信息,从而提高搜索的查全率和查准率。基于本体的网络信息资源分类组织的实现,还需要不断地完善和改进,因为随着社会的不断发展、进步,新事物、新概念也不断在产生,旧的事物也会被取而代之,要不断对网络信息资源的分类进行补充和调整。此外,在今后的研究中还应对分类方法进行评价,这样才能使领域本体在网络信息资源分类中更加完善。
参考文献:
[1] 乔燕鸿.基于本体论的信息组织研究[D].郑州:郑州大学博士学位论文集,2007.
[2] 曹树金,罗春荣.信息组织的分类法与主题法[M].北京:北京图书馆出版社,2000.
[3] 张燕飞.信息组织的主题语言[M].武汉:武汉大学出版社,2005.
[4] 马张华,侯汉清.文献分类法主题法导论[M].北京:北京图书馆出版社,2002.
[5] 游春山,狄九凤.信息组织理论与实践[M].北京:北京大学出版社,2001.
[6] 马费城,李刚,查先进.信息资源管理[M].武汉:武汉大学出版社,2000.
[7] 谭华军.知识分类[M].南京:东南大学出版社,2003.
[8] 艾伟.本体的构造及其研究[D].武汉:武汉理工大学,2005.
(责任编辑:杨 放)