●李珂,宋文(中国科学院文献情报中心,北京100190)
农业科学领域DDC和CLC类目映射分析
●李珂,宋文(中国科学院文献情报中心,北京100190)
映射分析;互操作;杜威十进制分类法;中国图书馆分类法
采用直接映射的方法,针对DDC第23版和《中图法》(第5版)的农业科学领域类目展开映射研究,通过在两部分类法的农业类目之间建立一定的映射关系,并对映射的结果进行统计和分析,总结两部分类法在类目设置上的相似性和差异性,一方面为实现两部分类法在农业科学领域的互操作提供依据;另一方面也能够为中图法农业科学领域类目的进一步修订提供参考.
农业是国民经济的基础,也是经济发展的重要推动力,我国作为一个农业大国,在农业科学领域的研究取得了许多重要成果的同时也积累了丰富的知识资源.面对数量庞大、类型多样的农业知识资源,国内外采用各种知识组织工具对其进行有序化,其中,分类法是最主要的知识组织工具之一,在农业知识资源的分类和标引过程中发挥着重要作用.随着人类探索新知识的脚步不断加快,农业知识资源内容得到不断发展、资源数量的飞速增长以及越来越多异构资源的出现等,都对知识资源组织工具的发展提出了更进一步的要求.因此,如何在各种异构资源之间实现互操作以方便用户进行交叉浏览和"一站式"检索,以及如何对知识组织工具进行修订和完善以适应知识资源发展的需要就成为知识组织工具研究的重要内容.
中国图书馆分类法(CLC)和杜威十进制分类法(DDC)是国内外使用较为广泛的分类法,也是进行农业知识资源组织的重要工具,二者均对农业科学领域的类目进行过多次的修订.国内有许多学者从CLC自身出发,对农业领域类目的设置和修订进行各种探索研究并提出改进建议,而关于通过和国外主要分类法农业领域类目的映射研究来分析类目设置差异性的文章较少.因此,本文主要从映射的角度出发,采用直接映射的方法,针对CLC第5版[1]和DDC第23版[2]的农业科学领域类目展开映射研究,通过在两部分类法的农业类目之间建立一定的映射关系,并对映射的结果进行统计,分析两部分类法在类目设置上的相似性和差异性,一方面为实现两部分类法在农业科学领域的互操作提供依据;另一方面也为中图法农业科学领域类目的进一步修订提供参考.
通过初步的统计,DDC 23农业科学领域列举出的类目约有810条,而CLC 5农业科学领域列举出的类目约有4860条.由于停用、宜入等类目不参与映射,所以将这些类目排除之后,再次对实际参与映射的类目进行统计,分别是DDC 23有790条类目和CLC 5有4572条类目参与映射.从统计的总量上可以看出DDC和CLC在农业领域类目数量设置上差距比较大, CLC的类目数量远远超过DDC的类目数量,由于类目数量上的差距能够在一定程度上反映类目设置的差异,因此,本文首先对DDC和CLC农业领域内各级类目数量的分布情况进行统计和分析(见表1、2).
表1 DDC类目及其分布情况
表2 CLC类目及其分布情况
从上面两个统计表可以看出两部分类法在农业领域类目设置的总体情况.首先,在类目设置的角度方面,DDC农业领域共设置10个二级类目,其中630类专门用于描述农业及其相关技术的一般性问题, 631类至639类分别从9个方面对农业领域进行细分; CLC农业领域则设置9个二级类目,S1类至S9类分别从9个方面对农业领域进行细分,而涉及农业领域的一般性理论等类目采用标准复分的形式用S-X类描述.因此,可以看出两部分类法虽然在农业领域类目设置的数量悬殊,但它们对该学科的知识分类和类目细分角度很相似.
其次,在类目设置的等级深度方面,CLC的农业领域类目等级较深,其中S4类和S8类的细分可达10级,类目大多集中在五级和六级,可占所有类目的68.83%;DDC农业领域列举出的类目最多细分到7级,类目主要集中在四级和五级,可占所有类目的75.95%.因此,在类目设置的等级深度方面,CLC比DDC类目的细分更加细致和深入.
最后,在类目设置的集中与分散方面,DDC在畜牧业(636),果园、水果&林业(634),庭园作物(635),技术、设备和材料(631)等4个类下集中的类目最多,可占所有类目的70.2%;CLC的类目主要集中在畜牧、动物医学、狩猎、蚕、蜂(S8),林业(S7),水产、渔业(S9),植物保护(S4)这4个类下,占所有类目的68.26%.可见两部分类法的类目设置各有偏重,集中类目的大类并非完全一致,但也有部分相同,如都在畜牧业和林业两个主题下集中较多类目.
2.1映射关系和映射规则的定义
映射是实现互操作的一种重要方法,主要通过直接或间接的方式,在不同分类法的相关类目之间建立一定的映射关系,以实现类目的相互转换和链接.本文主要采用人工直接映射的方式,在DDC和CLC农业领域类目之间建立一对一或一对多的映射关系.在定义映射关系时,借鉴前人研究经验,[3]根据类目概念重叠度的大小定义三种映射关系,分别是等价映射、等级映射和相关映射.
假设类目A来源于DDC,类目B来源于CLC,如果类目A和类目B的内涵和外延基本相等,那么判定类目A和类目B是等价映射;如果类目A的内涵和外延大于(小于)类目B,那么判定类目A和类目B是等级映射;如果类目A的内涵和外延与类目B有部分交叉,那么判定类目A和类目B是相关映射.在映射过程中,已建立某种映射关系的类目,不再建立其他映射关系,本文首先考虑建立等价映射,如果不能建立等价映射,再考虑能否建立相关映射或等级映射;如果类目所给出的信息太少,无法建立映射关系,则判定为无映射类目.
2.2二级类目的映射结果分析
二级类目是一级大类下对学科领域知识初步划分的结果,具有承接一级大类和开启二级以下细分类目的作用,其设置关系到学科领域整体类目的展开.因此,二级类目设置得合理与否具有非常重要的意义.
本文主要采用自顶向下和自底向上相结合的方法进行映射,首先在二级类目之间建立大致的映射关系,再根据细分类目的内涵和外延分别建立具体的映射关系.由于二级类目的映射可以从总体上反映出类目设置的相似性和差异性,所以本文首先对二级类目的映射结果进行分析(见表3).
由于不同分类法类目概念范围存在差异,类目概念范围越广,差异性越大,映射关系也越复杂,因此二级类目的映射关系只能依据类目名称和相关下位类目进行大致判断.从映射结果看,两部分类法能建立映射关系的二级类目约占DDC所有二级类目的80%左右,只有630类和637类未能建立合适的映射关系,其余均能找到相关类目,三种映射关系所占比例相当,根据映射结果我们可以从总体上看出两部分类法在农业领域类目设置的相似性和差异性.
(1)二级类目的相似性.DDC和CLC在农业领域的二级类目设置方面具有极大的相似性,这种相似性为分类法映射的实现提供了前提和基础.首先,在二级类目的类名方面,除631类无法依类名发现相关类目,其他类目均可依类名对映射关系进行初步判断,可见类名设置的相似性;其次,能够建立映射关系的类目占DDC所有二级类目的80%左右,在很大程度上体现了二者对农业领域知识划分和类目设置角度的相似性;最后,二级类目设置的顺序也具有很大相似性,如都首先列出技术、设备和材料的相关类目,其次是植物保护、农作物、园艺、林业等类目,最后是畜牧业、渔业等类目,从而构成完整的农业领域类目体系.
表3 二级类目的映射
(2)二级类目的差异性.两部分类法在二级类目的设置方面还存在一定的差异性,主要体现在以下几个方面.
①农业领域一般性理论类目的设置.DDC在二级类目中单独设630类,专门用于描述农业领域一般性理论的相关类目,并采用标准复分的方法对其进行细分, CLC对涉及农业领域一般性理论的类目,直接在S大类下采用S-X的总论复分形式进行描述,并未专门设类,这样就减少了二级类目的设置,在保证分类体系完整性的同时,使类目更加简洁.
②二级类目设置的角度.两部分类法对知识的理解和划分也存在一些差异,如CLC认为瓜果类属于瓜果园艺,将描述果园和水果的相关类目放入S6园艺类下,并将林业单独列类,而DDC则不认为该部分类目归属于园艺作物,而是将其和涉及林业的类目合并归入634类.由于DDC中林业类目和果园、水果相关类目实际上联系不紧密,因此相较而言,CLC将具有共同点的瓜果、蔬菜和花卉等归入一类,使得分类体系更加合理,也易于标引人员理解和使用.另外, DDC在二级类目设置时更加注重实用性,如将乳制品加工及相关产品的类目从畜牧业中单独列出,在二级类目中设637类,专门用于描述该部分类目,而CLC农业领域类目中仅在S8类(畜牧、动物医学、狩猎、蚕、蜂)中的畜牧业相关类目下设置一个小类用于描述乳产品,将涉及乳产品加工的类目放入T类(工业技术),更加注重类目的均衡性.
③二级类目设置的比重.两部分类法的二级类目下的细分类目所占比重也有所差异,如CLC在S4类(植物保护)下细分类目设置的比重远远高于DDC的632类,究其原因主要在于DDC在该类中更多采用仿分的形式细分类目,省去了大量类目的列举,如CLC的S44类(动物危害及其防治)从各种动物的角度对动物的危害进行细分,设置了近20个动物类目,而DDC中与其建立等价映射关系的632.6类(动物虫害)则采用仿分的方法,仿592-599的动物分类进行细分,不仅省去了大量类目的一一列举,还能保证细分类目的完整性和类目设置的前后一致性,更加易于理解和使用.
④综合性二级类目的设置.DDC农业领域将涉及技术、设备和材料的类目合并在一起放入631类,可以看做一个综合性二级类目,包括7个子类,在与CLC类目映射过程中,主要横跨CLC的S1、S2和S3三个大类,见表4.虽然综合性类目的设置能够简化二级类目体系,但从映射结果可以看出,631类的细分类目远远不及CLC,细分类目的设置并不全面,不仅会影响分类体系的完整性,还会割断类目之间的逻辑关联.而CLC从基础科学、农业工程和农学三个角度依次展开类目体系,虽然增加了二级类目的数量,但充分保留了类目体系的完整性,类目之间的逻辑关联也较为清晰,更加有助于使用人员对分类体系的理解和使用.
表4 DDC中631类映射分析
2.3细分类目的映射结果分析
等价映射关系表示两个类目的内涵和外延基本一致,该映射关系的建立能够使类目之间直接进行等价转换.所以从理论上讲等价映射关系所占的比例越大,两种分类法之间的相互转换和链接越容易实现.等价映射是最为理想的一种映射关系,但分类法之间的差异性决定了不同分类法之间不可能完全建立等价映射关系.因此除了等价映射关系之外,等级映射和相关映射也可以作为类目之间进行链接的一种依据.等级映射的建立在一定程度上扩大或缩小了类目概念的内涵和外延;相关映射是在含有部分相同内容的类目之间建立的一种关系,它聚集了不完全等价却又相互联系的一些类目.
在二级类目映射结果的基础上,遵循映射关系的定义和映射规则,对细分类目进一步映射,并从三个角度对映射的结果进行统计和分析.由于DDC的630类和637类在CLC农业领域中找不到可以直接映射的类目,所以不计入映射结果的统计.
表5 映射关系的类目分布
(1)映射关系的类目分析.首先对各种映射关系在DDC二级类目中的分布情况进行了统计,从表5可以看出.首先,在能够建立映射关系的8个二级类目中,仍存在约12%左右的细分类目无法进行映射,其原因主要有以下两个方面:有些类目所给出的信息过少,既无法根据类名和注释信息判断其内涵,也不能根据上下位类关系来确定映射关系时,只能归入无映射类目;有些特殊类目如标准复分类目、仿分指示类目等也无法建立具体的映射关系.DDC二级类目的细分类目中无映射类目所占比例较大的是635类和636类,在和CLC的S5类、S8类映射时出现13%左右的类目无法建立映射关系.以636类为例,无映射类目中的特殊类目有21条,含义不明的类目有8条.可见DDC中特殊类目的比重不小,采用复分和仿分形式细分的类目较多,在一定程度上对映射结果造成了影响.
其次,在等价映射关系所占比重方面,632类中等价映射所占比例最大,约60%左右的类目都能够直接进行等价转换,说明632类和CLC的S4类虽然在类目数量和类名设置上有所差异,但两者对知识的理解和类目细分的角度基本一致.638类和639类中等价映射关系所占比例较小,主要在于其在二级类目映射中与CLC的S8类建立了等级映射关系.CLC的S8类下设立多个主题,为保证类目的均衡性,不会对某个主题的类目进行单一深入的细分,而DDC分别将昆虫养殖和狩猎、捕鱼设为二级类目,对其进行了全面且深入的细分.因此,CLC中S8类将多个主题的类目合并在一起,虽然使二级类目的设置更为简洁,但其集中主题过多,为了保证类目的均衡性,很容易造成某主题下细分类目不够深入等问题.
最后,在非等价映射关系所占比重方面,从总体上看,等级映射关系所占比重在三种映射关系中最高,主要原因在于两部分类法在类目细分角度上存在较大不同.如DDC的635类和CLC的S6类,同是描述园艺作物的大类,在细分类目的映射结果中,建立等级映射关系的类目却占48%左右,常常存在两个上位类目能够建立等价映射关系,而由于细分角度完全不同导致其下位类目之间无法建立映射关系,只能根据上位类目的映射关系推理建立和上位类目的等级映射关系的情况.
图 映射关系的等级分布
(2)映射关系的等级分析.对映射关系在不同等级的类目中的分布情况进行了统计,统计结果如表6所示.从统计表中可以看出,各级类目映射关系所占比重和类目数量总体上呈正比例关系.由于类目数量分布主要集中在四级和五级,各映射关系所占比重也在四级和五级中得到凸显.其中,等价映射关系在四级类目中达到最高值,等级映射关系在五级类目中达到最高值,说明两部分类法的细分角度在四级类目时相似程度最高,而细分至DDC五级类目以下时,细分角度发生变化,更多出现等级映射关系的情况.
由于DDC五级以下类目主要分布在634类、635类和636类,因此可以认为,这3个大类的细分角度在五级时存在的差异达到最顶峰,其原因主要在于这3个大类的五级以下类目多出现列举具体实物的情况,如635类园艺作物中列举的各种蔬菜,由于国内外的蔬菜品种等存在差异,不能进行一一对应而采取和上位类建立等级映射的方法,大大增加了等级映射关系的数量.从另一个角度说,采用一一列举的方法对分类法的使用造成了局限,使得分类体系十分僵硬.如果能从多个角度对蔬菜类目进行划分,而不仅仅局限于单一的列举,将能大幅度提高该部分类目使用的灵活性.
(3)映射类型分析.在映射过程中,由于两部分类法分类角度的不同和类目主题涵盖范围的不一致,往往需要建立多种映射类型来满足映射的完整性,因此,除一对一映射外,还存在一对多映射和多对一映射的情况.据映射结果统计,一对一映射常见于等价映射中,由于一个类目不可能和另外一部分类法中的两个类目同时建立等价映射关系,所以等价映射一般都是一对一映射,而一对多映射常见于相关映射中,如一个多主题类目和多个类目含有部分相同的主题,则建立和多个类目的相关映射关系;多对一映射常见于等级映射中,如细分角度的不同导致某类目的细分类目无法找到等价映射类目时,只能根据上位类目已建立的等价映射关系推导建立等级映射关系.
表6 映射类型分布统计
在映射结果的基础上对各种映射类型进行粗略统计,从统计结果看(见表6),DDC向CLC映射过程中,一对一映射所占的比重最大,约占52%左右;多对一映射所占比重接近50%,即DDC中多个类目映射到CLC中某个类目的情况不少,而一对多映射所占比重只有7%,所以,虽然两部分类法农业领域类目数量差异较大,CLC某些类目的等级深度也比DDC的类目深,但DDC在细小类目的设置方面比CLC更为细致,因此CLC在细分类目时,不仅要从整体上把握类目体系的完整性,还要注意对细小类目的进一步划分.
3.1映射的准确性
虽然人工映射是在详细分析类目概念内涵和外延基础上建立的,但一方面由于学科知识的专业性和主观理解的局限性,有可能使参与映射的人员对某些类目理解不当,导致建立错误的映射关系;另一方面,由于人工映射的工作量较大,而映射关系的建立是一项综合性的智力劳动,需要映射人员仔细斟酌哪种映射关系最为恰当,因此,效率低且很容易出现错误;所以本文在映射实践时,为减少映射的复杂性只进行了DDC到CLC单向映射,映射结果虽然经过反复检查和思考,但难免会存在一些映射不当的类目.
3.2特殊类目的映射
本文的映射结果中含有13%左右的无映射类目,在上文的分析中也曾提到多种因素其中一个因素就是特殊类目的存在.特殊类目是对非正常类目的统称,如复分指示型类目、仿分指示型类目和存在问题的类目等.本文在映射时为避免太过复杂的分析和匹配,只对含有具体概念且能够确定内涵和外延的类目进行映射,如非必要不进一步复分.因此本文缺少对DDC和CLC复分类目的映射分析,是本文内容不够完整之处.
[1]中国图书馆分类法(第五版)web版[EB/OL]. [2014-09-10].http://clc5.nlc.gov.cn/default.aspx.
[2]WebDewey.[EB/OL].[2014-09-10].http://dewey. org/webdewey/standardSearch.html.
[3]TraugottKoch,et al.Renardus:Cross-browsingEuropean subject gateways via a common classification system(DDC)[EB/OL].[2014-09-10].http://www. ukoln.ac.uk/metadata/renardus/papers/ifla-satellite/iflasatellite.html.
G254.1
A
1005-8214(2015)10-0058-05
李珂(1989-),女,中国科学院文献情报中心在读硕士研究生,研究方向:信息资源组织与建设方向;宋文(1961-),女,中国科学院文献情报中心研究馆员,硕士生导师,研究方向:信息资源组织与建设方向.
2014-11-04[责任编辑]李金瓯