面向知识服务的领域知识组织纵论

2022-12-11 11:54苏新宁
情报学报 2022年9期
关键词:知识结构关联聚类

苏新宁

(南京大学信息管理学院,南京 210023)

1 引 言

知识是人类认识客观世界、探索精神世界的结果总结。在人类社会发展的历史长河中,无穷无尽的知识不断产生,当人类知识积累到一定程度时,知识就需要进行科学、合理、有效组织,其目的是方便对知识的传播、获取、利用和服务。由于知识的种类繁多,不同领域知识的认知结构不一样,不同类型的知识其组织方式也可能不同。共性化的、传统化的知识组织方式已经不能满足对各个领域、不同需求的知识服务的需要。因此,领域知识的组织研究已成为知识组织研究与实践的重要课题。

知识组织的目的是更好地学习、利用知识和支持知识服务,知识组织的科学性对知识服务的效能起着重要作用。大数据环境下,信息“爆炸”更为明显,网络资源形式复杂多样,各领域不再满足于共性化知识服务的提供,迫切需要知识服务能够更加适应于本领域的特殊需求。因此,现有的知识组织体系需要改进和提升,适应于领域知识的知识加工与组织模式亟待构建。这些知识加工组织模式需要为未来的领域知识组织提供新的思路,为领域知识服务提供知识组织框架和基础。

从文献诞生以后,就有了知识组织概念,但知识组织形成体系主要还是在图书馆出现以后。典型的知识组织代表是图书分类法,它是按学科门类组织知识的一种方法;主题词表是另一种有代表性的知识组织工具,它是根据词汇之间的用、代、属、分等关系来反映词汇所代表的知识之间的关系。还有一些检索工具,如词典、索引等,虽然功能不同,但都是以某种知识体系组织知识。

在我国,知识组织一词最早出现在袁翰青先生1964年发表的一篇论文中,他指出,文献工作就是知识组织工作[1]。20世纪90年代以后,知识组织研究逐渐引起关注。其中,刘洪波[2]以“知识组织论”为题发表了论文,认为图书馆的内部活动就是知识组织工作;王知津[3]对知识组织的方法、目标和任务进行了探讨;王军[4]从理论和实践的角度探讨了数字图书馆的知识组织系统;王曰芬等[5]研究了个性化服务下的知识组织机制;贺德方[6]、刘华梅等[7]、曾文等[8]、卜书庆[9]、薛建武等[10]、曾建勋[11]等都分别撰文阐述了借助词表或分类法进行知识组织的研究工作。2011年,由国家科技图书文献中心牵头的国家“十二五”科技支撑计划“面向外文科技文献信息的知识组织体系建设与应用示范”,建设了科技知识组织体系共享服务平台。近十年来,毕强团队发表了一系列文章从语义角度探讨了知识组织理论问题[12],提出了语义Web的知识组织模型[13];苏新宁团队从知识服务角度出发,研究了主题词表、分类表对知识组织的应用模型,探讨了语义信息、用户行为、引证关系、知识库等知识组织理论与方法。

国外在知识组织研究方面更强调实践性。1929年,英国著名分类学家布利斯提出了“知识组织”概念,之后以分类法和叙词表为基础,做了大量知识组织工作;图书情报领域的知识组织研究主要以NKOS(Networked Knowledge Organization System)作为重点方向来开展具体研究;国际数字图书馆联合会议(Joint Conference on Digital Libraries,JCDL)从1998年开始先后举行了九次,专门针对叙词表、电子词典、本体组织、主题图等知识组织的结构和模式问题进行探讨;欧洲图书馆界的重要会议“欧洲数字图书馆会议(European Conference on Digital Libraries,ECDL)”多次将知识组织的标准、系统设计、映射以及知识组织的表示和服务等问题作为会议重要议题[14]。另外,Hodge[15]在知识组织语义化工具方面,Borst等[16]在本体的知识组织方面,Sure等[17]在图书馆知识组织方面都做了大量研究;Friedman等[18]提出了结合知识表示、语言学模型和概念理论的知识组织方法;等等。

知识组织研究的深入、知识组织对象和环境的逐步变化、智能技术的应用,为知识组织的深入研究与实践创造了条件。人们不再只关注传统意义上的知识组织研究,开始注重领域知识以及个性化知识的知识组织的研究与探索。据此,本文把知识组织的关注点聚焦于领域知识的组织。

2 领域知识组织研究进展

从传统的知识组织到领域知识组织,并非仅以技术提升为主,更体现出思维的转变。即以领域知识结构为模型规划领域知识组织框架,以领域知识关联为线索建立知识的语义关系,以专业领域的知识服务为目标树立领域知识组织理念。这种思维在潜移默化地影响着知识组织的研究。近些年来,国内外对领域知识加工与组织的研究涉及面较广,囊括了领域知识加工组织的基础理论、手段与方法、应用与实践等。

2.1 知识组织的理论研究

知识组织的理念在人类知识的不断积累中逐渐形成,但知识积累到一定规模以后,知识组织体系就逐渐形成,最典型的有分类法、主题词法、叙词法、图书目录、索引等,这些知识组织体系形成了早期知识组织的模型,对应的知识组织体系有十进分类法、中国图书分类法、汉语主题词表、引文索引等。这些体系也是早期知识组织的理论成果。同样地,知识组织的研究在许多科学理论支撑下获得很大进展。学者们借助系统论的思想把信息资源看成一个整体,进行知识体系架构;借助控制论辨识数据或知识间的关系,使知识的关联达到最优,并保证数据质量得到有效控制;借助信息论控制信息熵的增长,探索知识组织的本质,建立一个全新的知识组织体系[19];等等。这些理论研究成果为近些年领域知识组织的理论研究打下了基础。

个性化知识服务的需求,推动着领域知识组织理论的研究,有关知识的聚合、知识关联机制、探索领域知识组织所依赖的理论基础等研究层出不穷。例如,滕广青[20]分析了领域知识的生长演化过程,揭示了领域知识的关联模式与机制的变化机理,通过分析知识关联关系的生长过程发现知识频度存在“富者更富”的属性。这一研究发现有助于领域知识组织的理论探索和引导实践。张发亮等[21]探讨了领域知识结构的概念、构成、类型和构建等,指出领域知识结构是由基础知识元、核心要素和子结构三个层面的知识内容及其关联与分布构成;为领域知识组织的理论的深入研究提供了基础理论,为实践工作的开展提供了理论依据。常春等[22]基于生态学种群个体增长规律,分析了概念词的词频变化特征,经过假设、实验,最终得到结论:知识组织体系的概念形成过程符合种群个体增长规律。这一结论为涉及词汇规律的知识组织理论提供了科学的素材。陈果等[23]从领域视角研究了知识聚合模式,论述了从传统的知识聚合到领域知识共聚的知识共聚的基本实现形式:聚合对象粒度、聚合情景、聚合关系等;探讨了语词、文档以及相互间的共聚机理,并以此作为领域知识组织支撑建立领域知识组织体系。曹思源等[24]通过对知识组织理论和方法的梳理,从知识分类角度出发,依据不同领域知识的特征,阐释不同领域、不同知识环境下所适应的知识组织方法,并论述了这些方法所依据的理论基础。

同样地,针对不同领域的知识组织讨论更是雨后春笋。例如,胡均平等[25]在论述国防科技领域知识服务能力建设时,探讨了在海量科技信息下,对科技信息的组织重点包括两个方面:超级词系统建设和专业领域本体建设;并以此作为国防科技领域知识组织的基础。封丽等[26]针对国际河流开发利用所需要的决策支持服务和水电开发争端预警的特殊需求,根据河流所涉及的环境数据、空间数据、利益关系数据、相关事件数据等,遵循河流数据知识表达的特点,构建了国际河流流域空间数据的知识组织体系。陆泉等[27]通过对疾病知识组织结构的分析,对多源疾病知识聚合进行疾病本体知识体系扩展,对扩展后的疾病本体知识体系进行电子病历大数据映射,实现了电子病历大数据的知识描述与组织,并提出了基于扩展疾病本体的电子病历大数据组织模型框架。董坤[28]对非物质文化遗产进行了知识组织研究,其将知识元理论引入对非遗知识的描述,建立了词袋、句袋、属性槽模型用于存放非遗知识元,并建立了知识元之间的语义关系和关联网络,基于此,构建了非遗知识组织体系。

由此可见,在个性化知识服务的需求下,领域知识组织理论的研究得到了众多学者的重视,他们解析了领域知识的概念、构成和分类,探讨了知识生长演化机理,揭示了领域知识的关联模式,论述了领域知识聚合模式,为深入进行理论研究打下了基础。在针对具体领域的理论研究方面,涉及多个领域,如科技、医疗卫生、环境、文化遗产等,这些针对领域知识组织的理论为未来开展领域知识组织实践提供了理论支撑。

2.2 知识组织的方法研究

知识组织的目的是对知识的有序化,以方便人们对知识的获取。促使知识有序化的手段就是知识组织方法,不同的知识组织方法产生的知识序化角度、序化深度和知识组织形式会有所不同。例如,传统的知识组织中的词(辞/字)典的字顺式知识组织,百科知识词典中的分类式知识组织,引文索引中的文献溯源式知识组织,图书馆的目录卡片(分类、主题、作者、题名等)式知识组织,还有一次文献、二次文献、三次文献的知识组织,等等。

计算机广泛应用于信息管理以后,知识组织方法的研究与实践得到了升华。知识的组织既考虑到方便计算机自动处理,也考虑到信息的检索和利用,如图书机读目录(machine-readable catalogue,MARC)、元数据、超文本信息组织等。知识服务的要求提出,希望从大量的信息和知识中发现新知识的方法作用于服务。如知识的聚类方法、知识的关联方法、语义网络的知识组织方法、语义(本体)知识组织方法等。这些知识组织方法凸显了知识的显现和关联,提升了知识服务能力,也为领域知识组织打下了良好的基础。

有关领域知识组织方法的研究,学界和应用领域也十分重视。领域知识组织的重要特点就是针对各领域知识结构的不同,有针对性地组织领域知识。在方法上,除传统的方法适用外,更强调对知识的关联、聚类和语义联系。例如,蒋勋等[29]曾对大数据环境下领域知识组织方法进行总结,认为领域知识组织方法强调知识关联、知识聚类、知识点语义化,在知识关联的方面注重类别关联、时空关联、统计关联、时间关联;在聚类组织方面,通过词汇聚类,实现文档有序、领域间清晰、领域情境再现;在语义组织方面,通过领域本体的实现,结合词表完成领域知识的组织架构。一些学者利用叙词表中词汇间的用、代、属、分、族、参等语义关系,进行概念映射,促进知识形成领域知识体系[30]。还有一些学者分析了领域多元概念特征,进行概念关联体系融合,以共现型概念关联体系为主体,从结构化概念关联体系中抽取语义关系,并在共现型关联体系中实现深层语义扩展[31]。该方法保证了领域知识组织中的知识关联。

除此之外,还有许多介绍和利用知识组织方法的研究成果。纵观近几年有关知识组织方法研究的文章,主要关注于利用词表、分类法的知识组织的研究,采取聚类与语义关联的知识组织研究,利用语义网络工具进行知识组织和展现的研究。也就是说,目前知识组织的研究已经从传统的简单序化组织,向语义化、网状化的序化组织发展,并且已经形成了较为成熟的知识组织方法体系,为深入进行领域知识组织研究提供了保证。

2.3 知识组织的应用研究

知识组织本身就是面向服务和知识获取,所以,知识组织的应用几乎遍及各个领域。从平台建设到各领域的应用都涌现出了很多成果。例如,王敬东等[32]针对大数据环境下信息过载问题,提出基于本体理论的知识表示,设计了基于知识协同的知识处理模型,并以智能电网为例演示了电网领域知识建模中的知识结构和知识动态演化;付苓[33]基于大数据构建本体的特点,设计了大数据环境下的领域本体框架,并建立了一个养生领域本体,为大数据环境下快速而有效地构建养生领域本体提供借鉴;周利琴等[34]从基于本体的知识表示视角,构建了网络大数据中的知识融合框架,并以结构化疾病本体库Disease Ontology 为例进行解析,形成可以解决具体领域问题的知识库。

还有许多应用成果形成了系统和服务平台。例如,侯西龙等[35]梳理了非遗领域知识的要素与语义关系,构建了非遗知识本体模型,揭示了非遗领域知识的概念、属性和关联关系,借助关联数据技术构建了非遗知识组织与关联数据集,并以此为基础,建立了非遗知识关联数据集与知识服务平台。孙坦等[36]从科技领域服务的角度出发,建设了涵盖理、工、农、医四个学科领域面向外文科技文献的知识组织体系,构建了集素材、超级科技词表和本体构建与管理为一体的多层次、跨领域的知识组织系统协同工作系统,建设了跨领域、跨地域的科技知识组织体系共享服务平台和研制开放服务引擎,构筑了基于科技知识的知识组织体系(Scientific &Technological Knowledge Organization Systems, STKOS)的科技文献知识服务应用技术框架,形成基于科技知识组织体系的开放共享服务平台。

如此可以看出,知识组织的应用已涉及各个领域,通过应用说明了知识组织研究成果在向各个领域深入,正是因为知识组织的研究所取得的成就,才促进了各领域的知识服务深化和知识服务平台建设取得如此成效。

综上,在知识组织的基础理论、关键技术、工具方法和知识表示等方面已经取得了很多成果,有效推动了图书情报工作从传统文献信息服务到知识信息服务的转变;还有很多成果探讨了领域知识的服务领域、可能的手段方法,基于本体的领域知识组织也大量涌现。这些成果为进行知识组织的深度探讨提供了厚实基础,为凝聚领域知识的加工、处理和组织的基础理论、技术手段、方法体系提供了有效思路。基于此,研究领域知识组织方法体系,探索领域知识组织的理论基础,建立领域知识的组织模式,分析不同领域知识的认知结构显得更为现实和需要。

3 领域知识组织研究内容

从共性的知识组织到领域知识组织,是个性化知识服务向知识组织提出的更高要求。在不同的学科领域和应用领域,其知识结构和知识的表达方式可能不同,在计算机里的表达也有很大差异,如数学中的数学公式,化学中的元素周期表、化学分子式,医药领域的药品表达等,都具有其独特的知识表达方式。因此,领域知识组织需要研究如何把传统的知识组织理论、方法运用其中,并发展其理论与方法,要分析不同领域中的知识结构,为领域知识组织打下基础,以此促进领域知识组织方法、模式和应用研究。

3.1 领域知识组织的基础理论研究

良好的知识组织体系架构从宏观方面要体现其整体性,从微观方面应注重结构性,从细节方面须强调知识之间的关联性,这些方面均需要理论阐释、支撑和指导。科学的横断理论对知识组织的指导作用是显而易见的,例如,系统论对增强知识组织的整体架构,控制论对知识交流与传播的控制,信息论对知识熵增长的掌控等,都具有重要的指导意义。然而,作为知识组织本身的发展,必须建立自身的基础理论体系。

知识组织是由文献组织、信息组织发展升华而来,传统的文献组织、信息组织的理论如何“进化”到知识组织之中,需要探索和研究。知识的序化可以通过传统的音序、笔画等外部特征对知识进行排列,可以通过内容的类别(如分类、聚类)进行组织,也可以通过内容的主题进行关联。这些都需要加强知识间的语义关联的建立,并借助语义网络将知识组织起来。欲提升这些方面的知识组织能力并运用于领域知识组织之中,必须加强相关理论的研究和融入。

3.1.1 知识分类理论

分类与人类现实生活密切关联,如物以类聚、产品分门别类、民族划分、科学研究中的学科分类等。分类是知识组织的重要手段之一。分类原则的要求有:类与类之间具有互斥性,即类与类之间不能交叉重叠;分类体系具有完整性,即所设定的类要涵盖全部个体,保证每一个被分类对象都能够对应到相应类;分类具有层级性,一个大类下会有若干子类,这些子类的设定,也需要满足上述两个原则。分类理论也是在这三个原则下、在长期的实践中总结概括起来的。

知识分类在我国古代就有应用。早在西汉时期,刘歆辑录中国第一部官修图书目录时,创制了《七略》分类体系,将作品分为辑略、六艺、诸子、诗赋、兵书、术数、方技7 类。隋唐时期,又确立了四部体制的典籍分类,主要体现在《隋书·经籍志》中,把典籍划分为经、史、子、集四大部类,并进一步细分为40 个类目。1876 年问世的《杜威十进分类法》可称为现代图书分类法的重要里程碑,该分类法创造了列举式分类原理。之后许多列举式分类体系层出不穷,如《国际十进分类法》《美国国会图书馆图书分类法》《冒号分类法》《中国图书馆分类法》《中国科学院图书馆图书分类法》《中国人民大学图书馆图书分类法》等。在我国,最具代表性并成为我国图书分类的“标准”的是《中国图书馆分类法》。

众多的知识分类主要原理有体系分类、组配分类、分面分类。体系分类,也称等级、列举式分类,它通过概念划分(列举类目)和概念等级(隶属关系)来揭示知识体系的分类方法。组配分类法是指在分类体系中将简单概念组配成一个复杂概念形成类目。分面分类是组配分类的一个特殊情况,面是具有共同特征属性概念所组成的,面下的细目按一定的规则组编成一个分类表。组配和分面主要是为了解决列举方式不能无限容纳不断增长的概念的局限性而对体系分类的补充,从而形成完整的体系分类法。

无论什么样的分类法,其分类通常都是依据事物本质特征,并按照某一规则把具有共同点或相似特征的事物聚集在一起。但不同的对象,分类需要有不同的分类标准和体系。商品有商品分类标准,药品有药品分类规则,行业、事物等都有其相应的分类规则。对于知识而言,不同领域的知识也需要在各自的特征和标准下进行适当分类。因此,针对领域知识分类的特殊需求,需要进行领域知识分类基础理论的研究。

在当下进行领域知识分类组织理论研究中,需要关注如何将现有分类理论无缝嫁接到领域知识组织实践中,促进分类理论、传统分类体系与领域知识组织实践紧密结合。过去的知识组织实践主要针对相同载体,如图书目录、词表、百科全书等,面对泛化知识资源,原有单一知识资源(如图书、论文、商品等)的分类组织理论需要拓展和深入研究。由于不同领域的知识体系、知识表达形式、知识组织方式等可能存在差异,这就需要未来的领域知识组织要考虑到不同知识体系,构建能够指导各领域知识组织实践的领域知识分类理论。总之,领域知识组织研究既要探索现有知识分类理论无缝应用于领域知识分类组织,也要研究如何拓展现有理论创造适合于领域知识分类组织的新理论。

3.1.2 主题聚类理论

聚类是指在某种性质上相似或相近的事物聚集起来,形成一个个簇群,每个簇群构成一个类,簇群中的对象彼此相似,与其他簇群中对象相异。主题聚类就是主题同义或相近的主题聚集成类。聚类和分类是有区别的,分类中的每个类都是预先确定了的,而聚类则由聚类对象的相关性确定的,所划分的类是事先未知的。因此,聚类适合用于发现新事物,发现新规律,弥补了分类中对新概念、新事物较难归类的缺憾。

聚类原理在于计算,也就是计算欲处理对象之间的相似度,根据对象之间的相似度将其划分聚合成若干的组(类)。计算相似度方法有许多,大致分类三类。

(1)距离计算,主要指根据两个对象之间的距离确定是否聚为一类。即根据欲聚类对象的数量和类的规模考虑,设定阈值,当距离小于阈值时就把它们归为一类。这类相似测度算法有许多,可参见文献[37]。需要说明的是,算法中的阈值大小确定了类的数量和规模;对象的处理顺序不同,聚类结果会有差异。

(2)密度聚类,该方法的思路是:在一个区域中,对象间出现密度大于设定的阈值,就将其聚集到相近的类中。它不同于距离计算的聚类方法,其区域形状根据密度区域形状而定,而不一定是圆形类。操作过程:取一条未聚类信息,令其为聚类中心,进行密度测试,若在其周围集聚一定数量相似信息(阈值范围内),则聚为一类。该方法也与处理顺序有关。

(3)图聚类,该方法主要将欲聚类对象之间,根据一定的规则、相关性或联系强度用线联接起来,构成图结构进行聚类。具体思路为:计算出每一对信息的相似系数,两两间的相似系数大于给定的阈值时,代表它们的结点就被一连线相连。所有的结点通过相似链连接后,就产生了一个图结构,把所有相连接的结点视为同一类。

除此以外,还有许多聚类方法,如层次聚类方法、统计聚类方法、基于模型的方法、传递闭包方法等,但这些方法可基本归于上述方法之中。

领域知识聚类与上述通用性知识聚类其理论方法基本相同,但也有特别之处。由于它更关注一个领域内的知识组织,所以在聚类的精度上需要考虑的粒度更加细腻,同时对领域之外的关联类别和主题,也要观察其领域新的增长点和交叉领域的发展趋向。另外,不同领域的聚类需求有很大的不同,聚类方式也有很大的变化。例如,学术领域的文理工医学科的聚类方法存在差异,应用领域的食品、药物、能源、环境、化工、公共安全、海洋、贸易、制造业等聚类原则也各有侧重,同样,在不同的知识领域,知识的表述方法、呈现形式也有所不同。所以,领域知识聚类的研究需要继承已有理论技术和方法,同时还要拓展方法和理论的研究。这些方面都是领域知识聚类所面临的课题。

3.1.3 语义网理论

传统的知识组织本身就隐含着大量的语义概念,如主题词表中的用、代、属、分、族、参等关系,分类表中的上下位类关系等,这些都是易于机器处理的语义关系。所以,语义网概念既是Web 出现以后的新概念、新技术,也是一个传统的知识组织方法的延伸,其关键的进步在于可促使计算机代替人识别网络中数据间、信息间、知识间的语义关系,使网络中的数据、信息或知识能够根据用户需求,更加快速地反馈给用户。

语义网主要是将网络中数据间、信息间、知识间的语义关系建立起来,形成一个数据(信息、知识) 相互联通的网络,便于计算机进行“判断”“推理”,从而满足用户不同的知识需求。正如蒂姆·伯纳斯-李(Tim Berners-Lee)等所认为的,语义网技术就是保证计算机能够根据一定的规则进行语义判断和推理,实现人与计算机之间无障碍沟通的智能网络[38]。语义网的关键步骤,首先需要对概念(词汇、数据、知识点、事件等)进行属性标注,通过一定规则或算法实现概念之间、概念与知识之间的语义链接,从而形成数学意义上的“有向图”,保证用户可以通过这个“有向图”迅速得到有关知识。

万物是相连的,世界是一体的。例如,人与人之间通过一定的关系都能产生联系,正如小世界理论所证明的,通过朋友的中介和传递,你和世界上的任何一个互不相识的人之间只隔着五个人以内。以万物相连、宇宙一体这一理论来建构互联网资源,奠定了语义网的理论基础,也说明了任何数据、信息、知识等之间都存在着联系,一是联系的间隔结点数量,二是联系强度。联系强度越强说明之间间隔的结点数越少,直至直接关系。这种直接关系可作为建立其语义关系的基础。互联网上数据、信息、知识间无数的语义关系就构成了语义网,通过制定规则,设计判断、推理算法,就可以实现人机交互的无障碍沟通和快速反馈。

语义网理论是构建领域知识语义关系的基础理论,在领域知识组织的理论研究中,不仅要深入静态语义网的架构,更要重视动态语义网的构建。在领域知识组织理论研究中,需要关注适合领域知识的动态语义网的理论模型研究,聚焦跨领域的语义关系的内涵和隐藏于其中的规律和模式。例如,在学科领域,通过学科领域间的语义联系探寻学科关系、交叉学科及学科新的增长点;在应用领域,通过语义联系,观察不同应用领域的语义关系,探寻它们的共同之处和递进关系。

综上,知识组织研究需要借助科学的基本理论作为支撑,并在应用中对基本科学理论诠释、拓展和升华。蒋勋等[39]将领域知识组织的理论研究归纳为:领域知识组织理论研究要探讨情报学中的相关定律以及系统科学理论对大数据环境领域知识组织的支撑作用;同时界定大数据环境领域知识的基本概念,研究领域知识组织的目标、原则、构成要素、发展历程、内涵外延,明确大数据时代用户对于领域知识的需求等,全面梳理和全景展现大数据环境领域知识组织的基础理论框架。这也正是笔者持有的观点。

3.2 领域知识结构认知研究

任何一个领域都有其独特的知识体系,领域知识体系架构了该领域的知识结构。领域知识组织实施的科学与高效,在于对领域知识结构的认知和把握。当然,领域知识结构并不限于本领域的知识,它需要一专多通,专博相济。因此,针对领域知识组织的研究,需要把握各领域知识的知识结构,探索其中知识单元间的关联结构、属分结构、延展结构、交叉关系等,以保证领域知识能够被科学处理、高效利用、快速获取。

3.2.1 分类体系下领域知识结构认知

分类通常采取高屋建瓴鸟瞰全貌的思维方式,将分类对象分门别类列举、分层勾勒出来。如产业分类,分为三大产业:第一产业(农林牧渔业等)、第二产业(采矿、制造、电力热力燃气等)、第三产业(商业、金融、交通运输、通信、教育、服务业等)。针对每一产业下还有细致分类,如采矿业细分为煤炭、石油和天然气、黑色金属、有色金属、非金属、其他采矿业。再如商品分类,分别划分大类、中类、小类、细类直至品种和细目。大类如五金、化工、食品、水产等,中类如食品类可分为蔬菜、水果、肉和肉制品等,小类如酒类可分为白酒、啤酒、葡萄酒、果酒等,细目如酒的度数、商品的具体规格等。所以,从分类角度我们可以一览一个领域的知识结构。

一般来说,同一分类对象由于不同的应用目的,会产生不同的分类体系。例如,学科分类体系就有:面向学位授予和人才培养的学科分类体系《学位授予与人才培养学科目录》,面向科技政策和科技发展规划以及科研项目管理的学科分类《学科分类与代码》(GB/T 13745—2009),还有针对图书管理与利用的学科分类体系《中国图书馆分类法》(简称《中图法》)等。分析不同的应用目的,由于《中图法》本身就是围绕知识组织建立的分类体系,也适合我们了解学科领域的知识结构,因此,我们研究分类体系下的知识结构认知可从《中图法》入手。

等级列举、类目详细、结构清晰是《中图法》的主要特点,类目囊括各学科领域的方方面面。这种从上至下鸟瞰领域知识全貌的知识体系的分类法,是否适合知识组织研究中对领域知识结构的认知?是否能够跳出对文献的分类而适应大数据环境下的领域知识结构分析,并拓展认知,实现新的知识结构的分类?这些都需要在进行领域知识组织的过程中认真思考的。另外,不同的领域其知识结构有很大的差别,对其他领域知识的需求也不尽相同,所以在分类体系下进行领域知识结构认知研究,需要考虑知识结构在类间的交叉,形成跨领域的知识结构。

3.2.2 主题关联下领域知识结构认知

与分类体系的分门别类、逐级细分揭示领域知识结构的方法不同,主题词法主要通过主题间的关联来了解领域知识结构。不同于分类角度,分类法聚焦于知识属于哪一类,通过类的层级关系展现知识结构。例如,食品下级类有蔬菜、水果、肉制品等,蔬菜下级类包含青菜、萝卜等,如此关系构成了有关食品的知识结构。主题词法是围绕一个主题,分析关联这个主题的知识(主题)有哪些,所关联的知识(主题)在分类角度下可能是跨类的,例如,有关肉制品的加工、运销、价格、营业等知识(主题),将会围绕“肉制品”形成它的主题领域知识结构。

主题词表,也称叙词表,是一种具有语义关系的词典,这种语义关系构筑了词汇之间存在的知识结构。主题词之间的语义关系主要有“用(Y)代(D) 属 (S) 分 (F) 族 (Z) 参 (C) ”关系。“用代”关系也可称为等同关系,“用词”即主题词,也可称为款目词,主要用于标引和检索时使用的规范词,“代词”是非款目词,是“用词”的同义词,使用时可用款目词来代替;“分属族”关系,也可称为等级关系,其中“族词”为一族之首,最上位概念,“属词”是款目词的上位概念,“分词”是款目词的下位概念;“参词”是款目词的相关词,也可称为关键词。借助主题词表中词汇的主题关联,可勾勒出词汇所形成的知识结构,如果将词汇和相关主题的知识、文献等联系在一起,可描绘出该主题领域的知识结构。

通过主题关联形成主题关联图来了解该主题领域的知识结构,是从另一视角考察复杂的知识关系的有效途径之一。主题关联图可通过主题之间的逻辑关系、因果关系等清晰描述出来,由此产生出该主题的知识链。随着信息技术、人工智能、数学、图形学、可视化技术、科学计量学等引入,知识图谱(knowledge graph)的概念被提出。构建知识图谱主要包括信息抽取、知识表示、知识融合、知识推理四个阶段,实现从结构化或非结构化数据中抽取关系,构建知识图谱。目前,在我国将知识图谱技术应用于分析各领域研究状况和发展趋势的研究文章数以万计,笔者在中国知网中以关键词(精确)检索就检出12000 多篇,但涉足领域知识结构认知的研究还很浅显,有待深入,这既是知识图谱应用研究的深入,也是对知识结构认知研究的新领域。

3.3 领域知识组织方法研究

为了更有效地利用知识资源,需要将知识资源进行科学的组织。不同的利用目的、不同的资源形式、不同的获取方式,需要有不同的知识组织方法。图书馆以图书排架、获取方便为目的,采取图书分类的组织方法;计算机信息资源为检索需要,通过主题索引的方式组织信息资源。随着科学研究、决策支持、科技创新等需求的更加复杂和专业,传统的知识组织方法难以满足这类需求,需要有更新的知识组织方法运用于知识组织。知识关联、知识聚类、知识语义等技术方法逐渐成为领域知识组织的重要研究领域。

3.3.1 知识关联组织法

许多知识间存在着紧密联系。例如,在研究南极环境变化领域,“气候变暖”与“冰层融化”这两个词就具有相关关联关系;再如,在物理学中,“自由落体”和“重力加速度”也同样是一对关联知识。知识间这种关联形式多样,有包含、并列、证明、反对、演进、推理等。在知识组织中,将知识间建立这些关联,在知识服务中,对这些关联关系进行分析、对比、总结,可满足用户的一些特殊的需求。

如何在有关联的知识点之间建立关联?首先需要标注这些知识点以及它们的属性,然后可将这些知识点(词汇)抽取出,为建立关联打下基础。建立关联有两种途径:一是利用所建立的主题词表,根据主题词之间的关系,建立文本词汇间的关联;二是根据词汇出现的上下文,分析词汇的属性,然后建立关联。例如,文本中出现XX 年发生了YY事件,ZZ 人在YY 事件的解决中发挥了重要作用,通过已标注的词汇及属性,就可以建立年代和事件,以及事件和人物之间的关联。

还有一种关联,可视为知识点和知识之间的关联。人们在阅读文献时会遇到许多知识点,有的是已知的,但也有一些可能读者并不熟知,这些不熟知知识的出现,可能会影响阅读效率,甚至会误解文章本来的意思。所以,在知识关联组织研究中,需要把知识点(词汇)和相关知识之间的关系建立起来,以方便读者在需要时及时提供相关联的知识。这种方法需要动态地将文本中的名词术语与相关名词知识库关联起来。

知识关联组织在知识服务中运用很广泛,种类也繁多。如论文与期刊之间的引用关联网络、学术研究中的学科关联网络、科学知识图谱、学者合作研究产生的作者关联网络,等等。知识关联组织法在领域知识组织研究中越来越显现出重要价值,对提升领域知识服务的品质起着重要角色作用。因此,在领域知识关联的组织方法研究中,应围绕知识服务的要求、知识资源的特点展开知识关联方法研究,区分领域内知识关联和跨领域知识关联在方法上的区别,保证知识关联在知识服务中促进知识升值。

3.3.2 知识聚类组织法

知识聚类组织法是指采用物以类聚的思路,把具有相关主题或相似特征的事物,借助聚类算法,将它们聚集在一起的知识组织方法。因此,聚类的知识组织方法对学科研究热点的聚焦、交叉研究领域的发现、面向主题的知识服务等具有很大的帮助作用。聚类方法和分类方法的主要不同之处在于,其不囿于现有分类框架的限制,不受传统分类类别的羁绊,它主要以主题、关联或其他相似特征将事物聚集在一起形成一类。例如,典型的购物篮聚类案例就把“尿布”和“啤酒”两个几乎不关联的货物,通过超市的购物行为关联,形成了购物行为聚类。所以,聚类方法可以发现新的事物(类),特别是在新生事物的发现方面具有优势。

在领域知识组织中,聚类所面临的类别划分需要更加细腻,对跨领域的知识关联能够更加敏感,只有这样才能达到满足领域知识服务的高质量要求。因此,领域知识组织要求聚类算法具有更高的敏感度。聚类的算法很多,但大致可归为两大类:相似聚类和关联聚类。是否能够集聚为一类,相似聚类算法主要分辨出相似度,关联聚类算法主要衡量关联力度。这两个“度”的把握是领域知识组织算法的重要一环,这个“度”还需要分成两种情况:领域内的“度”和跨领域的“度”。这两个“度”分别具有不同的作用,研究中需要引起重视。

3.3.3 语义网组织法

语义网组织法是将数据、信息、知识、文本等之间的语义关系,在万维网上建立起来的一种方法。语义网初衷是建立一种人和机器都能识别和理解的网络环境,确保机器能够理解语词和概念,并根据语词、知识之间的逻辑关系进行推理和表达的智能网络。采取语义网技术进行知识组织,要求知识结点之间、知识结点与文本之间具有一定的语义关系,并确保这种关系能够让机器“理解”和“判断”。这种知识组织方法,不仅突破了万维网的超文本标记方式的知识组织模式,更重要的是,使万维网有了“智能”能力,这种“智能”主要来自知识之间的语义关系的建立。

采用语义网方法进行知识组织,需要提取文本中知识点(语词),并对其属性进行标注,根据词汇属性分析知识点及文本之间语义关系建立关联网络,同时建立相关索引。服务时,可通过所建立的语义关系、关联链接等,设计相关推理算法实现语义网服务。在语义网知识组织研究中,要根据组织对象中知识点的特点抽取知识点(如常规的语词外,数学中的经典公式,化学中的元素、分子式等),反映知识资源中重要属性的确立和识别(如古典文献中的重要属性:人名、地名、事件、时间等),最后就是建立知识点、知识、文本等之间的语义关联。这些工作的实施,都需要具有针对性的方法,不仅存在选择现有方法的研究,也需要创建新的方法。

3.4 领域知识组织模式研究

模式可认为是理论走向实践的中间环节,它是在理论指导下,面对实际情况所生成的具有一般性、结构性、可操作性的方法论。同样,在实践过程中,把解决某类问题的方法进行归纳、总结,并上升到理论高度,亦可形成模式。知识组织模式是在长期的文献组织、信息组织、知识组织的实践中形成的,并在知识组织理论指导下逐步得到提升和升华。领域知识组织模式研究,必须适应知识资源的特点,满足知识服务的需求,根据实际需要构建相应的知识组织模式。

3.4.1 基于分类的知识组织模式

分类组织模式,顾名思义,就是采用分类法组织资源的方法和过程的集成。不同的资源或对象,可能会采取不同的分类体系。例如,中外著名的搜索引擎网站采用的分类体系都不相同,其往往根据自己的资源特点、服务对象、采集重点等构筑自己的分类组织模式[40]。采用分类组织资源显示了资源的知识架构,展示了资源组织所遵循的知识体系,使用户能够对资源的组成全面了解,也促进资源建设机构完善资源建设。因此,分类组织模式已成为当前资源建设中重要的组织模式之一。

基于分类的知识组织模式强调的是,采用什么样的分类体系?提供何种分类服务(检索、统计、分析)?如何通过分类体系架构资源?如何将分类组织模式与其他资源组织模式衔接、融合与共存?这些都是我们在研究分类组织模式中需要引起关注的。因此,在大数据环境下,领域知识组织的分类模式的研究中,应当关注知识资源特点,研究分类规则和分类方法,分析分类体系和其他资源组织模式的关系,体现分类组织知识资源的优势的同时,吸纳其他知识组织的特点弥补分类组织所存在的缺憾,确保分类知识组织模式在知识服务中发挥更大作用。

3.4.2 基于主题的知识组织模式

基于主题的知识组织模式主要以主题为主轴来组织资源,它可以将以某个主题词相关的语词(知识)关联起来,形成以该主题为中心的知识结构或关联知识。基于主题的知识组织模式与分类组织模式不同,分类的知识组织是固定的,预先搭好知识框架,将采集到的资源根据知识类别对号入座。主题组织是动态的,主要用于主题检索和主题分析,通过主题聚类可以得到知识聚集。在同一个资源库中,由于资源的不断积累,再次用同一个主题聚类,得到的知识聚集可能会有一些差别,有时可能造成原本聚在一起的主题也因此而分开。但主题知识组织,易发现新事物、新概念、新技术、新方法、交叉领域、新的应用领域等,在动态分析、演化趋势、主题分析等方面也有独特的优势。这些方面对分类知识组织往往会是一个难题。所以,主题知识组织模式是分类模式的有力补充。

主题知识组织可以借助主题词典构筑主题知识组织框架,在词框架基础上,对知识(文献、信息)资源进行主题关联,形成隐藏于知识资源内的主题知识组织模式,以此开展分析,发现新事物、新领域,分析发展动态和趋势,进行演化分析。知识图谱、主题树等已成为展现这些成果的有效工具。有学者认为,从分类组织到(主题)聚类组织是数字资源再组织,是理念的变革[41]。更确切地说,是需求激励了技术的突破,是深度的内容分析向知识组织的深化提出了要求。因此,在大数据环境下,领域知识组织的主题组织模式研究需要关注词典结构与文本资源、网络资源的关联,建立以主题为核心的知识资源组织架构,聚焦以需求驱动为导向的主题知识组织模式的构建。

3.4.3 基于语义关联的知识组织模式

语义关联是指借助一定语义关系将语词、文本、信息、知识等关联起来,形成知识链。语义关联知识组织就是将形成的知识链,按照设定规则建立起来,并能够从语义角度提供知识服务的知识组织模式。所以,语义关联知识组织首先要在从资源集合中找出所有具有关联的对象集合的同时,标注出它们的相关属性(类别);其次,为这些对象建立相互间的关联规则;然后,根据规则和属性设计语义推理算法;最终,实现语义检索和关联分析。语义关联知识组织是为知识服务、数据挖掘、关联分析等需要而采取的知识资源的组织方式,也拓展了知识资源组织形式。

在语义关联的知识组织研究中,本体技术得到了广泛采用,如采用本体构建知识图谱、借助本体技术进行语义检索、建立基于本体的语义知识组织等。在很多情况下,本体技术几乎被当作语义技术的代名词。大数据环境对语义关联知识组织研究提出了新的要求,语义关联的知识组织模式研究既要考虑所构建的语义关联知识组织模式要具有动态性,即能够在资源的扩展、利用中动态建立语义关联;也要兼顾需求的变化性,即所建立的语义关联能够根据需求实现灵活语义组配;还要关注所生成的语义网络能够实现跨属性的关联,即建立不同属性的语义关联,例如,从事件关联到地名、时间、人物以及发生事件的历史背景等。

4 结束语

知识服务已成为信息提供部门的一种高端服务,高质量、高效率的知识服务需要有科学、合理的知识组织作保证。科学的知识组织可以确保知识服务更加高效,知识服务需求驱动知识组织变革,知识服务理念促进知识组织创新,先进技术带来知识组织的进步,大数据环境更要求知识组织研究的拓展和深入。今天,知识组织已从文献组织、信息组织发展到具有语义关联的知识组织,结构化的数据组织与非结构化的文本、视频图像的数据组织已成为知识组织中的一个整体,数据挖掘、机器学习、人工智能使语义组织下的知识发挥更高的效能。未来的知识组织将会在融合(多种类型数据)、语义(跨属性的数据)、动态(即时知识关联)、跨平台(不同的系统、不同的数据库)等方面走得更远。

猜你喜欢
知识结构关联聚类
一种傅里叶域海量数据高速谱聚类方法
一种改进K-means聚类的近邻传播最大最小距离算法
AR-Grams:一种应用于网络舆情热点发现的文本聚类方法
基于技能映射的知识结构和推测关系研究
“一带一路”递进,关联民生更紧
概率统计知识结构与方法拓展
奇趣搭配
智趣
基于Spark平台的K-means聚类算法改进及并行化实现
试论棋例裁决难点——无关联①