关于语义网背景下信息组织方法变化的思考

2018-01-18 10:52
图书馆界 2017年6期
关键词:本体语义关联

(首都图书馆,北京 100021)

1 引 言

信息组织是人类检索信息、利用信息的前提,是图书馆学研究的核心。随着信息资源数量激增、形式和载体形态的不断发展,信息组织方法也从早期的分类法、主题法、分类主题一体化,发展到搜索引擎、主题树、元数据等方法。20世纪以来信息组织方法与计算机、互联网技术的发展更加密不可分。1998年语义网设想的提出,为信息组织方法向关联性、细粒度的知识组织方法发展提供了一个契机。完整的语义网络模型从下至上包括Unicode与URI层、XML Schema层、RDF Schema层、Ontology Voca-bulary层、Logic层、Proof层、Trust层这7层结构。由于语义网络模型过于复杂,其应用基本局限于学术研究领域的试验性开发。2006年,蒂姆·伯纳斯-李抛开语义网络模型中的复杂成分,在URI和RDF技术基础上,再次提出“关联数据”的概念。关联数据是以URI作为数据标识,以资源描述框架RDF的三元组结构作为数据模型,并基于HTTP发布到互联网上的数据应用形式。由于关联数据是将相关数据链接起来,是语义链接,而不是将相关文件、网页链接起来,所以关联数据可看作是语义网的简化实现,旨在构建计算机可理解的语义数据网络,而非只有人才能读懂的文档网络。语义网与关联数据带来了信息组织对象的新变化,数据的庞大以及数据间网状的语义关系,让信息组织工作者开始利用新的技术手段和方法,对知识、信息进行更科学的组织。本文在对信息组织方法做简单梳理的过程中,结合语义网、关联数据等背景,对未来信息组织的对象及方法进行了思考与探索。

2 信息组织到知识组织的传承与发展

任何事物都离不开历史的传承,梳理信息组织方法的发展历程,不难发现信息组织方法正在从传统文献组织阶段、网络信息组织阶段,向知识组织的阶段过渡。

2.1 传统文献信息组织方法

分类法和主题法是传统的信息组织方法,是几代哲学家、科学家、图书情报学家集体智慧和经验的结晶。分类法是指依据一定的分类体系,根据文献的内容属性和其他特征,对文献分门别类地、系统的组织与揭示的方法。主题法一般指直接以表示文献主题的词语做标识,提供字顺检索途径,并主要采用参照系统揭示词间关系的标引和检索文献的方法。分类法是语法信息组织和语义信息组织的综合,从学科角度集约信息,便于族性检索;主题法建立在自然语言基础之上,是另一种形式的语义信息与语法信息组织的综合,是从事物角度集约信息,便于特性检索。这两类方法在传统文献组织阶段发挥了巨大作用。直到现在,我国图书馆领域在非数字化文献的信息组织方面仍在采用这两种方法。由于这两种方法诞生于纸质文献时期,对信息组织对象的揭示还属于线性和粗粒度的,所以随着时代和技术的发展,这两种信息组织方法也必然会发生改变。

2.2 网络环境下信息组织方法

从1969年10月29日22点30分,阿帕网加州大学洛杉矶分校(UCLA)第一节点与斯坦福研究院(SRI)第二节点的联通,实现了分组交换网络的远程通讯,就宣告了互联网的诞生。从此以后,网络信息资源铺天盖地而来。在信息资源的主导类型已由印刷型转变为数字型的现实背景下,元数据的研究更是十分具有现实意义的课题。1995年由图书馆领域和计算机领域的专家共同提出DC元数据方案,DC元数据来自于图书馆文献标引和电子文件管理的结合,并成为这个交叉领域语义描述的主导标准格式。元数据对信息资源进行描述和解释,促进信息资源的检索、管理和利用。通常元数据方案的总体结构可以分为三个层次:内容结构、句法结构、语义结构;这种特征让元数据为分布的、多种信息资源组成的信息系统提供了整合的工具和纽带。

此后,图书馆学领域和计算机领域分别在各自方向上进行网络信息资源组织的探索。图书馆学主要以网络信息资源为研究对象,侧重于传统的文献信息分类组织思想与主题词表对网络信息资源组织的科学性、完备性和适应性等问题的研究,关注元数据研究,同时对传统的信息组织方法进行改造,如分类主题词表的网络化和自动构建、自动分类、自动标引、元数据的互操作等。计算机科学主要以互联网环境下用户信息搜索行为为研究对象,注重于网络信息资源组织管理的智能化、高效率和简便性研究,关注搜索引擎技术、超本文方法、自然语言检索等。二者之间缺乏有效的融合,且对信息资源的组织仍停留在较大粒度的文献和文件层面。

2.3 语义网背景下信息组织向知识组织发展

语义网的诞生、关联技术的发展,让信息之间通过网络发生了千丝万缕的联系。信息之间逻辑意义上的关系,通过计算机技术得到立体的、多维的实现,形成了一个巨大的网络。这个网络在某种意义上与人类认识事物时,头脑中形成的知识地图是有一定相似性的。同时,网络化、关联化、语义化可以将信息变成更有价值的知识,为人们最大限度地获取信息提供了可能。从本体论意义上说,信息泛指一切事物(物质的、精神的)运动的状态和运动的方式;从认识论意义上说,信息是关于事物运动状态和运动方式的反映。人类认识世界的过程,就是不断从外界取得信息和加工信息的过程。没有信息,就不能认识和改造世界。而知识是比信息更高层次的人类的精神财富,是信息的一部分,是经过提炼、推理、整理了的信息。在语义网时代,信息通过关联可以产生知识。信息组织在语义网背景下,也必定会向知识组织方向发展。

信息组织向知识组织转变,计算机、互联网技术起了决定性因素。这些科学技术让信息组织的对象、信息组织的方法以及人们对信息组织的需求都发生了改变。URI允许用户对任何(包括本地和互联网)的资源通过特定的协议进行交互操作,信息资源通过使用URI标识在网上发布,让开放获取成为可能。RDF作为元数据的统一描述框架和标记语言,由资源、属性和声明语句组成。RDF三元组对元数据基本描述方式的定义,将网络资源与特征、性质、关系等属性都联系起来了。这种关联让无序的信息查询向有序的知识组织发展了一大步。RDF的诞生让信息的揭示更加细致,并且可以在不同的信息中建立起相关的语义关系,解决语义异构的问题。这种细粒度的揭示,是以前平面二维的信息组织方法无法比拟的。细粒度是知识化的一个标志。

3 知识组织方法与单元信息组织

3.1 知识组织方法

知识组织的概念最初由美国图书馆学家布利斯(H.E.Bliss)于1929年提出,他最早阐述了以图书分类为基础的知识组织思想。随后,美国图书馆学家谢拉(J.H.Shera)全面论述了知识组织在图书馆工作中的重要作用和方法。所谓知识组织,是指对知识客体进行诸如整理、加工、揭示、控制等一系列组织序化过程。广义的知识组织则是针对知识的两个构成要素进行的,即知识因子的有序化和知识关联的网络化。现在主要使用的知识组织方法有本体、知识地图等。

“本体”一词源于哲学领域,20世界90年代中期以来,人类将“本体”概念引入人工智能、知识工程和图书情报领域。目前大家比较认同的是美国斯坦福大学知识系统实验室的Gruber在1993年提出的定义,即本体是概念体系的规范。本体创建是本体知识获取的核心,即从某个领域中抽取知识,形成描述该领域的语义概念、实例和其间的关系。知识本体在描述领域知识时,将领域知识的一些重要属性和操作与知识本身紧密联系,因此其表示方法更加形象、准确与合理。

“知识地图”概念最早由布鲁克斯于1988年在其经典著作《情报学的基础》中提出,他认为人类的客观知识结构可绘制成以各个单元概念为节点的学科认知地图。知识地图是一个包括了各种知识及其关系的集合体,它的构建涉及知识资源的分类、聚类,知识的挖掘、链接、检索和可视化等方面。以计算机智能技术,如自动标引技术、自动分类技术、信息提取技术、关联挖掘技术、可视化技术等为基础。通过对知识的挖掘、聚类来形成语义和知识层次上描述知识的模型。可以说,知识地图在知识组织方面是综合了上述多种组织方法,是一种综合性的方法。

3.2 文献单元信息知识组织

文献单元、信息单元、知识单元一直是信息组织研究的对象。只不过在互联网诞生之前,人们只能对物质载体进行信息收集、组织、整理、保管,对文献内容进行简单揭示。但是随着互联网技术的发展,元数据、本体、关联数据让知识组织方法有了更广阔的探索空间。知识组织可以从揭示一本书、一张光盘,到揭示书中的某一篇、某一段,盘上的一段乐曲、一首歌。对信息、知识细粒度的揭示,是知识组织在语义网阶段发展的必然。

3.2.1 单元信息的界定。语义网背景下,知识组织的对象可以突破传统的印刷型文献、网络信息资源,转入文献粒度更细的单元信息领域。所谓单元信息,也称精粹信息,是指原始文本中隐含的有价值的观点、方法、资料、事实、结论等片段语句。单元信息不同于信息单元,也不同于知识单元。文庭孝等曾在《知识单元研究述评》一文中指出:文献单元是一个载体单元或物理单元。以一定形式的载体形态或物理形态表达和存贮知识。文献单元是知识单元的一种形态,文献单元中包含着知识单元,知识单元最终附着在一定形式的文献单元中,体现为文献单元。由此不难看出文献单元与知识单元有着相互渗透的关系。本文中的单元信息与文献单元和知识单元均有着密切联系,单元信息来自于文献单元,是隐含在文献单元中的有价值的片段信息。另一方面,单元信息属于广义层面的知识单元,是知识单元的一种形式。

3.2.2 单元信息知识组织方法构想。单元信息组织方法以本体构建为主体,本体作为语义网的关键技术,是从语义层面进行知识组织的方法,其所涵盖的主题词和词间关系更丰富,适合于对内容的深度揭示。通过本体对单元信息的标注,实现语义检索和可视化显示。具体实现示意图如图1。

图1

3.2.3 单元信息组织过程中的关键点。

(1)单元信息的抽取。单元信息来源于文献,通过文献信息的搜集获得文献资源集合,接着通过对文献的分析,按照一定的标准和原则抽选出有价值的单元信息,最后形成单元信息集合。单元信息的抽取分为人工抽取和计算机抽取两种方式。人工抽取获得的单元信息质量较高,但耗时耗力。计算机抽取需要采用文本分析、中文分词等相关技术并通过一定的算法实现,效率高但是抽取的质量较差。因此,最好将两者相结合,实现机器半自动抽取,并配合人工审校完成单元信息的抽取。

(2)构建领域本体。基于本体的信息组织方法的核心是构建领域本体,包括领域范围的确定;主题概念和词间关系的确定,以及形式化表示。领域本体的构建是一项非常专业和耗时耗力的工作,领域范围以及词和词间关系的确定必须要有领域专家的参与。目前本体形式化的工具很多,常用的是斯坦福大学开发的Protégé软件,该软件可将主题概念以及概念之间的关系形式化表达并可视化显示。本体在单元信息组织中的作用主要是对单元信息进行主题标引,形成主题词索引,并借助本体概念之间的关联实现语义检索。

(3)语义检索与可视化显示。语义网环境下的知识组织的特点是语义关联。本体是语义网的关键技术,利用本体技术进行单元信息的标注,可以借助概念之间的语义关系实现单元信息的语义关联,从而构建单元信息网络。知识组织实现了知识单元的有序化和知识关联的网络化,信息可视化相关技术能够实现对信息数据的分析和提取,然后以图形、图像、虚拟现实等易为人们所辨识的方式展现原始数据间的复杂关系、潜在信息以及发展趋势,以便能够更好地利用所掌握的信息资源。信息可视化不仅给信息以形象,为我们提供直观的结果,方便我们观察;而且能够揭示信息之间的关联,挖掘隐含的模式和结构,让我们有效地利用信息、发现知识。

4 对未来信息组织方法的展望

信息组织的最终目的是为了用户需求,在面向用户需求的基础上,通过数据、信息、文献等相互映射和语义关联,使数据、信息、文献等上升为能够实现知识服务的知识组织。面向单元信息的知识组织的方法,是语义网阶段知识组织方法的一个新的尝试。单元信息精准、灵活、关联的特点,更符合人类思维习惯。按这种方法生产的单元信息知识库,将为用户知识服务提供新的体验。经过知识关联重组后的信息,不仅可以使用户在组织化的知识系统中快捷、准确地获得所需知识,而且由于改变了知识因子间的原有联系,往往能够提供新知识,这些新知识将成为知识创新的直接动因。

随着各种计算机技术、通信技术、控制技术、传感技术的不断发展,像自动标引、数据挖掘、知识发现、标记语言等技术都会为知识组织向单元信息、片段信息发展提供良好的发展条件。未来知识组织的方法可能会出现更先进的技术支持,但是细粒度、语义化应该是知识组织的一个基本要求。希望单元信息的知识组织方法能为将来信息组织方法的改变提供一点参考。

[1]李 洁,丁 颖.语义网关键技术概述[J].计算机工程与设计,2007(4):1831—1836.

[2]刘 炜,胡小菁,张春景,等.RDA与关联数据[J].中国图书馆学报,2012(1):34—42.

[3]刘 炜,夏翠娟,张春景.大数据与关联数据:正在到来的数据技术革命[J].现代图书情报技术,2013(4):2—9.

[4]谢 铭.关联数据和知识表示的自动语义标注技术[D].武汉:武汉大学,2012.

[5]司 莉.信息组织原理与方法[M].武汉:武汉大学出版社,2011.

[6]周 宁,吴佳鑫.信息组织[M].武汉:武汉大学出版社,2010.

[7]刘 炜,楼向英,赵 亮.DC元数据的历史、现状及未来[EB/OL].[2017-05-27].https:∥core.ac.uk/download/pdf/11878293.pdf.

[8]索传军.网络信息资源组织研究的新视角[J].图书情报工作,2013(4):5—12.

[9]刘 嘉.网络信息资源的组织:从信息组织到知识组织[M].北京:北京图书馆出版社,2002:2—3.

[10]从信息组织到知识组织[EB/OL].[2012-05-09].https:∥wenku.baidu.com/view/307b29380912a21614792920.html.

[11]常 娥,夏 婧.多种知识组织方法比较[J].图书馆论坛,2016(8):1—6.

[12]B.C Brookers.情报学的基础(四)——第四篇情报学:变化中的范式[J].王崇德,邓亚桥,刘继刚,译.情报科学,1984(1):66—77.

[13]苏 洁.知识地图在高校图书馆流通服务工作中的应用[J].高等教育,2011(10):26.

[14]倪晓建.基于新信息环境下的精粹信息鉴选研究[J].深图通讯,2008(2):6—9.

[15]周静怡,孙 坦.信息可视化在数字图书馆中应用浅析[J].现代图书情报技术,2005(1):5—8.

[16]周 宁,张会平,陈勇跃.信息可视化与知识组织[J].现代图书情报技术,2006(7):62—65.

[17]徐绪堪,苏新宁,冯兰萍.面向知识服务的知识组织过程研究[J].情报资料工作,2015(1):7—13.

猜你喜欢
本体语义关联
韩国语“容入-离析”关系表达及认知语义解释
继齐韵往昔,以今声开来——思考自五音戏主奏乐器的演变、本体及延伸
眼睛是“本体”
奇趣搭配
拼一拼
一种新型水平移动式折叠手术床
智趣
试论棋例裁决难点——无关联①
Care about the virtue moral education