符号学视角下语义网定义及其理论框架的再认识

2017-08-30 19:33王晓伟刘能勇梁傲雪
现代情报 2017年8期
关键词:本体论符号学

王晓伟+刘能勇+梁傲雪

〔摘 要〕 语义网在最近二十年间获得了长足的发展,但目前学界和业界对语义网定义及其理论框架的认识仍模糊不清,相关研究多以技术支持为主,而鲜有系统深入的理论分析,这不利于语义网的长期发展。为此,本文首先通过对符号三角模型的研究与扩展,选定若干与语义网相关的核心原始概念;然后,以此为基础比较分析三类典型的语义网定义;最后通过本体分析,深入讨论语义网的资源网络本质属性。基于以上讨论和分析结果,本文将给出以其核心属性为构成要素的语义网定义,并基于此定义重构语义网的理论框架,以期完善当前语义网基础理论体系。

〔关键词〕语义网;符号学;符号三角模型;本体论

DOI:10.3969/j.issn.1008-0821.2017.08.005

〔中图分类号〕G201 〔文献标识码〕A 〔文章编号〕1008-0821(2017)08-0033-08

〔Abstract〕Semantic web has gained considerable development in the last two decades,yet the definition of semantic web and its theoretical framework are still ambigous,the related research was mostly proposed for technical support,and there is few systematic and in-depth theoretical analysis,which is not conducive to the development of semantic web in a long-term. To address this problem,firstly,this paper chose several core primary concepts related to semantic web by discussing and expanding the classic “semiotic triangle”model. Then,based on these primary concepts,it discussed and compared three kinds of typical semantic web definitions. Finally,through ontological analysis,it discussed semantic web as a resource network through its core properties. According to above discussion and analysis,it proposed a new definition of semantic web with its core attributes as the constituent elements,and reconstructed the theoretical framework of semantic web based on this definition,in order to improve the foundamental theoratical framework of semantic web.

〔Key words〕semantic web; semiology;“semiotic triangle”model;ontology

Tim Berners-Lee于1989年、1990年相继发明了万维网(World Wide Web, 3W)和世界上第一个浏览器[1]。利用浏览器和超文本连接技术,用户可以轻松浏览网页,实现“网上冲浪”。历经9年的高速发展,时至1998年,万维网已经在全球范围内普及。但是,通过万维网发布的网页数据一般以自然语言为载体,缺乏结构性,导致机器无法对其进行有效理解和处理。为解决这一问题,语义网(Semantic Web)的概念应运而生[2],在沿袭万维网数据互联共享理念的基础上,从信息发布源头入手,将携带语义的数据以统一预定义的结构化形式发布,进而使得网页内容数据可以高效地被机器理解和处理,使人与机器、机器与机器之间可以进行无障碍的数据交换,实现相关应用的自动化和智能化。

自语义网概?被提出以来,经由万维网联盟(World Wide Web Consortium,W3C)对其进行推广和普及,与其相关的研究发展迅速,并逐渐演化为计算机科学领域的一个重要分支。到目前为止的19?间,很多专家和学者一直致?于语义网的研究与探?,相关的科研成果已经在经济、政治、教育等许多领域得到实践应用。例如,自2007年始,英国广播公司(BBC)开始利用语义网技术,将旗下音乐频道中所涉及艺术家的信息進行自动标注,附加语义,并且相互连接,进而构建了一个关于音乐艺术家的关联数据集[3]。2010年5月,美国政府数据网站data.gov将其约400个数据集部署到现有语义网体系中,英国政府也宣布将采用W3C标准,澳大利亚、新西兰、荷兰等国家也纷纷跟进[4]。2013年,Sergio Miranda等人率先尝试运用语义网技术准确发现MOOC平台中用户的学习数据,实现其教学评价体系的优化设计[5]。

在最近二十年的时间里,语义网领域有了长足的发展,相关的技术标准、描述语言、实现工具、应用实例不断推陈出新,许多学者热衷于探索各种实践应用的可能[6-7]。但是,相比其他传统学科,语义网终归还是一个新生事物,其基础理论体系尚不健全,而且表现出发展迟缓的现状[8],鲜有专家学者专门对其进行梳理、界定和阐释,这对语义网的长远发展极为不利。为缓解这一矛盾,调节当前语义网基础理论体系与实践应用发展的平衡,本文将首先对符号学中的“符号三角”模型进行讨论与扩展,并选定与语义网相关的若干原始概念,作为后文对语义网讨论的基础。然后,基于已选定的这些原始概念,分别讨论和对比三类典型的语义网定义,并给出以其核心属性为构成要素的语义网定义。最后,基于语义网定义,深入讨论语义网作为资源网络的本质属性,并完成语义网理论框架的重构与解释。

1 符号三角的认知与扩展

语义网的核心功能之一就是承载语义,语义即人脑中的概念、想法或意义。一直以来,人类使用语言来记录和传递语义。虽然,不同语言在形式和表述能力上各有特色,但归根结底,语言就是人类社会约定俗成的一种符号系统。这种符号系统包含“能指”和“所指”两个部分,“能指”就是符号的存在形式方面,即语音的连续或者书写的结构,而“所指”就是符号的表述内容方面,即概念、想法或意义[9]。正如索绪尔在《普通语言学教程》一书中指明的那样:“概念和音响形象的结合叫做符号”[10]。语义网也不例外,其所包含的语义也是通过某种语言来承载的,即“描述逻辑语言”。

描述逻辑语言是一种介于自然语言和数理逻辑语言之间的一种语言。它选取了一阶逻辑语言的部分表述能力,定义一组类似于自然语言的符号和规则,并使之对应于一阶逻辑语言的符号和规则。新定义的描述逻辑语言具有一定的结构性,便于计算机高效地处理和分析,同时,这种类似于自然语言的表达使人类可以便利地书写和阅读,从而实现人与机器、机器与机器之间的高效交互。

在语义网框架下,人类对世间万事万物的认识被称为“语义”,通过描述逻辑语言对语义进行记录所形成的语言片段被称之为“语义描述”,语义描述的相互引用和链接就构成了语义网。也就是说,语义网的构建过程就是人类对其周围世界不断认知、对已获得认知进行记录,以及对认知记录的组织管理过程。虽然这一过程涉及诸多要素,且漫长而复杂,但Ogden等人提出的“符号三角(Semiotic Triangle)”模型[11]为探讨和理解该过程的核心内涵提供了独特视角,帮助读者从认知层面对语义网本质有更深层次的理解。

如图1所示,Ogden等人提出的符号三角包含3个方面的内容。三角形的右下角代表着世界上实际存在的事物,随着对世界的观察,人们逐渐认识到有这样一类动物,它们毛茸茸的、性情非常憨厚、是人类忠实的朋友。基于上述观察和认识,人们把这种动物的属性固化成一个类的概念存储到记忆中,图中三角形的上顶角就代表着这样的类概念。有了这样的类概念之后,如果想要表达心中的想法,比如这一例中狗的概念,就需要使用描述语言对其进行指称。图中三角形的左下角就代表着表达概念的语义描述,比如例子中的“Dog”是个英文词汇,这个词汇就和顶角所代表的概念建立了对应的关系。这样,语义描述和类概念之间构成了联系,同时类概念和一组现实中的实体又构成了联系。间接地,一个类概念的语义描述就和某组特定的实体构成了对应关系。

如果两个人对世界上相同的事物形成了相同的概念,并且约定用相同的语义描述来表达相同的概念,那么这两个人之间就可以使用这种语义描述进行沟通和交流。例如,參照图1中讨论的范例,A可以对B说或者写“Dog”这个词汇用以指称自己头脑中的狗的概念,而这个概念有对应着现实世界中的狗;当B听到或者看到这个词汇时就会唤起脑中狗的概念,同样的概念对应着现实世界中同样一组狗的实例。这样,A和B之间就达成了沟通与交流的目的。

在上述符号三角中我们提到了“概念”和“语义描述”,换一组计算机与情报技术领域中的词汇来指称,它们分别对应着人们常说的“信息”和“数据”,而信息和数据也就是语义网所要处理的主要对象。在述符号三角提出之后的九十余年中,许多专家和学者根据这一认知模型,对“信息”的相关概念进行了许多理论研究。Smith[12]和Ferrario[13]等人曾经分别尝试解释什么是“思想”和“概念”。在他们之后Maass[14],Mentor[15]和Jureta[16]等人对“信息对象”进行了深入研究。

在这些学者中,Fortier 和 Kassel (F&K) 提出了关于信息的本体论模型(Information and Discourse Acts,I&DA),在该模型中他们对“信息”及其相关概念做了详细分析和阐述[17]。如图2所示,相对于原来的符号三角,信息和数据的部分没有发生变化,分别被称为“内容”和“内容载体”,内容是抽象的思维,指称想法或者知识本身,而“内容载体”是指对内容的符号表述,也是一种抽象的事物,但符号是几何结构的存在,这使其可以通过某些物理媒介进行具象化。在此基础上,他们延伸出“刻印”的概念,这便是对内容载体(即符号表述)的一种通过物理媒介的具象化。

继续使用图1中的范例加以说明,我们头脑中有狗的概念“一种毛茸茸的小动物”,这是一种想法和知识,是内容的部分;而“Dog”就是狗的概念的符号表述,而符号本身是抽象的;只有将这一符号写在纸上的时候,墨汁和纸张共同形成的物理存在形式使得抽象符号得以具象化。当然,还有许多其他将符号具象化的方法,比如在石碑上进行刻印,所以F&K使用“刻印”这一词汇指称这种对抽象符号表述的具象化物理媒介支持。

上述讨论内容是以语义描述对类概念的描述为范例展开的,应当提起注意的是除了类概念,还有一种个体实例的概念与之对应。比如,图1范例中提到狗的符号形式、类的概念和对应的一组特定的狗的个体集合。相同的思路也可以用来讨论个体实例的概念。例如,作者的家中养了一条叫做“小黑”的狗,“小黑”这个词汇作为一个语义描述,是一个抽象符号的存在。提起“小黑”名字的时候,作者头脑中闪过的印象和属性是专属于某一只特定的狗的,当然就是指作者家中饲养的那条宠物狗。

前文曾提到当下语义网的描述对象可以是世间的万事万物,而仅仅依靠对类层面的描述还不能够对世间的万事万物进行完整的描述。因此,本文特别强调个体实例的概念,并且与类概念并列讨论,进而确保语义描述范围的完整性。为方便读者理解,本文给出图3对语义描述的两种对象进行比较。

2 语义网定义的再认识

前文对符号三角模型进行了阐释和扩展,从符号学的视角重新界定了与语义网相关的若干核心原始概念。接下来,作者基于这些已经界定的原始概念,对各方提出的语义网定义进行了比较分析,并认为当前并没有足够准确的语义网定义,既能涵盖语义网的核心属性,同时又能适应当前信息社会对万事万物的描述需求。为解决这一问题,本文从被广泛认同的更加原始的概念入手,综合分析这些原始概念所揭示的语义网本质属性,同时考虑对语义网历史定义的比较分析结果,最终给出以语义网核心属性为要素所构成的语义网定义,从符号学的角度给出语义网的明确的内涵。

2.1 Tim Berners-Lee对语义网的定义

作为语义网的创始人,Berners-Lee对语义网的定义是“Semantic Web is a consistent logical web of data”[2],翻译成中文就是“语义网是一个具有一致性和逻辑性的数据网络”。这个定义揭示出语义网三个层面的基本特征,下面就这三个特征逐一进行分析:

首先,他认为语义网是一种数据网络(web of data),也就是将分布存储在各地的数据联系在一起的网络。在本文中,我们使用“数据”这个词汇来指称“信息”的载体,正如图2中扩展后的符号三角模型所示,所谓信息就是指人们头脑中所要表达的意思、意义或者想法,它是一种无形的存在。为了方便讨论,作者将前文所涉及到的与语义网相关的原始概念整理成表,如表1所示。

由表1可知,人们为了记录和交流这种无形的信息,使用有形的符号对应到无形的信息上,在形成了这种符号与信息的对应关系之后,信息的记录和交流就可以转化为对符号的记录和交流,而这里所谓的符号本文称之为“数据”。

在语义网领域中,人们通常使用另外一组词汇来指称相同的概念。上文中提到的信息就是语义网里所说的语义,而其对应的数据就是语义网里所说的语义描述。由于语义描述的本质是数据,或者说是符号排列,所以它也是一种抽象几何结构的存在,它在物理世界中只有通过物理媒介具象化之后才能真正实现记录和交流的功能。其常见的物理媒介有墨水和纸张,墨水在纸张上占有的空间所构成的符号排列就是我们前面所说的语义描述。

所以,所谓的“数据网络”也可以说成是“语义描述网络”。比如人们熟悉的万维网就可以理解成为这样的一种数据网络。在万维网里,信息通过网页数据存储和传送,数据的形式一般是自然语言描述,而数字化后的网页数据的具象化物理媒介就是存储在各个服务器上的网页文件。由于网页文件中可以内嵌其他网页文件的“超文本连接”地址,网页文件之间相互指向进而构成网络,同时网页文件中存储的又是数据内容,在这个意义上也可以说万维网就是一个超大型的数据网络。

语义网也可以用相同的概念进行解释。语义网中的数据就是语义描述,其具象化媒介就是语义描述文件。在语义网初期,语义描述内嵌在万维网的网页数据中,后来这些语义描述被独立出来,以单独的语义描述文件的形式存储在各个服务器上。或者有专门的工具对语义文件进行存储、组织和管理,同时提供公共的访问和查询的接口。各文件中的语义描述之间相互引用和相互指向,在这个意义上,语义网也可以被称为是一種数据网络。

其次,这种数据网络应该是具有逻辑(logical)属性的。虽然Berners-Lee的这种表述并不够准确,但他对语义网的后续描述和实践对此进行了补充解释。他想使用逻辑语言对事物进行描述从而产生数据,这样就使得该数据网络具有了语义。这样做的好处有两点:①相对于自然语言的描述,逻辑语言具有无二义性特征,使语义的表达更加精确;②逻辑语言是结构化的语言,可以充分发挥计算机的自动计算能力,实现语义的推理功能,以及更高级的应用智能化处理。其中,智能化处理的部分也是Berners-Lee一再强调和许诺的语义网会给未来世界带来的便利。

最后,这种语义化的数据网络应该保持一致性。语义网的终极目的是把分散的语义描述都相互连接进而整合到一起,最终形成一个全局的整体语义描述网络。但要做到这种整合就必须解决各个语义描述之间的兼容性问题,除了统一逻辑描述语言之外,还有必要规定该语言中最核心的原始概念,其他概念都可以通过这些原始概念进行解释。类比字典的例子,一个词条的解释是由许多其他词条组成的。如果,对这个解释中的词条依次进行查询的话,又可以得到类似形式的解释。但是,通过反复查询可知,所有的词条都可以用一组特殊的词条集来解释。而在这组特殊的词条集中,它们之间又是互为解释的,这样的循环定义相当于没有定义,也就是说有些词条就是先天存在的大家都公认的不需要再进行解释的,这样的词条就代表着原始概念。

在语义网中也是一样,双方对同一事物有不同描述时,就可以透过这一标准原始概念集进行沟通,相互协商,最后实现语义一致。而通常的解决方案就是大家规定并共享一套本体,在本体中给出类层面的概念列表,然后通过对某些类的实例化来对具体的个体以及个体之间的关系进行描述。这里所涉及的类层面与个体实例层面的语义描述就是语义网实现语义的基本手段。

2.2 W3C对语义网的定义

自从语义网概念问世以来,“W3C Semantic Web Activity”组织也随之建立。该组织在万维网联盟(World Wide Web Consortium,W3C)中长期致力于对语义网概念的推广,并为其制定标准。他们对语义网的定义是“The Semantic Web is a web of data”,即“语义网就是一种数据网络”。该定义只认同和继承了Berners-Lee对语义网数据网络部分的描述,因此只能称其为一个宽泛的描述[18]。

为了弥补该定义比较宽泛的问题,该组织对语义网的概念做了比较详细的补充说明,并且在一定程度上完善了语义网的框架结构。在说明中,他们认为语义网应该提供一个通用框架,在该框架下数据可以在各种应用、企业及社会群体之间实现方便快捷的共享和复用。为实现这一目标,语义网在技术层面需要制定一套标准的数据模型和相应的数据格式,使得采用该标准发布的分散在各地的数据集可以被无缝的整合,这也对应了前文中讨论的Berners-Lee认为语义网所应具备的逻辑性属性和一致性属性。

早期对于语义网的研究主要集中在数据格式标准化和数据资源共享方面,但经过10年左右的发展,W3C在2011年给出上述语义网的描述时,特别强调了语义网的另一个属性,即语义网所提供的逻辑描述也应该解决如何将数据跟现实世界中的事物相互联系的问题。早在2001年语义网刚刚问世不久,Berners-Lee就想到了这个问题,并认为这应该是语义网的终极形态。

他认为,URI(Uniform Resource Identifier)不仅可以用来定位数据文件资源,理论上它可以被用来指称任何事物,这其中就包括现实世界中的各种物理事物。在这种定位的基础之上,人们就可以对这些物理事物以及他们之间的关系进行逻辑描述,从而构建一个更加广义的包罗万象的语义网框架,Berners-Lee称之为“Web of Things”[19]。

这个概念跟时下流行的物联网(Internet of Things)的概念非常相似,容易发生混淆,但我们认为这两者概念之间是存在本质区别的。Internet就是人们常说的英特网或者互联网,这种网络更加注重的是物理线路的连接,从而实现数据传输的可能。比如,用户之所以可以在浏览器中看到一张网页的内容,正是因为存储在服务器上的数据文件通过互联网传输到了本地。简单来讲,互联网只做一件事,那就是数据的传输。在这个意义上的物联网,就是把传统意义上的计算机通信网络扩展成为所谓的智能设备通信网络,通常的做法就是给设备安装控制芯片和互联网连接端口,使之成为互联网的一部分,本质上它是一个通信网络。

语义网则是万维网的一个扩展,它们不解决数据的物理传输问题,而是建立相互关联的语义描述,偏重于数据之间的互联关系。这是一种非物理的逻辑上的连接关系,通过这种连接人们就可以寻找、定位、整合自己需要的数据集。现在把语义网的概念扩展成为“Web of Things”,其实就是把数据描述的对象扩展到任何事物,透过一整套的语义描述间接地将所描述的对象相互连接起来。描述的对象可以是个体实例层面的,也可是类层面的。如果将这些描述的对象都视为某种资源的话,万维网,初期的语义网和扩展之后的语义网在本质上都是某种资源网络,只是在语义描述的机器处理效率上、以及在指向对象的范围上有所不同。

2.3 各教材中对语义网的定义

自Berners-Lee提出语义网概念,后经由W3C对该概念的普及和推广,语义网已经演化为计算机科学领域的一个重要分支。比如南安普顿大学在2010年前后就开始推广关于语义网的教育,开设了网络科学(Web Science)专业,覆盖了从学士、硕士到博士的学位授予点,学习和研究同时开展。如果把语义网作为计算机科学的一个分支来考虑,它对自身的定义就是该学科的基础,而相关教材则代表了该领域学者对该学科相对统一的基本认识,因此对教材中语义网定义的考察有利于探究该学科对语义网概念的基本认识。基于以上观点,本文特意挑选了三本最近几年出版的关于语义网的基础教材,并考察每本教材对语义网的定义情况。

首先,Domingue等人[20]在其撰写的教材中提出语义网并不是一个独立的新生事物,而是当前万维网的一个扩展版本,在这个扩展板的万维网中,信息被赋予了定义良好的语义,进而促进了人机交互的发展。在对语义网定义方面,该书选择了相对保守的处理方式,只给出了以上描述性说明,而并未就语义网的本质属性给出足够的阐述和讨论。因此,本文认为该书对语义网定义的解释是宽泛的,缺乏对于学科的方向指导功能。

另外,Antoniou[21]则声称继承了Berners-Lee对语义网的理解,并没有给出语义网的明确定义,只是说“语义网”和“数据网络”是通用的词汇。他对语义网的解释是从语义网的设计原则角度来描述的:①语义网应该将当下可用的结构化的和半结构化的数据转换为标准的格式并发布;②语义网不仅发布类层面的数据集,同时也可以发布个体数据单元,以及这些单元之间的关系;③将这些数据想要表达的语义以一种形式化的方法表示出来,进而实现机器的自动化处理。虽然,这些设计原则可以为语义网开发者提供技術层面的指导,但并不能作为构成语义网理论体系的基础。

最后,Yu[22]在其教材中对语义网做出如下定义:“语义网就是一组技术与标准,用以实现机器对万维网中信息所携带语义的理解”。该定义泛泛地使用语义网的相关技术来代替其自身的属性,在应用技术和理论基础的认识上发生了混淆,这对于读者理解语义网的内涵非常不利。

如表2所示,由比较分析可知,Domingue、Antoniou和Yu等人在其撰写的教材中均未对语义网定义做出正面说明,而是使用“简单描述”、“设计原则”及“技术标准”进行替代,侧面阐述语义网的部分特征。另外,Domingue和Antoniou等人为了回避对语义网进行直接定义,使用了粗粒度的描述方法,这种概括性的说明可以作为对初学者的直观说明,却不能作为该理论体系的研究基础。在这一点上,Yu虽然在细节上给出了对语义网的定义,但技术代替理论的表述本质上是错误的,所以他的定义也不能为简历语义网理论体系提供支持。

综合前文对语义网概念的讨论,本文基于符号学提供的原始概念,给出如下包含其核心属性的与以往定义,即语义网本质上是一种资源网络,以语义描述为表现形式,并以互联网进行传输。基于这一语义网定义,下文将从“网络属性”、“表现形式”和“传输形式”等3个方面对其加以梳理,使之既可以满足初学者的直观认识需求,也可以满足专业学者对语义网的研究需求。达成对语义网概念的统一认识,构建该学科的理论起点。

3 语义网理论框架的再认识

3.1 传统语义网体系结构分析

随着语义网的发展,各种相关的描述逻辑语言、技术和标准被先后开发出来,为了构建行业规范并指导开发人员实践,Berners-Lee仿照Open System Interaction (OSI)参考模型,提出了如图4所示的传统语义网体系结构[23]。这类模型的设计理念是将一个较大的系统划分成若干较小的部分,每部分被称为一个层并自底向上依次排列。功能类似的技术要素被封装在同一层中,每层自其下层引用所需服务,同时为其上层提供服务。

这种分层封装的体系结构的主要优点是可以降低系统各部分之间的耦合度。一方面,与各层相关的科研或者技术人员可以专注于本层内部的研究和实践,对其他各层只引用其标准外部接口而忽略其内部细节,这有利于提高科研和技术人员的工作效率。另一方面,各层内部的变化不会影响到其上层对其服务的持续引用,这使得系统整体的兼容性得到增强,跨平台跨语言开发成为可能。

根据这种分层设计理念,传统语义网体系结构被划分成如图4所示的各层。处于最下方的第一层是用于资源编码的Unicode,以及用于资源定位的URI技术。第二层是用于记录语义描述数据的可扩展标记语言XML。第三层的资源描述框架RDF则为XML提供了三元组形式的数据表述模型。再上面的第四层又包含了用于构建本体的逻辑描述语言OWL,为查询语义描述数据而开发的SPARQL语言,以及用于描述规则的RIF语言格式。以此类推,再上层的内容中依次还涉及到逻辑、验证、信用以及用户界面和应用等内容。

该体系结构是语义网领域中目前被普遍认可的语义网技术层次框架的现状,但该体系结构并未透彻阐释语义网的资源网络本质属性,用于描述语义网的理论框架还处于萌芽和讨论阶段。为改善这一现状,本文接下来将以语义网定义为基础展开讨论,分析语义网的网络属性本质,并进而提出语义网的基础理论框架。

3.2 网络概念分析

如前所述,本文认为语义网本质上是一种资源网络,以语义描述为表现形式,并以互联网进行传输。所以网络属性是语义网的本质属性,本文接下来将对网络这一概念进行展开分析,进而为语义网理论框架构建提供基础。

网络可以被理解为将对象元素相互连接在一起而形成的复杂系统,这种系统具有的特殊结构就叫做网络结构。网络结构由“节点”和“连接”组合而成,节点代表着系统中的对象元素,而连接则表示对象元素之间的相互关系。在日常生活中,人们会遇到各种各样的网络,比如渔网、物流网和人际关系网等等(在本文中,“网”与“网络”指称相同的概念,可以互换使用)。它们的功能各不相同:其中,渔网是渔夫用来捕鱼的工具,这种网络通常被以其整体所表现出来的功能使用,类似的例子还有捕虫网、蜘蛛网等等;物流网是一种用来在节点之间通过连接传递包裹的网络。这种网络在其节点和连接被构建好以后,人们通常不再关注这个网络以整体存在的对外功能,而是主要考虑网络内部各节点之间的包裹传递功能;人际关系网则是人或者组织以不同角色参与到社会活动中,从而形成的一种分工合作系统,相互之间结成各种各样的关系。比如在公司里雇主与雇员的关系,或者在学校里老师与学生的关系。

以上列举的三种网络各有特点,如果将它们各自的属性抽象出来并加以分类,就会得到三种广义上的网络。类似于蜘蛛网的这种网络,通常以一个独立的整体完成它的外部功能,本文称之为“整体性功能网络”;类似于物流网的这种网络不注重其自身的整体对外功能,而是强调网络内部节点之间的事物传输,本文称之为“传输网络”。在传输网络上被传输的可以是任何事物,比如包裹、水、电、数据等等,只要有合适的传输管道和传输介质,它们都可以被有效地在节点之间进行传输;类似于人际关系网的这种网络,则更加注重节点之间的连接形式,如果将这种网络中的每一个节点看作一个资源,节点之间的相互连接关系便构成了资源的组织形式,因此本文称之为“资源网络”。在资源网络中,通常单独节点的资源所能提供的功能很有限,将网络内部的一个或数个子网络整体使用带来的收益更大,所以在资源网络中资源的组织形式就变得非常重要。

图5展示了一个粗粒度的网络分类,这代表了本文从功能维度对网络的认知。该分类并不是完整的,子类之间在其他分类维度下也可能重叠,但在此处给出以上分类已经能够满足下文说明语义网作为一种资源网络的需要。

3.3 语义网理论框架构建

简单来讲,语义网是一种被用赋有语义的描述逻辑语言所描述的资源网络,同时,这些对资源的描述又以数据的形式在传输网络中被存儲和传输。如图6所示,根据语义网的网络属性,本文将分三个层面对语义网进行阐释:资源网络层面,语义描述层面,数据传输层面,以期为读者提供一个认识语义网的基础理论框架。

在资源网络层面中,任何事物都可以被视为资源。比如,人类在日常生活中需要的衣服、食物、住房、交通工具、医疗设备等,都是维持生命必不可少的资源。除了物质资源之外,作为文明的现代人类,还需要各种知识和文化方面的学习和训练,所以大量的书籍、文献、录音、影视剧都成为人类所需的精神资源。人作为社会动物,在社会中生存就离不开与其他人进行交流,进而结成各种各样的关系,在处理某一事务时,与此事有关的人就会发挥各自的作用。从这个角度来看,我们在社会中的朋友、同事、同学、上下级等等,都可以理解成为是一种资源。在万维网的框架下,资源经常被误解为只包括可获取的网页数据,但是在语义网的框架下,资源不仅仅包含网页数据,而是被扩展为上述任何事物。

在语义描述层面中,个体或者组织对持有的资源或者资源网络进行描述,并且创建数据发布到互联网上。比如“用户A”对自己所认知的“资源网络A”进行了描述,并且将“描述数据A”发布到互联网上。之后,“用户B”在对另外一个资源网络“资源网络B”进行描述时,就可以引用已经发布的“描述数据A”,进而将“资源网络A”和“资源网络B”相互连接,形成一个更大的节点之间相互连接的资源网络。可以说,通过这种描述数据的共享和引用,语义网将散布在各处的各个资源子网络相互连接,最终形成一个全局的资源网络。

在数据传输层面中:可以说,语义网作为一个庞大的全局资源网络是依托于具体的资源描述数据而存在的,而想要发布、共享、获取这些资源描述,用户就需要通过某种传输网络将这些语义描述进行传递。完成这项工作的是计算机通信网络,更具体一点则可以说,通常这些描述被以某种数据的形式在互联网中被传递。

为了进一步阐释语义网的理论框架,理清语义网在三个层面上的特性,这里举一个简单的例子加以说明。如图6所示,这里假设皮特和露西是兄妹,他们都是现实世界中的人。这样,一个简单的人间关系网络就得以形成,而人际关系网络又可视为资源网络的一种。通过对这个资源网络观察和理解,可以获得对皮特、露西以及他们之间关系的认知,已获得的认知又可以使用某种具有标准格式的描述逻辑语言来对其进行描述,并使得这种描述具有足够的语义。比如,使用Turtle语言进行描述,具体的描述内容如下:

@prefix example:

example:皮特 example:哥哥 example:露西

example:露西 example:妹妹 example:皮特

完成描述之后,这个描述数据可被以数据文件的形式存储到本地计算机的存储器里,比如用“皮特与露西.ttl”为文件名将其存储。之后,这个文件又可以通过互联网上传到某个服务器,完成对资源描述的发布,并获得该文件的网络地址“http://example/皮特与露西.ttl”。其他人也就可以通过互联网,从服务器上访问并获取这份文件,进而对其描述的资源获得相应的了解。另外,基于已经被发布到网上的资源描述,其他人也可以对其直接引用,进而发布新的资源描述。比如,皮特和露西的母亲就可以引用“http://example/皮特与露西.ttl”文件中所描述的个体,并且添加自己与这两个个体之间的联系。我们假设这位母亲的名字叫做玛丽,那么她就可以追加发布类似的资源描述:

@prefix example:

@prefix new:

example:玛丽 new:妈妈example:皮特

example:玛丽new:妈妈 example:露西

綜上所述,本文将语义网视为资源网络的一种,对这种资源网络的认知则通过描述逻辑语言进行记录,最后通过互联网进行传输和共享。

4 结语

自Tim Berners-Lee提出语义网的概念以来,19年间语义网领域得到了长足的发展,无论是在技术实现层面,还是在实践应用层面,都有许多的学者进行了大量的探索和研究,语义网也在这样的发展中逐渐演变为计算机科学的一个重要分支。但是,相比其他传统学科,语义网的基础理论体系尚不健全,并且鲜有专家学者专门对其进行梳理、界定和阐释,这对语义网的长远发展极为不利。

为缓解这一矛盾,调节当前语义网基础理论体系与实践应用发展的平衡,本文首先通过对符号三角模型的研究与扩展,辨析和选定了若干相关原始概念,作为讨论语义网本质属性的基础。然后,基于以上已选定的原始概念,本文对三类语义网的典型定义进行了梳理和对比,并给出了以其核心属性为构成要素的语义网定义。最后,本文对该语义网定义进行展开讨论,通过本体分析的方法,强调语义网作为一种特殊资源网络的存在,并给出了语义网的基础理论框架,以弥补传统语义网体系结构过于偏重技术层次划分的不足。

本文认为,语义网作为一门独立完整的学科,想要长期稳定的发展,除了实现技术的支持外,还需要领域内的学者在其基础理论体系上达成一致。例如,语义网的概念,语义网的理论框架等,都是领域内学者赖以沟通和交流的基础。本文在这方面的工作,正是为了构建这样一个共享的语义网基础理论体系而做出的努力,并且希望语义网可以作为一门独立的学科不断的自我完善和发展,并实现更广泛的智能化社会实践。

参 考 文 献

[ 1 ] Oxford Brookes University. History of the Web[EB/OL]. [2017-03-15]. http://www.w3c.it/education/2012/upra/documents/origins.pdf.

[ 2 ] Berners-Lee T. Semantic Web Road map[EB/OL]. [2017-03-15]. https://www.w3.org/DesignIssues/Semantic.html.

[ 3 ] Kobilarov G,Scott T,Raimond Y,et al. Media Meets Semantic Web–how the Bbc Uses Dbpedia and linked data to Make Connections[C] // European Semantic Web Conference. Berlin Heidelberg:Springer,2009:723-737.

[ 4 ]丁楠,王钰,潘有能. 基于关联数据的政府信息聚合研究[J]. 情报理论与实践,2015,(7):76-79,85.

[ 5 ] Miranda S,Mangione GR,Orciuoli F,et al. Automatic Generation of Assessment Objects and Remedial Works for MOOCs[C] // 12th International Conference on Information Technology Based Higher Education and Training (ITHET). Antalya. IEEE,2013:1-8.

[ 6 ]周晓剑. 基于CiteSpace的语义网国外研究热点与前沿分析[J]. 情报探索,2014,(9):24-27.

[ 7 ]王珊珊,肖明. 文献计量分析的我国语义网研究综述[J]. 情报工程,2016,(2):52-61.

[ 8 ]胡珊. 语义网应用框架研究[D]. 南京:南京大学,2014.

[ 9 ]万丽,丁晓梅. 符号学语义三角形的模式变体[J]. 大连海事大学学报(社会科学版),2006,(3):141-144.

[ 10 ]索绪尔. 普通语言学教程[M]. 北京:商务印书馆,1999:102.

[ 11 ] Ogden CK,Richards IA,Malinowski B. The Meaning of Meaning:A Study of the Influence of Language Upon Thought and of the Science of Symbolism[M]. London & New York:K. Paul,Trench,Trubner & Company,1923:11.

[ 12 ] Smith B. Beyond concepts:Ontology as Reality Representation[C] // 3rd International Conference on Formal Ontology in Information Systems. Amsterdam. IOS,2004:73-84.

[ 13 ] Ferrario R,Oltramari A. Towards a Computational Ontology of Mind[C] // Aerospace Conference. Big Sky,MT. IEEE,2005:1-9.

[ 14 ] Maass W,Goyal S,Behrendt W. Knowledge Content Objects and a Knowledge Content Carrier[C] // the European Workshop for the Integration of Knowledge,Semantics and Digital Media Technology. London. QMUL,2004:449-456.

[ 15 ] Mentor QA. Task Taxonomies for Knowledge Content D07[R]. Metokis Project,2004.

[ 16 ] Jureta IJ,Mylopoulos J,Faulkner S. A Core Ontology for Requirements[J]. Applied Ontology,2009,4(3):169-244.

[ 17 ] Fortier JY,Kassel G. Managing Knowledge at the Information Level:an Oontological Approach[C] // ECAI04 Workshop on Knowledge Management and Organizational Memories. Valencia,Spain. 2004:39-45.

[ 18 ] W3C,W3C SEMANTIC WEB ACTIVITY[EB/OL]. [2017-03-15]. https://www.w3.org/2001/sw/.

[ 19 ] Berners-Lee T,Hendler J,Lassila O. The Semantic Web[J]. Scientific American,2001,284 (5):28-37.

[ 20 ] Domingue J,Fensel D,Hendler JA. Handbook of Semantic Web Technologies[M]. Berlin Heidelberg:Springer,2011:5.

[ 21 ] Antoniou G,Groth P,Harmelen F,et al. A Semantic Web Primer[M]. London,England:MIT Press,2012:1-19.

[ 22 ] Yu L. A Developers Guide to the Semantic Web[M]. Berlin Heidelberg:Springer,2014:17-21.

[ 23 ] Berners-Lee T. Artificial Intelligence and the Semantic Web[EB/OL]. [2017-03-15]. https://www.w3.org/2006/Talks/0718-aaai-tbl/Overview.html#(14)

(本文責任编辑:郭沫含)

猜你喜欢
本体论符号学
CP论题能为本体论论证提供辩护吗?
张栻的本体论建构及其体用逻辑探析
张载哲学的本体论结构与归宿
符号学家重返音乐史
基于符号学的文化衍生产品设计
微电影本体论辨析
符号学理论初探
符号学的得与失——从文本理论谈起
电视剧《走西口》的符号学意义
基于本体论的建筑工程成本预算规范表达