语义网络P2P参考模型语义映射构建

2017-03-31 19:56蔡寅

软件导刊 2016年8期

蔡寅

摘要：为了解决P2P定义域抽象与概念上表达的二义性和不兼容性，构建了语义P2P系统参考模型语义映射，包括映射表达、映射实现、映射正确性、映射执行者以及映射维护等各种问题的决策，从通用的、高层抽象的角度对涌现出来的分布式计算模式进行建模，为该领域建立了一个通用的技术框架，使得研究成员相互间能更好地理解与交流，为各语义P2P系统间的比较提供了共同准则。

关键词关键词：语义网络；P2P；SP2P参考模型；分布式计算

DOIDOI：10.11907/rjdk.161489

中图分类号：TP303

文献标识码：A 文章编号：1672-7800（2016）008-0001-03

0 引言

目前，针对P2P的研究已经产生了各种各样的实现与体系结构。各类研究者在知识管理、数据库、信息检索、P2P等方面的背景不同，导致了这些各种各样的实现与体系结构在定义域抽象与概念上表达的二义性和不兼容性。P2P仍然是一个不断演化的领域。GUO Fangfang等[1]构建了一种层次P2P模型，用于网络安全数据融合告警系统；刘衍珩等[2]构建了P2P流媒体中动态分级传输模型，用于流媒体的传输；吴鹏[3]针对文件共享只能按照文件标识符查找的问题，构建了异构模式间的语义映射模型，将查询请求中所有别名转化成真实的数据表信息。目前存在不同的SP2P系统及其类型，如Piazza、Chatty Web、KEx、Somewhere、Hyperion、PeerDB、coDb、Esteem、Observer以及Edutella，这些系统互不兼容，具有不同的体系结构，是由具有不同知识背景的专家开发的。

参考模型创建有两种不同的方法，Volker与Katarina[4]阐述了创建参考模型的两种主要方法，即：①当某个领域有大量系统可用时，可以通过抽取现有系统的通用组件来开发参考模型；②对于一个领域，没有较多系统可用时，通过对现有与本领域相近的领域参考模型进行提升得到。本文采用第一种方法，即从现有系统及其相关工作中抽取共同组件，以构建SP2P系统参考模型，该SP2P系统参考模型捕获了许多SP2P系统及其相关工作的共同特征，并对这些系统与相关工作的关键概念提供了标准化的描述。为了获取参考模型的主要结构，本文着重对现有SP2P系统的显著特征进行识别，这些特征是有代表性的SP2P系统及其相关工作的用户可视的各个方面，包括SP2P系统的共同方面与不同方面，这种方法就是面向特征的领域分析法（FODA）。对与SP2P系统相近领域的参考模型进行研究，包括网格计算参考模型[5]与Web服务参考模型[6]，这些参考模型代表了各个经典领域，并采用第一种参考模型创建方法来加以创建。选取多个SP2P系统及其有代表性的相关研究工作来抽取SP2P系统的显著特征，包括Chatty Web、KEx、P2PSLN及Piazza 4种系统及其相应的组件、组件属性以及组件之间的关系。

1 SP2P参考模型语义映射构建

由于研究者的知识背景不同，并且SP2P领域仍然在不断演化，目前存在许多各式各样的SP2P实现与体系结构。本文提出的SP2P参考模型满足通用体系结构的本质需要，是对现有系统的主要方面进行建模。一个特殊的SP2P系统，例如Chatty Web、Piazza等，可以看成是参考体系结构的一个实例。本模型是一个高层次的抽象，隐藏了开发者的实现细节，然而，它使得导出具体的系统成为可能。基于本参考模型所创建的系统应该容易修改。SP2P参考模型由7个主要结构组成：

SP2P=

其中p表示结点；r表示资源；qf表示查询生成器；sn表示语义邻居；rt表示路由；m表示映射；qa表示查询结果。这7个结构组成了任何SP2P系统所需要的最小组件，并能用于SP2P系统评估。

语义映射m=，是指来自独立信息资源（本体）的概念之间的语义关系。对于任何SP2P系统而言，语义映射是基础设计创建块，也是深度研究中的一个课题。由于结点信息的表示是异构的，因而映射是SP2P系统的基础组件。结点的局部本体被独立开发出来以反映结点的知识、兴趣及文化。因此，在参考模型中需用映射组件来描述本体之间与概念转换相关的设计方面。SP2P系统使用的语义映射涉及映射表达（me）、映射实现（mi）、映射正确性（mc）、映射执行者（mw）以及映射維护（mm）等各种问题的决策。此外，SP2P系统可以支持查询的改写，也即分解查询或以一个等价但完全不同的方式对查询重新排序，在这种情况下，映射组件需要一个额外的评估过程来支持查询的评估与更改。

1.1 映射表达

从以最简单形式进行语义映射适合不同本体中发现查询概念的同义词。在具有更好表现力的映射中，逻辑关系用于发现概念间的关系、概念属性和性质。

逻辑关系集通常用于定义结点本体概念间的关系，包括{≡，＼[，＼]，*，┷}。关系C1≡C2意味着两个概念等价，换言之，C1与C2是两个相似的或同等意义的并可相互交换的两个不同的概念，例如，“notebook”与“laptop”是两个等同的概念。关系C1＼]C2表示C1超过C2，即C1比C2更具有一般性或更宽广，例如，“system software”的概念比“operating system”的概念更具有一般性，更宽泛。关系C1＼[C2表示C1低于C2，即C2比C1更具有一般性或更宽广，例如，“book”比“publication”更不具有一般性，因为出版物不仅仅是书。关系┷表示两个概念之间没有语义关系，例如，“bank”作为财政机构与“bank”作为河岸之间没有语义关系。不能用以上关符号描述的其它两个概念之间的关系用*来描述。

映射的表达对查询结果的可扩展程度有影响。基于映射允许的逻辑表达式，可以增加或减小查询结果的可扩展程度。需要精确映射的系统可能放松系统的约束条件，以增加查询的召回率。例如，假定一个本体中的“大学”概念与第二个本体中的“教育学院”的概念是等价的，即：

大学≡教育学院

相应地，映射操作返回值为1：

map（大学，教育学院）=1.0

由于这两个概念能同时被映射到一个共同的概念“学院”，因此，这个假定是有效的。

此外，假定“大学”或“教育学院”与“研究院”之间已确定具有相关的语义关系，即：

map（研究院，教育学院）=0.25

现提出如下查询：

Query：列出该地区所有研究院的名字

嚴格的查询结果为空，因为在“研究院”与“大学”或“教育学院”之间没有设置完全等价的关系。然而，如果放宽查询的约束条件，即不是查找“研究院”与“教育学院”概念间的确切关系，而且考虑先前的查询结果，将会有相应的大学名字被检索出来，因为“研究院”与“教育学院”之间的关系都会被确定为“学院”。

1.2 映射实现

如何进行映射是一个非常重要的设计问题。结点使用例如WordNet的本地的同义词辞典的副本，创建其自己的字典，构建映射表，交换本体以翻译本体间的概念。执行映射方法的选择受应用范围的影响，对于小范围、特定领域的应用，结点可能交换其局部本体或创建其局部字典以供翻译；对于较大规模的应用，可能需要局部同义词字典，能够完成一些推理，而不仅仅是处理与本地字典与表相关的简单的概念到概念的映射。映射可以被自动地、半自动地或手动地进行。

1.3 映射正确性测量

正确的语义映射是SP2P系统的基础。很多研究者致力于对可能错误的分类、对映射质量的测量以及对查询翻译期间信息丢失的评估。映射正确性的测量有两种方式，即数值测量与逻辑测量。数值测量适合于通过映射工具返回数值，例如，一个映射操作得出概念间的语义关系，“Laptop”概念C1与“Notebook”概念C2的映射关系为：map（C1，C2）=1.0；“Operation system”概念C3与“Software”概念C4的映射关系为：map（C3，C4）=0.5或一些其它值。假如一个映射操作返回的数值≥δ（阈值），则认为该映射是正确的。与本体概念间语义关系相关的数值由系统的设计者决定。例如，一个SP2P系统对于映射使用一致性表，赋给表中两概念之间关系的值将被申明，并用于以后的映射过程。

逻辑测量是在映射操作期间得出逻辑关系，也即两个概念间的关系是否满足其逻辑操作{≡，＼[，＼]，*，┷}中的一个。例如，“publication”与“book”间的逻辑关系为＼]。

以上两种方法可以改变，因此，逻辑关系可以转换为数值关系，反之亦然。

1.4 映射执行者

P2P系统设计者必须决定谁来实施映射，是发送结点，还是接收结点？也即查询转换发生在发送查询之前，还是发生在接收查询之后？这是非常重要的决定，它影响到查询路由。在某种程度上，查询结点先执行映射，再提交给语义相关的结点（如果映射的输出结果高于某一给定阈值），这种约束可以用作一种结束查询转发策略。若一个接收结点接收一个查询后再执行映射，也即对查询转发没有约束，任何一个查询将会发给任何其它结点，查询接收结点回答各种查询，或将它们转发到其它结点。

1.5 映射维护

不同本体之间的映射需要维护。这是因为映射随着本体的改变而过时。过时的映射会给整个系统带来失败的危险。因此，有必要进行以下处理：①语义映射维护；②映射失败检测；③容忍映射失败。映射维护用于阻止映射失败，需要进行失败检测以至于修复。容忍映射失败是必要的，目的在于降低因映射失败给系统带来的毁坏程度。

1.6 映射维护

在SP2P系统中，查询结果的正确性需要评估，当一个查询得到多个查询结果时，需要选择合适的查询结果。因此，在SP2P参考模型中，需要查询结果组件（qa）。换句话说，参考模型的查询结果组件qa=用于处理查询结果的两个重要方面，即：①查询答案评估（ae）；②查询结果选择（as）。查询结果评估策略是语义覆盖网络中适应性查询路由的重要方面，对需要连接的SP2P网络，需要采用正确结果评估函数。不正确的评估函数会阻碍语义相关的结点群集，基于有效应用，能够很好地在系统的性能与可靠性上取得一致。

查询结果评估的确定（qd）方式在SP2P系统中是一个重要的设计问题。结果确定可以手动或自动获得，在手动查询结果确定方式中，查询结果组件将结果呈现给用户，由系统用户决定其查询结果的正确与否；在自动查询结果确定方式中，系统结点有确定查询结果正确与否的能力。对于后者，系统设计者需要设计一系列的准则来增强对SP2P系统的控制，以有能力决定查询结果的正确与否。这种测量实例包括计算查询结果概念与查询概念间的语义关系。

结果选择as=，当一个查询从正确的转换序列中得到多个正确结果时，可定义一系列准则来选择其一。这包括答案的精确性（ap）、映射路径的长度（lp）以及结点的权重（w）。结点的权重指查询结点在参与产生结果的结点中的信任级别，用w表示。查询路径长度与精确性可直接由查询结果计算得到，结点的权重可通过对以前结点遇到的情形收集得到，或从结点的推荐信息中得到。

查询结果处理的另一个重要元素是结点对部分结果集成的能力。一些查询结果可能是部分结果，因此，需要结点具有对多个部分结果集成的能力，也即结点必须能合成所有部分结果并为用户和其它结点提供一个全都相同的结果。

查询结果可能直接或间接地传送到查询结点。直接的应答结果是哪些响应结点不经由中间结点而直接发给查询结点的查询应答结果；间接的应答结果是哪些经由查询映射路径而到达查询结点的查询应答结果。

查询结果的到达依赖于路由行为，也即查询结果路由返回到提出查询的结点，因此，查询结果的到达是路由组件的一部分。

2 模型适应性确认

为了表明模型的适应性，KEx、P2PSLN、Piazza以及Chaty Web系统体系结构被映射到此参考模型。表1说明，所描述的最新系统拥有模型的核心组件，然而，它们在组件属性與组件关系的实现上互不相同。

3 结语

本文构建了语义网络P2P参考模型的语义映射，解决了P2P定义域抽象与概念上表达的二义性与不兼容性。采取结点本体概念间的映射表达，用以发现概念间的关系、概念属性和性质，其结点使用同义词辞典创建其字典，构建映射表，实现映射，交换本体以翻译本体间的概念；采用数值测量与逻辑测量的方式实现了映射正确性测量，查询结点先执行映射，然后提交给语义相关的结点，用于结束查询转发的策略。最后，本文给出了P2PSLN系统所呈现的概念与关系，建立了一个通用技术框架，为各语义P2P系统间的比较提供了共同准则。

参考文献参考文献：

[1]GUO FANGFANG，HU YIBING，XIU LONGTING，et al.A hierarchical P2P model and a data fusion method for network security situation awareness system[J].Wuhan University Journal of Natural Sciences[J].2016，21（2）：126-132.

[2]刘衍珩，李松江，王爱民.P2P流媒体中动态分级传输模型及传输算法[J].吉林大学学报：工学版，2016，46（1）：259-264.

[3]吴鹏.P2P网络中的语义异构和语义映射[J].制造业自动化，2012，34（7）：101-103.

[4]T BERNERS-LEE，M FISCHETTI.Weaving the web：the original design and ultimate destiny of the world wide web by its inventor[M].New York：Collins publishing，2000.

[5]M PARASHAR，S MEMBER，J C BROWNS.Conceptual and implementation models for the grid[J].Proceedings of the IEEE Journal，2005，93（3）：653-668.

[6]K LASKEY，F MCCABE，J ESTEFAN，et al.Reference model for service oriented architecture[EB/OL].http：//docs.oasis-open.org/soa-rm/v1.0，2010.

（责任编辑：孙娟）