崔金栋,张 宇,李欣欣
(1.东北电力大学经济管理学院,吉林 吉林 132012;2.大连热电工程设计有限公司,辽宁 大连 116021)
网格信息检索系统本质上是一个大型的信息系统,符合大型信息系统的一般规律[1]。大型信息系统通常十分复杂,很难直接对它进行分析设计,人们经常借助模型来设计分析系统。模型是现实世界中的某些事物的一种抽象表示。抽象的含义是抽取事物的本质特性,忽略事物的其他次要因素。因此,模型既反映事物的原型,又不等于该原型。模型是理解、分析、开发或改造事物原型的一种常用手段。
基于关键词的匹配技术由于天生的缺陷,带来包括返回信息过多或者误检等多种问题,这种返回信息过多或者误检在网格信息检索中带来的危害是巨大的。网格资源的繁多和异构是其它检索系统面临的环境所不能比拟的。为了提高检索的质量和效率,就得加强语义性,这是情报界人士的共识。人们通过本体技术和语义网格平台的结合,将给智能化信息检索提供新的实现方法[2]。本文基于这一点,利用本体技术构建了语义网格环境下的信息检索系统的模型,在一定程度上实现了用户检索要求与检索内容的高度匹配,进而提高了查全率和查准率。在模型构建过程中,除了本体技术之外融入了网格服务技术[3]和网格分布检索技术。
基于上述理论和技术,本文构建的网格信息检索系统在设计上由网格用户检索模块、网格信息本体构建和存储模块、网格本体匹配模块三个模块构建而成,如图1所示。
图1 基于本体的网格信息检索
在网格用户设计模块的设计中,由于网格分布式检索技术的融入,使其功能更加复杂。主要由以下四个部分组成。
网格用户检索界面是检索系统与用户人机交互的接口,是整个网格检索系统给网格信息检索用户的第一印象,其设计是否美观、是否实用都决定了系统友好性的好坏。
用户把检索任务提交后,如果任务量过大或者用户要求时间短暂,网格系统自动把检索任务分解,同时指派到其它的计算机上去执行。其实现的关键就是如何在短时间内选择出其他协同的计算机来,这些用来协同的一起去完成那个检索任务计算机称为资源机。目前其分解模式包括了静态和动态两种。静态模式是最简单的,分配任务前决定好那些计算机协同一起去完成检索任务。这种方式简单,却不怎么实用,原因就在于网格资源的动态性。比如确定了某个资源机参与检索,但是其有可能在中途突然关机怎么办。所以为了满足网格资源动态性的需求一般都采取动态分配的方法。具体做法是建立资源调度模型,传统的资源调度模型中利用把每个资源机看作一个节点,让用户机周期性地从各个节点中收集参数[4],然后将这些参数作为计算公式的因子。结合每个节点当前的权值,可以计算出新权值的大小。动态权值目的是要正确反映节点负载的状况,以预测节点将来可能的负载变化。通过用户机上负载公式的计算,可以在很短的周期可以更确切地反映各个节点的负载,用以选择负载较少、比较空闲的资源机,合理的调度资源。
要理解网格检索用户的真正需求,就必须了解其需求描述的本质。现在普遍的做法是利用语义解析技术来实现这一点。现有的语义解析模块中模式识别技术使用词汇预分析模型来描述概念,不依赖于任何语言。在本体匹配前抽取出相关的信息用来和网格本体用来匹配。
将网格信息系统检索的结果经过定制处理后,返回给用户。经过定制处理后的结果是用户面前呈现的结果经过了进一步的过滤,同时还可以采取用户参与的形式来进一步提高用户的满意度。
要使用本体技术,首先得建立网格本体,用网格本体去描述网格信息。目前在网格检索领域普遍采用的领域专家构建本体的做法。由于本体的构建多是面向特定领域,如果没有好的方法路线指导,就难以在不同领域本体的构建中保持一致,也不利于本体的规模化和规范建设。这实际上是网格信息检索中最重要的一部分。现有的网格本体的构建,是依据领域专家构建网格本体库。但是由于网格本体描述的网格本体具有分布性、异构性、动态性、自治性等特点,这种构建方法就等于把领域专家的意愿强加到网格资源上,而且这种方式的低效和主观性无视了网格本身的特点。
另外一个问题就是网格本体的存储。现在普遍采用的做法是可以把收集来的信息以OWL语言的形式存放到网格本体库中。OWL作为W3C推荐的目前最新的语义互联网中的本体语言描述标准,OWL的语法虽然以RDF/RDF(s)为基础,但其丰富的建模原语进一步扩充了其描述网格信息的表达能力[5]。OWL用来存储网格本体,通过自身形式化的描述本体语义,不仅可以进行简单的检索,而且可以根据语义进行逻辑推理。网格领域本体现多用OWL存储,但是网格服务本体却常使用基于OWL语言基础上添加网格服务属性而来的OWL-S语言进行描述。OWL-S语言具有良好的扩展性、形式化的语义表达能力和语义互操作性等优势,可以解决网格服务本体匹配的问题。OWL语言和OWL-S语言的出现,使网格信息被赋予明确的含义。实际上,在网格信息的组织中需要的就是使用本体描述语言对语义网格中的资源和服务映射而成的本体进行描述,这些网格本体进而形成网格信息的本体库。
同种类型的知识匹配是最为容易和最不易产生歧义的。因此,如何将用户检索条件和资源描述文件都表示成可以被机器所理解的形式化知识表示下的统一架构语义信息,本体技术的出现把用户检索条件与检索系统资源描述文件都已本体的形式描述出来,利用本体间匹配可以解决信息检索中语义匹配程度问题。检索系统通过严格的逻辑推理和演算来评判两者之间的匹配程度,将查询条件转化成的本体描述和资源描述文本转化的本体之间的相似度计算出来以后,按照相似度值将候选资源排序,选择排序靠前的结果提交给用户作为选择。
匹配的具体操作上,多采用网格本体匹配的算法来设计网格本体的检索系统,这些现有的网格检索系统多使用PQL(the Process Query Language)作为网格资源查询请求的具体实现语言,利用其发现网格检索需求和网格本体描述之间的联系。PQL查询语言的研究已在国外较为成熟[6],由于PQL是类SQL的OWL查询语言,因此,其自身丰富的操作符可以让我们容易地实现以往网格信息检索系统中所需网格本体的查询。利用PQL查询语句的功能,基于本体的网格检索系统能够快速而有效的在网格知识库映射而成的网格本体库中查找出用户所需要的本体。
三大模块构成了现有网格信息检索的主要功能模型。本体技术的应用,使构建了具有语义网格环境下信息检索模型成为可能,上述基于语义网格的信息检索系统的总体设计框架解决了网格平台上使用基于本体技术进行信息检索时需要解决的关键问题:如何构建与检索系统相关的本体,以及如何在检索系统中扩展用户的检索需求以理解用户真正的检索意图,如何在语义网格平台上把检索需求定位到合适的数据源中执行检索服务,从而在信息源数目多、信息量大、各局部信息源自治性很高、异构性强且局部信息经常动态变化的网格信息环境进一步提高查准率和查全率,使网格系统的用户更好地体会到语义网格提供的高性能服务。
[1]Paolucci,Kawamura,Payne,Sycara.Semantic Matching of Web Services Capabilities[J].Lecture Notes in Computer Science,2002(8):333-347.
[2]孙峥,孙瑞志,王剑秦.网格环境下基于本体的信息检索体系研究[J].计算机工程与设计,2009,30(23):5392-5394.
[3]Banino C,Beaumont O,Carter L,Ferrante J,Legrand A,Robert Y Scheduling strategies for master-slave tasking on heterogeneous processor platforms[C].OnParallel and Distributed Systems,2004(4):42 -48.
[4]崔金栋.一种基于多局域网的网格资源调度模型的研究[J].东北电力大学学报,2006,26(4):18-21.
[5]尚明申.网格计算中的任务调度模型研究[J].计算机工程,2006,32(2):7-9.
[6]都志辉.网格与Web服务的融合与发展—WSRF和WS-Notification[J].计算机科学,2008,32(2):76-79.