赵 鑫
(九江学院机械与材料工程学院 江西 九江 332005)
随着计算机网络技术的不断发展和完善,传统语义web搜索引擎已经不能满足现代化信息搜索的需求,并日益突显出各种问题。例如:词汇搜索孤岛、语义表达差异、搜索匹配过于机械化等,给语义描述及信息搜索造成很大的影响。随着语义web智能化搜索引擎的研究和开发,智能化的搜索引擎将慢慢取代原有的语义搜索引擎,成为语义web新的搜索引擎技术[1]。智能化搜索引擎的出现,为用户提供了良好的信息检索平台、信息查询平台、信息浏览平台、信息描述平台等,优化信息搜索及浏览的模式,提高了信息搜索质量,对语义web搜索技术发展具有重要意义。
Web智能化搜索的挖掘技术主要分为三个部分,即web智能搜索结构挖掘、web智能搜索内容挖掘以及web智能搜索记录挖掘。(1)web智能搜索结构挖掘。主要是通过网页中的超级链接来获取智能搜索的结构及其之间的关系。利用隐藏在网页页面中的多个超级链接结构模型,并运用这些结构模型进行web页面的分类,即可找到其相同或者相似的网站地址。在网页超级链接结构中,可以web智能搜索结构挖掘来进行网页的分类,并结合所有网站及网页结构,最终形成网站之间或者网页之间的信息链接网。(2)web智能搜索内容挖掘。主要是通过web中的文档内容和语义描述来获取所需的知识信息,即对网页数据信息的挖掘,其中包括信息搜索结果的挖掘和网页内容的挖掘。(3)web智能搜索记录挖掘。主要是在计算机用户网页访问记录中获取所需的信息知识,即对web访问数据的挖掘。
传统语义web搜索引擎都是运用型号较大的服务器来进行运作,并按照计算机用户的请求来回应,但是其存在计算机用户接口单一的缺陷,不能实现定制性、个性化的信息搜索结果。传统语义web搜索引擎较为机械化,都是在计算机用户提出信息搜索要求,服务器才会回应用户要求,没有实现自动化信息搜索功能。而给予智能化搜索基础的Agent技术却能够解决这些问题。Agent主要对计算机网络环境进行灵活性运作方式,以满足用户对信息搜索的需求[2]。
(1)具有语义推理作用;(2)实现了问答式的搜索功能;(3)多样化搜索模式的形成;(4)具有查询条件灵活性特点。
首先,由计算机网络中的爬行机器人将知识信息从网络中采集出来,并将其存入语义web全文搜索引擎服务系统中。然后,按照文档特殊性提取工具对从网页收集回来的知识信息数据实行特殊性提取动作,被提取出来的知识信息可称为元数据。再者,由语义本体库应用意义推理系统对网络元数据进行语义上的推理,以加深对信息资源内容的了解,并获得语义扩展之后的特殊性数据信息。最后,对特殊性数据信息实行语义标识,并将其存入语义搜索库当中。
2.3.1 全文搜索方式
全文搜索是语义web智能化搜索最常用的一种方式,主要由计算机网络的分词系统、搜索系统、查找系统及爬行机器人等组合而成。计算机网络中的爬行机器人主要作用于网络网页信息采集服务器;计算机网络中的分词系统、搜索系统主要对采集回来的网页信息实行分词、标识,并存入搜索引擎资料库中;查找系统主要是为计算机用户提供良好的接口,并根据计算机用户输入的搜索条件来查找,通过搜索资料库来获取所需的信息,并对搜索结果实行排序算法,当信息结果排序结束后,即可反馈给计算机用户。
2.3.2 语义扩展搜索方式
语义扩展搜索方式的实现可以有效的解决计算机用户在语义搜索中出现的各种问题。例如:计算机用户在进行语义搜索时,可能会出现搜索概念较为模糊,无法对搜索关键词进行语义描述的现象,或者要用很多个词语来描述才能将这个概念表达清楚。语义web智能化搜索中的语义扩展搜索方式可以解决上述所说的问题,在本体基础上,自主的为计算机用户所提出的问词进行语义扩展,扩展的语义词汇要比传统搜索方式的准确度要高。语义扩展搜索实现方法主要有:其一,利用计算机特有的语言学理论知识来进行语义扩展搜索。其二,利用本体中的语义推理方式来进行语义扩展搜索[3]。其三,利用本体匹配算法来进行语义扩展搜索。扩展搜索运行方式:其一,利用本体语义推理的方法,使存在元数据库里的知识信息语义得到扩展,提高语义扩展搜索的效果。其二,优化计算机用户搜索条件,即对计算机用户提出的问词进行语义扩展和延伸,生成语义较高的搜索查找条件,并按照这个搜索条件进行查找,可以有效的提升语义搜索的准确率及查全率。
2.3.3 “问答式”搜索方式
按照计算机用户提出的问题,直接回应计算机用户所提出的问题,并提供相关的搜索结果。这种“问答式”的搜索方式,像是系统与人的沟通交流,当计算机提出所需问题时,系统马上进行回应。
语义推理系统设计及实现目的主要体现在两个方面:其一,运用语义推理系统来提高语义搜索的效率。其二,运用语义推理来实现搜索词汇的扩展及规范化,并通过语义推理方法挖掘出其所隐含的知识信息。
语义本体构建方式包括骨架法、TOVE法、lDEF-5方法、METH法及METHONTOLOGY法等。如TOVE法构建步骤为:(1)本体的激发;(2)非形式化的判断;(3)规范化的术语;(4)形式化定义;(5)形式化制约;(6)本体完备性。
语义分析功能主要是利用计算机用户提供的搜索词汇进行语义上的扩展和分析。语义分析功能主要包括两个部分:其一,在存在同义词词表的基础上,利用搜索词汇来进行同义词的匹配。其二,利用语义扩展出同义词的搜索词,并与本体信息库的本体实例和本体类别之间进行关联性的结合,再于搜索词汇基础上进行语义标识。最后可以获得相关的语义搜索词组。例如:输入“环保”的搜苏词组,并进行同义词的扩展查询:环保的等价词为环境保护、Environmental protection、EPD。
语义搜索功能主要是利用语义推理器及自定义的语义推理原则对信息库存在的知识进行语义推理,同时运用语义搜索查找中的SPARQL语言来进行语义搜索查找运作。
[1]张革伕,徐琪.基于语义Web服务的分布式服装搜索引擎系统设计[J].计算机应用,2009,23(06):67-68.
[2]王美霞.智能语义搜索引擎的探究[J].电脑知识与技术,2009,12(12):90-92.
[3]崔新会,何志强.浅析基于语义web的信息检索优化及实现[J].科技致富向导,2011,34(20):78-79.