基于本体的信息关联搜索

2017-07-16 20:31李春杨明顾婷婷
中国新通信 2017年11期
关键词:本体搜索引擎

李春+杨明+顾婷婷

【摘要】 互联网的资源具备复杂性,资料的数量非常巨大,使用这些杂乱的数据需要进行数据分拣,选出具有应用价值的信息,搜索引擎能够完成这一功能。搜索引擎指的是用户用来搜索关联信息的工具,搜索引擎能够利用搜索关联策略搜集整理信息,需求的信息在经过重新的汇总、整理后,提供给用户的检索服务可以达成信息导航功能。搜索引擎的成功运作可以提供极大的便利,帮助人们高效的获取网络资源信息。当前针对用户或其他本体的新型搜索引擎能够带来的更高效的检索服务已经成为了信息检索领域的研究重点。基于本体建立搜索引擎模型,并就这一模型进行分析研究,总结出搜索引擎的语义非常重要,这种搜索引擎具备的内涵,可以在用户的操作历史记录上推理得来,这种推理出的数据对于提供更友好的用户体验非常重要,也能够进一步的改善用户查询准确性。目前的搜索引擎尚不能够提供成熟的服务,基于本体的搜索引擎也存在很多问题,仍需要加以探索,提供更专业、准确的搜索服务将会是搜索引擎的发展方向。

【关键词】 本体 信息关联 搜索引擎

前言

互联网技术随着时代与科技的发展已经日益成熟,并且逐渐的融入了我们的日常生活,成为了重要工具。互联网的资源非常丰富,网络上的信息掺杂在一起,在使用时需要甄选出具有应用价值的信息,为满足这一需求,各大编程工程人员研发设计出了多种搜索引擎。

搜索引擎指的是用户用来搜索关联信息的工具,搜索引擎能够利用搜索关联策略搜集整理信息,需求的信息在经过重新的汇总、整理后,提供给用户的检索服务可以达成信息导航功能。搜索引擎的成功运作可以提供极大的便利,帮助人们高效的获取网络资源信息。

目前网络信息发展速度极快,信息的膨胀化发展具备多元化的新特性。传统的搜索引擎愈发的难以满足目前信息的搜索需求,使用者常常会需求多条类似的信息,这种批量的信息需求让操作者只能在大量重复繁琐的信息库中逐个查找。当前的搜索引擎不仅需要提供用户需求的准确、有用信息,能够快速整理出分类细致、准确、全面、具备时效性的搜索列表就显得非常重要,这就需要基于本体的信息关联搜索,这种基于本体的搜索强化了针对某一主体信息的相关收录及更新,减少了搜索中涉及的大量无用信息,查询搜索的效率极高。这样就改善优化了相似的其他检索工具在信息检索上的功能,具有先进的优势。

目前的搜索引擎多采用的语法层级搜索,搜索匹配大多是机械性的检索。而本体相关的信息关联搜索,可以针对使用者搜索的关键词展开语义分析并加以处理,这样进行的搜索操作就具有了一定的智能性,运行得出的结果不管是查准率还是覆盖面都非常优秀。

搜索引擎究其功能仍是作为网络信息的检索查询工具,具备策略性,并就策略在互联网中检索、搜集信息,整理组织信息,为用户提供所需的信息资源。随着互联网的发展,搜索引擎也不断的进化着。

一、搜索引擎的发展

1.1 Archie——原始搜索引擎

在1990年,加拿大蒙特利尔McGill University的学生AlanEmtage等人发明了这一搜索引擎,在那时,万维网仍未出现,Archie仍旧是基于互联网的FTP网站文件自动索引程序,严格来讲还不是真正意义的搜索引擎,十一个可以提供搜索功能的文件名列表,操作者在这一流标中录入精准的文件全程才能够搜索出结果,结果通常是FTP下载地址。

1.2 World Wide Web Wanderer——首个网络机器人

这是世界上第一个Spider程序,之所以被称为Spider程序的起因在于专用信息检索的Robot程序在运作时,会像Spider(蜘蛛)一样在字节网络之间爬动,所以对于搜索引擎所使用的Robot程序,往往都被称之为Spider程序。World Wide Web Wanderer是1993年MIT的Matthew Gary编写的,能够在互联网中追踪发展规模,起初这一程序是用来整理汇总互联网中的服务器数量的,慢慢的衍生出了捕獲网址的功能(url)。

1.3 Yahoo——目录型搜索引擎

随着互联网的发展逐渐成熟,时至1994年,斯坦福大学的两名博士生:杨致远(美籍华人)与David Filo联合创立了Yahoo。并且在Yahoo投入使用后访问量及收录链接量飞速上涨,Yahoo的不断成长,进化出了目录基础上的简单数据检索功能。介于手工输入的数据,Yahoo仍旧不能够作为成熟的搜索引擎,仅仅是基于网络的可搜索目录,但在当时Yahoo已经能够展现出优异、高效的搜索效率,在之后的发展中,Yahoo使用了AltaVista、Inktomi、Google等搜索引擎服务。

1.4 Metacrawler——第一个元搜索引擎

元搜索引擎一般都不具备自身的数据,这种搜索引擎是借助多个搜索引擎运作的,能够将用户录入的搜索请求递交到其他搜索引擎上,其他搜索引擎回复结果再经过元搜索引擎的二次处理后能够将自身提供的结果返到用户受众,这种搜索引擎能够联合多引擎的搜索数据,并进行重组排序过滤掉无用的信息,搜索结果具备更好的客户满意度。

二、搜索引擎的分类

搜索引擎主要的划分一局基于信息搜集方式与提供的服务形式。

2.1目录式搜索引擎

目录式的搜索引擎是最为原始的一种搜索引擎,主要的代表当属Yahoo,目前我国的Sohu也是相同类型的搜索引擎。这种目录式搜索引擎运作的原理在于对网络信息进行主题分类,将整体划分为主要的几个大类,然后再将大类进行细分,最后就生成了具备浏览功能的多等级主题检索形式的搜索引擎,常规情况下的的搜索引擎大多是五至六层结构,多的可以达到十几层。

目录式的搜索引擎检索信息主要是人工操作的,编目员来甄别挑选并进行分类处理。因为目录式的搜索引擎在对信息进行分类及汇总信息时,主要是依靠人来进行的。这种搜索准确度比较高,但运作效率很慢,这就难以做到实时高效的监控网络信息,所能够提供的查询全面性也极低,大多是作为网站层级搜索用引擎。

2.2机器人搜索引擎

这种搜索引擎多是基于某策略基礎上,能够智能的自动搜索网络中的有用信息,索引器能够汇总所有检索出的信息并对此建立索引,检索器可以利用用户的录入信息生成索引项,检索器在此基础上基于用户的查询,进入检索索引库中搜索,然后生成直接的查询结果并将信息返还用户,为实现这种操作就不得不建立复杂的搜索引擎,但是这种信息检索具备全面的覆盖性,信息的更新效率也很高,这一搜索引擎的代表主要是Google与Baidu等,此类机器人搜索引擎的开发并投入运行代表了搜索引擎的时代性变革,也是信息检索挖掘技术的革新。

2.3元搜索引擎

元搜索引擎一般都不具备自身的数据,这种搜索引擎是借助多个搜索引擎运作的,能够将用户录入的搜索请求递交到其他搜索引擎上,其他搜索引擎回复结果再经过元搜索引擎的二次处理后能够将自身提供的结果返到用户受众,这种搜索引擎能够联合多引擎的搜索数据,并进行重组排序过滤掉无用的信息,搜索结果具备更好的客户满意度,比较成功的搜索引擎代表主要是万维搜索引擎与Vivisino等。

2.4客户端搜索引擎

联通Web网络的客户机中的搜索引擎能够提供客户端搜索引擎的运作平台,建立在已知文档之上检索万维网上的文档资料,并且将有用资料发送出,文档中存有的多条超文本连接能够连接到更多的相关文档中,最终达成文本要求,这种以客户端为基础的搜索引擎能够省去第三方检索,这就一定程度的优化了用户截面。因为这种搜索是针对用户设计的,搜索具备时效性,搜索出的资料都是最新的,但搜索速度很满,网络承担的负载以及服务器负载较大。

2.5分布式搜索引擎

分布式搜索引擎主要是在区域及主体等标准之上进行索引的服务器,各服务器会互相交流信息,查询过程存在往复的功能。一但某构成元素检索服务器不能够达成查询检索需求,便会转发搜索请求到具备对应数据的检索服务器中,多个分布数据库在通过分布式的搜索引擎之下,能够一定程度的所见数据库,搜索引擎能够涉及的内容并未随着减小,反而更全面且减少了信息的重复率,这也是分布式搜索引擎的优点之一,但多个数据库的协作运行在实现过程中存在难度,当前仍没有真正意义上的分布式搜索引擎。

三、搜索引擎的本体论

3.1概念

随着互联网技术的发展,对于计算机功能的需求也在丰富着。各具特色的计算机技术也演变的非常快,这种飞速的发展效率让相关研发机构面对着诸多的困难。信息知识的表达以及组织、软件复用等困难非常显著。因为互联网的发展非常快,大量的信息数据在组织管理及后期维护方面变得日益迫切。本体论最早起源于西方哲学史,最早是追问万物本愿的学问,最早是一种哲学术语。

3.2搜索引擎本体论的构成

Ontology在计算机科学领域的发展在朝着智能化的方向发展着,本体逐渐成为了针对某领域的描述,这一描述是基于继承关系组织成的知识库框架。Ontology能够在计算机上进行操作处理,能够体现共同认可的相关知识,针对的对象主要是整体,Ontology所捕获的领域具有相关性。在构件搜索引擎本体的时候需要借助多重工具,选取最适工具能够方便本体的构建。Apollo、LinkFactory、Ontoligua、WebODE等工具有具有不同的特性。

四、基于本体的搜索引擎系统

基于本体的搜索引擎系统需要将针对专题的网页文件进行甄选,选择恰当的储存到对应的网页文件哭,然后利用网页文件库中存储的文件,进行倒排索引操作生成索引文件。最后使用者能够在查询接口上提交查询请求,搜索引擎系统在用户的录入数据上在此进行分词,对本体的资料库中概念进行匹配处理,索引文件库中搜索出的相关结论回复到使用者手中。系统需要达成以下要求:

(1)保证满足需求的查全率;

(2)保证满足需求的查准率;

(3)保证性能(主要保证查询速度与内存之间的要求);

(4)保证系统的功能性;

(5)具备可移植性;

(6)功能的分类模块化;

(7)保证参数配置;

(8)友好、个性化的查询界面(针对用户体验)。

互联网的数据信息在迅猛增长的背后存在着海量的信息资源,为了解决多关键词的重复及其他错误产生服务上的偏差,并将检索质量进一步提高。需要借助本体技术来改善这一问题,本体技术的应用能够形成概念层次结构,帮助推理。借助推理展开检索条件,将用户的需求利用智能程序解决,最终检索出用户需求的信息资料。对比在关联数据基础上得出的信息检索,本体表达的语义关系更强,信息检索系统能够借助本体系统具备更高的智能程度,其结构上也更准确,能够适应用户的切实需求。

采用本体技术加以应用则需要创建用户模型,这就用到了元数据。元数据能够抽象的表达用户知识背景、兴趣、情感、社会关系等方方面面。这些将实际情况总结出的用户信息,在展开语义标注的时候强化了用户本体。所有相关的用户本体都是整体模型的独立实例,体现的知识结构也存在特异性。用户的历史访问资源能够提供用户的知识结构等数据,用户本体能够动态的更新。领域知识本体的相关概念、实例也需要投入用户本体的使用中,在进行检索操作的时候用户特征可以用来匹配搜索结论,最终提供给用户符合其自身情况的学习资源。

而用户本体具有更新行为,用户的兴趣及情感都会随着多重影响因素产生变化,这就需要系统能够适时的做出改变,这样才能够迎合用户需求。及时的利用历史记录来查询出搜索引擎用户本体产生的变化,能够帮助搜索引擎改善用户体验,所以用户本体的更新需要及时进行,并且不能够忽略细节。用户的实际操作记录一般都会岁用户的使用时长产生波动,理想上的与用户使用系统进行同步更新是不能够实现的,而用户在使用时会产生大量的操作数据,对这大量的操作数据进行操作产生的工作量十分大,短时间内是不能够达成的。为求实现这一目标,通过离线更新、在线更新两种形式的结合作用,可以通过在线更新解决实时影响较小且数据量较少的操作;面对其他整理计算工作量更大的的更新操作,则需要通过离线更新来解决。

这种在用户本体元基础上建立的數据模型,可以详细的表达出用户的背景知识以及算法等多个方面。用户的社交各级关系上的算法,以及用户在情感取向相关的判定也具有知道效果,通过对用户的兴趣展开识别处理能够适时的动态更新用户模型,这就从根本强化了这一用户模型的准确性、全面性,为建立基于本体的信息关联搜索引擎建立稳固基础。

五、总结

互联网的发展速度非常快,身为相关行业的研究人员、工作人员应当紧随技术与需求的演变。常规的搜索引擎难以适应整体大环境的需求,当前针对用户或其他本体的新型搜索引擎能够带来的更高效的检索服务已经成为了信息检索领域的研究重点。基于本体建立搜索引擎模型,并就这一模型进行分析研究,总结出搜索引擎的语义非常重要,这种搜索引擎具备的内涵,可以在用户的操作历史记录上推理得来,这种推理出的数据对于提供更友好的用户体验非常重要,也能够进一步的改善用户查询准确性。当前基于本体的搜索引擎尚未成熟,仍需要加以探索,力求提供更专业、准确的搜索服务。

参 考 文 献

[1]陆幸福. 论搜索引擎服务商在提供链接过程中的权利与义务——基于霍菲尔德权利理论的一种分析[J]. 法学评论,2013,04:3-11.

[2]黎邦群. 基于搜索引擎与用户体验优化的OPAC研究[J]. 中国图书馆学报,2013,04:120-129.

[3]李忆,袁志会,袁梓翔. 搜索引擎优化技术对网站友好性影响的实证研究[J]. 情报杂志,2014,09:173-180.

[4]朝乐门,张勇,邢春晓. 面向跨领域海量信息资源的元搜索引擎研究[J]. 中国图书馆学报,2011,02:19-29.

[5]马少平,刘奕群,刘健,张敏,祝建华,茹立云. 中文搜索引擎用户行为的演化分析[J]. 中文信息学报,2011,06:90-97.

[6]王知津,潘颖. 中文搜索引擎商业模式比较:以百度和谷歌为例[J]. 图书馆工作与研究,2012,11:4-11.

[7]马费成,望俊成,吴克文,邱璇. 国外搜索引擎检索效能研究述评[J]. 中国图书馆学报,2009,04:72-79.

[8]陈远,成全,钟晓星. 基于搜索引擎的关键词广告及策略[J]. 情报理论与实践,2005,02:169-172.

[9]黄知义,周宁. 几类搜索引擎的原理剖析、比较研究及发展趋势探讨[J]. 图书馆学研究,2005,03:61-64+67.

[10]赵金海,赵西安. 国外网络搜索引擎优秀资源现状述评——搜索引擎网站、论坛、新闻和学术会议资源[J]. 现代情报,2008,01:218-220+223.

[11]倪德强. 基于本体的软件构件描述与检索[J].指挥信息系统与技术,2010,04:24—28

猜你喜欢
本体搜索引擎
水果连连看
Chrome 99 Canary恢复可移除预置搜索引擎选项
眼睛是“本体”
世界表情符号日
一种采暖散热器的散热管安装改进结构
一种新型水平移动式折叠手术床
网络搜索引擎
Care about the virtue moral education
基于Lucene搜索引擎的研究
搜索引擎,不止有百度与谷歌