郭文俊,常桂然,乔世东
(1.山西大同大学数学与计算机科学学院,山西 大同 037009;2.东北大学计算中心,辽宁 沈阳 110004)
面向多Agent的引擎技术的研究
郭文俊1,常桂然2,乔世东1
(1.山西大同大学数学与计算机科学学院,山西 大同 037009;2.东北大学计算中心,辽宁 沈阳 110004)
长久以来,人类的发展离不开知识的获取与发现。进入互联网时代后,随着Web信息量的急剧增加,人们需要一种技术手段,能够使信息的获取更加简单、准确,搜索引擎就提供了这样一个导航工具。然而随着Internet的发展和信息搜索技术的不断完善,传统的搜索引擎已很难满足用户个性化的需求。因此在传统搜索引擎和Agent技术的基础上,笔者提出了一种用于Web信息搜索的基于多Agent的搜索引擎概念,它允许用户在特定领域进行搜索,能够有效的地提高搜索引擎的搜索质量。
搜索引擎;多Agent
互联网技术的迅速发展,导致了Web信息量的急剧增加,在如今的大数据时代下如何使信息的获取更加快捷、准确已经成了用户选用搜索产品的标准,而传统的模式如今却也难以满足用户对数据量的需求。故此笔者提出了一种面向多 Agent的搜索引擎,它允许用户在特定领域进行搜索并能够有效的地提高搜索引擎的搜索质量。
1.1 搜索引擎相关概述
搜索引擎[1-2]的基本概念源于内达华州计算服务中心开发的一个Gopher搜索工具Veronica,随后得到快速的发展。搜索引擎的出现改变了人们获取信息的方式,利用搜索引擎可以快速、准确地找到需要的信息。搜索引擎是指根据一定的策略搜集互联网上的信息并对信息进行组织和处理,最后将处理后的信息显示给用户并为用户提供检索服务的系统。
1.2 搜索引擎的类别
搜索引擎(Search Engine)主要包括全文搜索引擎、垂直搜索引擎、目录式搜索引擎和元搜索引擎这四类[3]。
(1) 全文搜索引擎是目前流行的大型搜索引擎普遍采用的形式。所谓全文,就是用户可以去搜索一篇文章的任何部分,不论是标题,还是正文,Google就是优秀的全文搜索引擎。
(2) 垂直搜索引擎区别于一般的搜索引擎,它是一种专注于特定领域的搜索引擎系统,主要应用于购物搜索(shopping search)、机票搜索(air search)、旅游搜索(tourism search)等。
(3) 目录式搜索引擎是将网站进行人工归类,并建立目录数据库,如果用户想要找到一个网站,那么就顺着该分类一直找下去,Yahoo就是目录式搜索引擎。
(4) 元搜索引擎是将用户发来的查询请求转发给各大搜索引擎网站,然后将它们的结果汇总并返回给用户。比较有代表性的是Vivisimo,InfoSpace等。
1.3 搜索引擎的工作原理
搜索引擎实际搜索的是预先整理好的且存储在索引数据库中的网页,而且搜索引擎也不能真正理解网页上的内容它只能机械的匹配网页上的文字。其基本的流程如图1所示。
图1 搜索引擎流程图Fig.1 Flow chart of Search Engine
用户输入及用户输入想要查询的信息,当然用户的输入方式也会影响到查询的结果和精度。
查询处理即当用户输入关键词后在索引数据库中搜索,搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页然后返还给用户。
预处理即是进行页面分类和建立索引数据库的过程。页面分类模块选用能够表达页面主题的词作为Web页面的关键词,并以此关键词对个页面进行分类。建立索引数据库是先从收集回来的网页中提取相关的网页信息,然后根据相关度算法计算该网页中页面文字及超链中每一个关键词的相关度,最后利用计算得的相关度信息建立网页索引数据库。
网页搜索即从互联网上抓取网页,利用能够从互联网上自动收集网页的Spider程序自动访问互联网。从搜索引擎的工作流程中可以看出,实现搜索引擎的关键在于如何有效地在网络上进行信息收集。搜索引擎的信息收集方式一般包括人工收集和自动收集两种。其中人工收集是由专门的人员跟踪和选择有用的Web站点和页面,并按规范方式进行分类、建立索引数据库;而自动收集则是通过信息收集程序自动完成信息的收集工作,也是目前最流行的一种收集方式。
2.1 多Agent引擎研究背景
随着 Internet的迅猛发展和广泛应用,网络上出现了“信息过载”的现象,大量信息涌向用户给人们的搜索行为带来极大的不便,怎样才能在浩瀚的信息资源中找到自己需要的内容,成了用户关心的问题。基于多 Agent的搜索引擎技术则能够按照用户的意图,从资源广泛的Internet中自动搜索必要的信息,然后呈现给用户。笔者的此次设计是在传统的搜索引擎中加入了 Agent机制,并在用户端形成了一个个性化层,通过用户和多 Agent之间的相互协作,智能地适应用户兴趣的变化和环境的变化。
2.2 Agent技术
Agent一词出现于20世纪70年代的人工智能中,是由麻省理工学院(Massachusetts Institute of Technology)的Minsky在《思维的社会》一书中提出的,他认为 Agent是一种实体,而且是一种存在于某一特定环境中的智能实体。该实体可以与环境中的其它实体进行某种协商从而得到问题的解。这些具有社会交互性和智能性的实体很快便被应用于计算机领域尤其是在基于网络的分布式系统中Agent表现出了明显的实效性。由于 Agent的多样性,很难为其定制一个统一的结构,下面仅给出一个适用于本系统的具有感知和交互功能的简单结构模型,其结构如图2所示,其中的API层将Agent与他的资源、技能的物理实现联系起来[4-5]。
2.3 多Agent引擎的主要模块
2.3.1 客户端多Agent模块的设计
客户端多Agent的主要作用是优化用户的兴趣模型,主要有三个部分组成[6-8]:用户兴趣分析Agent,兴趣处理Agent及搜索行为分析Agent。
(1) 用户兴趣分析Agent,用来分析用户的直接兴趣模型,在搜索引擎初始化时利用机器学习等人工智能技术,总结出用户的兴趣模型。
(2) 兴趣处理Agent,将用户行为分析Agent和用户兴趣分析Agent处理的结果提交给服务器。
(3) 搜索行为分析Agent,通过对被访问过的文档进行分析学习来猜测用户的需求,并推断其下一步可能的行为,采用启发式规则来判断用户对一个文档的兴趣程度。
2.3.2 服务器端智能Robot的设计
智能Robot[9]以一个或一组URL为浏览起点,对相应的WWW文档进行访问,Robot的结构[10-11]如图3所示。
图2 Agent的概念结构Fig.2 Conceptual structure of Agent
图3 智能Robot结构Fig.3 The framework of the Robot Based on Agent
文档访问Agent的功能比较简单,它从访问代理引擎那里接URL,通过HTTP协议去访问相应的WWW文档。
路径选择Agent负责提取WWW文档内的URL信息,以选择浏览的路径。
访问控制 Agent的主要功能是控制文档访问代理对WWW资源的访问,以防止造成服务器和网络的堵塞。
2.4 多Agent引擎结构
基于多Agent的搜索引擎系统由一个或更多检索服务代理组成,每个用户使用一个用户Agent和若干个索引访问 Agent[12-14]。它们是由多 Agent模块、页面分析处理Agent、智能Robot等几个部分组成。其基本的引擎设计结构如图4。
2.5 多Agent引擎的研究意义
将多 Agent技术引入到信息搜索领域,利用Agent本身具有的知识、目标及推理、决策、规划、控制等能力可以实现信息搜索的智能化,进而实现信息检索的高精度、高速度、低开销。搜索引擎是一个涉及到多个领域的复杂技术。一方面,它应用到一些已经成熟的技术,把它们按照搜索引擎系统的要求进行改进;另一方面,有许多搜索引擎自己特有的技术也在不断涌现,如超链分析、用户行为跟踪、用户行为分析等。
图4 基于多Agent的搜索引擎结构Fig.4 The framework of the Search Engine based on the Multi-Agent
为了验证系统模型设计的合理性,构造了实验仿真平台。实验硬件要求:Intel i3-4170 CPU,4GB内存;软件环境:Microsoft Windows XP操作系统,与原来的搜索策略相比较,用户在相同环境下进行搜索,会得到更多更接近自己兴趣目的搜索结果。用户对不同搜索策略的满意程度见图5所示。
图5 不同搜索策略满意程度比较Fig.5 Comparison of different search strategies satisfaction
本文描述了一个搜索引擎的解决方案,并提出了一个基于多 Agent的搜索引擎模型,详细地描述了这个模型的实现原理。该系统的设计目标是实现高性能的并行分布式处理,对其作相应的修改就可以用来解决类似的问题。在今后的工作中,我们将使搜索引擎中的 Agent能够根据比如访问代价、访问速度等因素来选择在Web上已经存在的各个检索服务的索引并能够自动调用信息检索代理[15-16],当然笔者将进一步改进这种模型使其更试用且更易于扩展。
[1]Miller M E.Intelligent information retrieval from the WWW [C].Canada Banff Centre: UM-999, 1999.
[2]Wooldridge M, Jennings N.R.Intelligent agents: Theory and practice[J].The Knowledge Engineering Review, 1995, 10(2): 115-152.
[3]Salton G, McGill M J.Introduction to Modern information Retrieval [M].New York: McGraw-Hill, 1983.
[4]阮卫华.搜索引擎优化技术的研究与实现[J].软件, 2014, 35(7): 72-77.Ruan W H.Research and implementation of search engine optimization technology[J].Software, 2014, 35(7): 72-77.(in Chinese)
[5]郑晓健.面向领域主题的智能搜索引擎设计[J].软件, 2014, 35(3): 4-5.Zheng X J.An Intelligent Search Engine Design for Topic Oriented[J].Software, 2014, 35(3): 4-5.(in Chinese)
[6]Ridge E.Curry E.A Roadmap of Nature-inspired Systems Research and Development[J].Multi-agent and Grid System, 2007, 3(1): 3-8.
[7]张功耀, 黄水松, 王小栋.基于多Agent的搜索引擎模型[J].计算机工程与设计, 2002, 23(10): 66-69.Zhang G Y, Huang S S, Wang X D.Search Engine Model Based on Multi-Agent[J].Computer Engineering and Design, 2002, 23(10): 66-69.(in Chinese)
[8]毛新军, 胡翠云, 孙跃坤, 王怀民.面向Agent程序设计的研究[J].软件学报, 2012, 23(11): 2885-2904.Mao X J, Hu C Y, Sun Y K, Wang H M.Research on Agent-Oriented Programming[J].Journal of Software, 2012, 23(11): 2885-2904.(in Chinese)
[9]Wooldridge, Nicholas R.Jennings.Intelligent Agents: Theory and Practice [J].Knowledge Engineering Review, 1995, 10(2): 115-152.
[10]刘晓婉, 胡燕祝, 艾新波.开源中文分词器在web搜索引擎中的应用[J].软件, 2013, 34(3): 80-83.Liu X W, Hu Y Z, Ai X B.The Application of Open Source Chinese Tokenize in Web Search Engine[J].Software, 2013, 34(3): 80-83.(in Chinese)
[11]胡晓敏.无线传感器网络Agent数据分流策略[J].新型工业化, 2013, 3(4): 103-112.HU X M.Agent Data Separation Strategy for Wireless Sensor Networks[J].The Journal of New Industrialization, 2013, 3(4): 103-112.(in Chinese)
[12]刘万辉, 杨晔.基于Android 系统的温室智能监控系统的设计开发[J].软件, 2013, 34(5): 1-3.Liu W H, Yang H.Design and Development of Intelligent Monitoring for Greenhouse Based on Android System[J].Software, 2013, 34(5): 1-3.(in Chinese)
[13]郑力明, 李晓冬.浅谈面向Agent 的软件工程[J].软件, 2014, 35(10): 51-53.Zheng L M, Li X D.Discussion on the Agent-Oriented Software Engineering[J].Software, 2014, 35(10): 51-53.(in Chinese)
[14]徐桓, 孙瑜.基于改进QPSO的单任务Agent联盟生成[J].软件, 2015, 36(2): 1-4.Xu H, Sun Y.Improved QPSO to Solve Single Task Agent Coalition[J].Software, 2015, 36(2): 1-4.(in Chinese)
[15]宋玲玲, 杨银刚.基于平行控制的异构多Agent机器人系统控制方法[J].软件, 2015, 36(3): 52-58.Song L L, Yang Y G.A Kind of Multi-Agent System Control Method Based on Parallel Control[J].Software, 2015, 36(3): 52-58.(in Chinese)
[16]黄启昭.基于Agent技术的物流管理信息系统设计研究[J].软件, 2013, 34(8): 34-35.Huang Q Z.Design of Logistics Management Information System Based on Agent Technology[J].Software, 2013, 34(8): 34-35.(in Chinese)
Research on Engine Technology Based on Multi-Agent
GUO Wen-jun1,CHANG Gui-ran2,QIAO Shi-dong1
(1.College of Mathematics and Computer Science, Shanxi Datong University, Datong 037009; 2.Computing Center, Northeastern University, Shenyang 110004)
All the time, human’s development is inseparable from the process of knowledge acquisition and discovery.After entering the Internet era, with the dramatic increase in Web information, people need a technique which can make the access to information more simply and accurately.Search engines provide such an effective navigation tool.However, with the continued development of the Internet and information.It is more difficult for search engines to keep an up-to-date and comprehensive search index.Therefore, this paper proposes the concept of intelligent search engines based on multi-Agent technology by the deeply studying of the traditional search engine and Agent technology.It can effectively improve the search engines’ search quality by allowing users to perform searches in a particular domain and providing customized features.
Search engines; Multi-Agent; Intelligence search
TP391.3
A
10.3969/j.issn.1003-6970.2017.03.028
郭文俊(1986-)男,汉族,山西大同,硕士,助教,研究方向为搜索引擎技术,人工智能;常桂然(1946-)男,东北大学教授,研究方向为信息安全。乔世东,男,山西大同大学数学系教授,研究方向为应用数学。
本文著录格式:郭文俊,常桂然,乔世东.面向多Agent的引擎技术的研究[J].软件,2017,38(3):136-139