罗晗骞 石月鑫
(中国农业大学 北京市 100083)
随着Internet 网络技术的飞速发展,Internet 已成为人们日常生活中不可或缺的一部分。网络是信息公开和传播的主要途径,它拥有一个分布着数亿个页面的信息空间,倍增速度从130d 增加到200d。Internet 上的信息非常广泛,涉及面极广,很难快速找到所需的信息。因此,我们研究和开发了各种搜索工具,以帮助人们快速、轻松地找到所需要的内容。搜索引擎使用特定的策略来收集、发现、提取和处理Internet 上的信息,为用户提供搜索服务。他们在信息探索中发挥着极其重要的作用,产生了深远的影响。伴随着社会生产力的不断发展,社会信息的需求量越来越大,这也导致信息也会越来越丰富且复杂,因此在线搜索技术,就是所谓的搜索引擎会持续发展。
1.1.1 目录搜索引擎
目录搜索引擎的主要功能是手动或半自动收集相关信息,例如“Yahoo!”。当发布者访问网站时,需要创建信息摘要,然后根据网站的内容和网站上的信息将其分类为预设类别,描述和URL包含在此类别中。当用户需要查询特定的关键字时,搜索软件将搜索先前保存的描述。一些目录还接受用户提交的注释。发布者批准此描述后,会将其分类为相关类别,以供其他用户参考。该搜索引擎的优势是可靠的导航质量和高精度,其缺点是过多的人工干预、维护和维修成本以及无法及时更新信息。
1.1.2 基于机器人的搜索引擎
这种搜索引擎,最明显的功能特征就是内部嵌入了一个机器人程序,例如“Google”。这个程序在具体的使用之前,可以提前规划一些相对比较好的、满意的、优化程度比较高的特定的策略,然后进行网络上的信息搜索和收集。其可用于收集信息的索引系统,其是建立于信息上的相对应的索引,并且将查询界面的用户在查询的引索中进行对应的数据库的搜索的系统。这种搜索引擎最重要的功能之一就是可以定期访问收集的网页并更新索引以删除不必要的链接。Web 内容的更改也将出现在用户查询结果中。该搜索引擎的优点是能及时更新,无需人工干预和全面的信息条件;缺点是可能会返回更多无用的信息,用户必须仔细过滤其搜索结果。
1.1.3 元搜索引擎
顾名思义,元搜索引擎是一种多元搜索引擎,可以进行多个层面的引擎的搜索。此类搜索引擎在网页上没有可以用来储存信息的专门的数据库,所以当用户查询资料时,如果采用的是关键词进行搜索,它会将用户所需要查询的内容进行一定程度上的转化,让关键词能够变成引擎搜索范围内的内容,然后进行呈现。因此,通过集成多个搜索引擎创建的元搜索引擎具有比传统引擎更广泛的范围,更好的搜索效果和可伸缩性的优点;缺点是存在某些限制,搜索引擎的功能不能被完全使用。
搜索引擎的工作方式是:机器人程序可以从各种Internet 收集尽可能多的网页,并根据每个页面的文本内容在Internet 上创建逆索引网络。当用户提出有关感兴趣主题的问题时,他们输入主题关键字作为查询条件,搜索引擎将使用预建网页库和单词索引来查找正确的网页并将其返回给用户。搜索引擎通常分为三部分,分别为信息搜集系统、索引系统、查询界面。
1.2.1 信息收集系统
机器人程序可以自动完成信息收集系统,其会在互联网上搜索并尽快收集新信息。因为互联网上有很多信息,且更新速度非常快。为了确保搜索引擎中信息的完整性和及时性,该机器人程序必须具有理想的搜索策略和较高的搜索效率。当前有两种主要的信息收集策略:
(1)从一组起始URL 开始。这些URL 中的超链接后面的信息可以在Internet 上广泛找到。这些初始URL 可以是任何URL,但它们通常是包含许多链接的流行性网站(例如“Yahoo!”)。
(2)Webspace 按域名、IP 地址或国家(地区)域名划分,每个搜索引擎负责详细的子空间搜索。
1.2.2 索引系统
收集信息之后,机器人程序将分析索引系统程序收集分析的网页,并从网页中搜索相关信息(网页URL、编码类型、创建时间、所有页面中包含的关键字及位置、链接与其他网页之间的关系等),并使用特定的相关算法来获取和使用页面文本和超链接的每个页面上每个关键字的相关性(或重要性),这需要大量的计算。这个工作需要创建Web 索引数据库信息。搜索引擎的有效性在很大程度上取决于索引的质量。
1.2.3 查询界面
当用户需要查询内容的时候,用户会先进行需求提交。在提交之后,搜索引擎就会开始工作,将接收到的用户的请求和数据库的内容进行详细的比对,根据一定的相关性的指标,将比对的结果进行重新排序,按照关联性的程度高低从高到底的排列,并将排列的结果反馈给用户。这样就可以实现用户搜索信息更加便捷、高效的目的。如此一来,查询系统和人机交互就会实现和人类的思维习惯完美的匹配。从关键字研究到知识水平、单词放置技能、翻译技能、短语识别和其他信息,我们可以改善信息搜索,了解并处理相关知识。使搜索引擎的服务更加人性化和智能化。
随着Internet 的快速发展,Internet 上的信息数量呈指数增长。互联网的问题已经从“提供信息”变为“如何从广阔的信息海洋中提取有用的信息资源”。现有的搜索引擎具有不必要信息的过多返回、较差的搜索效率、信息混乱等缺点。1950年以来,人工智能(AI)技术已经能够指导互联网用户,为搜索和导航提供直接支持,并为功能性智能代理提供幕后支持,人工智能在互联网上扮演着越来越重要的角色。
2.1.1 人工智能技术
现在的大量搜索引擎,都使用了具有人工智能特性的技术机器人,其目的是从Internet 获得信息资源。它主要通过一种设计好的超文本链接进行搜索内容的浏览和观察,然后再通过一种叫做URL的技术在HTML 的文档窗格进行引用。常规步骤如下:
(1)提取有效信息;
(2)将有效信息放入目标数据库当中去;
(3)从目标文档中提取其他的URL 文档,并进行URL 的添加;
(4)重复上述步骤(3),直到不再出现新的目标文档为止;
(5)向索引数据库添加查询界面,并发布给在线用户;
在人工智能搜索策略中,算法通常使用两种基本策略:第一个是深度,第二个是宽度。宽度策略允许首先抓取当前页面上的所有URL,因此它可以包含尽可能多的页面。深度优先的策略可创建更好的文档布局,并使查找文档结构(即最多的交叉引用)更加容易。两种算法都会分析网页的内容,并确定其是否与用户的搜索字词匹配,以搜索用户所需的网页。它的不足之处在于缺乏进一步分析检索到的网页的能力,并且练习通常很耗时,且信息中有很多冗余和噪音。因此,为了提高搜索效率,我们使用启发式搜索策略来收集网页。换句话说,机器人通过启发式学习采用最有效的搜索策略,并选择最佳时间来获取收集的信息。
2.1.2 启发式搜索算法
常见的启发式搜索算法有两种:
(1)加权启发式搜索算法:这种算法通过使用加权启发式搜索算法来对目标的信息资源进行一定程度的控制和收集。该系统基于用户配置的以域为中心的单词,并且处于资源服务器所在的位置。对于地理空间信息而言,我们使用启发式函数来计算每个URL 的权重,然后可以选择权重相对最高的URL 首先访问。
(2)使用相关性和用户兴趣作为评估功能的启发式搜索算法:这种算法是通过对于系统维护的超链接队列,根据评估函数的值从最低到最高排序,然后选择最小的队列。评估函数值的超链接将用作下一个要扩展的节点。
最近几年的人工智能研究历程中,我们得到了一项快速发展的新人工智能的成果——智能代理技术。它可以通过一些特定的领域模型来搜集特定的信息,达到对用户进行精准投送的目标,进而使得用户接受到的信息都是对用户有用的信息,这样一来,也开始表示着人工智能进入一个终身学习的时代里,并且可以动态的、变化的、选择性的给用户提供有用的信息,进一步提高了服务质量。
2.2.1 智能代理的优点
(1)智能指的就是通过超级大的知识储备和超级严密的逻辑推理能力,分析自身内部所需要的某种需求,并且依据这些猜测用户想要的任务意图,同时还具有自动更新学习、提高知识储备量的的能力。凭借丰富的知识和特定的推理能力,可以分析自己的需求,猜测用户完成更复杂任务的意图,并不断体验不断学习以提高处理问题的能力。
(2)代理。顾名思义,智能代理是通过智能的算法对用户的需求进行代替的处理和执行,并将处理的结果个执行的结果通过一种通道反馈给用户本身。
(3)主动性。它可以提前通知用户,并根据用户需求和环境变化提供服务。
(4)合作性。它可以通过各种通信协议与其他智能代理交换信息,并且可以相互协作完成复杂的任务。
2.2.2 客户端智能代理和服务器端智能代理
(1)客户端智能代理技术主要基于智能搜索代理技术,结合搜索引擎的“主题”搜索模式,密切关注有需求的个人,完善与用户需求相关的信息和系统,通过协议传输信息。信息交换可以提取更多信息,以弥补智能代理信息搜索范围的局限性。
(2)服务器端智能代理引入了用户反馈机制,以改善恢复机制,提高恢复命中率,并为个人提供特殊的恢复服务。这样一来就可以将用户的查询的历史进行详细的记录,再将这些信息与之前别的用户的搜寻进行比对,这样可以使得新的用户在搜索的内容上会更加准确,质量上也会更加具有优质性的特点。同时其还设置了用户评分界面,来收集用户对搜索的结果的满意程度,将结果再次反作用于下一次的搜索过程当作,实现不断优化和精准内容呈现的功能。
2.3.1 基于关键字搜索的搜索技术
搜索技术的关键就是要保证使用的搜索引擎在执行搜索任务的时候,搜索的结果是否能够满足用户的实际需求。但是这种技术难度实在是太大了,因为关键词的数量实在是一个极为庞大的数据库,很难实现关键词的全部覆盖,这就必然会导致关键搜索不到的内容,进而给用户体验感带来不良的影响,更严重的情况是可能会引起不必要的误会。
2.3.2 自然语言查询
在搜索引擎的研究过程中,我们发现需要一种良好的查询语言才能更好地理解来自搜索引擎的用户查询请求。可以用一种叫做自然语言处理的概念和技术来应对人工智能所匹配的自然语言的查询,进而可以克服因为关键字太多、太庞大导致查询不能一一对应的缺点和不足之处。把信息检索从点对面的查询改变为面对面的知识层面进行检索,这样一来,可以提高一些特定的内容的识别和处理能力。并且这样,还可以达到知识面分割成为知识点的技能,将大的知识库分解成为小的知识库的技能。如此一来,会使得搜索更加的具有人性化的特点。知识搜索可以使用语义分析结果执行概念级别的知识库搜索,并为用户所提出的问题提供最准确,最相关的搜索结果。
本文介绍了搜索引擎并简要分析了搜索引擎的工作原理,以及如何将人工智能应用于搜索引擎。但是,在人工智能技术的研究上我们仍然缺乏经验,有较大的改进空间。因此,Internet 上的信息组织目前看起来仍令人困惑,信息介质也多种多样,难以理解。随着全球经济信息化的不断发展,互联网已经成为世界上最大的信息存储和主要信息发布媒介,并且大量的信息内容被分散。探究人工智能技术在搜索引擎中的应用可以让大量的资源为人类的发展和社会的进步发挥作用,具有良好的科研前景。