周雅翠
〔摘 要〕随着科学研究的深入发展,人们对文献需求越来越广泛,对搜索引擎理论的研究正在朝着多元化、专业化方向发展。特别是新型文献载体的出现,开阔了搜索引擎理论研究的新视野。本文从搜索引擎的组成,搜索引擎的分类,如何识别搜索引擎的优劣,搜索引擎的未来发展动向等方面对搜索引擎技术做介绍。
〔关键词〕搜索引擎;发展;分类
〔中图分类号〕TP393.4 〔文献标识码〕A 〔文章编号〕1008-0821(2009)05-0020-03
Discussion on the Development of Search EngineZhou Yacui
(School of Computer Science and Engineering,Jilin Agricultural and Civil Engineering Institute,Changchun 130000,China)
〔Abstract〕With the development of scientific research,people have more requirements for literature,the study on search engine is more diversity and professional.The emergence of new literature carrier explored the new field for search engine study.This paper discussed the combination,classification and the development trend of search engine,expounded on how to recognize the good from the bad.
〔Keywords〕search engine;development;classification
1 搜索引擎的组成
一个搜索引擎是由搜索器、索引器、检索器和用户接口4个部分组成。
1.1 搜索器
搜索器的功能是在互联网中发现和搜集信息。它常常是一个计算机程序,需要昼夜不停地运行。它的任务就是收集各种信息,同时因为互联网上的信息更新很快,所以还要定期更新已经搜集过的旧信息。目前有两种搜集信息的策略:从一个起始URL集合开始,顺着这些URL中的超级链接(Hyperlink),以宽度优先、深度优先或启发式方式循环地在互联网中发现信息。这些起始URL可以是任意的URL,但常常是一些非常流行、包含很多链接的站点(如www.sina.com.cn)。将Web空间按照域名、IP地址或国家域名划分,每个搜索器负责一个子空间的遍历搜索。搜索器搜集的信息文件类型有许多种,包括HTML、XML、FTP文件、Word文档以及大量的视频及音频信息。搜索器的实现常常采用分布式、并行计算等技术,以提高信息发现和更新的速度。商业搜索引擎的信息发现可以达到每天几亿个网页。
1.2 索引器
索引器的功能是分析搜索器所搜索到的信息,从中抽取出索引项,用于建立表示文档以及生成文档库的索引表。索引项有客观索引项和内容索引项两种:客观项与文档的语意内容无关,如作者名、URL、更新时间、编码、长度、链接流行度(Link Popularity)等等;内容索引项是用来反映文档内容的,如关键词及其权重、短语、单字等等。内容索引项可以分为单索引项和多索引项(或称短语索引项)2种。单索引项对于英文来讲是英语单词,比较容易提取,因为单词之间有天然的分隔符(空格);对于中文等连续书写的语言,必须进行词语的切分。在搜索引擎中,一般要给单索引项赋与一个权值,以表示该索引项对文档的区分度,同时用来计算查询结果的相关度。使用的方法一般有统计法、信息论法和概率法。短语索引项的提取方法有统计法、概率法和语言学法。索引表一般使用某种形式的倒排表(Inversion List),即由索引项查找相应的文档。索引表也可能要记录索引项在文档中出现的位置,以便检索器计算索引项之间的相邻或接近关系(Proximity)。索引器可以使用集中式索引算法或分布式索引算法。当数据量很大时,必须实现即时索引(Instant Indexing),否则不能够跟上信息量急剧增加的速度。索引算法对索引器的性能(如大规模峰值查询时的响应速度)有很大的影响。一个搜索引擎的时效性在很大程度上取决于索引的质量。
1.3 检索器
检索器的功能是根据用户的查询在索引库中快速检索出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。检索器常用的信息检索模型有集合理论模型、代数模型、概率模型和混合模型4种。
1.4 用户接口
用户接口的作用是输入用户查询内容、显示查询结果、提供用户相关性反馈机制。是为方便用户使用计算机资源所建立的用户和计算机之间的联系。通常指软件接口,即在人机联系的硬设备接口基础上开发的软件。如建立和清除连接、发送和接收数据、发送中断信息、控制出错、生成状态报告表等。
2 搜索引擎的分类
按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三大类:
2.1 目录式搜索引擎
以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网站,提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。这类搜索引擎的代表是:MSN.com、Yahoo.com等,而国内最有名的目录式搜索引擎是hao123.com。
2.2 机器人搜索引擎
由一个称为蜘蛛(Spider)的机器人程序以某种策略自动地在互联网中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的查询输入检索索引库,并将查询结果返回给用户。服务方式是面向网页的全文检索服务。该类搜索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。这类搜索引擎的代表是:Google;国内代表为:百度等。
2.3 元搜索引擎
这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。服务方式为面向网页的全文检索。这类搜索引擎的优点是返回结果的信息量更大、更全,缺点是不能够充分使用所使用搜索引擎的功能,用户需要做更多的筛选。
3 如何判断搜索引擎的优劣
判定一个检索系统的优劣,主要从质量、费用和时间三方面来衡量。因此,对计算机网络信息检索的效果评价,也应该从这3个方面进行。质量标准主要通过查全率与查准率进行评价。费用标准即检索费用是指用户为检索课题所投入的运行费用。时间标准是指花费时间,包括检索准备时间、检索过程时间、获取文献时间等。查全率和查准率是判定检索效果的主要标准,而后两者相对来说要次要些。
查全率是指系统在进行某一检索时,检出的相关文献量与系统文献库中相关文献总量的比率,它反映该系统文献库中实有的相关文献量在多大程度上被检索出来。
查全率=[检出相关文献量/文献库内相关文献总量]100%。
查准率是指系统在进行某一检索时,检出的相关文献量与检出文献总量的比率,它反映每次从该系统文献库中实际检出的全部文献中有多少是相关的。
查准率=[检出相关文献量/检出文献总量]100%。
查全率与查准率是评价检索效果的两项重要指标,查全率和查准率与文献的存储与信息检索两个方面是直接相关的,也就是说,与系统的收录范围、索引语言、标引工作和检索工作等有着非常密切的关系。
3.1 影响查全率的因素
影响查全率的因素从文献存储来看,主要有:文献库收录文献不全;索引词汇缺乏控制和专指性;词表结构不完整;词间关系模糊或不正确;标引不详;标引前后不一致;标引人员遗漏了原文的重要概念或用词不当等。此外,从情报检索角度来看,主要有:检索策略过于简单;选词和进行逻辑组配不当;检索途径和方法太少;检索人员业务不熟练和缺乏耐心;检索系统不具备截词功能和反馈功能,检索时不能全面地描述检索要求等。
3.2 影响查准率的因素
影响查准率的因素主要有:索引词不能准确描述文献主题和检索要求;组配规则不严密;选词及词间关系不正确;标引过于详尽;组配错误;检索时所用检索词(或检索式)专指度不够,检索面宽于检索要求;检索系统不具备逻辑“非”功能和反馈功能;检索式中允许容纳的词数量有限;截词部位不当,检索式中使用逻辑“或”不当等等。
实际上,影响检索效果的因素是非常复杂的。根据相关专家所做的检索统计实验表明,查全率与查准率是呈互逆关系的。要想做到查全,势必会要对检索范围和限制逐步放宽,则结果是会把很多不相关的文献也带进来,影响了查准率。企图使查全率和查准率都同时提高,不是很容易的。强调一方面,忽视另一方面,也是不妥当的。应当根据具体课题的要求,合理调节查全率和查准率,保证检索效果。
4 搜索引擎的未来发展趋势
搜索引擎经过几年的发展和摸索,越来越贴近人们的需求,搜索引擎的技术也得到了很大的发展。搜索引擎的最新技术发展包括以下几个方面:
4.1 提高搜索引擎对用户检索提问的理解
为了提高搜索引擎对用户检索提问的理解,就必须有一个好的检索提问语言,为了克服关键词检索和目录查询的缺点,现在已经出现了自然语言智能答询。用户可以输入简单的疑问句,比如“how can kill virus of computer?”。搜索引擎在对提问进行结构和内容的分析之后,或直接给出提问的答案,或引导用户从几个可选择的问题中进行再选择。自然语言的优势在于,一是使网络交流更加人性化,二是使查询变得更加方便、直接、有效。就以上面的例子来讲,如果用关键词查询,多半人会用“virus”这个词来检索,结果中必然会包括各类病毒的介绍、病毒是怎样产生的等等许多无效信息,而用“how can kill virus of computer?”,搜索引擎会将怎样杀病毒的信息提供给用户,提高了检索效率。
4.2 对检索结果进行处理
4.2.1 基于链接评价的搜索引擎
基于链接评价的搜索引擎的优秀代表是Goggle,它独创的“链接评价体系”是基于这样一种认识,一个网页的重要性取决于它被其它网页链接的数量,特别是一些已经被认定是“重要”的网页的链接数量。这种评价体制与《科技引文索引》的思路非常相似,但是由于互联网是在一个商业化的环境中发展起来的,一个网站的被链接数量还与它的商业推广有着密切的联系,因此这种评价体制在某种程度上缺乏客观性。
4.2.2 基于访问大众性的搜索引擎
基于访问大众性的搜索引擎的代表是direct hit,它的基本理念是多数人选择访问的网站就是最重要的网站。根据以前成千上万的网络用户在检索结果中实际所挑选并访问的网站和他们在这些网站上花费的时间来统计确定有关网站的重要性排名,并以此来确定哪些网站最符合用户的检索要求。因此具有典型的趋众性特点。这种评价体制与基于链接评价的搜索引擎有着同样的缺点。
4.2.3 去掉检索结果中附加的多余信息
有调查指出,过多的附加信息加重了用户的信息负担,为了去掉这些过多的附加信息,可以采用用户定制、内容过滤等检索技术。
参考文献
[1]贾福新,郑红军.现代信息检索[M].北京:机械工业出版社,2005.
[2]徐宝文.搜索引擎与信息获取技术[M].北京:清华大学出版社,2003.
[3]王通.搜索引擎排名秘笈[M].北京:企业管理出版社,2004.