搜索引擎技术研究与发展

2011-06-14 02:29
科技传播 2011年10期
关键词:爬虫搜索引擎网页

燕 苗

石家庄计算机职业学院,河北 石家庄 050061

随着科技与时代的发展,Internet目前的用户已经遍及全球,有超过几亿人在使用Internet,并且它的用户数还在以等比级数上升。根据中国互联网络信息中心(CNNIC)最新发布的《第22次中国互联网络发展状况统计报告》。截至2008年6月底,我国网民数量达到2.53亿,网民规模量位居世界第一位,比去年同期增长了9100万人,同比增长了56.2%。中国网民中接入宽带比例为84.7%,宽带网民数已达到2.14亿人。

人们要在海量的网页中找到自己感兴趣的内容变得非常困难,据统计即使经常上网的用户能够记住的网站名称一般不超过十个。因此,人们越来越依赖于搜索引擎来查找各种信息。如何能够更有效、更准确地找到自己感兴趣的内容,关系到用户能否充分利用这个巨大的信息资源,这已经成为网络信息获取的热点问题。搜索引擎的出现在很大问题上解决了广大用户的这一问题。

1 搜索引擎技术的分类搜索

引擎的核心是文档索引与检索模型的建立,按照文本信息检索模型搜索引擎可分为:全文搜索引擎和目录搜索引擎。

1.1 全文搜索引擎

是真正的搜索引擎,全文检索系统是按照全文检索理论建立起来的用于提供全文检索服务的软件系统。全文搜索引擎是计算机索引程序通过从互联网上提取每个网站的信息,扫描文章中的每一个词,对每一个词建立一个索引建立索引数据库,当用户查询时通过检索查询与之匹配的相关记录,并将查找的结果反馈给用户的检索方式,因此他们是真正的搜索引擎。最常用的全文搜索引擎有百度、谷歌(Google)等。

1.2 目录搜索引擎

顾名思义就是将网站分门别类地存放在相应的目录中,因此用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找,目录搜索引擎虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按一定的分类规则或分类体系,对网站进行分类而已。对比全文搜索引擎来说,它们结构清晰、错误较少,比较符合人们的阅读习惯的优点,缺点是需要人工介入、维护量大、信息量少、信息更新不及时,不能适应Web资源的规模发展,另外如果查找的信息没有对应的分类项,则无法进行搜索。目录搜索引擎的代表是国内搜狐、新浪、网易等;还有非常著名的Yahoo。

此外,搜索引擎按主要技术来分类,又分以下几类:

1)目录式搜索引擎

目录式搜索引擎(Yahoo等)以人工方式搜集信息,由编辑员查看信息之后,以某种分类形式形成信息摘要,并将信息置于事先确定的分类框架中,按时间先后或这些方法的组合,组织WWW信息资源。

2)基于网络爬虫的搜索引擎

基于网络爬虫的搜索引擎(Google,Altavista,WebCrawler,Lycos等)又称索引式搜索引擎,是一种最常见的搜索引擎。网络爬虫是一种功能很强的自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。

爬虫首先会从若干初始的已知的URLs开始,获得网页的url,依次在Web上抓取这些网页并不断从当前页面抽取新的url,获取这些网页中的其他链接并将链接加入待爬URLs队列中,直到满足系统的一定停止条件,然后,索引器将相应信息存入本地索引数据库中。

3)元搜索引擎元搜索引擎

这类搜索引擎没有自己的数据,将现有的多个搜索引擎作为一个整体,为用户提供一个统一的查询界面,并将用户的查询请求同时向多个搜索引擎递交,最后元搜索引擎再把从各个搜索引擎返回的结果收集起来,重复排除、重新排序等处理后,作为自己的结果返回给用户将返回的结果进行,这类搜索引擎兼集多个搜索引擎的信息,并且加入新的排序和信息过滤,可以很好的提高用户满意度,它的优秀代表是万纬搜索引擎[6]、vivisino[7]等

4)分布式搜索引擎

分布式搜索引擎按区域、主题、IP地址或其它标准创建分布式索引服务器,索引服务器之间相互可以交换中间信息,且查询可以被重新定向。信息搜索机器人负责本区域内的信息搜索,并建立索引信息存入索引数据库。

2 搜索引擎的发展方向

网上的信息浩如烟海,网络资源以惊人的速度增长,一个搜索引擎很难收集全所有主题的网络信息,即使信息主题收集得比较全面,由于主题范围太宽,很难将各主题都做得精确而又专业,使得检索结果垃圾太多。这样以来,垂直搜索引擎(Vertical Seareh Engine)以其高度的目标化和专业化在各类搜索引擎中占据了一席之地。垂直搜索引擎,是针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。是搜索引擎的细分和延伸,也是对网页库中的某类专门的信息进行一次整合,其特点就是“专、精、深”,且具有行业色彩。它是与通用搜索引擎截然不同的引擎类型。垂直搜索引擎专注具体、深入的纵向服务,致力于某一特定领域内信息的全面和内容的深入,可以简单的说成是搜索引擎领域的行业化分工。

目前,国内外的搜索引擎的发展趋势是通用型搜索引擎向特色垂直搜索引擎转变。下面介绍一些较具有代表性的系统。

2.1 职脉网

职脉网是2006年初成立的网络招聘网站,是一家由知名风险投资机构投资的人力资源招聘服务公司,它融合了web2.0的概念,通过人才相互之间的推荐达到更有效的找到合适的人才。

2.2 www.foloda.com

房老大是一个专业的,提供纯粹的房源信息的搜索平台。该搜索引擎涉及二手房、租房、新房、别墅、写字楼、商铺以及厂房等七种不同的房源,涵盖100多个城市。

3 结论

搜索技术是一个比较复杂,难度比较大的科目,其中涉及到网页的搜索算法,倒排索引技术,中文分词技术,以及网页的排序算法等诸多问题。本文简单介绍了搜索引擎的分类,及通用搜索引擎的体系结构,在最后简单介绍了垂直搜索引擎的主要特点随着网络的发展,用户需求的不断增加,搜索引擎也将步入一个高速增长的时期。

[1]中国互联网络信息中心.第22次中国互联网络发展状况统计报告,2008,7:4-9.

[2]梁斌.走进搜索引擎.北京:电子工业出版社,2007.

猜你喜欢
爬虫搜索引擎网页
利用网络爬虫技术验证房地产灰犀牛之说
基于Python的网络爬虫和反爬虫技术研究
基于CSS的网页导航栏的设计
利用爬虫技术的Geo-Gnutel la VANET流量采集
基于URL和网页类型的网页信息采集研究
大数据环境下基于python的网络爬虫技术
网页制作在英语教学中的应用
网络搜索引擎亟待规范
Nutch搜索引擎在网络舆情管控中的应用
基于Nutch的医疗搜索引擎的研究与开发