摘要:分析了当前通用搜索引擎的原理和体系结构,研究了通用搜索引擎在应用于校园网信息检索时无法完整准确的不足之处以及校园Web信息的特点,总结了校园网搜索引擎应该具有特性以及建设的必要性。
关键词:校园内网搜索 搜索引擎
中图分类号:TN915 文献标识码:A 文章编号:1672-3791(2012)01(b)-0013-02
随着我校的不断发展,学校越来越重视数字化校园的建设,并迅速步入了信息化高速发展的阶段。随着学校校园网的不断完善,这就要求给广大师生提供一个良好的信息化教学、科研和管理平台。目前,校园网资源正变得日益丰富,如何更全面、更准确地获取最新、最有效的信息已经成为我们把握机遇、迎接挑战和获取成功的重要条件。通用搜索引擎如百度、谷歌(google)虽然都提供了大学搜索的服务来实现对部分高校校园网范围内的网页搜索,但是其存在一些问题,如更新周期过长,对校园内网信息无能为力等,因此,设计高校信息资源的专业搜索引擎,对于高校信息资源的共享以及提高信息资源的利用率就显得非常有必要。
1 通用搜索引擎的体系结构及现状分析
在互联网发展初期,网站相对较少,信息查找比较容易。然而伴随互联网爆炸性的发展,普通网络用户想找到所需的资料简直如同大海捞针,这时为满足大众信息检索需求的专业搜索网站便应运而生了。
1.1 搜索引擎的体系结构
搜索引擎技术是由信息检索IR(Information Retrieval)技术发展而来,是IR技术在Web上的扩展,信息检索技术研究信息的表示、存储、组织和查询。现代意义上的全文搜索引擎是指以一定的策略搜集互联网上的信息,在对信息进行组织和处理后,为用户提供检索服务的系统。它具备三大特点:事先下载信息,对信息进行事先组织,实时进行检索。搜索引擎也是信息检索(Information Retrieval)这门学科的典型应用。搜索引擎主要由搜索器、索引器、检索器和用户接口四部分组成,其体系结构如图1所示。
1.2 通用搜索引擎的发展现状
目前按照信息搜集方法和工作方式的不同,搜索引擎系统分为三大类。
(1)目录式搜索引擎:以人工方式进行主体归纳和分类,由人工形成信息摘要,并将信息归类于事先确定的分类目录中。信息大多面向网站,提供目录浏览服务和直接检索服务,用户可将查询限定在某一目录范围下进行。该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入、信息不全面、信息更新不及时。这类搜索引擎的代表是:早期的Yahoo、Magellan等。
(2)机器人搜索引擎:是面向网页的全文检索服务。由一个称为爬虫(spider)的机器程序以深度优先(或广度优先)策略自动地在Internet中搜集信息,将搜集到的信息存入数据库并由索引器为其建立索引,由检索器根据用户的查询请求检索索引库,将相对应的查询结果返回给用户。该类搜索引擎的优点是不需人工干预、信息量大、更新及时,缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。这类搜索引擎的代表是Google、Baidu等。
(3)元搜索引擎:元搜索引擎不对Web进行遍历分析,也没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交,然后将各搜索引擎返回的结果进行合并、去重,重新排序统一处理后,返回给用户。这类搜索引擎的优点是能够在短时间内提供相对全面和准确的信息,缺点是不能够充分使用所使用搜索引擎的功能,用户需要做更多的筛选。这类索引擎的代表是MetaCrawler、InfoMarket等。
2 校园内网搜索引擎构建的必要性分析
校园网可以看作以学校为单位的内联网(intranet),它与互联网(internet)是同质的。但是由于应用环境、网站构建以及链接结构方面的不同,对搜索引擎来说,校园网与公用互联网有着多方面的区别。对于校园网的搜索引擎而言,其目标是关注校园网信息的所有用户,校园网搜索引擎的目的是尽可能的收集本校园网的信息,区别与通用的搜索引擎要搜索整个互联网的目的,校园网搜索引擎需要做到对信息收集的“小而全”。而且校园网搜索引擎应该做到易于开发,部署简单,实现成本低。在功能需求上,无论是在校的师生还是想了解校园信息的其他人员可以通过校园网WWW服务器进行信息的检索,从而迅速的通过网络得到校内各部门提供的各种信息。
2.1 校园网Web信息的特点
随着校园网建设的迅速发展、信息化管理时代的到来以及共享网络信息资源的快速增长,校园网内的信息正在以惊人的速度增加着。截止目前,我校网络中心存储的信息量至少在200G左右,这还不包括分散在各个校区各个学院的信息量。虽然校园网有如此之多的好处,但是,网上资源分布在校园网的各个角落里,用户无法及时准确的找到自己需要的信息,这使得校园网上的资源被孤立了起来,全校师生在茫茫网海中迅速定位有价值的信息变得比较困难。
构建校园内网搜索引擎的必要性分析。
(1)通用搜索引擎信息量大,信息更新缓慢,采用竞价排名机制。
(2)对于校园内网的某些信息无法检索。
(3)随着学校的不断发展,学校越来越重视信息化建设,校园网信息量的急速增长,也使得全校师生迅速获取到有价值的信息越来越困难。
2.2 校园网搜索引擎的特性
(1)网站集中校园网网站一般集中在一个或几个IP地址段内,网站之间的链接稀疏,由于分射由不同机构和个人进行维护和管理,有些网站很难从其它网站的链接到达;网站的重要性与网站规模不成正比,例如新闻和论坛类网站的网页数量多并且链接较密,而教学和管理部门的网站则相反。
(2)信息二义性少校园网网站中的信息,基本上是描述本学校的内容,对于某些特殊的词语,不像在互联网上,有其自己的语境,不会出现二义性。
(3)异构文本格式的网页比例高互联网上常见的网页通常有静态网页(文件后缀为