摘要:今年是辛亥革命100周年,该文在普通爬虫的技术基础上以主题相关性为核心构建辛亥革命史主题爬虫,从而保证该主题爬虫所搜集网页与辛亥革命主题相关,返回用户所需,做构建辛亥革命主题搜索引擎的前期工作。
关键词:主题搜索引擎;主题爬虫;主题相关性;主题字典
中图分类号:TP393文献标识码:A文章编号:1009-3044(2011)13-3009-02
近年来,随着Internet的飞速发展,Web信息以爆炸的方式增长着,人们的身边围绕着各种各样的信息资源,但是这同时也给人们带来了难题,因为从大量类似的信息中获取自己想要的信息不是一件简单的事。搜索引擎技术的出现在很大程度上解决了这个问题,但如何满足用户对快速、准确的获取信息资源的要求,尤其是获取专业领域的信息,这是目前主流搜索引擎的尚未解决的问题。
在这种情况下,针对特定的专业领域提供搜索服务的主题搜索引擎逐步受到人们的青睐。相比传统的搜索引擎,主题搜索引擎只覆盖与特定主题相关的Web区域,这样它搜索的内容可以更深,搜索的周期可以更短。主题搜索引擎的针对性强和专业化的特点使它成为计算机科学界和信息产业界争相研究、开发的对象,国内外专家学者们纷纷对主题搜索引擎的关键技术和实现方案进行了广泛的探索和研究。彭涛在他的博士学位论文中提出了基于链接上下文关系的自适应性主题爬行方法,利用改进的原始微粒群优化算法对网页分类器进行优化组合提高网页分类的精确度,并提出来了增量式索引结构[1]。张岭在他的博士论文里提出了智能WEB信息评价,资源价值标定、分布式图结构索引等WEB数据挖掘的模型,将智能挖掘算法有机的结合到主题搜索引擎中[2]。同时在国外,Rui Chen,Bipin C.Desai,Cong Zhou提出了基于多层检测模型的CINDI聚焦爬虫,最大限度的考虑了WEB页面特征来发现相关主题网页[3]。P.Srinivasan,F.Menczer,G.Pant提出了主题爬虫的主题相关度综合评价框架[4]。
本文的研究问题是在传统爬虫基础上,构造辛亥革命主题词典,利用基于链接内容分析的主题相关度预测方法的爬取策略,构造辛亥革命主题搜索引擎的爬虫模块,为广大历史学家和历史爱好者提供精准的信息服务。
1 研究基础
1.1 构建基于动态主题库的主题词典
1) URL信息
有过网页制作经历的人都知道,在URL中加入提示页面的文字都或多或少是相关主题的信息,来区别其他主题的页面。如历史:history;体育:sports、pingpong、basketball;因此在URL地址中有可能含有与页面主题相关的信息。比如:http://www.ccnu.edu.cn则表示这是一个教育