敬烜+鲁红英
摘要:判定链接锚文本与主题的相关度、评估链接的优先级并过滤不相关的链接是实现聚焦爬行的关键。通过判定链接所在页面是否主题相关、是否是導航页面划分链接的类别,结合链接锚文本与主题的相似度,提出了一种基于邻居规则分类算法评估链接优先级的聚焦爬虫。该爬虫包括一个主题相关网页判别器、一个导航网页判别器和一个基于邻居规则分类算法的链接优先级评估器。实验结果表明,基于邻居规则分类算法的聚焦爬虫比仅仅根据锚文本判定链接优先级的标准聚焦爬虫具有更好的性能,因此更加适合用于信息检索。
关键词:信息检索;聚焦爬虫;邻居规则;分类算法;链接优先级
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2017)14-0151-113
1概述
随着网络数据的不断增长,如何有效地发现、过滤、处理和利用这些数据成为了一个需要解决的问题。适合特定主题和个性化搜索的聚焦爬虫是一个有效的解决途径。聚集爬虫可被分作三类:经典聚焦爬虫,基于锚文本与主题词汇集的相似性,利用机器学习评估链接优先级;语义聚焦爬虫,分析页面与主题的语义相关性计算各链接下载优先级;在线增量自学习聚焦爬虫,采用可更新的分类器指定页面优先级,爬行过程中分类器可在线增强学习,从而提高分类准确性和爬行精度。本文提出了一种基于锚文本和网页类型的聚焦爬虫,相对于经典聚焦爬虫,本文爬虫考虑了链接所在页面是否是主题相关网页或导航网页,并以此评估链接优先级。
2聚焦爬虫模型
2.1确定链接属性
锚文本与主题间的相似度通过式(1)来确定。
2.2评估链接优先级
本文采用基于邻居规则的分类算法[1],根据链接与主题的相似度和链接的类别将链接分为0到5级,5级优先级最高,0级优先级最低,爬虫爬行过程中优先爬取优先级高的链接并舍弃0级链接。
本文爬虫通过有标注的训练样本D完成算法训练过程,得到特征属性集合S,在确定链接属性sim(q,p)和类别后,通过算法分类过程得到链接类别,即确定链接优先级。
2.3系统结构
根据上述原理建立的聚焦爬虫模型如图1。与通用web爬行器相比,图3增加了三个组件:链接优先级评估器、主题相关判定器和导航网页判定器。主题相关判定器和导航网页判定器用于确定抽取出来的链接类别,链接优先级评估器用于确定提供主题相关页面的可能性。
该系统运行过程如下:从种子链接开始爬取网页,判定下载下来的网页是否主题相关、是否是导航页面,并由此确定抽取出来的链接的类别;计算链接锚文本与主题的相似度;利用链接优先级评估器评估链接的优先级,舍弃其中0级的链接后放入到优先级队列中;爬虫不停地从优先级队列队首取得最高优先级链接进行爬取,爬取了指定数目的链接后终止。
3系统实现及实验
3.1系统实现
根据上述的系统模型,在windows系统下MyEclipse 2013实现了一个聚焦爬虫原型系统webcollector。主题相关判别器和导航页面判别器均使用朴素贝叶斯分类器,链接优先级评估器使用基于邻居规则分类算法的分类器,将链接分为0到5级。主题相关判别器的计算和训练采用页面特征文本,包含当前页面的标题、meta中keywords、description和tabs以及网页正文;导航页面判别器的计算和训练采用页面中所有链接的锚文本,包括相似度大于0的链接总数、链接相似度总和、平均链接相似度等。在计算主题相似度sim时,先进行分词并过滤中文中”。”、”,”、”的”等常用符号和停用词。系统实现参考了中国科学院计算所的汉语词法分析系统ICTCLAS和怀卡托大学的weka机器学习软件。
3.2实验
为了检验本文所用算法的有效性,将本文模型的某些功能去掉,分别形成标准通用爬虫模型和标准聚焦爬虫模型,然后比较3种模型。实验中爬虫的种子网页为新浪体育(http:∥sports.sina.com.cn)、网易体育(http:∥sports.163.com.cn)、搜狐体育(http:∥sports.sohu.com)。实验选择的评测指标为搜索到的主题相关页面的个数、访问链接数和搜索主题相关页面的回调率。实验平台为windows 10,CPU为IntelI5-5200U 2.19GHz,内存为8GB,实验主题为”足球”。用标准通用爬虫从上述种子网页爬取了495个页面,进行两次标记后分别作为主题相关判别器和导航网页判别器的训练数据。然后从中选取9个典型网页抽取出1131链接,进行标记后作为链接优先级评估器的训练数据。爬虫在爬行过程中记录访问的链接数、下载的页面数,以最终下载的最大相关页面数为1计算回调率。
3.3实验结果讨论
由图4可以看出,在爬取9500个页面的过程中,基于CRN分类算法的聚焦爬虫和标准聚焦爬虫都比通用网络爬虫具有更好的性能。另外可以看出,本文聚焦爬虫在下载页面抽取链接的过程中,由于采用了CRN分类算法识别更有可能指向主题相关页面的链接,爬行的主题相关页面数高于标准聚焦爬虫。由图5可以看出,基于CRN分类算法的聚焦爬虫能够比较稳定地爬取到主题相关页面。
4结束语
聚焦爬虫的研究,对个性化搜索引擎的应用和发展具有重要的意义。本文提出了一种基于邻居规则分类算法的聚焦爬虫,相对与标准聚焦爬虫,能更好地搜索主题相关网页。目前,链接优先级评估器只是采用离线训练数据,如果将下载下来的页面中的链接处理得到分类结果后反馈给链接优先级评估器,在线更新其训练数据,可以增强评估器的分类性能和准确性,这是下一步要做的工作。