基于改进VIPS算法的主题退火爬虫技术

2021-11-17 07:20黄锦敬黄锦焕陈瑞志
计算机仿真 2021年8期
关键词:爬虫特征向量网页

黄锦敬,黄锦焕,陈瑞志

(广东海洋大学寸金学院,广东 湛江 524094)

1 引言

信息化技术的不断发展,使网民人数呈现大规模增长,带动了网页数量的迅速增长。面对网民与网页的爆炸式增长趋势,保障人们在海量信息中快速获取需求信息成为一项巨大的挑战[1]。在网络中,网民通常通过在地址栏内输入访问网址直接浏览网页内容。在地址栏内输入访问网址,直接浏览能够节约用户的时间,使其迅速进入想要访问的网页。然而,网页数量的不断增长,用户仅了解有限的网址,且网址不容易记忆,使用户仅能查找有限的信息资源。利用搜索引擎进行检索也是一种很常用方式,通过提交用户感兴趣的字词获取可访问的网页[2]。随着时代的不断发展,搜索引擎无法满足用户复杂的需求,促使垂直搜索引擎应运而生。垂直搜索引擎主要负责实现专业信息服务,由检索、数据整合、爬虫等模块构成,其性能好坏会对垂直搜索引擎的实际服务质量造成直接影响[3]。因此,对主题退火爬虫技术进行深入研究。

文献[4]提出一种基于灰狼算法的主题爬虫技术。该技术主要针对爬虫在全局中最优解的问题,通过确定主题爬虫的准确率和召回率,通过将灰狼算法相结合,对其最优解进行搜索,将优化后的爬虫技术与现有方法相比,体现了该技术的优势性能。该方法通过灰狼算法优化后的爬虫技术可获取最优解,但由于未过多考虑其它干扰因素,容易导致最优解为局部最优解,存在一定局限性。文献[5]提出基于多目标蚁群算法的主题爬虫策略方法。该方法针对爬虫技术陷入局部最优解的问题进行研究,首先通过确定主题爬虫领域的本体和主题向量,确定锚文本的相似程度,并分析各链接之间的关系,构建多目标优化模型,引入蚁群算法,通过非支配排序和候选解,完成其全局最优解的搜索。该方法爬虫准确度较高,但抓取的网页信息的相关度欠佳,仍需要进一步的改进。

基于上述方法中存在的问题,设计了一种新的主题退火爬虫技术。该技术引入改进的VIPS算法,并通过处理后设计主题退火爬虫的结构,执行抓取任务时状态和网页信息进行获取。与传统方法相比,所提技术在爬虫覆盖率以及主题漂移率得到了一定改进,具有一定优势。

2 视觉块提取及主题判别

2.1 改进VIPS算法的视觉块提取

为了实现主题退火爬虫技术,采用改进VIPS算法[6]对视觉块进行提取,将网页内对应的视觉块进行确定。

基于改进VIPS算法设计的视觉块提取规则为:当一个节点不会再被切分,则对该节点进行提取,并对其进行DoC 值赋予[7],将其在视觉块集合内保存。其具体提取规则为:

1)如果当前节点的有效子节点仅有一个,并且其子节点不属于文本节点,则对其进行分割。

2)如果当前节点的全部子节点均为虚拟文本节点或文本节点,不对该节点进行分割。当全部子节点的font-weight和font-size相同,则对该视觉块进行设置,将DoC 值设为10;如果当全部子节点的font-weight和font-size不同,将DoC 值设为9。

3)如果当前节点背景颜色和子节点内的某个背景颜色不相同,那么对其进行分割。如果全部子节点背景颜色均不相同,并且在本次迭代时无法对其进行分割,则根据尺寸和标签的不同将其DoC 值设置为6到8之间。

4)如果当前节点为

标签,并且存在有效的多个文本子节点,对其进行分割。

5)如果当前节点为