主题网络爬虫研究综述

2024-05-18 06:48:48刘晓旭
电脑知识与技术 2024年8期
关键词:网络爬虫

刘晓旭

摘要:近年来,随着互联网技术的迅猛发展,互联网数据规模呈现出指数级增长的趋势。这些庞大的互联网数据在给人们生活带来便利的同时,也给信息的查找带来了巨大的挑战。传统的通用网络爬虫在面对越来越大规模的数据抓取工作时,逐渐显得力不从心。随着用户对网络信息个性化需求的不断增加,主题网络爬虫作为一种创新的解决方案应运而生。文章详细阐述了主题网络爬虫的定义及其工作原理,并系统梳理了近几年来主题网络爬虫在国内外的研究状况。同时,我们也指出了当前存在的问题,并提出了进一步研究的方向,以期为主题网络爬虫的发展和完善提供有益的参考。

关键词:网络爬虫;主题爬虫;搜索策略;链接分析;相关度计算

中图分类号:TP393        文献标识码:A

文章编号:1009-3044(2024)08-0097-03

开放科学(资源服务)标识码(OSID)

0 引言

21世纪以来,互联网科技进入高速发展时代,网络全面普及,人们开始广泛应用计算机、互联网及其他智能电子设备。在这样的背景下,互联网上的信息在数量和复杂性上都呈现指数级增长。为了从海量的信息中快速获取所需内容,信息检索工具应运而生,传统的搜索引擎如谷歌、雅虎等,成为用户获取网络信息的有效工具。然而,面对日益增长的非结构化数据以及越来越精确、定制化的用户需求,以通用爬虫为本质的传统搜索引擎已经无法满足用户的差异化需求。因此,以主题网络爬虫为核心的垂直搜索引擎应运而生。如何实现更精准、快速的信息抓取已成为爬虫领域的重要研究方向之一[1]。最近几年,大量关于网络主题爬虫的研究涌现,因此,这一领域近些年来的研究成果亟待进行总结。

本文旨在对主题网络爬虫进行综合论述,主要包括主题网络爬虫的定义及其工作原理、近年来国内外有关聚焦爬虫的研究状况、所面临的挑战与问题以及未来研究方向的展望。通过对这些方面的阐述,本文旨在为未来主题网络爬虫的研究提供有价值的参考依据。

1 主题网络爬虫的定义及工作原理

1.1 主题网络爬虫定义

网络爬虫是一种能够按照设计者要求,对目标网站进行自动化浏览并抓取目标信息的程序。通常在给定一个或多个初始URL的情况下,爬虫会从初始页面开始采集数据。在采集过程中,爬虫会自动识别网页中所有的URL,并将新的URL不断放入待爬队列,重复这一采集过程,直到达到系统设置的停止条件为止。

主题网络爬虫,又称为聚焦型网络爬虫,是一种能够按照预先定义好的爬行策略,对页面内容及爬行方向进行分析与筛选的爬虫。在给定初始URL种子集后,主题网络爬虫会根据一定的分析算法,对页面的主题相关程度以及每个URL与主题的潜在相似度程度进行相关分析,从而过滤掉与主题无关的页面,将与主题相关的URL放入待爬队列。当满足一定条件时,爬虫会停止工作。

1.2 主题网络爬虫工作原理

主题网络爬虫相较于通用爬虫,更专注于特定主题,因此能够更有效地针对特定主题进行信息抓取。它与通用网络爬虫的差异主要体现在以下几个方面:

1) 初始种子URL和抓取范围。主题网络爬虫需要明确定义初始种子URL,同时还需要设定明确的抓取范围,然后通过解析页面中的链接来递归地爬取更多页面以限制爬取的主题相关性。

2) 链接过滤和评估。主题网络爬虫在链接过滤方面相较于通用爬虫更为严格。它会自动分析页面相关度,仅保留与主题相关的链接,并根据主题相关度对链接进行优先级评估和排序。

3) 深度控制策略。主题网络爬虫需要实施爬取深度控制,通过限制爬取深度或设定停止条件,避免过度爬取与主题无关的页面[2]。主题网络爬虫工作流程如图1所示。

2 主题网络爬虫研究现状

2.1 国外研究现状

国外学者对于主题爬虫的研究开始于90年代,1994年,DeBra等人[3]首次提出Fish-Search算法。该算法采取二元分类来判断遇到的内容是否与主题相关,但在判断相关性时只有0和1两个离散值,导致结果过于离散化。Hersovici M等人[4]针对这一不足对算法进行修改然后提出Shark-Search算法。通过超链接中显示的可点击的文本内容价值以及父级节点与子级节点之间建立的超链接关系来评判主题相似度,将主题相似度计算结果扩大到[0,1]整个实数范围。1999年, Chakrabarti S等人[5]提出了主题網络爬虫的概念,其主要方向就是主题相似度计算和文本链接分析评价。

1996年Page L和Brin S[6]提出了PageRank算法。该算法通过分析网页之间的链接数量和质量来确定页面的重要性。网页的重要度由链接向这个网页的递归总和确定。但该算法不考虑页面的内容和主题相关性,容易出现“主题漂移”[7]。Kleinber J M[8]提出HITS算法,在页面连接关系的基础上,对连接结构改进的算法。通过Authority Scores和Hub Scores两个维度衡量页面的价值并分开考虑,然后得出综合评价。

2005 年,Shokouhi M等人[9]将遗传算法结合到主题爬虫程序中,利用遗传算法加强主题爬虫,使爬虫程序能够在众多爬行路线中找到最优解的同时,通过遗传操作对候选解优化,寻找到最优解从而丰富关键词集合来增加爬准率。2010 年,Hati D等人[10]提出改进的专注爬取方法,将网页划分为块处理,并通过一些策略来确定哪些块可能包含主题相关信息,使爬虫程序更有针对性地获取所需页面内容,限制或减少搜索范围来提高网页相关度的判断准确度。2014 年,Goyal D等人[11]将一种基于树形结构的机器学习算法与神经网络相结合,得到一种新型主题相关信息网页相关性预测模型,从Web地址、超链接中可点击文本、当前网页的上一级网页的角度分析,判断特定主题下的页面与给定查询内容的相关度。2015 年,AGRE G H等人[12]提出一种针对特定关键词或领域信息进行主动获取的主题网络爬虫算法,该算法分别从网页web地址和关键词两个角度来判断主题相关度,按照相关度进行高低排列,使爬虫程序优先爬取相关度较高的URL。Diligenti M等人[13]利用Contex Graphs构造分类器来指导爬虫爬行方向。用网页在语境图的层次来表示网页与主题网页的距离,距离越近的网页主题相关度越高,将优先被访问。Seyfi A等人[14]提出一种基于T-Graph原则的组合连接和内容模型的专注爬虫专用于采集特定主题相关页面,并通过T-Graph原则对爬取的网页web地址进行评分,以提升爬取性能。

2.2 国内研究现状

相比国外,国内研究开始得相对较晚,但发展速度很快,国内有诸多学者在传统算法的基础上进行优化,来提高主题网络爬虫的性能。

王锦阳[15]根据网页中的不同内容反映了不同信息这一特点,利用标题构建改标题节点的子树来判断网页主题相关度,由语义相似程度更改VSM对主题相关度进行判定,提高了网页主题相关度判别率和爬取信息的准确率。张丽[16]受机器人象棋启发完善了传统PageRank算法,得到N-step PageRank 算法,在计算Web相关度排名时也考虑了网页接下来更深度的链接内容,因此就会获得更多的相关信息来做出判断,在网页搜索准确度的有效性方面优于传统的PageRank算法。Yuan F等人[17]根据“主题随机浏览”的特点,在传递网页排名值的同时将主题之间的相关度一起送达,用以克服算法容易主题漂移的问题。张翔等人[18]在算法中加入时效权重并采用Bagging方法来解决主题漂移问题,准确率明显提高。

罗林波等人[19]将利用相似性引擎对主题相似度进行评分的Shark-Search算法和HITS算法相结合并应用于主题爬虫,弥补两个算法各自的不足,相比其中任意一种算法查找准确率都有提高。Peng Tao等人[20]认为网页中超链接包含的可点击的文本内容无法完全反映出网页主题内容,从而造成爬虫程序网页价值判断失误,降低爬取内容准确度。提出一种新的网页划分方法,将网页划分成若干块不会被遮挡的小区域,继而依据前后网页信息判断划分区域的相关度。熊忠阳等人[21]通过衡量在特征选择过程中一个特征对于分类任务的贡献程度的指标,提出一种基于信息论熵增的专注爬虫算法,采取一种能够信息分类的树状结构与主题关键词建立所有单词的TF-IDF权重所组成的向量,使得爬虫程序运行时除了抓取信息还可以学习已完成爬取的网页信息,持续更新特征项在向量中的权值,不断完善主题关键词信息库。

孙红光等人[22]针对主题词汇细化不足等问题,采用LDA基于语义相似度计算模型,设计了语义聚焦爬虫。该算法爬取的网页数量和主题相关度都高于其它算法。刘景发等人[23]结合潜狄利克雷分布和 Apriori 算法的领域本体半自动构建方法。基于链接评估的多目标优化模型和改进的多目标蚁群优化算法来指导爬取方向,结合历史爬行路线进行修正,分别使用SVM与PageRank算法对链接相关性评价,提出基于Wang-Landau抽样的主题爬行方法,爬准率与主题页面相关度的标准差具有明显优势。

3 研究中存在的问题及发展趋势

3.1 面临的挑战与问题

近年来,随着主题网络爬虫研究的日益深入,人们不断对主题网络爬虫的算法和爬行策略进行改良和完善,以适应日益复杂的网络环境和用户需求。然而,在某些方面仍存在一定问题,具体分以下几点:

主题网络爬虫在运行时需要计算网页的主题相关度,通常会使用文字识别来识别文字链接和网站的关键性内容。但其中包含了大量的重复无效内容,目前仍缺少准确高效的中文去重技术。

主题网络爬虫的搜索策略主要是对网页文本内容、链接结构进行价值评价。然而,爬虫程序对链接结构的价值评断方法存在主观性判断和认知不完善等问题,这影响了数据分析和挖掘的准确性。

网络爬虫主要通过网络链接来选择爬行路径,其中基于链接结构分析是主题网络爬虫应用中广泛使用的方法之一。但由于网站是动态变化的,且缺乏对已爬取网页的统计,这些与主题无关的网页信息以及链接往往会干扰爬虫程序的正常工作。

3.2 未来发展趋势

主题网络爬虫采用的是相对固定的搜索策略。然而,在面对互联网中不同网站之间网页组织形式差异较大的情况时,这样的策略无法准确判断网页结构对主题相关性的影响,导致准确率降低。因此,可以将数据挖掘与机器学习相结合,自动更新评价策略,以提高爬取速度和准确性。

随着网站质量的不断提升和Web地址规范化程度的提高,基于链接的主题网络爬虫需要更精确地判断链接与网页内容间的主题相关性。因此,在对爬取URL进行主题相关度预测时,可以采用主动学习的方法,利用人工智能通过用户的交互和反馈来主动选择要爬取的网页,并动态更新爬取策略。

4 结束语

主题网络爬虫已成为搜索引擎领域的重点研究方向之一。本文首先給出了主题网络爬虫的定义和基本工作原理,分析和梳理了国内外主题网络爬虫研究的发展现状,同时指出了目前存在的研究问题,并提出了未来进一步研究的方向。希望这些研究能够共同推动主题网络爬虫研究的健康发展。

参考文献:

[1] 郑文平.网络爬虫与爬虫对抗技术研究[J].电脑编程技巧与维护,2022(12):173-176.

[2] 单文远.分布式主题网络爬虫研究与设计[D].成都:电子科技大学,2020.

[3] DE BRA P M E,POST R D J.Information retrieval in the World-Wide Web:making client-based searching feasible[C]//Selected papers of the first conference on World-Wide Web.ACM,1994:183–192.

[4] HERSOVICI M,JACOVI M,MAAREK Y S,et al.The shark-search algorithm.An application:tailored Web site mapping[J].Computer Networks and ISDN Systems,1998,30(1/2/3/4/5/6/7):317-326.

[5] CHAKRABARTI S,VAN DEN BERG M,DOM B.Focused crawling:a new approach to topic-specific Web resource discovery[J].Computer Networks:the International Journal of Computer and Telecommunications Networking,1999,31(11/12/13/14/15/16):1623-1640.

[6] PAGE L, BRIN S, MOTWANI R. The pagerank citation ranking: Bring order to the web[R].Technical report,stanford University,1998.

[7] BRIN S. The PageRank citation ranking: bringing order to the web[J].Proceedings of ASIS,1998,98:161-172.

[8] KLEINBERG J M.Authoritative sources in a hyperlinked environment[J].Journal of the ACM,1999,46(5):604-632.

[9] SHOKOUHI M,CHUBAK P,RAEESY Z.Enhancing focused crawling with genetic algorithms[C]//International Conference on Information Technology:Coding and Computing (ITCC'05) - Volume II.Las Vegas,NV.IEEE,2005:503-508.

[10] HATI D,KUMAR A.Improved focused crawling approach for retrieving relevant pages based on block partitioning[C]//2010 2nd International Conference on Education Technology and Computer.Shanghai,China.IEEE,2010:V3-269-V3-273.

[11] GOYAL D,KALRA M.A novel prediction method of relevancy for focused crawling in topic specific search[C]//2014 International Conference on Signal Propagation and Computer Technology (ICSPCT 2014).Ajmer,India.IEEE,2014:257-262.

[12] AGRE G H,MAHAJAN N V.Keyword focused web crawler[C]//2015 2nd International Conference on Electronics and Communication Systems (ICECS).Coimbatore,India.IEEE,2015:1089-1092.

[13] DILIGENTI M, COETZEE F, LAWRENCE S, ET AL. Focused Crawling Using Context Graphs[C]//VLDB,2000:527-534.

[14] SEYFI A,PATEL A.A focused crawler combinatory link and content model based on T-Graph principles[J].Computer Standards & Interfaces,2016,43:1-11.

[15] 王錦阳.主题网络爬虫的并行化研究与设计[D].成都:西南石油大学,2017.

[16] 张丽.PageRank算法的改进[J].科学技术与工程,2007,7(5):673-677.

[17] YUAN F Y,YIN C X,LIU J.Improvement of PageRank for focused crawler[C]//Eighth ACIS International Conference on Software Engineering,Artificial Intelligence,Networking,and Parallel/Distributed Computing (SNPD 2007).Qingdao,China.IEEE,2007:797-802.

[18] 张翔,周明全,李智杰,等.基于PageRank与Bagging的主题爬虫研究[J].计算机工程与设计,2010,31(14):3309-3312.

[19] 罗林波,陈绮,吴清秀.基于Shark-Search和Hits算法的主题爬虫研究[J].计算机技术与发展,2010,20(11):76-79.

[20] PENG T,LIU L.Focused crawling enhanced by CBP–SLC[J].Knowledge-Based Systems,2013,51(1):15-26.

[21] 熊忠阳,史艳,张玉芳.基于信息增益的自适应主题爬行策略[J].计算机应用研究,2012,29(2):501-503.

[22] 孙红光,藏润强,姬传德,等.基于语义的聚焦爬虫算法研究[J].东北师大学报(自然科学版),2018,50(2):51-57.

[23] 刘景发,陈靖岚,赵鹏.基于Wang-Landau抽样的主题爬虫方法[J].电子科技大学学报,2023,52(4):578-587.

【通联编辑:代影】

猜你喜欢
网络爬虫
基于分布式的农业信息检索系统的设计与实现
微信平台下的教务信息获取和隐私保护方法研究
基于网络爬虫的电子易购软件设计与实现
计算机时代(2017年2期)2017-03-06 20:40:01
搜索引擎技术的发展现状与前景
炼铁厂铁量网页数据获取系统的设计与实现
基于社会网络分析的权威网页挖掘研究
主题搜索引擎中网络爬虫的实现研究
浅析如何应对网络爬虫流量
中国市场(2016年23期)2016-07-05 04:35:08
基于淘宝某商品销售量监控系统
网络爬虫针对“反爬”网站的爬取策略研究