网络爬虫在Web信息搜索与数据挖掘中应用

2019-05-08 03:01周海山

科学与技术 2019年19期

周海山

摘要：随着计算机网络技术的发展，计算机通讯、计算机原理等这些内容已经逐渐被人们深知，关于网络爬虫的概念人们也逐渐的理解，并且不断的探索网络爬虫在信息检索与数据挖掘中的应用。本文主要从网络爬虫的概念和分类进行概述，并且分析和探讨了网络爬虫在信息检索和数据挖掘中的应用，最后对于未来网络的发展进行了展望。

关键词：网络爬虫;信息检索;数据挖掘

由于计算机技术的发展，现在的网络资源类型也十分的丰富，并且所含的数据和信息也是特别的多，基本上可以满足人们目前的需要，但是如何快速的对这些信息和数据进行分类，这就需要拥有很强的数据处理能力，人们对于获取数据，处理数据是非常关心的。网络爬虫可以非常容易的获取到我们需要的一些信息，方便人们对于数据的搜索、整理和利用，使我们日常信息获取的高效工具。

一、网络爬虫的概念与类型

以前人们经常取名为网络蜘蛛的，其实就是网络爬虫，这是按照一定的规则在人们自动浏览网站时获取信息的程序或者脚本，曾经被广泛应用于互联网的搜索引擎中，一般在各种网页中会有许多的链接，网络爬虫正是从这些链接中不断的获取其他界面上的信息，那么网络爬虫在进行数据采集时就是像一个爬虫在网络上漫游，所以才被形象的称之为网络爬虫。根据不同的分工，网络爬虫有不同的分类，就像社会上有各种职业的分工一样，大型的爬虫系统，内部也是有不同的分工的，这将爬虫分为新网页爬虫和定期网络爬虫，新网页爬虫是专门负责寻找没有被采集过的一些新网页;定期爬虫是负责采集那些更新比较快，并且内容比较多的网站，然后把这些网页的网址进行保存，定期的去进行采集，查看网页中内容是否有更新。但是根据不同的应用和系统的结构以及实现技术，又把网络爬虫分为增量式网络爬虫、聚焦网络爬虫、深层网络爬虫、和通用网络爬虫。增量式网络爬虫指的是在更新的时候只更新改变的地方，而没有改变的地方则不更新，所以网络爬虫仅仅采集内容发生变化的网页或者新产生的网页;聚焦网络爬虫是按照预先定义好的主题有选择地惊醒网页爬取，采集目标那些与主题相关的页面，使用网络爬虫大大节省采集数据所需的带宽和服务器资源，适用于特定人群;深层网络爬虫是需要调教一定的关键词之后才能获取的页面;通用网络爬虫主要应用在大型的搜索引擎中，一般采集的目标是全网的资源，目标的数据比较庞大。

二、网络爬虫在web信息检索中和数据挖掘中的应用

1.网络爬虫在web信息检索中的应用

网络爬虫在网页信息检索中的应用主要是将爬虫分为三种模块实现的：网页采集模块，索引模块和搜索模块。这里的采集模块实际上包含两个部分。第一个部分是单纯网页采集模块，它负责搜索网页，是整个系统的关键部分，这将直接影响数据采集的效果。第二个是信息分析和过滤模块，它负责将网页中的信息进行自动归类，然后根据解析提取出网页的主要数据，包括标题、节选、发布时间、链接地址等，将所有的噪音信息剔除，最后將提取出的信息展示给用户。索引模块是为HTML 页面来创建索引。在下载的过程中，不可避免地会遇到重复的链接，如何消除这些重复的链接，是个很复杂的问题。URL 的去重可以说是爬虫系统中最重要的一部分，直接影响数据搜索和采集的效率和效果，索引模块主要就是为了去除重复链接的。搜索模块则是系统与用户交互的模块，系统根据用户输入的查询语句，负责在数据库和索引文件上搜索出相应数据并按照一定的排序反馈给用户。网络爬虫的设计流程中，核心部分是获得网页中的 URL列表、创建下载的客户端、获取并存储得到的网页结果。

2.网络爬虫在数据挖掘中的应用

互联网是实时变化的，具有很强的动态性。网页更新策略主要是决定何时更新之前已经下载过的页面。常见的更新策略有以下三种：1）历史参考策略：根据页面以往的历史更新数据，预测该页面未来何时会发生变化。一般来说，是通过泊松过程进行建模进行预测。2）用户体验策略：尽管搜索引擎针对于某个查询条件能够返回数量巨大的结果，但是用户往往只关注前几页结果。因此，抓取系统可以优先更新那些现实在查询结果前几页中的网页，而后再更新那些后面的网页。这种更新策略也是需要用到历史信息的。用户体验策略保留网页的多个历史版本，并且根据过去每次内容变化对搜索质量的影响，得出一个平均值，用这个值作为决定何时重新抓取的依据。3）聚类抽样策略：之前两种更新策略都需要网页的历史信息。这样会有两个问题：1、系统要是为每个系统保存多个版本的历史信息，无疑增加了很多的系统负担;2、另一方面是如果新的网页完全没有历史信息，这样就无法确定更新策略。这种策略认为，网页具有很多属性，类似属性的网页，可以认为其更新频率也是类似的。要计算某一个类别网页的更新频率，只需要对这一类网页抽样，以他们的更新周期作为整个类别的更新周期。一般来说，网络爬虫的系统需要面对的是整个互联网上数以亿计的网页。单个数据采集和搜索的程序不可能完成这样的任务。往往需要多个搜索程序一起来处理。一般来说网络爬虫的系统往往是一个分布式的三层结构。最下一层是分布在不同地理位置的数据中心，在每个数据中心里有若干台抓取服务器，而每台抓取服务器上可能部署了若干套爬虫程序。这就构成了一个基本的分布式抓取系统，这样使得数据处理更加方便。

三、总结

网络爬虫不同于黑客，网络爬虫所做的事情是利于人们发展的，使用网络爬虫可以发现网络中隐藏的有价值的信息，提高筛选和索引率，为用户提供好服务。随着计算机技术和互联网技术的不断发展，未来网络爬虫会朝着精准化、个性化和智能化的方向不断发展，给人们提供需要的信息，方便人们的工作和生活。

参考文献

[1]杨文刚，韩海涛.大数据背景下基于主题网络爬虫的档案信息采集[J].兰台世界（旬刊），2015（20）：20-21.

[2] 陈维.网络环境下的信息检索与数据挖掘技术[J].现代情报，2009（5）.