基于网络爬虫技术的数字资源检测软件的设计与实现

2019-02-13 10:26:21

数字通信世界 2019年11期

（苏州健雄职业技术学院，苏州 215411）

在基于爬虫技术的数字资源检测软件的设计和开发中，这类软件能够实现免安装、免要求和高速度资源检索目的，所以在这一软件的具体应用中，可以更好完成对整个系统的完善和优化工作。在后续的运行和发展中，可使用这一软件实现对当前技术形式和检测系统的替代，提高对资源的检测质量。

1 数字资源检测的传统方法

1.1 人工检测法

在人工检测法的应用中，采用的方法为让工作人员通过登录的方式，找到网站和服务器中的失效资源，并确定是否需要将这些资源去除。从方法的应员工方法上来看，可以发现工作人员需要投入大量的工作，从整体上来看，在具体的工作中，由于工作人员难以在短时间之内完成对所有数字资源的研究和审查，在具体的工作中，会出现一些失效资源被遗漏现象，降低了这一网站的服务质量[1]。另外在人工检测方法中，要求参与该项工作的人员要能够及时发现被检测资源中的问题，并将资源存在的问题提交，从这一方法的作用形式上来看，对工作人员的个人素质提出的要求较高，要求其能够准确识别各项数据，对于大部分工作人员来说，其工作情况难以满足这一要求。

1.2 自研软件检测法

在当前的数字资源检测中，行业内已经开发出了多种资源的检测软件，取得了较好的效果，然而也可以发现当前的商用软件存在一定问题，其一为软件的售价较高，对于一些机构来说难以负担，导致这类软件在当前的实际应用效果较差，其二为软件对网络资源的占用量较高，导致对资源的处理和识别速度降低，导致整个系统的运行成果下滑。在当前的一些机构中，为降低成本，采用的方法为采用自研软件完成对数字资源的检测工作，但是从实践结果来看，这类自研软件的开发成本较高，并且对资源的检验人员工作素质提出了较高要求，从整体上来看，数字资源的检测效率较低。

2 基于网络爬虫技术的数字资源检检测软件设计和实现方法

2.1 整体框架建设

在整体框架的建设中，网络层包括资源层、执行层、信息的表现层和功能的实现层，这4个不同的层级发挥作用不同，其中资源层的作用为实现对所有数字资源的检测和研究，为了能够让这一系统更好运行，通过免安装的方式发挥应有作用，采用的方法为检测系统的URL地址，然而在系统的整体运行中，必然会生成大量的监测信息，在该系统的具体应用中，采取的方法为采用日志文件的方法替代传统的信息存储构件，这一方法的优势在于，可以实现对相关软件的免安装。执行层的作用为完成对数字资源的检测工作，在具体的工作中，该子系统询问URL的地址，并逐个访问系统中的信息，确定各类资源的网络连接是否可用，当发现某连接失效时，则需要完成信息反馈工作。功能实现层的作用为，解析软件运行中爬取的各类网页信息，同时从中获取有价值或者相关人员需求的信息，从整体上来看，在这一系统的运行和完善工作中，要从这一角度出发，提供相应的反馈信息，包括信息的获取时间、检测结果的代码等，从而让工作人员能够更好分析各类资源的实际效果。信息表现层的功能为，在功能实现层之后，将获取的信息通过人机交互界面等设备展示，让工作人员找到失效的资源。

2.2 系统管理流程

在这一系统的功能实现中，要按照具体的工作流程完成对数字资源的检测工作，整个工作流程为URL地址读取-访问请求发送-响应信息接收-网页解析-日志文件处理-数据对比。其中最关键的步骤为访问请求发送、响应信息接收和网页解析三个过程，对于请求的发送过程，需要应用的工具为蜘蛛引擎，在这一工具的使用中，可以在短时间内完成对大量访问请求数据的发送，在此基础上才可获取相应的反馈信息，在后续的研究和分析中，通过对这类数据的研究，实现对资源的整合与分析。对于响应信息接收，根据向系统中输入的控制信息，分析该项工作当前存在的问题，可以以200ms为周期，分析各类网页信息的响应速度，其中时间在200ms之内时，反馈值为“快”，高于200ms，反馈值为“慢”，无反馈时，系统自动发送3次访问请求，若依然无响应信息，反馈值为“失效”。对于网页解析，要通过上述的分析过程，找到这一网页的实际运行质量，当发现系统中存在运行问题时，则需要采用合理方法对这类网页和资源进行处理。

2.3 关键技术应用

在关键技术的应用中，其一为蜘蛛引擎，其作用为从数据流中提取URL网页，并接受相应的反馈信息，当可以获取反馈值时，输出的代码为“200”，无法获取反馈值时，输出的代码为“404”，由于复杂页面中含有多种编码形式，要实现对这类复杂信息的提取，在网页的代码中抓取相关信息[2]。其二为对日志文件的处理方法，这一子系统的运行中，会生成4个日志文件，发挥的作用为记录上次信息、记录本次信息、检测信息的对比，在此基础上生成最终的检测结果展示日志，工作人员通过对这一日志中信息的研究和分析，可以及时找到和优化当前系统中的失效网页和资源，在后续的工作中，将这类资源清除。

3 结束语

综上所述，在数字资源的检测工作中，传统方法为人工检测和自研软件检测，从取得的检测效果来看，当前的技术条件下取得的质量较为一般。在基于爬虫技术的数字资源检测软件的开发中，要建成整个网络体系的框架，在此基础上加入蜘蛛引擎等工具，实现对所有信息的有效识别和分析，通过生成的日志完成信息展示。