(苏州健雄职业技术学院,苏州 215411)
在基于爬虫技术的数字资源检测软件的设计和开发中,这类软件能够实现免安装、免要求和高速度资源检索目的,所以在这一软件的具体应用中,可以更好完成对整个系统的完善和优化工作。在后续的运行和发展中,可使用这一软件实现对当前技术形式和检测系统的替代,提高对资源的检测质量。
在人工检测法的应用中,采用的方法为让工作人员通过登录的方式,找到网站和服务器中的失效资源,并确定是否需要将这些资源去除。从方法的应员工方法上来看,可以发现工作人员需要投入大量的工作,从整体上来看,在具体的工作中,由于工作人员难以在短时间之内完成对所有数字资源的研究和审查,在具体的工作中,会出现一些失效资源被遗漏现象,降低了这一网站的服务质量[1]。另外在人工检测方法中,要求参与该项工作的人员要能够及时发现被检测资源中的问题,并将资源存在的问题提交,从这一方法的作用形式上来看,对工作人员的个人素质提出的要求较高,要求其能够准确识别各项数据,对于大部分工作人员来说,其工作情况难以满足这一要求。
在当前的数字资源检测中,行业内已经开发出了多种资源的检测软件,取得了较好的效果,然而也可以发现当前的商用软件存在一定问题,其一为软件的售价较高,对于一些机构来说难以负担,导致这类软件在当前的实际应用效果较差,其二为软件对网络资源的占用量较高,导致对资源的处理和识别速度降低,导致整个系统的运行成果下滑。在当前的一些机构中,为降低成本,采用的方法为采用自研软件完成对数字资源的检测工作,但是从实践结果来看,这类自研软件的开发成本较高,并且对资源的检验人员工作素质提出了较高要求,从整体上来看,数字资源的检测效率较低。
在整体框架的建设中,网络层包括资源层、执行层、信息的表现层和功能的实现层,这4个不同的层级发挥作用不同,其中资源层的作用为实现对所有数字资源的检测和研究,为了能够让这一系统更好运行,通过免安装的方式发挥应有作用,采用的方法为检测系统的URL地址,然而在系统的整体运行中,必然会生成大量的监测信息,在该系统的具体应用中,采取的方法为采用日志文件的方法替代传统的信息存储构件,这一方法的优势在于,可以实现对相关软件的免安装。执行层的作用为完成对数字资源的检测工作,在具体的工作中,该子系统询问URL的地址,并逐个访问系统中的信息,确定各类资源的网络连接是否可用,当发现某连接失效时,则需要完成信息反馈工作。功能实现层的作用为,解析软件运行中爬取的各类网页信息,同时从中获取有价值或者相关人员需求的信息,从整体上来看,在这一系统的运行和完善工作中,要从这一角度出发,提供相应的反馈信息,包括信息的获取时间、检测结果的代码等,从而让工作人员能够更好分析各类资源的实际效果。信息表现层的功能为,在功能实现层之后,将获取的信息通过人机交互界面等设备展示,让工作人员找到失效的资源。
在这一系统的功能实现中,要按照具体的工作流程完成对数字资源的检测工作,整个工作流程为URL地址读取-访问请求发送-响应信息接收-网页解析-日志文件处理-数据对比。其中最关键的步骤为访问请求发送、响应信息接收和网页解析三个过程,对于请求的发送过程,需要应用的工具为蜘蛛引擎,在这一工具的使用中,可以在短时间内完成对大量访问请求数据的发送,在此基础上才可获取相应的反馈信息,在后续的研究和分析中,通过对这类数据的研究,实现对资源的整合与分析。对于响应信息接收,根据向系统中输入的控制信息,分析该项工作当前存在的问题,可以以200ms为周期,分析各类网页信息的响应速度,其中时间在200ms之内时,反馈值为“快”,高于200ms,反馈值为“慢”,无反馈时,系统自动发送3次访问请求,若依然无响应信息,反馈值为“失效”。对于网页解析,要通过上述的分析过程,找到这一网页的实际运行质量,当发现系统中存在运行问题时,则需要采用合理方法对这类网页和资源进行处理。
在关键技术的应用中,其一为蜘蛛引擎,其作用为从数据流中提取URL网页,并接受相应的反馈信息,当可以获取反馈值时,输出的代码为“200”,无法获取反馈值时,输出的代码为“404”,由于复杂页面中含有多种编码形式,要实现对这类复杂信息的提取,在网页的代码中抓取相关信息[2]。其二为对日志文件的处理方法,这一子系统的运行中,会生成4个日志文件,发挥的作用为记录上次信息、记录本次信息、检测信息的对比,在此基础上生成最终的检测结果展示日志,工作人员通过对这一日志中信息的研究和分析,可以及时找到和优化当前系统中的失效网页和资源,在后续的工作中,将这类资源清除。
综上所述,在数字资源的检测工作中,传统方法为人工检测和自研软件检测,从取得的检测效果来看,当前的技术条件下取得的质量较为一般。在基于爬虫技术的数字资源检测软件的开发中,要建成整个网络体系的框架,在此基础上加入蜘蛛引擎等工具,实现对所有信息的有效识别和分析,通过生成的日志完成信息展示。