大数据反爬虫技术的应用分析

2021-11-20 13:53李嘉恩

无线互联科技 2021年24期

李嘉恩

（广东南方职业学院，广东江门 529000）

0 引言

大数据时代，网络信息呈爆炸式增长，企业、学校等为了更精准地分析、预测相关目标人群的行为、心理规律及相关事物间的联系规律，使得网络信息具有更大的商业价值[1]，开始获取大量的网络数据并进行筛选、分析。为了提升数据挖掘的效率和准确性，相关主体开发了通过爬虫程序直接爬取目标网站数据的技术。但由于对该技术的发展和应用缺乏管制，大量不加限制的爬虫对网站运行造成了巨大压力，可能会造成网站服务器宕机，进而降低正常用户的信息安全及使用体验，造成大量用户流失，网站经营受损。为减少爬虫造成的问题，相关主体需要从多个方面对反爬虫技术进行针对性的优化，以避免违规的爬虫信息抓取操作，对互联网环境造成更严重的不良影响[2]。

1 目前大数据反爬虫技术应用存在的问题分析

1.1 技术设置方面的问题

技术设置主要体现在前端限制方面，限制方案不完善。一些网站在设置反爬虫时，对前端限制方案不够重视：首先，部分网站在制定前端设置方案时，缺乏对关键信息的管控，应用CSS等技术时未能有效显示数据偏移量，无法有效处理关键数据的混淆问题，不利于充分开发前端限制的价值[3]；其次，部分前端设置的设计工作没有深入分析不同类型网站的信息组成情况，如没有完整总结网页信息的分析价值，导致难以对反爬虫机制进行有效测试，不利于前端限制的完善；最后，限制方案制定过程中，缺少对网页中文件类型的研究，加上对爬虫策略分析不到位，导致无法合理控制各技术资源的偏移量。

1.2 请求规则方案方面的问题

首先，制定反爬虫技术应用方案时，未充分考虑请求规则的设计问题，导致不能对服务器端的请求信息进行有效识别，使得前端限制的有效性降低，难以从源头上扼制爬虫的入侵。其次，某些请求规则在制定时，对网络服务器各项服务请求考察不全面，缺乏对信息资源属性及配置的深入研究，难以明确信息请求的类型，进而导致请求规则的制定缺少针对性。再次，一些规则在设计时缺少对网站运维基础条件的分析，未能完整开发数据包的价值，导致处理网站访问信息时，无法精准把握爬虫程序的任务特征。最后，部分规则制定时对常规的访问信息考察不足，未能有效评估并设置网站各项属性参数[4]。

1.3 流量管控及数据加密方面的问题

流量管控是保证反爬虫技术高质量实施的必要措施。但现有流量管控措施创新不足，对网站监控管理措施不够重视。首先，对流量管控的探索设计不足，如对于IP地址的设计不够，请求延迟的管控未能有效改进，使得反爬虫技术无法有效应对请求限制。其次，部分管控措施缺乏对网站构成的合理研究，如考察信息延迟影响力时，缺乏对加载速度等信息的掌控，导致不能完整、合理评估不同类型爬虫的信息获取渠道。最后，对网站信息分布式特征不够重视，代理方案等方面存在质量问题。另外，当前对数据加密的重视程度不够，采用的加密措施单一，无法制定出参数合理的加密管理方案。

1.4 对爬虫伪装及相关技术分析不足

现有反爬虫技术在技术方案设计中，对爬虫伪装机制缺少深入分析和有效总结，无法有效识别爬虫状况，无法有效掌握爬虫过滤程序的应用情况，因此难以为网站反爬技术的应用提供高质量的支持。加上现有部分爬虫技术在研究过程中，未能对数据构成进行有效研究，最终导致其所设置的资源抓取顺序十分混乱，因此其在分析GB级、TB级数据时，难以充分掌握爬虫的构成情况，导致无法进一步优化反爬策略。

1.5 反爬策略应用方面的问题

反爬策略应用方面的问题主要体现在部分非妥协式策略的应用不够合理有效。首先，在反爬虫技术设计中，未能对IP单位进行充分研究，无法对技术的访问次数等特点进行考察分析，对信息日志的应用价值不够关注。其次，一些非妥协式策略在应用时对现有爬虫原理缺乏全面考察，虽然调取了封禁技术，但封禁时间等特征无法被合理地认定。最后，部分非妥协式策略未能在设计时充分考察客户端的需求，未能有效应用滑块拼图等人机验证技术，难以提升反爬策略的应用水平。

2 提升大数据反爬虫技术应用有效性的策略

2.1 完善技术设置

首先，在设置反爬虫方案时，一定要总结前端限制工作，灵活使用CSS/HTML标签来设计信息构成，以此提高前端设置中资源配置的合理性。同时，应加强关注元素错位引起的负面效应，合理应用自定义字体实现字体反爬。其次，务必对图片等偏移量信息进行深入研究，对数据混淆问题及其负面影响进行有效管控。设计前端限制方案时还应利用多种测试手段分析反爬虫技术应用效果，对相关网页开展有效抽样测试及研究，进而针对发现的问题进一步改进反爬虫技术。

字体反爬是重要的反爬策略，前端设计中应对网站源码进行研究，通过对源代码信息真实性的研究，更精准地认识与CSS文件相关的数据及其偏移量，合理满足字体隐藏的控制需求，为后期字体导入、文字渲染等工作提供帮助。

2.2 合理制定请求规则

在反爬虫技术设计中，加强对服务器端特征的研究，优化请求限制的设计。制定请求规则时，必须在充分研究爬虫原理、反爬虫策略的基础上，对网站服务器设计的各类请求信息进行价值认定。在分析属性、配置信息时，需对当前请求规则的应用效果进行研究，如对Python requests等易被察觉的数据进行价值考察，从而为数据包资源的开发提供保障。在创新请求规则时，需要针对爬虫任务的调整进行相应的挑战，如在发现网站模拟请求设计质量差的情况下，对请求头属性进行重新认知，对常规访问措施及规则进行有效的制定和调整。请求规则的制定还应关注反爬字段的设计，如分析自定义字段的校验码设置问题，以便反爬字体在应用时能更有效地满足请求主体的身份识别等需要。

2.3 优化流量管控，优化加密技术

制定反爬虫技术方案时，需对流量管控进行多方面研究与分析，深入挖掘网站监控的需求，使所制定的管控措施能更完整、有效地适应反爬虫策略的应用需要。在设计信息下载等管理方案时，务必对IP地址进行严格的分析和控制，重视网站交互管理及相关举措。制定具体流量管控措施时，需要对应用主体的各项需求进行全面剖析，以合理应用延时加载等技术。

在应用数据加密技术时，应充分考虑爬虫伪装机制及应用反爬虫技术的基础条件，合理分析网站中各类信息的加密需求，以合理地对不同信息进行加密。

2.4 深入分析爬虫伪装机制、抓取技术

伪装机制、抓取技术是爬虫的关键技术，对其进行研究是识别爬虫、认知爬虫具体危害的必要工作，也是进行爬虫技术设计的重要前提。因此，设计网站反爬虫时，应加强对爬虫伪装机制、抓取技术的认知和识别，深入分析和总结设置Header、定时休眠、使用普通或高匿代理服务器、伪装网站Cookie等常用的伪装机制，深入分析和总结深度优先、广度优先、大站优先、反向链接、Partial PageRank等抓取策略，为爬虫设计及反爬策略的应用提供参考。

2.5 优化反爬策略

反爬策略包含妥协式、非妥协式两种。妥协式策略包括Robots.txt协议、Sitemap.xml静态文件的设置，前者是在网站目录下设置Robots.txt文件，告诉规范的爬虫设计者哪些信息允许被爬取，哪些信息不允许被爬取，后者是将整个网站所有链接及元数据设置为单独的静态文件，从而降低爬虫对网站动态信息的爬取，减轻网站运行的压力。

非妥协式策略有限制同意IP单位时间内的访问次数、设置复杂验证方式、利用JS脚本防爬虫、Css数据加密、字体反爬、以图片代替重要信息等功能。设计策略时，应根据当前IP地址情况设计策略主体的构成内容，保证系统的元数据具有较高的利用价值，以更好地发挥妥协策略的作用。而在非妥协策略设计中，应加强对IP访问次数的限制，并应用复杂的人机验证技术来处理大量请求信息，加强数据加密和字体反爬，如字体反爬使浏览器上的文字正常显示，但被爬虫爬取后数据会变为乱码或者被其他字符替代，以避免网站信息被恶意、非法使用。

3 结语

综上，大数据已广泛应用于各个领域，对人们的日常生活与工作产生了巨大的影响，而大数据时代背景下，数据对各领域发展的重要性大幅提升。为便捷、高效地获取数据，帮助相关企业提高竞争力，网络爬虫技术悄然兴起，但基于对信息安全等因素的考虑，需要控制网络爬虫，减少爬虫对网站的危害。因此，需要在充分研究爬虫技术的基础上，优化反爬虫技术，以适应当前网络环境改进的需要，减轻网站运行及管理的压力，避免大量数据流失。