基于Scrapy分布式的暗网探测爬虫构建

2020-06-03 17:46余志玮何月顺
计算机时代 2020年4期
关键词:暗网站点

余志玮 何月顺

摘  要: 暗网中存在大量毒品、军火、货币等非法交易网站,对网络环境造成严重危害,为了对暗网进行探测和监控,提出一种基于Scrapy分布式的暗网探测爬虫方法。将暗网使用的socks5协议转化為爬虫支持的http协议,再利用Python的Scrapy爬虫框架对暗网站点进行探测和爬取。使用该方法已发现数以万计的暗网站点信息,包括网站标题、源代码、网站类型等。将暗网代理环境和Python爬虫相结合,能够让程序对暗网的站点进行探测和爬取,对暗网环境进行很好的探测和监控。

关键词: 暗网; 代理环境; Scrapy爬虫框架; 站点

中图分类号:TP393.0          文献标识码:A     文章编号:1006-8228(2020)04-21-05

Building dark web probe crawler with Scrapy-redis

Yu Zhiwei, He Yueshun

(School of Information Engineering, East China University of Technology, Nanchang, Jiangxi 330013, China)

Abstract: There are a large number of illegal trading websites such as drugs, arms, and currencies in the dark web, which cause serious harm to the Internet environment. In order to detect and monitor the dark web, this paper proposes a dark web detection crawling method using distributed Scrapy. The socks5 protocol used by the dark web is converted into the http protocol supported by the crawler, and then the dark website points are detected and crawled by using the Scrapy crawler framework of Python. This method finds tens of thousands of dark website point information, including website title, source code, website type, and so on. The combination of the dark web proxy environment and the Python crawler allows the program to detect and crawl the dark website, and to detect and monitor the dark web environment.

Key words: dark web; proxy environment; Scrapy crawler framework; website

0 引言

针对互联网信息泄露问题,人们开始研究并使用匿名网络通信技术,而暗网就是随之发展起来的匿名技术之一。不同于绝大部分明网,暗网的站点都不能被寻常访问,也没有被baidu、google等搜索引擎收录,要想使用暗网匿名技术,就需要使用特定的软件,跳过几个中间节点,来达到匿名和防止监测的效果。由于暗网良好的匿名性,被不法分子利用从事地下黑暗交易,如人口贩卖,毒品,情色,军火等[1],大大危害了社会安全。

暗网匿名技术最早是在上世纪90年代被提出,由于其良好的匿名保护效果,不断被研究机构和互联网公司研究和完善,而数字货币-比特币的出现,对暗网上的交易提供了更隐藏的服务机制。现如今,暗网各个站点绝大部分都支持使用比特币来进行各种买卖/交易,买卖双方只知道对方的暗网id,对其他信息一点都不了解。随着近些年互联网和自媒体的发展,暗网逐渐出现在大众人们的视野中,影视剧中对使用暗网贩卖人口等犯罪行为就有过大量的揭露。许多人出于好奇在网络中寻找进入暗网的方法。所以如何对暗网信息进行探测和爬取监控就显得非常重要。

1 暗网研究现状

发展至今,暗网中隐藏服务的站点和资源在数量和质量上已经高于明网,对暗网的探测及研究已经意义重大。但是由于暗网本身的特性:多中间节点跳跃的隐蔽性;频繁更换站点导致的探测不稳定性;没有被百度、谷歌等搜索引擎收录致站点难发现性等问题,导致暗网在横向的数量和纵向的深度都难以探测。国内外许多专家和机构都对暗网做过相关研究。

暗网的相关研究主要分为两个方面:一个是基于暗网匿名通信技术本身,通过不断优化匿名通信技术,提升暗网的匿名性、效率性和稳定性等,使得暗网能够有更好的发展;另一个研究方向则是基于暗网的技术原理,寻找暗网空间资源探测的方法和技术[2]。

就暗网空间资源探测的研究方面,上海交通大学的杨溢[3]等人设计出了Tor域名地址采集系统,优化了暗网的访问效率,从明网和暗网采集站点域名;郭晗[4]等人针对Freenet的暗网资源探测进行了研究,freenet是一种分布式的匿名信息存储和检索系统,发展时间比tor洋葱路由还早;汤艳君[5]等人通过分析暗网通讯的技术原理,利用selenium对暗网进行爬取,探测后的暗网信息能够帮助公安部门监控和分析暗网中的有害内容,加大网络监控力度。

[2] Nunes E,Diab A,Gunn A,et al.Darknet and DeepnetMining for Proactive Cybersecurity Thread Intelligence[C].IEEE Conference on Intelligence and Security Informatics,2017:7-12

[3] 杨溢,郭晗,王轶骏,薛质.基于Tor的暗网空间资源探测[J].通信技术,2017.50(10):2304-2309

[4] 郭晗,王轶骏,薛质.基于Freenet的暗网空间资源探测[J].通信技术,2017.50(9):2017-2023

[5] 汤艳君,安俊霖.基于Tor的暗网数据爬虫设计与实现[J].信息安全研究,2019.5(9):798-804

[6] 李亚.暗网数据源分类算法的研究和实现[D].成都理工大学,2013.

[7] Biryukov A,Pustogarov I,Weinmann R P.Trawling for TorHidden Servics:Detection,Measurement,Deanonymization[C].Security and Privacy,2013:80-94

[8] Guitton C.A review of the available content on Tor hiddenservices:The case against further development[J].Computers in Human Behavior,2013.29(6):2805-2815

[9] 趙志云,张旭,罗铮.“暗网”应用情况及监管方法研究[J].知识管理论坛,2016.2.

[10] 林海伦,熊锦华,王博等.基于领域知识抽样的深网资源采集方法[J].中文信息学报,2016.2:175-181

[11] Li K, Liu P, Tan Q, et al. Out-of-band discovery andevaluation for tor hidden services[J]. SAC,2016:2057-2062

猜你喜欢
暗网站点
东南亚暗网犯罪态势及国际执法合作
暗网犯罪的现状及趋势研究
暗网
被“暗网”盯上的年轻人
暗网犯罪的趋势分析与治理对策
基于Web站点的SQL注入分析与防范
2017~2018年冬季西北地区某站点流感流行特征分析
首届欧洲自行车共享站点协商会召开
怕被人认出
先进站点应与落后站点开展结对帮扶