基于卷积神经网络的暗网网页分类研究

2023-03-15 08:47洪良怡朱松林王轶骏
计算机应用与软件 2023年2期
关键词:暗网网页卷积

洪良怡 朱松林 王轶骏 薛 质

1(上海交通大学电子信息与电气工程学院 上海 200240) 2(江苏省南通市公安局 江苏 南通 226001)

0 引 言

近年来随着对网络节点和身份信息的保护需求增长,大量匿名通信技术应运而生。暗网是由匿名用户产生的数据组成的,使用匿名、匿踪技术和特定软件才能访问的网络空间。通过路由中继技术以及通信中的数据加密,掩盖了用户上网地址以及暗网主机托管地址,难以追溯服务器端和客户端信息。因为不受监管、匿名和不可溯源等特点,暗网的网络空间中存在着大量非法出售、分享非法商品和数据的站点,包括伪造的证件、信用卡信息、枪支弹药、毒品以及泄露数据。例如,2019年6月至少5万条美国牌照数据被美国海关和边境保护局CBP技术分包商泄露在暗网上;7月迈阿密和其他一些城市警方约1 TB执勤拍摄数据在暗网流传;12月欺诈情报公司Gemini Advisory发现850家商店被盗的3 000万条支付卡数据被上传到在线网络犯罪市场Joker's Stash[1]。

在暗网中非法论坛的行为研究方面,Alnabulsi等[2]分析了三个暗网论坛中的犯罪类型,包括隐私、黑客、毒品、政治、革命、武器以及毒品。宋胜男[3]通过对暗网非法网站按照毒品交易、武器交易、信用交易、色情服务四种典型内容进行分类,根据法律条文按照危害程度进行排序。He等[4]使用机器学习算法训练法律法规文本,用于暗网网络上违法内容分类。曹哲超等[5]提出了结合了页面标签特征和页面文本特征识别的重要站点筛选方法。

暗网网页文本呈现出数据量大、种类多样、分布不均、内容简略、富含非标准用语以及标注困难的特征,给面向暗网海量网页文本信息筛选需求的文本分类带来了巨大挑战。基准语料缺乏、扩展性差的问题使得近几年机器学习以及深度学习自然语言处理方面的成果难以直接应用在暗网网页文本分类问题上。

本文为解决暗网网页内容分类问题,提出一种基于卷积神经网络的模型,首先介绍暗网网页文本特征,然后介绍该模型,最后通过实验验证模型的有效性,并研究了不同实验参数对分类效果的影响。

1 暗网网页文本特征

1.1 HTML标签

暗网网页文本具有普通网页文本同样的特征,即包括大量HTML标签,HTML标签对于网页实际内容分析会造成一定干扰。

如图1所示,HTML中