赌博网站检测技术研究

2022-09-24 03:04鲁志毅王新猛
法制博览 2022年28期
关键词:充值检测

鲁志毅 王新猛

南京森林警察学院,江苏 南京 210023

一、网络赌博现状

最高人民检察院于2021年7月25日发布的数据显示,2021年上半年,全国赌博类犯罪案件涉及46575人,较2019年同期上升27.7%(2020年受疫情影响不作比较),上升趋势明显。随着信息网络技术的不断进步,赌博类犯罪正朝着网络化、线上化的方向大步迈进,网络赌博正逐步取代传统的实体赌场形式开展。为了逃避公安司法机关的查处和打击,犯罪分子通常在境外架设赌博网站服务器,广泛使用信息网络技术将各个环节分割,形成全链条的集团犯罪。通过研究网络赌博案件发现,不少网络赌博伴随着网络诈骗、套路贷、传销、敲诈勒索、非法拘禁甚至是偷越国(边)境等其他违法犯罪,严重危害了公民的人身和财产安全。对于网络赌博进行案件分析,总结有以下特点[1]。

(一)网络赌博国际化

随着全国公安机关持续开展打击网络赌博专项行动,以高压态势整治网络赌博风气,加之网络通信、互联网支付、刷脸支付等支付手段便捷化等因素,国内无法发展下去的犯罪团伙看上了境外开设网络赌博的优势,利用网络博彩、真人麻将、彩票游戏、电子游戏等形式在境外搭建网络赌博平台,将客服推广、技术运维、资金流水等部门一并转移到境外继续开展网络赌博产业。根据公安部2020年1月发布的数据显示,周边国家已成为跨国网络赌博活动的主要策源地,通过对涉赌网站、APP的大数据分析,98%以上的赌博平台系租用境外主机运营,呈现出“组织化、国际化、产业化”的特征。

(二)网络招赌新颖化

网络赌博在招赌方面出现了新的形式,一是诱骗散客玩家充值,这类人群有一个典型案例就是“杀猪盘”,犯罪嫌疑人一般在交友或者婚恋平台把自己伪装成学历高、颜值高、性格好的用户,通过微信等网络聊天工具一步步和被害人建立感情,然后利用话术或者诱惑引导受害人到网络赌博平台充值赌博,最后再操控平台结算胜负或者赔率达到目的。二是狩猎有实力的企业家,犯罪团伙在国内通过哄骗诱惑邀约拉拢有实力的企业家参加某国际项目,实际上是网络赌博,从中下套采取高杠杆的赌博方式,导致企业家一步步陷入其中,短时间获取巨额利润,而后却往往陷入巨大亏损。这两种形式最一开始的表现都不是赌博,但最后都引导受害者陷入网络赌博中无法自拔,欠下巨额赌债。

(三)网络赌游智能化

经研判发现,绝大部分的网络赌博平台已经不是单纯基于扑克牌设下陷阱,针对目前社会面的流量情况,开设诸如秒开彩票、世界杯竞猜、电子竞技竞猜、捕鱼游戏、大富翁桌游等游戏,这类非棋牌类的彩票和网络游戏的背后都加入了精心设计的算法和人为可操控的紧急后台,以此来控制每次的游戏回合胜负、赔率等参数,利用赌徒心理抓住人性的弱点获取大量的充值。

(四)网络赌资隐蔽化

网络赌博团伙的资金处理是一个团队运转的关键所在,目前已知的赌资处理有以下几类,一是设置与赌博完全不沾边的空壳公司,通过各种方法规避监管和调查,实现赌资的快速流转;二是采用虚假开设的银行卡或者境外支付机构账户汇聚赌资,将巨额资金通过地下钱庄转移到境外;三是与境外团伙合作,利用运营商充值话费的形式进行赌资充值,搭建话费充值和赌博充值相连接的平台,实现赌资的另类转移;四是赌博集团利用租借的二维码进行资金转出转入,实现资金链的跳转俗称“跑分”模式;五是利用虚拟币去中心化和匿名性的特点,通过虚拟币支付交易的方式进行资金转移;六是利用微信红包进行赌博,微信红包金额的随机性为网络赌博提供了技术支持,微信群的一天一换让网络赌博的行为更加隐蔽。

基于网络赌博新特点,本研究准备从网络赌博最常见的引流形式入手,分析网络赌博引流方式,通过研究其特征属性提出有针对性的检测技术。

二、数据来源

本研究利用人工智能、网络爬虫等技术进行数据采集,经过分析发现大部分的网络赌博都以赌博网站的形式进行网络赌博活动的开展,因此本研究针对赌博网站开展收集分析工作[2]。截至2021年9月,将采集的网站进行集成后得到赌博网站2151个。再对采集的网站进行数据清洗,去除无法打开和页面丢失的情况,最终得到1537个赌博网站。部分赌博网站数据如图1所示。以便通过研究分析网络赌博网站特征,对网络赌博网站检测提供思路。

三、赌博网站检测

对已清洗好的赌博网站数据样本进行数据分析,通过多次访问、隔天访问、更改代理访问等方式对数据样本进行测试,测试结果发现大部分的赌博网站的访问并不困难,大多并不需要代理支持,目的是为了国内玩家能够更加便捷地访问。当过段时间对同一个网站进行访问发现,网站会自动跳转到一个通知页面,通知玩家该网站域名的更改,原网站也失去了作用[3]。对赌博网站内具体内容分析发现,网站内具体内容的存放并不是直接放置,而是以图片的形式表现,目的是为了更好地隐藏网站内容和性质。基于数据分析,总结出以下赌博网站特征。

(一)赌博网站特征

1.网络赌博平台引流方式多样

在进行数据采集的过程中,对网络赌博平台的引流方式进行归纳总结,发现当前活跃在社会面上的赌博平台引流形式主要有:一是通过社交工具发布朋友圈、帖子引流;二是通过投放大量广告到情色网站、招聘网站、软件APP等引流;三是通过短信、邮箱大量群发赌博平台的信息引流。

2.网络赌博平台大多不用代理

目前网络赌博受众面广,为了保证玩家数量,招赌门槛较低,大多网络赌博平台都可以在国内直接访问,并不需要境外的网络作支持[4]。其中也有需要境外网络支持的网络赌博平台,对于这些网络赌博平台,则要求玩家对于登录境外网络要有一定的了解,门槛稍微高一些。

3.网络赌博平台域名随时变化

有一个稳定的平台才能有稳定的玩家源,为了加强网络赌博平台的安全性,平台的登录一般都需要多次页面跳转,域名也会随时更改,更改后会发送新域名到用户平台账户的联系方式上。虽然网络赌博平台域名经常发生变化,但是平台内容不会发生变化,这也给予了赌博网站能够被检测到的方法。

4.网络赌博平台内容结构相似

为了平台的安全性,赌博网站一般不会直接在网站源代码上凸显出关键的博彩字眼,平时在浏览器上所看见的汉字大部分都是用图片展示出来的,点击时也是通过图片链接直接跳转。因此赌博网站中图片的内容显得尤为关键,能否识别图片中的汉字是构建赌博网站检测词集的关键。

(二)赌博网站检测

对于上述网络赌博网站特征属性分析可知,网络赌博网站检测可以从网站内容作为突破口,鉴于网络赌博网站内容都以图片的形式隐藏起来,本研究通过文本图片识别,构建网络赌博网站关键词集,实现对赌博网站的自动化检测。检测流程图如图2所示。

图2 检测流程图

1.分析网站代码

对赌博网站的运行分析,赌博网站利用延迟加载的方式,让网站在登录以后的5到10秒进入加载过程,此时对网站进行返回,得到的是毫不相关的内容,但是一旦网站加载完之后便是真正的赌博网站。为此本研究给检测代码加入html标签检测等候,当检测到指定标签后再进行爬取。

对赌博网站的html代码进行分析,发现赌博网站为了网站的安全性,对于关键性敏感内容都是以图片的形式来展示,并且对网站进行请求访问返回的数据也会因为网站的安全保护出现数据缺失的情况。为此本研究使用Python中Selenium库,利用浏览器模拟真人访问网站的效果,实现绕开赌博网站对爬虫工具的安全保护,此时就可以使用XPath语法定位赌博网站中的图片数据进行下载保存了。

2.识别图片数据

为了更准确的对赌博网站中的敏感关键词进行识别,本研究调用了百度智能云的图片识别API[5]。API又名应用程序编程接口,可以为应用程序与开发人员提供访问一组例程的能力,利用图片识别API接口达到调用该图片识别技术的目的。在图片识别前对每个网站保存好的图片进行分批次识别,确保每个赌博网站的关键词个性化,以此构建更加全面、更加有针对性的赌博网站关键词集。

3.构建关键词集

对每个网站识别的关键词进行数据清洗,去除无效数字、识别错误数据,汇总数据后进行词频统计,得到词频数前十的词语分别是:棋X、牛X、返X、新葡X、威尼X、MX、游X、幸X、资X、捕X。关键词集、词云如图3所示。

图3 关键词集、词云示意图

4.关键词集碰撞

随着词集一次次的反馈更新,赌博网站关键词集将更加完善,根据词集中关键词频数进行排序,频数越大说明该关键词越重要,越重要的关键词对应的基础赋值越高。赌博网站的检测可以通过识别其图片中的文字,与词集中的关键词进行碰撞,根据碰撞结果计算网站中关键词基础赋值总和作为判断是否为赌博网站的依据。

四、总结

本文基于从各个渠道收集到的赌博网站数据,对网络赌博特点、网络赌博网站代码、网络赌博网站检测等方面展开研究,通过分析赌博网站的代码以及运行方式,利用PYTHON语言进行赌博网站的内容识别,构建赌博网站关键词集,旨为大批量赌博网站检测提供思路方法,实现自动化网络赌博网站的检测,进一步遏制网络赌博现象的发生。随着公安机关在网络赌博专项行动中捷报频传,赌博网站检测机制不断完善,网络赌博危害宣传工作不断深入,相信在不久的将来,网络赌博的现象终会被扼杀在摇篮里。

猜你喜欢
充值检测
“不等式”检测题
“一元一次不等式”检测题
“一元一次不等式组”检测题
“几何图形”检测题
“角”检测题
奇妙的智商充值店
充值
基于NFC的ETC卡空中充值服务应用系统实现
苏通卡手机充值系统研究
ETC网上充值平台介绍与分析