基于属性聚类的传销网站账户去重方法研究

2019-07-01 03:40赵广晔
科技创新与应用 2019年18期

赵广晔

摘  要:在网络传销案件取证过程中,需要分析传销活动的实际参与人数,但是由于网络身份的虚拟性,经常存在一人使用多个账户的情况,因此需要对传销网站中的账户进行去重分析。目前常用的方法是将姓名、身份证号等信息一致的账户做去重处理,但是该方法无法对使用虚假身份注册的账户进行去重。文章提出了一种基于属性聚类的账户去重方法,通过对与使用者身份关联的属性进行聚类分析,从而实现对传销网站中的账户进行去重。

关键词:电子数据取证;网络传销;并查集;去重统计

中图分类号:D631.1        文献标志码:A         文章编号:2095-2945(2019)18-0139-02

Abstract: In the process of collecting evidence in network marketing cases, it is necessary to analyze the actual number of participants in these pyramid marketing activities, but due to the virtual nature of network identity, there is often a situation in which one person uses multiple accounts. Therefore, it is necessary to reanalyze the accounts in the network marketing website. At present, the commonly used method is to reprocess the account with the same information such as name and ID number, but this method cannot reprocess the account registered with false identity. In this paper, an account de-duplication method based on attribute clustering is proposed. Through the cluster analysis of the attributes associated with the user's identity, the account in the pyramid selling website can be deduplicated.

Keywords: electronic data forensics; network marketing; union-find sets; deduplicated statistics

1 概述

在办理网络传销案件时,根据法律规定和相关的司法解释,犯罪嫌疑人直接或间接发展下线的人数是对其定罪量刑的重要依据。但是网络传销案件的参与人是以虚拟账户的方式加入传销组织的,存在大量一人多账户的情况。然而在司法解释中的人数指的是参与传销活动的自然人。

本文首先介绍目前司法实践中常用的简单去重法,并对该种方法在司法实践中遇到的问题进行分析。然后针对这些问题,提出一种基于属性聚类的传销网站账户去重分析方法。

2 简单去重法及其在司法实践中存在的问题

2.1 简单去重法

目前网络传销组织者往往会要求参与者提供姓名、身份证等个人身份信息,以及手机、邮箱、微信、QQ等联系方式,同时还会要求参与者提供银行卡、支付宝等用来提取返利资金的账户信息。

简单去重法指的是依据姓名和身份证号等个人身份信息组合进行查重、去重的方法。表1是某传销网站中五个账户的部分注册信息。因为一人使用多部手机的情况十分常见,在应用简单去重法时通常采用“姓名+身份证号”的组合进行分析。表1中只有“ZZKL0083”与“ZZKL0096”两个账户注册时使用的姓名和身份证号完全一致,为同一人注册,即这5个账户实际上应为4个人注册的。虽然简单去重法可以快速的得出分析结果,但是该方法在庭审过程中也遭到了嫌疑人及其辩护律师的质疑。

2.2 存在的问题

(1)网站对注册信息缺乏严格验证。目前,网络传销的网站并不会进行实名验证,甚至对信息格式都不进行校验。例如,表1中“ZZKL0096”和“ZZKL1983”两个账户的姓名和手机号完全一致,但是身份证的最后两位不同,如果使用简单去重法,这两个账户将会被作为2个人进行统计。但两个账户实际上是同一人的,只是其中一个身份证号输入错误。(2)网站对冒用身份无法鉴别。简单去重法通过注册账户信息属性的组合进行去重,无法鉴别冒用他人身份信息注册的账户。例如,表1中“ZZKL0099”这个账户注册时使用的手机号是“188****1234”,与账户“ZZKL0083”一致,但是两个账户其他信息并不一致。在该传销网站中需要使用手机接收重要信息,即两个账户實际上是同一人的。按上述逻辑分析,表1中“ZZKL0083”、“ZZKL0096”、“ZZKL099”和“ZZKL1983”等4个账户应该是由同一人注册并操作的,即表1中账户的去重结果应为2个。

3 基于属性聚类的去重分析方法

3.1 分析思路

为了避免前文提到的情况影响去重分析结果的准确性,在进行去重分析时,不能简单的使用身份属性信息组合来进行去重。因此,本文提出一种基于属性聚类的传销网站账户去重分析方法。该方法的分析思路是对会员账户依据其属性进行聚类,如果两个账户的某一属性值相同则聚为一类,不断将聚类进行扩张,最后统计聚类数作为结果。根据会员账户的特点主要提取以下几类属性进行聚类分析:会员身份基本信息、会员操作痕迹信息、收付款账户信息等。

3.2 分析方法

本文提出的基于属性聚类的分析方法主要包括三个步骤:提取数据、建立关联、聚类计数。

3.2.1 提取数据

根据去重分析的需求,首先要从后台数据中提取出三类数据:(1)会员身份基本信息:主要包括姓名、身份证号、手机号等。(2)会员操作痕迹信息:主要是指会员登录时的IP地址。(3)收付款账户信息:主要包括微信账户、银行卡号、支付宝账户等。

3.2.2 建立关联

将提取到的所有账户作为图中的结点,记为Naccount,结点的属性包括上述提取出的所有属性。如果两个账户有某个属性值相同,则在两个结点间建立一条边,记为Erelation。对所有账户的所有属性进行遍历,构建所有提取到的属性信息的聚类关联,从而形成一个所有账户的关联图,记为Gar。

3.2.3 聚类计数

在本文提出的基于属性聚类的账户去重分析方法中,所有连接在一起的结点就作为一个结点进行统计。要统计最终的去重结果即是计算图Gar中的连通分量个数Ccomponent。

4 去重方法的实现及验证

4.1 去重方法的实现

首先,将会员账户及相关数据从传销网站后台数据库中导出。为了便于后期的数据处理和分析,将相关数据整合为一张二维表Tinfo,以CSV格式进行存储,根据传销网站存储的数据不同,相关属性字段包括账户ID、姓名、身份证号、手机号码、银行账户、登录IP地址等。

其次,定义图的数据结构Gar,使用导出的CSV数据建立图中的结点Naccount实例,记录结点的ID和相关属性。

然后,对于会员账户信息中的每一个属性字段A[i],按照如下步骤生成关联边Erelation集合:

Tinfo.sort_by(A[i]);

CurValue = Tinfo[0][i];

CurId = Tinfo[0][‘Id];

for j in range(1,len(Tinfo)):

if Tinfo[j][i] == CurValue:

Erelation.append(CurId,Tinfo[j][‘Id]);

Else:

CurValue = Tinfo[j][i];

CurId = Tinfo[j][‘Id];

最后,統计图Gar中的连通分量个数作为去重结果。传销网站中会员账户数量和最终去重结果数都很大,所以本文采用并查集的方法进行统计。并查集主要有以下三种操作:初始化,创建一个新的并查集,并把每个元素所在的集合初始化为这个元素本身;查找,查找该元素所在的集合,即根结点;合并,将两个元素所在的不同集合合并为一个集合,在合并之前使用“查找”操作判断两个集合是否属于同一个集合。[1]

4.2 去重结果的分析

本文从某传销网站后台数据中提取了某一分支中1970个会员账户的相关信息,分别使用简单去重法和基于属性聚类的方法进行账户去重分析,去重结果如图1所示。图1(a)为使用简单重法去重的结果,即使用“姓名+身份证号”组合进行关联的结果,在1970个账户中,仅有两个账户的“姓名+身份证号”组合信息完全相同,即去重结果为1969。图1(b)为分别使用“姓名”、“身份证号”、“手机号”三个属性进行关联后的去重结果,1970个账户共形成关联边280条,最终形成的连通分量数为1787个,即去重结果为1787。

使用本文方法形成的关联集合中的账户信息进行分析,发现可以有效实现对使用不同身份信息注册但是使用同一手机号码的账户进行去重,但是对于姓名相同的账户可能会发生过度去重的情况,即去重结果可能会小于实际参与人数。

5 结束语

综上,本文提出的基于属性聚类的传销网站账户去重方法可以有效实现对传销网站后台人员的去重统计,特别是可以将输入数据不规范和冒用他人身份注册的账户进行去重,虽然该方法存在过度去重的问题,即去重结果可能小于实际人数,但是相较于简单去重法,该方法的去重结果更接近真实情况,也更加合理和符合相关司法解释,具有实际应用价值。

参考文献:

[1]罗志磊,冯波,叶鹏.基于并查集的图像连通域标记算法[J].黑龙江科技信息,2017(11):41.