祝越野
随着通讯技术的迅猛发展,电信诈骗行为也在与日俱增。目前,对电信诈骗的主要防范措施是建立预防诈骗管理系统。例如,国际知名公司NCR的Teradata数据库就通过建立客户行为模式档案,以此筛查欺诈行为。爱立信公司的Fraud Office也建立了反欺诈规则库,通过对比客户行为与规则是否吻合或相似,从而预警诈骗行为。①G.Martin, J.P.Cunningharn, “Signs of Spring at the UK's Serious Fraud Office: Challenges, Changes, and the Impact on Global Anti-Corruption Compliance”, Financial Fraud Law Report, Vol.10, No.3, 2013, pp.1314-1319.在探索防范电信欺诈的模式方面,研究人员已取得了一定的成果,比如通过应用数据挖掘技术,基于聚类、基于SVM的分类器②吉涵之、马宇宸、李爽、李静林:《基于SVM的电信诈骗行为特征识别方法》,《软件》2017年第12期。等方案,对用户欺诈行为进行预测。此外,电商利用互联网“众标众享”模式③刘娜:《电话诈骗百度手机卫士精准识别》,《计算机与网络》2015年第6期。(即当客户发现诈骗行为后就及时对诈骗号码进行标记,再由系统自动将标记结果发送至云端共享,形成黑名单库),也建立了一种群防群治的电信诈骗防范模式。
本文尝试利用复杂网络理论模型对诈骗通信网络展开研究,通过结合真实网络的相关特性,构建起电信诈骗的复杂网络模型。在此基础上,再进一步进行仿真实验验证、理论推导和网络传播动力研究,从而为发现电信诈骗犯罪规律以及开展有针对性的预防工作提供理论支持。
本文所用的实验数据,是经过脱敏的诈骗团伙真实通信话单数据,部分通信记录如图 1。Gephi是由各国工程师和科学家联合研发的社交网络分析工具,它适于处理动态大数据,具有可视化功能,动态分析能力强大。①邓君、马晓君、毕强:《社会网络分析工具Ucinet和Gephi的比较研究》,《情报理论实践》2014年第8期。截取话单中“手机号码”“对方号码”和“通话时长”三列,导入Gephi后生成的网络如图2,其中网络中节点的大小和颜色代表节点度,边的粗细和颜色代表权重。
图1 话单数据截图
图2 话单数据截图
在图中,节点度数的异质性非常明显。三个诈骗分子构成了网络的中心,与大量节点相连,且连边的权重较低。同时,有一个特殊节点与这三个节点都有连接,且边权重较大,初步判断该节点可能为诈骗团伙的组织者之一。进一步分析话单数据,可以发现该节点是在“对方号码”一列,对应于“NA”,即空数据,由此否定了最初的判断。但是,筛选所有的“NA”,其对应的第一列数据均为“6”(“4”表示“主叫”,“6”表示“被叫”),表明均是由“NA”拨向诈骗分子。这主要包含两种可能的情况:一是受骗者号码回拨;二是团伙组织者拨号,这里无法做出具体区分。第一种情况在其余号码中也有体现。由此,本文所建模型的演化机制主要是基于对上述特征的考虑。
图3 度分布
进一步对网络的基本性质——顶点度的频率分布进行分析:定义度分布Pk是度数为k的节点占节点总数的比值②[美]马克·纽曼:《网络科学引论》,郭世泽、陈哲译,电子工业出版社2014年版,第159-161页。,由此本网络的度分布如图 3所示,图中曲线为等式取对数后得到的拟合曲线。再对等式两侧做指数运算,可将对数关系记为:
其中C为常数,a为幂律。显然,Pk是随着k的幂变化。因此,可以简略地说明度分布遵循幂律形式。直观地理解幂律分布,即网络中度最高的节点只占节点总数的小部分,而大部分节点度数较小。通常,符合幂律分布的网络也被称为无标度网络③A-L Barabasi, Eric Bonabeau, “Scale-Free Networks”, Scientific American.Vol.288, No.5, 2003, pp.60-69.。
模拟部分真实网络的演化规律,是复杂网络研究的根本动力,也是研究人员长期探索的一个问题。本文在构建电信诈骗活动的通信网络模型过程中,借鉴了优先连接和三元闭合理论等现有的研究成果。
在复杂网络的研究中,优先连接是由Barabasi和Albert在BA无标度网络模型中引入的连接特性①A-L.Barabasi, R.Albert, “Emergence of Scaling in Random Networks”, Science, Vol.286, No.5439, 1999, pp.509-512.,即节点在新加入网络时,总是会选择与网络中度数大的节点相连接。BA无标度网络在这一机制的基础上,以节点动态增加的方式模拟了复杂网络中幂律分布形成的过程。
有研究者指出,在具有社区子图(即子图内部连接密度要比整个网络的密度高得多)的复杂网络结构中,三角形结构比例非常高②D.V.Foster, J.G.Foster, P.Grassberger & M.Paczuski, “Clustering drives assortativity and community structure in ensembles of networks”, Physical Review , Vol.84, No.6, 2011, pp.1-4.。社会学中的社会平衡理论也指出,在社会关系中,“我朋友的朋友是我的朋友”比“我朋友的朋友是我的敌人”更常见③唐杰、黄宏、张静:《社交网络的三角定律》,《中国计算机学会通讯》2016年第4期。。基于以上认知,研究人员在复杂网络模型中又引入了三元闭合机制④P.Klimek & S.Thurner, “Triadic closure dynamics drives scaling laws in social multiplex networks”, New Journal of Physics, Vol.15, No.6, 2013, pp.1-9.,即新朋友通常是经中间人加入社交网络的,在多次交互后才变为熟人。同时,早期的研究还认为,社区子图内部节点之间形成三元组的概率要高于不同子图中的节点,这一特点也已被用于社区发现算法⑤, G.Palla, I.Derényi, I.Farkas & T.Vicsek, “Uncovering the overlapping community structure of complex networks in nature and society”, Nature, Vol.435, No.7043, 2005, pp.814–818.。
由此,本文在Perra等人提出的时变网络模型⑥N.Perra, B.Gonçalves, R.Pastor-Satorras & A.Vespignani, “Activity driven modeling of time varying networks”,Scientific Reports,Vol.2, No.1, 2012, pp.1-6.基础上,结合上述研究成果,最终形成了电信诈骗活动中通信网络的理论演化模型。从原始时变模型来看,在模型演化之前网络中不存在连边,每个节点都会被赋予一个活跃度的先验概率,且这个概率是异质的⑦C.Cattuto, W.V.D.Broeck, A.Barrat, V.Colizza, J.F.Pinton & A.Vespignani, “Dynamics of Person-to- Person Interactions from Distributed RFID Sensor Networks”, PloS One,Vol.5 , No.7, 2010, pp.1-9.。随后,网络会通过两步进行演化:(1)以先验概率判断随机选择的节点是否为活跃节点,若是,便随机与网络中的节点创建连接;(2)在时间步迭代完所有节点后,删除创建的连接,并进入下一个时间步的迭代。
在演化开始时,模型初始化一个网络平均度为0,节点数为N的网络。随后,在每个时间步的迭代中,节点的删除概率为pd。若删除了该节点,则在下一时间步中添加一个节点到网络中。若节点未被删除且完成一次迭代,则更新网络中节点和边的属性信息。
在一个时间步中,若节点i的活跃参数为1,则i要么通过概率P(i)创建新连接,要么以概率(1- P(i))与邻居节点交互。后一种情况会根据边权重概率(即邻居节点连边权值比该节点所有连边权值和)选择邻居节点,递增加强权重值,并将加强后的权值更新到边的属性字典中。在前一种情况下,依据前文模型的理论机制分析,需要分两种情况考虑 P(i)的取值:当节点代表诈骗者时,节点创建新连接的概率随度数的增加而增大;当节点代表正常用户时,节点创建新连接的概率随度数的增加而减小。由于网络中两类节点的度数往往差距较大,本模型主要利用网络节点的平均度来分段计算不同的 P(i)。计算方法如下,其中a为常数,ki 为节点度,算式为:
如果节点i要创建一个新的连接,需要经历如下步骤:一是判断节点i是否会进行优先连接,若是,直接根据优先连接机制创建新连接,否则进入下一步。二是判断节点 i的度数是否为 0,若是,则随机与网络中其余节点创建连接,否则进入下一步。三是对节点i根据三元闭合机制创建连接。具体过程描述如下:首先,遍历i的所有邻居节点,以边权重概率选取一个节点n。若节点n的度为1,说明n只有邻居节点i。此时i通过随机连接机制创建新连接。然后,遍历n的邻居节点(不包含i),以边权重概率选取节点m,如果m不是i的邻居节点,则节点i要么与m以概率pt创建新连接,要么以概率(1-pt)与随机选取的节点创建新连接或加强现有连接的权重,否则加强节点i与m连边权重。该机制实现方法如图 4。四是所有节点都完成了迭代过程后,更新相关节点与边权重信息。本文采用python语言对诈骗网络的时变模型进行了再现,实现方法如图5。
图4 三元闭合
图5 时变网络模型
在上文对电信诈骗活动的通信网络进行时变模型分析的过程中,除了节点数、演化时间步及节点活跃概率等变量固定的条件下,该模型还包括参数删除概率 pd、优先连接概率 pp、三元闭合概率 pt以及累积权重R。理论上,通过控制这四个参数的变化,模型就能模拟出电信诈骗活动中的通信网络。由于聚类系数作为网络基本特征,通常用来分析复杂网络①杨强、卢罡:《博社交网络模型的建立及其性质研究》,《计算机工程与应用》2016年第12期。,因而下文就从聚类系数出发,具体分析各个参数的变化对网络结构的影响,并阐述这些变化特征是否符合实际规律。
平均聚类系数是能够体现网络中三元结构特征的参考量。局部聚类系数是面向节点的,计算公式如下:
算式中,ei是节点i的邻居节点的连边数,该式计算的是ei与邻居节点构成全连通图时边数的比值。平均聚类系数就是将网络中所有节点的局部聚类系数之和与节点数作比。图7则是在两类不同概率参数取值下,平均聚类系数的时变曲线。当其中一项概率变化时,将另一项概率参数设为 0,变化取值如图7。
图6 平均聚类系数的变化曲线
图7 网络图
对比两图的曲线斜率变化,pt对网络结构的影响更大。随着pt增加,平均聚类系数快速提高。这时,网络中的三元闭合连接大量出现。在达到最大值后,节点在现有三元结构上多次交互,或者随机创建连接的占比增加,因此,平均聚类系数会有所减小。pp对网络结构的影响是一个渐近的过程。这也符合新边产生的特征:节点以pp的概率与网络中度数最大的部分节点连接,或随机连接。随着时间步的增加,越来越多的节点与度数大的节点相连,平均聚类系数也就逐渐变大。
为了更为直观地展示pt与pp对网络结构的影响,令pt+pp=1,参数取值如表1。取500个节点,演化时间步为15000,生成演化后的静态网络图如图8。
表1 图8中的参数值
这里选取的节点删除概率较大,以避免因节点边数过多而导致网络特征表现不明显,但这也会使网络存在较多孤立节点。网络中节点的大小由PageRank①Amy N.Langville and Carl D.Meyer, “Deeper Inside PageRank”, Internet Mathematics, Vol.1, No.3, 2004, pp.335-380.值决定,PageRank值越大,则节点越大。节点颜色不同表示节点的度不同。连边的颜色表示边的介数中心度。图8表明,在pt占主导的网络中,节点趋向于形成一个个小社团,由此可以预见,若令节点数增加,pd减小,网络会演化成普通的社交通信网络结构。随着pp增大,网络逐渐向非正常社交网络演化,并出现符合电信诈骗活动中的通信网络的结构特征:少数节点与网络中大量节点相连,同时这些少数节点之间也存在连接。
基于上述分析,取能够较好模拟电信诈骗活动中通信网络演化特征的参数组“pd=5e-04,pt=0.1,pp=0.9,R=1”,为了验证网络特征在节点数大量增加的条件下是否发生变化,令节点数为5000,演化生成的静态网络如图8(此处只截取连通的节点)。验证结果表明,网络的演化情况依然符合上述特征。网络的节点度分布如图9所示,横坐标表示节点的度数,纵坐标表示相应度数的节点数。图9中度数超过10的15个节点与图8中颜色与其他部分明显不同的15个节点相对应,说明了度数小的节点占网络中的比重很大,度数大的节点只有一小部分,从而验证了演化生成的网络是符合无标度网络特性的。
图8 网络图
图9 度分布
本文提出的模型不仅考虑了网络的静态特征,也考虑了个体交互的时变性。其着重考虑了优先连接、三元闭合、权重加强机制对节点交互趋势与网络结构的影响。此外,该模型还引入了节点删除机制,通过控制删除概率的变化使生成的网络达到稳定的状态。在仿真分析中,本文提出的模型模拟了不同特征的网络,包括真实移动通信以及电信诈骗通信的时变网络,均体现出了实际网络的主要特征。最后,笔者选取了符合诈骗通信网络特征的一组参数,生成了较大规模的网络模型。验证结果表明,该模型特征符合实际诈骗网络的特点,且不会随网络规模的变化而改变。当然,需要指出的是,该模型在通过三元闭合机制模拟诈骗团伙成员之间的交互时仍存在缺陷,它会导致将较多正常用户节点之间的交互反映在诈骗团伙的通信网络中。为此,可以考虑进一步结合同配混合理论,以改进不足之处。