基于运营商大数据的反欺诈模型研究与应用

2021-10-15 01:16刘卉芳
电脑与电信 2021年7期
关键词:信令漫游欺诈

刘卉芳

(中国联通广东分公司,广东 广州 510627)

1 引言

近年来,我国通讯诈骗案件每年以20%~30%的速度快速增长,2013年至今,全国共发生千万元以上的电信诈骗案件94起,百万元以上的案件2085起。通信信息诈骗已经成为信息社会久治不愈的顽疾,严重危害公众的财产安全和社会的诚信体系,同时对运营商的企业形象产生负面的影响。要想有效治理通信信息诈骗,运营商的主动介入是其中不可或缺的环节,从源头上进行治理,将通信信息诈骗拦截在发生之前,可以帮助有效减少通信信息诈骗。对欺诈用户和过度营销用户的识别是运营商介入的首要前提条件。因此,本文提出一个反欺诈模型,通过运营商大数据分析和机器学习算法,对电信欺诈用户和过度营销用户进行甄别。模型上线以来,日均输出移网疑似诈骗用户2000左右,模型查准率可达95%以上,12321网站投诉量较应用上线前下降150%,模型应用效果显著。

2 模型构建流程

在现有的研究中,电信反欺诈模型以业务经验规则居多[1,2]。其中,韩利强[3]通过对用户短时间内拨打连续号段号码个数超限等作为判断条件进行识别,利用相应监控识别系统对骚扰电话进行拦截;石强[5]通过手机号前2位,手机号前3位,归属运营商及省分地市等特征进行多维度组合分析,得到欺诈用户的明显特征,用于反欺诈模型的建立。但是,以上研究仅从用户号码及呼叫行为进行识别,数据源类型较为单一,这可能会导致模型的识别精度下降[6]。

另外,在近几年的研究中,机器学习算法被广泛应用于反欺诈场景。在电信领域,李梦琳[7]通过构建决策树模型汇总了诈骗用户的分类规则,并且结合实际情况,给出了运营商关于电话诈骗的防治建议。在决策树的基础上,吴锡松等人[8]使用随机森林算法进一步提升模型精确度。在金融领域,仵伟强等人[9]以及吴骏一[10]将逻辑回归算法应用于金融欺诈识别领域,取得较好的工程应用效果。

本文基于上述研究,提出一个基于电信用户大数据的电信反欺诈模型。主要贡献在于:

(1)利用运营商大数据优势,在使用常规用户通话数据基础上,引入用户流量使用、位置信息、终端数据等多域数据源,综合评估选取建模因子。

(2)在关联分析的基础上,通过逻辑回归算法构建诈骗用户识别规则,并结合两者的结果,提升模型精准度。

(3)由于诈骗用户数量远小于正常用户,正负样本比例极端不平衡。本文使用360对判别结果进行验证,将打标为“骚扰/诈骗”的用户加入模型正样本中,丰富正样本数量,并通过反复迭代提升模型性能。

3 数据准备

本节详细介绍了特征选择及数据处理流程。主要包括:基于业务知识筛选诈骗用户相关因子;对数据集进行预处理,清除脏数据;对数据集进行欠采样以消除极端不平衡数据的影响;对特征进行关联分析,提取重要特征及关联规则。

3.1 因子选择

结合地市分公司业务经验以及初步数据统计的判断分析表明,一般涉诈号码会有以下几种异常行为及特征:首先,涉诈号码的流量使用异常,具体表现为诈骗号码流量使用的天数较少,且多为零流量用户。其次,涉诈号码的通话行为异常,表现为涉诈号码主叫地点比较集中,交互基站少且位置集中。涉诈号码的漫游通话记录也有着聚集性的特点,另外,漫游诈骗用户往往有着不诈骗该漫游地用户的特点,如长期漫游在茂名的诈骗用户诈骗时拨打归属地为茂名的用户较少。并且涉诈号码的呼叫频率较高,表现为单位时间内拨打用户数多,拨打重复号码极少、并且与之交互的号码也极少。最后,由于被叫用户在识破诈骗分子后,涉诈方往往会尽快挂断电话,因此涉诈号码有着平均通话时间较短的特点。

据此,初步确定以下五个行为因子,分别为位置特征(如主叫通话常在地区、使用基站数量等)、交往圈特征、通话特征(如主叫通话次数、被叫通话次数、主叫呼叫次数等)、终端特征和流量特征。

3.2 数据预处理

为了防止模型过度拟合,也为了提高关键因子的重要度,需要对因子进行降维处理,故将某些原始因子进行转换,生成一些衍生因子,如:主被叫占比=被叫通话次数/主叫通话次数、主叫接通率=主叫通话次数/主叫呼叫次数、主叫重复拨打率=对端号码个数/总通话次数。

此外,需要对空值和存在逻辑问题的数据进行处理,例如将空值转0、提出存在逻辑问题的数据等。

3.3 不平衡数据集处理

由于本次模型训练中正样本用户仅占总用户数的万分之0.033,正负样本极端不平衡。当遇到不平衡数据时,以总体分类准确率为学习目标的传统分类算法会过多地关注多数类,从而使得少数类样本的分类性能下降。绝大多数常见的机器学习算法对于不平衡数据集都不能很好地工作。因此,本文对正样本进行欠抽样,从负样本中删除属于多数类别的样本,使正负样本比例达到1:1。

3.4 特征提取

通过分析数据,可以将用户特征提取为如下几类:

(1)欺诈电话的呼叫次数

图2和图3的横轴表示号码主叫呼叫次数,纵轴为该呼叫次数的号码统计人数。从中我们可以看出,非被投诉号码主叫呼叫次数基本上都在20次以内,而被投诉号码的呼叫次数更偏向高频呼叫。

图2 被投诉号码主叫呼叫次数分布图

图3 非被投诉号码主叫呼叫次数分布图

(2)欺诈电话信令对端号码个数

图4和图5分别显示了被投诉号码信令对端和非被投诉号码信令对端的号码个数统计特征,其中非被投诉号码信令对端号码个数基本在20个以内,而被投诉号码的信令对端号码个数大多数在40个以上。

图4 被投诉号码信令对端号码个数分布图

图5 非被投诉号码信令对端号码个数图

(3)欺诈电话信令使用基站数

图6和图7显示了被投诉号码信令使用基站和非被投诉号码信令使用基站的个数统计,可以看到,被投诉号码的信令使用基站数基本上都在20个以内。

图6 被投诉号码信令使用基站数分布图

图7 非投诉号码信令使用基站数分布图

(4)欺诈电话的通话次数

图8和图9分别显示了被投诉号码和非被投诉号码的通话次数统计,其中非被投诉号码的通话次数基本在20个以内,而被投诉号码的通话次数倾向于高频通话。

图8 被投诉号码通话次数分布图

图9 非投诉号码通话次数分布图

(5)欺诈漫游用户呼叫非漫游地号码次数

图10和图11分别显示了被投诉号码和非被投诉号码呼叫非漫游地号码的次数。可以看到,非被投诉号码漫游用户呼叫非漫游地号码次数基本都在10次以内,而被投诉号码漫游用户呼叫非漫游地号码次数基本都在20次以上。

图1 反欺诈模型构建流程

图10 被投诉号码漫游用户呼叫非漫游地号码次数

图11 非被投诉号码漫游用户呼叫非漫游地号码次数

(6)欺诈电话详单对端号码个数

从图12和图13中可以看到,非被投诉号码对端号码个数基本上都在10个以内,而被投诉号码对端号码个数基本上都在20个以上。

图12 被投诉号码对端号码个数

图13 非被投诉号码对端号码个数

(7)欺诈电话主被叫占比

图14和图15分别显示了被投诉号码和非被投诉号码呼叫非漫游地号码的主被叫次数。被投诉号码主被叫占比基本在0.15以内,非被投诉号码主被叫占比则无明显特征。

图14 被投诉号码主被叫占比分布图

图15 非投诉号码主被叫占比分布图

(8)欺诈电话拨打不同号码率

从图16和图17中可以看到,被投诉号码拨打不同号码率基本在0.9以上,非被投诉号码拨打不同号码率没有明显特征。

图16 被诉号码拨打不同号码率分布图

图17 非被诉号码拨打不同号码率分布图

4 建模过程

基于上一节的分析,可以得知主叫通话次数、对端号码个数、信令使用基站数、漫游用户呼叫非漫游地号码次数、同一号码更换终端次数、流量、主叫接通率、主被叫占比、拨打不同号码率这些特征对识别欺诈用户有较高的区分能力。因此,基于这些特征作为输入,训练诈骗用户识别模型。另外,根据业务部门经验,茂名市电白区某几个村是电信诈骗分子集中地,因此在模型拟合用户特征时,将茂名市用户单独建模。具体建模过程如下:

首先,通过上述特征分析,将三个子模型用到的主叫通话次数、对端号码个数、信令使用基站数、漫游用户呼叫非漫游地号码次数、同一号码更换终端次数、流量、主叫接通率、主被叫占比、拨打不同号码率等因子作为输入因子导入模型,使用逻辑回归算法训练模型,将特征系数进行标准化,得到三个子模型的因子重要性如图18,19,20所示。

图18 漫游到茂名子模型因子权重图

其次,利用逻辑回归算法,使用最大似然估计,估算相关系数。针对上述漫游到茂名、省内欺诈、省外欺诈三种情况进行模型训练,分别得到回归方程f1、f2和f3如下:

f1=0.1447×主叫呼叫次数-0.1423×信令对端号码个数

-0.0974×信令使用基站数-11.19×同一号码换终端次数

+0.1415×漫游用户呼叫非漫游地号码次数-0.0000001987

×流量-1.411×主叫接通率-1.875×主被叫占比+0.247

×拨打不同号码率-3.103

f2=-0.7316×同一号码换终端次数+0.00000000003203

×流量+0.06849×主叫呼叫次数-0.0008352

×信令对端号码个数-0.02053×信令使用基站数+0.7791

×主叫接通率+0.05728×主被叫占比-2.811

×拨打不同号码率+0.005241×被叫通话次数-0.5864

f3=-0.4707×同一号码换终端次数-0.2152×主叫通话次数

+0.02281×被叫通话次数+0.2496

×漫游用户呼叫非漫游地号码次数+0.3004

×对端号码个数-0.00000001255×流量+0.1705

×主被叫占比-3.664×拨打不同号码率-2.359

随后,我们建立计算函数p,p的表达式如下所示:

其中:i=1,2,3,分别代表漫游到茂名、省内欺诈、省外欺诈三种情况。并对不同的诈骗情况使用fi进行计算,并代入函数p中得到判断因子。

图19 省内欺诈子模型因子权重图

图20 省外欺诈子模型因子权重图

最终,结合关联规则和上述训练好的逻辑回归公式,判断用户是否为欺诈用户:

(1)对于漫游到茂名情况,取p>=0.9为疑似欺诈用户,或主叫接通率≤0.18且信令对端号码个数≥43且信令使用基站数≤20,或主叫呼叫次数≥65且漫游用户呼叫非漫游地号码次数≥29且信令对端号码个数≥43且信令使用基站数≤20,或主叫呼叫次数≥65且主被叫占比≤0.0625且信令使用基站数≤20,或主叫呼叫次数≥65且拨打不同号码率≥0.91且信令使用基站数≤20,或漫游用户呼叫非漫游地号码次数≥29且主叫接通率≤0.18且信令使用基站数≤20,或漫游用户呼叫非漫游地号码次数≥29且主被叫占比≤0.0625且流量为0,或漫游用户呼叫非漫游地号码次数≥29且拨打不同号码率≥0.91。

(2)对于省内欺诈和省外欺诈的情况,均取p=1为疑似欺诈用户。

5 数据输出及结果验证

(1)数据输出

根据上述规则输出模型数据,对于7、8月被投诉号码查全率:漫游到茂名:96.9%,省内:67.8%,漫游到省外:33.8%。

每日输出数据量如表1所示。

表1 反欺诈日模型输出数据量

(2)自核验方法

针对业务部门反馈的模型结果难以核验的问题,引入360标记验证模型的准确性。如图21所示。

图21 反欺诈模型部署图

图21 爬虫逻辑图(360平台标记验证)

利用12321平台中被投诉诈骗的号码历史数据,分别在360、百度、搜狗三家网络平台查询号码的标记情况。结果发现,在12321平台中被投诉的恶意号码与360的号码标记库匹配率较高,也就是说,这批恶意号码在360平台号码标记库中标记为非正常号码的比率大于其余两家平台的标记比率。综合考虑,我们决定在防电信诈骗模型当中加入360平台号码标记情况作为筛选条件,利用互联网公信力作为参考,使得模型更能准确地判断疑似号码的类型以及恶意程度。

经测试,360平台目前对号码的标记类型主要有:诈骗电话、广告推销、房产中介、骚扰电话、快递送餐、招聘猎头、响一声电话、保险理财、出租车。其中:诈骗电话、骚扰电话以及响一声电话是影响最为恶劣,是投诉高发风险号码;保险理财、广告推销、房产中介类,存在被投诉骚扰的风险。

因为被投诉号码只是欺诈用户的一部分,所以用360标记用户核验模型的查准率,核验查准率:漫游到茂名:25.8%,省内:92.1%,漫游到省外:96.8%。

6 模型部署与应用

6.1 模型部署

本文提供的欺诈用户识别模型,如图22所示,已应用于“电信欺诈用户智能识别”应用。该应用包括:数据抽取、数据加工、模型规则加工、每日调度、输出模型数据、数据展示。在实际应用中,监控人员可以通过反欺诈监控平台获取广东省整体反欺诈情况,并通过下载具体疑似诈骗号码,在核验后进行关停操作。

6.2 应用效果

“电信欺诈用户智能识别”应用上线以来,日均输出移网疑似诈骗用户2000左右,模型查准率可达95%以上。累计监控可疑电信欺诈用户上千万,并对上万级的高危涉诈用户进行关停处置,对百万级的过度营销用户进行警告并给出转集团专属号段建议。12321网站投诉量较应用上线前下降150%,模型应用效果显著。该项应用实践后,通过客服劝阻成功的电信欺诈受害者共计1300户,共挽回财产损失约1000万左右。

7 结语

针对日益严重的通信欺诈行为,运营商防控任务艰巨。本文通过分析诈骗号码的特征,结合实际情况选取相关的特征因子,采用逻辑回归和关联分析训练样本,对测试样本进行分类,通过迭代训练不断提高分类器的精准度,建立了电信防欺诈模型,取得了较高的查全和查准结果。降低了诈骗号码误判率,可以有效减少员工的工作量,在实际应用中取得了良好的效果。此外,在反欺诈防控过程中,因为算法精度可能存在部分用户号码偏差,更复杂的数据类型也会导致部分用户满意度下降。因此,未来可在以下两方面进一步提高反欺诈模型的精度:(1)不断迭代模型适应不断变化的欺诈场景;(2)尝试通过孤立森林、GBDT等算法进一步调优模型。

猜你喜欢
信令漫游欺诈
新车售前维修未告知消费者是否构成欺诈
欧洲网络犯罪:犯罪类型及比例
霹雳漫游堂
霹雳漫游堂
浅谈JSQ-31 V5数字程控用户交换机NO.7及NO.1信令参数设定及不同
LTE网络信令采集数据的分析及探讨
防范信用卡申请业务欺诈风险的中美对比
边走边看:漫游海底 梦想成真
反欺诈:要防患于未然