杜宇
摘 要:本文基于信令大数据分析和建模思路,完成高频高量呼叫的识别模型的研究,以危害网络安全行为分析为主,整合网络信令数据源,利用用户行为数据进行建模,定位非法养卡用户,实施精确打击,达到利用现网数据合理识别与拦截的目标。综合建模分析,获取疑似猫池卡号及使用位置,通过BOSS系统用户付费行为、业务使用情况、营销活动等用户签约信息。
关键词:大数据 机器学习 猫池养卡
中图分类号:F713.51 文献标识码:A 文章编号:1674-098X(2019)06(b)-0133-02
挖掘“猫池养卡”行为研究通过全网信令数据、以及第三方平台(打码平台、薅羊毛平台等)等多渠道的数据,综合建模分析,获取疑似猫池卡号及使用位置,通过BOSS系统用户付费行为、业务使用情况、营销活动等用户签约信息,进一步精确确认疑似号码,同时获取终端及位置,最后对疑似猫池卡号进行人工确认后进行拦截。
猫池卡号识别与监控系统主要分为五大方面的能力,主要包括猫池养卡号码识别、猫池养卡终端识别、设备准确定位、机器学习优化挖掘模型和系统管控能力。
总体系统设计分为5个部分,包括数据采集、数据计算、数据挖掘及存储、用户拦截及效果展示。
1 工作流程
1.1 底层数据接口
由运营系统数据、信令数据以及爬虫获取的第三方数据接口组成,这些数据作为底层数据供大数据存储与分析平台使用。
1.2 大数据存储与分析平台
大数據存储平台由Hive数据仓库、Redis数据库、MySql数据库组成,Hive文件主要存储采集预处理后的源数据,数据量比较大,Redis数据库主要存储数据分析中的相关维表,MySql作为向外部提供分析结果的数据库,展现和接口提供的分析结果存在MySql中。
大数据分析平台从底层数据接口中提取相关数据文件,然后解析文件里的每条数据,对数据进行简单的清洗,过滤掉无效的垃圾数据,并将数据存入相应的hive数据库中[1]。
1.3 模型层
由MapReduce以及hive定时任务组成,将分析平台存入hive数据库中数据做进一步分析,通过基于规则模型识别疑似猫池号码。
1.4 结果输出
根据结果形式以及客户的需求,将分析结果以文件、报表、接口或者其他形式提供展现。
2 目标用户特征挖掘
2.1 特征提取
特征提取涵盖两大类数据源:信令和BOSS数据。信令数据又进一步细分为通话行为数据、短信行为数据、开关机行为数据。BOSS数据又进一步细分为消费信息、业务量信息、套餐信息、终端信息、开户信息。
进一步整理细分,提取信令和通信行为两大类8大维度共50多个特征,如图1所示。
2.2 特征分析
根据统计,使用猫池养卡的人群中约有15%~20%左右用来“薅羊毛”(即通过验证码套利、抢佣金等享受优惠),而约70%是用这些手机号生成的账号来欺诈。
对上节提取的特征进行分析,正常号码与猫池号码在某些特征上具有显著区别,提取全部特征点。
3 猫池养卡识别模型
根据典型的使用场景将猫池判定模型细分为3类,提取关键特征建模使用。
场景一:猫池养卡号码用于诈骗/骚扰电话(呼死你、响一声、高频间隙呼叫)。
特征:在通话量、通话时长、通话频率、释放时长、使用流量和用户消费等与真实用户存在差异。
场景二:猫池养卡号码用于诈骗/骚扰短信。
特征:在短信发收量、短信发收频率、短信发收用户数、使用流量等与真实用户存在差异,增加开机时长和天数等参数,从信令角度对话单中无法显示或无法有效分析的维度进行补充。
场景三:猫池养卡号码用于“薅羊毛”。
特征:该类号码主要用来接收平台端的短信,因此其接收的短信主要以106开头,其占比超过90%,并且其发送短信量较少。可以具体分析短信中的社交信息,结合用户消费信息和其他相关特征进行分析。
3.1 模型优化
噪音特征的删减是一个优化模型的手段。上诉过程中,可能引入对于分类问题无帮助的特征,无形中浪费了计算力,更糟糕的情况是,有的噪音特征不仅只是对分类问题无帮助,而是直接拉低了模型的识别能力。识别噪音特征的方法之一是基于丰富的业务知识做特征选择和试验,此外另一种方法则是对数据的特征做统计分析,这在缺少对业务的把握能力时具有很高的现实意义[2]。
此外结合具体的情况调节算法本身的相关参数也可起到一定的优化效果,例如在本案例中,调整近邻参考个数,从而改进模型的识别效果。
随着模型的深入使用,样本数据可能会收集的越来越多,养卡样本数据量的增加,也会反向促使模型的识别性能更加优良。
3.2 猫池卡号拦截
针对每天识别的疑似猫池养卡号码送至骚扰电话监控系统进行二次人为确认和拦截,确保猫池号码得到及时处理,拦截后的结果返回猫池卡号识别与监控系统,再次以周为周期自动通过决策树和支持向量机算法模型智能优化调整,获取最佳识别模型。打击猫池养卡行为,打击囤卡和套利网点,减少非法投票、广告传播、非法诈骗等造成的垃圾短信、骚扰电话困扰正常用户。配合公安部门打击非法营销、诈骗现象。
4 结语
针对养卡行为难以通过具体业务指标参数进行识别的特点,采用了基于机器学习的建模方式,通过行为模式内建,规避了养卡行为难以把握的问题。养卡行为识别之所以一直是一个难点,其主要原因就在于养卡行为的行为模式本身变化多端,难以把握。不同阶段,养卡诉求的不同,养卡行为的模式往往随之变迁,传统的建模方法在这种情况下,则可能需要完全从头开始建立一个新的模型,因为老模型已经无法体现当前的养卡行为模式。本成果通过采用机器学习理论建模,让养卡行为模式自动内建于模型之中,而不是人为设置具体的业务指标阀值进行控制,规避了养卡行为不好把握的特点。
参考文献
[1] 赵庆.基于Hadoop平台下的Canopy-Kmeans高效算法[J].电子科技,2014,27(2):29-31.
[2] 温瑞军.移动代理商渠道养卡套利行为识别与治理[J].电子技术与软件工程,2015(3):54-55.
[3] 万旭.基于Hadoop平台的聚类算法研究[D].西安电子科技大学,2016.