[李力卡 马泽雄 陈庆年 陶启茜]
大数据技术在防诈骗系统应用及运营实践
[李力卡 马泽雄 陈庆年 陶启茜]
当前电话诈骗高发势头未能得到扭转,已经成为社会公害。从运营商海量数据中有效精准分析、预测诈骗行为,大数据技术是不二之选,在网络监测、管控上事半功倍,有效解决了诈骗电话难发现、难溯源、难拦截等业界难题,并在实际运营实践取得了良好的效果。
电话诈骗 大数据 网络监控
李力卡
大学本科,高级工程师,现于中国电信广东研究院工作,主要研究方向为核心网络、大数据产品的关键技术研究
马泽雄
大学本科,高级工程师,现于中国电信广东研究院工作,主要研究方向为核心网络、大数据产品研究应用与管理。
陈庆年
硕士研究生,高级工程师,现于中国电信股份有限公司广东分公司网运部工作,主要研究方向为固网、IMS网络、CDMA网络的维护管理
陶启茜
大学本科,高级工程师,现于中国电信股份有限公司广东分公司网运部工作,主要研究方向为固网、IMS网络、CDMA网络的维护管理。
通信诈骗本质上是金融诈骗,作案分为3个主要环节,传播环节、危害环节和套现环节。其中传播环节可能采用电话、短信或互联网等多种单一手段,而危害环节主要通过电话或QQ/微信复合手段作案,到了套现阶段用户损失已经难以挽回,往往消耗大量警力收效甚微。为此,需要在通信网源头反制,采用大数据技术进行分析预判,主动防御,方能事半功倍解决难题。
通信诈骗已经成为社会公害,本质是金融诈骗,而最早经典骗局是尼日利亚骗局。目前犯罪分子更能借助高科技手段如VoIP、改号软件、短信群发器等,突破运营商监测体系,实施跨网、跨省、跨境的精准作案。报告显示,从身份假冒类诈骗的细分类型分布可以看出,骗子最喜欢假冒电信运营商占比达到26%;其次是假冒领导,占21.2%;排名第三的是假冒快递,占14.3%;接下就是假冒医保、社保机构工作人员,占12.5%,假冒“有关部门”人员的占5.7%,假冒商家客服人员的占了5.7%,假冒银行工作人员的占5.3%,假冒公检法干部的占3.9%,假冒学校老师的占2.9%等。但从案值来看,假冒公检法、假冒领导熟人危害最大。
根据工信部的定义,“通信网络的语音信息中,具备以下一种或多种特征的即是不良语音信息:①语音信息包含违法内容;②语音信息使用违法违规设备或技术手段;③呼叫行为异常;④违背用户主观意愿的语音信息,常引发用户投诉或举报。”
从运营商网络防范角度来看,在不能监听语音的情况下,基于号码监控体系难以适应目前诈骗分析需求。
首先,主叫鉴权在始发局,而网络全球化市场化日益充分,加上漫游特性和改号软件,带来诈骗号码管控难;
其次,运营商信令监测分析系统仅能对异常主叫号码形态分析,存在局限性,只能对号码形态(位长、数字)不能对内容特征、违规设备进行有效分析,难度极大。
三是拦截能力有限,由于通信网络原有拦截能力有限,只能支持一定量相对高频固定号码的定点拦截,因此无法适应多变诈骗号码的拦截。
针对以上不足,要实现对通讯信息诈骗的智能化、动态化、自适应监控能力,需要建立以下主动发现、拦截干预和运营管理三方面6类功能:不良呼叫/信息的监测、智能分析、拦截处置、风险提示、指挥协同、用户通信安全等,如图1所示。
图1 防信息诈骗技术能力体系
其中第二步不良呼叫/信息的智能分析,是关键中的关键,也是业界难题。
本方案借助网络大数据技术,在通信网之上叠加建立主动发现、主动防御的新型系统以建立完整的反应链。该系统将提供三位一体的防诈骗能力:
(1)智能识别+线索追踪+业务拦截一体化防诈骗能力;
(2)系统能实现通讯网不良号码、录音语音、诈骗短信三层分析+拦截功能。
采用大数据技术构建防诈骗系统是必然的选择,因大数据系统具有以下特点或优点:
(1)数据汇聚能力强;
(2)支持实时流处理
(3)支持多种精准分析模型挖掘,适应多种场景的分析判别;
(4)数据接口丰富灵活;
(5)开源技术成本低。
3.1 功能架构的实现
防诈骗系统的整体系统功能架构如图2所示。
图2 防诈骗系统总体功能架构
系统架构包括基础设施层、通过标准接口,进行数据汇聚,建立以挖掘模型为核心的三大子系统及服务门户,对外提供系统门户、应用接口、服务接口。
3个主要应用子系统根据电话号码、电话语音、短信3个功能群划分:
(1)诈骗号码分析子系统:基于恶意行为特征号码的大数据分析引擎,支持主动发现、预警及溯源分析,拦截默认采用网络定向和全局拦截。
(2)诈骗短信分析拦截子系统:根据诈骗短信行为特征和内容进行大数据分析引擎,支持网络拦截。
(3)诈骗语音分析拦截子系统(可选):基于诈骗语音信息与行为特征分析拦截平台,并针对录音或音频诈骗电话快速实现区域化拦截,鉴于语音监听法律问题需要。
3.2 大数据技术架构的应用
为解决海量数据分布式处理、准实时预警等关键问题,采用一系列先进的大数据技术构架。
(1)基于hadoop集群的海量存储和数据仓库,用于解决海量数据的清洗、去重、排序和计算输出结果,主要包括每个呼叫的ETL结果和灰名单呼叫清单、统计报表等。
(2)准实时流式计算架构解决方案,为实现海量大数据的计算能力,采用了spark和spark streaming的准实时批处理计算架构。
spark较Hadoop 的map/reduce分布式计算架构而言,使用内存来避免频繁低效的磁盘I/O操作,在对付复杂或迭代算法时性能极大提高,可媲美实时处理性能;而且spark较传统实时分布计算引擎的storm更优,因为spark的理念是将计算过程传递给数据,在数据庞大时性能优势尤其突出。
而且spark生态圈逐步完善,未来可兼容各种数据接口,调用更多开源工具或API。
系统进一步将spark与hive、kafka、MySQL等工具组件互相协作,充分发挥不同组件的优势,在综合性能上达到业界先进水平。经试验。系统可有效应对全省每天数以亿计的大量实时信令的关联处理、数据快速分析与准实时数据推送。
(3)数据库解决方案:数据库是大数据的基础,系统采用开源的数据仓库hive、hdfs来满足大容量的存储和分布式计算需求;针对前端应用则采用MySQL、Redis,支持关系数据表复杂SQL和结构化数据的应用。
(4)大数据工具:为提升系统操作反应速度,实现高性能查询,应用了impala等分布式数据查询工具,速度提高10倍,如图3所示。
图3 防诈骗系统大数据平台技术架构
3.3 大数据防诈骗分析挖掘技术
针对诈骗识别难、命中率低等问题,尤其在不能取得语音内容的情况下,要能对诈骗行为进行有效精准识别是非常困难的。
系统通过汇聚固网、移动网的信令数据、短信数据,进行有效清洗,建立一系列特征向量,主要为技术特征指标(P1)、呼叫行为特征指标(P2)、用户反馈指标(P3)等3类不同等级的指标体系,如虚假号码、强度异常、呼叫分布、位置区域、接通/呼损、接续时长等多维度向量群,满足工信部相关技术要求,本系统更具有路由溯源、主被叫相关性、号码成分、相似性、一卡双号关联性等多项特色的创新关键特征供分析。
系统目前已固化形成五类10多种精准模型,包括非法发话、恶意骚扰、假冒诈骗电话、银行账号、钓鱼网址短信等,实现早期预判、一网打尽。
系统不同模型各自独立,并行计算或迭代回归;支持新模型的扩展和灰名单的反复洗白。我们结合被叫回访、网络确认、公安合作等手段,确定了正样本和负样本上万条,进行数据训练达到200多万条。因此,在诈骗信息的查全率、精确率上较一般系统优势明显,各项指标均业界领先。
以假冒诈骗模型为例,目前已经可以根据全网局点、基站信息和位置,可以确定每个主叫的真实来源,同时已获取300多个行业特服号码以及大量公检法号码,以便确定是否虚假号码,同时结合行为特征识别恶意行为,根据主叫行为、主被叫通话行为关系特征等异常情况,应用了分类、决策树等算法,智能预测假冒公检法、假冒熟人领导等高危害的涉嫌诈骗号码,如002087504234假冒广州市公安局,0021034074800、00882134074800假冒上海市公安局某分局。
诈骗短信模型研究方面,已有能力针对点对多点/多点对多点相似重复短信,首先给予行为特征识别主叫成分、被叫关系、频次、来源分布异常,其次针对携带的信息内容进行特征分析,如银行账号规则(Luhn算法)、钓鱼网址、电话号码等,进行分类、聚类、决策树算法实现极高精准分析。
4.1 防诈骗运营技术体系
系统在集团、省现网部署后,应依托防范通讯信息诈骗系统,建立集团-省,省-市两级一体化的主动式防诈骗运营工作体系。主要目标是:
(1)自主发现:我省诈骗电话、短信的主动发现;
(2)主动防御:指导、协调省市一体化开展工作,实现快速响应、精准研判、精确处置的全流程闭环;
(3)高效协作:通过技术手段打通处理流程;
(4)有效管控:跟踪闭环评估防范效果。
防诈骗运营体系工作流程尚在探索中,以某省防诈骗运营体系为例,建议如下:
(1)明确指挥协同部门;
(2)围绕防诈骗系统后设立防诈骗技术运营中心,负责防诈骗技术手段、技术研判、灰名单库管理及系统运营支撑;
(3)省级NOC、分公司负责执行监控、研判、处置、市场客户沟通等。
工作界面如图4所示。
图4 防诈骗运营体系建设
其中采集固定证据进行研判新增较多工作量,在处置上注意解决好跨部门、异地协作情况可能遇到困难较大,需要通过派单系统贯穿流程保障效果。
4.2 防诈骗运营问题和建议
在实际运营中,从自主发现、分析研判、问题流转分级、问题处置4个环节中,在相关环节存在一些待具体问题,对处置效率、质量影响比较大,如图5所示。
图5 诈骗信息的主动处置流程
(1)分析研判:直接评判难度大,在钓鱼阶段,诈骗目的并不明显,一些打着幌子的广告类骚扰与诈骗差异不大,如投资理财、借贷、教育等,有报告显示大约40%此类骚扰属于诈骗,在不能大范围语音监听的情况下,需要对大量被叫回访造成骚扰。
(2)问题流转与分级:需要跨单位、跨部门核对用户身份、网络接入、服务合同是否违约行为,涉及的前后端部门众多,下至客服、发卡渠道,上至集团、通管局等上级部门协调,流转周期长。
(3)问题处置:从源头控制、发端拦截原则出发,首选关停,次选网络拦截。在没有上级部门依据下,自主关停涉及违约处置、客户申诉,流程并不直接和清晰。
因此,在处置过程中,需要将流程可通过大数据固定证据、透视本质等优化决策体系,借助IT系统缩短决策时间,通过优化管理流程,将可有效提升处理效率。
4.3 防诈骗应用效果
大数据防诈骗系统在中国电信集团和省层面都得到推广应用,已覆盖国际局,DC1部分省及广东省内区域近亿用户,日均处理呼叫信令3亿条目前仍在扩大,发现灰呼叫4000万次/日,形成集团级灰名单库累计上千万个号码,其中按灰号码个数统计60%为非法号码(国际为主),按灰呼叫量统计96%为恶意/超短骚扰话务,并主动发现隐匿河源、茂名、惠州、东莞等地固话、手机恶意诈骗点30余处。
图8 Kinect捕获行走和跳跃姿势以及3D模型做出的相应姿势
本文描述了如何利用Kinect获取人体运动的三维深度信息,然后从三维深度数据中提取人体数据,并利用Kinect for Windows SDK2.0中进行骨骼关节点定位以及提取人体骨架系统。接下来本文提出并重点介绍了泰勒滤波平滑处理算法,以及如何利用该算法对人体骨骼数据进行平滑处理,并对该算法进行了仿真测试,解决了当人体肢体有重叠时,造成肢体末端抖动的问题。接着,本文简单地介绍了人体3D建模,骨骼绑定以及运动重定向算法,参考了杨熙年[7]等人的运动重定向算法解决了3D模型在运动时滑步以及肢体穿透等问题。最后本文对系统的界面和功能进行了介绍和演示。
在某些应用场景,如游戏动作设计,我们需要将录制好的动作数据保存,并对多余的动作数据进行剪辑操作。在游戏需要触发的时候,再来驱动模型运动。因此,动作数据录制和剪辑功能将是下一步的工作重点之一。
1马庆.基于Kinect的实时人体动画合成及重定向技术研究[D].浙江,浙江工业大学2012
2Lin Yang,Haiwei Dong,Abdulhameed Alelaiwi and Abdulmotaleb El Saddik,"Evaluating and Improving the Depth Accuracy of Kinect for Windows V2," IEEE Sensors Journal,vol.15,NO.8,pp.4275-4276,Auguest 2015
3A.Kolb,E.Barth,R.Koch and R.Larsen,"Timeof-flight sensors in computer graphics,"in Proc,EUROGRAPHICS,2009,pp.119-134
4H.Sidenbladh,M.Black,L.Sigal.Implicit probabilistic models of human motion for synthesis and tracking[C].Copenhagen:Computer Vision,2002:784-800
5杨文超,吴亚东,赵思蕊,冯鑫淼.智慧家庭管家设计与实现[J].人工智能,2015,30(4):81-83
6DL James,CD Twigg.Skinning mesh animations[C].Los Angeles:Association for Computing Machinery,2005: 399-407
7杨熙年,张家铭,赵士宾.基于骨干长度比例之运动重定向目标算法[J].中国图象图形学报,2002,7(9): 871-875
10.3969/j.issn.1006-6403.2016.10.001
(2016-09-22)