随机森林数据挖掘技术在电话诈骗行为的方法体系设计

2022-05-30 04:12王薇钠卢忠渭张坚吴俊王振东
中国新通信 2022年13期
关键词:随机森林系统设计

王薇钠 卢忠渭 张坚 吴俊 王振东

摘要:近年来随着互联网科技的不断发展,电信诈骗现象逐年增多,直接成为威胁人民财产安全的核心所在,对此建立并完善防诈骗体系成为了预防工作的关键。本文基于数据挖掘的随机森林算法以及聚类算法技术展开了相应的综合分析,并在底层架构中的算法中置入了防范电话诈骗模型,并设计了相关的结构和系统,对通话特性进行表征分析,提升了模型的预测效率和准确度,为防范电话诈骗提供更加清晰和准确的架构体系。

关键词:随机森林;电话诈骗;方法体系;系统设计

目前,电信诈骗的形式较为严峻。大数据背景下,个人的网络信息严重威胁着人们的财产安全,对此工信部以及公安部和运营商相继发布重要整治措施,整改和预防电信诈骗事件的发生。从应用层面上来看,主要是从用户端上来综合的筛选用户的终端通讯,进而实现过滤的作用,但是这样的模式仍旧是过程处理,此时的诈骗活动已经发生,因此难以实现全面防治的效果。对此,本文针对着事前开展的过程进行综合分析,提出基于通话特征的前、中、后三级研判标准,并采用混合模型(随机森林模型、聚类模型)的挖掘技术体系对诈骗行为进行综合研判,旨在促进更好的防范电信诈骗工作。

一、防范电话诈骗体系架构

现有的防诈体制主要是在话务特征上进行用户画像的描述,因此在对于整个通讯过程来说具有一定的滞后性,无法实现第一时间的电话防范和拦截。目前大多数的数据分析过程和拦截过程主要是基于物理库存进行展开的,通过建立电话数据的黑名单制度来对号码进行综合管控。数据库存系统能够对历史号码和历史数据进行综合储存,对于可疑账户和可疑的数据信息号码进行综合储存并实现前期的预警[1]。黑名单的预警机制仅仅只是根据号码的来源来做筛选,根据可疑的电话进行综合整理,真是建立在已有的用户举报数据以及公安系统内的数据库为基础的。网址内一旦出现黑名单号码数据则会立即进行拦截处理,并在不断的拦截和信息处理过程中丰富号码的基础用户数据,促进系统整体效率的提升[2]。数据库信息系统当中对于信息的综合处理过程维度较高,为了便于后续过程的模型处理,首先需要依据号码特征进行数据信息的基础分类,涵盖运营商号码、公检法号码以及金融号码等参数。对于模型误判的诈骗号码也会实现不断的更迭优化,名单库的建立不仅仅是建模的数据基础,同时也是模型优化的关键核心。

二、基于通话行为以及数据挖掘算法的电话诈骗模型

(一)机器学习算法

机器学习的算法应用过程中,主要是将已有的数据信息导入到机器当中进行模型训练和数据处理的过程,通过数据来建立综合的信息传导模型,数据量越高、信息参数越全面,同时数据模型的优化效果就越高。依据这类型的分类形式,机器学习主要分为无监督学习以及监督学习两种形式,监督学习的过程中主要通过批量的算法进行不断的迭代计算,计算的过程当中不断丰富数值结果的质量。最终的数据结果涵盖最终的数据结果,根据数据中已含的数据标签来得到最终的综合结果。本文的数据处理过程中,主要是将黑名单中数据样本作为基础训练集,并用数据挖掘算法进行数据处理,建立相关的信息模型,最终实现实时的号码拦截和干预。在信息的预防和预警过程中,诈骗号码的分类过程并不是一个区分制的二分类问题,整体的数据表现是一个多分类的模式,不同类型的诈骗形式具有着不同的通话特性。随着电话诈骗形式的不断拓展,其基础算法的优化也需要不断的进行维护和运维,对此无监督的数据处理模式体现出了优势。无监督的学习过程主要是通过将未知数据和训练样本进行综合处理的过程,通过不同类型电话号码的通话时长、通话地域类型以及通话目标群体的画像描述,能够区分出号码的行为特征。但是随着诈骗行为和形式不断丰富多样,需要及时的调整和修改数据模型参数,以保证高质量的判断效率。结合着无监督以及有监督算法的深度融合,還能够描述不同的用户画像,进而发现全新的诈骗类型,结合着人工参数调节的不断干预,能够实现实时的参数调整,进而综合的提升模型研判的准确度和精确度。

(二)决策树算法

监督模型实现了全过程的信息监控[3],在数据挖掘和信息建模的过程中,对于同一号码的信息综合研判能够对诈骗类型进行综合区分,在准确的描述号码基础特征的基础上能够对通话信息参数作为已有的数据分类样本集,而后进行综合分类,实现号码参数的综合预测,最终判断出号码是否为诈骗号码,及时地进行拦截。过程中对于需要考虑的诈骗类型较为丰富,因此其数值模型也需要进行不断地实时调整,在数据挖掘算法的建模过程中,诈骗号码的分类本身是一个基础性的分类问题,其结果只有“是”和“否”两种结果,因此可以将其作为一个分类分析来进行综合求解,结合着通话信息作为分类号码的基础数据集来建立分类模型,实现预测式分类。考虑到分类建模的速度较快,因此决策树算法适用于大量号码的应用过程里,能够显著提升数据处理效率。对于数据信息变量较多的参数,可能会对判断过程产生误差的影响,因此本文的设计环节中还重点选取了随机森林的方法对数据信息进行二次处理,尤其是对候选变量的信息参数进行重要性综合评估和评价,参照着重要程度进行综合评分,对于选取到的重要性评分较高的变量来作为信息和模型处理的核心变量,实现数据的清洗和数据预处理,对于达到一定准确率的信息参数来进行综合判别。

(三)聚类算法

在本文进行大量样本的数据训练过程中,发现诈骗电话具有着相似的粘片特征,在进行随机森林数据处理后还可以通过聚类分析的方法来综合的提取诈骗特征,实现诈骗号码的综合性描述,其中K-means算法是聚类分析算法的典型代表,综合选取了号码的基础特征和通话行为属性作为信息参数处理的基础,来进行模型的建立过程。由于现有的诈骗号码类型较多,通过聚类分析的过程能够从数据的处理过程中综合提取聚类中心,并且计算各个诈骗号码的集合聚类中心的属性差异性,最终在不断的迭代计算过程中逐渐收敛,得出不同诈骗类型的基础信息参数和通话行为特征,建立了相关的数据模型集。通过黑名单的电话数据分析还能够深度聚类出不同数据库之间的诈骗类型。

三、基于号码基础特征的防范电话诈骗模型

通过算法处理后的数据具有着一定的规律性,最终对信息处理的过程能够有一定的铺垫性,在数据处理的过程中需要综合考虑诈骗号码存在诈骗的行为特征后才能被系统识别为是诈骗电话,最终对电话通讯过程进行拦截,基于号码的基础性特征的防诈骗电话能够有效地弥补传统挖掘模型的缺陷,实现了前置性拦截的过程。从实际诈骗行为的发生过程来看,大部分的诈骗活动都是以团伙作案的形式进行的,甚至是其身份和地点以及漫游地都存在着一定的集中性。针对上述特征活动的综合分析后,能够初步建立防范电话的诈骗类型,具体的判别调节和判别形式主要是依据套餐的月租和激活时间进行综合的数据研判。同时在算法构建的过程中也可以针对可能存在的疑似诈骗电话进行拦截,在算法侧设置相关的定义条件,有效地提升了拦截效率[4]。相关的标签设置情况如图1所示。

根据前线专员多年的反诈业务经验反馈得知,在电信网络诈骗犯罪中诈骗犯罪的手段众多,嫌疑人单打独斗的情况极少,绝大多数是以职业化特征明显的团伙形式进行作案。从犯罪形式来看,不同团伙采用的手段各异。例如:冒充正规机构发送诈骗短信,伪基站发布诈骗信息,境外虚假改号,利用黑客软件、恶意群呼等形式众多,不同团伙的作案反映在话单历史记录上表现出的行为特征也差别很大。由此,可将诈骗电话识别问题抽象为一个多分类问题,方法上也无法用单一的模型进行预测结果输出因此需要耦合随机森林和聚类分析二者的综合优势来记性判断。系统的挖掘过程需要依据着多种不同的话务行为异常特性来进行综合判断,设计不同的场景策略来进行多场景的综合输出,进而提升平台的诈骗电话综合识别能力,也有助于模型上线后进行点对点的改进、持续迭代,促进其保持较强的识别能力和数据处理能力。

采用运營商的数据采集、数据清洗以及数据的标准化处理能够综合的提取相关的业务特征,并且对已有的过滤数据采用统计学和分类识别的模式综合分析诈骗号码的实施行为,形成适用于不同场景的电信诈骗号码检测模型。本方法的检测场景主要涉及的领域有:沉默卡复活、漫游话单涉诈、新开卡涉诈等。技术方案的落地分为场景定义、风险识别、综合评分3个环节,最终完成模型在系统层面的固化。模型训练的过程如图2所示。

(一)风险场景划分

对诈骗号码的话单行为进行分析,对多场景进行特征提取,输出各场景的涉诈风险分值,方便模型可调可配。并且基于历史情报库进行特征预测效果校验,确保进入模型的特征能有效反映异常行为。技术上采用用户画像技术,通过用户基础属性、行为特质的多维度特征和基线值进行对比,不同场景下特征和基线值偏差的程度不同,以此划分场景。这是数据算法信息处理的通用步骤,但是由于各地方的电信诈骗手段有所区别、诈骗团伙作案手段变化速度快,落地的具体方案还需分析结合着实际的通话记录来进行补充和细化。

(二)风险识别

考虑到部署模型对全网号卡进行实时检测需要消耗大量算力,为增强实施方案的可行性,其风险识别的过程主要是通过两步走的形式来进行综合辨析。首先通过业务数据分析生成过滤条件,筛选低危疑似号码;再通过有监督模型构成多个涉诈高危号码检测策略,输出可信度更高的结果。核心的涉诈高危号码主要是涵盖主动分析模型、基于短信特征的主动分析模型、基于流量特征的主动分析模型以及基于黑样本的被动分析模型等模型。通过通话、短信、流量行为的特征分析和模型落地,能够实现基于用户异常行为判别的主动分析过程。模型构建流程主要涵盖业务分析、模型训练、模型预测等多个过程。其中为了应对诈骗团伙的反欺诈手段变化,对反诈平台内的专家规则——阈值类的研判场景,构建模型算法进行阈值推荐和自动化更新。规则或模型均根据滑动窗口时期内的历史数据,定期自动生成符合现状的阈值或模型参数,并更新至离线分析策略或统计类模型中。

(三)综合评分

评分体系需适应于应用方的实际业务场景和诈骗号卡重点打击对象,例如:基于新开账户的政企用户评分卡、个人用户评分卡、新开卡评分卡等。最终根据风险分值,输出对应的黑白预测样本数据到相关接口。用户的风险评分阈值由模型实现智能推荐,也可根据关停号码量的需求进行调整。

四、案例分析

首先对案例进行综合辨析,根据单维度进行特征筛选,再加入跨维度的特征并且使用基于Boosting的集成算法,相比传统的仅基于通话行为的特征或不考虑跨维度特征,本方案提出的识别模型的预测效果更好,且多维特征提取更加直观反映了诈骗用户群体是短信作案、电话作案还是网络作案。剔除了过去一年里没有任何短信、语音话单记录的号码,训练集和测试集共1441471条正样本、19713个正常号码,11273条负样本、848个标记涉诈号码,随机抽取30%的用户作为测试集。根据各单维度特征和采用多维特征进行随机森林算法建模,最后进行测试集涉诈号码预测的准确率回测和比较的结果。结果显示,多维特征融合模型值准确率、查全率上都要优于其他单一维度模型。加入跨维度特征的融合模型预测效果在准确率上明显优于不加入跨维度特征的融合模型,但查全率有所下降。是否加入跨维度特征,可基于现实预测目标进行调整。如果更注重模型识别的全面性,难以接受负样本的漏过,建议使用不加跨维度特征的融合模型。如果更注重模型识别的准确性,难以接受正样本被误判,建议使用加跨维度特征的融合模型。

五、结束语

本文结合着数据挖掘的随机森林算法以及聚类分析算法对诈骗电话的号码基础信息特征以及通话行为进行综合建模,实现了诈骗电话的综合判别和研析,实现了诈骗电话和诈骗号码的实时拦截和分析,具有着时效性高并且更新速度快的基本优势,提升了数据信息系统的应用效率。

作者单位:王薇钠    卢忠渭    张坚    吴俊    王振东    中国电信股份有限公司杭州分公司

参  考  文  献

[1]刘惠彬.数据挖掘及大数据分析技术在反网络欺诈中的应用[J].中国新通信,2019,21(01):82-84.

[2]陈郝鸫,山丹,赵安晓宇.电信网络诈骗犯罪预警实证研究[J].新疆警察学院学报,2020,40(03):31-40.

[3]白晶晶,张利宏.基于大数据挖掘技术的诈骗电话识别与管理[J].长江信息通信,2021,34(05):126-128.

[4]刘宗妹.区块链助力电信网络反欺诈协同治理[J].信息通信技术与政策,2021,47(03):61-65.

猜你喜欢
随机森林系统设计
随机森林在棉蚜虫害等级预测中的应用
基于二次随机森林的不平衡数据分类算法
拱坝变形监测预报的随机森林模型及应用
一种基于SATA硬盘阵列的数据存储与控制系统设计研究
基于随机森林算法的飞机发动机故障诊断方法的研究
目标特性测量雷达平台建设构想
信息管理服务平台项目应用系统设计探析
基于随机森林算法的B2B客户分级系统的设计
基于多视角特征融合与随机森林的蛋白质结晶预测