郑雪辉 熊俊
摘要:在风控流程中,需要针对用户提供的各类信息进行资质筛选或风险评估,根据评估结果,提前发现各类潜在风险,一般会利用综合模型和人工审核来实现。而用户在注册、申请等各个环节都会提供基于LBS的信息,人工审核会根据各个环节的LBS信息进行比对,根据经验判断用户案件是否存在欺诈伪冒等各类风险,如在某些账号被盗案件中,用户近期提交的LBS地址会出现异常的偏移。在实际应用过程中,人工审核方式常会出现一些识别误差。鉴于此,文章提出基于LBS的识别算法,其主要作用是取代人工审核对LBS信息进行比对,通过机器学习的方式提升风险识别效率。本算法通过分析客户在产品使用各个流程的LBS信息来形成用户的行为轨迹,利用机器学习XGBoost算法建立风险识别模型,通过对用户行为轨迹分类来量化识别风险。最后,通过实验详解基于LBS的风险识别算法,证明基于机器学习的算法优于人工审核。
关键词:LBS;风险识别;XGBoot
中图法分类号:TP309文献标识码:A
Risk identification algorithm based on LBS
ZHENG Xuehui,XIONG Jun
(Shanghai Urban Construction Vocational College,Shanghai 201415,China)
Abstract:In the risk control process, it is necessary to conduct qualification screening or risk assessment for all kinds of information provided by users, and according to the assessment results, potential risks are found in advance, and generally comprehensive models and manual audits are used to achieve this process. The user will provide LBS-based information in all aspects of registration, application, etc., and the manual review will compare the LBS information according to each link, and judge whether the user case has various risks such as fraud and forgery according to experience, such as in some account theft cases, the LBS address recently submitted by the user will be abnormally offset. In the actual application process, there are often some identification errors in the manual review method. Therefore, this paper proposes an LBS-based recognition algorithm, which mainly functions instead of manual review of LBS information comparison, and improves the risk identification efficiency through machine learning. This algorithm forms the user's behavior trajectory by analyzing the LBS information of each process used by customers in the product, establishes a risk identification model by using the machine learning XGBoost algorithm, and quantifies and identifies the risk by classifying the user's behavior trajectory. Finally, the LBS-based risk identification algorithm is explained in detail, which proves that the machine learning-based algorithm is better than manual review.
Key words: LBS, risk identification,XGBoot
1 引言
互聯网的快速发展以及智能终端的普及,使得人们足不出户就可以通过网络办理很多业务,如网上购物、电子银行等。但随之也会面临一些风险,如欺诈、伪冒、盗用、用户资质低等。
现有的技术对于 LBS 信息的使用基本还停留在地址的比对上,LBS 信息使用的维度比较单一,并且每次出现一个新的案件后,需要由审核人员查看多条 LBS 信息,勾稽比对后判断案件风险性质。用户在注册、申请等各个流程环节都会提供基于 LBS 的信息,其中基于位置的服务( Location Based Services,LBS)能够获取用户移动轨迹,并在一定程度上反应用户位置信息,这导致需要专门人员去做审核,人工判断标准的差异容易造成风险识别率不高,而随着案件量的增大,人工抽样的样本量每天是有限的,容易忽略某些 LBS 信息异常造成的潜在风险。
使用本文提出的基于 LBS 信息的全流程用户行为轨迹风险识别方法后,通过现有业务风险的标记,如伪冒、盗用、用户资质低等,将与 LBS 相关的各类信息根据时间维度加入模型中,形成大量 LBS 行为轨迹特征,结合XGBoost算法对样本进行分类。在模型判断出用户 LBS 行为轨迹存在风险后,便可以模型分类结果进行批量自动化审核,释放人力,从而实现智能风险识别的目的。
本系统能够取代传统人工审核的 LBS 地址比对,实现自动化审核,节省审核的人力资源。本系统能够涵盖 LBS 相关的各个维度信息,由传统的简单 LBS 单点信息,扩展形成全流程各个时间段的 LBS 行为轨迹,更加全面地评估 LBS 存在的潜在风险。本系统基于机器学习XGBoost算法,利用大量 LBS 行为轨迹特征进行模型运算,从而根据模型结果得到更精准的风险识别方法,弥补人工识别准确率的不足。
2 数据选取方案
数据获取阶段主要是获取申请用户的设备信息(包括 MAC 和 IMEI 等)、申请时的 LBS 地址信息、用户的通信录信息,并在此过程中判断是否获取成功,如若获取失败,需要做缺失标记的处理,最终存储作为原始数据(图1)。
3 算法描述
本算法技术包含4个重要步骤(图2)。
步骤1:将风控案件对应的 LBS 信息导入,其中包括回溯时间、LBS 地址、LBS 关联案件、LBS 关联城市标记等。本算法中,所述风控案件的全流程包括风控案件从第一次业务流程到最近一次处理业务流程期间的所有业务流程。其中,所述业务流程包括注册、登录、交易等。以账号被盗案件为例,账号被盗案件的全流程包括从账号注册到最近一次业务期间的所有业务流程,包括该时间段内发送的所有账号注册、账号登录、账号取款、账号转账、账号存款等业务流程。所述与案件风险相关的 LBS 信息涵盖 LBS 相关的各个风险维度的信息,其不仅包括 LBS 地址,还包括与案件风险相关的 LBS 信息。其中,所述风险维度信息是以可能产生风险的因素作为维度的信息,如回溯时间等。本算法中,所述与案件风险相关的 LBS 信息包括回溯时间、LBS 地址、LBS 关联案件、LBS 关联城市标记中的至少一种。所述 LBS 关联案件是指全流程中获取的所有 LBS 地址相同的案件,所述 LBS 关联城市标记是根据风控案件对应账号的常住城市、出差城市、旅游城市等作的标记[1]。例如,将风控案件对应账号的常住城市标记为 C,将风控案件对应账号的出差城市标记为 N,将风控案件对应账号的旅游城市标记为 L。
步骤2:根据导入的 LBS 信息,通过时间和空间维度加工成案件的各种行为轨迹特征。
步骤3:采用XGBoost机器学习算法,加入步骤2中的行为轨迹特征进行运算,根据风险类型,调整模型参数,训练得到准确率高稳定性好的模型。具体而言,将行为轨迹特征输入预设模型中进行训练。所述预设模型优选为XGBoost模型。XGBoost算法采用 CART 树作为模型,针对分类问题,由于 CART 树的叶子节点对应的值是一个实际的分数,而非一个确定的类别,这将有利于实现高效的优化算法。此外,XGBoost模型在求解损失函数极值时使用了牛顿法,将损失函数泰勒展开到二阶,另外损失函数中加入了正则化项,从而能更高效地实现包含大量变量特征的分类运算。
步骤4:部署模型至风控决策系统,之后进入的案件就可以调用训练好的模型,计算出模型结果,并根据模型结果识别潜在的风险。
4 实验
该示例性实施例的电子设备400以通用数据处理设备的形式表现。电子设备400的组件可以包括但不限于:至少一个处理单元410、至少一个存储单元420、连接不同电子设备组件(包括存储单元420和处理单元410)的总线430、显示单元440等。其中,所述存储单元420存储有计算机可读程序,其可以是源程序或是只读程序的代码。所述程序可以被处理单元410执行,使得所述处理单元410执行本算法各种实施方式的步骤。图3所示为系统结构。
所述存储单元420可以包括易失性存储单元形式的可读介质,如随机存取存储单元( RAM)4201和/或高速缓存存储单元4202,还可以进一步包括只读存储单元(ROM)4203。所述存储单元420还可以包括具有一组(至少一个)程序模块4205的程序/实用工具4204,这样的程序模块4205包括但不限于:操作电子设备、一个或者多个应用程序、其他程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线430可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。电子设备400也可以与一个或多个外部设备300(如键盘、显示器、网络设备、蓝牙设备等)通信,使得用户能经由这些外部设备400与该电子设备400交互,和/或使得该电子设备400能与一个或多个其他数据处理设备(如路由器、调制解调器等)进行通信。这种通信可以通过输入/输出(I/O)接口450进行,还可以通过网络适配器460与一个或者多个网络(如局域网( LAN),广域网(WAN)和/或公共网络)进行[2]。网络适配器460可以通过总线430与电子设备400的其他模块通信。从中可知,尽管图3中未示出,但电子设备400中可使用其他硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盤驱动阵列、 RAID 电子设备、磁带驱动器以及数据备份存储电子设备等。
图4是本算法的一个计算机可读介质实施例的示意图。如图4所示,所述计算机程序可以存储于一个或多个计算机可读介质上。计算机可读介质可以是可读信号介质或者可读存储介质。例如,可读存储介质可以为电、磁、光、电磁、红外线或半导体的电子设备、装置以及器件,以及任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM 或闪存)、光纤、便携式紧凑盘只读存储器(CD?ROM)、光存储器件、磁存储器件或者上述的任意合适的组合。当所述计算机程序被一个或多个数据处理设备执行时,使得该计算机可读介质能够实现本算法的上述方法,即获取风控案件全流程中与案件风险相关的基于位置的服务 LBS 信息;将所述 LBS 信息加工,生成风控案件的行为轨迹特征;通过所述行为轨迹特征训练预设模型;通过训练后的预设模型识别风险。
通过以上的实施方式的描述,本领域的技术人员易于理解,本算法描述的示例性实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本算法实施方式的技术方案可以以软件产品的形式展现出来,该软件产品可以存储在一个计算机可读的存储介质(可以是 CD?ROM 和 U 盘、移动硬盘等)中或网络上,包括若干指令,使得一台数据处理设备(可以是个人计算机、服务器、或者网络设备等)执行本算法的上述方法。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信號、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行电子设备、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF 等,或者上述的任意合适的组合。
以一种或多种程序设计语音的任意组合来编写用于执行本算法操作的程序代码,所述程序设计语音包括面向对象的程序设计语言—诸如 Java 和 C++等,还包括常规的过程式程序设计语言—诸如“C ”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行,或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网( WAN),连接到用户计算设备,或者可以连接到外部计算设备(如利用网络服务提供商来通过网络连接)。
综上所述,本算法可以执行计算机程序的方法、装置、电子设备或计算机可读介质来实现。可以在实践中使用微处理器或者数字信号处理器( DSP)等通用数据处理设备来实现本算法的一些或者全部功能。
以上所述的具体实施例,对本算法的目的、技术方案和有益效果进行了进一步说明。应理解的是,本算法不与任何特定计算机、虚拟装置或者电子设备相关,各种通用装置也可以实现本算法。
5 结论
本文针对审核场景中容易出现的 LBS 风险,结合实际风险情况和 LBS 的各类信息可衍生出的行为轨迹特征,弥补人工审核标准单一的不足,再通过机器学习XGBoost算法,将大量的行为轨迹特征进行统一的模型运算,拟合形成标准化的机器学习分类模型,用于自动化识别风险,这缩减了判断风险案件的时间,提高了风险识别的准确率。
本文利用案件的全流程 LBS 信息,将人工审核进行量化处理,其中案件的 LBS 信息需要从时间回溯、关联案件等各个角度进行特征化处理,形成能够区分风险的行为轨迹特征。基于这些特征,再利用机器学习XGBoost的建模方法,经过参数调整,模型结果就能精准地反映正常案件和风险案件在 LBS 行为轨迹上的区别。
参考文献:
[1] 吴佳,王丽芳,蒋泽军.基于中间件的 LBS 系统总体设计[J].科学技术与工程,2008(5):1311?1314+1326.
[2] 梁清翰,沈占锋,骆剑承,等.构建 LBS 系统的数据库连接池技术研究[J].计算机工程,2006(18):39?41.
作者简介:
郑雪辉(1990—),硕士,教师,研究方向:人工智能。