钟弘杰,巴继东
(1.武汉邮电科学研究院 湖北武汉430070;2.武汉长江通信智联技术有限公司湖北武汉430070)
基于离群检测模型的反洗钱系统设计
钟弘杰1,巴继东2
(1.武汉邮电科学研究院 湖北武汉430070;2.武汉长江通信智联技术有限公司湖北武汉430070)
洗钱犯罪已经是国际社会共同面临的一个难题,给各国的经济带来了严重的损害和影响。在中国,不仅需要完善法律法规来建立反洗钱机制,更应该通过技术手段来识别洗钱活动。这是一个基于离群行为检测模型的反洗钱系统的设计与实现,通过使用真实传销案件的交易流水数据来验证离群检测模型可疑识别的有效性以及实用性。
反洗钱;离群行为检测;传销;交易流水
从20世纪80年代开始,洗钱活动已经突破了传统模式,全球经济一体化使得跨国洗钱成为新一代洗钱活动的主要形式。在中国,经历了法律上对洗钱犯罪定义的从无到有,再到法律和制度的不断完善,在反洗钱方面取得了重大成就。但是,国际上金融机构技术上不断提升,全球资金流动更加快速便捷,加上投资环境宽松,洗钱的方式、地域和技术手段以及参与洗钱活动的人员都发生了巨大变化,洗钱活动呈现出更加猖獗的势头[1-2]。因此,对洗钱活动进一步的打击和防范,已经成为了国际共识。
在如今的大数据时代,传统的数据侦查方法已经不能满足反洗钱工作的需要,从海量的金融交易数据中发现其少量的隐秘的洗钱特征已经成了影响打击洗钱犯罪顺利开展的关键问题之一,异常交易数据的发现是进行反洗钱工作的基础。文中基于离群检测模型的反洗钱系统,通过使用真实传销案件的交易流水数据来验证离群检测模型识别可疑交易的有效性和实用性,为该系统投入到实际使用提供了重要的参考价值。
离群点是数据集中极少数与主流数据显著不同的数据点,它们往往比主流数据更具潜在价值。离群检测在许多领域都有着广泛的应用,吸引了包括数据挖掘、知识学习、统计学、模式识别和信息论等众多学科研究人员的共同关注[4]。
目前主流离群检测方法大致可以分为一下几种类型:1)基于统计学的方法,包括基于分布的方法、基于深度的方法。2)基于聚类的方法,包括基于索引的方法、嵌套—循环算法、基于单元的算法。3)基于密度的方法。4)基于偏离的方法,包括序列异常技术、OLAP数据立方体技术。5)基于聚类的方法[5-6]。
基于聚类的离群数据挖掘算法将离群数据挖掘看做是聚类分析的附属工作,把不能聚类的数据看做是离群点。在金融交易识别里,把交易异常的数据聚类在一起称为离群类[7]。
基于反洗钱工作的特殊应用场景,反洗钱工作的数据源具有大量和复杂的特点,常见的基于聚类的离群检测方法,都是先对整个数据源进行基于距离的聚类,然后将不能聚类的点判断为离群点,将具有相似交易特点的数据对象划分为一类,忽视了个体交易可疑的差别以及类与类之间关键节点的作用。基于这种考虑,可以先对数据源进行聚类,将具有类似的交易特征的数据对象归类,然后针对每个聚类分别进行异常程度检测,再对整个聚类交易网络运用链接发现技术,这样将更加具有针对性与全面性,提高离群检测的准确性[8]。
金融交易分析网络系统是公安侦查和信息技术专家会同银行、审计等相关工作人员,根据当前特大经济犯罪案件特征,研发的一套智能金融数据分析系统[9]。该系统采用了大数据分析挖掘、模式识别等技术处理账目交易流水,主要有3个功能:一是梳理涉案账户的资金流向,构建资金流向图,找出资金的最终来源和去向;二是对涉案所有账户账户自动汇聚,挖掘出重点嫌疑账户或者嫌疑团伙;三是构建金融网络拓扑图,掌握涉案账户交易基本特征,从全局上分析案件形势。在实际使用过程中有主要有3个优点:一是可以处理交易流水量大的案件,支持交易流水的样式较多;二是全局分析交易资金,快速汇聚团伙成员,构建资金全局拓扑图;三是网银IP、MAC数据分析便捷,精准度高。其中的离群检测模块,我们研究提出了BTS(Best Two Step)聚类算法、基于聚类的异常分析模型,BTS聚类算法可以把具有相似交易特征的交易账户聚集在一起,并且可以去除一些噪声数据以及一些异常交易账户名单,基于聚类的异常分析是在聚类结果集的基础上对类内以及类间的关系进行全面分析,确定类的账户嫌疑程度以及类间的关键嫌疑账户[10-11],所以结合BTS聚类算法和基于聚类的异常分析模型提出一个离群模型。该模型的建立主要有三步建立数据源、BTS聚类、异常分析模型,最后得出最终结果。其系统框架如图1所示。
图1 系统框架
本系统各模块的主要功能如下:
数据处理模块:将数据源进行统一封装,提供一个统一的设置接口给使用用户和系统使用,使数据源与系统发生隔离关系,系统对数据的操作不会破坏数据源的完整性,并可以根据用户的需求提取需要具体的字段数据,更换数据源的标准不需要对系统做出更改,只需要在设置接口进行相关的配置即可。
数据管理模块:提供了丰富的搜索功能,系统能够按照用户需要的具体字段去检索交易记录。此外,该模块还具有统计功能,比如交易频率、交易次数、交易金额以及交易时间等等。
可视化分析模块:根据选定的条件实时将数据库中的交易信息转换为资金流向图,资金流向图支持人机交互,可以查看图中任一交易账户的的交易详细信息,也可以查看图中边的详细交易信息;可操作性非常强,可以放缩、拖拽;根据用户关注的指定账户的交易详细信息,生成包含资金流向序列图的交易预警报告;具有资金流向图的过滤功能,将图中除指定交易节点外无关的交易节点和交易边剔除掉,使关注的交易路径清晰清楚化。
离群检测模块:在数据处理以及后期的数据统计合并的基础上,选取用户关注的属性形成新的交易数据集,对该交易数据集进行嫌疑账户的归类以及嫌疑账户的嫌疑程度排序,最后针对归类的嫌疑账户集合进行链接发现可疑约减交易网络,发现交易网络图的关键交易节点,为用户办案提供清晰明了的线索。
离群检测模块分为4个子模块:
1)数据预处理:先将实验所用真实的交易流水数据导入到Mysql数据库中,将数据导入数据库时进行数据预处理。对无效的数据进行剔除,剔除规则主要有两点:将账号不存在或者对方账号不存在的数据进行剔除;将手续费扣除以及手续费返还等正常银行交易的数据剔除掉。然后根据洗钱的操作过程以及银行的交易流水特点,聚类方法中的属性应包括对存取资金的数量、存取资金的次数和交易情况的描述。在结合银行流水交易的账户特征的基础上进行数据探索,在此定义六个特征:账号、资金收付标志、交易次数、交易数额、对方账号、总资产,对数据库中的所有交易流水数据按照账号、资金收付标志、对方账号进行统计得到后续需要使用数据集,其中即使交易对方是同一个账户,但是资金收付标记不一样,被视为两条不同的数据对象。
2)BTS聚类模块:该模块主要的作用是发现作案团伙,这在传销案件中非常有用,并且为后续的模块进行数据集剪枝,减小后续模块处理的时间复杂度。该模块是对数据集Dk进行聚类,把具有相似交易特征的账户聚集在一起,并且把一些异常交易账户放入交易嫌疑名单中,为用户对案件分析提供有效的线索[12]。
3)MDLOF 检测:MDLOF(Mahalanobis distance based local outlier factor)马氏距离局部离群因子算法通过计算各类数据点间的马氏距离来判断数据点的离群程度。该模块对两阶段聚类模块得到的各类数据集进行异常程度计算,并且输出每个类中各账户的嫌疑程度排名,为办案人员按线索调查案件的顺序与重视程度提供有价值的参考借鉴[13]。
4)链接发现模块:对BTS聚类模块得到的数据集构成的交易网络用链接发现技术发现交易网络中的关键节点,最后约减网络得到各个聚类集中的关键节点[13],通过关键节点所占的比重可以发现聚类集的嫌疑重要性。进一步为办案人员理清办案方向。
离群检测模型建立过程:从数据源中读取数据,过滤掉数据中不相关的属性,设置数据的类型并进行NChameleon聚类,将生成的NChameleon聚类模型加到流中,导出NChameleon聚类中得到的结果数据集[14-15]。NChameleon聚类算法流程图如图2所示。
根据结果数据集发现需要剔除的异常值,并将需要剔除的异常值添加到可疑名单,然后把聚类后的数据集作为NK-Means聚类的原始数据再次进行NK-Means聚类,得到NK_Means的聚类结果数据集;最后对聚类结果数据集按类进行孤立点的挖掘,计算每个数据对象的MDLOF,即每个类中数据节点的异常值或者异常程度[16],可以确定调查对象的顺序,但是每个类中的嫌疑账户有嫌疑程度不一样,针对NK-Means聚类的结果集,对结果集的交易网络进行链接发现,发现关键节点,关键节点一般都是洗钱交易中重要的角色,可以进一步为反洗钱工作提供调查方向线索。
通过以上4步的离群检测模型过程,把具有异常及交易特征的账户列入到了可疑名单列表中,例如交易金额大但是总资产少、交易频繁、总资产总是为零但是交易对手多的账户等特征都能被发现为可疑账户,并且最后还能确定嫌疑程度以及交易网络的关键节点,可以十分有效的为反洗钱工作提供调查线索以及调查方向,减轻工作人员人工办案的人力与财力。
图2 NChameleon流程图
随着信息网络的发展,国内各地所面临的打击洗钱犯罪的压力越来越大,但是大部分地区对于一些经济案件的办理还处于比较落后的状态,在应对如传销案件、网络金融诈骗、贪污受贿、资产转移等严重的经济犯罪案件时常面临缺少指引线索和办案效率较低等问题。同时金融交易的数据量也在爆发式的增长,涉案数据达到PB级已经非常常见,如何从PB级的大数据交易中发现可疑账户,并给出可疑账户具体的嫌疑程度,从而准确的发现洗钱犯罪活动中的关键账户,是具有很重大的研究意义的。
[1]梅德祥,高增安.中国产生的洗钱规模及其流出研究[J].经济学家,2015(1):64-72.
[2]童文俊.互联网金融洗钱风险与防范对策研究[J].
金融会计,2014(8):71-76.
[3]严立新.中国反洗钱战略(2013-2018)的升级转型及其实施机制的建立[J].管理世界,2013(9):1-8.
[4]杨茂林.离群检测算法研究[D].武汉:华中科技大学,2012.
[5]刘康明.离群检测模型在反洗钱中的应用研究[D].武汉:华中科技大学,2015.
[6]徐翔,刘建伟,罗雄麟.离群点挖掘研究[J].计算机应用研究,2009(1):34-40.
[7]周虹.基于自适应粒子群的k-中心聚类算法研究[D].长沙:长沙理工大学,2012.
[8]王茜,刘书志.基于密度的局部离群数据挖掘方法的改进[J].计算机应用研究,2014(6):1693-1696,1701.
[9]矫彦,金融行业中复杂事件处理的应用研究[D].上海:上海交通大学,2012.
[10]韩俊,谈健,黄河,等.基于改进K-means聚类算法的供电块划分方法[J].电力自动化装备,2015(6):123-128.
[11]梅孝辉,龙渊,张健博.基于聚类合并的局部离群点挖掘算法在入侵检测中的应用[J].计算机与现代化,2015(8):67-70.
[12]白雪.聚类分析中的相似性度量及其应用研究[D].北京:北京交通大学,2012.
[13]张俊溪,杨海粟.基于层次聚类的离群点分析方法[J].计算机技术与发展,2014(8):81-83.
[14]诸彤宇,王奇,高梦丹.离群点挖掘技术在交通事件检测中的应用,2014(01):111-120.
[15]赵学良,朱庆生.基于距离的数据流离群点快速检测[J].世界科技研究与发展,2013(4):462-464.
[16]吴鹏飞.数据场在聚类分析中的应用[D].内蒙古:内蒙古科技大学,2013.
[17]陈晓勇,顾晖,彭志娟.数据挖掘中K-均值聚类算法的缺陷及工作效率改进的实验研究[J].科学技术与工程,2013(34):10359-10363.
The anti-money laundering system based on outlier detection model
ZHONG Hong-jie1,BA Ji-dong2
(1.Wuhan Research Institute of Posts and Telecommunications,Wuhan430070,China;2.Wuhan YCIG ILink Technology Co.Ltd,Wuhan430070,China)
The international community is faced a common problem about money laundering crime,which has brought serious damage and impact to the economy of each country.In China,not only need to improve laws and regulations to establish anti-money laundering mechanism,but also through technical means to identify money laundering activities.This is a design and implementation of an anti-money laundering system based on the outlier detection model,which verifies the validity and practicability of the suspicious identification of the outlier detection model by using transaction flow data of real MLM cases.
anti-money laundering;outlier detection model;MLM;transaction flow
TP302
A
1674-6236(2017)23-0052-03
2016-10-19稿件编号:201610101
钟弘杰(1991—),男,江西吉安人,硕士研究生。研究方向:通信与信息系统,软件设计。