基于图卷积神经网络的洗钱行为识别研究

2022-03-17 05:30高赫
中国科技纵横 2022年2期
关键词:格兰杰账户关联

高赫

(北京金融安全产业园,北京 100005)

0.引言

经济全球化不断深入,为各参与方带来显著收益,中国近几十年的发展成就便是极好例证。但与此同时,洗钱犯罪等负面效应也日渐显现,不仅影响到金融业健康发展,也严重破坏经济秩序。银行体系作为洗钱犯罪的常见领域,应得到尤其重视。当前,常见的反洗钱手段仍是依据既有案例,手动筛查疑似交易,耗时耗力。

随着大数据和AI技术的发展,银行数据资产价值日益凸显,将大数据和AI相结合,完善补充现有反洗钱规则,缩小审查范围,降低审查成本,是极为有益的尝试。本次研究致力于探索在构造关联网络的基础上,应用图卷积神经网络(Graph Convolutional Network,GCN),建立反洗钱模型。

1.洗钱犯罪的概念与反洗钱工作的现状

洗钱是通过隐瞒、掩饰非法资金的来源和性质,通过某种手法把它变成看似合法资金的行为和过程。《中华人民共和国反洗钱法》第二条规定:反洗钱是指为了预防通过各种方式掩饰、隐瞒毒品犯罪、黑社会性质的组织犯罪、恐怖活动犯罪、走私犯罪、贪污贿赂犯罪、破坏金融管理秩序犯罪、金融诈骗犯罪所得及其收益的来源和性质的洗钱活动,依法采取相关措施的行为。

反洗钱风险监测方法的演进大致经历了四个阶段,即纯人工判断、规则策略引擎、量化指标引擎,以及本文讨论的人工智能引擎。当前,传统金融机构大多处于量化指标引擎向人工智能引擎过渡阶段,仍有较为明显的局限性,无法覆盖全部业务场景和各类洗钱手段。而洗钱团伙通过有针对性地伪装,可有效规避既有规则,甚至人为操控关键量化指标,对金融机构造成误导,成为反洗钱工作的一大挑战。

2.工作目标设定及技术路径选择

本次研究基于账户历史交易数据,构建洗钱行为识别模型,对疑似案件及时预警。

在反洗钱应用领域,KNN、SVM、RF、GBDT、XgBoost等有监督机器学习模型,是以专家打好标签的历史样本为基础进行学习,包括客户的年龄、性别、交易方式、交易额等,最终得到一个分类器,将嫌疑交易和正常交易分离。而K-means、Apriori、FP-Growth、DBSCAN等无监督模型,则不依赖任何标签信息,而是根据数据点特征,归纳关联关系,或寻找异常点。半监督学习综合上述两类模型的优势,将少量专家标注样本与大量无标签数据结合,训练出更具强泛化能力的模型,GCN则是近期较为流行的一种基于图数据结构的半监督学习方法。

洗钱通常依赖团伙协作,样本之间关联度高,且样本间的关联又含有重要风险信息。针对此类场景,可将样本间关联信息组成复杂网络,再使用GCN模型处理。

主要技术实现步骤如下:

(1)数据处理:数据样本大小为7185万,来自合作金融机构近18个月发生的交易,训练集为前15个月,测试集为后3个月。通过数据预处理将多源异构数据转为模型可识别的数据结构。

(2)特征工程:将原始数据转为可更好表示业务逻辑的特征,便于算法模型直接使用,以提高机器学习性能。

(3)模型构建:基于上述数据源,综合运用关联网络和GCN模型进行学习建模,最终训练出稳定且符合预期的识别模型。

3.数据处理

原始数据包含经脱敏的账户基础信息、交易信息、主案例表、可疑案例表等。

数据处理主要包括数据的提取、转换及加载(Extract-Transform-Load,ETL),清除重复部分,修正/移除错误数据,补充缺失数据,为后续建模环节做准备。本次处理工作主要涉及3部分:缺失值、异常值和噪音[1]。

3.1 缺失值处理

缺失值主要包含两类:数值型和字符型。数值型变量缺失值可以通过总体均值填充、类均值填充、回归预测填充等方法实现。本次研究采用总体均值结合业务实际进行填充。字符型变量缺失值则一律设为空值。

3.2 异常值处理

异常值即取值较极端或出现频率极低的变量点。处理方法如下:

(1)统计量计算:通过计算样本数据的统计量,判断异常值的取值是否超出了合理的取值范围,如客户年龄为负值,或超出常见平均寿命等。

(2)业务逻辑判定:对于具有业务实际意义的数值变量,根据业务逻辑处理;字符型变量则基于样本分布,结合业务逻辑处理。

3.3 噪音处理

噪音指样本中的错误或异常数据,无实际意义,且会对数据分析造成干扰。有2种处理方法:

(1)分箱法:考察噪音数据的临近值来排除干扰。按照属性值划分子区间,将相同属性值放入对应子区间(“箱子”)内,并考察每个箱子中的数据,分别对各箱中数据进行局部光滑。常见的有均值光滑、中位数光滑或边界值光滑。

(2)回归法:用函数拟合数据实现噪声点光滑,即通过回归得到合适的表达式,从而消除噪声。

4.特征工程

特征工程主要从客户画像、账户状态、交易动态三大维度进行分析。

4.1 客户

主要考察:账户类型(个人、公司)、个人账户是否“三地一致”(开户地、身份证归属地、手机号码归属地),对公账户注册资金额度,是否外籍开户人姓名异常,开户人年龄,是否为离岸账户,是否外籍客户来自高风险国家,外籍个人客户英文名称类似公司名称,开户日期距离案例天数以及洗钱风险等级等。

4.2 账户

主要考察:交易量是否存在激增,是否涉及多类币种,是否存在外币大额高频提现(如频率大于5次/周且额度大于等值10000美元),是否存在大额转入分次转出(如小额POS消费),是否余额频繁降至10元以下等。

4.3 交易

4.3.1 交易金额

主要考察:是否交易金额有特殊性(如为千元或万元整数倍、折合美元为千元或万元整数倍、特定金额的整数倍或接近倍数、个人账户贷方特定金额占比高、个人账户借方特定金额占比高等),特殊金额段转入、转出金额及在总额中占比多少,小额试探的笔数及占比多少,转入、转出金额的统计特征,相邻交易额差值、绝对差值的统计特征等。

4.3.2 交易笔数

主要考察:转入、转出笔数及在总笔数中的占比,是否存在单日等额特定金额存取各1笔,是否存在同网点单日多账户存取各一笔,跨境交易笔数及占比,跨境交易金额及占比,是否存在个人客户外币多笔大额交易,是否存在公职人员多笔大额交易,是否存在个人贷方多笔大额交易等。

4.3.3 交易时间差

主要考察:相邻交易时间间隔的统计特征。

4.3.4 交易对手

主要考察:是否交易对手众多且涉及多省,单个账户的对手个数,与特定对手连续及分散交易的次数,对手中公司和个人的数量及比例等。

常见的数据特征及对应的处理方法如表1所示。

表1 常见的数据特征及对应的处理方法

5.模型构建

5.1 账户关联网络构建

针对个人和公司账户,借助格兰杰因果关系(Granger causality test)方法[2]构建关联网络[3]。

采用非参数格兰杰因关系检验方法,采用有向二值方式定义账户间连接数,并进行关联检验。即:

通过循环测算连结数可判断在不同时段各账户间关联程度,并构建下述网络中心性度量和关联网络度量,以测度各账户间关联水平。

5.1.1 网络中心性

将每一账户视作一个节点,从关系角度给出衡量单一账户网络中心性的量化指标:度数中心度和中介中心度。

前者衡量的是与单一节点直接相连的节点数,账户的度数中心度越高,则与其直接相关联的账户越多,该账户在网络中更接近中心位置,对其余账户影响范围更大。

后者是单一节点在其他两相关节点关联路径内作为中介节点的个数,如果某节点经常出现在其他节点关联路径中,则中介中心度越高,该账户在系统内更能推动信息向其他节点传播。

5.1.2 关联网络

根据非参数格兰杰因果关系检验,可判断非参数格兰杰因果关联水平(Degree of Nonparametric Granger Causality,DGC),即账户关联关系紧密度,其数值越大,则关系越密切。对于N个账户间可能存在的最大关联数目为N(N-1),计算公式:

为测度单个账户与系统的连结度情况,特定义以下3个指标:

其中,j表示第j个账户,s表示账户系统。Out表示系统中账户j是其他账户非线性格兰杰影响原因的个数,In表示其他账户是账户j的非线性格兰杰影响原因的个数。In+Out为2个指标之和的均值。

为测度不同账户间的连结情况,特定义以下3个指标:

其中,α,β分别代表不同类型的账户。Out-to-other表示由账户j非线性格兰杰影响非本类型账户i的个数;In-from-other表示账户j被非本类型账户i非线性格兰杰影响的个数;In+Out-other为前2个指标之和的均值。

5.2 模型构建

在账户关联网络的基础上应用图卷积神经网络算法训练模型[4],基本原理为:

假设有N层网络,每层输出记为H(1),H(2),…,H(N)。令A为图的邻接矩阵,H(0)=X,X为图上节点的特征,则计算过程如下:

其中,W为每层网络权重,P为计算出的样本标签分布(预测分布)。在反洗钱模型中,对P取交叉熵作为上述GCN的Loss函数。

采用反向传播算法对该网络参数进行学习,设GCN深度为1,学习率为0.001,正则化系数为10,对关联网络中的账户进行识别。

在测试集上的部分测试结果如表2所示。

表2 测试结果

重复30次测试,F1均值为0.952,表明模型对疑似洗钱行为有较好识别力。

6.结语

本次研究采用关联网络及GCN模型,可较准确识别疑似洗钱行为,有助于提升金融机构服务能力和监管效率。随着更多的专家指标和交易信息纳入数据集,全面综合人、交易、行为等数据,持续优化账户洗钱风险评估方式及可疑交易认定方法,可进一步提高洗钱识别的有效性,建立完善的反洗钱风控体系,提升对监管要求和风险监测的精准把控。

猜你喜欢
格兰杰账户关联
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
如何切换Windows 10本地账户与微软账户
探索自由贸易账户体系创新应用
“一带一路”递进,关联民生更紧
外汇账户相关业务
父亲的股票账户
奇趣搭配
智趣
格兰杰因果关系在神经科学领域的发展及缺陷
榜单