刘华玲,刘雅欣,许珺怡,陈尚辉,乔 梁
上海对外经贸大学 统计与信息学院,上海 201620
当今,数字化金融服务以其非接触、高效率和服务场景灵活等优势,极大便利了消费者的金融活动,在大数据、云计算以及人工智能等新兴技术的驱动下,以金融科技为主题的金融革命正以燎原之势席卷全球[1-2],各种创新型数字化金融服务场景和渠道不断涌现。同时,以此为背景的“黑色产业”肆虐发展,已经渗透到个人信贷、医疗保险和车险理赔等金融领域。据统计,相关“黑色产业”从业人员超过500万,涉及金额损失达到千亿级别[3]。因此,探究新型场景下的金融反欺诈研究方法具有极大的理论价值和现实意义。
早期的文献多集中于利用检测规则进行欺诈识别,前提假设为欺诈活动存在明显的规则模式,可以通过定义一些组合规则进行识别,其具有易操作性和可解释性,因此在早期的欺诈检测中广受欢迎。基于规则的方法高度依赖人类专家的知识判定,难以发现复杂动态且隐蔽的欺诈模式,同时,极易被欺诈者识别进而改变自身的欺诈行为以躲避检测,这将不断提升基于规则的检测难度。为此,许多学者提出使用机器学习以挖掘常规方式难以识别的潜在欺诈模式。该类方法将从不同维度提取用户的统计特征,如用户的社会属性、交易信息和行为信息,用传统的机器学习模型对用户数据进行训练学习[4-5]。然而,此类方法将用户特征作为独立的矢量处理,忽略了实体之间的关联性。
如今,我国信息化迈入以物联网和云计算为代表的新阶段,金融机构积累了海量的用户属性信息和行为信息,如何从中挖掘用户间关联成为提高欺诈检测性能的关键。图数据在表示实体复杂交互关系方面具有得天独厚的优势,基于图挖掘的异常识别技术(graphbased anomaly detection,GBAD)因其高效、普适和准确性高等特点受到了工业界和学术界的广泛关注。此类方法致力于从“关系”角度分析问题,基于行业大数据和相关领域知识构建关联网络,实体抽象为图中的节点,实体间的交互抽象为节点间的连边,并运用相关的图挖掘技术识别异常模式的节点、边或者子图。相比传统的欺诈检测技术,基于图的异常检测不仅可以直观地呈现数据中隐含的复杂拓扑结构,而且将数据对象间的关联融入到欺诈识别任务中,从网络的整体拓扑结构出发更容易识别隐藏极深的欺诈行为。近年来,GBAD技术在识别网络内的欺诈活动方面做出了巨大贡献,被欺诈检测专家认为是稳健、可靠和有前途的异常检测技术[6]。
本文对图异常检测在金融反欺诈中的应用进行系统分类,介绍其中具有代表性的方法,探讨现有方法的局限性和面临的挑战,指明未来的研究方向。具体贡献如下:
(1)分别从个体反欺诈和群体反欺诈的视角,将图异常检测技术系统分类,并对每种技术进行全面的评述、分析和比较;
(2)拓展了图异常检测方法,整理归纳近几年涌现的基于图嵌入、深度自编码器以及图神经网络等技术解决欺诈检测的新方法;
(3)结合当前反欺诈的前沿任务展望图异常检测技术的发展方向。
Hawkins定义传统的异常检测是寻找数据集中分布或形成机制显著区别于正常模式的数据对象[7]。图异常检测[8]是利用图数据结构进行问题建模,并基于相关的图数据挖掘技术,在图中寻找显著不同于其他图对象的节点、边或子结构。
欺诈检测问题可以转换为异常检测任务(anomaly detection,AD),相比传统的异常检测技术,图异常检测在反欺诈领域呈现出巨大的优势,主要体现在以下几个方面:
(1)欺诈领域中数据的相互依赖性
传统的异常检测技术将数据视为独立存在于多维空间中的点。在实际问题中,尤其是在欺诈场景下,数据对象通常相互关联并表现出依赖性。因此在进行异常检测过程时需要考虑相关性。图数据结构通过在相关对象之间引入连边自然地表示相互依赖关系,为有效捕捉这种长期相关性提供了强大的范式。例如,在评论者-产品评论的图数据中,评审者的欺诈程度不仅取决于其评论的对象和内容,而且取决于其他评审者如何评价同一产品及其评价的可信度,而这又依赖他们评价的其他产品[9]。由于真实数据集中存在的相关性,在图数据中检测异常更为合理。
(2)欺诈领域的异常关系
欺诈现象的本质可以表示为异常关系,通常考虑两种情况:①基于关系传播的机会主义欺诈(如果一个人存在欺诈行为,那么他的熟人有很大概率会进行诈骗);②基于相关群体密切合作的有组织欺诈[10]。以上这两种情况都指向异常关系的检测。
(3)图异常检测模型的健壮性
随着欺诈的日益专业化,欺诈者通常改变欺诈手法以逃避检测,例如更改或伪造登录时间和IP地址等行为线索。但是欺诈者无法操纵整个关联网络,因此图异常检测被认为是更健壮的对抗欺诈的方法。
图数据结构对关联信息强大的表示能力以及图计算和深度神经网络等相关技术的发展,使得图异常检测技术逐渐成为国内外学者的研究热点。Akoglu等人[11]将图异常检测技术分为基于结构、基于社区、基于分解和基于窗口等类型,系统梳理了每类方法下的关键技术,并讨论了图异常检测技术在包括欺诈检测在内的真实场景下的应用。Gupta等人[12]对时序网络中的图异常检测技术进行了总结和归纳,包括基于图相似度、基于特征向量和基于社区这三类方法。Ranshous等人[13]全面概述了动态图中的异常检测技术,将其划分为基于社区、基于压缩、基于分解、基于距离和基于概率分布五种类型,并对每类方法中的主流算法进行对比分析。Savage等人[14]关注于在线社交网络(online social network,OSN)中不同类型异常(如异常节点、边缘或子图)的检测。他们将OSN中的异常检测总结为两个步骤:(1)网络特征的选择和计算;(2)基于该特征空间对观测进行分类。李忠等人[15]分别基于静态图和动态图的视角,根据异常类型进一步将静态图异常检测划分为孤立个体异常检测和群体异常检测两类,动态图异常检测分为孤立个体异常检测、群体异常检测和事件异常检测三类,并系统梳理了每类异常检测的关键性技术。苏红军等人[16]从技术层面将静态图异常检测分为基于结构、基于社区和基于关系学习三类,按照异常类型将动态图异常检测分为基于节点、基于边、基于子图和基于全图四类。近年来,基于深度神经网络进行图异常检测成为新近研究热点,陈波冯等人[17]从静态图和动态图角度出发,全面概括了基于深度神经网络的图异常检测的研究现状,并总结了图异常检测的实际应用场景和相关数据集。
表1系统梳理了现有的图异常检测综述。尽管已有上述众多的图异常检测综述,但大多数文献都基于技术角度,目前仍然缺少针对某一应用领域的图异常检测研究进展进行系统深入的梳理和总结。以往的工作或从技术层面对所有的图异常检测算法进行分类总结,或集中于某一类型的网络进行归纳分析。本文聚焦于金融欺诈检测领域,旨在对此应用背景下的图异常检测算法研究进展进行系统的梳理和总结,深入探讨应用GBAD进行欺诈检测的关键问题、技术方法和未来挑战。
表1 图异常检测相关综述Table 1 Overview of graph anomaly detections
基于图的个体反欺诈可以抽象为给定网络数据,从中查找异常的节点或边。面向个体的欺诈检测又可以分为基于结构特征的方法、基于邻近性的方法、基于图表示学习的方法以及基于社团划分的方法。
基于特征的图异常检测是指通过提取网络结构特征,并结合附加信息源提取的其他特征,在新构造的特征空间中进行异常检测。
金融场景下,节点在网络中的重要程度与欺诈风险通常呈现一定的正相关关系,如何识别网络中的关键节点对于欺诈检测具有重要的现实意义。常用的节点重要性评价指标有中心性度量、PageRank值[21]和HITS[22]等。中心性度量又分为度中心性、加权度中心性、介数中心性[23]、接近中心性和特征向量中心性[24]。2015年,Drezewski等人[25]聚焦银行金融交易,利用度中心性、介数中心性和PageRank值等特征表示网络结构,识别用户在交易网络中的角色,揭示可疑的洗钱参与者。
除了上述节点重要性评价指标,基于EgoNet特征进行图异常检测也是一种经典方法。EgoNet[26]又称自我中心网络,一个中心节点与其一跳范围内的邻居节点以及所有节点之间的连边构成一个EgoNet,结构如图1所示。EgoNet是整体网络结构的一部分,给定某节点时采用广度优先搜索获得,侧重于研究单个节点的性质。
Akoglu等人[27]于2010年首次提出基于EgoNet特征的异常检测算法OddBall。通过观测EgoNet的特征分布规律,识别不符合规律的EgoNet结构,相应的中心节点视为异常节点。给定图G(V,E,W),节点i∈V(G),节点i的EgoNet为gi(Vi,Ei,Wi),满足:(1)Ei∝Ni,1≤α≤2;(2)Wi∝Eiβ,β≥1;(3)λω,i∝Wiγ,0.5≤γ≤1。其中λω,i为加权邻接矩阵的主特征值,∝表示服从幂律分布。Wang等人[28]提出基于账户EgoNet特征挖掘网上银行中的异常交易,通过构建交易网络将账户行为表示为图结构数据,同时提取符合幂律分布的EgoNet特征,然后根据账户特征与相关幂律分布的“距离”计算其与特定模式的偏差,并将其定义为网银用户的异常分数,进行欺诈的检测与排序。算法使用的特征易于计算,可以用于大规模网络欺诈检测。
基于EgoNet特征的方法仅适用于服从幂律分布的加权网络,并且仅考虑节点的一阶邻域信息,无法捕捉更高阶的关联。GBKD-Forest[29]是一种基于网络全局结构的无监督异常检测方法。该方法首先从交易网络中提取三种类型的结构特征,包括出入度等基本特征、边连接特征以及EgoNet特征,其中边连接特征包括PageRank、HITS以及中心性度量;然后基于Bagging方法随机抽样特征建立KD树森林以分离异常节点。GBKD-Forest基于机器学习技术集成多种类型的网络结构特征,有效提高了欺诈检测的准确性。
以上研究都是针对单个网络进行,现实世界中由于业务场景的复杂性,通常需要构建多个交互网络以提取更全面的信息。Colladon等人[30]认为保理公司中洗钱行为的潜在风险表现在三方面,即债务人的地理区域、经济部门以及金融交易金额,针对每种风险因素的独立网络进行特征表示,综合评估个体的欺诈风险。Mahootiha等人[31]根据洗钱的三阶段模式,即资金放置、资金分层和资金整合,分别构建独立交易网络,并通过分析度中心性和中介中心性等网络指标揭示银行金融交易中的欺诈行为。
表2系统梳理了图结构特征在欺诈检测中的应用。基于特征的图异常检测中,图结构的表征是关键,值得注意的是,不同的金融场景以及欺诈手段下,特征选择各有差异,必须根据构建网络的实际含义慎重选择。一方面是以图结构为中心的特征,包括二元组和EgoNet等;另一方面是以节点为中心的特征,包括节点度、中心性度量和边权重等。此外,结合多种特征可以提高检测准确率。
表2 基于结构特征的欺诈检测Table 2 Fraud detection based on structural features
欺诈被认为是一种社会现象,即欺诈者之间通常会存在某种关联,这在社会科学中被称为同质性。同质性假设人们倾向于和在某些方面与自己相似的人交往。基于邻近度的图异常检测利用网络的结构信息计算节点间的邻近度,邻近度高的节点被认为是同一类(正常或欺诈)。
个性化PageRank[38]是节点邻近度计算的经典方法,是PageRank的扩展。PageRank算法于1996年提出,是基于随机游走衡量节点重要性的经典算法。在图上随机地从一个节点跳到另一个节点,即每一步的随机游走将从当前节点以相同概率访问其邻居节点。在一定条件下,每个节点被访问的概率收敛于平稳分布,平稳概率即为节点的PageRank值,计算公式如式(1),概率越高节点越重要。
式中,d(0≤d≤1)称为阻尼因子,L(v)表示节点v的出度。
在PageRank算法中,游走的起始节点是随机选择的,在个性化的PageRank算法中,从某个特定节点(种子节点)开始游走,每到一个节点后,以d的概率继续游走,或以1-d的概率返回种子节点并重新开始。各个节点的平稳概率代表其与种子节点的相关程度。
Vlasselaer等人[39]通过改进个性化PageRank算法,以适应欺诈传播场景:(1)加入时间衰减权重矩阵W代替邻接矩阵M,以降低时间久远的欺诈节点的重要性。即随着时间的推移,欺诈行为的传播影响越小。权重公式为ωi,j=eγh,γ为衰减常数,h为时间;(2)定义重启向量vj,如果节点j发生欺诈行为,则vj=1,反之,vj=0。专家判定的欺诈者标示为种子节点,迭代运行个性化PageRank算法,算法收敛时与种子节点相似的节点具有较高的PageRank值,面临的欺诈风险也更高。
He等人[40]提出的BiRank算法是PageRank算法在二部图中的扩展。Óskarsdóttir等人[41]改进了BiRank算法并应用于车险欺诈检测中。通过调整查询向量,使其包含网络中已知的欺诈性索赔知识,与已知欺诈行为联系紧密的索赔获得更高的BiRank值。
上述方法是从节点层面出发,聚焦个体欺诈,通过度量与已知异常节点的邻近性进行欺诈检测。Bershtein等人[42]聚焦反洗钱领域,基于子图视角提出利用模糊子图同构估计交易子集与目标洗钱模式的相似性以检测洗钱行为。
综上所述,基于邻近性的图异常检测关键在于邻近性的度量方法。节点间相似性度量有个性化PageRank、BiRank以及Jaccard邻近性等。寻找相似子图的方法主要包括图模式匹配和模糊子图同构等,值得注意的是,这类方法只能识别与已知欺诈模式相似的欺诈行为,在识别未知欺诈类型方面存在着局限性。
进行欺诈检测等图分析任务的一个关键问题是如何有效地表示图中的特征信息,揭示隐藏的欺诈线索。图表示学习是将图数据映射到低维向量空间的有效技术,它可以学习并表示网络的拓扑结构和节点的属性信息[43],进而应用到下游的欺诈检测任务。图表示学习方法可以分为三类,即矩阵分解、随机游走和深度神经网络。基于矩阵分解的方法以矩阵的形式表示节点之间的连接,并以此矩阵进行分解以获得节点的嵌入向量。如LLE(locally linear embedding)算法[44]假设每个节点的嵌入表示都是在其嵌入空间中邻居节点的嵌入向量的线性组合。LE(Laplacian eigenmaps)算法[45]在LLE算法的基础上考虑了节点之间的权重。基于随机游走的图表示学习方法通过图上的采样路径学习邻域结构,例如DeepWalk[46]通过随机游走获得节点序列,Node2vec[47]采用带有偏向的随机游走学习图中节点的嵌入表示。基于深度神经网络的图表示学习可以捕捉数据间的非线性关系,以获得更好的节点表示。
对于标记数据,基于图表示学习的反欺诈算法大多是基于混合模型,使用DeepWalk、Node2Vec以及LINE(large information network embedding)[48]等图嵌入模型获得节点的嵌入表示,然后在低维度的特征数据集中执行传统的分类方法以进行欺诈检测。
DeepWalk通过随机游走的方式获取节点序列,然后将这些节点序列作为训练样本输入到Skip-gram模型进行训练,进而得到节点的嵌入表达。2016年斯坦福大学提出的Node2vec改进了DeepWalk中节点序列的生成方式,即通过调整随机游走权重的方法使图嵌入的结果在网络的同质性和结构性之间平衡,从而提升网络嵌入的效果。其中,结构等价性主要用于表征节点之间结构的相似性,即相同结构的节点嵌入表达应该是相似的;同质等价性则以距离作为节点相似性的度量,这在异常欺诈检测中具有重要的现实意义。基于此,Zhou等人[49]提出基于Node2vec的互联网金融欺诈检测方法,首先利用Node2vec学习金融网络中每个节点的拓扑特征表示为低维稠密向量,然后将其输入基于深度神经网络的分类模型,每个节点用户的预测结果都是0到1之间的浮点数,它表示数据样本是欺诈性数据的概率。该方法使用Spark分布式计算框架以提高海量数据的处理能力,它是当前很多工业产品的主流做法。
Node2vec是一种直推式的图表示学习算法,即需要对网络中的所有节点进行训练,嵌入不能泛化到尚未出现的节点。在网络中添加或删除节点或边缘,需要重新迭代整个训练过程。而金融交易具有动态性,为避免对不断更新的网络重复训练造成的时间损耗,Belle等人[50]提出基于GraphSAGE算法[51]进行节点嵌入表示的欺诈检测框架。GraphSAGE是一种归纳式的节点嵌入算法,其核心思想是通过学习一个函数实现对图数据结构的归纳表示学习,该函数通过对节点局部邻域的特征进行采样和聚合来生成嵌入,可以泛化到未知节点。Node2vec等直推式算法直接获取节点的嵌入表达,而GraphSAGE算法的输出结果是生成节点嵌入向量的映射,可扩展性更强。GraphSAGE为应用邻居节点属性的特性聚合提供了一系列可能性,在此欺诈背景下,maxpool和meanpool邻域特征聚合器提供了最好的结果。
在金融欺诈检测中,欺诈样本的数量远远小于正常样本,存在严重的类不平衡问题,然而基于图神经网络的算法在节点标签分布严重偏斜的情况下往往表现不佳。DR-GCN[52]是解决图类不平衡问题的先行者。该方法提出了类条件对抗正则化和潜在分布对齐正则化,但不能扩展到大型图。Liu等人[53]提出基于GNN的不平衡监督学习算法PG-GNN,算法框架如图2所示。PG-GNN的改进体现在两方面:首先,利用标签平衡采样器选择节点和边,分配给每个节点的概率与它的标签频率成反比,构造平衡子图用于小批量训练;其次,在参数化的距离函数下,进一步设计邻域采样器,对欺诈样本的邻域进行过采样,对正常样本的邻域进行欠采样。
以上工作都是采用有监督方法,而在金融欺诈检测场景下,由于标签数据难以获得,通常采用无监督学习的方法来检测异常。目前大多方法采用残差分析的思想,以原始数据与估计数据的差距(即重构误差)作为衡量实例异常的指标,具有较大重构误差的数据实例异常的可能性更高。
Bandyopadhyay等人[54]提出基于矩阵分解重构节点,给定图结构G,每个节点vi用邻接矩阵A的第i行表示,即Ai,为保持节点在低维空间中嵌入的同质性,通过最小化得到H作为节点的嵌入表示,并利用节点重构前后的残差,为每个节点引入结构异常分数O1i,残差值越大表示节点欺诈的可能性越大。在属性异常上,采用同样的方法,每个节点vi的特征用特征矩阵C的第i行表示,通过最小化得到节点的嵌入表示,并为每个节点引入属性异常分数O2i,结合O1i和O2i得到节点的欺诈概率。
Bandyopadhyay等人[55]在文献[54]的基础上进行改进,提出DONE和AdONE算法。该模型在节点嵌入表示部分替换了文献[54]中的矩阵分解方法,采用深度自编码器获取结构和属性上的重构损失,用于捕捉节点间的非线性关系,同样利用损失函数引入结构上的异常分数O1和属性上的异常分数O2。
上述两种方法将节点的结构和属性信息分开考虑,忽略了两者之间的交互信息,图神经网络可以同时编码节点的结构信息和属性信息,将两者结合起来考虑,可以捕捉到节点更好的表示。如图3所示,Dominant[56]利用图卷积网络作为编码函数,将输入的属性网络压缩为简洁的低维嵌入表示;然后利用相应的解码器函数重构节点的拓扑结构和属性信息,基于重构误差获取节点的欺诈分数。利用GCN可以有效地捕捉节点结构和属性间的交互信息,提高了欺诈检测的性能。
综上所述,图嵌入是一种将图中的节点从高维稀疏向量映射到低维稠密向量的有效技术,它学习并表示网络图中节点的拓扑结构和属性信息。与传统的图数据挖掘方法相比,在反欺诈业务场景中应用图嵌入算法,可以获得全局视角,更清晰地洞察不同实体之间的潜在关联。此外,基于图嵌入将原始图转化为稠密向量后运算效率显著提升。
不同社团间的桥接节点或桥接边可能预示着某种欺诈行为。在信贷场景下,一个节点连接多个社团且社团内人群多数信贷不良,那么这个节点很大可能是黑产中介。黑中介利用互联网金融平台采用大数据线上审核的业务特点,通过不断地挖掘平台风控规则的漏洞或弱点,进行信息包装、信息伪造以及远程助贷等欺诈操作,具体包括伪造证件信息、提供银行卡资源以及欺诈手机号等。例如,贷款客户通常共享信息或设备形成社团,连接这些社团的关键节点则可以视为黑产中介。
基于社团划分的欺诈节点识别依赖于在图中找到密集连接的“近”节点组,并点出跨社团连接的节点或边。在某些场景下,欺诈可以定义为不直接属于某个特定社团的“桥”节点或边。
Sun等人[57]主要解决了两个问题:(P1)如何找到给定节点的社团/邻域;(P2)如何找到桥接节点。针对P1,作者基于Personal PageRank的思路,从目标节点出发进行随机游走,计算节点间的可达概率,以衡量节点间的相似性,其中具有高PPR评分的节点构成目标节点的一个邻域。对于P2,计算目标节点的所有邻居节点的成对PPR得分并取平均作为“正常”得分,当该分数比较低时说明节点的邻居节点位于不同社团,可视为欺诈节点。
上述方法将桥接节点的识别划分为两步,首先基于节点的相似性进行社团划分,然后查找社团间的桥接节点或桥接边。Xu等人[58]提出一种图聚类算法SCAN。该算法在进行网络聚类的同时,挖掘网络中的桥接节点和离群点,即桥接节点是图聚类的副产品。传统的图聚类算法通常以最大化社团内部边数为目标,而SCAN算法使用节点的邻域为聚类标准,共享更多邻居的节点被划分到同一集群,从而可以有效区分网络中节点的角色,如组内节点、桥接节点和离群节点。
桥接节点的识别还可以使用矩阵分解的方法。矩阵分解已被广泛用于解决从降维[59-60]到图聚类[61-62]等问题。Tong等人[63]从邻接矩阵角度出发,提出基于非负残差矩阵分解的图欺诈检测方法NrMF。对于一个图G的邻接矩阵A,若其相似矩阵A~的秩为r,则其对应的残差矩阵为R=A-A~,对A进行矩阵分解可表示为A=A~+R=FG+R,其中矩阵F和G是秩为r的分解矩阵,R是残差矩阵。F和G反映网络的群体结构信息,残差矩阵则对应着异常节点,同时对残差矩阵R施加非负性约束以增强对异常节点的可解释性。实验表明NrMF算法的准确率可以达到0.95左右。
基于图的个体欺诈检测方法可以分为基于特征的欺诈检测、基于邻近性的欺诈检测、基于图表示学习的欺诈检测以及基于社团划分的欺诈检测。
早期的个体欺诈检测方法主要从图的特征提取出发,在新构造的特征空间中进行异常检测,包括基于结构特征的方法和基于邻近性的方法。前者利用提取的图结构特征表征正常行为模式,显著偏离正常模式的被视为可疑个体。后者利用网络的结构信息量化节点间的邻近度,邻近度高的节点被认为是同一类(正常或欺诈)。基于特征的图异常检测中,图结构的表征是关键,值得注意的是,不同的金融场景以及欺诈手段下,特征选择各有差异,需要专家根据业务场景和已知的欺诈活动慎重设计。因此,该方法的性能高度依赖于人类专家的干预,可扩展性差;并且图特征仅考虑网络的浅层拓扑结构,无法捕捉节点间的非线性关系。
图表示学习是将图数据映射到低维向量空间的有效技术,它可以捕捉节点间的非线性关系以获得更有效的潜在表示,支持下游的欺诈检测任务,能够很好地解决传统图特征方法可扩展性差的问题。现有的图表示学习多基于深度学习,导致该类方法的可解释性较差,将其运用在欺诈检测上往往使得检测结果难以直观理解。目前,对基于图表示学习方法的可解释性仍是学术界的研究难点和热点。
基于社团划分的方法旨在挖掘复杂网络中一类特殊的欺诈节点——桥接节点,桥接节点不直接属于某一社团,在不同社团之间起着桥梁作用,例如信贷欺诈中的黑产中介。值得注意的是,这类方法应用的前提是网络中连接多个社团的桥接节点是欺诈节点,因此在网络构建时,应结合实际欺诈场景定义节点和边,使其满足这个前提。
相较于个人欺诈,团伙欺诈的波及范围更广,社会危害性也更高,呈现“智能化、产业化、攻击迅速隐蔽、内外勾结比例上升和移动端高发”五大特征,例如,在信贷领域,黑中介和黑产出现深度融合的态势,开始以团伙形式开展线上贷款申请审批业务,骗取大量资金。检测这种虚假的用户社区(也称为组或集群)已经成为一个关键的焦点。
网络中的稠密子图往往表明异常或欺诈行为。以消费金融套现为例,用户与商户勾结采取分期付款的形式进行虚假交易,以骗取贷款机构的贷款。这种行为模式致使欺诈用户节点和欺诈商户节点之间呈现异常的连接分布,在网络中呈现出一张致密的双边连接子图。文献定义这种大量同步的非正常关联行为模式为LockStep[64],即二部图中的双边聚集行为。基于稠密子图进行欺诈检测的一般思路是:首先定义稠密度量指标,并采用搜索策略进行度量指标优化,从而来检测大图中的稠密子图结构,最终识别出欺诈用户群体。
传统的稠密子图挖掘算法一般使用子图平均度作为稠密度量指标,Charikar[65]提出使用平均度定义子图的密度,对于一个无向图G(V,E),其中S⊆V,定义E(S)={i,j∈E:i∈S,j∈S},定义子图的密度为f(S)=||E(S)/|S|,即子图中边的个数与点的个数的比值,2f(S)是集合S的平均度,稠密子图的问题则转化为计算f(S)最大值的问题。求解该f(S)的问题是一个线性规划问题,Charikar给出了求解问题的精确算法。为了降低算法的复杂度,Charikar提出了一种近似比为2的近似算法。
在二部图欺诈中,欺诈用户往往通过与目标节点(正常)建立联系以伪装自己,上述利用子图平均度作为可疑度度量存在一定的偏差,使检测出的结果包含大量的正常用户,准确度降低。针对这一问题,Hooi等人[66]提出Fraudar算法:(1)采用列节点入度降权定义边可疑度cij=1/ln(dj+c),其中dj表示列节点的入度,以降低用户与热门目标节点联系产生的边可疑度,从而对抗伪装;(2)设计基于优先树的贪心算法快速定位最大可疑度子图,算法的时间复杂度与大图的边数近似地呈线性关系,具有应用于大规模数据分析的能力。
Frauder算法的每次迭代只能输出一个最大可疑子图,并且可疑子图中的所有节点都被标记为欺诈节点,增加了后续人工排查的任务量。基于此,Ren等人提出EnsemFDet算法[67],进一步提升算法的精确度和运行效率:(1)对二部图采用单边节点采样将原始图分解为更小尺寸的子图,并采用集成框架聚合子问题的输出,采取多数投票原则,可以降低次优解的总体风险,从而提高预测精度;(2)部署FDET方法来检测欺诈者,能够更有效地搜索前k个欺诈子图;(3)EnsemFDet可以在采样图中并行计算欺诈检测,从而加快检测过程;(4)在某商城的真实交易数据上进行大量的实验,验证了EnsemFDet算法的有效性、实用性和可扩展性。
近年来,有研究者将稠密子图检测扩展到张量中,可以支持从更高的数据维度进行问题建模,提升欺诈检测的准确性。如图4所示,在商铺欺诈评论检测中,欺诈用户群体在产生欺诈评论时往往存在时间上的聚集性,在建模时增加时间维度的信息,即构建用户、商铺和时间三个维度的三阶张量,能够从更高的信息维度辨别真实的欺诈用户群体,提升算法的准确性。
2015年,Jiang等人[68]提出了CrossSpot算法。该算法给出子张量的可疑度度量,并从一个可疑种子块开始,对每个属性逐一进行迭代优化。
以往的算法只基于一种密度度量,导致其只能检测出特定的欺诈类型。基于此,Shin等人[69]提出一种灵活可调整的稠密子张量检测框架,支持但不限于算数平均密度、几何平均密度以及可疑度等密度度量指标。事实上,M-Zoom支持所有满足式(2)的密度度量指标:
其中,M表示稠密度,B、B′表示块,R表示关系。如果具有相同关系的两个块对于每个维度属性具有相同的基数,则具有较高或相等质量的块至少与另一个块一样密集。在寻优阶段,与CrossSpot算法相比,M-Zoom从整个张量出发采取贪心算法逐个移除属性值,有效提升了算法的运行速度,并给出近似边界。
现有的稠密子张量检测方法只适用于存储在内存中的小数据集,事实上,现实中的大规模数据集,如社交媒体和网络,通常被存储在磁盘上。基于此,Shin等人提出D-Cube[70],一种基于磁盘的稠密子张量检测算法。该算法以最小化磁盘IO为目标进行优化,并支持Hadoop的MapReduce框架进行分布式运算。
由第3.2节可知,欺诈可以视为二部图中的双边聚集行为,相应的欺诈检测可以看作可疑稠密子图挖掘问题。以往基于结构信息的方法多通过设计各种密度度量、最大化算术度或几何度[71]等方式检测稠密子图,但这些方法仅考虑网络的浅层拓扑结构,无法捕捉节点间的非线性关系。基于此,有学者提出基于深层网络结构进行团伙欺诈检测。该方法的一般思路是首先对网络进行降维处理,通过深度网络嵌入学习节点的潜在表示,将网络结构信息编码在一个连续的向量空间中,然后利用聚类算法在潜在空间中找到高密度区域。降维处理与欺诈检测不是独立进行的,而是相互结合使用。
2018年,Wang等人[72]提出深度结构学习模型DeepFD,用于挖掘网络中的欺诈群体。DeepFD算法通过深度自编码器将所有的用户节点嵌入到一个潜在空间中,目标是使同一欺诈块中可疑用户的向量表示尽可能接近,而正常用户的表示则均匀分布在剩余的潜在空间中,从而使基于密度的检测方法能够准确地检测出欺诈块。DeepFD的深度结构学习框架如图5所示,该框架主要由两部分组成:第一个组件的目的是通过用户节点的向量表示来重构原始图结构;第二个组件捕捉不同用户节点之间的行为差异,即如果两个用户节点共享大量的商品节点,那么它们往往具有较大的相似性度量。通过对两个构件进行联合优化,嵌入结果能够同时保留全局图结构信息和用户行为特征。实验结果表明,DeepFD的F分数较M-Zoom和D-Cube等基线模型提升10%左右。
与DeepFD算法仅嵌入用户节点不同,FraudNE[73]将用户和项目两种类型的节点编码到一个共享的潜在空间中,使欺诈用户和项目尽可能紧密地嵌入到同一个密集块中,而正常的用户和项目则均匀地分布在低维潜在空间中。如图6所示,文献提出的框架包括两个自动编码器,分别处理网络中的源节点和汇聚节点,这两部分可以具有不同的神经网络结构、参数和非线性激活函数,以解决二部图的表示问题。
基于图的团伙反欺诈旨在挖掘由异常活动导致的具有不寻常结构的特定子图,这些子结构通常显著偏离正常模式,如稠密子图、稠密子张量、频繁子图或其他特定的连接模式。不寻常子图的定义通常与欺诈检测问题高度相关,包括基于稠密子图的欺诈检测、基于稠密子张量的欺诈检测、基于深层网络结构的欺诈检测以及基于频繁子图的欺诈检测。
网络中联系紧密的子图往往表明异常或欺诈行为,可以通过稠密子图或稠密子张量挖掘进行有效检测,两者的基本思想相似:首先定义稠密度指标,然后采用搜索策略进行度量指标优化以识别欺诈用户群体,其关键在于稠密度的定义。前者基于二维网络数据进行研究,往往造成数据的缺失。而稠密子张量的方法使用多模数据对网络进行建模,支持从更高的数据维度进行用户行为分析,有效提升欺诈检测的准确性。不足的是,此类方法通过设计各种密度度量进行稠密子图(子张量)挖掘,仅考虑网络的浅层拓扑结构,无法捕捉节点间的非线性关系。
基于深层网络结构的欺诈检测通过深度网络嵌入学习节点的潜在表示,将网络结构信息编码在一个连续的向量空间中,然后利用聚类算法在潜在空间中找到高密度区域。此方法通过图嵌入对原始网络进行降维处理,可以拓展到大规模复杂网络的欺诈检测,有效解决传统检测算法带来的维数灾难。
4.1.1 公开数据集
关于欺诈检测的研究大多使用真实世界的数据作为测试平台[74-75]。目前金融领域可用于图异常检测的常用公开数据集如表3所示,涵盖通信、信贷欺诈、车险欺诈以及医疗保险欺诈等不同领域。其中,在线社交网络(OSN)领域的公开数据集较多,而涉及个人隐私信息(如银行和保险等领域)的数据集匮乏。
表3 公开数据集Table 3 Public datasets
4.1.2 合成数据集
欺诈检测是一个高度敏感的话题,出于隐私考虑,组织和利益相关者不愿意分享他们的欺诈检测信息,阻碍了研究的进展以及实验的可重复性。一种可能的解决方案是考虑使用合成数据集。首先使用图生成器创建尽可能逼近真实场景的网络,如优先连接网络、随机网络、幂律网络和互联网拓扑结构等;然后人为地注入异常信息。目前异常注入的方法[75]主要有三种:(1)扰动原有数据,即对原本正常的网络进行人为的调整,使其呈现异常状态,如随机重新连接边缘或交换节点属性;(2)插入欺诈信息,即对原有的图数据进行扩展,插入异常节点和连边等;(3)对于标签数据,可将对应标签数目出现次数较少的节点视为异常。合成数据集提供了一个通用的基准,允许多组研究人员在同一数据集上评估提出的算法性能。然而,许多在合成网络上表现良好的算法在实际应用中可能表现不佳,因为实际数据往往很混乱,具有孤立节点、奇异度分布和不平衡类分布。合成数据集在拓扑结构、节点属性、边属性、社区结构、数据分布和相关性等方面如何设计,使其尽可能接近欺诈检测算法实际处理的网络类型仍是未来的一大挑战。
基于图的欺诈检测可视为二分类问题,可利用二分类算法的评估方法说明算法的性能。
在有足够的标记数据时,通常基于ROC或PR曲线的经典标准评估算法性能。ROC曲线以FPR(false positive rate)为x轴,TPR(true positive rate)为y轴,其中FPR指实际负样本中被错误预测为正样本的概率,TPR指实际正样本中被预测正确的概率。PR曲线以Recall为x轴,Precision为y轴,Recall与TPR含义相同,而Precision指正确分类的正样本数占总正样本的比例。相比于ROC曲线,PR曲线更加关注正样本(欺诈样本),对欺诈检测模型有更好的评估效果。
对于无标签数据集,Goix[76]提出基于过剩质量(EM)和质量体积(MV)曲线以评估异常检测方法的性能,但目前这两种方法还没有应用到图欺诈检测中。
基于图异常检测进行反欺诈一直是学术界和工业界的研究热点。在数字化金融服务迅速发展和网络规模不断扩大的情况下,欺诈检测算法需要高效率且可扩展。近年来,新技术的发展为图欺诈检测提供了理论基础,如张量分解、网络嵌入以及图神经网络等。方法的选择取决于欺诈检测的实际需求,最终达到的效果也各有差异。本文对反欺诈中广泛应用的图异常检测技术进行总结,并对未来研究的发展方向进行总结。
不同的复杂网络的欺诈定义和检测方法不同,应根据复杂网络的具体应用场景以及侧重的特征选择合适的异常检测方法。欺诈检测方法的分类汇总如表4。
表4 欺诈检测方法分类汇总Table 4 Classification summary of fraud detection methods
目前,虽然社会网络分析方法在反洗钱、医疗保险欺诈检测以及车险欺诈检测等领域已初见成效,但面对不断发展的数据变化和实际需求,仍需进一步的发展与创新,主要有以下方向:
(1)海量数据的计算及时性
绝大部分的金融欺诈检测方案是在事务处理系统中实施的,这种复杂系统能够实时处理海量事务数据,通常要求毫秒范围的响应时间。以交易系统为例,这种端到端的时间限制包括交易处理本身、欺诈评分、支付网络处理以及通信协议等步骤。由于实时处理的限制和大型互联图形的使用,社会网络分析方案面临严重的响应时间压力。因此,如何利用社会网络分析实现欺诈检测的实时性将是一个重要的研究方向。
(2)异构信息网络的复杂交互性
金融交易处理系统通常涉及众多交易类型和模型来处理欺诈风险。在金融支付系统中,欺诈检测模型感兴趣的特征可能来自不同类型的社会网络,这种复杂性成为开发有效图形解决方案的障碍。同样,跨渠道欺诈需要在实时响应服务级别协议的压力下,在多个具有不同特征的图上同时进行计算。因此,如何在独立的网络中执行批量计算也是未来的一个挑战。
(3)多模态数据的建模可解释性
数字化场景下的金融服务渠道日趋丰富,不同渠道下的数据来源囊括了诸如文本、音频以及图像等多模态数据,多模态数据中所暗含的潜在信息对于分析金融场景中的欺诈行为至关重要。当前针对多模态数据的建模分析多集中于推荐系统和计算机视觉等人工智能商业场景,针对数字化金融科技领域的研究相对较少。因此,探究如何合理解析多模态数据并将其转化为社会网络分析法中的实体表达或关系描述是下一阶段可突破的学术难点。