李晨
随着互联网金融的发展,传统金融机构一边享受着金融科技带来的效率提升和服务边界的扩大,另一边“黑产(网络黑产)”的攻击手段也在不断升级,金融机构遭遇的欺诈情况越来越复杂,基于知识图谱的关联反欺诈应运而生。
风控就是攻守双方技术的进化史
随着互联网金融的发展,传统金融机构一边享受着金融科技带来的效率提升和服务边界的扩大,另一边随着科技的发展,“黑产”也从盗号演变成了利用大规模攻击、通过IP池等技术绕过风控规则,金融机构遭遇的欺诈情况越来越复杂,主要有四点变化:
第一,专业化。目前的“黑产”团队已经非常专业,不仅有专业的风控人员、专业黑客,甚至还有AI专家,因此,金融机构或者金融服务机构如果没有掌握更先进的技术必然无法在技术上获得一个比较优势。
第二,产业化。金融欺诈已经从单个作案发展成了团伙作案,因此“黑产”团伙需要通过大量账号进行大规模攻击以期获得更大的收益。这种方式导致虽然他们的欺诈模式不断变化,但是在短时间内会有行为惯性,也给了风控人员抓住这种行为痕迹的时机。
第三,隐蔽化。目前“黑产”集团跨境犯罪已经非常普遍,这些跨境犯罪集团的手段更加隐蔽,包括利用猫池(ModemPOOL)、IP池对身份进行洗牌,潜伏时间较长,交易链路更加复杂等,因此对数据的覆盖范围提出了更高的要求,同时需要风控人员做更深层次的数据和挖掘探索。
第四,突发化。因为黑号一旦进入征信系统后号码将无法再次骗贷,因此,“黑产”行业主要从两种方式榨取黑号的最大价值,一是他们会用一个号码在很短的时间内对多个平台进行骗贷申请,二是很多账号在同一时间内对一个漏洞进行大规模突击性的攻击,这两种突发式的攻击要求反欺诈监测系统具备高实时性的能力。
综合来看,回首近年来金融业的发展可以看到,风控就是攻守双方技术的进化史。
基于图关系的金融解决方案
截至目前,反欺诈也经历了传统反欺诈、基于大数据反欺诈以及现在的基于知识图谱(关系网络)反欺诈三次进化,其中,基于知识图谱反欺诈依赖的底层技术就是图数据库技术。
美国有一款老少皆知的小游戏“connect the dots”,它的玩法就是把所有线索连在一起,即可得知事件全貌。其实图1的点就相当于现在的很多数据,在系统里是零散的,因此如何把这些零散的点按照规律快速地连接起来,就是实时图数据库要做的事情。
点是用户数据,而用户数据是图数据库的基础,因此如何遵循法律法规和监管要求,按照用户授权收集数据是关系网络反欺诈的关键,本文暂不对数据采集这部分进行展开说明。
除了内部数据外,加上其他的外部数据收集之后,风控人员就可以利用用户的客户社会关系、交易模式关联、互联网行为、移动设备等数据对客户的行为模式进行匹配分析,最后通过反欺诈规则引擎和机器学习加以辅助,以此判断客户存在欺诈的可能性。
接下来介绍一下基于TigerGraph的反欺诈系统架构。
首先,TigerGraph实时图数据库能够在支付处理前识别欺诈。基于图灵活的Schema特性,TigerGraph支持将不同来源的数据汇集,基于数据之间的关系组成类似宽表一样的全局Graph。
其次,TigerGraph通過“机器学习+图数据库”识别欺诈,目前,机器学习技术面临着特征值不够多、不够有效的问题,TigerGraph图数据库能够通过对用户的关系特征进行建模,然后基于图数据库进行毫秒级实时甄别。因此,对于系统内已标记人群,通过图数据库能够快速通过他的人群特征,进行欺诈判定,而对于系统内未标记或标记过期人群来说,TigerGraph图数据库在系统里能够毫秒级生成百余项关系特征,并且基于决策树或逻辑回归等方式进行分类和数据分析。
最重要的一点是,TigerGraph图数据库采用的无论是基于关系得到的特征还是基于决策树或者是基于逻辑回归的判断方式都非常好理解,这为企业关注的“可解释的AI”提供了解决方案。
TigerGraph实时图数据库反洗钱应用
反欺诈的例子展示了TigerGraph图数据库与机器学习的结合。接下来通过两个反洗钱的应用场景来了解TigerGraph图数据库的另外一个优势—深度链接分析。
第一个场景是利用图数据库在反洗钱中发现漏报和提高反洗钱侦测准确性。比如一个新用户此前没有金融交易历史记录,那么系统就没有预警,不会将其列入高风险类别,工作人员也就会把这笔交易标记为低风险。但是利用图数据库进行深度链路分析之后,会发现这个用户的号码是和别人共用的,并且曾经有一些洗钱的预警,那这笔交易的系统判定就从低风险变成了高风险。
由此可见,欺诈者尽管在欺诈过程中将自己的一些基本特征及浅层次链接信息进行了伪造,但是深层次的关系网络是无法提前伪造或者需要付出极大的成本去掩饰的,基于TigerGraph的应用可以轻易提取出深层次的特征,进而协助企业进行判断。
第二个场景是利用图数据库在混合经济模式中追踪反洗钱(传统货币+加密货币)。比如图2方框里面显示的是已经发现的两笔可疑交易,基于这两笔交易针对资金流向的上下游进行深层交易追溯,去掌握它的整个洗钱网络,这就取决于数据库能否支持10层以上的深度数据链接查询。目前TigerGraph也正和一些客户尝试把比特币或其他加密货币的交易记录纳进监管,即使交易手段和交易链路较之过去更加复杂,在TigerGraph的强大算力下,洗钱网络也将被一网打尽。
大数据+图技术应用现状
基于图数据库技术在这些场景中优异的表现,目前很多的企业开始对图数据库表示出了兴趣,并且有一些前瞻性的企业已从这项技术中受益并取得竞争性优势。
其实,图技术已经出现很多年了,但仍有很多企业没有用起来,是什么阻碍了这项技术的推进呢?
首先一点是无法扩展到多台机器,刚才我们已经提到,要想知识图谱发挥最大效用,数据种类的丰富性和数据存储年限都是非常重要的,但是之前的图数据库大多都是单机版,机器的配置大大限制了数据的存储范围。
举个例子,我们的某个银行客户想针对反套现场景的资金回流进行分析,即个人通过信用卡将钱刷给商家,商家再通过其他账户将钱打回给个人的储蓄卡。
在这个场景中需要借记卡和信用卡的数据,而客户的数据经过数据清洗以后,仅是10个月借记卡数据+1个月信用卡数据规模仍有5个T。
过去的图数据库无法支持这样的数据量,基于TigerGraph,我们用了12台机器的集群实现了本期数据的存储,并将计算效率从之前的3~4天得到结果缩短到1~30分钟。
此外,客户后期的设想是想把借记卡和信用卡各13个月的数据放进去进行分析,基于这些更多的数据应用场景才能更全面地覆盖到套现群体,而这个数据规模对于TigerGraph来说也不是问题。
第二点就是通过以上提到的反洗钱案例可以看到,分析路径每增加一步,都可能揭示更多的链接和隐含的关系,实际业务中需要做到3~10步以上的分析,目前的图数据库在企业级场景下,2度到3度查询时就会出现超时或者内存溢出的场景,如此浅层的特征关系欺诈者甚至可以伪造,这样的性能可以说对欺诈甄别的帮助很小。
最后一点是我们对欺诈等场景是有实时性要求,而其他数据库难以做到亚秒级查询并支持实时更新操作。
尽管目前国家对反洗钱等场景的时限要求并不高(按天计),这也是由于之前的技术发展未能实现更迅速的计算效率而做出的折中。理论来说,金融领域的任何案件在时效性上必然是越快越好。
目前,我们给国内某支付机构做的反洗钱系统,场景识别已经做到了分钟级。综合以上三点,目前每一点都有替代的解决方案,很多公司通过图数据库+大数据平台的方式实现了大数据量+秒级相应的效果,但是这样的解决方案由于技术门槛较高无法轻易掌握。
而作為普通企业来说,需要一款简单、成熟的解决方案来满足这三点要求,实时图数据库TigerGraph能够很好地满足企业这三方面的需求。
TigerGraph的独门武器
第一,在可扩展性和高性能方面,TigerGraph作为全球实现原生并行图数据库技术的公司,底层基于原生并行图存储结构,所有的数据都以边和节点的形式进行存储,数据在进入TigerGraph时会进行压缩,加之图分区技术,实现了较之其他图数据库50~200倍的存储规模。
边和节点既是存储模型又是计算模型,所有的节点都以内部索引的形式表达以利于快速定位,基于MPP架构支持大规模并行计算。基于以上,TigerGraph在单个项目上实现了千亿节点,万亿边的数据规模下,支持每天20亿次的数据查询和更新。对于深度链接查询更是可以做到6~10+度的查询。
第二,在易用性方面,TigerGraph自主开发了类SQL的图查询语言GSQL,GSQL拥有图灵/SQL完备的表达力,即目前所有的SQL查询和算法都可以通过GSQL实现,支持以天计(不是以周计)的PoC(项目验证)向客户展示价值。
第三,TigerGraph开发了GraphStudio可视化开发工具,这款工具基于浏览器,从graph schema设计,到关系型数据-Graph映射,数据导入,数据查询均可通过该工具实现,大大降低了使用门槛。数据导入后即可查询N度邻居、最短路径等,而相对复杂的查询也可以等技术人员写好以后,业务人员通过GraphStudio进行查询。