武建奇,何 姝
(1.河北大学经济学院,河北 保定071000;2.河北经贸大学马克思主义学院,河北 石家庄050061)
互联网贷款是一类利用互联网及相关信息技术提供金融产品和服务的模式,从信用卡、现金卡到消费信贷,互联网贷款正在以一种非常迅猛的势头在全国范围内兴起。互联网贷款业务的不断扩增,吸引了包括商业银行、消费金融公司、电商在内的各类机构纷纷入市,客户信用也随之膨胀。为了能够抢攻市场,精准快速识别客户风险,互联网贷款机构面临严峻挑战。
互联网贷款的信用风险来源主要有延滞缴款和欺诈两大类。发轫于商业银行自身经历经验的信用评估打分体系,能够针对客户延滞缴款风险进行较为有效的识别和监控,已经在业内普遍运用并达到良好的效果。相比之下,由于互联网贷款从营销到借款人申请贷款,再到风控审核全流程均在网络操作,不再进行线下调查,比传统贷对客户履约约束力款弱,因此易伪装且识别难度更高,为骗贷者提供可乘之机,导致互联网骗贷现象频发,造成银行等贷款机构的巨额损失和社会资源的浪费。
互联网贷款欺诈又称互联网骗贷,是指在互联网贷款活动过程中由于借款人恶意骗贷而可能导致贷款人发生经济损失的行为。欺诈风险是互联网骗贷最主要的来源,因此反欺诈是互联网贷款必不可少的部分。已有文献关于信贷业务欺诈风险的研究成果主要涉及两方面:一是研究整个欺诈风险管理体系的设计,如黎江(2007)建议建立统一的欺诈风险管理平台对银行运营作业进行监测;张韦韦(2017)提出引进智能化反欺诈技术实现商业银行信贷反欺诈智能化管理;罗夏蕾(2018)分析了花旗等银行的外部欺诈风险防控体系,提出通过建立欺诈案件信息库和资源共享机制提升银行风险识别、评估能力。二是研究对欺诈风险进行测算或估计方法,如周铭(2007)改进BP 神经网络通用模型,使其通过交易数据学习可以完成银行卡欺诈交易侦测;杨玺(2008)讨论了风险检测试验系统结构,认为在信用卡欺诈检测中SVM 模型性能高于ID3+BP 混合模型。上述研究成果尚缺乏互联网信贷欺诈风险形成机理研究,对欺诈风险估计主要针对信用卡业务且实施条件苛刻,不适用于互联网信贷。李国义虽研究了互联网金融中的信用风险形成机理,分析了信用风险从酝酿、累积到事故发生的全过程,但其研究成果没有考虑互联网骗贷欺诈风险形成环境的特殊性。
总结前人的研究成果,可以加深对互联网贷款欺诈风险的认知,得以重新审视互联网贷款风险管理及反欺诈的定位与价值。与传统贷款业务相比,多数互联网贷款机构直接生长于新的互联网技术环境,比较接近对大数据资源的开发利用,可以依托大数据对互联网骗贷形式进行调研,发掘出互联网贷款欺诈特点,梳理出欺诈风险形成机理,继而借助人工智能技术,结合互联网贷款场景和数据进行精细化的反欺诈设计。
互联网贷款业务欺诈风险主要来源于合作商户和借款客户,因此互联网贷款欺诈风险包括商户欺诈风险和客户欺诈风险。
商户欺诈风险是一种集中欺诈风险,一般出现在代付类互联网消费信贷业务中,表现为两种模式:一种是商户本身是骗贷类机构,通过注册空壳公司、构造虚假资料的方式骗取信贷机构的合作,然后召集专业骗贷从业者(以下简称黑产) 或者虚构借款人向信贷机构骗贷;另一种模式是商户作为中介撮合骗贷,商户提交的资质材料虽然都是真实的,但是已经沦为骗贷客户的集合地,商户和借款人共谋骗贷。这两种骗贷模式虽然略有不同,但都属于群体欺诈,在还款表现方面基本一致,都呈现了银商合作开始后,大量涌入借款客户,并在短期内集中出现客户违约、失联的情况。
客户欺诈风险是指客户自身的骗贷风险,是一种分散欺诈风险。线下传统贷款业务中客户欺诈风险较小,但随着信贷业务从线下向线上迁移,客户骗贷手段多样,有两种模式:一种是纯个人骗贷,客户本人有骗贷的想法,通过填报夸大的或是虚假的进件材料骗过信贷机构获取贷款,其本质是个体欺诈风险;另一种是客户在亲友、老乡的教唆诱导下盲从骗贷,呈现典型的“家族骗贷”网络关系。这两种骗贷行为的主谋都是客户,与商户无明显的必然性,贷后多表现为客户从首次还款账期开始就拒不还款,后者还会呈现出社交网络关系高度重叠的现象。
表1 列举了互联网贷款中常见的欺诈模式及其表现形式。
表1 互联网贷款常见的欺诈模式及表现形式示例
一是隐蔽性强。传统贷款业务是在线下场所办理相关手续,信贷机构可以在现场查看是否借款人本人申请借款,可以通过尽职调查了解借款人的实力,欺诈风险易于暴露。互联网信贷中,借贷双方通过网络交换信息,借款人隐藏不利于自己借款的各种信息,借贷双方信息不对称为欺诈客户提供了庇护。
二是低频高损失。互联网信贷业务中欺诈行为发生概率低于非欺诈违约发生概率,但欺诈事件一旦发生,往往追偿无果,造成贷款本金全额损失。例如某互联网金融公司数码分期消费信贷业务上线反欺诈模型之前,总违约率为11.6%,造成总损失1759 万元,其中欺诈事件发生率为2%,造成了576 万元的经济损失;非欺诈违约发生率为9.6%,造成的损失为1183 万元,欺诈发生率是总违约率的五分之一,但是却贡献了总损失的三分之一。
三是存在破窗效应。由于传统信贷会进行线下调查,欺诈风险易于暴露和防范,因此外部欺诈行为通常是零星分散出现。互联网信贷既无抵押又无担保加上信息不对称,欺诈成本大幅度降低,吸引了一些有欺诈意图的客户。这些客户骗贷成功后,会鼓动亲友或召集他人继续骗贷,甚至投靠黑产经过包装扩大团伙。
按照互联网贷款欺诈来源和表现,可以把欺诈事件分为个体欺诈和群体欺诈两类。个体欺诈的欺诈风险形成通常经历欺诈酝酿、欺诈发生两个步骤,群体欺诈的形成过程是一个由欺诈酝酿、欺诈发生、欺诈传播构成的闭环。
欺诈酝酿是欺诈意图萌芽到形成的过程。根据欺诈意图形成时间可以将欺诈酝酿分为贷前欺诈酝酿和贷中欺诈酝酿。贷前欺诈酝酿是欺诈意图形成于贷款合约签订之前,这种欺诈是主观欺诈,借款人毫无还款意愿。贷前欺诈意图有两种情况:一种是借款人对互联网贷款风控较为了解,知道互联网贷款依托于便利性和低风控成本存活,认为贷款机构对欺诈风险识别能力不足,通过包装申请资料可以很容易通过风控审查,并且贷款机构对骗贷案件贷后处置能力弱,即使自己违约也未必遭受惩罚,随即萌生了欺诈意图,并且在搜集目标贷款机构的进件材料和风控偏好的过程中,确认了目标贷款机构符合前期预测,欺诈意图完全形成。另一种是借款人法律知识淡薄,对互联网信贷产品和风控不甚了解,对违约惩罚亦不清楚,但看到周围亲友骗贷成功,认为有一种操作简易、中介费低却可以获得大额现金的方式,在他人煽动下欺诈意图不断强化,决定效仿他人进行骗贷。贷中欺诈酝酿按照欺诈意愿形成的原因,也可分为两种情况:一是借款人申请贷款的时候本没有欺诈意图,但是在申请贷款后由于财务状况恶化,从而产生欺诈违约故意;二是借款人向多家信贷机构借款,借新债换旧债,在循环贷过程中,借款人明知存在无法借到新的贷款用于偿还本次贷款的可能,仍然提交贷款申请,循环一旦打破,本次贷款欺诈酝酿就形成了。
欺诈发生是指借款人因欺诈心理而违约,导致信贷机构遭受经济损失。如果说欺诈酝酿是借款人违约心理承受能力逐渐强化的过程,那么欺诈事件发生就是借款人将欺诈意图付诸实践的过程。在互联网信贷业务中,各家信贷机构都会在贷款到期还款日前向借款人发出还款提醒,借款人此时会再次对自己的履约能力和违约后果进行评估,如果经过评估借款人违约心理承受能力不变或者更强,借款人就会真正的实施欺诈。
欺诈传播是指借款人在实施骗贷不当获利后向他人鼓吹骗贷,或者他人效仿借款人进行骗贷的过程。与传统信贷多发生内外勾结骗贷不同,互联网信贷中家族骗贷、区域骗贷的现象十分明显,这主要是因为互联网信贷欺诈传播的途径特殊有两种:一种是亲密联系人传播,这是典型的家族骗贷的传播途径。一个借款人骗贷成功后,会向亲友推荐信贷产品,亲友作为借款人经历欺诈酝酿和欺诈发生;另一种是黑产数据共享,互联网骗贷产业几乎与互联网信贷产业同时起步,经过几年的发展,黑产也织出了一张信息网,黑产之间信息互通、数据共享,一家黑产骗贷实施成功后,会招来多家黑产入市。实际业务中欺诈传播有两个特点:一是欺诈传播不具有方向性,通常是发散性的传播,即借款人在可传播范围内不会指向性地选择特定对象传播,可能传播给亲人也可能传播给同事或者同学,传播给谁主要取决于双方的亲密度;二是欺诈传播距离短,主要是亲密的一度关联人(自己直接可以联系到的人),一般不会超过二度关联人(一度关联人的直接联系人)。
个体欺诈要完成从欺诈酝酿到欺诈发生的过程,至少要具备以下三项条件:第一,信息不对称。信息不对称是欺诈意图能够付诸实际的先决条件。正是由于互联网信贷采集到的借款人信息量和维度有限,借款人成了信息优势一方,互联网信贷机构成了信息劣势一方,具有信息优势的借款人就会利用这种优势促成欺诈酝酿和欺诈发生;第二,借款人诚信观念淡薄且缺乏自我约束力。我国诚信体制建设比较晚,对失信处罚制度尚不完善,讲诚信的宣传力度和普及程度也还不高,一些人诚信观念淡薄,对失信后果了解不够,为了一点蝇头小利就无法自制;第三,信贷机构风控能力不足。欺诈意图之所以能够演变成欺诈事件,信贷机构应当认识到自身风控存在漏洞,现有风控能力有待提升。虽然互联网信贷不再进行线下尽调,但是反欺诈工作仍不容忽视,尽管各家信贷机构都会详细列出借款人申请贷款所需的进件材料,会对进件材料进行反欺诈审核,但是反欺诈工作不能固化,信贷机构需要跟踪欺诈模式的变化,持续优化反欺诈模型,否则就易积累欺诈风险。
群体欺诈风险的形成,除了个体欺诈必备的三个条件外,还需要具有传播途径。传播途径的载体可以是电话,可以是工作单位,也可以是虚拟环境,只要可以让借款人和关联人产生交集的方法都能成为欺诈传播的途径。
互联网贷款欺诈风险量化评估应着眼于欺诈风险的表现形式和形成条件,只有基于欺诈风险的表现形式设计量化评估方案才能有的放矢,只有基于欺诈风险的形成条件建立量化评估体系才能精准有效。
通过分析欺诈风险表现形式和表1,可以看出“构造虚假交易”、“中介撮合骗贷”、“黑产‘撸口子’”、“客户本人骗贷”这几种模式下,欺诈客户信息都与正常客户的行为痕迹不同,因此通过识别客户个体与众不同的行为,有助于信贷机构判定欺诈风险程度。通过表1,还能发现“空壳公司骗贷”、“构造虚假交易”模式下,欺诈商户表现异常,因此对商户行为痕迹的分析也应纳入欺诈风险量化评估的范畴内。
通过分析欺诈风险的形成条件,必须尽可能的识别出风险形成条件成熟度,并加以破坏,才能最大限度的扼杀欺诈风险。这意味着信贷机构需要获取更多更有效的金融数据、采用更先进智能的算法构建反欺诈模型和向借款人做好违约后果警示。在获取更多借款人金融数据方面,信贷机构不仅要全面收集借款人的基本信息、资产信息、朋友圈信息、设备指纹信息,还应引进网络征信以便了解借款人的共债情况和历史还款记录。在反欺诈模型优化方面,信贷机构既要识别客户行为痕迹,也要审查商户行为痕迹,还要考虑客户的社会关系网络,社交图谱技术用于群体反欺诈是非常有效的。
综上,在互联网贷款欺诈风险量化评估中,应该以个体欺诈风险估计为根本,重点考察客户资产、朋友圈、设备指纹、网络征信是否存在异常。以社会关系图谱为补充,看客户亲密关联人是否有欺诈历史,并用商户行为痕迹辅助群体欺诈侦测。
建立互联网信贷量化评估模型至少需要五个步骤:数据采集、数据探索、特征工程、模型训练、模型测试与评估。
在数据采集阶段,信贷机构要明确数据采集范围和维度,在获得客户授权的情况下,尽可能全面的采集到客户个人基本信息、运营商通话记录、通讯录数据、设备类型、物理地址、虚拟地址、网络借贷数据,与此同时从人民银行、法院、工商总局等多个数据源收集犯罪信息或不良记录,然后将从客户采集到的数据、公检法等机构采集到的数据以及信贷机构自有交易日志等数据进行整合,形成一份维度广、数据丰富的能够全面反映客户金融属性的宽表。
所有采集到的数据到目前为止还是碎片化的,要想让数据“说话”就需要对数据进行探索分析。信贷机构应建立数据集市,将采集到的数据按照呈现形式分为客户信息、商户信息、订单信息、日志记录等类别,按照金融属性分为客户基本信息、地址信息、设备信息、认证信息、征信信息等类别,按照时间将交易数据划分为贷前材料、贷中数据、还款表现等类别进行统计,分析各个统计变量的分布情况,观察是否呈现两端异常分布特征、计算离群值比例,尝试描述客户特征,建立客户画像。
特征工程是指在对客户、商户、交易、环境等数据进行深入分析基础之上,挑选出能够在一定程度上反映欺诈风险的特征变量。特征工程是建立欺诈风险量化评估模型的必要工作,如果使用过多的特征变量训练模型,训练数据量庞大,运算效率会很低,甚至会出现过拟合的结果,导致模型泛化能力低,不能在实际工作中使用,使量化模型失去了现实意义。特征工程承接数据探索,以特征构造为开端,以特征选择为核心。特征构造可以采用矩阵衍生、生成稀松变量、社交图谱转化等方式,构造后的特征要注意进行归一化或标准化转换。
表2 混淆矩阵
欺诈风险评估模型的训练与互联网信贷信用风险评估模型的训练区别很大,这是由风险特点决定的。信用风险通常呈现高频低损失的特点,而欺诈风险呈现明显的低频高损失特点,这就意味着真正业务数据中欺诈案例占比极少,欺诈数据与正常数据之间比例悬殊,对于比例过于悬殊的非平衡样本,如果使用信用风险评估常用的逻辑回归、决策树等有监督算法进行训练,效果极不理想。所以,近几年互联网信贷机构纷纷转向聚类、孤立森林等无监督学习,寻求通过异常检测佐以社交图谱关联度的方式剥离出异常的欺诈嫌疑较高的客户。
模型训练是一个多次反复的过程,每个模型训练完成后都要对模型进行测试和评估,使用测试样本对模型性能进行评估,测试样本预测结果生成混淆矩阵,如表2 所示。通过混淆矩阵可以计算准确率(ACC)、召回率(TPR)和存伪率(FPR),通过这三个指标可以评价欺诈风险评估模型的性能。其中,准确率ACC=(TP+TN)/(TP+FN+FP+TN),反映模型对欺诈客户和正常客户区分能力和精确程度,ACC 值越高说明模型越精确;召回率TPR=TP/(TP+FN),反映模型对欺诈客户的识别能力,ACC 越高说明侦测到的欺诈客户越多,漏网之鱼越少;存伪率FPR=FP/(FP+TN),反映在预测为欺诈的客户中误判的比例,FPR 越低说明错判的客户越少,对正常客户的干扰越小。在实际运用中,首先要关注准确率,准确率只有高过一定值,模型才有价值。然后要综合考虑TPR 和FPR,由于欺诈具有低频高损失的特点,互联网信贷机构应本着非常谨慎的风控原则,最大限度地侦测出欺诈可能性,即当两个模型FPR 水平相当的情况下TPR更大的那个模型更优。
群体欺诈风险的度量建立在社会关系图谱基础上,社会关系图谱假设人与人之间是有联系的并且可以从现有特征或者衍生特征中寻找出这种关系,这种算法注重关联性,它以每个借款人为节点,当两个借款人在某个特征上相同或相似,那么两个人有社会关系,则用一条线将两个节点连接起来。随着特征的挖掘,更多的人连接在一起就构建了一个完整的社会网络,形成了社会关系图谱。群体欺诈风险的度量就是以现有提交订单客户群体的信息构建一个完整的社会网络,对节点(客户) 欺诈风险系数进行排名,然后从中寻找那些欺诈风险系数较高的客户。主要的建模流程为:第一步计算整体欺诈率,即计算将所有通过客户都拒绝的召回率;第二步计算加入某项业务逻辑后的召回率;第三步计算前两步召回率的比值,作为特征权重,用来衡量两个客户的亲密程度;第四步对客户欺诈风险系数进行排名,系数高的团伙的欺诈风险就高,应当特别关注。
文章选择某互联网信贷机构的数码消费贷款产品H 数据进行实证分析,产品H 属于小额短期消费贷款,贷款采用全流程线上运营(客户通过APP 提交进件材料发起贷款申请,风控审核采取机器自动化审核),贷款金额为5000 元以内,这种信贷产品是欺诈风险最高的互联网消费贷款产品。
截取2018 年8 月6 日至2019 年3 月20 日的数据作为分析样本,样本中包含4000 位客户的资料,这些资料包括客户基本信息(如性别、年龄、工作单位等)、手机通讯录、运营商账单、通话详单、虚拟环境(如IP 地址、ISP 等)、物理环境(如GPS 地址、移动设备ID 等)、交易数据(如历史借贷次数、还款表现等)、网络征信(如多头借贷记录、逾期金额等)、行为数据(如填写资料时长、APP 启动时间等) 和商户信息(如获客渠道、所购产品等)。
数据采集完毕后进行数据清洗,对异常数据不做处理,对缺失数据进行了填补,对缺失比例5%~20%的变量采用了均值填补,剔除了缺失值超过50%的变量。数据清洗后对数据进行了转换,对分类变量生成哑变量,对连续性变量离散化,并进行了标准化处理,共衍生为487 个统计变量。487 个统计变量中有部分变量长尾异常效应明显(如图1 所示),有些变量两端异常明显(如图2 所示),经过分析、特征再构造和特征选择最后筛选出258 个特征用于建模。
图1 长尾异常效应明显的变量示例
图2 两端异常明显的变量示例
在欺诈风险评估模型训练阶段,选择了Kmeans、孤立森林、CBiForest 三种算法进行训练,由于欺诈样本仅132 例,占4000 个样本的比例为3.325%,故采用三重交叉验证的方法进行建模。Kmeans 是一种基于距离的异常检测方法,运用在欺诈风险评估中是将样本聚类为两类,数量较少的类被标记为异常客户群体,数量较多的类被标记为正常客户群体,每个客户到正常客户群体质心的距离记做异常分数,欺诈风险用异常分数表示,距离越大分数越高越异常。孤立森林(iForest)也是一种常用的异常检测的方法,欺诈风险同样可以用异常分数表示,iForest 对样本进行分割,那些分布稀疏且离密度高的群体较远的离群点需要更多次的分割才能分出,因此iForest 的异常分数是每个点到根节点的平均距离,平均距离越近分数越大越异常。CBiForest 算法是聚类和孤立森林的综合,先对客户做Kmeans 聚类,然后针对两类客群,分别训练iForest 模型,最后将Kmeans 和iForest 异常分数使用和积法加权相加,得到CBiForest 最终分数,分数越高客户越异常,欺诈可能性越大。
模型训练完成后,将4000 个样本作为测试集进行模型评估,各项评估指标如表3 所示,Kmeans 和CBiForest 训练的模型测试准确性达到了0.65 以上,FPR 基本持平的情况下,CBiForest 的TPR 更高,说明侦测欺诈风险的能力更强。
在社会关系图谱方面,选择同一GPS、同一IP、同一设备号、同一银行卡等108 个特征作为关联绘制社交图谱,选择PageRank 作为群体欺诈风险度量算法,测算风险系数和特征权重。在对一个8 人可疑团体的评估中,根据业务逻辑放大同一设备号这一特征权重4 倍后,这8 人的亲密程度变化如图3。
表3 互联网信贷欺诈风险评估模型试验测试结果
图3 特征权重变化引起社会关系亲密度变化图
表4 群体欺诈风险评估模型试验测试结果
相应地,欺诈风险系数也发生了变化(如表4 所示),最终的风险系数结果显示1、2、6 号存在群体欺诈风险。后期就这一情况及时和业务人员反馈,经过调查发现1 号客户在多家贷款机构存在违约记录,2 号客户和6 号客户都与1 号客户交往密切,属于一度亲密关联人,行为存在异常,具有群体骗贷的特征。说明包括PageRank 算法在内的人工智能算法在群体欺诈风险度量方面具有效力,具备应用条件。
近年来,互联网贷款业务发展如火如荼,吸引了包括商业银行、消费金融公司、电商在内的各类机构纷纷入市,客户信用也随之膨胀。但囿于营销渠道和风险管理的互联网环境,欺诈风险的伪装更隐蔽、识别难度更高,导致互联网骗贷现象频发,如何精准度量欺诈风险、化解互联网骗贷难题成为风险管理部门亟待解决的问题。
欺诈风险是互联网骗贷最主要的来源,根据来源分为商户欺诈风险和客户欺诈风险,形成了多种欺诈模式,并呈现出隐蔽性、低频高损失和破窗效应的特点。针对多种欺诈模式和特点,采用独立调查的方法深入研究了互联网贷款欺诈的形成过程,发现信息不对称、借款人诚信观念淡薄且缺乏自我约束力、贷款机构风控能力不足、通畅的传播途径是形成欺诈的必要条件。面对这样的互联网贷款市场环境,贷款机构首先应提升自身的反欺诈能力,以个体欺诈风险估计为基本,以社会关系图谱为重要补充,借助人工智能技术构建互联网贷款欺诈风险量化评估模型。
研究基于Kmeans、iForest 和CBiForest 三种无监督算法建立了个体欺诈风险量化评估模型,从测试结果来看,CBiForest优于其他两种算法,是一种比较优秀的量化评估方法。基于PageRank 算法建立了群体欺诈风险量化评估模型,说明包括PageRank 算法在内的人工智能算法在群体欺诈风险度量方面具有效力,具备应用条件。