大数据背景下互联网金融信贷风险预测研究

2022-08-08 02:56
现代营销(创富信息版) 2022年7期
关键词:特征选择分类器样本

李 鑫

(首都经济贸易大学 北京 100026)

一、引言

随着移动互联网及大数据、人工智能产业浪潮的逐渐蓬勃兴起,“数字经济”业务模式随之走向深入发展,金融行业开始推进“数字化”业务转型,市场上已经不再是“一手交钱,一手交货”的单一运营管理模式,银行、互联网金融、小额贷款等企业开始利用大数据技术,为消费者提供个性化的信用服务。然而,在消费者享受借贷所带来的便利的同时,这些企业也承受着巨大的违约风险,借贷人如果不能按照协议偿还债务,将会给这些金融机构带来严重的经济损失,风险管理与控制依旧是金融行业需要解决的重大问题。在大数据时代,互金平台自身已经拥有了海量级数据,将风险控制与大数据结合,充分利用数据挖掘技术探索贷款人背后的信息规律。机器学习理论是一门为了模拟出人的大脑学习的活动,或是一种为了可以实现模拟人类大脑学习的活动过程,而可以使用高性能计算机系统进行仿真研究活动的一种方法,是当代人工智能主要的基础研究热点领域方向之一。为了快速应对目前一些相对复杂领域的未来预测方法和风险评价技术问题,基于机器学习原理的未来预测计算方法可利用模拟人类脑的学习思考活动特性,在金融风险的投资行为预测、股票市场价格预测、投标效果评价方法等多个相关领域内被应用。从研究互联网金融平台行为的角度来看,机器学习理论对于深度研究基于用户特性的贷款违约问题具有重要学术意义。构建信贷风险评估模型,及时精准发现危险用户,可以高效地对消费者进行信用评估,提高贷款违约预测能力,有效控制违约损失。

目前国内外针对小额信贷风险的预测及模型建立的实证研究,主要学者有廖绚等人首次用逻辑回归模型预测借款人是否逾期还款,并对贷款违约发生的相关影响风险因素也进行了预测分析研究;刘红生等人第一次利用逻辑回归预测模型构建我国中小企业银行短期综合贷款利率风险的预测分析模型;沈玉溪等人第一次用决策树方法对P2P对信贷数据质量进行定量预测,分析结果指出借款人收入、借款归还期限、信用等级均是未来影响借款人发生违约情况的三项主要决定因素;李进利用随机森林建立绿色信贷风控模型,结果表明该模型效果要好于逻辑回归,但面对大规模不平衡信贷数据时,模型性能有待提升;胡绪华等人利用BP神经网络可以解决非线性问题的特点,建立基于BP神经网络的商业银行信贷风控模型。机器学习目前已经在整个风控领域得到了广泛深入的商业应用,其中,logistic回归模型由于拥有较高的算法可解释性常用在风控研究领域,但是因为该领域算法学习能力十分有限,对特征处理方法的性能要求较高。近年来,由于集成学习结合了各个单一模型各自的特点,具有更好的准确性,成为风控建模的主流。本文旨在使用基于集成学习理论的模型RandomForest、XGboost和LightGBM模型进行金融信贷行为预测的建模,并将与传统预测的逻辑回归法进行简单对比,探寻预测模型性能,以实现帮助中小企业金融及借贷相关机构更有效避免各类潜在金融风险,更好地持续进行合规管理运营。

二、模型理论基础

Bagging和Boosting都是集成算法,即将多个泛化能力较弱的基学习器合成一个泛化能力强的强学习器。Bagging采用并行的方法,从原始样本集中随机抽取训练集并进行模型的训练建立基分类器,对于分类问题采用多数人投票决定的方式,对于回归的问题则取其所有基分类器的平均值,代表算法为随机森林。Boosting方法训练基分类器时采用串行的方式,各个基分类器之间有依赖。它的基本思路是将基分类器层层叠加,每一层在训练的时候,对前一层基分类器分错的样本,给予更高的权重。在测试时,根据各层分类器的结果的加权得到最终结果。其代表算法为AdaBoost、GBDT、XGBoost。梯度提升函数中的另外一种Boosting方式也是指通过计算使用代价函对上下一轮训练计算出的模型函数f的偏导率系数来计算拟合函数的残差。梯度提升决策树,其核心思想是通过采用加法模型(即基函数的线性组合),以及不断减小训练过程产生的残差来达到将数据分类或者回归的算法,这个残差量是每一个数加到其预测结果值上后所能获得到的真实结果值之间的一个累加后的量。本文使用Bagging和Boosting族算法中的RandomForest、XGBoost、Light-GBM三种集成算法建立信贷违约预测模型,并尝试模型融合对比模型效果,对比传统的信贷违约预测模型。下面对几种机器学习分类算法各自的功能特点分别进行简单介绍。

随机森林(RandomForest)算法是一种以决策树模型为核心实现的一种集成算法,通过将随机组合成多棵树,并根据随机取投票结果或随机取均值结果树的计算的方式从而最终得到可预测的树模型,它比随机单棵树具有相对更高的算法准确率和相对更强的系统稳定性。随机森林相比决策树拥有着更为出色且稳定持续的算法性能,主要取决于其抽取样本的随机性及对多棵树的高度集成,样本选择的随机性能够让它具有相对更稳定的抗过拟合能力,多棵树的集成能够让到它具有更高的准确率。随机森林本质上来讲是一种高度集成性的树算法,由数目众多的树基分类器等数据结构组成。其中组成一棵随机森林树算法的基分类器都是一个随机CART树,单棵随机森林决策树可独立生成树算法也可以实现完全独立的树分裂,既可以解决分类问题又可以解决回归问题。行抽样方法和列抽样算法之间交叉引入可以保证让随机森林模型同时具有高抗过拟合的能力和高维抗噪声能力。但是对低维数据集分类随机森林算法不一定可以得到一个很好的效果,其计算速度远远比单个的随机决策树还要慢,如果我们仅仅需要推断一些超出计算范围内的独立变量或其他非独立的变量,随机森林做得也许并不好。

XGBoost以GBDT为参照,在常规的分布式梯度提升算法上进行了一系列优化。XGBoost算法采用集成学习方式,在其成本函数中采用了泰勒公式的两阶展开,引入正则化项,通过参数调整优化,可以有效地避免欠拟合与过拟合。它在GBDT的基础上,使用正则化项的限制,降低过拟合的可能;在对计算目标函数方差时,XGBoost引入二阶泰勒展开式,GBDT只用了一阶导数信息,XGboost支持自定义损失函数;在基分类的选择上,XGBoost不仅支持树模型,还支持线性模型,此时XGBoost相当于带正则项的线性回归模型;并行化是XGBoost的特色之一,它预先将每个特征按照特征值进行排序,并将其存储为块结构,分裂节点时采用多线程并行的方式查找每个特征值的最佳分割点,极大地提高了训练速度。XGBoost的基本算法思想就是不断地增加树,从最开始先建立一棵CART分类回归树并逐渐迭代,在每次迭代的过程中都增加一棵树,每增加一棵树本质上就是学习一个新的函数去拟合上一次预测的残差,最后将得到的树进行集成,形成一个由众多CART数所集成的高效高性能的强评估器。当我们预测到第K棵树时,要预测一个样本的分数,其实就是将该样本的特征在每棵树上对应的节点分数相加所得到的该样本的预测值。

LightGBM(Light Gradient Boosting Machine)是针对GBDT在数据量较大或者特征数量较高时,存在的难以避免的拓展性和效率问题提出的。而LightGBM主要从以下几个方面进行了优化:基于直方图的决策树算法,通过把连续型数值特征进行离散化,使用“分箱”的思想将变量原来的取值范围均化为若干个区间,将分箱后每个区间的值作为直方图中的累计统计量表示出来,遍历数据后,根据离散化后的值,找到最优的分割点。这种算法可以有效减小内存占用和计算代价。同时,还使用了直方图做差加速,在计算每个叶子的直方图时,直接使用其父节点的直方图减去其同级的直方图得到,可以提高加倍计算速度;单边梯度采样技术(Gradient-based One-Side Sampling,GOSS)使用GOSS保留具有大梯度的且更直接影响信息增益的数据样本,相比XGBoost的全量遍历,减轻了空间消耗和时间使用;互斥特征捆绑(Exclusive Feature Bundling,EFB)通过对一些特征间很少同时非零的互斥特征进行强制结合,来减少特征数量,达到降维的目的,通过牺牲少量准确率来加速训练过程,达到了和GBDT近乎相同的精度;带深度限制的Leaf-wise的叶子生长策略,在GBDT原来的使用level-wise的产生决策树方法上提出每次仅在左侧叶子结点进行分裂,区分对待各层叶子,快速找到分裂时信息增益最大的叶子,使得当相同分裂次数条件下,最大限度降低误差,提高精度。

三、实证分析

在信贷领域的风险主要分为两种,其中一种是信用风险,另一种是欺诈风险。信用风险指借款人原本不打算违约,但在借款后因为某些主观和客观的原因没有能力偿还贷款的现象;而欺诈风险指的是借款人蓄意为之,在申请贷款前就不打算还。随着大数据和人工智能的发展,商业银行等可以依靠金融科技主动收集各类金融数据,从而为不同的用户群体提供更精确的服务。通常,收集到的借款人信息是高维且稀疏的,产生违约风险的各因素之间的关系也错综复杂,且违约用户的数量远少于正常用户,即数据往往是不平衡的,这使得准确预测违约风险十分困难。为有效识别出有违约风险的用户,本文研究基于机器学习的信贷违约风险预测模型的性能,使用天池的贷款违约预测数据进行研究。样本量共有80万条,45个特征,包括贷款等级、就业年限(年)、贷款期限(年)、就业职称、年收入、借款人在贷款申请时的贷款用途类别、贷款的初始列表状态、贬损公共记录的数量、借贷人的贷款总额占授信总额的比率、过去两年逾期30至59天的次数、过去两年逾期超过90天的次数、借贷人的年龄、过去两年内出现35至59天逾期但是没有发展得更坏的次数、过去两年内出现60至89天逾期但是没有发展得更坏的次数,过去两年内出现90天逾期的次数等,其中定性变量有5个,定量变量40个。选择“isDefault(是否违约)”为因变量,取值1表示借款人违约,0表示借款人未违约。违约样本有159610个,未违约样本有640390个,存在样本不平衡现象。

(一)数据预处理

本文对数据进行重复值、缺失值、异常值等方面的数据预处理。该数据集中,共有2条重复样本,直接对其进行删除处理。金融行业不同于其他相关领域,客户数据存在可能故意被隐瞒或者有意谎报信息的特定情况,因此我们更需要积极配合其他业务场景,对客户缺失值数据和业务异常数据值信息进行甄别处理。对于定性变量,由于缺失值较少,直接用众数进行填充;对于定量变量,观察其分布,根据其分布进行中位数或均值进行填充,如果数据分布为偏态分布,用中位数进行填充,若分布近似正态分布,用平均数进行填充。对于异常值,常用的异常值检测方法有箱线图、三倍标准差方法等,对于异常值的处理,本文将大于90%的值用中位数替换。其中关于逾期次数的指标:例如“过去两年内出现35至59天逾期但是没有发展得更坏的次数”“过去两年内出现60至89天逾期但是没有发展得更坏的次数”“过去两年内出现90天逾期的次数”等,这几个指标在出现99%以上次数分布的平均值是2,而最大值却是98,显然是符合实际的,通过计算这三个指标大于90的记录共225条,且标签并非都为1,故视为异常值,可做删除处理。

(二)模型建立

当数据预处理完成后,在进行模型训练之前需要进行特征选择,选择有意义的特征输入机器学习的算法进行训练。特征选择的方法通常分为三种:过滤法(Filter)、包裹法(Wrapper)和嵌入法(Embedded)。过滤式特征选择按照发散性或者相关性对各个特征进行评分,设定阈值或者待选择阈值的个数来选择特征,如果一个特征不发散,例如方差接近于0,那么样本在这个特征上基本上没有差异,说明这个特征对于样本的区分作用不大。另一方面,考察特征与目标的相关性,与目标相关性高的特征,应当优先选择。包裹法特征选择法依赖于目标函数(通常是预测效果评分),每次选择若干特征,或者排除若干特征,包裹式特征选择算法与分类器结合,直接把最终将要使用的分类器作为特征子集评价准则,这种方法选择的特征相比过滤法更为准确,但需要不断训练以找到最优特征组合,计算代价相对更大。嵌入法特征选择先使用某些机器学习的算法和模型进行训练,得到各个特征的权值系数,根据系数从大到小选择特征,类似于过滤式特征选择法,但是它通过模型训练来确定特征的优劣。基于此,本文首先使用过滤法,对定性变量进行卡方过滤,对定量变量进行方差过滤。其次利用相关系数和VIF方差扩大因子共同剔除一部分变量,再筛选掉Ⅳ值小于0.01的变量,最后纳入模型的有16个。选择75%的数据集作为训练集,剩余样本用作测试集。在训练集的600000条借款人历史数据中,违约样本有119628条,占样本总量的6.684%,贷款违约率为19.938%,未违约样本480372条,占样本总量的80.062%。可以看出该数据集是一个不平衡的数据集。

本文研究问题贷款是否违约为二分类问题,分别用逻辑回归、随机森林、XGBoost、LightGBM建立模型并进行参数调优,用AUC、KS值进行模型评估。由建模结果可以看出,三个集成学习模型(RandomForest、XGBoost、LightGBM)比逻辑回归的AUC值和KS值都大,可见集成学习在风控领域也有良好的应用效果,三种集成模型对比来看,XGBoost效果最好,AUC和KS值最大,分别为0.721、0.322。

表1 模型评估结果

四个模型进行对比,XGBoost的AUC值和KS值最大,模型性能更好,通过sklearn的xgboost的plot_importance方法,得到每个特征变量的重要性程度,对于违约预测的重要性程度排在前面四位的分别是“借贷人的贷款总额占授信总额的比率”“过去两年逾期30至59天的次数”“过去两年逾期超过90天的次数”“借贷人的年龄”等。这四个特征对最终是否违约影响较大,因此在处理贷款申请时,可以重点对借贷人的这些特征进行关注。

四、研究结论与政策建议

互联网金融的发展加快了资金流动,但同时也伴随着信贷违约事件的频繁发生,准确预测违约风险用户是亟待解决的问题。机器学习越来越多地应用在风控领域,同时面临着有用信息筛选和各种数据挖掘算法模型的选择。信贷违约预测问题是二分类问题,本文首先利用常用的特征选择方法对特征进行过滤,利用方差过滤法、卡方过滤法、相关系数、VIF、IV值等值筛选出15个重要变量,然后利用基于机器学习的RandomForest、XGBoost和LightGBM算法建立个人信贷违约预测模型,并与常见的逻辑回归信用风险模型比较,从AUC、KS值等各项指标数据可以看出相比逻辑回归,基于集成学习的模型效果在信贷违约预测场景具有更好的效果,且XGBoost相比RandomForest、LightGBM在信贷违约预测场景具有更好性能。本文实证研究可有助于传统金融机构管理者更加科学、精确、快速地正确识别传统信贷客户业务的各种风险特征,帮助互联网信贷机构有效建设在金融信贷业务监管中应有的评级指标体系,完善对互联网金融机构产品的信用审批体系,优化信用额度及分配监管流程。

猜你喜欢
特征选择分类器样本
用样本估计总体复习点拨
基于特征选择的SVM选择性集成学习方法
基于深度优先随机森林分类器的目标检测
基于差异性测度的遥感自适应分类器选择
基于最大信息系数和近似马尔科夫毯的特征选择方法
随机微分方程的样本Lyapunov二次型估计
Kmeans 应用与特征选择
村企共赢的样本
基于特征选择聚类方法的稀疏TSK模糊系统
基于层次化分类器的遥感图像飞机目标检测