基于XGBoost 的贷前逾期识别模型及可解释性研究

2024-04-19 09:29李嘉培马咏莉
中小企业管理与科技 2024年4期
关键词:对模型决策树预测值

李嘉培,马咏莉

(郑州科技学院,郑州 450064)

1 引言

随着经济社会的发展,我国信用贷款市场规模不断扩大,P2P 网贷模式日益兴起。对于网贷平台,风控非常重要,而贷前逾期识别又是风控中的关键环节,因此对于网贷平台而言,信贷逾期预测模型的重要性不言而喻。

构建预测模型的方法主要有两类:一类是运用统计分析的方法,如线性回归[1]、Logistics 回归[2];另一类是基于机器学习构建模型,如决策树[3]、支持向量机[4]等。与这些单一分类器相比,Chen et al.[5]推出了集成式机器学习算法XGBoost,该算法是在GBDT 的基础上将梯度提升树模型进一步优化,在回归与分类问题上都有很好的表现[6]。在此之后,XGBoost 被广泛运用于各个领域。

当前流行的集成式机器学习算法,虽然大大提高了预测能力,但模型的可解释性也越来越差,被称为“黑盒”。为了更好地解释机器学习模型的输出,Lundberg et al.[7]介绍了SHAP解释框架的原理,SHAP 主要将博弈论和局部解释结合起来。Ribeiro et al.[8]提出了解释技术LIME,主要通过局部学习来解释模型,它可以为任意的模型提供解释。

综上所述,本文以LendingClub 数据库中2019 年的贷款记录为样本,选择XGBoost 算法,构建贷前逾期预测模型,同时引入SHAP 解释框架,更好地分析影响用户逾期的主要因素。

2 XGBoost 模型介绍

XGBoost 的全称是极度提升树(eXtreme Gradient Boosting),是一种基于决策树的分布式高效梯度提升算法,其基本思想是将几个弱分类器进行组合形成一个强的学习器,用迭代的方法降低犯错的概率。

2.1 模型函数表达

假设所给的数据集共有n 个样本,m 个特征,每个样本有唯一对应的标签y,则定义数据集其中xi=[xi1,xi2,…,xim]是m 维数组,表示第i 个样本的m 个特征,yi为第i 个样本对应的标签。假设该模型共需迭代K 次,则目标函数如下:

2.2 目标函数优化

在梯度提升算法的迭代中,每一次迭代会生成一个弱分类器(即一棵决策树),假设当前为第t 次迭代,此时目标函数是L(t),则L(t)是由前t-1 次迭代的结果与第t 次迭代引入的决策树ft(x)计算所得。迭代过程如下:

我们的目标是要使得预测值尽量接近真实值y,那么本次迭代的目标是找到一个决策树模型ft(x)使本轮的目标函数L[y,ft(xi)]最小。目标函数可记为:

2.3 确定分叉方法

本文以二分类问题为例,选择常用的Logloss 函数作为损失函数,则可推导出:

此时,相应的目标函数L(t)的最小值为:

其中,目标函数的值越小,就代表这个树的结构越好,只要能够确定树结构,就可以求得该结构下的最优值。

为了确定当前根节点,首先要找到具有最大损失增益的特征节点作为当前的根节点,在当前根节点,把样本集一分为二,得到两个子节点样本集;再分别对两个子节点集合,重复上述过程,直到达到分裂的停止条件,即可完成第棵树的生成。在每棵树生成后,将其加入原有模型中,并根据上述规则不断迭代,最终完成整个模型的构建。

3 SHAP 解释框架介绍

SHAP 是解决模型可解释性的一种方法。假设第i 个样本的第j 个特征取值为xi,j,机器学习模型对第i 个样本的预测值是,模型的基础值是φ0,xi,j的Shapley 值是φi,j,那么有下述等式成立:

SHAP 将解释指定为如下形式:

其中,f(xi)是机器学习模型对样本xi的预测值,F 是解释函数,φi,j∈R 是第i 个样本,第j 个特征取值xi,j的Shapley值,z'i,j∈{0,1}m是特征组合向量,输入1 表示相应的特征值存在,输入0 表示相应的特征值不存在。对于样本xi,第j 个特征值xi,j的Shapley 值φi,j的计算,满足下面的公式:

其中,M 是数据集中所有特征的集合,其维度为m。S 是从M 中抽取出来的子集,其大小为。fx(iS)是只使用特征集合S 时模型对样本xi的预测值,当S 是空集时,fxi(S)的值称为基础值φ0,相当于模型的预测值在所有样本上的平均值。fxi(S∪{xi,j})是在特征集合S 的基础之上,添加特征值xi,j时模型对样本xi的预测值在所有样本中的平均值。

4 实证分析

4.1 数据来源

本文使用LendingClub 库中2019 年的贷款记录,利用XGBoost 构建贷款违约预测模型。原始数据共518 125 个样本,将loan_status 作为标签,其余列作为变量。

数据库中的原始特征冗余繁杂,经过特征工程之后选取12 个特征来作为入模特征,如表1 所示。

表1 建模变量

4.2 构建模型

数据集中共有518 125 个样本,将loan_status 作为标签,将 “Fully Paid” 标记为好样本,“Charged Off、Late (31~120 days)、In Grace Period、Late(16~30 days)、Default”标记为坏样本,总样本有134 548 个,其中好样本97 048 个,坏样本37 500个,好坏样本比例约为3∶1。

将总样本的80%划分为训练集,20%划分为测试集。通过训练得到最优的XGBoost 模型,模型指标如表2 所示。

表2 模型结果

将K-S 值作为模型区分能力的指标,其值越大代表模型的区分性越好。AUC 值越大说明模型的效果越好。

5 模型解释

5.1 特征重要性分析

SHAP 和XGBoost 指标重要性排序分别如图1 和图2所示。

图1 SHAP 指标重要性排序

图2 XGBoost 指标重要性排序

通过对上面SHAP 和XGBoost 指标重要性顺序对比,可以明显看出SHAP 的前12 项和XGBoost 的前12 项共同指标有很多。

5.2 SHAP 值的解释框架

SHAP 框架下各变量的影响分析如图3 所示。图3 中显示了前12 个变量对模型影响效果,此图客观地展现了各变量由大到小变化对SHAP 的影响。例如,变量last _fico_range_low 线条有黑色变为灰色,SHAP Value 由正到负,表示随着数值增大,变量对模型预测的负向效果越明显,即该样本贷前预期风险越低。

图3 SHAP Value 解释框架

5.2.1 单变量影响下的SHAP 值

为了更直观得到各变量到SHAP 值的影响关系,绘制各变量对SHAP 值影响图(见图4、图5)。图4 表明随着installment 数值增大,SHAP 值也越来越大,违约风险相应增加,并且当installment 数值大于600 时,SHAP 值为正,对模型预测为正向效果并趋于稳定。如图5 所示,last _fico_range_low 数值大多分布在500 ~900,且随着last _fico_range_low 值的增加SHAP 整体上呈现下降趋势,且当last _fico_ range_low 值小于600 时,SHAP 值为正,对模型起正向影响,贷前预期风险越高;当last _fico_ range_low 值大于600 时,SHAP 值为负,对模型起负向影响,贷前预期风险越低。

图4 installment 对SHAP 值的影响

图5 last _fico_ range_low对SHAP 值的影响

5.2.2 单个样本的SHAP 值计算

将所有样本的目标变量的平均值叫作整个模型的基线,用SHAP_base 表示,SHAP(xi)表示特征xi的SHAP 值,则模型对样本y 的预测值为:

这里当SHAP(xi)>0 时,表示该特征提升了模型预测值,当SHAP(xi)<0 时,表示该特征使预测值降低,具有反向影响。SHAPy通过sigmoid 函数映射为模型概率下面取一个好样本进行分析(见图6)。

图6 好样本SHAP 值可视化

图6 展示此样本中每个特征的各自贡献,将模型基础SHAP 值-1.0 推到最终的-3.19<0,因此该样本是一个好样本。样本中将预测值推高特征用灰色表示,推低的用黑色表示。灰黑交界处从右到左灰色特征为term=1.0,int_rate=22.0,installment=781.0,这3 个特征对模型起较大的正向影响效果,灰黑交界处从左到右黑色特征为last_fico_range_low=715.0,last_fico_range_high=679.0,这两个特征对模型起较大负向影响效果,所有特征的SHAP 值之和为,利用公式(11)得到样本的模型概率为0.040。

6 结论

本文使用LendingClub 库中的数据,经过数据筛选,最终选用12 个特征入模,通过XGBoost 模型得到了变量特征重要性排序,但是并不清楚各个特征是如何影响模型。SHAP 能够清楚反映单个变量变化对SHAP 值的影响,最重要的SHAP 能对样本进行量化分析,能够直观得到样本中每个特征的SHAP值,从而对样本进行好坏评判,可以对黑盒模型进行解释。

猜你喜欢
对模型决策树预测值
加拿大农业部下调2021/22年度油菜籽和小麦产量预测值
±800kV直流输电工程合成电场夏季实测值与预测值比对分析
光源对模型贴图的影响——3种人造光源在三维数字化采集中的应用
法电再次修订2020年核发电量预测值
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
基于决策树的出租车乘客出行目的识别
蒙药特润舒都乐对模型小鼠脾脏NK细胞活性的影响
蒙医开窍补肾针刺法对模型大鼠胸腺、脾脏指数的影响
蒙医催熟疗法对模型大鼠炎症因子影响的实验研究