互联网征信的影响因素分析

2020-04-23 13:10林翠波李伟强
福建茶叶 2020年2期
关键词:指标值阈值曲线

林翠波,李伟强

(广西师范大学数学与统计学院,广西桂林 541006)

1 引言

近年来,随着互联网的发展,互联网金融的个人消费信贷的领域得到快速发展,这不仅给金融机构带来利益,同时也增加了贷款风险。因此,如何根据用户的信息进行分析,为金融机构提供决策和建议,更加有效地应对风险,是非常具有价值的。但是,目前征信采集对象占总人口比重较小,且数据难以共享,引发了一系列的问题,只有成立百行征信才能更好解决。据统计,我国个人消费信贷的增长率每年高达20%,预估2019年个人消费信贷规模将突破41.1万亿元[1]。同时,金融机构面临的个人信用风险将随之增加,信用评分模型显得更重要。

国内对征信的研究很多,陈纯等人基于蚂蚁花呗消费信贷产品对大学生进行调查,为提高大学生风险防范等提供建议[2]。王梦佳基于Logistic回归对P2P网贷平台借款人信用的风险进行评估[3]。本文计划用Logistic回归模型尝试对互联网征信的影响因素进行分析。

2 理论知识

Logistic回归函数应限制在[0,1]区间,所以要进行变换。Logistic分布函数:行逻辑变换得到模型

3 实证分析

3.1 数据说明

本文所使用的数据为用户征信相关的数据,共1000条记录。数据一共包含9个变量。其中,因变量为“是否按期还款”,且0表示“违约”,1表示“未违约”,其余的均为自变量,为了初步探究自变量对因变量的影响,下面对自变量进行分析:

基本信息包括性别、婚姻情况和生育情况。其中,女性违约占比31.8%,男性违约占比34.8%,性别对是否违约无显著影响;已婚用户违约率29.2%较低,而未婚用户37.4%较高;已育用户违约率29.5%较低,而未育用户36.9%较高。

学习能力包括教育水平和英语水平。其中,教育水平划分为“高中及以下”“大专或本科”“硕士研究生”“博士研究生及以上”,其违约率分别为39.6%、39.4%、28.8%、15.2%,显然学历高的违约率最低,而学历低的违约率最高,这与我们的推测一致;英语等级划分为“四级以下”“四级”“六级”“六级以上”,其违约率分别为43.3%、37.4%、27.2%、21.1%,英语等级较高的违约率较低,等级低的违约率较高。总之,学习能力对客户违约率的影响较为显著。

其他方面有社交人脉、收入水平和消费理念。其中,社交人脉用微博好友数度量,均值较高的违约率也高,而均值较低的违约率也低。未违约的用户收入均值为24309.27较高,相比之下,违约用户的收入均值为16019.68较低。可见,收入水平对客户的违约率有显著的影响,收入水平越高,违约率越低;消费理念=信用卡消费/总消费,消费理念整体呈右偏分布,大多数用户的消费理念在0.125左右,当客户越倾向于超前负债消费时指标值越高,违约群体的消费理念指标值明显高于履约群体。

3.2 统计模型

3.2.1 回归结果

本文以“是否按期还款”作为因变量,其他变量作为自变量,建立logistic回归模型。首先对模型进行显著性检验,结果显示,Pr(>Chi)值为2.2e-16,即该模型在,0.00的显著性水平下高度显著,而且拟合程度较好。然后,建立AIC、BIC回归模型,如表3-1所示。

表3-1 AIC回归模型和BIC回归模型结果

由表3-1知:在α=0.05下,AIC模型保留8个变量,而BIC模型只保留5个变量。AIC模型和BIC模型在变量选择和回归系数的估计上都存在差异,该保留哪一个模型?下面分析。

3.2.2 模型选择

为比较全模型,AIC模型和BIC模型,分别绘制其ROC曲线。

图3-1 三个模型的ROC曲线

如图3-1所示,全模型和AIC模型的ROC曲线很接近,而BIC模型的ROC曲线靠下。综合考虑后,选择AIC模型。

3.2.3 模型解读

由表3-1知,在固定其它量,α=0.05下对模型解读:

(1)收入、女性、已婚、已育的回归系数为正,表明这些用户按期还款率大;

(2)微博好友数、消费理念的回归系数为负,表明这些用户的相应指标越大按期还款率越小;

(3)用户按期还款率随着学历、英语水平递增而递增。

3.2.4 模型预测与精度评价

使用0-1回归模型可以预测违约率,进而判断是否会违约。当预测概率大于等于最佳阈值时,预测为违约,小于最佳阈值时,预测为未违约。对于不同的阈值,预测的准确率也不同,因此需要选取一个最佳的阈值。

图3-2 AIC模型的ROC曲线及最佳阈值

图3-2给出了AIC模型的ROC曲线及最佳阈值,其横纵轴分别为特异度和灵敏度。同时我们得到的AUC取值为0.679,即最佳的阈值为0.679。

3.3 商业化结果

图3-3为全部样本预测的按期还款率,据预测值将用户分为5个等级,计算每一级用户的平均按期还款率,第一列为前20%的用户预测为88%,其余以此类推。

图3-3 不同客户的实际还款概率

4 结论与建议

本文对征信数据进行分析,得到以下结论:

用户的基本信息、收入水平、学历、社交人脉和消费理念这5个方面都会对是否按期还款有显著的影响。金融机构可以通过分析客户的这些指标值将客户进行分类,进而考虑是否为其提供借贷服务。为了进一步分析客户履约的影响因素,还可以加入更多指标。比如用户的职业、固定资产等。

猜你喜欢
指标值阈值曲线
未来访谈:出版的第二增长曲线在哪里?
土石坝坝体失稳破坏降水阈值的确定方法
基于小波变换阈值去噪算法的改进
宁波北仑第三集装箱码头有限公司平衡计分卡绩效管理探索与实践
采用红细胞沉降率和C-反应蛋白作为假体周围感染的阈值
幸福曲线
财政支出绩效评价指标体系构建及应用研究
浅谈食品中大肠菌群检测方法以及指标值的对应关系
辽宁强对流天气物理量阈值探索统计分析
梦寐以求的S曲线