基于随机森林的成都地区大学生消费信贷态度影响分析

2021-01-10 18:37李思雨潘莉
科学与生活 2021年26期
关键词:随机森林消费信贷互联网金融

李思雨 潘莉

摘要:为研究大学生消费信贷现状,本文选择成都的四所高校使用信贷产品的在校大学生作为调查研究的对象,基于R软件运用随机森林算法研究影响大学生消费信贷态度的重要因素,并建立分类模型对新样本进行消费态度预测。研究结论显示:根据随机森林重要性度量,影响消费信贷态度的两个重要因素是每月消费信贷产品额度和信贷产品了解度。

关键词:互联网金融;消费信贷;随机森林

1研究背景

随着互联网金融的发展,互联网消费信贷开始扩展市场至大学生市场,时常有关于大学生参与违规校园贷,并欠下巨额贷款的恶性事件。由此导致市场对大学生消费信贷产品信任度下降,大学生消费信贷市场发展受阻。为了保证大学生消费信贷市场的良性发展,信贷机构的首要目标便是争取和引导这一群体的忠诚度和消费惯性。因此,研究大学生参与消费信贷的情况以及大学生对待消费信贷的态度,成为了信贷机构塑造产品、维护顾客忠诚度和消费惯性的重要议题。

2随机森林算法介绍

随机森林本质属于机器学习的一大分支,与所有的决策系统相比,具有更高的准确性。随机森林算法能够降低算法复杂度,对经过训练的随机森林模型,可通过它来进行预测,可以满足及时业务的需求,并可有效检测错误的数据。故本文在构建消费信贷态度评估模型时引入了这一算法。

随机森林应用随机特征选择方法和Bootstrap抽样,具体实现过程如下:

(1)指定n值,即为随机产生的n个变量用在节点上面的二叉树,二叉树的变量选择也依然符合节点不纯度的最小原则。

(2)应用Bootstrap自助法有放回的在原数据集中抽取m个样本集,由此组成m棵决策树,对于未被抽到的样本则用来作单棵决策树的预测。

(3)根据m个决策树组合成的随机森林对分类样本进行分类或者是预测,分类原则是投票法,得票最多的为获胜者,预测原则是简单平均。

3基于随机森林的消费信贷态度影响分析

3.1数据预处理与分类

本文选择成都的四所高校,将使用信贷产品的在校大学生作为调查研究的对象,采用了分层随机抽样的方法,共回收有效问卷340份。

对问卷回收的定性数据,全部处理为虚拟变量,从0开始赋值。14个变量:性别、学历、专业、每月生活费、户籍地、使用的消费信贷产品、信贷产品每个月的授信额度、每月消费信贷产品额度、信贷产品逾期的月利率、信贷产品的一般还款期限、还款资金的主要来源、还款比例、信贷清偿情况、信贷产品了解度,分别表示为D1-D14,消费信贷产品态度表示为y。

对数据预处理完成后,运用R编程对数据进行分类。将270个数据分为训练数据集214(80%)个和测试数据集56(20%)个。训练集是帮助我们进行模型训练,通过训练集的数据让我们确定拟合曲线的参数;测试集是为了测试已经训练好的模型精确度,测试集并不能保证模型的正确性,只是表示相似的数据用此模型会得出相似的结果。

3.2寻找最优参数mytree、ntree

随机森林有两个重要参数:mytree、ntree。

mytree是指树节点预选的变量数,即单棵决策树决策的情况,每棵树生长越茂盛,组成森林的分类性能就越好;ntree是指随机森林所包含的决策树数目,是随机森林的总体规模,ntree的值越大,模型的精度越高,但ntree值达到阀值以后,精度的提高有限。

1)、确定最优参数mytree

R建模过程将数据划分为训练集和测试集,并使用训练集构建随机森林模型,寻找最佳参数mytree。

模型对于中立态度的预测分类效果最高,误差只有0.05;对于肯定和否定的预测分类效果较差,误差分别为0.84和1。因为mytree参数从1至14,模型的误差率都不变,均为0.29,故mytree参数的值对模型的结果没有影响,所以mytree参数值在该模型中可以不用设置。

2)、确定最优参数ntree

运用R编程建模寻找最佳参数ntree时,首先将ntree的值设置为40000,可以发现当ntree>20000时,误差(Error)不再变化,但ntree值达到阀值以后,精度的提高有限,故此处将ntree设置为120。

3.3模型分析

在随机森林分类模型构建完成后,通过R软件输出影响消费信贷态度的重要因素。MeanDecreaseAccuracy变量值和MeanDecreaseGini变量值的加和作为得分来评估该因素的重要程度。

14个因素中对消费信贷的影响程度有高有低,为了更清晰的了解14个因素对于消費信贷的影响程度,使用离差标准化对原始得分进行线性变换,并将结果扩大10倍,使其落到[0,10]区间,D14信贷产品了解度的最终得分17.3是最大的,其次是D8每月消费信贷产品额度,最终得分为16.3。可以看出这两个变量是对于消费信贷态度最重要的两个影响因素;同时也可以看出D2学历、D4每月生活费、D7信贷产品每月授信额度、D10信贷产品一般还款期限、D11还款资金主要来源、D12还款比例、D13信贷清偿情况是影响消费信贷态度较为重要的因素;D3专业的最终得分最低为5.3,表明大学生的专业对他们消费信贷产品态度影响最弱。

综上所述,信贷产品了解度和每月消费信贷产品额度是对消费信贷态度最重要的影响因素。在随机森林分类模型中,掌握好这两个因素对消费信贷态度预测至关重要。

4模型预测

通过训练集建立的分类模型对测试集的样本数据进行预测。将原始态度和预测态度整理成混淆矩阵,如表4.1所示。

5结论与建议

本文运用随机森林分类模型对成都地区大学生进行消费信贷态度分析,研究结果发现,每月消费信贷产品额度和信贷产品了解度是对于信贷产品消费态度很重要的两个影响因素。根据随机森林筛选出的对消费信贷态度的重要影响因素,可建立随机森林分类模型,帮助信贷机构预测大学生对待消费信贷的态度,从而推出更具针对性、更具吸引力的消费信贷产品。

参考文献

[1]徐莹.大学生校园网贷问题的分析与探究——基于重庆部分高校大学生网络消费及网络信贷现状调查问卷[J].现代商贸工业,2021,04.057.

[2]刘浏.基于金融素养理论的大学生消费信贷风险研究[]].佛山科学技术学院学报:社会科学版.2020,6:54-63.

[3]Mendes Da Silva.Credit card risk behavior on college campuses: evidence from Brazil[J]. 2012-09.9.3: 351-373.

作者简介

1. 李思雨,成都信息工程大学统计学院学生

2. 潘莉,成都信息工程大学统计学院讲师,硕士;研究方向:金融数量分析。

猜你喜欢
随机森林消费信贷互联网金融
随机森林在棉蚜虫害等级预测中的应用
基于二次随机森林的不平衡数据分类算法
拱坝变形监测预报的随机森林模型及应用
商业银行消费贷款风险研究
对商业银行消费信贷的风险分析及防范措施探讨
基于随机森林算法的飞机发动机故障诊断方法的研究
互联网金融的风险分析与管理
互联网金融理财产品分析
互联网金融对传统金融的影响
消费信贷市场风险研究