基于XGBoost算法模型的金融客户信用评估研究

2019-06-09 10:36陆健健江开忠
软件导刊 2019年4期
关键词:随机森林

陆健健 江开忠

摘 要:针对银行客户信用评估模型不健全不完善等问题,在对比随机森林(RF)、GBDT和XGBoost三种集成算法基础上,提出基于XGBoost算法的金融客户信用评估模型。从知名的UCI数据库中选取德国某银行客户信用数据集,在对数据进行缺失值、标准化等预处理后,分别对随机森林(RF)、GBDT算法和XGBoost三种集成算法建立个人信用评估模型,然后依据计算得到的相关多元评价指标对个人信用评估进行对比研究。实证结果表明,建立在XGBoost集成算法上的个人信用评估模型性能最优,在准确率指标上比随机森林(RF)高出6%,比GBDT算法高0.8%。

关键词:信用评估;XGBoost算法;随机森林(RF);GBDT算法;ROC曲线

DOI:10. 11907/rjdk. 182067

中图分类号:TP319文献标识码:A文章编号:1672-7800(2019)004-0133-04

0 引言

随着市场经济体制在全球的逐步确立,投资交易、经济融资、证券交易等业务在世界快速拓展。然而,由于市场经济的固有缺陷以及参与主体的纷繁复杂,使得诸多经济业务难以畅通有效运行,拥有交易秩序“润滑剂”作用的信用评级应运而生。经过150年的发展,信用评级体系已经从资本市场、商业市场以及消费者个人3个层次对所有市场经济活动进行了覆盖,标普、穆迪等国际性信用评级公司为世人所熟知。

伴随着互联網技术的广泛应用,金融机构面向个人推广的服务在业务模式和运行机制上也愈发多样。然而,在个人消费信贷业务活跃度显著提升的同时,其所带来的个人信用风险也呈现分散化、普遍化、非系统化等特点,给金融机构带来莫大的困扰。因此,无论是国家还是金融机构,对精准、有效的个人信用评估模型需求都越来越大。

我国的信用评分研究起步较晚[1]。经过几十年的发展,中国人民银行征信中心是我国目前为止唯一一家负责个人征信系统建设、运行和管理的权威信用评级机构。中国人民银行征信中心所采纳的系统依据个人信用信息基础数据库中采集的个人基本信息、信贷信息,为有信贷记录的消费者建立一个通用风险评分模型,针对消费者在将来一段时期内的违约概率进行预测。

个人信用评价研究[2]主要涉及个人信用评价指标选取和个人信用评价模型这两个研究领域,本文主要研究个人信用评价模型建立。个人信用评估模型方法可分为线性判别分析法、回归分析法、非参数法及基于树的分类判别法、支持向量机、遗传算法、神经网络等。

传统的个人信用评价模型较多采用单一方法进行信用评价,如徐少峰等[3]利用fisher判别分析,建立判别函数对个人进行信用评估。张成虎[4]则运用多元线性判别模型对个人信用评分体系进行分析。刘峙廷[5]运用AHP层次分析法建立P2P网络信贷债务人风险评价体系。周轩[6]运用模糊层次分析法确定个人信用评分指标体系中各指标权重。肖江[7]建立了一个改进的基于BP神经网络的评价模型。罗方科[8]对个人小额贷款信用评估建立Logistic回归模型。其它诸如线性回归、逻辑斯遆克回归等回归分析法、决策树、K近邻判别(KNN)、聚类算法等方法也有较多学者使用。另外,神经网络法拥有强大的非线性处理能力[9],对信用评价过程具有原始数据筛选、预警精度增加、预测速度提高等作用,使其在近年来的单一评分方法中有较多频次使用。

面对众多评估方法,模型选择及优化一度成为限制评级模型研究的瓶颈。然而近些年,多方法之间的集成综合互补似乎成为提升模型评价质量的突破口。姜明辉等[10]通过把PSO算法引入神经网络个人信用评级模型中,有效提高了检测样本分类中的预测精度。而后姜明辉又以CBR(案例推理)方法结合BP神经网络对个人信用评分模型的精确性与错分率进行优化研究。孙亚男[11]通过卡方交叉检测与决策树结合的方法,将误差成本引入个人信用评级过程,进而增加信用坏型客户的判别正确率。向晖[12]则把多元判别分析、logistic回归、神经网路、支持向量机等多种方法融入个人信用评价模型构建,发现新模型显著增加了信用预测的精度与稳健性。肖进等[13]针对银行客户信用建立动态分类器集成选择模型,在进行模型融合的同时也为建模前处理原始数据提供了一种新的思路。陈力等[14]在银行个人信用卡评级应用中建立Adaboost-Logistic集成算法融合模型。白鹏飞等[15]在研究互联网信贷个人信用评估方法时试图在SVM、随机森林、XGBoost等集成模型之上再用投票思想对其进行集成融合,集成后的结果得到了一定优化。楚天玥[16]引入新方法,将GCNN模型与LeNet-5模型相结合,对层结构特征进行优化,加上个人信用风险特点,构造出新的个人信用评估模型。

本文应用随机森林、GBDT算法和XGBoost三种集成算法分别建立个人信用评估模型,依据模型评价指标对其进行对比研究[17],从而给信用评估研究者、相关企事业单位选择模型提供参考。

1 相关理论

1.1 集成分类模型

集成分类模型指基于多个单一的分类模型所集合而成的模型,而多个单分类器集成在一起的方法很多,最通用的有两种[18]:①袋装法(Bagging),利用相同训练数据同时搭建多个独立模型,通过投票的方式以少数服从多数原则作出最终分类决策,其中最具有代表性的模型是随机森林分类器(Random Forest Classifier);②提升法(Boosting),其思想是按照一定的次序搭建多个分类器,这些分类器之间彼此存在依赖关系,每一个后续分类器的加入都对现有集成模型性能有所贡献,进而不断提升更新后的集成模型性能,其中较有代表性的是梯度提升决策树(Gradient Tree Boosting)。

1.2 XGBoost模型

XGBoost全称为Extreme Gradient Boosting,它可看作是GBDT的优化。GBDT在生成每一棵树时采用梯度下降思想,以所有单棵决策树为基础,以损失函数最小化为目标多走一步。与GBDT模型不同的是,XGBoost模型能自动利用CPU进行多线程并行计算,并且对损失函数进行泰勒公式二阶展开,在损失函数后面增加正则项,用于约束损失函数的下降和模型整体的复杂度。

XGBoost整体目标函数为:

2 实证分析

2.1 数据来源与描述

本文数据来源于加州大学UCI数据库中著名的信用数据集German数据集,它是关于德国某银行信用卡个人用户业务的数据。该数据集共有1000个样本,其中信用好的用户有700个,信用差的用户有300,数据集中包含20个属性列和1个标签列,20个属性中有7个数值型属性和13个类别型属性,标签列有两个值0或1,其中0代表信用好,1代表信用差,见表1。

2.2 数据预处理

在对原始数据进行建模分析之前,需要对数据进行预处理即特征工程。首先,对数据表中严重缺失数据的样本记录剔除,对少许缺失值样本采用众数(分类型变量)和均值填充。然后,对所有分类型数据进行编码,本文采用的是独热0-1编码。最后,对所有数值型数据进行标准化处理,本文采用极差标准化:

2.3 模型评价指标

在给出模型评价指标之前,先给出分类模型评价准则中最常用的混淆矩阵,如表2所示。

其中:①正类代表信用差,负类代表信用好;②TP表示实际为正类预测也为正类的样本个数,FN表示实际为正类预测为负类的样本个数,FP表示实际为负类预测为正类的样本个数,TN表示实际为负类预测也为负类的样本个数。

(1)准确率(Accuracy)。在传统分类模型评价指标体系中,准确率(Accuracy)是一个很重要的评价指标,它代表所有正负类中有多少被正确预测出来,其数学表达如下:

(2)精确率(Precision)、召回率(Recall)和F1指标。在实际问题中并不关心总的预测正确率,而是更加關注模型对某一特定类别的预测能力。对于银行来说,它更在意的是信用差的人被判为信用好的情况,也就是说假负类的比率越低越好。所以引入精确率(Precision)、召回率(Recall)和F1这3个指标。

(3)ROC曲线及AUC值。ROC曲线又称真正率伪正率图,其中横坐标表示伪正率,纵坐标表示真正率。

由于直接用ROC曲线去定量评价不同的分类模型不是很直观,因此人们通常采用ROC曲线下方的面积,即AUC值作为评价指标,AUC值越大越好。

2.4 结果对比与分析

本文模型的构建均采用python的sklean程序包实现,此外,除了构建XGBoost算法模型,还建立了随机森林模型和GBDT算法模型,在使用相同数据集的情况下,对比使用这3种模型。

针对这3种算法模型,本文给出它们的ROC曲线,为直观对比把ROC曲线放在了同一个图中,如图1所示。

表3给出3种算法模型在相同数据集上的准确率、精准率、召回率、F1得分和AUC值,表中标粗的数字表示每列的最大值。从表中可以看出,XGBoost算法模型在准确率、召回率、F1得分和AUC值上都具有明显优势,而随机森林精准率较高,显然XGBoost算法模型具有较好性能。

3 结语

建立合理有效而又科学的个人信用评估模型,能为银行等金融机构提供更加可靠而科学的决策支持,减少不必要的损失,意义非常重大。本文在对比多个集成算法模型基础上,建立基于目前最流行及性能较好的XGBoost集成算法的信用评估模型,并在相同的国际开源数据集上,对随机森林、GBDT算法和XGBoost算法进行比较与对比研究。实证结果表明,在机器学习等领域具有显著优势的XGBoost算法对个人信用评估的研究性能较优。

参考文献:

[1] 张钊. 基于支持向量机的个人信用评估模型与算法的研究[D]. 北京:首都师范大学,2008.

[2] 郄彦平. 信用环境评价与“自然履约率”[J]. 金融教学与研究,2013(5):6-10,17.

[3] 徐少锋. FISHER判别分析在个人信用评估中的应用[J]. 统计与决策,2006(2):133-135.

[4] 张成虎,李育林,吴鸣. 基于判别分析的个人信用评分模型研究与实证分析[J]. 大连理工大学学报:社会科学版,2009,30(1):6-10.

[5] 刘峙廷. 我国P2P网络信贷风险评估研究[D]. 南宁:广西大学,2013.

[6] 周轩. 基于数据挖掘技术的商业银行个人信用评分模型研究[D].长沙:湖南大学,2014.

[7] 肖江,陈璐瑜. 改进的P2P信贷借款人信用风险的研究[J]. 信息技术,2016(11):212-214,220.

[8] 罗方科,陈晓红. 基于Logistic回归模型的个人小额贷款信用风险评估及应用[J]. 财经理论与实践,2017,38(1):30-35.

[9] 王颖林,赖芨宇,郭丰敏. 建设需求量预测分析中的人工神经网络和多元回归方法[J]. 武汉工程大学学报,2013,35(11):77-80,86.

[10] 殷爽,姜明辉. 基于PSO的个人信用评估组合预测模型[J]. 经济研究导刊,2008(14):83-86.

[11] 朱毅峰,孙亚南. 精炼决策树模型在个人信用评估中的应用[J]. 统计教育,2008(1):5-7.

[12] 向晖,杨胜刚. 个人信用评分关键技术研究的新进展[J]. 财经理论与实践,2011,32(4):20-24.

[13] 肖进,刘敦虎,顾新,等. 银行客户信用评估动态分类器集成选择模型[J]. 管理科学学报,2015,18(3):114-126.

[14] 陈力,黄艳莹,游德创. 一种基于Boosting的集成学习算法在银行个人信用评级中的应用[J]. 价值工程,2017,36(18):170-172.

[15] 白鹏飞,安琪,NICOLAAS FRANSDE ROOIJ,等. 基于多模型融合的互联网信贷个人信用评估方法[J]. 华南师范大学学报:自然科学版,2017,49(6):119-123.

[16] 楚天玥.  基于LeNet-5模型和门卷积神经网络的信用评分模型实证研究[D]. 深圳:深圳大学,2017.

[17] 张沧生,崔丽娟,杨刚,等. 集成学习算法的比较研究[J]. 河北大学学报:自然科学版,2007(5):551-554.

[18] 周峰. 集成分类器模型的研究[D]. 上海:上海交通大学,2007.

[19] 王飞.  集成分类器及其在个人信用评估的应用[D]. 长沙:中南大学,2012.

[20] 邵笑笑.  个人信用评估集成模型研究[D]. 南京:南京信息工程大学,2016.

[21] 房晓南.  基于半监督和集成学习的不平衡数据特征选择和分类[D]. 济南:山东师范大学,2016.

(责任编辑:杜能钢)

猜你喜欢
随机森林
拱坝变形监测预报的随机森林模型及应用
基于随机森林算法的B2B客户分级系统的设计
基于多视角特征融合与随机森林的蛋白质结晶预测
基于TM影像的土地覆盖分类比较研究