赵迎 何华 吴超
摘要:在金融市场中,互联网征信是规避损失风险的重要参考依据,其中违约用户识别率的准确性对征信来说则更为重要。从这一角度出发,本文提出了改进的随机森林算法(CS-RF)。利用金融公司的实际数据,从随机森林原模型基础上加以改进,在训练样本生成决策树后引入代价敏感函数,为多类样本和少类样本的错误分类赋予不同的代价,搜索出更优的决策树集成。通过实证分析,将预测结果与Logistic回归模型,决策树,传统随机森林,BP神经网络进行对比,得出CS-RF模型预测效果最优。
关键词:互联网征信 随机森林 非平衡样本 代价敏感函数
一、引言
随着互联网金融快速发展,各种信贷新模式不断挑战传统金融领域。新型金融业态层出不穷,P2P网络借贷,微额借贷,众筹,互联网公司上线金融借贷业务等,这些新模式推动了信贷模式的转型,互联网金融新经济对信用风险评价提出了更高的要求。从广义上来说,互联网征信是指采集用户在互联网金融服务以及互联网其他服务过程中留存下来的信息和数据,并结合线下渠道采集的公共信息数据,利用云计算,机器学习等技术手段进行信用评估和评价的活动。互联网征信相对于传统征信,数据上实时动态性更强,时时产生互联网行为数据信用评估,即时反映用户信用水平变化。评估指标上来源更加丰富,更能反映综合信用水平,具有较强的社会性。技术手段上更加多元化,传统统计学方法与新兴机器学习相融合,云计算与分布式计算的发展,更是为互联网征信的运行提供了技术保障。
随着机器学习方法的普遍应用,已经有许多文献把机器学习方法与统计学方法用于信用评估模型的建立,主要的方法包括神经网络,贝叶斯网络[1],SVM[2],Logistic回归[3],随机森林等。相关研究表明,对不同的算法进行有效组合形成一系列互补型的集成算法,预测效果优于单一算法。Yu et al.[2]研究了基于支持向量机的多主体集成学习方法进行风险评估的预测,根据数据集多样性,参数多样性,核函数多样性建立了支持向量机不同组合的集成方法,并利用数据对违约情况进行了预测,实验结果发现性能要优于单一原始算法模型。Xiao et al.[4]实证分析了在信用评估的应用中,随机森林比KNN,RBF-NET,SVM等单一算法以及GBDT算法更精准和稳定。Zhou et al.[5]提出了选择性集成的概念,是指在已有分类器中依据某种策略选择一部分作为集成。相对于单一学习方法的预测精度不够高,泛化性能不够好的缺点,集成学习技术本身在很多方面都具有优越性,但并不能做到对所有样本的平等对待。如Wang et al.[6]利用遗传算法对随机森林中的决策树进行进化搜索,选出决策树的满意组合,这些决策树再以某种策略相结合构成新的集成。通过对随机森林算法的优化,即便在最后分类结果的准确率上有所提升,但是对于少类样本的精准识别率并不是很高,这是很多算法不能解决的。
在非平衡样本分类问题中,通常会出现两类错误,第一类错误是将多类样本错误预测为少类样本,第二类错误是将少类样本错误预测为多类样本。在信用数据中,少类样本为违约样本,多类样本为未违约样本。多数文献中,为提高总体准确率,会出现忽视第二类错误的问题。可以发现有些模型经过改进后,预测准确率达到了95.58%,但由于信用数据的非平衡性,导致有大量第二类错误发生。对于金融服务公司来说,第二类错误带来的风险损失要远远高于第一类错误。本文对模型进行优化,提出随机森林改进模型CS-RF,旨在控制和降低第二類错误的发生率。CS-RF模型引入代价敏感函数,以期望代价最小为原则选择最优分类器组合。在保证总体准确率不下降的情况下,提升违约用户的预测准确率。
二、模型与算法改进
(一)随机森林的生成
随机森林由LeoBreiman(2001)[7]提出,是一种集成学习技术,由大量决策树的聚合组成,与单个决策树相比,这种聚合形式导致方差减小。基本原理是用Bagging的方式把众多的决策树组合起来,最终得到一个庞大的决策模型[8]。
随机森林算法训练过程具体步骤如下:
步骤1:原始训练集为N,应用bootstrap法有放回地随机抽取k个新的自助样本集,并由此构建k棵分类树,每次未被抽到的样本组成了k个袋外数据;
步骤2:设有mall个特征,则在每一棵树的每个节点处随机抽取mtry个特征,然后在mtry中选择一个最具有分类能力的特征,特征分类的阈值通过检查每一个分类点确定;
步骤3:每棵树最大限度地生长,不做任何修剪;
步骤4:将生成的多棵分类树组成随机森林,用随机森林分类器对新的数据进行判别与分类,分类结果按树分类器的投票多少而定。
(二)改进随机森林(CS-RF)的构建
如上所述,随机森林算法的泛化能力比较强,而且可以进行并行运算,计算效率有明显优势,在诸多领域的预测精度也都很高。尽管如此,随机森林模型应用在信贷数据上仍然存在着一定的不足。信贷数据是典型的非平衡样本,非平衡样本是指在数据样本中某些类的样本数量要远远少于其他类,正如信贷样本中未违约用户的数量是远远多于违约用户的。而Silke在研究中指出随机森林对于非平衡样本进行预测时,分类结果会偏向多类样本[9]。金融公司需要的则是对少类样本的识别,因为违约行为预测为非违约时带来的损失是远远超过对未违约行为进行审查的成本的。因此,针对随机森林模型在信贷样本这方面的不足,本文引入代价敏感学习从而进行改进。通过设置代价矩阵,对两类错误设置不同的代价,提高违约样本预测时出现误分的代价,采用平均误分代价最小的原则搜索出最优的分类决策树,以投票策略结合,生成最终的新随机森林。
代价敏感学习算法是根据不同错误分类产生的代价引入不同的惩罚因子,并选择总体错误分类代价最小或平均错误分类代价最小的原理来设计分类器[10]。例如二元分类问题,正类样本预测为正类称为真正例(True Positive,TP,也称真阳),反类样本预测为反类称为真反例(True Negative,TN,也称真阴),相应地,另外两种情况分别称为伪反例(False Negative,FN,也称假阴)和伪正例(False Positive,FP,也称假阳)。错误分类代价所用的代价矩阵可以设置为如表1所示。
三、实证分析
(一)数据准备
本次实验所用的数据来自某微额金融信息服务有限公司的微额借款用户人的借贷数据。目的是通过对实际借款数据进行建模分析申请用户的信用状况,预测其未来是否会违约。本次所用到的一共有15000条观测数据,其中包含1138个特征和一个结果标签,标签1的为正样本,表示不会违约,标签为0的为负样本,表示会违约。1138个特征经过脱敏处理,在实验之前对数据进行标准化处理,通过不同的算法对数据集进行分析,证明CS-RF模型有更好的效果。
(二)实验设置
果越好,但同时计算复杂度也会增加,而且随着树个数的增加,效果的提升是递减的,结合错误率与复杂度决策树的个数设置为500。在代价敏感学习中,TP和TN的代价设为0,FP的错误分类代价因子始终为1(也就是),通过调节FN的误分类代价因子来改变平均误差代价,分别计算值为1,2,4,8,16,32,64時的结果。通过实验计算发现时效果最好,因此,决策树生成时以平均误差代价最小化为原则进行搜索。
预测模型的好坏需要适合的衡量指标来评估。本次实验采用常用的评价指标:敏感性,特异性,准确性,AUC值,混淆矩阵来描述详细结果。
四、结论
互联网征信已经成为金融市场领域的一个研究热点。在信贷风险评价分析中信贷数据为非平衡样本,第二类错误的发生率会偏高,但对于金融公司来说,第二类错误造成的代价是远远超于第一类错误的。传统随机森林无法区分两类错误,针对这一问题,本文将代价敏感学习引入随机森林中,为两类错误赋予不同的代价,得出更优的决策树集成。改进后随机森林模型保持原有的预测效果,在精度上有所提高,考虑上对未违约用户和违约用户错误分类的实际代价,为金融公司降低损失风险提供决策,具有现实意义。
参考文献:
[1]李旭升,郭春香,陈凯亚.最小总风险准则的贝叶斯网络个人信用评估模型[J].计算机应用研究,2009,26(1):50-58.
[2]Lean Yu,Wuyi Yue,Shouyang Wang,etal. Support vector machine based multiagent ensemble learning for credit risk evaluation[J]. Expert Systems with Applications,2010,37:1351–1360.
[3]方匡南,范新妍.基于网络结构Logistic模型的企业风险预警[J].统计研究,2016,33(4):50-55.
[4]萧超武等.基于随机森林的个人信用评估模型研究及实证分析[J].管理现代化,2014,(06),111-113.
[5]Zhihua Zhou. Ensemble methods:foundations and
algorithms[M]. Boca Raton:CRC Press,2012.72-73.
[6]Jin-Hyuk Hong,Sung-Bae Cho. The classification
of cancer based on DNA microarray data that uses diverse ensemble genetic programming[J]. Artificial Intelligence in Medicine,2006,36(1):43-58.
[7]Breiman L. Random forest[J]. Machine Learning,2001,45(1):5-32.
[8]Alam M S,Vuong S T. Random forest classification for detecting android malware[C]. Green Computing and Communications.2013:663-669.
[9]Silke Janitza,Carolin Strobl,Anne-Laure Boulesteix.
An AUC-based permutation variable importance measure for
randomforest[J]. BMC Bioinformatics,2013,14(1):119-130.
[10]Peter Harrington. Machine learning in action[M]. Beijing:PTPRESS,2013.127-133.
基金项目:国家自然科学基金资助项目(11471218)。
(作者单位:赵迎、何华任职于河北工业大学;吴超任职于中国人民银行天津分行)