王培培 周小平 陈佳佳 李浩
摘 要: 针对如何准确评估复杂的用户信用问题,提出一种基于麻雀搜索算法的随机森林(SSA-RF)模型,利用SSA优化RF模型中决策树和最小节点数,并基于优化后的RF模型对数据样本进行分类,并评估所提模型和传统模型的性能. 研究结果表明: SSA-RF模型具备较高的准确性.
关键词: 信用风险评估; 特征选择; 随机森林(RF)模型; 麻雀搜索算法(SSA)
中图分类号: TP 181 文献标志码: A 文章编号: 1000-5137(2024)02-0241-06
Personal credit evaluation based on sparrow search algorithm and random forest fusion model
WANG Peipei, ZHOU Xiaoping*, CHEN Jiajia*, LI Hao
(College of Information, Mechanical and Electrical Engineering, Shanghai Normal University, Shanghai 201418, China)
Abstract: A random forest (RF) based on sparrow search algorithm (SSA-RF) model was proposed to accurately evaluate complex user credit problems. SSA was used to optimize the number of decision trees and minimum number of nodes in the RF model, and the optimized RF model was used to classify data samples. The performances of the proposed model and traditional model were evaluated. The research results indicated that the SSA-RF model had higher accuracy.
Key words: credit risk assessment; feature selection; random forest(RF) model; sparrow search algorithm(SSA)
0 引言
在個人信用风险评估领域,国内外的学者们做了很多研究,主要集中在个人信用风险指标的选取以及评估方法两个方面.信用风险评估方法主要包括统计和非统计方法. 基于统计的个人信用风险评估方法如逻辑回归(LR)[1]和K近邻(KNN)[2]等,要求样本数据服从线性关系、正态分布等假设,降低了模型的适用性[3]. 近年来,基于机器学习方法的非统计方法被大量应用在信用风险评估领域,如人工神经网络(ANN)[2]、支持向量机(SVM)[4]、决策树(DT)[5]和随机森林(RF)[6-9]等. RF是一种集成学习方法,因其优秀的分类能力而被学者们广泛使用. 牛晓健等[10]对比分析了CatBoost 4,RF,LightGBM和XGBoost四种集成学习模型,结果表明RF模型表现最好. CANO[4]针对不同的数据集,使用RF模型进行特征选择,使模型的分类性能优于ANN和SVM方法.方匡南等[11]在利用RF模型实现零售信贷领域的信用卡违约风险识别功能,无需对数据样本进行标准化预处理. 因此,将RF模型用于个人信用风险的评估,有着广泛的研究前景. 然而,由于RF模型利用多棵决策树实现分类,且单棵决策树包含着许多个节点,对于决策树数量的选择会极大影响模型的性能,如果决策树数量过少,会降低模型评估的准确性;反之,会导致计算时间大幅增加.
本文作者提出一种基于麻雀搜索(SSA)的RF分类(SSA-RF)模型来评估银行用户的个人信用.利用SSA搜索能力强、收敛速度较快的优点,得到RF中最优决策树和节点数,提高模型预测的准确率.基于德国信用数据集UC Irvine进行仿真实验,结果表明所提算法在个人信用风险评估方面,相较于传统的RF分类方法,预测准确率更高.
1 基于SSA-RF的个人信用风险评估模型构建
由于个人信用预测的复杂性以及传统RF方法存在效率和预测准确率不高等缺点,提出一种使用SSA优化改进的RF(SSA-RF)模型,利用SSA优化RF分类模型的决策树和节点数量,提高RF算法预测的准确率,并与传统的RF个人信用分类结果相比较,以验证本文建立的个人信用评估模型的有效性.
1.1 数据处理
特征间的相关性反映了两个特征相互关联的程度,对特征的相关性进行分析有助于寻找相关程度较高的冗余特征,提高模型的预测能力. 采用皮尔逊相关系数(PCC)衡量特征之间的线性关联程度. 对于两个随机变量和,样本的皮尔逊相关系数
, (1)
其中,和分別为样本和的均值. 如果是负数,表示两变量当=0时,和无相关性;当时,表示和两变量完全相关,即|c|的绝对值越大,和两变量越相关.
根据RF模型获取个人信息各特征的重要程度,删除对最终的分类结果影响不大的特征值.
1.2 研究方法
设n名客户的个人信息特征集,对应的个人信用情况标签集,其分类步骤为:
1) 利用Bootstrap方法对RF模型的单棵决策树进行随机抽样,获得训练集.
2) 利用T生成对应的决策树,在每个非叶子节点分裂属性前,从全部L个属性中随机抽取l个属性作为当前节点的分裂属性集,再从其中根据Gini指数Gini选择最优特征进行该节点的分裂:
(2)
其中,为数据样本属于类别的概率;为类别数,分为信用好与差两个类别. 通过最小化的最小值得到Gini指数的最优分割,表达式如下:
, (3)
其中,为属于类别的个人信息样本个数;为不属于类别的个人信息样本个数;為用于分裂的具体信息.
3) 重复前两步,直到生成颗决策树.
4) 对于测试集样本,利用每棵决策树进行测试,得到对应的决策结果R().
使用多数投票法来确定最终分类结果,
(4)
其中,(·)是第棵决策树,用分类与回归树(CART)算法构建;是服从独立同分布的随机变量,决定了单棵树的生长过程;I(·)表示满足条件的样本个数;为目标变量.
由前文可知,本研究基于RF模型对个人信用进行评估,分类结果的准确性和有效性与模型中决策树和节点的数量直接相关,因此,如何选取这两个参数是本研究的关键. SSA是一种受麻雀群体行为启发的群体智能优化算法,具有优秀的全局搜索能力,优化效率高,收敛速度快. 采用SSA来优化RF个人信用评估模型中决策树数量和节点数量.
根据SSA的搜索规则,更新发现者、加入者和可意识到危险的个体的位置.适应度函数f采用测试集的均方误差描述:
(5)
其中,为用于测试的客户个人信息样本数;和分别为客户个人信用的真实值和预测值. 如果当前迭代所获得的最优值比上一次的Gini指数值更小,则全局最优值更新为该值. 继续进行迭代操作,直到满足算法退出条件. 将的第一和第二个坐标分别作为个人信用评估模型的决策树和节点数量,优化原有模型[12-13],具体流程如图1所示.
2 仿真实验
2.1 实验数据
采用德国信用数据集UC Irvine验证模型的可行性和有效性. UC Irvine是德国一家银行用于记录信用卡客户个人特征及违约情况的数据集,共有1 000个客户的基本信息,包含了700个信用好和300个信用差的客户信息. 每个客户的信息都包含有20个特征,共63个具体指标,涵盖了客户在个人、经济和信用三大方面的多项指标. 放贷机构根据这些信息,可以获取贷款申请人的还款意愿、还款能力和个人信用等重要信息,并依此判别申请人是否有能力按时还款,从而降低信贷风险. 分析这些个人信息的相关性,去除与其他项关联程度较高的属性;分析这些个人信息的重要性,去除对最终信用评估结果影响较小的属性,提高模型的性能. 对于客户的信用情况,1代表信用好,0代表信用差.本研究随机选取800名客户的个人信息作为模型的训练集,剩余200名客户的个人信息作为模型的测试集.
2.2 SSA参数设置
设定初始麻雀种群数量为10,最大迭代次数为30,预警值为0.6,发现者占种群数量的70%,能夠意识到危险的麻雀数量占种群数量的20%. 设定种群位置的最小值为(1,1),最大值为(100,7).
2.3 模型评价
根据个人信用评估准确率、受试者工作特征(ROC)曲线以及ROC曲线与坐标轴围成的面积(AUC)值来判断模型的性能优劣.模型预测准确率A描述了所有分类样本中预测正确样本的比例,
, (6)
其中,TP代表实际信用差的客户被模型判定为信用差的数量;FN代表实际信用好的客户被模型判定为信用好的数量;FP代表实际信用好的客户被模型判定为信用差的数量;TN代表实际信用差的客户被模型判定为信用差的数量.
ROC曲线是用于判断实验效果的一种图形,以真阳性率FPR为横轴,假阳性率TPR为纵轴,构建坐标系,
, (7)
, (8)
其中,越大,代表实际上是负例的样本数量占所有预测为正例的比例越大;越大,代表预测正例与实际正例相同的比例越大,即若越接近0,且越接近1,模型的分类效果越好. ROC曲线为连接区间阈值中不同概率值的平滑曲线,其越偏左上方,则模型预测准确率越高,分类效果越好. AUC值为ROC曲线与横坐标轴围成的面积,曲线下面积AUC的值越大,模型的分类效果越好.
2.4 模型对比
对改进前后两种方案的评估效果进行ROC曲线分析,如图2所示.
由图2可知,SSA-RF的ROC曲线几乎完全位于传统RF的上方. 传统RF和SSA-RF模型分类的预测准确率和AUC值如表1所示. 由表1可知,SSA-RF模型的个人信用预测准确率高达80.62%,远高于传统RF的个人信用预测准确率(63.16%);同时,AUC值也比传统RF的提高了近0.202 9,展现了卓越的性能. 因此,所提出的SSA-RF模型通过优化传统RF模型中决策树和节点数量,可以提高模型的性能,证明了所提方法的有效性.
3 结语
本文作者提出了一种基于SSA优化的RF分类方法评估实现个人信用风险. 通过SSA优化RF模型中决策树和节点数量,提高RF模型分类的准确率,并以UC Irvine数据集作为实验样本,验证了所提模型的有效性.
参考文献:
[1] 宋婉晴. 科技型中小企业信用风险评估模型研究 [D]. 苏州:苏州大学, 2020.
SONG W Q. Research on credit risk evaluation model of technology-based SMEs[D]. Suzhou: Soochow University, 2020.
[2] 赵海浪. 基于最优指标组合的农户贷款违约判别模型 [D]. 大连:大连理工大学, 2021.
ZHAO H L. Discriminant model of rural household loan default based on optimal feature combination [D]. Dalian:Dalian University of Technology, 2021.
[3] 熊志斌. 信用评估中的特征选择方法研究 [J]. 数量经济技术经济研究, 2016(1):143-156.
XIONG Z B. Research on feature selection method in credit evaluation [J]. Journal of Quantitative & Technological Economics, 2016(1):143-156.
[4] CANO G, GARCIA-RODRIGUEZ J, GARCIA-GARCIA A, et al. Automatic selection of molecular descriptors using random forest [J]. Expert Systems with Applications, 2017,72(15):151-159.
[5] GORDON E M, PATEL D V, JACOBS J W,et al. Application to drug discovery [J]. Expert Systems with Applications, 2017,72:151-159.
[6] YANG J H. Research on the forecasting of enterprise credit scoring based on SVR model [J]. Academic Journal of Engineering and Technology Science, 2020,3(1):55-64.
[7] 陳思. C5.0算法在个人信用评估中的研究与应用 [D]. 武汉:华中科技大学, 2019.
CHEN S. Research and application of C5.0 algorithm in personal credit evaluation [D]. Wuhan: Huazhong University of Science & Technology, 2019.
[8] 周永圣, 崔佳丽, 周琳云, 等. 基于改进的随机森林模型的个人信用风险评估研究 [J]. 征信, 2020(1):25-30.
ZHOU Y S, CUI J L, ZHOU L Y, et al. Study on the evaluation of personal credit risk based on the improved random forest model [J]. Credit Reference, 2020(1):25-30.
[9] 彭伟. 基于随机森林-Logistic回归组合模型的小额贷款用户逾期预测 [D]. 重庆:重庆大学, 2019.
PENG W. Overdue forecast of microfinance users based on random forest-logistic regression combined model [D]. Chongqing: Chongqing University, 2019.
[10] 牛晓健, 凌飞. 基于组合学习的个人信用风险评估模型研究 [J]. 复旦学报(自然科学版), 2021, 60(6):703-719.
NIU X J, LING F. Study on personal credit risk assessmentmodel based on hybrid learning [J]. Journal of Fudan University (Natural Science), 2021,60(6):703-719.
[11] 方匡南, 吴见彬, 朱建平, 等. 信贷信息不对称下的信用卡信用风险研究 [J]. 经济研究, 2010,45(增刊1):97-107.
FANG K N, WU J B, ZHU J P. Forecasting of credit card credit risk under asymmetric information based on nonparametric random forests [J]. Economic Research Journal, 2010,45(Suppl.1):97-107.
[12] XUE J K, SHEN B. A novel swarm intelligence optimization approach: sparrow search algorithm[J]. Systems Science and Control Engineering an Open Access Journal, 2022,5:24-29.
[13] 薛建凯. 一种新型的群智能优化技术的研究与应用: 麻雀搜索算法 [D]. 上海:东华大学, 2019.
XUE J K. Research and application of a novel swarm intelligence optimization technique: sparrow search algorithm[D]. Shanghai: Donghua University, 2019.
(责任编辑:包震宇,郁慧)
DOI: 10.3969/J.ISSN.1000-5137.2024.02.015
收稿日期: 2023-12-25
基金项目: 上海市科学技术委员会项目(22142201900)
作者简介: 王培培(1989—), 女, 讲师, 主要从事人工智能算法方面的研究. E-mail: 630184725@qq.com
* 通信作者: 周小平(1981—), 男, 副教授, 主要从事信息技术算法方面的研究. E-mail: zxpshnu@163.com;陳佳佳(1986—),女, 讲师, 主要从事信息处理方面的研究. E-mail: xinning_316@163.com
引用格式: 王培培, 周小平, 陈佳佳, 等. 基于麻雀搜索算法与随机森林融合模型的个人信用评估 [J]. 上海师范大学学报 (自然科学版中英文), 2024,53(2):241?246.
Citation format: WANG P P, ZHOU X P, CHEN J J, et al. Personal credit evaluation based on sparrow search algorithm and random forest fusion model [J]. Journal of Shanghai Normal University (Natural Sciences), 2024,53(2):241?246.