基于C4.5决策树对SVM的结合优化分析

2021-04-25 17:24:54杨田毅高炜皓刘宇阳
科学家 2021年24期
关键词:决策树增益客户

杨田毅 高炜皓 刘宇阳

摘要:本文首先进行数据预处理,将20个指标的数据正向化并标准化,运用SPSS分层抽取80%的训练集和测试集,由于SVM对高维数据不能主动进行特征提取,我们通过C4.5决策树算法进行降维,在有监督的情况下,通过SVM对训练集进行训练,并采用GWO灰狼算法对参数进行优化,求出预测模型,通过检验此模型拟合效果良好,可以运用此模型对计算结果进行分析测试。

关键词:数据预处理  分层抽取  C4.5决策树算法

一、问题的背景

随着我国商业银行商业消费信贷业务的迅猛发展,个人信用评估得到的空前的重视,有研究表明,导致银行破产的最常见原因就是信用风险。因此,科学有效的个人信用评估方法成为了商业银行风险控制、进一步促进消费信贷发展的关键。

二、问题的提出

本题要求对已给出风险信息的相关属性建立分类模型,对银行客户个人的信用风险进行准确评估。给出的数据集来自个人信用评分方面应用广泛的公开数据集。该数据集一共包含 20个相关属性(即 20个指标变量),1个类别变量(即个人信用风险优/劣)。共有 1000个样本点,其中包括 700个优质客户和 300个不良客户。

本文根据以上背景,结合数学知识,设计方法完成以下问题:

(四) 对数据进行适当地数值化处理,并在数据集中分别抽取 80%的数据(560个优质客户和 240个不良客户)作为训练集,建立银行客户的个人信用风险评估模型。

(五) 并用剩余样本(140个优质客户和 60个不良客户)进行模型计算结果的测试。

三、问题分析

根据收集的1000个样本点的数据集,需要在抽取的训练集基础上建立个人信用风险评估模型,并对剩余样本进行结果测试。首先,我们对训练集进行数值化处理,由于题目中所给出的20个相关属性较多,过多的信息会使模型复杂度增加,因此选择C4.5决策树利用自身属性筛选的方法对个人信用评价模型进行降维。其次,在数据预处理后,对于抽取的训练集,要在已知客户相关属性的情况下对类别进行分类,利用支持向量机SVM评估信用好坏,以结构最小化为优化目标,在有限样本和模型的复杂性和学习能力中寻求最佳折中。再对数据进行二分类,假设本题是线性不可分的问题,通过多项式核函数来简化运算,之后对多项式核函数调参,在此采取灰狼算法GWO优化参数,最终得到基于决策树和支持向量机的信用评价模型。带入剩余样本进行模型计算结果的测试。

四、模型建立与求解

4.1 数据预处理

由于所给指标的方向及量纲均不同,且对于部分指标而言,指标的数字大小不能代表该种情况的好坏(即虚拟变量),对指标进行整理,不同类型的指标分别包括:

极大型指标:A1,A5,A6,A7,A10,A11,A14,A15,A17;

区间型指标:A13;

极小型指标:A2,A3,A8,A12,A16,A18;

虚拟变量(数字没有实际意义):A4,A9,A19,A20。

为此,我们通过SPSS,首先将不同类型的指标处理为正向化指标(即数字越大代表越好),然后再进行z标准化处理,虚拟变量则直接进行z标准化处理。

4.2基于C4.5决策树的特征提取

由于支持向量机[1]对高维数据不能主动进行特征选择,我们首先基于C4.5决策树[2]对数据进行特征的提取,然后再通过支持向量机对数据进行训练,具体算法过程如下:

决策树学习采取自顶向下的递归方式,从树根节点开始在内部进行属性的测试比较,再根据属性值确定分支, 最后在决策树的叶子节点得到分类的结论, 整个过程在以新的节点为根的子树上重复, 直到训练停止得到最优决策树。

C4.5决策树的剪枝策略采用的是后剪枝的方法。后剪枝策略首先需要构造完整的决策树,允许决策树过度拟合训练数据,然后对那些置信度不够的子树节点用叶节点来替代。以SPSS分层随机抽取的80%的数据作为训练集,剩下的作为测试集,两组比例为4:1,查阅文献可知,将损失比例设为2:1最佳,Boosting[3]迭代次数设置为默认值10,

假设训练数据集中包含n类别,分别为T={t1,t2…tn},根据训练数据集中某属性A可能有(a1,a2…am),共m种取值,根据属性A划分为T={t1′,t2′…tn′},其他属性皆类似于属性A。我们注意到决策树算法中的DI3算法用信息增益选择属性的特点,但由于DI3算法信息增益选择属性时偏向于选择取值多的属性和其只能处理离散型的属性,我们在此基础上选择C4.5决策树算法,以信息熵增益率方法测试属性,信息熵增益率计算公式为:

其中,D為数据集,A是数据集属性,Gain(D,A)为属性A的信息增益,Split_info(D,A)为属性A的分裂信息量。

通过计算所有属性的信息增益率,选出具有最大信息增益率值的属性作为决策树的根点。然后,以同样的方法确定决策树各层的节点

五、结论

我们通过C4.5决策树算法进行降维,在有监督的情况下,通过SVM对训练集进行训练,并采用GWO灰狼算法对参数进行优化,求出预测模型,通过检验此模型拟合效果良好,可以运用此模型对计算结果进行分析测试

参考文献

[1]曹平苹,刘倩,毛舟. 赋能绿色低碳发展的“常德实践”[N]. 金融时报,2021-12-28(010).

[2]唐珂,刘淼,王梅,纪晓明. 绿色金融让白城“风光”无限[N]. 金融时报,2021-12-28(010).

[3]何颖,裴文静.金融驱动甘肃中药材产业融合的发展模式分析[J].农业开发与装备,2021(12):36-39.

[4]陈衍水. 福建金融业 探寻绿水青山间的“黄金路”[N]. 农村金融时报,2021-12-27(A01).

[5]郑长灵,蒋敏. 邮储银行景德镇市分行 消费贷款助力老百姓消费升级[N]. 农村金融时报,2021-12-27(A05).

猜你喜欢
决策树增益客户
基于增益调度与光滑切换的倾转旋翼机最优控制
基于单片机的程控增益放大器设计
电子制作(2019年19期)2019-11-23 08:41:36
一种针对不均衡数据集的SVM决策树算法
基于Multisim10和AD603的程控增益放大器仿真研究
电子制作(2018年19期)2018-11-14 02:37:02
决策树和随机森林方法在管理决策中的应用
电子制作(2018年16期)2018-09-26 03:27:06
为什么你总是被客户拒绝?
如何有效跟进客户?
基于决策树的出租车乘客出行目的识别
做个不打扰客户的保镖
山东青年(2016年2期)2016-02-28 14:25:41
基于肺癌CT的决策树模型在肺癌诊断中的应用