姜志旺+张红霞+郑艳娟+张宇敬+曹莹
摘 要:随着小额贷款规模的扩大化和贷款对象的多样化,金融机构的信贷风险问题日益突出,成为制约其发展的短板。本文运用数据挖掘技术,对金融机构信用风险评估进行研究,通过建立决策树、神经网络模型,从建模结果、预测精度等方面对信贷风险进行比较分析,为其提供决策依据,从而提高风险防范能力。
关键词:数据挖掘 决策树 神经网络 小贷公司
中图分类号:TP39 文献标识码:A 文章编号:1672-3791(2014)01(c)-0032-02
随着河北省农户、个体工商户以及中小企业的迅猛发展,信贷需求和融资需求成为这些企业的发展和壮大所必须的金融服务,于是小额贷款公司应运而生,在一定程度上解决了对这些“三农”及中小企业的融资难题,也对河北省金融市场进行了有益的补充。但是小额贷款公司在其业务发展和借贷过程中,由于其贷款融资业务的单一性,贷款客户的违约信用风险成为小额贷款公司目前需要面对的主要风险。而小额贷款公司当前由于对信用风险缺乏科学合理有针对性的准确评估,导致企业在运营和发展中缺乏相应的有效的风险预警控制能力。本文通过旨在对小额贷款公司的信用风险评估方法进行研究,提出通过建立信用模型进行风险预警的机制,以点带面,以期达到借鉴作用。
1 数据挖掘技术
1.1 决策树方法
决策树学习[1]是以实例为基础的归纳学习,是一种逼近离散函数值的算法,从一组无次序、无规则的事例中推理出决策树表示形式的分类规则,然后使用决策对新数据进行分析,本质上决策树是通过一系列规则对数据进行分类的过程。
C4.5算法是一种典型的决策树算法,首先定义“分裂信息”,可以表示成:
(1)
然后,增益率被定义为:
(2)
1.2 神经网络方法
分层网络[2]是一种经典的神经网络算法,将一个神经元网络模型中的所有神经元按功能分为若干层,一般有输入层、中间层和输入层,各层顺序连接,第I层的输入仅与第I-1层输出相关联。在神经网络中,学习过程就是训练过程,即将数据集输入到神经网络的过程中,按照一定的方式去调整神经元之间的连接权值,使得网络能将数据集的内涵以连接权值矩阵的方式存储起来,从而使得在网络接受输入时,可以给出恰当的输出。
2 信用模型建立与分析
通过对大量既存的客户基本信息和相关资料的数据透视分析,分别建立决策树模型和神经网络模型,并基于这两个模型进行评估和分析对比,以寻求一个最适用的模型。再根据该模型对客户的信用风险进行分析与评分,从而得到了“好客户、坏客户”的最有效的区分办法和途径,以便为企业提供科学的辅助决策。
2.1 数据预处理[3]
本文实验所使用的数据是某银行提供给的业务数据,来源于信用业务系统。通过对数据的分析和处理,最后进入建模的输入变量为:Break强制停卡记录、Age年龄、Mar婚否、Sex性别、Bad_debt呆账记录、Card_num卡数、Per持卡人月平均收入、Spend持卡人月平均开销、Card_spend信用卡月平均刷卡金额Rufuse拒往记录、Reture退票记录、Frequence刷卡频率,目标变量定义为Cus客户类别,把样本中的信用卡持有者分成两类:类标号为“1”的“好”客户和类标号为“2的差”客户。在建立了最佳模型后,在申请后,如果模型判断为“好”客户,则批准,如果判断为“差”客户,则拒绝。
2.2 模型建立
(1)决策树模型。
(2)神经网络模型。
这里利用平衡抽样后分割的训练数据集进行神经网络建模,采用Neural Net节点进行建模分析。在构建模型的过程中,采用快速建模的方式,设置预防过度训练参数以及取消随机数种子,终止条件为默认。网络拓扑结构如下:输入层有14个神经元,隐藏层有3个神经元,输出层有1个神经元。另外,输入变量对模型的相对重要性排序如下:Break、Refuse、Frequency、Return、Bad_debt、Spend、Per、Age。通过对测试数据集进行测试,对模型进行评估。
按照上述步骤构建模型后,生成神经网络模型。神经网络是一种“黑箱”技术,根据样本不断调整模型,提高预测准确率,因而预测结果缺乏解释力,而且不能观察到中间的学习过程。此次所建模型的估计精确性达到71.429%。
3 结论
(1)在建模之前,进行数据的预处理是很必要的。
(2)在对数据进行探索性分析中发现,它行强制停卡记录(Break)、逾期情况属性分析(Over)、呆账记录属性分析(Bad_debt)、借款余额(Loan)及退票记录(Return)这五个变量对预测一个客户的“好”“坏”有显著影响。
(3)通过使用Clementine对本文采用的客户数据的建模分析,从建模结果、预测精度、运行效率及理论这四个角度考虑,得出决策树方法最优。
参考文献
[1] 张云涛,龚玲.数据挖掘原理与技术[M].电子工业出版社,2004.
[2] (意)Paolo Giudici.实用数据挖掘[M].袁方,王煜,王丽娟,译.电子工业出版社,2003.
[3] (美)林·C.托马斯,戴维·B.埃德尔曼,乔纳森·N.克鲁克.信用评分及其应用[M].王晓蕾,石庆焱,吴晓惠,译.中国金融出版社,2005.endprint
摘 要:随着小额贷款规模的扩大化和贷款对象的多样化,金融机构的信贷风险问题日益突出,成为制约其发展的短板。本文运用数据挖掘技术,对金融机构信用风险评估进行研究,通过建立决策树、神经网络模型,从建模结果、预测精度等方面对信贷风险进行比较分析,为其提供决策依据,从而提高风险防范能力。
关键词:数据挖掘 决策树 神经网络 小贷公司
中图分类号:TP39 文献标识码:A 文章编号:1672-3791(2014)01(c)-0032-02
随着河北省农户、个体工商户以及中小企业的迅猛发展,信贷需求和融资需求成为这些企业的发展和壮大所必须的金融服务,于是小额贷款公司应运而生,在一定程度上解决了对这些“三农”及中小企业的融资难题,也对河北省金融市场进行了有益的补充。但是小额贷款公司在其业务发展和借贷过程中,由于其贷款融资业务的单一性,贷款客户的违约信用风险成为小额贷款公司目前需要面对的主要风险。而小额贷款公司当前由于对信用风险缺乏科学合理有针对性的准确评估,导致企业在运营和发展中缺乏相应的有效的风险预警控制能力。本文通过旨在对小额贷款公司的信用风险评估方法进行研究,提出通过建立信用模型进行风险预警的机制,以点带面,以期达到借鉴作用。
1 数据挖掘技术
1.1 决策树方法
决策树学习[1]是以实例为基础的归纳学习,是一种逼近离散函数值的算法,从一组无次序、无规则的事例中推理出决策树表示形式的分类规则,然后使用决策对新数据进行分析,本质上决策树是通过一系列规则对数据进行分类的过程。
C4.5算法是一种典型的决策树算法,首先定义“分裂信息”,可以表示成:
(1)
然后,增益率被定义为:
(2)
1.2 神经网络方法
分层网络[2]是一种经典的神经网络算法,将一个神经元网络模型中的所有神经元按功能分为若干层,一般有输入层、中间层和输入层,各层顺序连接,第I层的输入仅与第I-1层输出相关联。在神经网络中,学习过程就是训练过程,即将数据集输入到神经网络的过程中,按照一定的方式去调整神经元之间的连接权值,使得网络能将数据集的内涵以连接权值矩阵的方式存储起来,从而使得在网络接受输入时,可以给出恰当的输出。
2 信用模型建立与分析
通过对大量既存的客户基本信息和相关资料的数据透视分析,分别建立决策树模型和神经网络模型,并基于这两个模型进行评估和分析对比,以寻求一个最适用的模型。再根据该模型对客户的信用风险进行分析与评分,从而得到了“好客户、坏客户”的最有效的区分办法和途径,以便为企业提供科学的辅助决策。
2.1 数据预处理[3]
本文实验所使用的数据是某银行提供给的业务数据,来源于信用业务系统。通过对数据的分析和处理,最后进入建模的输入变量为:Break强制停卡记录、Age年龄、Mar婚否、Sex性别、Bad_debt呆账记录、Card_num卡数、Per持卡人月平均收入、Spend持卡人月平均开销、Card_spend信用卡月平均刷卡金额Rufuse拒往记录、Reture退票记录、Frequence刷卡频率,目标变量定义为Cus客户类别,把样本中的信用卡持有者分成两类:类标号为“1”的“好”客户和类标号为“2的差”客户。在建立了最佳模型后,在申请后,如果模型判断为“好”客户,则批准,如果判断为“差”客户,则拒绝。
2.2 模型建立
(1)决策树模型。
(2)神经网络模型。
这里利用平衡抽样后分割的训练数据集进行神经网络建模,采用Neural Net节点进行建模分析。在构建模型的过程中,采用快速建模的方式,设置预防过度训练参数以及取消随机数种子,终止条件为默认。网络拓扑结构如下:输入层有14个神经元,隐藏层有3个神经元,输出层有1个神经元。另外,输入变量对模型的相对重要性排序如下:Break、Refuse、Frequency、Return、Bad_debt、Spend、Per、Age。通过对测试数据集进行测试,对模型进行评估。
按照上述步骤构建模型后,生成神经网络模型。神经网络是一种“黑箱”技术,根据样本不断调整模型,提高预测准确率,因而预测结果缺乏解释力,而且不能观察到中间的学习过程。此次所建模型的估计精确性达到71.429%。
3 结论
(1)在建模之前,进行数据的预处理是很必要的。
(2)在对数据进行探索性分析中发现,它行强制停卡记录(Break)、逾期情况属性分析(Over)、呆账记录属性分析(Bad_debt)、借款余额(Loan)及退票记录(Return)这五个变量对预测一个客户的“好”“坏”有显著影响。
(3)通过使用Clementine对本文采用的客户数据的建模分析,从建模结果、预测精度、运行效率及理论这四个角度考虑,得出决策树方法最优。
参考文献
[1] 张云涛,龚玲.数据挖掘原理与技术[M].电子工业出版社,2004.
[2] (意)Paolo Giudici.实用数据挖掘[M].袁方,王煜,王丽娟,译.电子工业出版社,2003.
[3] (美)林·C.托马斯,戴维·B.埃德尔曼,乔纳森·N.克鲁克.信用评分及其应用[M].王晓蕾,石庆焱,吴晓惠,译.中国金融出版社,2005.endprint
摘 要:随着小额贷款规模的扩大化和贷款对象的多样化,金融机构的信贷风险问题日益突出,成为制约其发展的短板。本文运用数据挖掘技术,对金融机构信用风险评估进行研究,通过建立决策树、神经网络模型,从建模结果、预测精度等方面对信贷风险进行比较分析,为其提供决策依据,从而提高风险防范能力。
关键词:数据挖掘 决策树 神经网络 小贷公司
中图分类号:TP39 文献标识码:A 文章编号:1672-3791(2014)01(c)-0032-02
随着河北省农户、个体工商户以及中小企业的迅猛发展,信贷需求和融资需求成为这些企业的发展和壮大所必须的金融服务,于是小额贷款公司应运而生,在一定程度上解决了对这些“三农”及中小企业的融资难题,也对河北省金融市场进行了有益的补充。但是小额贷款公司在其业务发展和借贷过程中,由于其贷款融资业务的单一性,贷款客户的违约信用风险成为小额贷款公司目前需要面对的主要风险。而小额贷款公司当前由于对信用风险缺乏科学合理有针对性的准确评估,导致企业在运营和发展中缺乏相应的有效的风险预警控制能力。本文通过旨在对小额贷款公司的信用风险评估方法进行研究,提出通过建立信用模型进行风险预警的机制,以点带面,以期达到借鉴作用。
1 数据挖掘技术
1.1 决策树方法
决策树学习[1]是以实例为基础的归纳学习,是一种逼近离散函数值的算法,从一组无次序、无规则的事例中推理出决策树表示形式的分类规则,然后使用决策对新数据进行分析,本质上决策树是通过一系列规则对数据进行分类的过程。
C4.5算法是一种典型的决策树算法,首先定义“分裂信息”,可以表示成:
(1)
然后,增益率被定义为:
(2)
1.2 神经网络方法
分层网络[2]是一种经典的神经网络算法,将一个神经元网络模型中的所有神经元按功能分为若干层,一般有输入层、中间层和输入层,各层顺序连接,第I层的输入仅与第I-1层输出相关联。在神经网络中,学习过程就是训练过程,即将数据集输入到神经网络的过程中,按照一定的方式去调整神经元之间的连接权值,使得网络能将数据集的内涵以连接权值矩阵的方式存储起来,从而使得在网络接受输入时,可以给出恰当的输出。
2 信用模型建立与分析
通过对大量既存的客户基本信息和相关资料的数据透视分析,分别建立决策树模型和神经网络模型,并基于这两个模型进行评估和分析对比,以寻求一个最适用的模型。再根据该模型对客户的信用风险进行分析与评分,从而得到了“好客户、坏客户”的最有效的区分办法和途径,以便为企业提供科学的辅助决策。
2.1 数据预处理[3]
本文实验所使用的数据是某银行提供给的业务数据,来源于信用业务系统。通过对数据的分析和处理,最后进入建模的输入变量为:Break强制停卡记录、Age年龄、Mar婚否、Sex性别、Bad_debt呆账记录、Card_num卡数、Per持卡人月平均收入、Spend持卡人月平均开销、Card_spend信用卡月平均刷卡金额Rufuse拒往记录、Reture退票记录、Frequence刷卡频率,目标变量定义为Cus客户类别,把样本中的信用卡持有者分成两类:类标号为“1”的“好”客户和类标号为“2的差”客户。在建立了最佳模型后,在申请后,如果模型判断为“好”客户,则批准,如果判断为“差”客户,则拒绝。
2.2 模型建立
(1)决策树模型。
(2)神经网络模型。
这里利用平衡抽样后分割的训练数据集进行神经网络建模,采用Neural Net节点进行建模分析。在构建模型的过程中,采用快速建模的方式,设置预防过度训练参数以及取消随机数种子,终止条件为默认。网络拓扑结构如下:输入层有14个神经元,隐藏层有3个神经元,输出层有1个神经元。另外,输入变量对模型的相对重要性排序如下:Break、Refuse、Frequency、Return、Bad_debt、Spend、Per、Age。通过对测试数据集进行测试,对模型进行评估。
按照上述步骤构建模型后,生成神经网络模型。神经网络是一种“黑箱”技术,根据样本不断调整模型,提高预测准确率,因而预测结果缺乏解释力,而且不能观察到中间的学习过程。此次所建模型的估计精确性达到71.429%。
3 结论
(1)在建模之前,进行数据的预处理是很必要的。
(2)在对数据进行探索性分析中发现,它行强制停卡记录(Break)、逾期情况属性分析(Over)、呆账记录属性分析(Bad_debt)、借款余额(Loan)及退票记录(Return)这五个变量对预测一个客户的“好”“坏”有显著影响。
(3)通过使用Clementine对本文采用的客户数据的建模分析,从建模结果、预测精度、运行效率及理论这四个角度考虑,得出决策树方法最优。
参考文献
[1] 张云涛,龚玲.数据挖掘原理与技术[M].电子工业出版社,2004.
[2] (意)Paolo Giudici.实用数据挖掘[M].袁方,王煜,王丽娟,译.电子工业出版社,2003.
[3] (美)林·C.托马斯,戴维·B.埃德尔曼,乔纳森·N.克鲁克.信用评分及其应用[M].王晓蕾,石庆焱,吴晓惠,译.中国金融出版社,2005.endprint