闫华竹
[摘要]为了解决申请贷款问题,需要对客户的审贷信用进行评级,此评级过程主要使用了数据挖掘中的聚类分析的方法。通过对客户基本信息的挖掘和聚类分析,可以得出客户申贷的信用级别,从而对客户的审贷问题进行分级处理。
[关键词]信贷风险 聚类分析 数据挖掘
一、方法介绍:聚类分析
聚类分析能够将一批样本数据,在没有先验知识的前提下,根据数据的诸多特征,按照其在性质上的亲疏程度进行自动分组,且使组内个体的结构特征具有较大相似性,组间个体的特征相似性较小。
K-Means聚类也称作快速聚类,属于覆盖型数值划分聚类算法。它得到的聚类结果,每个样本点都唯一属于一个类,而且聚类变量为数值型,并采用划分原理进行聚类。
二、数据挖掘——K-Means模型
搜集数据阶段主要是对某银行的客户信息数据进行整理和汇总,重点选取那些影响客户申贷评级的那些指标,例如客户的年龄、收入、资产、债务、贷款量、风险、信用等级,按时还贷习惯等等。这些指标都是笔者通过访谈银行相关部门的工作人员,通过获取相关经验得出的指标,此外这也是国际通用的对客户信用评级的常用指标。通过对某银行客户信息进行整理和汇总,得出20个典型客户的申请贷款信息资料。
数据挖掘的过程中,首先需要构建k-means模型,这就需要相关clementine软件操作,对数据集进行模型导入。经过k-means模型分析后,这组数据被分为四组,数据集按组别重新排列。分析结果显示了四类所包括的样本数分别为6、1、7、6个样本,以及各变量的均值和标准差。如果聚类变量是分类型的,则显示各类别的百分比。对各类特征的描述是聚类分析结果中不可或缺部分,viewer卡以图形矩阵的形式直观显示了各类各变量的特征。
在这些评判指标中,重要指标有五个,分别是信用等级、年龄、结果、资产和风险。对重要指标分别进行分析,可以得出各组的重要客户特征。
通过对各组“信用等级”情况比较分析中,我们发现cluster-3样本的信用等级都是绿,cluster-1中5个样本的信用等级是绿、1个是黄,cluster-4中3个样本信用等级是红、1个是绿、2个是黄,cluster-2样本的信用等级都是黄,如图2-5。同样地,对各组“年龄”情况进行比较分析,cluster-3样本的4个中年3个老年人,cluster-1中6个样本都是年轻人,cluster-4中6个样本都是年轻人,cluster-2样本的年龄是中年;再对各组 “结果”进行比较分析,cluster-3和cluster-1的样本都按时还款,cluster-4样本中1个不履行还款、3个延时还款、2个按时还款,cluster-2的样本都延时还款;对各组“资产”情况进行比较分析,cluster-3样本的资产平均值是513929.35,cluster-1样本的资产平均值是25256.85,cluster-4样本的资产平均值是37474.30,cluster-2样本的资产平均值是91111.30。
针对四组样本的情况,凭借以上五个重要指标,笔者对四组提出批贷建议,如表。对于cluster-3批准贷款,对于cluster-4不批准贷款,而对于cluster-1和cluster-2,银行需要限额批准贷款,以防控风险事件的发生。
三、 结论
通过聚类分析研究,把某银行20个典型客户情况进行分类,分成了四组。然后针对五个重要指标信用等级、年龄、结果、资产、风险,对四组情况进行比较分析。我们发现第三组的信用等级为绿、结果按时、风险低、资产量最大,对于这样的客户银行可以放心的批准其贷款;第四组的客户风险高、年龄小、存在不履行还款现象、信用等级存在红50%,对于这样的高风险客户银行应不予批准贷款;对于第一、二组的客户,他们存在延时还款现象、信用等级存在黄色,风险中、高现象,对其可以批准贷款,但是贷款额度需要设定一定限制。
参考文献:
[1]《Clementine数据挖掘方法及应用》,电子工业出版社.薛薇,陈欢歌.2012,9
[2] 聚类分析技术在中国移动客户消费模式中的应用研究.李颖慧.2010,3
[3] 高世光,基于模糊聚类的数据挖掘技术研究.国防科技大学.2002,1