张宇敬 杜光辉
摘 要:贷款风险是金融风险中的主要类型,本文运用数据挖掘中的决策树技术对贷款风险进行预警,应用规则对客户贷款信息进行预测,为贷款部门提供决策依据。
关键词:决策树技术;贷款风险
1 引言
贷款风险是金融风险中主要类型,我国银行贷款风险管理比较侧重于风险控制的事中和事后的控制,而忽视了风险的事前管理。国外大量的成功案例表明,银行在其经营过程中,一些风险隐患发现的越早,对银行造成的损失就越小。因此,加强银行贷款风险水平的事前监测管理,使用数据挖掘技术——决策树算法对以往海量贷款数据进行分析,建立和完善贷款风险预警体系,提高自身的风险管理水平,是银行持续发展的重要基础。
2 数据挖掘技术
数据挖掘(Data Mining)目的就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识。
决策树算法是数据挖掘十大经典算法之一。决策树提供了一种展示类似在什么条件下会得到什么值这类规则的方法。一般情况下都是由上而下根据相应规则生成而来的,每个决策或者是每个事件所产生的后果都有可能引起两种或两种以上的的事件,导致不同的结果。把这种决策分支以图形的方式画出来很像一颗倒立的树结构,所以称为决策树。
决策树包含许多不同的算法,其中最典型的算法有ID3,C4.5,CART等。ID3算法由Qullan在1986年提出的,该算法以信息论为基础,以信息熵和信息增益度为衡量标准,从而实现对数据的归纳分类,假设用X代表当前样本集,用Q候选属性集,候选属性集中所有属性皆为离散型,或数值属性事先经过预处理转化成离散型。ID3算法描述如下。
ID3算法的核心思想就是在决策树中的各层分支节点上利用信息增益的方式选择属性。在树的每个节点上,将具有最高信息增益的属性作为当前节点的测试属性,使用获得的属性对样本集进行样本划分之后,系统的信息量是最小的。并确保找到一棵简单的树。
设S是s个数据样本的集合,假定类标号属性具有m个不同值,定义m个不同类Ci(i=1,2,3...m)。设Si是类Ci的样本数。对于一个给定的样本分类所需的期望信息由下式给出:
其中pi是任意样本属于Ci的概率,一般可用Si/S来估计。
设Sij是子集Sj中类Ci的样本数。根据由上划分子集的熵(熵是对事件对应的属性的不确定性的度量)由下式给出:
其中熵值越小,子集划分的纯度就越高。
由期望信息和熵值可以得到相应的信息增益值。对于在分支上将获得的信息增益可以由下面的公式得到:
ID3算法计算每个属性的信息增益。并选取具有最高增益的属性作为给定集合的测试属性,对被选择的测试属性创建一个节点,并以该属性标记,对于该属性的每个值创建一个分支,并据此划分样本。
3 利用ID3算法构造贷款风险预警分析决策树
3.1 构造决策树
抽取某银行的贷款数据,对个人贷款风险等级进行评定。为了简化仅选用4个属性值进行确定,各属性值的取值范围是这样定义的。
年龄(age):1、2、3,(1代表20-31岁,2代表32-41岁,3代表42-50岁);年收入(income):0,1,2,3(0代表100000以下,1代表100000-200000,2代表200000-300000,3代表300000以上);存款(poist):0、1、2、3(0代表100000以下,1代表100000-200000,2代表200000-300000,3代表300000以上);负债(debt):0,1(0代表有负债,1代表没有负债);风险等级(grade):A、B、C、D、E(A代表正常类,B代表关注类,C代表次级类,D代表可疑类,E代表损失类)。表3-1给出了训练样本集。
最终需要分类的属性为grade,它有5个不同的值A、B、C、D、E,A有3个样本,B有2个样本,C有2个样本,D有1个样本,E有2个样本。
为计算每个属性的信息增益,首先给定样本grade分类所需的期望信息:
age属性的样本值分布如下所示:
最后计算的信息增益是:
类似的,可以计算:
Gain(income)=0.964 Gain(poist)=0.482 Gain(debt)=0.243
由于age在四个属性中具有最高的信息增益,所以首先被选为测试属性,并据此建根节点。用age标记,并对于每个属性值,引出一个分支,数据集被分为两个子集age结点及其分支如图3.1所示。
类似的可以计算出各个属性的信息增益,经过计算可得知信息增益最大的为收入income,其次为存款poist,最后才是负债debt。按照上述过程最终可得出决策树如图3.2所示。
3.2 提取分类规则
4 结论
数据挖掘技术作为一个新兴的研究领域,其应用前景及发展空间十分广阔,特别对于银行业及银行监管部门。银行贷款风险预警系统有助于强化贷前管理。通过对贷款客户的收入、存款和负债情况分析,确定是否有风险。如果客户属于较重风险和严重风险的等级,则不予贷款;如果属于中度风险的等级,则需在贷款后加强贷后管理,关注客户经营情况,及时回收;如果属于轻微风险和无风险,则贷款给客户。
[参考文献]
[1]郭景峰,等.决策树算法的并行性研究.计算机工程,2002.
[2]贺向明.《企业财务危机预警模型基于商业银行信贷决策的分析》.2004.
[3]杨明,张载鸿.决策树学习算法ID3的研究.微机发展,2002.