迟庆云,陈光兴
(枣庄学院 计算机科学系,山东 枣庄 277102)
在现代市场经济活动中,风险已是一种客观存在的经济现象,不以人们的意志为转移.而银行信用风险作为经济风险最主要、最集中的表现形态,对整个经济活动有着极为重要的影响.银行信用活动所面对的现实经济环境,是一种不确定和充满风险的经济.在这样的状态下,只要经济运行中发生了风险,银行作为经济中的一个产业部门和资金融通机构,其信用风险也就不可避免.
对于金融这个高风险和高回报的行业,必须要能够在把风险控制到自己能承受的限度的同时,获得最大的利润.识别风险客户,判断易形成不良贷款的贷款特征,是个人信贷风险管理的重要方法.为达到这个目的,必须对客户进行科学的分析和归类,进而及时发现问题,化解风险.在这个方面,数据挖掘应用的效果将是突出的,当数据挖掘任务是分类记录或预测离散结果时,决策树更是首选对象.此外,决策树与许多其他技术相比需要的数据准备更少些.因此,决策树技术被广泛地应用到银行风险管理中.
决策树是一种类似于“枝娅”形状的“二分制”数据分析和预测方法,主要用于对数据进行归类分割和预测.决策树运用最多的是:市场营销部门根据客户的特征,对客户大市场进行“分割”,从而得到相对较小的客户群体.这样市场预算有限的情况下,可以针对性地开展市场营销活动,从而节省资金,避免浪费,提高促销活动的回报率.
提取个人贷款的一部分客户信息,利用贪心算法来创建决策树,继而训练得出一个是否为不良贷款的客户信息分类模型,这样可以帮助银行操作人员以后根据模型判断客户的贷款是否容易形成不良贷款,而不是像现在,只简单的停留于几个简单的数字指标层面上的判断标准.从而避免真正错过具有对银行有很大的贡献的个人客户.
本文采用的实证研究数据来源于某银行.该行主要的数据经过处理,个人贷款客户(以下简称个贷客户)为1 696 723人,个人贷款合同明细记录数为357 989条,数据截止日期2008年3月31日.银行储户数据库见图1所示:
图1 某银行储户数据库表
数据预处理是从大量的数据属性中提取出对目标有重要影响的属性来降低原始数据的维数,或者是处理一些不好的数据,从而改善实例数据的质量和提高数据挖掘的速度,包括数据收集与整理、清理、变换等.数据清理,主要是在数据中削除错误和不一致,并解决对象识别的过程.
个人贷款明细中,贷款余额为0的合同信息,这部分数据删除33 197条记录.银行为了帐务系统地平衡,增加了一些虚拟客户,这部分用户不是正常贷款客户,因此将该类型的记录去除掉,以精简数据量,使得数据的规律性和潜在特性更加明显.
空值的处理.在对所获取的数据进行分析时,发现某些字段值是空的,在处理这些空值时,对于一些并不对数据挖掘任务产生影响的字段,则直接删除.对于需要的字段而又有空值,分两种情况处理,一是直接删除含空值的记录,这样做的好处在于获得的挖掘结果更为实际,而且记录数的减少,可以缩小挖掘范围,避免盲目搜索,提高数据挖掘的效率和质量,不足之处在于数据量的减少会丢失大量的信息,使得数据挖掘的结果缺乏说服力.二是采取补齐空值的方法,这种方法的好处在于可以保有更大的记录数,使得信息量足够大,不足之处在于数据的真实性打折扣,从而数据挖掘的结果的信服力降低.
错误数据值的处理.如个贷客户明细中客户的性别则采用“0”表示女性,“1”来表示男性.但个别记录出现了其它值,明显错误直接删除相关记录,删除3 315行.出生日期中存在错误,删除了出生年份在1991年以后,以及出生年在1900年的纪录.
从数据分析可知,对每列带有不同数值的列是不适合用于数据挖掘.因此,数据还要进行概念分层处理.概念分层最重要的问题是:如何定一个最佳的分割阀值.为满足数据挖掘任务的需要,需要对数据进行一些变换工作.数据变换的主要工作有两大类,一是数据离散化,二是格式变换.所进行的工作具体有以下几点:
①年龄转换及离散化.数据中只提供了客户的出生日期,需要转换成年龄,并进行离散化,并按等数据语义距离将个人信贷客户划分为“起步[18,30)”、“发展[30,45)”、“稳定[45,60)”、“退休[60,80)”.在划分的过程中不采用等宽的方法按年龄划分为[0,20)、[20,40)、[40,60).
②个人月收入转换.个人月收入在原系统中是以“月收入类型”保存的,具体的值如“5 000到8 000”,现在进行了转换,增加了月收入字段,为数值型,取每个类型的中值作为收入值.其中“300以下”取值“300”;“6万以上”取“60 000”.
③对个人住房贷款,增加还贷收入比字段,并对其进行离散化.还贷收入比是用每月应还款额除以月收入.还贷收入比在(0,0.3]为“低”,(0.3,0.5]为“较低”,(0.5,0.7]为“中”,(0.7,1]为“较高”,(1,1.8)为“高”.
④贷款金额、贷款利率格式变换.将个人贷款历史交易记录中金额的小数位全部只保留2位,金额小数位超过2位对本数据挖掘任务已无意义.
根据数据挖掘任务,对银行已经分类为不良贷款的贷款进行分析,可以寻求形成不良的因素.将目标变量定为“是否不良个人贷款客户”.预测变量为:授信方式、信贷产品、贷款期限、年龄、学历、职业、还贷收入比.这里利用SPSS Clementine工具的C5.0决策树对不良贷款进行分析,对已经形成风险的个人客户进行分析,找出易形成风险的客户特征,防范风险.生成的决策树如下:
图2 不良个人贷款决策树分析图一
首先从图2中可以发现不良贷款相关度最大的是授信方式,可以看出质押方式不良贷款较少,银行应注意质押方式贷款的发放.同时可以看出信用方式发放的贷款形成不良的比例较高,因此银行在信用贷款的发放中要慎重.下面对信用贷款、保证贷款、抵押贷款进行进一步分析.
图3 不良个人贷款决策树分析图二
对信用贷款,从图3可以看出主要是信贷产品,信用卡透支不良贷款比例较高,其次是个人助学贷款.对于信用卡透支,进行进一步挖掘可以看出和月收入有较大关联.
当前各家商业银行把信用卡作为一个新的利润增长点而大力发展该项业务,并取得了较大成效,发卡量直线上升.但是风险也同时显现.从上述的挖掘结果中可以看出,信用卡形成的透支不良率较高,尤其是月收入在3~5万的高端客户中,银行应该对这些客户进行排查,对客户收入的真实性、透支的用途进行核实,判断客户是否有套现经商的现象.并在信用卡反季节产品的供应问题.提高长白山区野生山野菜在国际市场上的竞争力.
业务的发展中速度与质量并重,严格审查客户资料,对透支额度进行控制,并落实责任人.
图4 不良个人贷款决策树分析图三
对保证贷款,从图4中可以发现保证不良贷款相关度最大的是贷款产品,可以看出个人助学贷款不良比例较高,其次是个人消费和个人住房贷款,同时从图2信用贷款中也可以看到个人助学贷款不良率较高,因此银行应控制个人助学贷款的发放规模.在个人消费贷款和住房贷款中减少保证的比例增加质押、抵押的比例.
对抵押贷款,从图5可以看出贷款期限在一年以内的抵押贷款不良率较高,尤其是一年期的商用房贷款,银行应该对短期贷款增加质押贷款比例.
图5 不良个人贷款决策列表
通过对个人贷款客户及个人贷款业务数据进行了大量的统计分析和数据挖掘工作,研究结果显示不良贷款和授信方式关联度最大,银行在以后的贷款发放中要减少信用贷款的比例,加强对信用贷款的审批.还发现不良贷款和贷款人的月收入相关,低收入的,和较高收入的不良率都较高,而月收入在1 000~10 000元的客户不良率较低.银行在今后的个人贷款发展中,对收入较高的客户要严格审查其收入的真实性,以及贷款用度的真实性.
数据挖掘结果真实反映了个人贷款系统的正常运行,对银行以后发展客户,开发个人贷款新的业务,将风险降到最低具有重要的指导意义.
参考文献:
[1]侯旭鹏,江晖.数据挖掘技术在银行中的应用[J].金融电子化,2007(7).
[2]刘忠宝,尤忠彬.数据挖掘在信用卡客户营销中的运用[J].中国信用卡,2008(02).
[3]胡致杰.数据挖掘技术在银行CRM中的应用[J].华南金融电脑,2008(7).
[4]张效严,齐春莹.基于数据挖掘技术的证券客户分析系统[J].计算机应用,2008(6).