基于决策树方法的信用卡信誉检测

2011-12-27 08:16
中原工学院学报 2011年4期
关键词:信誉决策树增益

周 宓

(泉州师范学院,福建泉州 362000)

基于决策树方法的信用卡信誉检测

周 宓

(泉州师范学院,福建泉州 362000)

介绍了决策树分类方法,建立了基于决策树方法的信用卡信誉检测模型,并用该模型进行了信用卡信誉检测实验.结果表明,基于决策树的信誉检测方法可为银行信用卡风险管理提供有效信息,规避可能出现的坏账风险.

信誉检测;数据挖掘;决策树;测全率;测准率

由于我国银行信用卡业务的急剧扩展,产生了规模巨大的信用卡交易数据,迫切需要对各种数据进行有效的管理和挖掘.

数据挖掘[1](Data M ining,DM)又被称为数据库知识发现(Know ledge Discovery in Database,KDD),通常是指从数据源(如数据库、文本、图片、万维网等)中探寻有用的模式(Patterns)或知识的过程.这些模式必须有用、有潜在价值,并且是可以被理解.

信用卡数据因其巨大的数据量以及繁杂的属性信息,常规手段无法从中直接得出有效直观的规则,以降低信用卡信誉欺诈和控制信用卡坏账风险.采用数据挖掘技术,可以处理大量的信用卡业务数据,从中找出有价值的信息.

本文结合预处理过的数据,采用数据挖掘中的决策树方法进行信用卡信誉检测模型的建立,并对实验结果进行分析.

1 基于决策树的检测模型

1.1 决策树分类法

决策树学习是应用最广的归纳推理算法之一.它对数据进行分类,以达到预测的目的.决策树方法首先根据训练集数据形成决策树,如果该树不能对所有对象给出正确的分类,那么选择一些例外加入到训练集数据中,重复该过程一直到形成正确的决策集.决策树的一个非常突出的优势就是能处理非数值数据,免去了将非数值数据转化为数值数据的预处理工作,且它的分类结果通俗易懂,极易转化成SQL语句.

目前,决策树己经发展出了多种算法,如CART、ASSISTAN T、ID3、C4.5 和 C5.0 等 ,其中应用最广泛、最具有代表性的当属1986年Quinlan J R提出的ID3算法[2].

ID3算法以信息论为基础,以信息熵和信息增益作为实体选择重要属性的衡量标准.它以信息增益最大的属性作为决策树的根结点,由该结点的不同取值建立树的分枝,然后对各分枝运行同样的递归算法,从而实现对数据的分类归纳.ID3算法的基本思路如下[3]:

设S为一个包含s个数据样本的集合,每个样本具有2个不同的类别属性:正例和反例,这里将它记为Li,i=1,2.假设类别Li中的样本个数为Si,那么要对一个给定数据集进行分类所需要的信息量为:

设一个属性X取n个不同的值{x1,x2,…,xn},依据不同的取值将集合S划分为n个子集{S1,S2,…,Sn},其中Sj包含了S集合中属性X取xj值的数据样本,若属性X被选为测试属性(用于对当前样本集进行划分),设Sy为子集Sj中属于类别L i的样本集,利用属性X划分当前样本集合所需要的信息熵:

这样利用属性X对当前分支结点进行相应样本集合划分所获得的信息增益是:

信息增益是指信息熵的有效减少量,该量越高,表明目标属性在该参考属性那儿失去的信息熵越多,那么该属性越应该在决策树的上层.

ID3算法采用自顶向下不回溯策略,遍历可能的决策空间,能够保证找到一个简单的树[4].信息增益正是在ID3算法增长树的每一步中选取最佳属性的度量标准.选取属性作为决策树结点的原则是:取能够得到最大信息增益的属性来分类形成树,然后依次检测每个候选属性,用相同的处理过程递归地形成决策子树S1,S2,…,Sn.

但是ID3算法存在以下明显的缺点[5]:

(1)ID3算法采用信息增益作为属性选择的度量标准,所以它倾向于选择取值较多的属性.

(2)ID3算法只能处理离散型数据,所以它在进行构建决策树前要先对属性进行离散化处理.

针对以上不足,Quinlan J R在1993年对ID3算法进行了补充和改进,提出了后来比较流行的C4.5算法[6].

(1)C4.5算法采用信息增益比而非信息增益来选择属性,消除多值倾向,其中确定属性X本身需要的信息熵是:

则属性X相对应的信息增益比为:

采用此增益比划分属性得到决策树,其中每个结点取具有最大信息增益比的属性.该方法简单高效,结论可靠,无需很强的相关知识.

(2)C4.5算法能完成对连续属性的离散化处理.具体来说就是对某个连续属性A,找到一个最佳闭值T,根据A的取值与闭值的比较结果,建立两个分支A<=T(左支)和A>=T(右支),T为分割点,从而用一个二值离散属性A(只有两种取值A<=T、A>=T)替代A,将问题又归为离散属性的处理.这一方法既可以解决连续属性问题,又可以找到最佳分割点,同时解决了人工试验寻找最佳闭值的问题.

但是C4.5算法构建决策树的效率较低,因为它需要对数据集进行多次的扫描和排序,所以它只适合于能够驻留于内存的数据集.而C5.0不仅在执行效率上对C4.5进行了改进,而且它允许应用于大数据集上的分类预测.

1.2 模型建立

本文采用决策树方法建立信用卡信誉检测模型.模型如图1所示.

图1 决策树检测模型

2 信用卡数据描述

由于现阶段国内没有公开的信用卡持卡人交易数据,因此选取的是国外某银行发布的信用卡数据.信用卡数据由8个ASC文件组成,分别为ACCOUN T.ASC,CL IEN T.ASC,D ISP.ASC,ORDER.ASC,TRANS.ASC,LOAN.ASC,CARD.ASC,D ISTRICT.ASC,包含持卡人、持卡人对应的账户信息所包含的关联信息以及相关数据.数据关联如图2所示.

数据的初始格式为文本格式,将其预先处理存储到数据库中.本文选取了SQL server 2000,并在数据库基础上对数据进行了统计分析和属性抽取.抽取如下13个属性用于后面的数据挖掘训练及测试:

(1)Sex:顾客性别;

(2)Age:顾客年龄;

图2 数据关联图

(3)Amount of loan:顾客的借贷总额;

(4)Loan duration:借贷归还的时间区间;

(5)Type of the credit card:顾客所持有的信用卡类别;

(6)District:顾客居住的地区;

(7)M inim um amount:在某时间段内该客户所有交易中的最小额度;

(8)M axim um amount:在某时间段内该客户所有交易的最大额度;

(9)Average amount:在某时间段内该客户所有交易的平均额度;

(10)M inim um account:在某时间段内该账户所有交易的最小额度;

(11)M axim um account:在某时间段内该账户所有交易的最大额度;

(12)Average account:在某时间段内该账户所有交易的平均额度;

(13)Credit status:信用卡信誉状态,离散属性,A表示优质信誉客户,B表示非优质信誉客户.

根据数据数量,对上述提到的某时间段本文取一年为限定条件.其中第13个属性为信用卡信誉状态,并且是本文信用卡信誉检测的目标属性.

3 实验结果与分析

3.1 实验环境

本文在 W indow XP的系统环境下,使用 SQL server 2000存储实验数据,采用C5.0算法构建信用卡信誉检测模型.

3.2 评估标准

本文建立了多个信用卡信誉检测模型,并对其进行了以下测准率和测全率两方面的统计与评估.测试集数据通过信用卡信誉检测模型后,输出结果被划分为两类:A(优质信誉客户)和B(非优质信誉客户).其中A数据中包含真实信誉为A的数据 Ta以及真实信誉为B而被误判为A的数据Fa;分类结果B的数据包含 Tb和Fb,解释同理.

(1)A的测准率=Ta/(Ta+Fa);

(2)A的测全率=Ta/(Ta+Fb);

(3)B的测准率=Tb/(Tb+Fb);

(4)B的测全率=Tb/(Tb+Fa).

为了避免单次实验结果的偶然性,本文采取对数据进行多次随机分组,将每次分组得到的训练集和测试集作为多个信用卡检测模型建立方法的输入,得到各个检测模型的检测效果并进行比较和评估.

3.3 结果统计

本文建立了一个基于决策树的信誉检测模型,将数据预处理后得到的训练集中所有13个属性数据作为模型建立方法的输入,训练得到一个检测模型,以此来对测试集进行测试分类.相关实验结果如表1、表2所示.

表1 决策树中A类预测效果

表2 决策树中B类预测效果

从表1和表2可以看出,决策树方法对A类的预测效果,不论是测全率还是测准率均较高;对B类预测效果的测准率也较高.

4 结 语

本文研究了基于决策树的信用卡客户信誉检测,其目的是在银行已有的大量数据基础上建立信用卡信誉检测模型,根据当前信用卡用户特征帮助银行对用户信誉进行检测,预防未来可能出现的坏账情况.

由于信用卡数据处于不断增长中,且用户的行为有可能在未来发生改变,而本文建立的模型是基于静态数据得到的,没有考虑到实际中的动态变化.可以将用户的行为视为不断连续变化的,结合行为时效性及在线算法,建立一个能适应时间变化的信誉检测模型,是接下来需要研究的内容.

[1]Vapnik V N.The Nature of Statistical Learning Theo ry[M].New York:Sp ringer-Verlag,1995.

[2]Quinlan J R.Induction of Decision Tree[J].Machine Learning,1986,l(l):86-106.

[3]吴婷.数据挖掘在信用卡欺诈识别上的应用研究[D].南京:东南大学,2006.

[4]曹忠升,薛梅艳.基于决策树的软件分类方法[J].计算机工程,2008,34(1):56-58.

[5]于莉.常用的决策树生成算法分析[J].天津市财贸管理学院学报,2008(2):20.

[6]毛聪莉,易波.基于决策协调度的最简决策树生成算法[J].计算机工程与设计,2008,29(5):1250-1252.

Reputation Detection of Credit Card Based on Decision Tree

First,the classificationmethod of decision tree in reputation detection of credit card is introduced,and then themodel of reputation detection of credit card isestabished.Reputation detection test has been done by thismodel.Themethod p rovides effective info rmation fo r banks in the risk management of credit card,and guarantee the bank asset safety in the future.

credit classify;datamining;decision tree;sensitivity;specificity

ZHOU M i
(Quanzhou No rmal University,Quanzhou 362000,China)

TP393

A

10.3969/j.issn.1671-6906.2011.04.017

1671-6906(2011)04-0075-04

2011-07-08

周 宓(1981-),女,福建泉州人,硕士.

猜你喜欢
信誉决策树增益
以质量求发展 以信誉赢市场
基于单片机MCU的IPMI健康管理系统设计与实现
基于增益调度与光滑切换的倾转旋翼机最优控制
信誉如“金”
基于单片机的程控增益放大器设计
一种针对不均衡数据集的SVM决策树算法
基于Multisim10和AD603的程控增益放大器仿真研究
决策树和随机森林方法在管理决策中的应用
程控增益射频宽带放大器
基于决策树的出租车乘客出行目的识别