基于组合分类器的信用卡信誉检测方法研究

2012-12-27 09:15
中原工学院学报 2012年5期
关键词:信誉决策树分类器

周 宓

(泉州师范学院,福建 泉州,362000)

基于组合分类器的信用卡信誉检测方法研究

周 宓

(泉州师范学院,福建 泉州,362000)

给出了支持向量机的信誉检测模型和基于决策树的信誉检测模型的建立方法,并在这2种单一分类器的基础上,归纳总结了支持向量机方法和决策树方法对信用卡信誉检测的偏好特性,提出了一种基于偏好特性的组合分类模型建立方法.

信誉检测;支持向量机;决策树;组合分类;测全率;测准率

信用卡作为一种先进的金融支付工具,因其操作便捷、结算安全的特点得到了快速的发展.如何利用客户的基本信息及交易行为信息,演绎客户信用卡的交易行为模式,识别和控制信用卡交易中的恶意提现以及恶意透支行为,检测信用卡账户的信誉水平,以更好地为优质客户提供满意的服务,同时降低非优质客户所带来的坏账风险,是我国银行信用卡风险管理迫切需要解决的问题.

本文给出了基于支持向量机的信誉检测模型和基于决策树的信誉检测模型的建立方法,并在上述2种单一分类器的基础上,归纳总结了支持向量机方法和决策树方法对信用卡信誉检测的偏好特性,提出了一种基于偏好特性的组合分类模型建立方法,并进行了实验分析.

1 基于支持向量机和决策树的组合分类器模型

1.1 支持向量机分类法

概括地说,支持向量机就是首先通过用内积函数定义的非线性变换将输入空间变换到一个高维空间,在这个空间中求最优分类面的一种线性分类器[1].SVM分类函数形式上类似于一个神经网络,输入为d维特征向量,输出为中间节点的线性组合,每个中间节点对应一个支持向量.由于SVM的求解最后转化成二次规划问题的求解,因此SVM的解是全局唯一的最优解.

本文中对信誉检测数据抽取了13个属性,但每个属性对信誉检测的影响并不一致,甚至有可能会有干扰检测效果的不良影响.因此,先采用巴氏(Bhattacharyya)距离法[2]和relief算法[3]对多个属性进行处理,去除无关属性.

1.2 决策树分类法

决策树学习是应用最广的归纳推理算法之一,它对数据进行分类,以达到预测的目的.决策树方法首先根据训练集数据形成决策树,如果该树不能对所有对象给出正确的分类,那么选择一些例外加入到训练集数据中,重复该过程,一直到形成正确的决策集[4].本文采用的是C5.0算法.

1.3 组合分类器法

组合分类器法是多种学习算法的组合,是目前比较流行的机器学习算法之一,其主要目的是提升分类的准确率.现常用的组合模型多为2层结构:第一层为多个不同的学习算法独立地对训练样本集进行学习训练;第二层为一个分类器组合,它对第一层中各分类器的输出进行某种组合(多为线性组合)[5].

组合分类器模型会出现多个分类结果,如何处理和组合成员分类器的分类结果并对其进行融合,是组合分类器研究中的一个重要部分.目前,对成员分类器的分类结果[6]的处理方法主要分为投票法和非投票法.

投票法是对各分类器的分类结果进行融合的最简单和最常用的方法.它对第一层各单分类器的分类结果进行投票,票数最多的分类结果即为最终结果;它也可根据单分类器对最终结果的重要性,为单分类器的分类预测结果赋予不同的权重.

如果每个单分类器不是简单地给出分类类别,而是给出分类样本属于某一类的概率,则可使用非投票法.对每个类别,设单分类器将待分类样本分到某类别的概率是Pi,则非投票法的概率公式是1/L*∑Pi(i=1,2,…,L),其中L 为单分类器的数量[7].

1.4 信用卡数据来源与数据描述

由于当前国内尚没有公开的信用卡持卡人的交易数据,因此本文的实验数据选取自国外某银行发布的信用卡数据.信用卡数据由8个ASC文件组成,分别为 ACCOUNT.ASC,CLIENT.ASC,DISP.ASC,ORDER.ASC,TRANS.ASC,LOAN.ASC,CARD.ASC,DISTRICT.ASC,包含持卡人以及持卡人对应的账户信息所包含的关联信息以及相关数据.数据关联图如图1所示.

图1 数据关联图

数据的初始格式为文本格式,本文选取SQL server 2000,将其预先处理并存储到数据库中,并在此基础上对数据进行统计分析和属性抽取,抽取了如下13个属性用于后面的数据挖掘训练及测试:

(1)Sex:客户性别;

(2)Age:客户年龄;

(3)Amount of loan:客户的借贷总额;

(4)Loan duration:借贷归还的时间区间;

(5)Type of the credit card:客户所持有的信用卡类别;

(6)District:客户居住的地区;

(7)Minimum amount:在某时间段内该客户所有交易中的最小额度;

(8)Maximum amount:在某时间段内该客户所有交易中的最大额度;

(9)Average amount:在某时间段内该客户所有交易的平均额度;

(10)Minimum account:在某时间段内该账户所有交易中的最小额度;

(11)Maximum account:在某时间段内该账户所有交易中的最大额度;

(12)Average account:在某时间段内该账户所有交易的平均额度;

(13)Credit status:信用卡信誉状态.该属性的值是离散值,有2种取值,分别为A和B.其中,A表示该客户是优质信誉客户,B表示该客户是非优质信誉客户.

根据数据数量,前面提到的某时间段本文取1年.其中,第13个属性为信用卡信誉状态,并且是本文信用卡信誉检测的目标属性.

1.5 建立模型

本文采用支持向量机和决策树方法的组合分类器法建立信用卡信誉检测模型.模型图如图2所示.

图2 组合分类器模型

2 实验结果与分析

2.1 实验环境

本文在window XP的系统环境下,使用SQL server 2000存储实验数据,以C#.net作为编程语言搭建实验环境,构建信用卡信誉检测模型,每一种模型分别做了6次实验.其中支持向量机的模型建立结合了LIBSVM的使用.

通过数据预处理,得到234组用于数据挖掘的有效数据,其中优质信誉客户即A类数据有203组,非优质信誉客户即B类数据有31组.通过非对称信息处理,数据训练集包含51组数据,其中A类数据30组,B类数据21组;数据测试集包含183组数据,其中A类数据173组,B类数据10组.

2.2 评估标准

测试集数据通过信用卡信誉检测模型后,输出结果被划分为2类:A(优质信誉客户)和B(非优质信誉客户).其中分类结果A中包含真实信誉为A的数据Ta以及真实信誉为B被误判为A的数据Fa,分类结果B中包含包含真实信誉为B的数据Tb以及真实信誉为A被误判为B的数据Fb.

A类的测准率=Ta/(Ta+Fa)

A类的测全率=Ta/(Ta+Fb)

B类的测准率=Tb/(Tb+Fb)

B类的测全率=Tb/(Tb+Fa)

为了避免单次实验结果的偶然性,采取对数据进行随机分组的方法,将每次分组得到的训练集和测试集作为信用卡检测模型的输入,得到各个检测模型的检测结果并进行评估和比较.

2.3 结果统计

2.3.1 改进的SVM模型实验结果分析

建立巴氏距离和relief结合的改进的SVM检测模型.其中,巴氏距离算法用于排除与信誉检测关联最小的属性.在此结果的基础上,再结合relief算法,综合考虑属性间的关联性,找出利于信誉检测的属性子集.得到的相关实验结果中,A类的测全率均在85%以上,测准率甚至达到了99%以上;B类的测全率都在90%以上,而测准率只在27%~45%之间.

这说明改进的SVM模型对A类数据的分类效果较好,测全率和测准率都较高,而且对B类数据的测全率也较高,能较好地覆盖B类数据.但是,它对B类数据的测准率却较低.

2.3.2 基于决策树的信誉检测模型实验结果分析

建立基于决策树的信誉检测模型,将数据预处理后得到的训练集中所有12个属性数据作为模型的输入,训练得到一个检测模型,以此来对测试集进行测试分类.相关实验结果中,A类的测全率最低为64.16%、最高为94.21%,均值为88.39%,测准率都在98%~99%之间;B类的测全率在80%~90%之间,分布较均匀,而测准率分别为40%、44.44%、12.67%、34.78%、42.1%、44.44%.

通过以上2种实验结果的比较可以看出,决策树模型对A类数据的预测效果不论在测全率还是测准率方面均劣于改进的SVM模型,但是该模型对B类数据的测准率比改进的SVM模型高.在组合分类模型中,将考虑这一特性.

2.3.3 组合分类模型实验结果分析

改进的SVM模型对A类数据的分类效果比决策树模型的分类效果好,测全率和测准率都较高,而且对B类数据的测全率也较高,说明改进的SVM模型能较好地覆盖B类数据,但它对B类数据的测准率却很低.相比而言,决策树模型对B类数据的测准率相对较高.所以,组合模型将先采用改进的SVM信誉检测模型来对测试集进行第一次检测,将检测类别为B的数据再经过决策树信誉检测模型进行第二次检测.实验结果中,A类数据的测全率均保持在94%以上,测准率在98.78%以上;B类数据的测全率分别为80%、80%、90%、80%、80%、90%,测准率分别为44.44%、50%、47.36%、44.44%、65.15%、47.36%.

对改进的SVM模型、决策树模型和组合分类模型的实验结果进行统计,得出实验图,如图3-图6所示.

图33种模型对A类数据的测全率比较图

从图3和图4可以看出,组合分类模型对A类数据的分类效果无论在测准率和测全率上都是比较好的,说明组合分类模型则是一种两方面都表现优秀的折衷算法.

从图5和图6可以看出,对于B类数据,组合分类模型的测全率仅次于改进的SVM模型,但是它的测准率却是最高的,说明它对非优质信誉客户的检测准确且全面.

3 结 语

本文通过结合改进的支持向量机和决策树方法,建立了一个基于组合分类器的信用卡信誉检测模型,可实现准确、有效的客户信誉检测,为银行分析和进一步的数据挖掘等工作提供支持.这不但在理论上丰富了信誉检测与数据挖掘领域的研究,而且在实际上可为银行信用卡风险管理提供有效信息,对银行在以客户为中心的管理理念下,利用信息技术提高银行竞争力,具有一定的指导意义.

[1] 曹小娟,王小明.金融工程的支持向量机方法[M].上海:上海财经大学出版社,2007.

[2] 郑俊翔,宣国荣,柴佩琪.巴氏距离和K-L交换结合的特征选择[J].微型电脑应用,2004(12):12-13.

[3] Kononenko I.Estimating Attributes:Analysis and Extensions of Relief[C]//Proceedings of Eurpopean Conference on Machine Learning.Berlin:Springer-Verlag,1994:171-182.

[4] Quinlan J R.Induction of Decision Tree[J].Machine Learning,1986,l(l):86-106.

[5] Mitchell T M.机器学习[M].曾华军,张银奎,等,译.北京:机械工业出版社,2003.

[6] Anderson E,Weitz B.Determinants of Continuity in Congenital Industrial Channel Dyads[J].Marketing Science,1989,8(4):310-323.

[7] 庄玮.基于数据挖掘的信用卡欺诈行为识别模型的研究[D].南京:南京航空航天大学,2008.

Study on Reputation Detection of Credit Card Based on SVM

ZHOU Mi
(Quanzhou Normal University,Quanzhou 362000,China)

The methods to build a SVM detection model and a decision tree-based detection model are given out,and based on the two single classifier considering the classification preferences of the two models,a combination model to get better classification effect is built.

credit classify;support vector machine;decision tree;combined classification;sensitivity;specificity

TP18;TP274

A

10.3969/j.issn.1671-6906.2012.05.016

1671-6906(2012)05-0068-05

2012-07-06

周 宓(1981-),女,福建泉州人,讲师,硕士.

猜你喜欢
信誉决策树分类器
以质量求发展 以信誉赢市场
基于单片机MCU的IPMI健康管理系统设计与实现
信誉如“金”
基于特征选择的SVM选择性集成学习方法
基于深度优先随机森林分类器的目标检测
决策树和随机森林方法在管理决策中的应用
基于差异性测度的遥感自适应分类器选择
基于决策树的出租车乘客出行目的识别
江苏德盛德旺食品:信誉为翅飞五洲
基于肺癌CT的决策树模型在肺癌诊断中的应用