董 婷
(榆林学院信息工程学院,陕西 榆林 719000)
基于数据挖掘技术的个人信用的研究与分析
董 婷
(榆林学院信息工程学院,陕西 榆林 719000)
本文使用国内顶尖的在线数据挖掘平台(TipDM),找出对分类预测影响较大的属性进行建模,分别通过基于k-means的聚类分析和Aporiori关联规则分析等方法对样本数据进行分析预测,找到了一条最后的规则。
数据挖掘;关联规则;个人信用
本文使用国内顶尖的在线数据挖掘平台(TipDM),找出对分类预测影响较大的变量进行建模,分别通过k-means的聚类分析、Aporiori关联规则分析等方法对样本数据进行分析预测。
1.1 K-means聚类算法
K-means聚类算法是把数据点到原模型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则。K-means算法以欧式距离作为相似度测度,它是求对应某一初始聚类中心向量V最优分类,使得评价指标J最小[1]。算法采用误差平方和准则函数作为聚类准则函数。
(1)K-means聚类算法的目标函数。对于给定的一个包含n个 S维数据点的数据集,以及要生成的数据子集的数目K,K-means聚类算法将数据对象组织为K个划分。每个划分代表一个类,每个类有一个类别中心。计算该类内各点到聚类中心的距离平方和,聚类目标是使各类总的距离平方和最小[2]。
(2)K-means算法的算法流程。K-means算法是一个反复迭代过程,目的是使聚类域中所有的样品到聚类中心距离的平方和最小,算法流程如下:第一步:选定数据空间中K个对象作为初始聚类中心;第二步:根据欧氏距离最近原则分别将它们分配给与其最相似的聚类中心所代表的类;第三步:计算每个类别中所有对象的均值作为该类别的新聚类中心,计算所有样本到其所在类,并判断聚类中心和值是否发生改变,若不改变则结束,若改变则继续循环操作,直到聚类中心和值不发生改变为止[3]。
1.2 关联规则
两个或两个以上变量的取值之间存在某种规律性,就是关联。数据关联是数据库中存在的一类重要的可被发现的知识。Apriori algorithm是关联规则里一项基本算法。关联规则的目的就是在一个数据集中找出项与项之间的关系,也被称为购物蓝分析。Apriori核心算法过程如下: 第一步:扫描数据库计算出各个项集的支持度,得到频繁项集的集合;第二步:做一个(k-2)JOIN运算得到 2个只有一个项不同的属于的频集;第三步:通过扫描数据库,计算中各个项集的支持度,将中不满足支持度的项集去掉[4]。
本文通过对300条样本数据的年龄、姓名、地区、收入、是否结婚、是否有孩子、是否有汽车、是否有抵押等参数进行分析,通过关联规则对样本中的某些变量进行分析,找到了一条最优规则;通过聚类分析算法对样本整体和某一变量进行聚类分析,分析出各簇中的样本数与百分比。
3.1 利用K-means算法对样本数据进行分析评估
k均值聚类迭代次数为3,集群内误差平方和为775.1756576878267,用均值替代的全局缺省值,得到各簇分析统计结果如表1。
表1
3.2 利用Apriori关联规则算法对样本数据进行分析评估
样本的最小支持度为0.1,置信度为0.9,产生的项集和其样本数量如表2。
表2
Apriori关联规则分析结果如下:
children=NO mortgage=NO pep=NO 49 ==> married=YES 48<conf:(0.98)> lift:(1.45) lev:(0.05) [15] conv:(8
现阶段,信贷业务的发展迅速,针对企业的信用评级已逐步完善,然而,针对个人的信用评级却相对欠缺。本次试验是使用国内顶尖的数据挖掘平台(tipdm)主要是针对个人信用评价的样本数据的某些变量进行了k-means聚类分析和关联规则分析,通过这次试验我认为k-means聚类算法是一个NP难优化问题,无法获得全局最优。
通过对样本数据分析评估发现,在个人信用评级中信用最好的一条规则是没有孩子、没有抵押或负债,并且已经结婚。
[1]杜广龙.面向多自由度机器人的非受限智能人机交互的研究[D].华南理工大学,2013.
[2]安璐.异构蜂窝网络高能效节点部署研究[D].北京邮电大学,2015.
[3]任超.基于智能计算的预测模型研究及其在公共危机管理中的应用[D].兰州大学,2013.
[4]陈雪萍.数据挖掘技术在高校教务管理中的应用研究[D].广西师范大学,2014.
项目:2014榆林科技局项目(2014cxy-09-6)
10.16640/j.cnki.37-1222/t.2016.22.129