段继磊
摘要:介绍了朴素贝叶斯分类算法的理论,研究了朴素贝叶斯算法在信用卡金融数据挖掘中的应用。实验结果表明了朴素贝叶斯算法是一种非常有效的算法。
关键词:朴素贝叶斯算法;分类;数据
Abstract:In this paper, the na?ve bayes classification algorithm theory is introduced. The application of na?ve bayes classification algorithm in credit financial data mining is researched. The experimental results indicate that the na?ve bayes classification algorithm is an effective algorithm.
Key words:Na?ve bayes algorithm; Data mining; Credit
一、引言
近年來,数据挖掘技术在金融领域中的应用备受关注[1]。朴素贝叶斯分类(Naive Bayes,NB)方法[2,3]是一种著名的数据挖掘算法,它基于贝叶斯理论,具有简单而有效的特征。本文首先说明了朴素贝叶斯分类算法的原理和方法,而后研究了朴素贝叶斯算法在信用卡金融数据挖掘中的应用,实验结果表明了朴素贝叶斯算法是一种非常有效的分类算法。
二、朴素贝叶斯分类算法
对于任意样本 ,其特征为 ,特征中 表示样本 中出现的第i个特征项。样本的类别为k个,即 。假设在给定的条件下,特征项之间不存在任何依赖关系,都是相互独立的。那么根据朴素贝叶斯分类算法,样本 与已知各类的条件概率 定义为: (1)
因为 对计算结果没有影响,所以可以省略。而 (2)
其中, 和 可以通过如下的公式来估计: (3) (4)
其中 表示类 中的样本数目, 为特征项 在类 中出现的词频总数。
对样本 进行分类,就是按公式(1)计算所有样本类在给定 情况下的概率,概率值最大的那个类就是 所在的类,即:
(5)
三、实验分析
(一) 数据集
实验中采用的数据集是在UCI数据库[4]中的Credit Approval数据集。Credit Approval数据集包括了16个属性,共有690个样本。
(二)评价指标
本文采用精度来衡量分类算法的性能。分类器对样本的分类结果有4种情况。
TP:被正确地分类为属于此类别的样本数量。
TN:被正确地分类为不属于此类别的样本数量。
FP:被错误地分类为属于此类别的样本数量。
FN:被错误地分类为不属于此类别的样本数量。
根据以上4种情况,分类性能可以按照精度来评价,精度的定义如下:
(6)
(三) 分类结果
对于分类性能的评价方法,实验中采用的是十折交叉验证法。作为对比分析,实验中也采用ZeroR算法对数据集进行分类,得到其分类结果。朴素贝叶斯分类算法、ZeroR算法在Credit Approval数据集上的分类精度如图1所示。
图1 两种算法的分类精度比较
图1中的实验结果表明朴素贝叶斯算法的分类精度高于ZeroR的分类精度。朴素贝叶斯算法在数据集上得到的分类精度是77.6%,而ZeroR算法的分类精度为55.5%。
四、结论
本文介绍了朴素贝叶斯分类算法的原理和方法,研究了朴素贝叶斯分类算法在金融数据挖掘中的应用实例。实验结果表明了朴素贝叶斯分类算法是一种有效的分类方法,在金融数据挖掘中有很好的应用价值。
参考文献:
[1] 马超群.金融数据挖掘,科学出版社, 2007.
[2]Lewis, D.D. Naive (Bayes) at forty: the independence assumption in information retrieval. In: The 10th Euro-pean Conference on Machine Learning, New York: Springer. 1998: 4-15.
[3] 余民杰,王元亮. 朴素贝叶斯分类算法研究,商情, 2012(8):226-227.
[4] BLAKE C L, MERZ C J. UCI repository of machine learning databases. http://www.ics.uci.edu/~mlearn/MLRepository.html.2016.