面向非均衡数据类的朴素贝叶斯改进算法

2019-09-02 03:28谭志侯涛文
现代电子技术 2019年9期
关键词:数据挖掘

谭志 侯涛文

摘  要: 针对朴素贝叶斯分类器存在对非均衡样本分类时,易将少数类样本分到多数类的问题,利用感受性曲线的性质和深度特征加权的思想,提出一种面向非均衡数据类的朴素贝叶斯加权算法(DA?WNB)。为了验证该算法对不平衡数据分类的有效性,实验结果以AUC、真正类率、整体精度为指标,仿真结果表明,该算法能提高少数类分类准确率(最高达60%),且能保持较高的整体精度。

关键词: 朴素贝叶斯; 监督学习; 感受性曲线; 非均衡样本; 深度特征加权; 数据挖掘

中图分类号: TN911.1?34; TP3                    文献标识码: A                      文章编号: 1004?373X(2019)09?0118?05

An improved naive Bayesian algorithm for unbalanced data classes

TAN Zhi, HOU Taowen

(Beijing University of Civil Engineering and Architecture, Beijing 100044, China)

Abstract: Naive Bayesian classifier is easy to divide minority?class samples into majority class samples while classifying unbalanced samples. In view of this phenomenon, an deep AUC (area under curve) weighted naive Bayesian (DA?WNB) algorithm for unbalanced data classes is proposed, which is based on property of receiver operating characteristic curve and thought of deep feature weighting. In order to verify the effectiveness of the algorithm for unbalanced data classification, the AUC, true positive rate (TPR) and overall accuracy are taken as the indicators for experiments. The simulation results show that the algorithm can improve the minority?class classification accuracy highest to 60%, and can maintain the high overall accuracy.

Keywords: naive Bayesian; supervised learning; receiver operating characteristic curve; unbalanced sample; deep feature weighting; data mining

0  引  言

樸素贝叶斯(Naive Bayesian,NB)是现今最普遍的监督学习分类算法,以计算成本低、运行效率高著称,被广泛用到文本分类、信息检索、医疗诊断等领域。NB基于一个强独立性假设,具体指各特征向量相互独立且同等重要,这导致分类时损失大量有益信息。

研究者为了削弱独立性假设造成的不良影响,提出不同形式加权贝叶斯算法。加权算法的关键是利用指标衡量各个特征重要性,然后将指标转化为权值形式。文献[1]提出用相对熵计算每个属性在分类中的重要程度。文献[2]提出用差分进化算法搜索出最佳权值。文献[3]通过多元线性回归模型分析各特征之间的联系,再将相关度转化为权值系数。Kim T于2016年提出NB加权算法是为了最大化整体分类精度,没有考虑非均衡样本分类问题。

非均衡分类问题始于二分类任务中数据存在偏态的问题[4],即在二分类任务中,一类的样本数目远远大于另一类的样本数目。传统监督学习分类算法都假设类的样本数量大致相同,在对非均衡样本分类时,往往易将少数类样本分到多数类,导致分类器性能大大降低。其原因是分类器训练是为了最大化整体精度,当多数类样本准确识别时,错分少数类样本不影响训练效果。现实中,数据类经常表现出非均衡的状态[5],比如垃圾邮件多于正常邮件,谣言多于真相等。为了精准识别少数类样本,众多研究者提出了各种改进方法,主要分为重采样和代价敏感学习算法两类。文献[6]提出从不平衡数据特征研究非均衡数据,并讨论非均衡数据分类器的评价指标,文献[7]通过集成算法解决不平衡问题,Kim S基于NB提出在计算似然概率时,用泊松分布代替多项式分布,同时考虑样本大小标准化对分类结果的影响。Rennie等提出3种规范数据集的方法,并通过实验确定了三种方法的实用性顺序。代价敏感学习被结合到各种经典分类器,比如决策树[8]、支持向量机[9]。朴素贝叶斯加权算法在不平衡数据分类领域的应用仍未被挖掘。

Kim T于2016年提出了一种高效且针对非均衡数据集的贝叶斯加权算法[10]。文献[11]利用感受性曲线对偏态数据集不敏感的性质,实现了样本重要特征选取和特征加权。本文在Kim T提出的算法基础上结合深度特征加权的思想[12],使算法原理更贴近实际,进一步减弱独立性假设对非均衡样本分类的影响。

1  研究背景

1.1  朴素贝叶斯

朴素贝叶斯是一个简单高效的分类模型,分类原理是将测试样本[x]转化为数据特征向量[a1,a2,…,am],然后通过最大似然估计实现分类,如下:

式中:[cx]为NB分类器预测的类别;[Pc]称为先验概率,为[c]类别样本个数占所有类别样本个数的百分比;[Pa1,a2,…,amc]称为似然概率,指在[c]类中各个特征同时出现的概率。先验概率和似然概率通过训练样本得到。朴素贝叶斯分类器假设各个特征相互独立且同等重要,得出:

式中[Paic]在数据离散时采取多项式分布形式计算,在数据连续时采用高斯分布模拟。虽然独立性假设不切实际,但提出NB多数情况下能准确分类的原因是分类判别式只作为区别函数,不代表实际发生概率。

1.2  深度特征加权朴素贝叶斯(D?WNB)

加权贝叶斯分类器是基于不同特征重要性有差异的事实,通过训练样本,得到不同特征对应的权值,代入式(3)实现分类。

文献[12]提出深度特征加权贝叶斯分类器,指出在对离散型数据分类时,大多数改进形式都只对条件概率的公式进行了加权,没有将训练得到的权值加入到条件概率的计算当中,为更好利用权值中所含信息,形式变换为:

式中:[naic]指第[c]类中[ai]的个数;[nc]指[c]类别中所有样本的个数;[ni]指第[i]个特征向量不同特征值的个数,它与分子中“1”是为了避免零概率问题。其中,[Wi]通过特征抽取得到,选取的特征[Wi=2],其他特征[Wi=1],这加强了重要特征在预测中的作用,降低了朴素贝叶斯假设的影响。

1.3  AUC加权朴素贝叶斯

真阳性率(TPR)和假阳性率(FPR)是描述感受性曲线(Receiver Operating Characteristic Curve,ROC)和AUC(Area Under Curve)的重要指标。

True Positive(TP),指样本正确类别为正类,分类器预测类别为正类,TPR指TP的个数占正类总数的比例;False Positive(FP),指样本正确类别为负类,但分类器预测类别为正类的样本,FPR指FP的个数占负类总数的比例。在不同阈值(区别正样本、负样本的得分临界值)的情况下,得到不同的TPR和FPR,再以TPR为纵坐标,FPR为横坐标,得到一个经过(0,0),(1,1)的曲线,即为ROC,AUC指ROC曲線下的面积。二者常被用来评价二值分类器的优劣。

ROC曲线具有三大优点[11]:

1) ROC曲线下面积越大,即AUC越大,其分类能力越强;

2) ROC曲线下的面积可以转化为标量AUC,能够体现ROC曲线的分类能力;

3) 当测试样本中正类和负类样本数比变化时,测试结果ROC曲线基本保持不变,能体现AUC作为非均衡样本分类器性能指标的稳定性。

根据以上性质,Kim T等提出AUC加权朴素贝叶斯(AUC Wighted Naive Bayesian,A?WNB),该算法将单个特征作为整个训练样本,用NB训练出每个特征对应的[AUCi],然后通过式(6)或式(7)计算似然概率,代入式(1)实现分类。

对离散型数据集:

2  提出的DA?WNB算法

现实中存在离散型数据和连续型数据,所以为提高数据模拟精度和算法实用性,本文从这两方面提出DA?WNB。

2.1  离散型数据集

此时函数随着自变量[Wi]的增加而增加,相当于[Wi]越大,函数值越接近[fai-],在计算[cx]时,越接近[fai-]的函数值所取的指数权值[Wi]越大。

综上可得,深度特征加权朴素贝叶斯的本质是权值越大的特征,似然概率越接近该特征值发生的频率,在判别式计算中起到的作用越大,即该特征对预测实际类别的重要性越大。所以在A?WNB的基础上,将各个特征对应的[AUCi]形式作为权值加入到特征值条件概率计算之中,更能突出不同特征在分类中的不同重要性,使算法思想更符合实际。

2.2  连续型数据集

式(7)中标准差乘[1-AUCi]的原因如下:

1) AUC值越大,标准差越小,同一特征值[ai]计算得出的似然概率会增大,AUC值小则增长幅度较小,能突出AUC大的特征在判别式计算中的重要性;

2) 这种转变能够扩大判别式计算下同一特征值在不同类别中的似然概率差值[5]。若在式(7)基础上加入指数权值,可继续扩大该优势。

将深度特征加权思想应用于A?WNB中,提出两种形式的DA?WNB(Deep AUC Weighting Naive Bayesian,深度特征AUC加权朴素贝叶斯)算法。具体形式见式(9)~式(12),所提出算法与其他四类算法的关系如图1所示。

图1  五种算法的关系

采取这两种形式的原因如下:将权值扩大到1~2的范围,更易区分重要特征和次要特征;两种权值比较进行实验,判断权值变化程度大的DA1?WNB形式是否起到更好的效果。

3  实验与分析

3.1  仿真实验

非均衡数据大多为两类,因此从UCI机器学习库中选取13个数据集进行二分类实验,规定正类为少数类。这些数据集来源于众多领域,有图像、医疗,邮件等,具体情况如表1所示。为简化训练复杂度,同时保证分类的精度,特征抽取时,舍去不利于分类的特征(对应AUC值低于50%)。实验结果如表2所示,表中加粗数字为行中最大值。AUC,TPR,ACC(精度)通过文献[11]中的方法计算。

表1  数据具体描述

3.2  结果分析

1) 从表2可看出,DA1?WNB和A?WNB的少数类分类准确率较NB有显著提高,9个样本TPR超过了NB,7个样本AUC超过了NB。但其对样本总数少的样本分类时,如样本3,结果不如预期。主要原因是,少量数据时主成分提取不准确,两个加权算法扩大了次要特征的作用,导致了TPR降低。

2) TPR的增加伴随着FPR的增加,这会导致分类器整体精度的降低,最佳结果是在TPR增长相同的情况下,FPR增加较少,精度降低较少。相对于NB,A?WNB对一些数据集分类时,极大降低了精度,比如第6和第9个样本(最高损失14.3%),而DA?WNB 对13个样本分类时都未表现出精度失衡(最高损失5.4%)。这说明DA?WNB稳定性强于A?WNB。

表2  实验结果

3) 较DA1?WNB,DA2?WNB在对第2和第9个样本分类时TPR失常,其他表现持平。观察发现,两样本在NB分类下TPR较低。这说明主成分抽取准确,但其没有起到突出主成分的作用。主要原因在于,两样本中只有个别重要特征对应的AUC较大,其他都接近50%。因此,权值变化程度大的DA1?WNB算法能避免损失主成分的重要信息,更贴近实际。

4  结  语

在实际应用中,数据分布往往是偏态的。朴素贝叶斯对偏态数据分类时,结果易倾向于多数类,导致少数类准确率降低。本文针对此问题,综合AUC对偏态样本集不敏感的性质和深度利用权值信息的思想,提出加权形式贝叶斯算法DA?WNB。结果显示,DA?WNB有效地提高了少数类分类的准确率,且较A?WNB不易总体精度失常,同时证明了权值变化程度较大的DA1?WNB有利于保留主成分重要信息。算法不足在于未能准确提取小样本集主要特征。今后将利用多项指标得出权值,并挖掘主要特征与权值之间的关系,这将更大程度减弱朴素贝叶斯独立性假设的影响。

参考文献

[1] LEE C H, GUTIERREZ F, DOU D. Calculating feature weights in naive Bayes with Kullback?Leibler measure [C]// 2011 IEEE International Conference on Data Mining. Vancouver: IEEE, 2011: 1146?1151.

[2] WU J, CAI Z. Attribute weighting via differential evolution algorithm for attribute weighted naive Bayes (WNB) [J]. Journal of computational information systems, 2011, 7(5): 1672?1679.

[3] WANG X, SUN X. An improved weighted naive Bayesian classification algorithm based on multivariable linear regression model [C]// 2017 International Symposium on Computational Intelligence and Design. Hangzhou: IEEE, 2017: 219?222.

[4] KRAWCZYK B. Learning from imbalanced data: open challenges and future directions [J]. Progress in artificial intelligence, 2016, 5(4): 1?12.

[5] LEE J S, ZHU D. When costs are unequal and unknown: a subtree grafting approach for unbalanced data classification [J]. Decision sciences, 2011, 42(4): 803?829.

[6] PRATI R C, BATISTA G E A P A, SILVA D F. Class imba?lance revisited: a new experimental setup to assess the performance of treatment methods [J]. Knowledge & information systems, 2015, 45(1): 1?24.

[7] GALAR M, FERNANDEZ A, BARRENECHEA E, et al. A review on ensembles for the class imbalance problem: bagging, boosting, and hybrid?based approaches [J]. IEEE transactions on systems man & cybernetics Part C, 2012, 42(4): 463?484.

[8] KRAWCZYK B, WONIAK M, SCHAEFER G. Cost?sensitive decision tree ensembles for effective imbalanced classification [J]. Applied soft computing, 2014, 14(1): 554?562.

[9] YAN Q, XIA S, MENG F. Optimizing cost?sensitive SVM for imbalanced data: connecting cluster to classification [EB/OL]. [2017?11?05]. https://arxiv.org/pdf/1702.01504.pdf.

[10] KIM T, CHUNG B D, LEE J S. Incorporating receiver opera?ting characteristics into naive Bayes for unbalanced data classification [J]. Computing, 2016 (3): 1?16.

[11] KRUPINSKI E A. Receiver operating characteristic (ROC) analysis [J]. Frontline learning research, 2017, 5(3): 31?42.

[12] JIANG L, LI C, WANG S, et al. Deep feature weighting for naive Bayes and its application to text classification [J]. Engineering applications of artificial intelligence, 2016, 52(C): 26?39.

猜你喜欢
数据挖掘
探讨人工智能与数据挖掘发展趋势
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
基于并行计算的大数据挖掘在电网中的应用
数据挖掘技术在中医诊疗数据分析中的应用
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索
数据挖掘技术综述与应用
基于GPGPU的离散数据挖掘研究
利用数据挖掘技术实现LIS数据共享的开发实践
高级数据挖掘与应用国际学术会议