张步良
(重庆交通大学信息科学与工程学院,重庆 400074)
朴素贝叶斯分类器是基于条件独立性的,但条件独立性是十分苛刻的。为了进一步提高分类正确的概率,给朴素贝叶斯分类器加权是一种可行的办法。加权朴素贝叶斯分类器有很多,如基于粗糙集的朴素贝叶斯加权[1]、基于属性相关性的加权[2]等。由于朴素贝叶斯是基于概率的,所以用每种属性分类成功的概率作为其加权也是可行的[3-20]。
设D是具有有限数量实例的训练集,A={A1,A2…An}是n个有限的属性。一个实例d∈D用向量 a=〈a1,a2…an〉描述,其中 ai是属性 Ai的当前取值。类别属性用c表示,c={c1,c2…cn}是个类别。函数dom(Ai)为取得属性A的定义域集合。则当
成立,即预测实例d属于在属性给定条件下后验概率最大的类别时,预测的正确率最大。但是,由于式(1)的后验概率难以计算,因此朴素贝叶斯分类器引进了下列假设:在给定类别c的条件下,所有的属性 Ai相互独立,即所谓“朴素贝叶斯假设”,所以对类别c进行预测的朴素贝叶斯分类器[3-4]为
在朴素贝叶斯分类器的基础上给每个属性加上权重就得到加权朴素贝叶斯模型:
其中wi代表属性Ai的权值。
因为在朴素贝叶斯分类中是每个属性相乘才得出最后概率,所以对式(3)取对数就可到一种线性模型:
其中式(3)的wi就成了线性模型的加权系数。
朴素贝叶斯分类属性之间要求是相互独立的,因此本文对每个属性分别做一次朴素贝叶斯分类,得到1个分类正确的概率a。这个概率a可以看成该属性的可信度,因此用这个概率为朴素贝叶斯加权是可行的。
归一化方法很多,本文用到的是[5]
其中:ai是每个属性i的分类正确率;n是属性的个数;pi是权重。因为ai为正,所以pi为正,且。由于pi值太小,本文取权重wi=n*pi。
1)对每个属性用朴素贝叶斯分类器给样本分类,得到每个属性的分类正确率ai。
2)归一化 ai,得到加权朴素贝叶斯的权重wi。
3)把wi加权到朴素贝叶斯中,得到新的加权朴素贝叶斯分类器。
表1中数据来源于weka和uci数据集,都是经过交叉检验后的分类结果。从表1中可看出该加权方法提高了分类的正确率,且朴素贝叶斯分类成功率越低,提高就越多。然后本文多次对已加权的朴素贝叶斯进行再加权,得到的结果与第1次相比提高不大,有时反而会降低分类成功率,因此多次加权没有太多的提高。
表1 分类结果对比 %
提出用朴素贝叶斯分类成功的概率来作为加权的权重,得到了比较理想的结果。时间复杂度在线性复杂度的范围内,因此计算量比较小,计算速度较快。本文只是把朴素贝叶斯分类成功的概率作为权重,如何进一步利用概率来提高分类成功率,还有待进一步研究。
[1]王国才,张聪.一种基于粗糙集的特征加权朴素贝叶斯分类器[J].重庆理工大学学报:自然科学版,2010,24(7):86-90.
[2]ZHANG Wen,ZHANG Huaxiang.Naive Bayesian ensemble classifier using attribute weighting[J].Computer Engineering and Applications,2010,46(29):144-146.
[3]张聪.基于信度网的不确定性推理、学习与分类研究[D].重庆:重庆大学,2005.
[4]王双成.贝叶斯网络学习、推理与应用[M].上海:立信会计出版社,2010.
[5]李雪莲.基于PLS的加权朴素贝叶斯分类测试算法[J].电子质量,2010(7):22-25.
[6]陈晨,董倩,吴玉洁.基于贝叶斯分类的农作物产品质量挖掘研究[J].安徽农业科学,2011(12):7448-7449.
[7]卢晶颖.具有Rao简单结构的增长曲线模型关于共轭先验的BAYES分析[J].四川兵工学报,2010(2):142-143.
[8]史奎桥,胡永军,张德来,等.三代棉铃虫发生程度与气象条件关系的贝叶斯判别[J].安徽农业科学,2009(33):16417-16418.
[9]杜涛,唐克,王存威.基于分层贝叶斯的末敏弹系统使用可靠性评估[J].四川兵工学报,2010(2):27-28.
[10]张兢,候旭东,吕和胜.基于朴素贝叶斯和支持向量机的短信智能分析系统设计[J].重庆理工大学学报:自然科学版,2010,24(1):77-80.
[11]吴海平,敖志刚,付希昌,等.基于贝叶斯网络的兵力投送风险评估模型[J].四川兵工学报,2010(6):118-120.
[12]马海云.基于贝叶斯方法的配置管理研究[J].自动化与仪器仪表,2011(4):17-18.
[13]孙天昊,陈飞,朱庆生,等.基于贝叶斯分类的增强学习协商策略[J].计算机科学,2011(9):227-229.
[14]贾学婷,欧阳丹彤,张立明.基于模型诊断的改进贝叶斯方法[J].计算机科学,2010(7):191-194.
[15]龙兴明.基于贝叶斯神经网络先验模型的图像去噪研究[J].重庆师范大学学报:自然科学版,2009:26(3):65-68.
[16]陈丽丽,桂云苗,李震.基于贝叶斯网络的供应扰动风险态势分析[J].安徽工程大学学报,2011(4):81-84.
[17]胡春玲,胡学钢,姚宏亮.改进的基于邻接树的贝叶斯网络推理算法[J].模式识别与人工智能,2011(6):846-855.
[18]吴家鑫,宋敏,刘晓洁,等.贝叶斯网络在泰乐菌素发酵过程中的应用[J].安徽农业科学,2011(35):21831-21833.
[19]杨莉,杜成超,翟紫阳,等.基于贝叶斯神经网络的焊缝跟踪方法[J].热加工工艺,2011(23):168-170.
[20]朱明敏,刘三阳,汪春峰.基于先验节点序学习贝叶斯网络结构的优化方法[J].自动化学报,2011(12):1514-1519.