◆徐梦龙 黄家旺
朴素贝叶斯算法在垃圾邮件过滤方面的应用
◆徐梦龙 黄家旺
(西南大学 重庆 400715)
现在电子邮件应用广泛,但各种各样的垃圾邮件造成的困扰也日益严重。在诸多垃圾邮件过滤的方法中,朴素贝叶斯算法取得了良好的效果。本文先简单介绍贝叶斯模型,给出一种基于朴素贝叶斯分类模型的电子邮件过滤方法,并简单分析其缺点。最后通过实验验证其有效性。
朴素贝叶斯分类器;邮件分类;垃圾邮件
随着互联网的普及,越来越多的信息通过电子邮件来进行传达,一些不法分子利用电子邮件来进行诈骗或者传播广告信息,给互联网带来了严重危害,垃圾邮件问题已经成为网络信息安全研究领域的重要组成部分。在如今已有的多种对垃圾邮件过滤的方法中,基于概率的贝叶斯分类算法简单高效,而且精确率能够达到90%左右,是现阶段应用最广的垃圾邮件过滤技术,其性能与判定树与神经网络分类算法相当,在某些场合还优于其他分类器。
贝叶斯原理是早在18世纪的英国学者贝叶斯提出的应用所观察到的现象对有关概率分布的主观判断进行修正的方法。该定理表示对未来某件事情发生的概率可以通过计算它已经发生过的频率来估计。贝叶斯理论广泛应用在垃圾邮件过滤算法中,将其看成是一个分类问题,首先收集大量正常邮件和垃圾邮件作为样本,然后对收集到的样本进行有指导的学习,最后使用训练好的贝叶斯分类器对新到达的邮件进行分类0。通过对邮件样本的训练和学习,贝叶斯分类器可以自动获得垃圾邮件的特征,并根据垃圾邮件特征的变化计算邮件文本属于某个类别的概率,将该文本归为概率最大的类别中去, 准确地对垃圾邮件进行过滤。
由假定条件相互独立,故:
图1 算法流程图
目前该算法基于Python的实验已初步实现,并且取得了可以接受的成果。朴素贝叶斯算法在邮件过滤器领域已经取得良好的效果,而且具有很好的实用性。但其假设给定目标值时属性之间相互条件独立,在实际中往往并不成立,而且其准确性也依赖于训练集和划分语言单元的分词算法。后续工作是改善分词算法,进一步提高其准确性。
[1]胡睿.基于贝叶斯分类的中文垃圾邮件过滤方法研究和改进[D].北京:清华大学,2006.
[2]田震生.基于文本聚类技术的邮件分类系统的研究与实现[D].南京:河海大学硕士论文,2005.
[3]翟军昌.改进的朴素贝叶斯垃圾邮件过滤算法[J].计算机工程与应用,2009.
[4]马楠.基于内容的垃圾短信过滤技术研究[D].北京:北京邮电大学,2014.
[5]孟兆玲.基于贝叶斯理论的垃圾邮件过滤技术综述[J].现代计算机,2007.