垃圾邮件过滤技术分析

2014-01-25 05:46王雪

江苏科技信息 2014年8期

王雪

（国家新闻出版广电总局202台，西藏拉萨 850030）

0 引言

互联网发展迅猛，已经渗透到人们工作和生活中。伴随着互联网的普及，电子邮件已经成为人们日常工作和生活的重要的通信手段，而且已经成为人们日常交流的一种重要途径。然而，除了包含有用信息的电子邮件外，互联网中还充斥着大量的垃圾邮件（spare mail）。当前，大量垃圾邮件的出现已经成为互联网的一个相当严重的问题。数量巨大的、无用的，甚至包含有害信息的电子邮件在互联网中传播。这不仅消耗了大量的网络资源，而且威胁到邮件系统中用户的信息安全，对邮件服务商也造成了严峻的挑战。人们研究、开发各种有效技术措施来阻止垃圾邮件的传播，建设健康、和谐的互联网环境，已经成为当前网络安全研究的重要内容之一。

1 垃圾邮件的分类

垃圾邮件种类非常多，而且形式变化多端。可以按照内容分类，也可按照发送及传播方式分类。

按照电子邮件内容主要可分为以下6类：

（1）用于商品广告、促销的商业垃圾邮件；

（2）包含非法、反动宣传内容的垃圾邮件；

（3）包含暴力、色情等不良信息的垃圾邮件；

（4）包含病毒信息的垃圾邮件；

（5）包含诈骗、恐吓内容的垃圾邮件；

（6）包含其他内容的垃圾垃圾。

按照发送及传播方式主要可分为以下4类：

（1）通过传播方自己购买或租用的邮件服务器，直接利用端口25，直接发送到用户邮箱的垃圾邮件；

（2）利用非法手段，通过合法的邮件服务器，间接发送到用户邮箱的垃圾邮件；

（3）利用伪造手段，向服务器发送不可能投递成功的邮件，造成邮件服务器自动产生“投递失败信件”，从而将邮件返回发送给用户的垃圾邮件；

（4）利用垃圾邮件传播前指定中继服务器等发送路径的手段，造成垃圾邮件在发送路径的每一个中继服务器都会耗费巨大的网络资源，从而将以消耗网络资源为目的的链式中继垃圾邮件发送给用户。

2 垃圾邮件的传播机理

随着互联网和电子邮件技术的发展，垃圾邮件传播技术也在同步发展，如果想彻底解决垃圾邮件问题，就必须首先了解垃圾邮件的传播机理。一般的电子邮件传输协议均采用简单邮件传输协议，即SMTP。因为SMTP不需要任何认证步骤，所以无论电子邮件从哪里发出和发送目的地，都会顺利地接收并发送。垃圾邮件传播可分为以下4个主要步骤：

（1）垃圾邮件制作者利用SMTP协议将垃圾邮件发送至邮件服务器；

（2）邮件服务器根据接收到的电子邮件接收地址，采用SMTP协议把邮件转发给邮件接收服务器；

（3）邮件接收服务器将收到的垃圾邮件放到接收者的邮箱；

（4）垃圾邮件接收者通过自己的邮箱接收邮件。

垃圾邮件发送和接收的整个过程均不需进行认证，所以垃圾邮件制作者就可以选择互联网上每一台SMTP服务器发送垃圾邮件，以达到传播垃圾邮件的目的。

垃圾邮件的出现和泛滥对人们的工作和生活造成了极大的不便和威胁，因此，部分邮件服务提供商为了验证邮件发送者的身份，会要求对邮件发送者或邮件服务器进行认证。于是，一种新的邮件传输协议，即ESMTP协议就被提出来了，它是在SMTP的基础上，对其功能进行了一些改进。然而，ESMTP协议对邮件接收与发送邮件服务器间的合法性不进行确认，漏洞仍然存在。

3 阻止垃圾邮件传播的过滤技术

当前，国内外的反垃圾邮件技术和产品多种多样，其中涉及的垃圾邮件过滤技术也不尽相同。通过总结市场上的反垃圾邮件技术和产品，垃圾邮件过滤技术可大致分为3种：IP地址过滤技术、SMTP协议过滤技术、内容过滤技术。其中，内容过滤技术是当前和未来垃圾邮件过滤技术的主要研究方向。

正常的电子邮件一般由3部分构成：邮件地址、邮件主题、邮件内容。这3部分内容所包含的信息正是垃圾邮件过滤技术分析、判断的依据。因为这3部分内容均是以文本形式，所以垃圾邮件的分析与判断，其本质上是文本分类技术，而文本分类技术的核心就是关键词的统计与提取。因此，从理论上说，内容过滤技术的核心是电子邮件中文本包含的关键词的统计与提取。

因为垃圾邮件的数量、种类越来越多，过滤技术需要的计算量越来越大，所以人们将机器学习方法应用到垃圾邮件内容过滤技术中，主要包括2种方法：基于规则方法；基于统计方法。基于规则方法：首先分析邮件内容中包含的特征，然后将分析得到的特征与垃圾邮件的特征进行比较，从而发现并判断出垃圾邮件。基于统计方法：分析得到电子邮件中某种信息的概率，然后统计待判断电子邮件中该类信息的概率，从而得出结论。下面将详细介绍以上2种方法。

3.1 基于规则方法

基于规则方法首先分析电子邮件的标题、内容等信息，然后将分析得到的特征与待判断的电子邮件中相关特征间的关联关系，就可以得出邮件是否是垃圾邮件的判断。当新的电子邮件到达的时候，通过计算、判断关联关系来判定它是否是垃圾邮件。基于规则方法中最具有代表性的是IBM公司的C-K系统，通过模式匹配方法，总结出相关特征，从而用来判断、确定新邮件是否是垃圾邮件。

因为需要通过分析已有的垃圾邮件，才能得到需要的关联关系，而这些关联关系仅能反映出以前的垃圾邮件的相关特征。所以，当新的垃圾邮件产生以后，需要获取这些新的垃圾邮件，再次分析、总结，得到更新的关联关系。因此，基于规则方法在实际使用中，必须保证关联关系的实时、准确。随着垃圾邮件种类和数量的不断增长，必然造成关联关系越来越多、越来越复杂，最终影响垃圾邮件分析、判断的效率。当前，基于规则方法主要有 4 种：（1）Boosting法；（2）SA 评分系统；（3）粗糙集法；（4）决策树法。

3.2 基于统计方法

基于统计方法主要有5种。

3.2.1 k-NN法

k-NN法，即k邻近法，该方法利用与待判断样本相近的几个样本，判定新样本的类别。k邻近法的基本思想是：如果新样本与k个最相近样本中大多数样本属于相同的类别，那么新样本也应该归类于这个类别。

3.2.2 Winnow法

Winnow法，即线性分类器，该方法利用样本训练，找出某个类别中包含的特征权重向量 w=（w1，w2，…，wn），然后设定阈值 θ。设新样本为 x=（x1，x2，…，xn），如果 wT·x＞θ，则判断新样本属于该类别；否则，判断新样本不属于该类别。

3.2.3 SVM法

SVM法，即支持向量机法，该方法利用构造出来的最优线性分类面来进行分类。首先把样本空间线性映射到另一个空间，然后在新空间中构造出最优线性分类面。

3.2.4 Rocchio法

Rocchio法，即相关反馈法，该方法利用训练集给各类别构造一个自己的原始向量，然后将所有新样本向量化，最后计算正例向量和反例向量的加权差作为类别向量。

3.2.5 Bayes法

Bayes法，即贝叶斯法，该方法利用对大量已知类别的邮件的分析，统计、提取出最具代表性的关键词作为特征，得到统计分布模型。当新邮件到来时，分析它的特征，从而推算出新邮件是垃圾邮件的概率。因为贝叶斯法过滤垃圾邮件所依赖的训练集中的垃圾邮件和非垃圾邮件是由垃圾邮件过滤者自己设定的，所以垃圾邮件制造者无法判断出训练结果。而且贝叶斯法过滤垃圾邮件某种程度上具有自主学习能力，所以目前贝叶斯法过滤垃圾邮件使用最为广泛。

［1］罗倩，秦玉平，王春立.反垃圾邮件技术综述［J］.渤海大学学报，2008（4）：385-389.

［2］潘文峰.基于内容的垃圾邮件过滤研究［D］.北京：中国科学院计算技术研究所，2004.

［3］王涛，裘国永，何聚厚.基于改进Naive Bayes的垃圾邮件过滤模型研究［J］.计算机工程与应用，2007（13）：186-190.