垃圾邮件过滤技术概述

2010-04-03 05:25:00衣治安大庆石油学院计算机与信息技术学院黑龙江大庆163318
长江大学学报(自科版) 2010年1期
关键词:域名解析垃圾邮件黑名单

衣治安,毛 岩 (大庆石油学院计算机与信息技术学院,黑龙江大庆163318)

随着信息化社会进程的加快,人们对电子邮件的使用日益普及,垃圾邮件随也之泛滥,其主要危害包括 :①占用网络带宽,影响网络服务的正常进行;②侵犯收件人的隐私权,耗费网络存储空间;③附件中带有的病毒或木马,给个人计算机安全带来极大危害[1]。随着垃圾邮件的泛滥,邮件过滤问题逐步引起人们的重视。1995年7月,spam被作为专用词汇来指代垃圾邮件,通过反垃圾邮件技术来过滤和阻断垃圾邮件的传播成为研究者的重要课题[2]。目前,垃圾邮件过滤技术已发展到第3代,笔者对此加以简要介绍。

1 第一代垃圾邮件过滤技术

第一代过滤技术是通过对IP地址过滤、关键字过滤、邮件 (附件)大小控制、SMTP连接时间频率控制等进行垃圾邮件的区分与过滤。

1.1 IP地址过滤技术及反向域名解析

IP过滤技术是基于TCP/IP协议,对垃圾邮件发送者伪造的非法源IP地址进行阻挡。但是IP地址过滤技术具有较大的局限性,即对合法源IP地址无法进行过滤,垃圾邮件发送者可以通过限制IP地址伪造的范围来绕过过滤策略封锁。与此类似的反向域名解析技术用于过滤篡改邮件头地址的垃圾邮件。由于邮件头篡改技术简单易行,同时具有较高的发送成功率,因而大量的垃圾邮件显现出此类特征。而反向域名解析功能可以有效解决此类问题,通过反向域名解析查询技术来对收取邮件的域名进行反向解析查询。反向域名解析技术的缺陷在于无法验证邮件中真实域名是否已被篡改,当通过跳板、SM TP劫持及人为篡改等方式制造出垃圾邮件后,反向解析技术无法产生预期的效果。

1.2 SMTP频率控制

SM TP频率控制则类似于主机防御中Syn Flooding之类DoS/DDoS的防范方式,采取IP关注防范的方法,对于频率异常的SM TP连接源进行阻断。该方法简单便捷,可以有效防范SM TP中拒绝服务攻击的爆发。由于对邮件的内容并不检验,只是单纯的进行行为控制,服务提供商很难拿捏到恰当的尺度以达到用户防范垃圾邮件的目的,所以该方案只能作为一种辅助手段进行部署实施。

1.3 用户黑白名单技术

该技术包括黑名单过滤技术和白名单过滤技术。黑名单过滤技术是将已发现确定的垃圾邮件服务器IP地址或域名列入到记录名单中,由DNS服务器负责域名解析,通过黑名单的定期或实时发布提供黑名单查询服务。白名单过滤技术是确定所有可信的邮件地址信息,凡邮件地址归属于白名单的电子邮件都将被判定为可信的合法邮件,但是该方法的主观性预期判断会造成大量合法邮件的误判和垃圾邮件的漏判,在使用时还要与其他方法配合使用,否则会有较大的局限性。用户黑白名单技术采用最简单直接的方式对邮件进行判断过滤,由用户手动进行定义需要过滤内容的设定,如域名、发信人姓名及发信IP地址等内容,但是不能对变更的内容进行实时调整,同时大量的手工操作对人力资源需求较大,从目前的垃圾邮件增长速率来看,单纯通过黑白名单技术来实现垃圾邮件的防护过滤是不现实的。

1.4 关键字过滤

关键字过滤技术[3]与用户黑白名单技术具有相似的原理,其区别在于关键字过滤的判别对象是电子邮件的标题及正文,对在邮件中出现的频率较高且具有垃圾邮件特性的文字进行过滤,垃圾邮件过滤初期的关键字过滤技术仍旧需要用户进行手工定义,此功能在使用过程中除了浪费人力资源之外,由于个人判别能力存在着一定的局限性,导致过滤结果存在较大的误杀率,现阶段通常只作为垃圾邮件过滤的补充手段。

1.5 邮件内容过滤

邮件内容过滤的方案是针对邮件的几个组成部分通过选项的阀值设定来进行判别过滤[4]。该技术主要针对通过垃圾邮件进行病毒传播的攻击,经过改进的方案是对邮件过滤系统挂载病毒及木马查杀引擎,通过病毒库更新来对邮件附件内容的危害性进行判别查杀,由于病毒判别查杀行为的存在,难以避免误判和误杀。

2 第二代垃圾邮件过滤技术

第二代过滤技术与第一代技术的根本区别在于智能性的体现,解决了人工干预中大量的人力资源的耗费,减少了运营成本,其中具有代表性的是以实时黑名单 (RBL)策略进行垃圾邮件的智能地址过滤,以及基于统计算法 (如贝叶斯算法)进行的智能内容过滤。

2.1 实时黑名单 (RBL)

实时黑名单属于动态防垃圾邮件技术,随着 “云计算”概念的提出,人们结合 “云计算”的特点将实时黑名单技术进行了改进,提出了 “云安全”的方案。其目的在于解决用户自行维护黑名单过程中的巨大人力开销与专业知识匮乏产生的维护难度,类似Spamhaus及中国反垃圾邮件联盟等厂商及组织,将用户反馈信息及通过蜜罐技术等实时收集来的垃圾邮件黑名单实时更新至互联网上的黑名单数据库中,当用户与此数据库进行同步更新后,即可应用具有较高准确性的垃圾邮件黑名单列表。目前在国内应用比较广泛的实时黑名单服务是由中国反垃圾邮件联盟提供的CBL及CBL+等实时黑名单服务。RBL过滤技术为通过网络服务订制为用户节省了大量的资源和工作量,同时具有较高的过滤率。但是RBL技术也具有较明显的缺点,即一旦出现误报后将需要花费大量的精力去更正RBL,同时由于RBL由不同地区的组织及厂商进行维护、分类,所以存在一定的地域区别,影响了用户对RBL的使用。

2.2 智能内容过滤算法

现实生活中垃圾邮件制造者与邮件过滤技术在不断的斗争,所以垃圾邮件的特性在不断地变化,因而以黑/白名单技术为代表的第一代 “静态”过滤技术具有较大的局限性。后期发展起来的基于规则的垃圾邮件过滤技术存在着规则制定复杂、用户经验对规则有效性及过滤准确率有着较大影响等不足。于是很多专家提出采用文本分析技术对电子邮件的内容进行分析,从而根据语言规则与特性识别出垃圾邮件,即将待过滤的邮件分类为垃圾邮件或正常邮件,这就将垃圾邮件过滤与文本分类和信息过滤等技术进行了结合。

贝叶斯算法在邮件过滤领域的应用使垃圾邮件过滤技术提升到 “智能”的新层次。贝叶斯算法通过对邮件样本 (包含正常邮件及垃圾邮件)的分析统计学习,形成一个统计模型库,然后通过对邮件中的各个选项的权值计算判断出垃圾邮件的概率。用户可自定义过滤阈值,对达到阈值的邮件进行过滤阻挡。此外,贝叶斯算法还增加了学习特性,在过滤过程中对过滤器进行训练,从而达到强化统计模型、更新过滤器特性的目的,提高了对垃圾邮件的过滤比率[5]。贝叶斯算法对于文本邮件能够达到较好的过滤效果,但对于其他类型的邮件内容及邮件行为则无能为力,且该算法由于需要对每个到达本地的邮件进行分析计算,从而占用大量的系统硬件计算资源。

基于免疫的垃圾邮件过滤方法[6]借鉴了生物免疫系统的机理,将垃圾邮件抽象为免疫系统中的病原体,可以利用负选择算法、免疫克隆等算法进行垃圾邮件的检测和过滤。And rew Secker等人提出了基于免疫的邮件分类算法。该算法旨在以抗体的 “自己”与 “非己”原理区分出用户感兴趣的邮件和不感兴趣的邮件。这类技术抓住了垃圾邮件的本质——邮件文本内容,能够有效地识别出是否为垃圾邮件。但是在邮件流量大的情况下,由于邮件内容的处理过程对资源的耗费较大,所带来的负载也很大。

3 第三代垃圾邮件过滤技术

由于垃圾邮件与病毒邮件仍然占用了大量带宽与存储资源,垃圾邮件的发送仍处于非受控状态。而且,现有的垃圾邮件发送技术为了躲避基于内容的过滤技术,在邮件内容中 “加噪”以干扰其过滤效果,为解决上述问题,出现了基于邮件行为的过滤技术。该技术根据邮件发送的行为特征判断该邮件的合法性,因而是一项新的邮件过滤技术,其原理是通过对大量垃圾邮件日志进行统计、分析和计算,并且根据RFC822标准,建立垃圾邮件发送的行为识别模型[7],从而能够在M TA(邮件传输代理)通信阶段就判断出所接受邮件是否为垃圾邮件,不需要接受全部的邮件数据进行内容匹配,大大提高了邮件过滤的处理速度,减少了网络延迟,降低了网络负载,同时还解决了内容过滤技术不可避免的高误报率问题。

4 结 语

垃圾邮件过滤技术随着电子邮件的广泛应用显得日益重要,目前广泛使用的3代垃圾邮件过滤技术虽然从一定程度上解决了垃圾邮件泛滥的问题,但是这些技术手段都存在着一定的技术缺陷。将基于行为过滤与基于内容过滤相结合的垃圾邮件过滤技术是今后需要研究的重要课题,以此可以更有效地解决垃圾邮件过滤问题。

[1]崔霞,朱思峰.垃圾邮件及反垃圾邮件技术研究[J].信息安全与通信保密,2006,(9):139~141.

[2]高倩.垃圾邮件的入侵与防范 [J].计算机安全,2008,(6):52~53.

[3]邓刚.基于贝叶斯过滤算法的反垃圾邮件技术研究及其实现 [D].北京:中国地质大学,2005.

[4]潘文峰.基于内容的垃圾邮件过滤研究 [D].北京:中国科学院研究所 (计算技术研究所),2004.

[5]Marsono M N,W atheq M,Gebali F.Binary LNS-based naive Bayes in ference engine for spam con trol:noise analysis and FPGA implementation[J].IET Compu t Digit Teeh,2008,2(1):56~56.

[6]胡可,张家树.基于人工免疫系统的反垃圾邮件过滤机制 [J].计算机应用,2005,25(11):2559~2561.

[7]张达.三代防垃圾邮件技术 “行为识别”诞生 [J].数码世界,2005,4(11):15~16.

猜你喜欢
域名解析垃圾邮件黑名单
防晒黑名单?第2款就翻车了!
好日子(2022年6期)2022-08-17 07:16:00
从“scientist(科学家)”到“spam(垃圾邮件)”,英语单词的起源出人意料地有趣 精读
英语文摘(2021年10期)2021-11-22 08:02:36
一种基于SMOTE和随机森林的垃圾邮件检测算法
域名解析服务管理问答
免费动态域名解析软件
另类方法为网络域名解析加速
电脑爱好者(2018年8期)2018-04-25 14:58:04
受惩黑名单
中国信用(2017年5期)2017-05-25 11:20:08
受惩黑名单
中国信用(2017年4期)2017-05-23 11:40:56
黑名单
基于支持向量机与人工免疫系统的垃圾邮件过滤模型