基于垃圾邮件检测及过滤技术的研究

2015-05-30 21:03邬江
决策与信息·中旬刊 2015年10期
关键词:垃圾邮件

邬江

[摘要]针对当前互联网上垃圾邮件,分析了其危害性及相关的处理技术。详细描述了目前垃圾邮件的处理方法,并分析了每种处理技术的缺陷。最后得出垃圾邮件处理要采用多种方法,综合治理的结论。

[关键词]垃圾邮件;过滤;基于特征;基于内容

网络时代的发展,给人们的生活带来极大的便利,作为现在网络在人们生活中的最广泛的应用之一,电子邮件(E-mail)以其安全可靠,快速廉价的优势逐渐取代传统的邮件形式,成为获取网络信息,沟通交流的重要渠道。但是,在正常使用的邮件的同时,几乎每个人都接收过各种各样的商业广告、非法宣传甚至反动信息,这给社会和个人都带来极大的危害。因此,如何将这些垃圾邮件在互联网上尽可能的减少,成了学术界研究的课题。

按照中国电信《中国电信对边圾邮件处理暂行办法》的定义,垃圾邮件是指向未主动请求的用户发送的电子邮件广告、刊物或其他资料;有明确的退信方法、发信人、回信地址等的邮件;利用网络从事违反其他网络服务供应商的安全策略或服务条款的行为和其他预计会导致投诉的邮件。

垃圾邮件的危害很大,主要表现在以下几个方面:1、垃圾邮件的泛滥对计算机存储资源及网络带宽都造成极大的浪费,有可能危害到正常的互联网使用。2、垃圾邮件作为病毒传播、非法商业宣传、不良信息等的主要传播载体对社会及个人产生极大的安全隐患。由于垃圾邮件具有强制接收、反复复制发送、地址欺骗及快速传播等特点,严重干扰了互联网正常秩序及个人的正常生活,少数别有用心的人,将垃圾邮件作为一个宣传阵地,对社会稳定带来极大的威胁。

随着互联网的普及,越来越多的人在使用电子邮件,这也使得垃圾邮件的危害覆盖面更广。有研究表明,中国是世界上除了美国外垃圾邮件产生和接收最多的国家,形式迫使我们要对垃圾邮件进行围剿。

目前互联网上针对垃圾邮件的过滤所采取的主要措施有:邮件收发服务器端及客户端的过滤、白名单及黑名单的过滤、基于邮件特征的过滤、基于内容的邮件过滤。

邮件收发服务器端及客户端的过滤:用户的邮件收发的过程是:首先客户端经邮件用户代理(MUA,Mail User Agent)把报文送至服务器临时存储系统,并与服务器邮件传输代理(MTA,Mail Transfer Agent)建立连接,然后使用SMTP命令将报文传送过去(MTA过滤),邮件投递代理(MDA,Mail Delivery Agent)从MTA取得信件传送至最终服务器信箱(MDA过滤),最后MUA定期检查服务器信箱,并通知用户下载(MDA过滤)。

但是无论是客户端的过滤,还是服务器端的过滤,都需要对邮件的各部分结构进行分析,才能得出是否垃圾邮件。

白名单及黑名单过滤也是目前常用的一种垃圾邮件过滤方式。白名单中的地址所发的邮件,用户都认为是合法的邮件。用户可以根据需要来设置自己的白名单,这样可以防止有效邮件被误杀。黑名单则是最简单有效的垃圾邮件过滤技术,用户将黑名单地址所发的所有邮件认为是垃圾邮件不予接受。黑名单主要是对过邮件地址、所发送的服务器(IP)等相关信息进行识别。

黑名单技术和白名单技术在实际使用过程中,存在着诸多技术上的缺陷。比如在实时黑名单中的查詢中存在着较大的时间延迟问题,垃圾邮件及代理服务器ip地址欺骗等问题。使得过滤规则需要经常做出调整,既耗费大量时间,实际过滤效果又不足以令人满意,在使用中逐渐不能满足过滤要求.

基于邮件特征的垃圾邮件过滤:垃圾邮件在发送的过程中,为了防止互联网的抵制,往往在发送过程中会采取相应的措施。而基于邮件特征垃圾邮件的过滤技术就是利用垃圾邮件的反制特征进行过滤。垃圾邮件在发送的过程中,往往会利用伪造地址,即在经过中间服务器时,修改其地址信息。我们可以分析其接收和发送地址及签名来分辨是否垃圾邮件。

垃圾邮件为了其宣传效果最佳及利益最大化,往往会采取群发技术。通过监测是否大量的群发邮件可以进行垃圾邮件的过滤。如果一个邮件服务器在短时间内收到大量相同发件人的邮件,或者同一邮件服务器在短时间内收到内容相同的邮件,则基于特征的垃圾邮件过滤就会启动。

在基于特征的垃圾邮件过滤中,对关键词的匹配是技术简单且可行性比较高的一种方式。在邮件传送过程中,可对主题及正文内容进行扫描,如果出现大量具有垃圾邮件特征的关键词时,如赚钱、免费、淫荡等等,则判定其为垃圾邮件采取过滤。

基于邮件特征的垃圾邮件过滤,由于其技术相对简单,且行之有效,在实际应用中使用较多,但是这种过滤技术有时可能会造成误杀。

基于内容的垃圾邮件过滤技术。以上所有的垃圾邮件的过滤方法都有其缺陷,再加上垃圾邮件发送者也在不断伪装和变更发送技术,给垃圾邮件的过滤造成了不少困难。于是基于内容的垃圾邮件过滤技术便产生了,通过对垃圾邮件的内容进行分类,从而检查出垃圾邮件。此技术是将信息过滤及文本分类相结合,来实现垃圾邮件的检测及过滤效果。其突出特点在于能跟踪垃圾邮件特征变化,并且可以自动获得垃圾邮件的特征,从而可以大提高垃圾邮件的过滤效果。

综合以上种种情况,垃圾邮件处理是个长期的过程,在过滤技术上采取单一的过滤技术效果往往不好,而且可能造成误杀的情况。所以垃圾邮件的处理应该采取多种过滤技术相结合的情况进行处理,这样才能达到好的处理效果。

参考文献

[1]中国电信出台对垃圾邮件处理的暂行办法规范[EB/OL].http://www.people.com.cn/GB/paper39/1320/204610.html.

[2]潘文锋基于内容的垃圾邮件过滤研究.北京:中国科学院计算技术研究所,2004.

[3]王波,黄迪明.遗传神经网络在邮件过滤器中的应用电子科技大学学报,2005.

[4]谭营,朱元春.反垃圾电子邮件方法研究进展智能系统学报,2010.

猜你喜欢
垃圾邮件
从“scientist(科学家)”到“spam(垃圾邮件)”,英语单词的起源出人意料地有趣 精读
一种基于SMOTE和随机森林的垃圾邮件检测算法
垃圾邮件会在2020年消失吗
剖析垃圾邮件程序
基于兴趣认知的垃圾邮件过滤技术研究
基于支持向量机与人工免疫系统的垃圾邮件过滤模型
卡巴斯基发布第三季度垃圾邮件和钓鱼攻击报告
如何杜绝垃圾邮件的“入侵”
节日主题垃圾邮件继续受黑客追捧
基于贝叶斯算法的垃圾邮件过滤器的模拟实现