蒋亚平,梅 骁
(郑州轻工业学院计算机与通信工程学院,郑州 450000)
基于免疫多Agent的垃圾邮件过滤模型研究
蒋亚平,梅骁
(郑州轻工业学院计算机与通信工程学院,郑州450000)
摘要:针对传统的垃圾邮件过滤方法有效识别未知特征以及变异特征的能力不强,借鉴生物免疫系统基本原理和多Agent技术,提出一种基于免疫多Agent垃圾邮件过滤模型。该模型实现各个Agent的信息交互,增强整个模型“记忆”机制,有效地提取垃圾邮件的信息和变异特征。垃圾邮件实验仿真结果表明,该模型与其它模型相比具有更好的性能,有效地提高垃圾邮件模型的正确率等特性,降低虚报率。
关键词:人工免疫;垃圾邮件;抗原提呈;多Agent
垃圾邮件中存在的信息一般具有不易被发现、变异能力强等特点。现有的垃圾邮件过滤方法,如支持向量机(SVM)[1]、朴素贝叶斯(Naive Bayesian)、k邻近算法(k-Nearest Neighbour)[2]等文本分类方法,可有效地实现了垃圾邮件的检测和过滤功能,但对于邮件中变异的特征或新出现的特征则往往不能及时发现与提取邮件特征,信息交互不及时。近年来,人工免疫系统AIS (Artificial Immune System)[3]以生物免疫系统为原型进行模拟已被成功运用,采用人工免疫技术构造效率高,信息交互性强的反垃圾邮件模型也逐渐成为研究的热点。
对于单一的邮件服务器收转发节点,发现新型垃圾邮件特征信息对整个邮件系统并不明显,且随着应用的不断增加,网络终端的负载日益加重,垃圾邮件的数量越来越多。为解决终断服务器负载较大,特征不能提取或提取时延较长等问题,可将多Agent技术应用于垃圾邮件过滤模型。在模型中将邮件过滤模型中不同的单个联网转发节点看作不同的进程Agent,每个A-gent都具有提取垃圾邮件特征的能力,并且能单独完成各自的任务,将所有Agent组合起来便能组成一个多Agent系统。这既能够对单个Agent进行相对独立的检测,又可以互相交流信息,学习积累邮件特征信息,实现复杂环境下的问题求解。
免疫多Agent十分类似于人体免疫系统的免疫细胞,能够对不同环境的刺激产生各种不同应答,不同类型的免疫Agent相当于不同抗体针对于不同的抗原,这种免疫多Agent对于实现复杂系统的分布式问题求解具有很强的启发性,它具有自主性、应激性、高效率的认知性、较强的学习和记忆能力、防御性等免疫特征[4]。经过分析免疫细胞和Agent之间、人工免疫系统和邮件过滤模型之间在性质和行为上的相似性,建立了具有不同功能的免疫Agent组成具有垃圾邮件过滤模型,如图1所示。
我们定义自体为合法邮件集合(Self),非自体为垃圾邮件集合(Nonself)。抗原(Ag)定义为自体和非自体的并集(Ag=Self∪Nonself)。邮件集合为P,p为P的子集,定义正常邮件集合H,H∈P;垃圾邮件集合S,S∈P,满足:H∩S=Ø,H∪S=P。
在免疫Agent中,根据免疫系统中抗体对抗原的记忆、防御和耐受以及抗体之间相互作用机制,实现自垃圾邮件的过滤和学习记忆。
图1 免疫多Agent垃圾邮件过滤模型
检测模型中,设计了执行层Agent、检测层Agent、通信层Agent、和决策层Agent[5]。采用免疫多Agent结构,分别完成垃圾邮件模型的检测、通信、执行和决策等任务将不同的检测Agent联合起来。
执行层Agent:是指在服务器中正在发送或接收邮件状态的Agent模块。归类邮件信息,并实时与执行Agent和通信Agent保持通信。
检测层Agent:检测层Agent在网络服务器各个节点之间监视检测,并与特定的设备通信。在模型中,用户层寻找异常用户行为模式;监视并检测邮件的大小、数目以及所属的类型、源地址与目的地址,信封邮件主要内容等。若可疑,则上报给通信Agent,请求其作出决策。
通信层Agent:通信Agent充当其他Agent模块的通信网络的任务。
决策层Agent:接收来自各个免疫检测Agent的模块检测结果,对是否为垃圾邮件或异常异常邮件结果做出判定。模块图如图2。
图2 免疫多Agent模块
如果在检测过程中,检测群中Agent检测到可疑的垃圾邮件抗原,则上报给通信Agent模块。若通信Agent确定其包含垃圾邮件信息特征的抗原D,则从正在执行Agent中选取若干个Agent,将D所包含的信息共享给这些进程Agent并进行特征提取。当不同Agent接收到提取特征的信息指令后,从检测器中选取能与抗原D匹配的种群并进行特征提取。
要实现垃圾邮件过滤,需将待测邮件数据特征转变成计算机可识别的语言,再经过一定模式的过滤,实现邮件分类。在邮件样本中,数据经过抗原提呈,形成抗原集合,由特定长度的抗原提呈基因库对邮件进行特征提取,从而得到邮件的特征,即抗原决定基因,存储在邮件特征向量中。
抗原提呈基因定义为从邮件子集中提取的IM (Information Feature of Mail)[6]。定义长度为l的抗原提呈基因集合ag-l为:
其中:函数fe执行从邮件中提取IM的操作,l为提取的IM的长度,单位为bit,H'、S'为合法邮件和垃圾邮件的子集。即提取邮件子集中的所有长度为l的、不重复的IM,并将其添加到抗原提呈基因集合ag-l中。
定义邮件(抗原)特征集合为F:
其中:xi(i=1,…,n)为抗原提呈基因库中的基因; ag-li为提取到的邮件p∈P的特征信息;n代表邮件特征向量的维数,与抗原提呈基因库大小相等;l为抗原提呈基因库ag-l中基因片段的大小;函数fc(p,ag-l,l)为特征信息提取操作,如式(6),即从p∈P邮件类型中提取长度为l的IM字符串,然后计算IM是否在对应的抗原提呈基因库中出现,获取邮件的特征信息。函数fe(p,j,l)表示从邮件中提取长度为l的IM。用特定的抗原提呈基因库对邮件进行特征提取,从而组成了邮件特征向量,公式如下:
经抗原提呈后,在模型记忆库中到的邮件特征是一个长度与基因库大小相同的计算机可识别的二进制串,这样就完成了程序的抗原提呈的过程。满足条件的抗原对其进行提呈,符合条的加入到自体库中,否则加入到非自体库中,从而保证了选择的特件征向量对邮件内容的代表意义。
测试环境为:内存8GB,操作系统为Windows 7。在模型的邮件传输中,因为JAMES(Java Apache Mail Enterprise Server)性能较为稳定,可配置性强,选用JAMES开源邮件服务器。在测试中使用CCERT中文邮件2006年7月份的样本集,其中包含正常邮件(Ham)9308封,垃圾邮件(Spam)20042封,数值实验环境为MATLAB 2014a。
将数据集分为训练集和测试集,选择3062封邮件(1024封正常邮件和2038垃圾邮件样本)作为训练集。实验起始阶段选取自体集合大小为50,每次训练生成10个未成熟检测器。邮件过滤模型每次输入200个抗原,其中自体与非自体比例为8:2,即邮件过滤模型所发的10个包中有2个非自体包,得到初始检测样本,保存在免疫记忆库中。然后将剩余的8000封正常邮件和18000封垃圾邮件平均分为10组,组成测试集进行测试。
实验结果取10次的平均值作为评判该模型的最后实验数据,计算出来的平均值即为模型的效率结果。
该垃圾邮件过滤模型主要的评价标准:(1)召回率:即垃圾邮件检出率;(2)正确率:反映过滤模型检测出垃圾邮件的能力;(3)精确率:模型对所有邮件的判断正确的概率;(4)虚报率:模型系统将正常邮件错误地判断为垃圾邮件的概率。该模型统计数据主要为正确率、精确率、召回率、虚报率四个指标,横坐标(X轴)为实验次数,纵坐标为(Y轴)百分比指标值。如图3所示:
图3 邮件过滤指标曲线图
从图3中可以看出,该模型的正确率比较稳定,正确率呈先呈上升趋势,后部分基本保持稳定,正确率都能达到90%以上,说明该模型可以很好地判别出垃圾邮件,稳定性较高;精准率在检测过程亦呈上升趋势,说明随着模型中抗体的自我学习,模型能够正确判断垃圾邮件与合法邮件的能力在上升;在召回率方面,当邮件出现新的信息特征时,模型具有较好的学习和记忆识别能力,对于判断垃圾邮件的能力有所提升;虚报率比较低较稳定,在这种情况下,由于具有多Agent机制及免疫记忆库,信息之间可以及时交互,邮件很少被误删,该模型具有较高的可靠性。
本文给出了基于免疫多Agent的垃圾邮件过滤模型并利用MATLAB实现了该过滤模型的仿真实验,该模型实现各个Agent的信息交互,并有效的提取垃圾邮件的信息和变异特征。该模型具有较高的召回率和准确率,并且在性能上具有一定的提升,如何再进一步的提升模型的效率,是以后研究的重点方向。
参考文献:
[1]Clark,J.;Koprinska,I.;Poon,J. A Neural Network Based Approach to Automated E-Mail Classification[C]. Web Intelligence:Proceedings of the 2003 IEEE/WICInternational Conference on Web Intelligence. 2003:13-17.
[2]Qing J J,Mao R L,Bie R F,et al. An AIS-Based E-mail Classification Method[C]. The 2009 International Conference on Intelligent Computing,Ulsan,Korea,2009:492-499.
[3]李涛.基于免疫的网络监控模型[J].计算机学报,2006,29(9):1515-1522.
[4]梁刚,刘晓洁,李涛,蒋亚平,杨进,龚勋. NSC:一种新型的垃圾邮件过滤器[J].小型微型计算机系统,2008,29(1):158-161.
[5]秦逸.基于行为的垃圾邮件检测技术[J].计算机科学,2012,39(11):86-89.
[6]刘海韬,阳洁.云计算平台下一种新型反垃圾邮件系统的研究[J].中南大学学报(自然科学版),2013,44(5):1869-1874.
梅骁(1990-)男,河南南阳人,硕士研究生,研究方向为信息安全
A Spam Filtering Model of Immune Based on Multi-Agent
JIANG Ya-ping,MEI Xiao
(College of Computer and Communication Engineering,Zhengzhou Institute of Light Industry,Zhengzhou 450000)
Abstract:According to the traditional spam filtering method effectively identify unknown characteristics and variability of the ability is not strong,according to the basic principle of biological immune system and multi agent technology proposed based on immune multi-agent spam filtering model. The model can realize the information exchange of each Agent,enhance the whole model "memory" mechanism,and effectively extract the information and variation characteristics of spam. Spam experimental simulation results show that the model and other models compared has better performance,can effectively improve the correct rate of spam model characteristics and reduce the false alarm rate.
Keywords:Artificial Immune; Spam; Antigen Presentation; Multi-Agent
收稿日期:2016-01-15修稿日期:2016-02-26
作者简介:蒋亚平(1970-)男,河南永城人,博士副教授,硕士研究生导师,研究方向为网络技术、信息安全
文章编号:1007-1423(2016)10-0017-04
DOI:10.3969/j.issn.1007-1423.2016.10.004