魏琴芳,成 勇,胡向东
(1. 重庆邮电大学 通信与信息工程学院,重庆 400065;2. 重庆邮电大学 自动化学院,重庆 400065)
基于信息熵的无线传感网入侵检测遗传算法
魏琴芳1,成勇1,胡向东2
(1. 重庆邮电大学 通信与信息工程学院,重庆 400065;2. 重庆邮电大学 自动化学院,重庆 400065)
摘要:无线传感网作为正在兴起的物联网的基础设施,在快速发展的同时却面临着多种信息安全风险。提出了一种基于信息熵的无线传感网入侵检测遗传算法,将信息熵和遗传算法应用于检测过程所用比对库的训练,采用异常检测和特征检测结合方法进行入侵检测。仿真实验结果表明,该算法能快速地生成比对库,在入侵检测过程中的收敛性和精确度都有明显改善,其对入侵的检测率高于99.5%,误检率低于0.5%。
关键词:遗传算法; 信息熵; 入侵检测; 无线传感网
0引言
无线传感网(wireless sensor networks,WSN)作为正在兴起的物联网应用的基础设施,在快速发展的同时却面临着多种信息安全风险,容易受到非法攻击,如哄骗更改和重放路由攻击、污水池攻击、选择性转发攻击、拒绝服务攻击、虫洞攻击、女巫攻击、Hello洪泛攻击等[1]。这些攻击将导致系统无法按照设定的功能正常运行。因此,发现无线传感网中的攻击并采取适当的应对措施是十分必要的。入侵检测作为一种主动安全防御措施,在尽量不影响网络总体性能的情况下提供对入侵攻击行为的实时监测、分析、处理,能帮助系统对付外部闯入、内部授权用户的越权使用等恶意攻击,以提高系统的安全性。
近年来,国内外专家、学者相继提出了一系列的入侵检测新技术,包括基于数据挖掘的入侵检测系统[2]、基于自然免疫的入侵检测系统[3]以及基于多代理入侵检测技术[4]等。典型地,文献[5]在入侵检测过程中的特征提取时,采用遗传算法和禁忌搜索相结合的搜索策略对特征子集空间进行搜索,进而提高特征选择速度。文献[6]通过主动学习和TCK-KN方法相结合满足检测模型对数据要求高的需求,在检测率和误检测率方面都有所提高。文献[7]利用自身改进的BP算法以及Cauchy估计器提高了系统的收敛速度和检测率等。他们从不同角度、不同程度上提高了网络运行的安全性,但这些技术的检测率和误检率都有待提高;且现有的入侵检测技术尚不能满足无线传感网中复杂多变的入侵行为检测需求。因此,衡量现有技术利弊,寻求技术间结合,进而得到改进的入侵检测方法是目前发展的趋势和一种有效的途径。
综上所述,本文提出一种基于信息熵的无线传感网入侵检测遗传算法,可在保证高检测率的同时降低误报率,减少训练时间,收敛性较好。
1入侵检测模型
1.1传统入侵检测方法存在的问题
传统入侵检测方法有特征检测[8]和异常检测[9]。
特征检测通常是基于统计方法,即统计数据库中出现过的入侵行为数据,将实时检测数据与之进行匹配,如果匹配成功,则判定该检测数据为对应的入侵行为;如果匹配不成功,则判定该检测数据对应的行为是正常的。这种统计方法对阈值的有效确定是困难的,不适宜的阈值会导致产生大量的误报或漏报。
异常检测是将规则库中设定为正常的行为与实时检测数据进行比较,如果相匹配则认为其行为是正常的;如果不匹配则认为其行为是入侵行为。该检测方法具有较高的检测率,但误检率也很高,且存在规则库生成的困难。
针对上述问题,本文将特征检测和异常检测相结合建立一种新的联合检测,如图1所示。
图1 联合检测模块Fig.1 Module of the joint detection
当被检测的实时数据通过该模块时,首先进行基于特征检测模型的初检测,此时可以将检测阈值适当设置小一些,从而降低漏报的可能性,若判定结果为1,则认为其对应的行为是安全的,准予通过;若判定结果为0,则为“可疑数据”。然后对该“可疑数据”进行基于异常检测模型的再检测,结果若为1,则认为其对应的行为是安全的,准予通过;结果若为0,则表明该数据对应的行为是不合法的,视作入侵行为。
1.2入侵检测模型
本文基于遗传算法和联合检测模块建立一种新的入侵检测模型,如图2所示。
图2 入侵检测模型Fig.2 Model of intrusion detection
该模型包括5个模块:感知层节点、数据采集模块、遗传算法比对库、联合检测模块和响应模块。各个模块的功能如下。
1)感知层节点。负责对外部信息的感知、收集,为数据采集模块提供及时的数据支持。
2)数据采集模块。由数据采集器和数据库组成。主要进行数据的收集和临时储存。
3)遗传算法比对库。由信息熵和遗传算法结合产生的最优种群组成,主要用于联合检测模块的数据比对。
4)联合检测模块。判定被检测数据对应的行为是否合法,并更新比对库。
5)响应模块。根据联合检测模块的判定结果做出相应智能化处理。
本模型通过上述5个模块协同作用,达到对数据进行入侵行为检测与判定,其核心在于比对库的生成,所生成比对库的质量将直接影响整个入侵检测系统的检测率和误检率。
该入侵检测模型的优势主要体现在2个方面:①通过基于信息熵的遗传算法能够快速、准确地生成适应无线传感网环境的比对库;②采用联合检测模块对数据进行入侵检测,能够同时利用特征检测和异常检测的优点,有助于提高系统的检测率、降低其误检率。
2基于信息熵的遗传算法
入侵检测模型中的比对库生成至关重要,因为它关系到入侵检测的检测速率以及检测准确度。为了快速和准确地得到最优比对库,本文采用遗传算法[10]来生成比对库。所采用遗传算法的基本步骤如下。
步骤1随机地产生一个初始种群;
步骤2对初始种群的每个个体进行基于信息熵的适应度计算;
步骤3利用适应度值,选择出种群中较优的个体,加入到新种群中;
步骤4对选择出来的2个个体进行交换操作,得到新的个体加入到新种群之中;
步骤5在选择出来的个体中随机对个体的某位进行改变,得到新个体加入到新种群中;
步骤6判断是否满足终止条件,如果满足,则选择最佳个体作为遗传算法的结果;否则,重新执行第2—5步,直到满足终止条件。
传统入侵检测方法由于在匹配过程中是将待测数据与比对库中数据进行比对,根据比对结果来判定相应的数据行为。其存在的问题在于比对库通常无法包含所有的攻击或正常行为,故会导致系统的误检率高、检测率低。根据已有研究成果可知,某些攻击行为的数据记录形式并不唯一,而是存在类似现象。因此,本文在信息熵基础上提出适应度概念来描述2个数据行为之间的相似程度,进一步结合遗传算法得到一种能快速且准确地生成适应无线传感网环境的比对库方法。比对库的生成主要依赖以下4个关键因素。
2.1适应度函数
适应度函数质量高低将直接影响遗传算法收敛速度和最终结果,本文计算适应度函数时引入信息熵概念,信息熵被广泛用于度量信息量多少,即根据事物出现概率,定量地得出相应信息熵值。设种群G中含有N个个体,每个个体由M位字符组成,定义任意2个个体p和q之间的信息熵为
(1)
(1)式中,pij表示个体p(i=1)和q(i=2)在第j位字符值在种群中所占比例,若两者相同,p1j=p2j=1/2;若两者不相同,则p1j=0,p2j=1。当p,q个体完全相同时,H(p,q)=0;当p,q个体各字符均不相同时,H(p,q)得到最大值。
定义G中某个体i相对于自体S的适应度为
(2)
(2)式中,H(i,s)表示个体i与自体S中的某单个个体s之间的信息熵。fitness(i,S)值越大表示个体i与自体S的相似程度越高。
定义种群G相对于自体的适应度为
(3)
(3)式中,fitness(G,S)反映了整个种群与自体的相似程度,用于训练终止条件的确定。
2.2选择算法
通常情况下,按照适应度比例分配的方式进行选择,即轮赌法,通过各个个体的适应度所占比例来决定其保留可能性大小。设个体i在选择过程中被选择的概率为Pi,定义为
(4)
(4)式中:N表示种群总个体数;fi为个体i对整个种群的适应度值。可见,适应度大的个体被选择的概率就越大,更易遗传到下一代个体中。
2.3交叉算子
主要有单点交换和多点交换2种形式[11]。单点交换通过随机选择一个交换点进行交叉操作,如图3a所示。而多点交换则是随机地选择2个交换点,然后,将2个交换点之间所有位都进行交换,如图3b所示。
图3 交叉算子Fig.3 Crossover operator
2.4变异算子
本文通过变异概率Pm随机地选择个体对其某位进行改变,本文取变异概率Pm=0.01。图4为变异算子示意图,随机选取个体A的变异位进行变异操作,个体A变异位由0变异为1。
图4 变异算子Fig.4 Mutation operator
3仿真实验与结果分析
3.1实验数据集的选取
本文实验数据采用KDDCUP99数据集,并利用Matlab仿真平台对所构建的入侵检测遗传算法进行性能评估。KDDCUP99数据集分为训练数据(具有标识)和测试数据(未加标识)。训练数据与测试数据有不一样的概率分布,同时,测试数据中还包含了一些训练数据中未出现过的攻击类型,这使得对该数据进行的入侵检测仿真测试更具实用性。
3.2仿真实验方法
KDDCUP99原始数据集较大,且大部分数据重复,不便于提取、处理操作,故本文利用10%训练集,从中随机选择100条记录组成自体,记为selfdata,将其用于训练得到比对库;对10%测试集进行检测来评价本文算法的性能。
按照KDDCUP99原始数据集中各类攻击所占比例随机地从10%测试集中选择900条记录得到各组测试数据,如表1所示。其中,Normal,DOS,Probing分别为300,300,300条记录,记为testdata(其中,根据无线传感网可能受到的攻击行为具有复杂多变的特点,将各类入侵行为中的未知行为比例适当加大,以反映无线传感网面临的真实安全环境),用于比对库性能的测试;KDDCUP99数据集中每个连接采用42个特征来描述。其中,前41位是固定的特征属性,第42位为标识位。本文用对入侵行为的检测率和误检率来评价算法的性能。检测率是成功检测出的个体数占整个样本集的比例;误检率则是将正常数据误判为异常数据的个体数在整个样本集中所占比例。
表1 各类数据所占比例
3.3仿真实验结果及分析
对selfdata数据进行训练得到的种群适应度收敛曲线如图5所示,包括传统算法适应度收敛曲线和改进算法适应度收敛曲线。由图5可见,传统算法需经过450代训练后,适应度值才趋于稳定;而本文改进算法只需100代训练后就基本趋于稳定,其收敛时间少于传统算法的1/4,说明改进算法能更快速地训练得到比对库。此外,传统算法的适应度收敛值接近于0.7,而本文改进算法的适应度收敛值接近于0.8,说明改进算法训练出的比对库适应性更好。
图5 适应度收敛曲线对比Fig.5 Convergence curves of fitness
代表性研究成果[12]给出的评估检测结果如表2所示。作为对比,本文将testdata中各数据分别利用生成的比对库进行检测得到各数据类型的检测结果如图6—图8所示。通过多次实验测试,本文设定检测阈值为0.75,若得到的检测数据大于或等于0.75,则认为该检测数据是正常的;相反,如果检测数据小于0.75,则认为该检测数据是不合法的。
表2 代表性评估检测结果
图6是对Normal数据进行检测的结果图,图6中的横线代表阈值。由图6中信息可得到,本文检测方案对正常数据的误检率约为0.33%(即300个Normal个体中有1个被判定为不合法),比文献[12] 中4%的误检率有一定的改善。
图6 Normal数据的误检率Fig.6 False detection rate of normal data
图7是对DOS攻击数据的检测结果。由图7可知,能够正确地检测出300个DOS攻击数据中的299个个体,因此,对DOS类型攻击的检测率约为99.67%,比文献[12]提供的88%DOS攻击数据的检测率有较大提升。
图7 DOS攻击数据的检测率Fig.7 Detection rate of DOS data
图8表示对Probing攻击数据的检测结果,与DOS攻击数据检测类似,同样能检测出300个Probing攻击数据中的298个个体,其对应的检测率约为99.33%,而文献[12]所提供的对Probing攻击数据的检测率为82%。
图8 Probing攻击数据的检测率Fig.8 Detection rate of Probing data
综上所述,通过引入信息熵,比对库训练时间可大幅度减少,适应性得到提升;同时,对Normal数据的误检率、对DOS及Probing攻击数据的检测率都得到了很大的改善。
4结论
随着物联网应用的推动,无线传感网面临的安全问题日益突出。现有入侵检测技术不能适应和满足无线传感网的安全需求。本文提出了一种基于信息熵的无线传感网入侵检测遗传方法,结合信息熵和遗传算法来生成入侵检测过程使用的比对库,并构建了集成特征检测与异常检测的联合检测模块,通过KDDCUP数据集,运用Matlab仿真对本文改进算法的性能进行了仿真测试与评估。对比实验结果表明,改进算法在入侵检测过程中的收敛性和检测结果的精确度都有明显改善,其检测率高于99.5%,误检率低于0.5%。
参考文献:
[1]胡向东,余朋琴,魏琴芳. 物联网中选择性转发攻击的发现[J]. 重庆邮电大学学报:自然科学版,2012,24(2):148-152.
HU Xiangdong, YU Pengqin, WEI Qinfang. Detection of selective forwarding attack in the Internet of things [J]. The Journal of Chongqing Universitiy of Posts and Telecommunications: Natural Science Edition, 2012,24(2):148-152.
[2]LIANG Jianfang, LIANG Jianming, WANG Jianping. Mirical Study on B/C Apparel Consumption Behavior Based on Data Mining Technology [J]. Journal of Dong hua University (English Edition), 2013(06):530-536.
[3]WANG Jun, ZHAO Xiaozhe, XU Beiping, et al. Immune multi agent model using vaccine for cooperative air-defense system of systems for surface warship formation based on danger theory [J]. Journal of Systems Engineering and Electronics, 2013(06): 946-953.
[4]WANG Yue, TAO Ran, ZHANG Hao. Research on distributed intrusion detection system based on multi-living agent [J]. Science China (Information Sciences), 2010(05):1067-1077.
[5]陈友,沈华伟,李洋,等. 一种高效的面向轻量级入侵检测系统的特征选择算法[J]. 计算机学报,2007(08):1398-1408.
CHEN You, SHEN Huawei, LI Yang, et al. An efficient system for lightweight intrusion detection feature selection algorithm [J]. Chinese Journal of Computers, 2007(08):1398-1408.
[6]李洋,方滨兴,郭莉,等. 基于主动学习和TCM-KNN方法的有指导入侵检测技术[J]. 计算机学报,2007(08):1464-1473.
LI Yang, FANG Bingxing, GUO Li, et al. The method of guiding Intrusion Detection Technology based on active learning and TCM-KNN [J]. Chinese Journal of Computers, 2007(08):1464-1473.
[7]王磊,廖晓峰. 基于改进BP算法的入侵检测神经网络方法[J]. 计算机工程与应用, 2004(31):69-71.
WANG Lei, LIAO Xiaofeng. Neural network-based intrusion detection improved BP algorithm [J], Computer Engineering and Applications, 2004(31):69-71.
[8]WANG Xiaocao, CAO Junjie, LIU Xiuping, et al. Feature detection of triangular meshes via neighbor supporting [J]. Journal of Zhejiang University-Science, 2012(06):440-451.
[9]XIAO Xi, XIA Shutao, TIAN Xinguang, et al. Anomaly detection of user behavior based on DTMC with states of variable-length sequences [J]. The Journal of China Universities of Posts and Telecommunications, 2011(06):106-115.
[10] 俞研,黄皓. 基于改进多目标遗传算法的入侵检测集成方法(英文)[J]. 软件学报,2007(06):1369-1378.
YU Yan, HUANG Hao. The integration method of intrusion improved multi-objective genetic algorithm based detection (English) [J]. Journal of software, 2007(06):1369-1378.
[11] OSABA E, ONIEVA E, CARBALLEDO R, et al. A multi-crossover and adaptive island based population algorithm for solving routing problems [J]. Journal of Zhejiang University Science, 2013(11): 815-821.
[12] RICHARD L, JOSHUA W, DAVID J, et al. The 1999 DARPA off-line intrusion detection evaluation[J]. Computer Networks, 2000, 34(4): 579-595.
Genetic algorithm used in intrusion detection for wireless sensor networks based on information entropy
WEI Qinfang1,CHENG Yong1,HU Xiangdong2
(1. College of Communications and Information Engineering, Chongqing University of Posts and Telecommunications,Chongqing 400065, P.R.China;2.College of Automation, Chongqing University of Posts and Telecommunications, Chongqing 400065, P.R.China)
Abstract:As the infrastructure of growing Internet of things, wireless sensor networks are encountering with a number of risks of security while they gain a rapid development. A genetic algorithm used in intrusion detection for wireless sensor networks based on information entropy theory is proposed in this paper, which applies the information entropy theory and genetic algorithm to train the comparative library in the process of test. The improved method of intrusion detection combines the anomaly detection module and the feature detection one. The results of simulation show that a comparative library used in intrusion detection can be quickly generated by the proposed algorithm, at the same time, its convergence and precision are outstandingly improved in the process of intrusion detection, the detection rate is more than 99.5% and the false detection rate is less than 0.5% for some intrusion action by this proposed method.
Keywords:genetic algorithm; information entropy; intrusion detection; wireless sensor networks
DOI:10.3979/j.issn.1673-825X.2016.01.016
收稿日期:2015-04-16
修订日期:2015-12-20通讯作者:胡向东huxd@cqupt.edu.cn
基金项目:国家自然科学基金(61170219);教育部中国移动科研基金项目(MCM20150202)
Foundation Items:The National Natural Science Foundation of China(61170219);R&D Item Ministry of Education and China Mobile Science Research(MCM20150202)
中图分类号:TP301.6;TP391.9
文献标志码:A
文章编号:1673-825X(2016)01-0107-06
作者简介:
魏琴芳(1971-),女,云南人,高级工程师,主要研究方向为无线通信技术。E-mail:weiqf@cqupt.edu.cn。
成勇(1987-),男,四川安岳人,硕士研究生,主要研究方向无线安全通信技术。E-mail:chengyongn1@163.com。
胡向东(1971-),男,四川广安人,教授,博士,主要研究方向为网络化测控及其信息安全,复杂系统建模、仿真与优化。E-mail:huxd@cqupt.edu.cn。
(编辑:刘勇)