乜国雷
(青海民族大学,青海西宁 810003)
入侵检测系统 (intrusion detection system,IDS)是用于检测计算机异常行为操作的一种主动安全防护措施,它从系统的各种资源主动采集数据信息来分析其中可能存在的入侵行为[1].对于它的研究,吕志军等[2]提出了基于强规则和基于弱规则的关联规则挖掘方法来检测那些异常操作较少和分布时间长等不易的网络攻击.杨向荣等[3]提出了一种具有自主学习、自主完善功能的入侵监测模型,可发现已知和未知的异常入侵活动.有研究者[4]为了实现高速网络环境下的入侵检测,对入侵检测的机理进行探讨,将入侵检测归结于不完备数据集上的推理过程,提出知识库的相似度、完备度等概念,并用其对知识库的规模和增长速度进行控制,从而保证入侵检测在有限规模的空间中进行搜索.钱鹏程[5]为了解决关系数据库模式和本体间的集成问题,存在映射关系,针对模式映射算法,提出了一种基于概念间相似度的计算策略.基于以上研究,笔者提出了一种基于本体映射的网络自适应入侵检测系统模型 ANDIDSMOM (A network adaptive intrusion detection system model based on ontology mapping).
在ANDIDSMOM模型中,待测数据集是否异常,由数据评估决定,当数据评估通过本体映射时,若相似度在阈值范围内,才被认为是正常的、可靠的数据集.
数据集可能是位于主机的,也可能是正在网络中传输的,也可能是混合型的数据包[6],该模型采取基于网络的数据为采集对象,对计算机网络中所有信息资源进行检测,挖掘潜在数据集的安全性,使整个网络健壮性有一定的提高.当数据集采集完成后,需要对数据集进行预处理,该模型即对数据集进行本体抽取,按照本体的概念,对所有数据集的知识主体进行获取,构建本体知识库,以作为本体映射的参考.同时针对已知的异常数据集和挖掘的预测数据集建立特征库,作为待测数据集被数据评估集认定为入侵时,予以特征检测.
检测开始时,待测数据集首先进行本体获取,对待测数据集所涉及的知识进行抽取,形成本体,然后和本体知识库进行映射,若相似度在阈值范围内,则认为属于可靠行为,否则,置放进数据评估集.然后根据特征库进行相似度判定,若属于用户误操作,对用户提供建议,否则,若属于异常入侵,予以报警,同时对本题库和特征库进行更新.
定义1: 本体.本体由一个5元组[7]{C,R,H,Rel,A}来表示,其中C和R表示2个不相交的集合,C中的元素为概念,R中的元素为关系,H为概念层次,即概念间的分类关系,Rel为概念间的非分类关系,A表示本体公理.构造本体的任务即概念的获取,概念间分类关系和非分类关系的提取和公理的抽象表达.
定义2:信息共享含量.2个对象对同一知识领域和范围内数据元或知识元的包含程度,设数据元为E,则:
式(1)中K为信息含量树Y的节点集合,A和B为具体含有数据元E的信息含量节点,P(E)表示数据信息E被访问的频率,Dep(A,B)为节点含量树Y中深度最大的2个具体节点.信息含量树Y自顶向下按照信息含量排列,共享信息含量节点集合D中包含持有数据元E的节点,其深度越大,访问的频率越大,该函数是一个单调递增函数,即被访问到的频率越大,信息含量X对数据元E包含越充足.
定义3:本体映射.本体之间共享信息含量的接近程度,即信息含量树Y中节点与搜索语句的最短查询路径.
式 (2)引入Li在文献[9]中提出的一种有效地度量IS-A概念树上2个概念之间相似度的函数.该模型采取信息含量树和待测数据集本体所包含信息含量的最短查询路径衡量本体的映射程度,所以将其引入信息含量树Y中节点与搜索语句的最短查询路径的计算中,其中A和B是信息含量树上的任意两个概念,是它们在兴趣树上的最短路径,h是它们的深度,公式 (2)表示2个对象的接近程度关于单调递减,关于h单调递增.其中和用来调整和h对接近程度的影响,根据 Li的测试, α=0.2, β=0.6 是获得最佳度量效果的优化值.
该模型可用1个14元组 {Z,S,X,Y,K,M, T, E, σ, ζ, ω, φ, P, W}来表示.其中 Z为知识库,S为本体知识库,X为信息含量,Y为信息含量树,K为其树的节点集合,M为本体分析,T为特征库,E为数据元或者某一知识元,σ为本体映射阀值,ζ为特征分析值,其值{0,1},赋值为1时表示属于入侵数据,予以报警,否则赋值为0时,认为是误操作,给用户以建议.ω为本体映射接近程度值.φ为特征分析中预设警戒值.P为数据评估集.W为误操作行为.
本体映射算法目前常用的是基于相似度的计算,不同学者针对相似度计算提出了不同的模型,如基于语义距离、基于信息内容、基于特征和混合模型.一部分学者对模型算法进行了改进,如文献 [7],该模型中基于以上算法研究,提出一种共享信息含量的算法,即对待测数据集的本体所含有的信息含量与本体知识库中本体元所含有的信息含量进行映射,在本体知识库中,本体按照某一知识板块中信息含量关于某一知识元或者其中的某个数据元共享信息含量的高低,形成信息含量树,该树是按照信息含量的大小自顶向下排列的,那么顶层范围树节点的相似性越大,共享的信息含量越接近,从而本体所表达的领域和范围与用户所搜索的实际需求越接近.若接近程度在阈值范围内,认为是正常操作,否则置放进数据评估集,进行特征分析,若接近度趋于误操作,提供给用户操作建议,否则报警.
试验环境为服务器一台IBM3650, 基本配置为2×4 core 2 G CPU;2 G内存;300 G磁盘;操作系统为WIN2003 SERVER标准版;编程环境为VC++2005.试验数据参考MIT林肯实验的DARPA 1999年评测数据集,由于目前无法获取纯净数据,故需要对数据经过多次训练来降低噪音影响.本系统分为2个阶段,第一阶段进行本体库和特征库的训练,对数据集进行本体抽取建立本体库,对已知攻击类型的数据集建立特征库.第二阶段为检测阶段,首先对待测数据集进行本体抽取,然后和本体库进行映射,若低于阈值,则置放与数据评估集,进行特征库匹配,若和特征库中某个特征相似度大,则予以报警,否则提供给用户误操作建议.
本试验中取σ=0.6,φ=0.4.通过5种常见攻击和100次误操作,对系统进行测试, Land、Neptune、 Pod、 Teardrop、 Nmap、 W1 的检测率分别为100%、97.50%、99.30%、98.01%、98.00%.
通过实验测试可知,该系统具有良好的检测率和报警率,并且对误操作和可疑操作能予以识别.
[1]Mukkamala S,Sung A H,Abraham A.Intrusion detection using all ensemble of intelligent paradigms[J].Journal of Network and Computer Application,2005,28(2):167-182.
[2]吕志军,袁卫忠,仲海骏,等.基于数据挖掘的异常入侵检测系统研究[J].计算机科学,2004,31(10):61-65.
[3]杨向荣,宋擒豹,沈钧毅,等.基于数据挖掘的智能化入侵检测系统[J].计算机工程,2001,27(9):17-102.
[4]Shi Zhi cai.Research on intrusion detection with selfadaptability for high speed network [J].Computer Engineering and Applications,2009,45(17):88-90.
[5]钱鹏程,王英林,李鹏.基于相似度的关系模式和本体间映射算法[J].计算机仿真,2009,26(11):102-105.
[6]Barford P,HIine J,Plonka D,et al.A signal analysis of network traffic anomalies [J].Internet Measurement Workshop,2002(1):7 1-82.
[7]Maedche A.Ontology Learning for the Semantic Web[M].Boston: Kluwer Academic Publishers, 2002.
[8]Chen Han Hua, Jin Hai, Ning XiaoMin.SemreX:A Semantic Similarity Based P2P Overlay Network [J].Journal of Software,2006,17(5):1170-1181.
[9]Yuhua L, Bandar Z A, McLean D.An approach for measuring semantic similarity between words using multiple information sources[J].IEEE Trans.on Knowledge and Data Engineering,2003,15(4):871-882.