张吉生 吴旻荣 党引 任东晓 沈青
摘 要: 针对网络入侵的特征,提出一种基于SVM支持向量机的入侵危险识别模型。利用支持向量机SVM模型,混合人工蜂群HABC优化的方式,克服算法中存在早熟收敛和局部极小的问题。通过该模型实现对网络入侵信息系统自适应识别出攻击效果,有效得到网络入侵的信息系统风险评估。验证结果表明,HABC优化的SVM模型比传统危险入侵识别模型的准确度更高,收敛速度快,泛化能力增强,说明了该方法的可行性、有效性。
关键词: 安全监测; 混合人工蜂群算法; 支持向量机; 信息安全; 风险评估
中图分类号: TN915.08?34; V249 文献标识码: A 文章编号: 1004?373X(2017)07?0081?04
An adaptive monitoring and evaluation method of information system security
ZHANG Jisheng, WU Minrong, DANG Yin, REN Dongxiao, SHEN Qing
(Information and Communication Company, State Grid Ningxia Electric Power Company, Yinchuan 750000, China)
Abstract: Aiming at the characteristics of the network intrusion, an intrusion risk identification model based on support vector machine (SVM) is proposed. The SVM model and the optimization method of the hybrid artificial bee colony (HABC) are used to overcome the problems of premature convergence and local minimum existing in the algorithm. The attack effect of the network intrusion information system can be recognized automatically with this model, and the information system risk assessment of network intrusion can be obtained effectively. The experimental results show that the SVM model optimized with HABC has higher accuracy than that of the traditional danger intrusion identification models, faster convergence rate and stronger genera?lization ability, and the feasibility and effectiveness of the proposed method are verified.
Keywords: safety monitoring; hybrid artificial bee colony algorithm; support vector machine; information security; risk assessment
0 引 言
随着国家电网SG186、SGERP、三集五大等信息化建设不断深化,电力业务越来越依赖于信息通信系统,信息通信系统的安全性和可靠性将直接影响到电网企业数据信息的安全保密性[1]。然而,国家电网数据资源中往往包含大量的敏感信息,一旦泄露或遭到非法利用,将会给个人甚至是国家带来无法弥补的损失。相关数据表明,仅2015年CNVD就通报了将近136个信息系统漏洞,占信息安全漏洞总数的1.8%。多个公司的上千万条数据从数据库中泄露[2]。另一方面,入侵手段越来越丰富,短时间内入侵的监测数据产生速度越来越快,入侵的数据量飞速增长,能够达到PB量级[3],传统的监测技术面对如此大容量的数据进行逐项监测分析,工作量会大大提高,很难有效地处理与解决入侵问题。
本文利用人工蜂群算法结合细菌趋药性算法得到的混合人工蜂群算法对支持向量机SVM的参数进行寻优,再用优化后的SVM对信息系统的操作进行识别分类,判断其是否为危险入侵。同时采用密度估计算法对模型分类得到的正常操作数据进行安全范围的阈值计算,获取正常范围。在正常阈值的基础上,利用SVM模型分类出异常与正常数值,进行信息系統风险评估,实现危险程度的量化。算法识别准确度得到了大量的提升,同时算法的收敛速度快,泛化性能强,鲁棒性高,具有较好的工程指导价值。
1 SVM基本原理
支持向量机(Support Vector Machine,SVM)像多层感知器网络和径向基函数网络一样,可用于模式分类和非线性回归。
为了确保在异常入侵的任何情况下都可以将训练数据映射到足够高的维度,使它们成为线性可分的,需要在非线性硬间隔分类机的基础上引入线性软间隔分类机中的松弛变量。从而分类问题可描述为:
映射:[T=x′1,y1,x′2,y2,…,x′l,yl]
其中:[x′i=?(xi)]
分类平面:[w?x+b=0]
[minw,b12w2+Ci=1lξi]
[s.t. yi((w?x′i)+b)+1≥1-ξi, i=1,2,…,l]
对于非线性求解问题,SVM主要采用如下思想解决:通过事先选择的某种非线性映射将输入向量[x]映射到一个高维特征空间[Z,]从而在这个高維特征空间[Z]中构造最优分类超平面。支持向量机SVM的体系结构如图1所示。
2 混合人工蜂群HABC优化算法
大数据信息系统异常入侵实际上是多分类问题,支持向量机SVM的分类性能与其参数息息相关,对于SVM参数训练而言,单个参数[(C[i],g[i])]的提高并不一定就意味着系统性能的提升,但从统计意义上来说,避免每个[(C[i],g[i])]陷入较差的局部最优解有利于整个系统性能的提高,因此对SVM参数进行全局优化训练。
2.1 人工蜂群算法
本文对模型的全局搜索采用人工蜂群ABC(ArtificialBee Colony)[4]算法。如果用[E]表示蜂蜜能量,[T]表示花费的时间,则它们的目标函数[Fobj]可写为[5]:
[maxFobj=ET]
目的是搜索目标函数[F(θ)]的最大值,[θi]表示第[i]个食物源的位置,[F(θi)]就可以比作是第[i]个食物源所处位置的蜂蜜数量。某个食物源位置[θi]对应的目标函数值[F(θi)]越大,观察蜂决定跟随去开采的概率就越大。因此,每个观察蜂被招募的概率可以表示为:
[pi=F(θi)k=1sF(θk)]
2.2 细菌趋药算法
本文引入细菌趋药算法(Hybird Search),在人工蜂群算法中加入局部搜索策略,提高种群的多样性,避免早熟收敛,使用自适应Bohzmann概率调整不同搜索阶段的选择压力从而提高算法的整体性能。
假设细菌的总数为[Sn,]每个细菌的位置代表问题的一个可能解,可表示为[D]维空间中的一个向量[θi=[θi1,θi2,…,θiD],][i=1,2,…,Sn。]若用符号[θi(j)]表示第[i]个细菌经过第[j]次趋药行为后所处的位置,那么下一次趋药步骤之后,所处的位置可表示为:
[θi(j+1)=θi(j)+C(i)??(j)]
式中:[C(i)]为正常数,表示细菌[i]每次向前游动的步长单位;[?(j)]表示细菌翻滚后随机选中的另一个前进方向。
同时引入自适应Bohzmann概率,其相应的概率公式表示如下:
[pi=exp(fitiT)j=1SNexp(fitiT)]
式中:[fiti]为第[i]个食物源的适应度函数;[T]为一个参数可控制选择压力。
基于ABC算法的思想,本文提出基于人工蜂群优化算法(ABC)和细菌趋药法(Hybird)的HABC算法描述,其算法流程如图2所示。
3 大数据科目样本质量提升
对信息系统的实时信息数据进行监控,会产生大数据量的样本信息。为了提高识别危险异常入侵行为的精度,本文需要对大数据进行分布式的数据质量提升。
本文监控采用的是信通数据库后台大量的审计日志数据,包含CPU利用率,内存利用率IO,操作用户,操作时间,操作终端,操作行为,操作对象,返回码等。其中返回码有多种取值,其中0表示成功,具体的非0数值代表该操作失败的具体原因,因此返回码将所有返回非0值的失败操作统一置为1。返回值的处理见表1。
4 信息系统安全的自适应监测与评估方法
4.1 安全监测识别与评估的全局流程
本文利用模型对实时监测的操作数据进行异常入侵识别,同时用关联度对危险程度进行评估,全局整体流程如图3所示。
4.2 安全监测评估的研究方法
本文对危险程度进行具体的评估,评估值的大小反映了入侵用户对信息系统的危险程度IV,评估值越大,对信息系统安全性起到的危险程度越高。
实验数据使用的是信通公司持续收集2个月,共9周时间的网络连接和系统审计日志,其中前6周的数据都是正常数据,后3周的数据中包含各种攻击手段。数据在开始设定的协议下都被标记为正常与攻击。仿真中包含各种攻击手段,共计2亿条训练数据记录和0.4亿条测试数据。
本文以[Xin=(X1,X2,…,Xm)]为输入训练变量,[Zouti=][Zi,]对应的正常与攻击为输出变量,真实值与预测的正则均方差[6]NMSE用来衡量模型的识别精度。
对测试集中的前6周正常数据采用密度估计算法得到正常的阈值范围。
定义1:设[x1,x2,…,xn]为取值[R]的独立同分布随机变量,其服从的分布密度函数为[f(x),]定义函数:
[fh(x)=1nhi=1nKxi-xh, x∈R]
这里采用的核函数为高斯核函数。
[K(u)=12πeu22]
该式称为密度函数[f(x)]的阈值估计,[h]为预先给定的正数,通常称为窗宽或光滑参数。
本文对通过混合蜂群优化的SVM识别模型识别出的每一条危险记录数据都采用一种关联度的算法进行信息系统风险评估。
定义2:危险程度IV为:
[IV0i=miniminkx0(j)-xi(k)+ρmaximaxkx0(j)-xi(k)x0(j)-xi(k)+ρmaximaxkx0(j)-xi(k)]
式中:[ρ]为分辨系数,[0<ρ<1,]根据不同背景要求取值,通常取[ρ=0.5。]
最终通过识别模型,一旦达到工程发现的危险,就可以通过危险程度算法实现信息系统的风险评估。
5 实例结果分析
选取9周时间收集到的网络连接和审计日志数据作为原始数据,选取2亿条的数据作为训练集,0.4亿条的数据作为测试集,最后将危险识别结果与真实情况的结果对比。
原始的监测数据首先经过分布式的计算平台进行伪数据剔除、协调分析去噪、滤波、数据清理、数据归一化,代入模型中,采用经过混合人工蜂群HABC优化过的SVM模型进行危险识别,最终以危险异常点的识别准确率作为评判的标准。
将训练数据集代入到模型,再将预测数据集代入,通过计算正则均方差得到模型的识别准确率。HABC优化后的SVM与未优化SVM危险异常识别准确率的对比,如图4所示。
对HABC?SVM识别出的正常数据采用本文定义的密度估算得到正常范围的阈值后,再将实时的预测数据代入上述模型中,通过分类识别模型可以自适应发现危险,并且识别出来,具体如图5所示。
一旦发现用户的危险入侵操作,就对危险识别操作的结果通过危险程度算法实现危险程度的评估,具体结果如图6所示。
6 结 论
工程实际中,信息系统的安全往往关系到一个企业的核心利益,不断发展与变化的网络信息技术和网络入侵攻击技术越来越表现出不确定性、复杂性、多样性等特点。本文围绕大数据信息系统的安全进行自适应监测与评估方法的研究,主要创新点在于:
(1) 将人工蜂群算法与细菌趋药性算法结合起来,形成了混合人工蜂群算法HABC,有效地提高了全局參数的寻优性能。
(2) 将支持向量机SVM与混合人工蜂群算法HABC结合起来,该模型泛化性能强,鲁棒性高,同时有效地提高了入侵危险的识别准确度。
(3) 采用密度估计算法,将HABC?SVM模型识别出的正常范围数据形成安全阈值,同时模型识别出的危险入侵能够有效地实现信息系统风险评估。
参考文献
[1] 王继业,程志华,彭林,等.云计算综述及电力应用展望[J].中国电力,2014,47(7):108?112.
[2] BERGEMANN D, WAMBACH A. Sequential information disclosure in auctions [J]. Journal of economic theory, 2015, 159: 1074?1095.
[3] MARZ N, WARREN J. Big data: principles and best practices of scalable realtime data systems [M]. Greenwich: Manning Publications Co., 2015.
[4] OZTURK C, HANCER E, KARABOGA D. Dynamic cluste?ring with improved binary artificial bee colony algorithm [J]. Applied soft computing, 2015, 28: 69?80.
[5] 胡艳,韩璞.间接型目标函数对控制品质的影响[J].计算机仿真,2016,33(4):287?291.
[6] 顾燕萍,赵文杰,吴占松.最小二乘支持向量机鲁棒回归算法研究[J].清华大学学报(自然科学版),2015,55(4):396?402.