巢巍, 刘涛, 崔洋, 郑波, 陈彬, 杨真
(中国移动通信集团设计院有限公司湖南分公司, 湖南, 长沙 410003)
无线通信系统发展迅速,许多黑客利用网络中的安全缺陷和漏洞攻击网络,DDoS攻击、病毒木马植入、网络钓鱼和漏洞式攻击等网络攻击方式对无线通信系统安全提出严峻挑战[1]。目前无线通信系统中部署大量入侵防御系统、防火墙、防病毒网关等相关网络安全设备,这些设备虽可实现网络漏洞管理、内部威胁检测等危险检测,但运行过程中会形成大量日志文件[2],海量日志文件中的信息所描述网络安全态势存在较高的误报以及漏报情况,无法实现无线通信系统整体安全态势精准感知预测[3]。
安全态势感知具有较高动态性,可体现整体感知网络攻击能力[4-6]。目前已有大量高科技技术应用于无线通信系统安全态势感知预测中,大数据分析技术以及机器学习技术是目前应用于无线通信系统安全态势感知预测中的有效方法。通过大数据分析技术的关联规则挖掘方法挖掘可能影响无线通信系统安全态势的重要信息[7],利用高效的机器学习算法实现无线通信系统安全态势精准感知预测,提升无线通信系统整体网络安全态势感知预测实时性。
目前针对网络安全态势感知研究较多:陈维鹏等[8]研究基于改进的BP神经网络的网络空间态势感知系统安全评估;韩晓露等[9]研究基于IFS-NARX模型的网络安全态势预测,均可实现网络安全态势感知,但感知精度较差,不具备实用性。研究机器学习与大数据分析的无线通信系统安全态势感知预测,将机器学习技术与大数据分析技术相结合,实现无线通信系统安全态势感知预测,提升无线通信系统的通信安全性。
无线通信系统中包含众多的安全设备,其中包含海量报警信息量,报警信息中包含虚假报警以及真实报警信息,利用关联分析技术可明确海量日志信息的安全态势感知的信息来源[10]。大数据具有数据类型复杂、价值密度低以及数量巨大的特点,利用大数据分析技术可提升海量数据处理准确性、效率性以及实时性。研究机器学习与大数据分析的无线通信系统安全态势感知预测,针对无线通信系统内安全态势数据具有的多模式、多力度以及海量特点,并行处理海量数据,提升安全态势感知预测精度。所研究的无线通信系统安全态势感知预测总体结构图如图1所示。从图1可以看出,通过数据采集、数据预处理、数据存储、大数据分析以及安全态势展示层5部分实现无线通信系统安全态势感知预测。采集无线通信系统内的报警信息,对所采集数据实施数据清洗、数据集成等预处理,将完成预处理数据存储于HDFS分布式文件系统以及HBase非关系型分布式数据库中,便于大数据分析技术中的关联规则挖掘调取,挖掘数据中所包含关联规则后,利用GA-RBF算法实现安全态势感知预测,并将预测结果发送至展示界面。
图1 总体结构图
利用模糊分区聚类的大数据关联挖掘算法实现海量关联数据区域分割处理[11]。G(L1,L2,…,Ln-1,Ln,E)表示海量大数据关联语义规则特征量层次网络,其中Li与E⊆(U(Li×Li+1))分别表示各模糊分区网格内数据存储节点以及数据聚类内关联组Li+1和邻近数据聚类中心Li相连的集合,用uv表示数据聚类中心分布集合内随机元素,节点v(v∈Li+1)与聚类后所建立层次图u(u∈Li)相连属于一组有向向量集。
用m与G(F)={F1,F2,…,Fm}分别表示关联数据挖掘的集合基数以及第一层节点依据权值聚类所获取与k关联的变元对象集合,获取关联数据挖掘规则特征分布公式如下:
(1)
式中,ni与nj分别为二维数据的相关度以及层次聚类的收敛系数,α与β分别表示属性权重以及相似度阈值,wl表示可确定模糊分区的关联语义集。通过以上过程利用模糊分区方法实现优化聚类所提取的数据关联特征。
依据聚类结果实现无线通信系统相关数据语义划分,建立依据检验准则和判别统计量实现数据挖掘的聚类属性判断[12],获取大数据关联挖掘判决统计量公式如下:
(2)
(3)
利用随机二维关联数据挖掘相关度获取相关度矩阵如下:
(4)
获取数据关联挖掘判断准则公式如下:
(5)
(6)
设置阈值Qc,当Q0与〈Qs〉间绝对误差高于Qc时,令:
p(|Q0-〈Qs〉|>Qc)≤0.05
(7)
设数据关联挖掘置信度为95%,利用均匀正态分布特性可得公式如下:
(8)
式中,S≥2时,表明数据挖掘在模糊分区聚类中心收敛概率为95%,原假设成立,关联规则的数据挖掘结果可符合收敛条件。
安全态势感知预测是定量分析网络安全性的重要手段,可精细度量网络安全状态,对于提升网络安全具有重要意义。
安全态势感知预测需依据态势指标时间序列特点[13],利用合适的粗度粒度分析安全态势指标实现精准预测。选取GA-RBF算法实现安全态势感知预测。x=f(t)表示依据态势指标粗度粒度所建立时间与权值抽象序列,分类指标建立时间序列安全态势向量集合用X={xj|xj∈R}表示。安全态势感知预测实际上是将各数据从输入空间RN映射至输出空间RM。RBF神经网络是作为安全态势感知预测训练模型具有较高优势的神经网络,精确性以及收敛性高,通过全局搜索算法提升隐层节点确定精度。将控制因子与遗传因子数据集合设置为径向基函数神经网络初始集合[14],所获取精度符合神经网络训练需求时,可快速实现收敛。
精度训练函数公式如下:
(9)
利用式(9)所获取精度确定复杂度收敛速度,体现期望值与真实值变化趋势。确定安全态势感知预测的直接反应收敛速度公式如下:
F2=L
(10)
利用所获取目标函数实现适应度建立,获取适应度函数公式如下:
(11)
利用式(11)所获取的适应度获取样本副本,利用适应度将所获取样本副本遗传至下一代。适应度值应为最优,利用以下公式确定适应度值有效性:
(12)
式中,f与fsum分别表示i值的适应值以及全部集合适应值,N表示全部集合数量。
利用适应度值确定下一个集合优化,个体i待复制数量为Vi时,需充分考虑初始集合以及隐含层节点宽度,实现控制因子参数的因子值确定。通过参数因子以及控制因子交叉确定新集合公式如下:
(13)
式中,a表示随机变换因子。
通过以上交叉因子以及控制因子组合运算,实现生物遗传突变过程模拟,通过获取新种群实现快速准确集合变异,获取神经网络隐含层节点以及确定最终种群,通过以上过程实现无线通信系统安全态势感知精准预测。
为验证所研究机器学习与大数据分析的无线通信系统安全态势感知预测方法对于无线通信系统安全态势感知预测有效性,选取某校园网网管中的无线通信系统作为实验环境,将校园网数据库中的3 000个数据作为实验数据,利用SQL Server 2008作为所安装硬件资产,选取其中1台台式机作为客户端,全部操作集中于该台式机上,另设置3台电脑为攻击终端。选取改进BP神经网络方法以及IFS-NARX方法作为对比方法。
统计采用3种方法挖掘无线通信系统中通信数据执行时间随挖掘次数变化情况如图2所示。从图2实验结果可以看出,采用本研究所提方法挖掘无线通信系统网络通信数据,不同挖掘次数情况下的挖掘时间均低于另2种方法。本研究所提方法由于采用大数据分析技术,具有较高的数据分析效率,针对网络数据具有较高的挖掘效率,为保障数据安全提供基础。
图2 挖掘时间对比
采用本研究所提方法对实验数据进行模糊分区聚类挖掘关联规则,测试不同迭代次数情况下无线通信系统吞吐量变化情况,对比结果如图3所示。从图3实验结果可以看出,采用本研究所提方法挖掘实验数据中的关联规则均具有较高的吞吐量,采用另2种方法挖掘实验数据中关联规则吞吐量明显低于本研究所提方法。吞吐量越高表明无线通信系统的通信性能越优,有效验证本研究所提方法具有较高的收敛性能,系统的通信性能较强,关联规则挖掘效果较好,能够将安全态势关联规则数据准确挖掘,提升安全态势精准预测能力。
图3 吞吐量变化对比
将实验数据随机分为6组,每组数据数量不固定。统计采用本研究所提方法挖掘不同数据量情况下关联规则的挖掘均方误差,挖掘结果如图4所示。从图4实验结果可以看出,采用本研究所提方法挖掘不同数据量情况下关联规则的均方误差均明显低于另2种方法,说明采用本研究所提方法具有较高的数据挖掘性能,可应用于无线通信系统安全态势感知预测中。
图4 挖掘均方误差对比
统计采用本研究所提方法在不同时刻下感知预测安全态势走势图,并将本研究所提方法预测结果与实际安全态势走势对比,验证本研究所提方法的安全态势感知预测有效性,预测结果如图5所示。从图5实验结果可以看出,采用本研究所提方法感知预测无线通信系统的安全态势预测值与实际安全态势值极为接近,验证本研究所提方法具有较高的安全态势预测效果。本研究所提方法采用大数据分析技术分析实验数据,利用遗传算法优化径向基神经网络实现安全态势感知预测,有效提升安全态势感知预测结果,具有较高应用性。
图5 态势感知对比图
统计采用本研究所提方法感知预测无线通信系统安全态势结果的预测精度,并将本研究所提方法与另2种方法对比,对比结果如图6所示。从图6实验结果可以看出,采用本研究所提方法感知预测无线通信网络安全态势的预测精度均高于99%,采用另2种方法感知预测无线通信系统安全态势预测精度均低于98.5%,对比结果有效验证本研究所提方法具有较高的安全态势感知预测性能。
图6 预测精度对比
统计采用本研究所提方法感知预测无线通信系统安全态势的漏告警率,并将本研究所提方法与另2种方法对比,对比结果如图7所示。从图7实验结果可以看出,采用本研究所提方法感知预测无线通信系统安全态势漏告警率明显低于另2种方法,再次验证采用本研究所提方法感知预测无线通信系统安全态势精准性。
图7 漏告警率对比
无线通信系统中包含海量数据,从海量数据中挖掘影响安全态势的风险数据是安全态势感知的基础。将机器学习技术与大数据分析技术相结合应用于无线通信系统安全态势感知预测中,通过实验验证采用该方法感知预测安全态势具有较高有效性,可应用于无线通信系统网络安全防护中。本文研究方法可从整体体现无线通信系统安全状况,对于通信网络未来安全趋势同样具有较强预测精准性,但研究还存在不足之处,在安全态势感知预测过程中未能针对网络波动问题作出有效解决方案,今后会着重针对该问题进行深入研究。