肖鹏,王柯强,黄振林
(1.云南电网有限责任公司信息中心,云南昆明 650000;2.华南理工大学电子与信息学院,广东广州 510641;3.中国南方电网有限责任公司超高压输电公司,广东广州 510700)
随着信息技术的快速发展,电力信息网络作为电力生产、管理、运行的基础,已经渗透到电力系统的各个环节[1-5]。电力信息网络的开放性、多样性、不确定性导致电力信息网络安全面临巨大的挑战[2-8],因此准确预测、感知、评估电力信息网络安全态势对确保电力系统安全稳定运行具有重要意义[9-11]。
自1999 年网络安全态势评估概念被提出以来[12],学者们开展了大量研究,建立了多种不同类型的安全态势信息评估模型。近年来,随着机器学习理论[13]的发展及成熟,径向基函数(Radial Basis Function,RBF)神经网络[14]、回归(Back Propagation,BP)神经网络[15]、支持向量机(Support Vector Machine,SVM)[16]等技术逐渐被应用于网络安全态势评估领域。文献[16]在利用灰色关联分析法确定安全态势指标权重的基础上,采用SVM 构建安全态势评估模型,获得了较高精度的评估结果,其缺点是需要人为设定模型参数,且训练时间较长,预测效率不高。文献[17]构建基于BP 神经网络的安全态势评估模型,通过建立完整评价指标体系,实现对电网安全态势的有效评估,但由于BP 神经网络存在“过拟合”的固有缺陷,导致评估结果精度不理想。文献[18]针对神经网络易陷入局部极值的缺陷,采用人工蜂(Artificial Bee Colony,ABC)算法[19]优化神经网络以提高网络安全态势的评估精度,但是ABC 算法存在收敛精度不高、易“早熟”等问题,仍需要进一步研究改进。由目前研究可知[20-21],电力信息网络安全态势评估需要处理海量数据,不同数据之间存在较大差异,如何进一步降低数据时空差异性对安全态势评估的影响值得深入研究。
综上所述,研究高效电力信息网络安全态势评估模型具有较好的实用价值和应用意义。为此,本文提出一种基于改进人工蜂群(Improved Artificial Bee Colony,IABC)算法和聚类优化RBF 神经网络的电力信息网络安全态势评估方法,以期提高对电力信息网络安全态势评估的精度和效率。
电力信息网络安全态势评估的3 个阶段分别为安全态势评估数据获取、安全态势评估数据训练和安全态势评估[22]。本文通过构建安全态势评估指标获取安全态势评估数据,采用改进密度峰值聚类(Improved Density Peak Clustering,IDPC)算法对数据进行聚类分析并得到多个数据分类,采用IABC算法优化RBF 神经网络参数,并对每个分类中数据进行训练,实现对网络安全态势的评估。
根据电力信息网络Snort 日志报警信息,结合网络安全态势指标一般选取原则,建立安全态势评估指标体系,主要包括用户数据包协议(User Datagram Protocol,UDP)、因特网控制消息协议(Internet Control Message Protocol,ICMP)、传输控制协议(Transmission Control Protocol,TCP)、攻击频率、攻击数量、流量变化率、攻击威胁等级等7 个指标。
每间隔一段时间收集网络中7 个指标数据,对数据进行无量纲归一化处理后得到数据集合D为:
式中:N为集合D规模;Xi为集合D中第i个数据;n为Xi的维度;xij为Xi的第j个指标取值。
不同时间段采集的指标数据具有较大差异性,本文采用IDPC 算法对集合D进行聚类分析,从而降低数据差异性对安全态势评估精度的影响。密度峰值聚类(Density Peak Clustering,DPC)算法作为一种新型粒度计算模型,具有参数设置简单、鲁棒性强等特点,吸引了大量学者的关注。对于集合D内的第i个和第j个数据Xi,Xj,由DPC 算法定义的局部密度和最近点距离表达式为:
式中:ρi为Xi的局部密度;ρj为Xj的局部密度;χ为指数函数;dij为Xi到Xj的距离;dc为截断距离;δi为Xi的最近点距离;γi为聚类中心判定参数。
根据式(3)计算得到集合D中所有数据的γi取值,使用DPC 算法按照γi取值大小对集合D中所有数据进行降序排列,选取前K个数据为聚类中心,得到聚类中心向量V=()v1,…,vK,vK为分类DK的聚类中心。依次计算集合D中其它数据与所有聚类中心的距离,再将数据分配到距离最近的聚类中心所在的分类中。DPC 将集合D划分为K个分类,表达式为:
式中:Di为第i个分类集合。
研究表明[23-24],对于高维复杂数据聚类问题,DPC 容易出现“假峰”现象,而且聚类个数K需要事先确定。因此,提出使用IDPC 算法分别对ρi和dc进行改进,并定义聚类准确率评价指标为:
式中:zij为Xi与其最近邻集合内数据Xj间的距离,Xi的最近邻集合可根据最近邻(K-Neaest Neighbors,KNN)算法得到[16];A(K)为IDPC 算法的聚类准确率评价指标;μij为Xi对于分类Dj的隶属度;vi为分类Di的聚类中心;vj为分类Dj的聚类中心;va为分类Da的聚类中心;λ为模糊指数。
由式(4)—式(6)可知,IDPC 算法利用式(5)来确定截断距离大小,采用指数函数对局部密度进行度量,提升了算法的聚类精度。由式(7)可知,A(K)反映了IDPC 算法的聚类效果,A(K)取值越小聚类效果越优。设置K在[2 ,Kmax] 范围内依次变化,分别利用IDPC 算法对数据进行聚类分析,A(K)取最小值时对应的K值即为最佳的聚类个数,采用IDPC 算法对集合D进行聚类分析,得到K个分类。
利用RBF 神经网络对数据进行训练,最大限度的降低数据差异性对安全态势评估结果的影响。采用IABC 算法对分类RBF 神经网络参数进行优化求解,得到最佳分类RBF 神经网络。
1.3.1 IABC算法
ABC 算法将蜜蜂定义为引领蜂、观察蜂和侦查蜂3 类。分别赋予它们不同的学习更新方式:引领蜂随机选取种群内个体进行学习;观察蜂根据自身适应度值大小,采取轮盘赌的形式随机选取种群内个体进行学习;侦查蜂则执行反向学习更新。ABC算法的主要缺陷为:忽略了种群优秀个体信息和种群个体空间差异性对进化的影响,算法收敛精度不高。为提高ABC 算法全局收敛能力,提出IABC 算法,具体步骤如下:
1)采用IDPC 算法对蜂群种群进行聚类分析,得到R个分类Pi(i=1,…,R),选取每个分类中适应度最优解组成引领蜂子种群,最差解组成侦查蜂子种群,剩余个体组成观察蜂子种群。
观察蜂的子种群内的个体仍在执行传统ABC观察蜂的更新策略。从式(8)—式(9)可知,XYL(t)选取全局最优解进行学习,加速了算法收敛速度;选取不同分类及空间差异性较大的个体进行学习,扩展了算法收敛空间,有利于提升算法收敛精度。
1.3.2 IABC优化RBF神经网络模型参数
RBF 神经网络包含输入层、隐含层和输出层,其中第j层隐含层利用径向基函数对输入变量进行非线性转换,得到输出数据hj为:
本文选取高斯函数、拟多二次函数、反常S型函数为径向基函数,q层隐含层处理O后得到隐含层输出向量H=(h1,…,hq)。利用加权矩阵对H线性加权得到RBF 神经网络输出矩阵Ym1=(y1,…,ym),RBF 神经网络模型为:
式中:Y为模型输出矩阵;ym为RBF 神经网络输出层第m层输出值;ωij为矩阵Φ内第i行第j列对应的元素值;m为输出层层数;hq为RBF 神经网络隐含层第q层输出值。
由式(10)—式(11)可知,RBF 神经网络涉及的参数主要有神经元中心集合G=(g1,…,gq)、加权矩阵、径向基函数扩展参数ψ=(σ1,…,σq)和隐含层层数q。采用IABC 对RBF 神经网络模型进行参数优化,在t时刻以引领蜂XYL(t)为例,IABC算法蜜蜂个体编码BYL(t)和目标函数表达式为:
式中:Y′,Y分别为RBF 神经网络模型期望输出值和实际输出值矩阵。
IABC 算法以式(13)为目标优化函数,种群内个体根据式(8)—式(9)进行迭代更新,当算法达到最大迭代次数时算法终止,并输出种群最优个体,最优个体对应的编码即为分类RBF 神经网络参数。
本文利用IDPC 算法对集合D进行聚类分析处理得到K个分类,对于每个分类分别采用IABC 优化RBF 神经网络参数,从而得到每个分类对应的最佳RBF 神经网络模型。对于待评估数据,找到该数据所属分类,利用该分类对应的RBF 神经网络模型进行评估预测,最终得到网络安全态势评估结果。电力信息网络安全态势评估流程图如图1 所示。
图1 电力信息网络安全态势评估流程图Fig.1 Flow chart of power information network security situation assessment
依据文献[16]将网络安全态势等级分为5 级,如表1 所示。
表1 网络安全态势等级划分Table 1 Classification of network security situation
对态势评估数据集合D内数据Xij进行归一化处理为:
网络安全态势评估评价指标设定为绝对误差E1、平均平方比误差E2和均方根误差E3,E1,E2,E3的表达式分别为:
式中:yi,分别为数据Xi的安全态势真实值和模型评估值。
经典数据库仿真实验采用CICIDS2017 数据集,该数据集包括了对电力信息网络的良性以及常见攻击类型,并能够对攻击类型进行标注。本文采取实验法来确定RBF 神经网络输入层层数。当网络安全态势评估周期设定为6 h(每间隔1 h 取样1次),即选择前5 个数据作为分类RBF 神经网络输入数据,第6 个数据作为输出数据时,得到的RBF神经网络网络安全态势评估精度最好。集合D规模设定为包含90 个评估周期的数据,选取其中75个评估周期数据为训练样本集合,15 个评估周期数据为测试样本集合,采用专家评估系统[8]对集合D中所有数据的安全态势值进行评估。
为进一步验证所提方法有效性,选取RBF 神经网络、BP 神经网络和混合递阶遗传算法优化RBF神经网络[1]进行仿真分析,不同方法的经典数据库网络安全态势评估对比结果如图2 所示。
图2 不同方法的经典数据库网络安全态势评估对比结果Fig.2 Comparison results of network security situation assessment of classic databases with different methods
由图2 可知,本文提出模型的安全态势评估值更接近于真实值,评估结果与实际值曲线拟合度更高。
经典数据库网络安全态势评估评价指标分别为E1,E2,E3,不同方法的经典数据库评价指标对比结果如表2 所示。
表2 不同方法的经典数据库评价指标对比结果Table 2 Comparison results of evaluation indicators of classic databases with different methods
由表2 可知,对于经典数据库网络安全态势评估问题,本文所提模型的E1,E2,E3指标值都明显优于传统RBF 神经网络和BP 神经网络,好于文献[1]提出的预测评估模型,证明所提模型网络安全态势评估精度更高。
为验证IABC 算法的收敛性能,选取粒子群算法(Swarm Optimization,PSO)和ABC 算法进行仿真分析,3 种算法优化RBF 神经网络参数收敛曲线如图3 所示。
图3 3种算法优化RBF神经网络参数收敛曲线Fig.3 Comparison of convergence curves of three algorithms for optimizing RBF neural network parameters
由图3 可知,相比于PSO 算法和ABC 算法,IABC 算法只需要迭代300 次就找到了最优解,而且收敛精度明显好于其它2 种算法,表明IABC 算法具有优秀的全局优化能力,是高效可行的。
2.2.1 网络仿真环境搭建
本文构建的电力信息网络安全态势评估试验网络拓扑结构如图4 所示。由图4 可知,本文构建的电力信息网络主要包括2 台路由器、4 台服务器、4 台主机、3 台交换机和3 台防火墙。与3.1 节经典数据库仿真试验相同,网络安全态势评估周期设定为6 h(每间隔1h 取样1 次),选择前5 个数据作为分类RBF 神经网络输入数据,第6 个数据作为输出数据。集合D规模设定为包含70 个评估周期的数据,选取其中60 个评估周期数据为训练样本集合,10 个评估周期数据为测试样本集合。
图4 电力信息网络安全态势评估试验网络拓扑结构Fig.4 The network topology of the power information network security situation assessment test
2.2.2 测试数据网络安全态势评估实验
对测试数据进行网络安全态势值评估,结果如表3 所示。
表3 测试数据网络安全态势评估结果Table 3 Test data network security situation assessment results
由表3 可知,本文模型对每个待评估数据分别给出了安全态势评估结果,能够实现了对实例网络安全态势的评估。
同3.1 节一样,采用RBF 神经网络、BP 神经网络和混合递阶遗传算法优化RBF 神经网络[1]进行仿真分析,不同方法的测试数据网络安全态势评估值对比结果如图5 所示。
图5 不同方法的测试数据网络安全态势评估值对比结果Fig.5 Comparison results of test data network security situation assessment values with different methods
测试数据网络安全态势评估指标分别为E1,E2,E3,不同方法的实例仿真评价指标对比结果如表4 所示。
表4 不同方法的实例仿真评价指标对比结果Table 4 Comparison results of example simulation evaluation indicators with different methods
由图5 和表4 可知,本文模型的实例网络安全态势评估结果更加接近真实值,绝对误差、平均平方比误差和均方根误差指标都明显好于传统RBF神经网络和BP 神经网络,优于文献[1]提出的预测评估模型。表明IDPC 的引入充分考虑了数据空间差异性,降低了对预测结果的影响,且采用IABC 以最小误差输出为目标函数对RBF 参数进行优化,找到了每个分类模型最佳参数配置,进一步提高了安全态势评估的准确度。
定义态势评估误判率E4为态势评估错误数据个数占测试数据的比例,为进一步对比电力信息网络安全态势评估性能,设定平均相对误差E5为:
对比RBF 神经网络、BP 神经网络和文献[1],不同方法的E4,E5评价指标对比结果如表5 所示。
表5 不同方法的E4,E5 评价指标对比结果Table 5 Comparison results of the four algorithms E4 and E5 evaluation indicators with different methods
由表5 可知,本文方法能够准确给出安全态势评估值的安全等级,优于其它3 种模型。其中RBF模型的误判率最高,超过了50%,已经不能给出合理的安全态势评估结果。不同方法的E5结果分别为0.386、0.294、0.008 7,0.003 6,本文方法得到的E5值比 其它3 种方法分别降低了90.1 %、87.6 %和58.6%,说明本文方法预测精度更高,更能准确的够评估出电力信息网络安全态势。
本文针对电力信息网络安全态势评估问题,提出一种基于IABC 和IDPC 优化RBF 神经网络的安全态势评估方法,通过构建分类RBF 神经网络安全态势评估模型,采用IDPC 对模型输入指标数据进行聚类分析,利用IABC 对模型拓扑结构进行优化,实现了对网络安全态势的高效评估,仿真分析表明,所提方法提高了电力信息网络安全态势评估精确度,具有一定的实际应用价值。