电网调度通信网恶意入侵行为的自动化监测

2023-04-06 05:41
测试技术学报 2023年2期
关键词:断点通信网特征值

高 宇

(国家电网公司东北分部水电管理部,辽宁 沈阳 110180)

在应用业务不断增加的背景下,电网调度通信网规模日趋扩大,结构复杂度随之提升,如果电网调度通信网络存在安全问题,很可能被一些不良分子利用,如窃取私人信息、篡改关键数据等[1]。

目前,恶意入侵行为是危害电网调度通信网安全最严重的行为,它是指利用充满恶意的程序、脚本等破坏网络的完整性,包括木马、勒索软件、蠕虫等。恶意入侵行为含有复制、抗查杀、扩散速度快等特点,在网络中的存在形式十分复杂、顽固,从而给电网调度通信网带来巨大威胁[2]。电网调度通信网恶意行为检测的传统方法一般是利用电网监控告警信息系统采集和监视,但该系统针对的是全电网数据,很难从海量电网数据中挖掘出调度通信网恶意行为信息。随着恶意入侵行为数量持续增加,为降低电网调度通信网的安全风险,保证电力系统稳定运行,研究有效的恶意入侵行为自动化监测方法具有重大意义。

该课题引起很多相关专家学者的关注,例如孙国强等[3]通过知识库与深度学习的融合,实现恶意入侵行为自动化监测,该方法的监测精度高达97.11%,但采集的特征存在大量冗余,计算复杂度较高,导致检测时间较长;吴丽佳等[4]基于压缩感知技术对原始信号进行降维处理,并匹配观测向量矩阵,对电力数据进行重构,实现恶意入侵行为的自动化监测。该方法具有较高的监测覆盖率,但监测时长有待优化。

为了解决现有研究方法检测时间较长的问题,进一步提高检测效率,本文提出基于数据挖掘和机器学习的电网调度通信网恶意入侵行为的自动化监测方法。基于行为字节序列,利用变长N-gram滑动窗口,提取恶意入侵行为特征;采用过滤类特征选择算法,将恶意入侵行为特征降维;训练机器学习算法的朴素贝叶斯分类器,实现电网调度通信网恶意入侵行为的自动化分类监测。实验结果证明,本文方法能够对恶意入侵行为进行高效监测,及时采取针对性措施,减少其对电网调度通信网的恶意破坏。

1 电网调度通信网恶意入侵行为的自动化监测方法

数据挖掘可以有效获取样本原有特征,机器学习对特征中的规律和模式具有极强的自动学习能力,因此,本文将两种技术结合,共同实现电网调度通信网恶意入侵行为的自动化监测。

1.1 电网调度通信网恶意入侵行为特征提取

使用行为字节序列表示电网调度通信网入侵的恶意入侵行为特征,通过变长N-gram滑动窗口完成特征提取。

变长N-gram是一系列有价值的不间断字节序列,可称为段落,需将断点从字节序列内搜索出来,两个邻近断点间的不间断序列即段落,引入专家投票算法划分段落。

设置频率专家和熵专家,分别测量每个子序列的次数和每个点的熵。如果子序列成为段落的概率很高,断点的概率很小,则子序列出现的次数较多;如果一个元素很有可能是段落的结尾,那么这个点的熵更大[5-6]。每个位置都包含分数,两个位置的分数相加1,位置分别满足最大熵和最大频率,并存在于等长滑动窗口中,可能断点位置的确定可以通过在每个位置获得的总分来完成。要提取的特征是两个断点之间的连续序列。

使用深度为4的字典树(Trie)完成上述算法,有效计算字节序列内各点的熵与频率。深度用d表示,子序列是指采集的d-1个序列内的字节,将获取的各子序列放入字典树,若其内包含某子序列[7],则它的频率值加1;若不包含某子序列,则它的频率值为1。

字典树内节点频率的表达式为

(1)

节点的熵由式(2)表示

(2)

式中:x0表示叶节点,用x0表示初始节点,其父节点所含子树数量用i表示。由式(2)发现,x0的熵等于0。

(3)

(4)

式中:f(x)和e(x)表示各节点频率与熵标准化处理结果;Leveli表示字典树的字节序列。

随着专家对可能断点的选择,断点位置的分数逐渐增加,在滑动窗口完成整个字节序列的查询后,将通过分数获取的局部极大值位置作为断点。

1.2 电网调度通信网恶意入侵行为特征降维

采用加权信息增益的过滤类特征选择算法,实现电网调度通信网入侵的恶意入侵行为特征降维,以减小无关特征对后续分类性能的影响,提高学习算法的学习效率。

信息增益的表达式为

I(X;Y)=H(X)-H(X|Y),

(5)

式中:X,Y分别为两个变量,X的信息熵用H(X)表示;当Y确定时,X的条件熵用H(X|Y)表示。从式(5)可知,X在Y附近的平均不确定性消除相当于自Y内采集X的信息增益。在电网调度通信网恶意入侵行为的自动化监测中,处于j位置的特征平均信息量用信息增益IG(j)表示,其表达形式为

(6)

式中:处于j位置的特征属性值用vj表示,如果想表明不包含该特征,则vj的值等于0,如果想表明包含该特征,则vj的值等于1;类型分为正常行为与恶意入侵行为,处于i位置的类型用Ci表示;其内处于j位置的特征值等于vj的占比,用P(vj,Ci)表示;训练样本内,处于j位置的特征值等于vj的占比,用P(vj)表示;该样本内Ci的占比用P(Ci)表示。特征的分类作用越大,信息增益就越高。

信息增益法容易忽略特征表示次数的影响,因此,提出了加权信息增益法。

处于j位置的特征属性值的加权信息增益表达形式为

(7)

式中:处于j位置的特征权重用λj表示。在恶意入侵行为的自动化监测过程中,某特征对其的有效性可使用它呈现于行为内的平均次数比进行评价[10-11],λj的计算过程为

(8)

式中:于正常行为之内,处于j位置的特征呈现次数总和用fjB表示;于恶意入侵行为之内,处于j位置的特征呈现次数总和用fjM表示;正常行为包含于训练样本内的数量用NB表示;恶意入侵行为包含于训练样本内的数量用NM表示;调节参数用α表示,并且α=1。在fjB,fjM均不等于0的情况下,在两种类型行为内,若λj和处于j位置的特征呈现平均次数比变化趋势相同;若两者之一等于0,λj和fjM的变化趋势相同。

1.3 自动化分类监测实现

完成电网调度通信网入侵的恶意入侵行为特征提取及降维后[12],使用所得特征对朴素贝叶斯分类器进行训练,可以实现电网调度通信网恶意入侵行为的自动化分类监测。

训练实例集合用D={d1,d2,…,dm}表示;各实例均存在提前设定好的类型,用Ci表示,且{Ci}=C。

未确定类型的数据样本用Ai表示;任意事件用B表示,在其已发生的条件下,Ai出现的概率用P(Ai|)表示,计算过程为

(9)

运用该分类器的学习过程中,可通过属性值的合取表示各实例x,目标函数用f(x)表示,其取值区域为任意有限集合C。和目标函数相关的训练样本与新实例用特征向量〈v1,v2,…,vn〉表示,学习器的主要任务式对新实例的目标值进行预测[13]。以设置的实例属性值为基础,分类器可根据式(10)计算可能性最大的目标值Cmaxp

(10)

通过贝叶斯公式,将式(10)更新为式(11)所表示形式

(11)

朴素贝叶斯中包含概率独立设定,条件概率用P(Ci|d)表示,在对其进行计算过程中,就指定的Ci而言,v1,v2,…,vn之间不存在关联,表现为某特征项vj(j=1,2,…,n)和加权信息增益法降维后的特征属性值IW(j)(j=1,2,…,n,j≠i)具有独立性,此关系表示为

(12)

将每个特征项之间设定成相互独立,则计算复杂度可极大降低,且精准性会进一步提升。将式(12)与式(11)相结合,所得结果为

(13)

在利用朴素贝叶斯完成分类的过程中,类别数、P(Ci),P(IW(j)|Ci)均已知,在特征项确定的情况下,对各类别的后验概率进行计算[14-15],获取含有概率值最大的预测类别。

2 实例测试与结果分析

从公开的入侵检测数据集CIC-IDS-2017样本库中,采集521个正常行为与625个恶意入侵行为及其变种行为作为实验对象(如图1 所示),在使用MATLAB仿真软件搭建的环境中,利用本文方法完成电网调度通信网恶意入侵行为的自动化监测模拟,以验证该方法的有效性。

图1 电网调度通信网及其恶意入侵行为程序

测试不同恶意入侵行为特征长度时,使用本文方法监测不同类型恶意入侵行为的漏报率,结果如图2 所示。

分析图2 可以看出,本文方法监测不同类型恶意入侵行为的漏报率随着恶意入侵行为特征长度的增加而降低;该方法对病毒类型恶意入侵行为的漏报率始终处于最低数值,且漏报率下降幅度最大;该方法对后门程序类型恶意入侵行为的漏报率一直保持最高。

图2 不同恶意入侵行为特征长度的漏报率

恶意入侵行为特征长度对电网调度通信网恶意入侵行为的自动化监测效果影响深刻,选择较大的恶意入侵行为特征长度监测病毒类型恶意入侵行为的效果最好。

分别选取5个正常行为(A)、恶意入侵行为(B)及其变种行为(C)进行测试,P<0.01满足P<0.05,统计结果显著,具有统计学意义。3种行为的危险等级分别为一般、中等、危险,使用本文方法获得的特征值和监测情况如表1 所示。

分析表1 可以看出,本文方法计算的正常行为特征值介于0.1~0.3之间,最大特征值为0.26;恶意入侵行为及其变种行为的特征值均高于0.7,且变种行为的特征值始终高于其它两种行为的特征值;对于正常行为,本文方法呈现出未拦截状态,并将其划分为一般等级;对于恶意入侵行为及其变种行为,本文方法能很好地进行拦截,且划分的危险等级符合设定标准。由以上结果可得,危险等级越高的行为,其特征值越大,本文方法能有效辨识正常行为和恶意变种行为,具有良好的电网调度通信网恶意入侵行为的自动化监测效果。

表1 3种行为的特征值和监测情况

由表1 数据测试本文方法在自动化监测过程中,正常行为与恶意入侵行为访问的信任度

(14)

结果如图3 所示。

分析图3 可以看出,正常行为访问电网调度通信网的信任度在80%~100%区间内变化,起伏程度较小;恶意入侵行为的访问信任度始终低于30%,且波动较为剧烈,当进行60次实验时,所得信任度最低,约为0.9%。对比这些数据表明,本文所提方法的电网调度通信网恶意入侵行为的自动化监测效果较优异。

图3 正常行为与恶意入侵行为的访问信任度对比

测试本文方法使用前后监测的不同类型恶意入侵行为数量的变化情况,结果如图4 所示。

图4 本文方法使用前后的恶意入侵行为数量变化

从图4 可以看出,在本文方法使用前,监测的恶意入侵行为数量均高于30,特别是间谍类型恶意入侵行为数量高达75;在本文方法使用后,监测的不同类型恶意入侵行为数量显著降低,始终在20以下变化。对比以上结果可得,本文方法通过恶意入侵行为的自动化监测,对提升电网调度通信网安全具有重要作用。

根据某电网调度通信网的恶意入侵行为历史记录,上午9:00至9:50是一天中入侵行为发生的高峰时段,因此,以上午9:00为初始时间,对行为特征值在0.7~0.8之间的难以识别的10个恶意入侵行为进行入侵自动化监测模拟,测试恶意行为检测效率。为了提高实验的客观性,增加文献[3]方法、文献[4]方法作为对比方法,测试3种方法的最早捕获时间,结果如图5 所示。

图5 恶意入侵行为最早捕获时间结果对比

分析图5 可以看出,本文方法的不同恶意入侵行为最早捕获时间均保持在9:10以内,且对AF,Memo和Killer行为的捕获用时不到5 min;而其他两种方法的最早捕获时间都在9:10之后,尤其对AIM行为的捕获用时高于25 min。由此表明,本文方法的电网调度通信网恶意入侵行为自动化监测效果极具优势,能较早地发现网络威胁,有效防止恶意破坏。

3 结 论

恶意入侵行为给电网调度通信网带来的安全威胁日益严重,在此背景下,本文将数据挖掘和机器学习技术相结合,共同实现电网调度通信网恶意入侵行为的自动化监测,为电网调度质量和电力系统平稳运行提供保障,有效监测恶意入侵行为,且对不同恶意入侵行为均具有较短的捕获时间,可极大地减少恶意入侵行为数量,电网调度通信网安全性能显著提高。

猜你喜欢
断点通信网特征值
一类带强制位势的p-Laplace特征值问题
单圈图关联矩阵的特征值
一类无限可能问题的解法
基于SDN-MEC配用电通信网任务迁移策略
GSM-R通信网多径干扰解决案例
PTN在电力通信网中的工程应用
主导电回路发生断点故障判断方法探讨
电力通信网引入ASON技术探讨
基于商奇异值分解的一类二次特征值反问题
关于两个M-矩阵Hadamard积的特征值的新估计