基于机器学习与大数据技术的入侵检测方法研究

2024-01-24 10:10张益兵
电子设计工程 2024年2期
关键词:模式匹配预处理机器

张益兵

(中国电力财务有限公司,北京 100005)

智能电力系统的迅速发展,使其所处的网络环境、攻击方式也日趋复杂。当前,电力系统终端安全防护机制存在着较大缺陷。对电力系统的智能配电终端进行入侵检测,可以及时有效发现与处置电网攻击,从而改变电网被动防御状况,降低用电安全风险,减少经济损失。为了确保电网的安全,需要快速、准确地分析入侵行为。

文献[1]提出了基于二次决策的入侵检测模型,该模型结合了深度堆栈自动编码器和神经网络,对入侵行为进行自动学习。使用自动编码器对特征压缩处理后,加入区分异常数据的第二阶段训练过程中。结合神经网络进行异常数据训练,完成入侵检测。文献[2]提出了一种基于深度序列的检测方法,该方法通过构建深度网络模型学习历史数据,并对其进行降维处理。利用学习监督机制约束入侵数据学习过程,根据实际情况在线更新输出学习结果。目前,大多数入侵行为都是通过攻击特权进入程序来破坏系统安全,该过程在时间和空间上都处于稳定状态。使用上述两种方法无法捕捉全部入侵行为数据,为此,结合机器学习与大数据技术进行入侵检测。

1 入侵行为分析模型构建

在电力系统中使用机器学习与大数据技术相结合的方式来检测入侵行为,构建的模型如图1 所示。

图1 入侵行为分析模型

由图1 可知,电力系统数据来源多样且格式复杂,只有对这些数据进行预处理得到统一格式后,才能交付给其他模块[3]。在多源环境下,需要按照数据重要程度分析不同数据之间的关联属性,该过程容易受到海量数据影响,花费大量时间。因此,使用大数据技术来约减数据[4]。

数据约减处理是通过插入、删除和替换操作,将属性集转换为目标字符串的基本操作。当两个属性集转换为目标字符串形式时,利用编辑距离来表示转换后的两个字符串之间的距离,公式为:

式中,gi表示属性集ci的字符串转换结果;gj表示属性集cj的字符串转换结果[5];(i,j-1)+1 表示字符串gj删除一个字母;(i-1,j)+1 表示字符串gj插入一个字母[6]。

设λ为经验阈值,表示两个属性集之间的关联程度,如果Sgigj(i,j)>λ,则表明两个属性集之间不存在关联关系。如果(i,j)<λ,则表明两个属性集之间存在关联关系[7-8]。式(1)计算结果越大,则说明两个集合属性越相似。

将约减后的数据作为机器学习的入侵检测数据,主要用于分析入侵行为。机器学习过程如下:

步骤1:根据独立分布的样本数据,分析任意两个数据之间的属性集关系[9-10];

步骤2:提取属性特征,整合全部特征,得到最终关系特征集[11];

步骤3:计算特征集权重,构建判断矩阵,如下:

式中,D表示关系特征集的主特征根;n表示阶段数。通过比较任意两个属性集,对其进行归一化处理后,可获取一致性指标[12];

步骤4:根据一致性指标,对入侵行为进行定量描述,由此完成入侵行为分析模型的构建。

2 基于大数据技术的异构数据预处理

由于入侵行为分析数据较多,且每条数据都具有不同属性,这些属性既有数值型的,也有符号型的[13]。因此,为了处理这些数据,引入异构值差度量距离函数进行归一化预处理。

设两个异构数据集分别为a、b,对应的属性分别为ai、bi,这两个数据在第i个属性上的度量距离为:

式中,σ2表示平方误差。

针对非线性可分解的样本数据,采用Mercer 核函数将样本映射到特征空间,并在特征空间内生成线性决策面,从而解决了在输入空间中直接进行非线性分割的问题,如图2 所示。

图2 样本映射到特征空间示意图

由图2 可知,全部样本数据映射到特征空间后,避免出现异构数据,由此完成异构数据预处理[15]。

3 基于机器学习的入侵检测

将预处理后的数据作为机器学习输入数据,通过事先准备好的规则来定义入侵行为,并对每个规则进行遍历,从而对数据包负载进行检测。一旦找到,则上报告警信息[16]。在检测过程中,将检测过程划分为多模匹配与校验两部分。当检测规则载入规则集合之后,规则集合会被预先组合,把具有同样特性的规则放到同一签名组中,通过规则匹配实现入侵检测。

第一部分:多模式匹配阶段。首先,将信息输入到规则匹配引擎中,然后按照所得到的信息特征进行识别。报文将首先进入检测的第一阶段,即多模式匹配阶段。在多模匹配阶段,通常先选取一条与报文特征相匹配的规则。入侵检测规则匹配过程如图3 所示。

图3 入侵检测规则匹配过程

由图3 可生成待检测报文,得到预验证数据集。

第二部分:验证阶段。在验证阶段,对报文逐条遍历,当报文特征符合规则的全部约束条件时,则生成告警信息。详细检测过程为:

步骤1:根据多模式匹配时间复杂性,从多个特征集中抽取出候选规则;

步骤2:针对步骤1 所获得的多个多模式匹配规则,假定多模式匹配规则数目为t,签名依次为1,2,…,t;

步骤3:对规则逐个遍历,若将签名设定为「命中」,则在「命中」前的n-1 次都是无效的,由此确定签名序列中最后一次签名的位置,即为有效命中结果,该结果即为入侵行为数据。

由于部分入侵行为数据与电力设备响应有关,因此,需要使用三级检测模式,确保入侵检测过程[17]中不会遗漏任何一个可疑数据。第一级检测主要是检测所有电力设备运行状态,搜索异常运行状态信息;第二级检测主要是对异常数据作出反应,经过一级检测之后,整合全部数据,构建异常数据库,通过整合与归类确定不同攻击手段;第三级检测是将前两级检测结果与历史数据库中有关的攻击行为数据进行比对分析,获取全部分析结果。在电力设备某个终端显示request 中带有“/gitbin”字样,则说明这是一个入侵攻击者正在寻找电力系统漏洞风险,通过机器学习与大数据技术,查询行为状态是否保持在正常指标内,再通过预处理定时定量对攻击行为数据完整性进行分析,获取精准分析结果。

4 实 验

4.1 数据集

选取存储在电网中的Cup 数据集,一个完整的TCP 会话就是一个电力设备通电使用记录,电网连接记录属性集,如表1 所示。

表1 电网连接记录属性集

表1 中包含10 个连续型属性,5 个离散型属性。

4.2 攻击手段设定

4.2.1 缓冲区溢出

缓冲区溢出的根本在于C++自身不安全,检查阵列和指针之间的参考是没有界限的。缓冲区溢出漏洞是很普遍的,在C 语言开发工具中,存在这类漏洞。

4.2.2 运行进程干扰

运行进程是指一个进程可以读取与写入另一个进程,该攻击方式是将sbrk()函数直接插入到代码中,或者在进程空间中寻找适当空间,然后编写代码和重写原始数据,从而实现恶意代码执行的目的。

4.2.3 特洛伊木马

特洛伊木马是一种存在于计算机中的程序,能够窃取口令、拷贝或移除文件。

4.3 实验平台

电力设备运行监测平台是用来监视电网中违反系统安全性原则的平台,其结构如图4 所示。

图4 电力设备运行监测平台

由图4 可知,数据源为平台提供监控数据,分析引擎负责分析与审核数据,一旦发现有入侵行为,就立刻将数据传递给响应模块,响应模块随机作出反应,生成反馈信息。

4.4 实验结果与分析

为了验证基于机器学习与大数据技术的入侵检测方法的性能,将其与文献[1]方法和文献[2]方法对比分析。使用了检准率Pa、误警率Pb两个指标。设实验集合分别为S1 和S2,两个实验集合经过训练后得到的ROC 曲线,如图5 所示。

图5 ROC曲线

由图5 可知,所提方法在三种攻击手段下,检准率均大于0.95,其余两种方法检准率均低于所提方法,尤其是文献[2]方法误警率较高。由此可知,所提方法的检测准确率较高。

5 结束语

使用机器学习与大数据技术结合的方法检测入侵行为,将样本映射到特征空间,处理异构数据,再结合多模式匹配规则实现入侵检测。通过该方法,能够有效解决入侵检测过程在低误警率的前提下具有高检准率这一难题。

猜你喜欢
模式匹配预处理机器
机器狗
机器狗
基于模式匹配的计算机网络入侵防御系统
具有间隙约束的模式匹配的研究进展
OIP-IOS运作与定价模式匹配的因素、机理、机制问题
未来机器城
基于预处理MUSIC算法的分布式阵列DOA估计
浅谈PLC在预处理生产线自动化改造中的应用
络合萃取法预处理H酸废水
基于散列函数的模式匹配算法