基于融合密度聚类综合算法的工业经济数据库异常信息检测

2022-07-07 07:49
现代工业经济和信息化 2022年5期
关键词:离群分类器聚类

王 健

(唐山市热力集团有限公司,河北 唐山 063000)

引言

现代社会的发展已经离不开网络化与数字化,很多企业为了获取有价值的工业经济数据库资源企图通过非法的手段来获取到相应的信息。因此,数据库安全已经成为社会各界发展当初普遍重视的问题。然而在传统意识中,人们往往疏忽系统内部的防范而只注重系统外部的入侵。由此可见,研究数据库系统内部攻击的检测方法更具价值性。本文试图找到区别于针对操作系统和计算机网络的传统检测方法的新型检测法,即针对数据库系统的检测方法[1]。

1 工业经济数据库异常检测方法

早期检测方法,主要有:通过挖掘数据间的依赖性从中找到不符合常态性依赖的异常检测的方法中,Kamra从中找到通过寻求并拒绝偏离于交互用户正常配置的一种方法。而佛吉亚则是利用用户所融合的信息源以及信度产生的更新频率而寻找到异常的一种检测方法。这些方法固然能够解决一些问题,然而错误率较高,不能做到精准检测。

很多学者将深入学习以及机器学习等理论方法,用于数据库的异常检测。然而,该种方法建模过程较复杂且实时更新速度慢。后来斯奈等人又提出将关联规则以及聚类分析运用到检测数据库方法中来。布德等人则提出,将学习分类器系统以及神经网络应用到数据库的入侵检测,但最终所提出的密度聚类检测方法则更加符合数据库中用户的行为特征,特别是对于异常化的检测形态,能够比较稳定检测样本。但值得注意的是,在应用密度聚类检测方法的同时,对于做监测的样板也会因为聚类不稳定而出现检测误差[2]。

集成学习方法,在近年来已被应用于数据库的异常检测当中。它的检测性能较为稳定,准确率较高。很多学者为了将其进一步完善而将改进后的决策树作为集成学习方法的补充,目的就是为了进一步提升检测的准确率。

通过以上分析,传统的数据库异常检测方法,方法单一且准确率较低,所以,利用密度聚类与集成学习的数据库异常检测方法能够更为精准地对数据库情况进行检测。

2 算法解析

2.1 OPTICS算法

该方法是一种较为独立的密度聚类算法,它是在原有的基于密度空间聚类的计算方法所做出的进一步改进,能实现对不同密度的聚类结构分析,其方法便是通过有序的排列创设出任意一种密度的聚类[3]。

该方法的计算核心切中于簇序的排列,以及聚类临近领域的半径值范围,在这个范围中至少会有其他对象,这时的领域值ε便会通过任意的对象p,而求得所容纳的对象数量。其中,最为关键的便是核心距离以及可达距离两个阈值范围。有了这两个数据,便能计算得出与之相关的聚类簇排序,该方法是通过排序而得出对于数据结构的一种聚类观察方法。

2.2 局部离群因子

利用样本中点在局部中所分布的状态,以及它与离群之间的距离程度,所运用到的检测方法,是基于密度的离群状态而得出的。在数据库中,每一个聚点因为离群产生一定的分布,这个大小会界定在与数值1之间的关系性上。当该距离大于1时,则将被认定为离群因子,小于1,则为正常点。该方法通常会结合聚类方法来计算得出离群点,进而得出局部离群因子。

3 工业经济数据库异常检测方案构建

3.1 检测流程设计

工业经济数据库异常检测方法是以融合密度聚类方法与集成学习而形成的综合性异常检测法,具体检测流程如图1所示。主要过程包括数据预处理、训练、学习模型构建以及异常检测[4]。

通过图1可知,首先要进行数据预处理。该方法主要为了能够提取用户的行为特征值,并将其处理为界定于0~1之间的数据型数据,便于通过聚类与集成学习综合方法所便于使用。其次是训练。现在的目的是为了得到不同规模的训练数据包。这样在密度聚类方法中便可计算得出相应的模型,已取得先验知识。再通过聚类方法分析便能得到簇的数据。对于未能形成簇的数据,则可通过集成学习模型来做后续处理。再有,学习模型构建。在该模型构建的过程中,可采用个别分类器,将原有的数据模型通过集成学习的方法组合形成新的模型,并对其特征进行分类计算及对所得到的结果实施特征性存储。最后是检测。将新的用户与数据库中所存储的特征库数据进行匹配,进而检测用户行为的异常与否。

3.2 数据预处理

数据只有经过预处理,才可进一步的分析,利用元组来描述用户的行为。这些描述的元素包括用户的标识以及查询的类型和相应的语句条数等各种元素信息。这些信息会经过密度计类以及集成学习进行数值处理,然后进行统一性转化。具体的处理方式包括:对于连续性数据要保持数据的原面貌;对于离散型、非数值型数据,则通过所建立的全局散列表来分析数据,从中得出映射值,该映射值同一元素,只能拥有一个映射值;对于元组型数据首先要对整体数值进行映射,才能对元组本身进行数值映射。

3.3 训练

在训练阶段,通过融合密度聚类方法以及集成学习数据分析的方法来对数据进行检验。首先利用OPTICS 算法分别对最大值与最小值进行聚类,在最小值当中运用聚类的方法得出先验知识。它通过参数的输入计算得出该数据值与可达核心部分的距离,并进行输入,然后通过不同的公式方法得出可到达的距离值并转换为排序方式,进而得出数据点。这些数据点会形成聚类簇,再结合运用局部离群因子的计算方法而求得点距离群程度[5]。

3.4 学习模型

习模型包含了多个个体分类器,以组合成集成学习模型整体感应器。它包括分类器、决策数以及多层感知器等。在学习模型中所进行各个分类器的测试,最终通过学习模型中的投票方式来获取到分类结果,这样能够大大提升测试的精准性。此外,也可通过迭代修正测试数据集权重的方式,来减少误差。具体如图2所示。

3.5 异常检测

对于以往阶段所检测到的正常用户信息进行特征提取,并将其录入到正常行为记录表当中。同样对于异常行为特征的信息,则需保存到异常行为记录表当中。这些不同的数据信息,分别会将与新用户进行相应的匹配。未能匹配成功的数据或对于新的数据则由集成学习模块进行处理。具体如图3所示。

4 仿真实验分析

4.1 测试数据集

为了能使实验所进行的测试数据准确,依据以往学者所提出的数据生成原理而拟定生成实验所需要的测试数据集。首先构建生成用于实验所用的符合高斯分布的数据产生模拟器,并将用户的行为数据信息进行检测。对于用户中的正常行为或异常行为,则通过不同的记录方式进行模拟。用户的正常行为会通过随机的方式来创建簇中心。而异常的行为则会利用课题中产生的模拟器来创建更加分散的数据信息[6]。这些信息会由多个二维数据构成数据集合点,具体如图4所示。

4.2 实验结果

利用设计的模拟器产生的30 000条工业经济测试数据集而形成。在所进行测试的数据集中,每一条记录都含有7个属性元组。并标有所对应的“正常”或“异常”标签。通过分析得知密度聚类对于研究方案中的数据有着非常重要的影响,它的分类主要有相应的参数所推断的结果而形成对用户的数据信息正常与否的检测测试。所测试的结果显示利用密度计类的检测方法,对于数据信息的聚集效果是比较显著的。具体如图5所示。

通过图5与图4的数据分析可以得知融合密度聚类与集成学习工业经济数据库异常方法检测所形成的模拟器,对于数据分析有着较高的精准度。这种复合型模拟器的检测方法是利用于个体分类器的聚集所形成它与个体分类器相比在性能上有着较大幅度的提高。有了密度聚类与集成学习的综合性组合,误报率明显有所下降,这也可作为检测系统的最主要策略。

5 结语

基于密度聚类与集成学习的工业经济数据库异常检测方法对于用户的数据预处理以及收集构建用户行为特征等聚类算法等,都能进行精准性分析。并可以此为特征创建用户行为特征库,以用于用户行为正常与否的检测,通过数据行为的测试可以得出该方案对于检测用户的异常行为有着较高的精准度,因此值得推广。

猜你喜欢
离群分类器聚类
一种基于邻域粒度熵的离群点检测算法
离群动态性数据情报侦查方法研究
基于K-means聚类的车-地无线通信场强研究
基于深度优先随机森林分类器的目标检测
一种相似度剪枝的离群点检测算法
基于差异性测度的遥感自适应分类器选择
基于高斯混合聚类的阵列干涉SAR三维成像
候鸟
基于Spark平台的K-means聚类算法改进及并行化实现
基于改进的遗传算法的模糊聚类算法